碩論:應用機器學習與深度學習方法在網路傷害性新聞 與惡意評論偵測辨識上之研究

Avatar of 陳怡蓁.
Avatar of 陳怡蓁.

碩論:應用機器學習與深度學習方法在網路傷害性新聞 與惡意評論偵測辨識上之研究

數據應用工程師
New Taipei City, Taiwan

碩士論文:應用機器學習與深度學習方法在網路傷害性新聞 與惡意評論偵測辨識上之研究

論文特色

  • 主要為運用機器與深度學習方法於自然語言處理(NLP)問題上。 
  • 針對文字資料斷詞後進行特徵擷取工程,取得情緒、詞向量特徵。 
  • 利用機器學習方法建立分類器,以及使用BERT架構建模。 
  • 解釋與分析特徵內容與模型成效,例:詞袋分布、特徵選擇、混淆矩陣。


研究成果

  • 本研究對於整體傷害性文本辨識準確率平均達81%
  • 惡意評論文本辨識準確率達到94%
  • 複雜的傷害性新聞文本辨識準確率則有68%
  • 利用特徵選擇與詞袋模型特徵,針對傷害性文本內容之特徵集合與關鍵字進行探討與分析。


使用技術

  • (特徵工程) NLTK、tidytext、setimentr、gensim 
  • (BERT建模) SimpleTransformer 
  • (分類器建模) Scikit-Learn 
  • (資料分析) Pandas、matplotlib


※因尚未正式公開,僅提供摘要內容參考。

碩二完成畢業論文以機器學習與深度學習應用於自然語言處理應用上,主要針對網路傷害性新聞與惡意評論進行特徵工程與建模,探討兩者的分類效果與特徵內容。 ※ 因尚未完整公開,僅提供摘要內容參考。
Avatar of the user.
Please login to comment.

Publicado: sep 5º 2021
20
2
0

Herramientas

python
Python

classification
Feature engineering
toxic comment
gensim
scikit-learn
BERT
NLP
deep learning
machine learning
python

Compartir