Twitter災難情感分析

Avatar of 王珩.
Avatar of 王珩.

Twitter災難情感分析

資料科學家
Taipei City, Taiwan

在預處理階段,我們首先進行了資料清洗,去除了非文字元素、標點符號和停用詞。接著,採用詞性標籤技術,將文本中的詞彙進行詞性分類,如動詞、名詞等,並將其轉換成wordnet格式以進行詞形還原。經過統計分析,我們發現43%的推文被標註為災難,而57%為非災害,且這兩類推文的主要長度大多集中在10-20字之間。進一步的詞頻分析揭示了災害推文中常見的關鍵詞如"fire"、"kill"、"bomb",而非災害推文則多包含"get"、"like"、"go"等一般性詞彙。為了增強模型的泛化能力,我們對資料進行了資料增強,包括隨機刪除、插入、以及同義詞替換等技巧。


在模型建立方面,我們選擇了基於Transformer架構的BERT、DistilBert以及GPT-2等NLP模型進行分析。利用PyTorch作為主要的深度學習框架,我們執行了Tokenization,使用BERT的tokenizer將文本轉換為tokens,並建立了Attention Masks以區分真實的tokens和填充的tokens。經過三個模型的測試,BERT在各項指標上均表現最佳,尤其在epoch為3時,模型的驗證精確度達到了0.84,F1 score達到0.79。這樣的結果在Kaggle的公開競賽中能夠進入前5%,充分證明了我們模型的預測能力和專業性。

Twitter已成為緊急時期的首要通訊工具。在智能手機的廣泛普及下,人們有能力即時報告所觀察到的緊急事件。但人們語言中的隱喻和比喻使得自動化工具難以辨識真假。本研究的核心目的是建立一個基於深度學習的模型,專門針對推文進行真實災難與否的情感性分析。
Avatar of the user.
Please login to comment.

Published: Oct 23rd 2023
41
7
0

Tools

python
Python

Share