工作內容:
1. 協助實驗室完成自然語言處理方面研究之程式開發以及實驗結果分析彙整
2. 輔助[機器學習]以及[文本探勘]兩堂課的助教工作
3. 實驗室機器管理及新設備之架設工作
詳細研究內容:
- Automated word segmentation in Tang poetry and epitaph
project
(Jun. 2019 – Jul. 2019)
1. 開發分析工具以驗證不同來源標記資料的品質
2. 使用 gensim word2vec 套件訓練文字模型
3. 將文字模型結合 Keras 提供之 LSTM模型並嘗試加入其他文本特徵如韻
腳,訓練出唐詩及唐代墓誌銘之自動斷詞斷句模型
4. 最終成果將斷詞斷句準確度提升至接近90%,研究成果論文已投稿並被
Digital Humanities 2020 Conference 所接受
- Chinese text content simplification and compression project
(Nov. 2018 – Dec. 2018)
1. 使用python beautiful soup套件及正規表示式擷取地方誌中含有時間內
容之文本
2. 藉由python NLTK 及 Stanford NLP 工具設計出中文句法架構分析工
具,並產出精簡化的語意內容,最終依照時間整理出簡化年曆
3. 研究成果已投稿並成功被Digital Humanities 2019 Conferencen
所接受