毛楚琳

擅長以python進行自然語言處理的資料蒐集、前處理及建立模型,大學專題和研究所論文都是往自然語言處理 、深度學習的方面發展。願意學習結合深度學習模型和實際應用的系統,如網頁或應用程式,或是蒐集訓練資料如網頁爬蟲、感測器資料等。

  New Taipei City, Taiwan    


學歷


國立交通大學

數據科學與工程研究所

Sep 2018 - Oct 2020
Hsinchu, Taiwan

  • 畢業論文:結合知識圖譜與文本來訓練專業領域詞彙詞向量
    • 指導教授:黃冠華 教授
  • 專題:臉型與鏡框配適度
  • 2018國泰大數據競賽 — 保險商品推薦

國立臺北大學

電機工程系

Sep 2014 - Jun 2018
New Taipei City, Taiwan

  • 專題:整合資料分析及呈現
  • 畢業專題: 以Word2vec與卷積神經網路實現嘲諷句偵測
    • 指導教授:林嘉洤 教授
  • 產品展示:Zigbee智慧家庭概念

技能



研究領域

  • 自然語言處理
  • 深度學習
  • 機器學習

程式語言

  • 語言:
      pythonC
  • 深度學習框架:  tensorflow pytorch
  • 會使用  docker

嵌入式

  Arduino  BeagleBone

  • 資料庫:   MongoDB  MySQL  Amazon RDS
  • Web API:Flask

自然語言處理



結合知識圖譜語文本
來訓練專業領域詞彙詞向量

從網路上自行蒐集需要的專業領域資料,建立適合這些資料的模型,產生專業領域詞彙的詞向量。

  • 利用爬蟲蒐集網路上統計相關知識圖譜和文本作為訓練資料
  • 考慮到專業領域詞彙的特性, 對資料做適當的前處理
  • 結合同時利用文本和知識圖譜訓練的pTransE,以及加強處理知識圖譜中關係的 pTransR,建立出pTransR模型

以Word2vec與卷積神經網路
實現嘲諷句偵測

使用爬蟲程式將台灣的網路論壇文章儲存起來,並且以CNN和SVM做分析比較,最後CNN的準確度略高為SVM。

  • 爬取mobile01汽車討論區資料
  • 使用詞性標記、Word2vec以及情緒極性字典進行資料前處理
  • 訓練word2vec模型,建立詞向量
  • 取得特徵 - 詞性、字詞極性分數與句子極性分數
  • 建立CNN以及SVM模型

KneserNey語言模型

將12類的句子做tokenize, padding和轉為小寫後,建立 12個KN Language Model。將測試句子分別輸入12個模
型,類別判斷為得分最高者。

語義對應 — Wordnet to Wiki

利用英翻中和中翻英詞典,以及word2vec比較中文單詞相似度,將每個英文單詞的不同意思分別對應到wiki頁面。

機器翻譯

以keras作為框架訓練一個LSTM模型,將英文短句翻譯為中文。

深度學習



臉型與鏡框配適度

透過臉型辨識,找出受試者之臉型,進而給出合適自己臉型的鏡框類型之建議,並將鏡框合成至臉上。 

  • 從google圖片搜尋爬取圖片
  • 清除不需要的臉型圖片(包含混雜臉型、臉型不清等)、將組圖切割成單一圖片、刪除各類別內及跨類別之重複的圖片
  • 利用AAM+Face segmentation擷取臉部
  • 用VGG、dilated convolution、SPP net、Inception、coordinate convolution等模型進行分類

CNN — 圖片分類

運用kaggle的animal-10資料集,經前處理後進行分類。

RNN — 預測論文接受度

將論文名稱輸入RNN和LSTM,預測此論文是否會被接受。

VAE — 重新建構圖片

藉由學習訓練資料裡人物的特徵,重構出原本的人臉,或是由這些特徵產生出不存在於訓練資料裡的人臉。


cycleGAN — 風格轉換

用卡通和動漫兩種資料集,將兩者的風格互相轉換。

機器學習



2018國泰大數據競賽 —
保險商品推薦

藉由分析客戶的個人資料及保險紀錄,推測客戶下次會購買的保險,針對不同客戶做出商品的推薦。

獲得晉級複賽資格。

  • 將原始資料進行補值和轉換
  • 特徵選取,找出重要的特徵值
  • 嘗試各種模型,如KNN、CNN、SVM、Randomforest、Xgboost等
  • 以10 fold cross validation後的準確率評估,最終選擇xgboost

整合資料分析及呈現


建立一個從將資料存入資料庫 ,進行資料分析 ,到查詢資料庫中內容和呈現分析結果的網頁,功能完整的pipeline。

  • 將資料集輸入到MongoDB
  • 使用python或R進行資料分析
  • 以flask製作的RESTful網頁
    • 查詢資料
    • 分析資料
  • 將系統雲端化
    • Amazon RDS MySQL代替MongoDB
    • 將以flask建立的網頁佈署到Amazon Elastic Beanstalk

首頁資料分析資料查詢

嵌入式系統



Zigbee智慧家庭概念

以zigbee連接家中各處的家電裝置與主控台,達成可以人為的從主控台控制,或是由家電傳回的訊號自行調整。

主控台端(PC端)

在PC上的操控介面由c# .net寫成,PC上會連接一個zigbee coordinator。

  • 可由主控台直接控制燈光和風扇

 

開關門感測器

偵測門的狀態

溫度感測器

偵測現在溫度

 

模擬燈光模組

模擬家中的電燈

模擬風扇模組

模擬家中的風扇

  • 或由環境判斷行動
    • 設定開門時燈光會開啟,關門時燈光會關閉
    • 設定溫度高於28度時,開啟電風扇;溫度越高時,風扇轉速也越高

附件