資訊擷取做品

Avatar of 胡子源.
Avatar of 胡子源.

資訊擷取做品

Taoyuan City, Taiwan
為我修資訊擷取課的成果做品,透過撈取pubmed的文章,透過利用自己用lstm訓練的斷句,與相關語意處理工具,製作一個搜尋系統並以網頁呈現 斷句方面我是用寫爬蟲並用beautifulsoup去蒐集pubmed上的資料,約100篇文章並自己標記答案,以這個句號是否為句子的結束為答案(0 or 1),並把句子前面的子句中的詞先換成詞性(part of speech tag)在換成tensor丟入lstm模型訓練,至於為什麼會用lstm是因為當時我只了解lstm的原理,相信用GRU又會提升些準確度,並以pytorch去開發 此外我也加入word2vector在加入且增加相關的搜尋結果,並加入了一些自己的想法在搜尋結果的ranking上面,且閱讀相關paper修改傳統的tfidf演算法,並以web呈現,由於內容較多此部分可以參考相關報告1裡的內容 相關報告1: https://drive.google.com/open?id=1AYYc8Nb6mFWGNtmYXVDPJ-kWRS-PXGqG
Avatar of the user.
Please login to comment.

Published: Apr 26th 2020
19
7
0

pytorch
LSTM
beautifulsoup
wikipedia api
W2V

Share