WikiSource2DocuXML

Avatar of 李旭恩.
Avatar of 李旭恩.

WikiSource2DocuXML

研發工程師 @ 聯瞻資訊股份有限公司
Taipei City, Taiwan

WikiSource與DocuSky簡介

WikiSource作為一個世界的文獻蒐集平台,其中可供研究者使用者的資料繁如星海,為了增加使用者的便利性,也提供了檢索功能讓使用者可以找到需要的文本,但因為缺乏建立個人的資料管理方式,使用者只能將資料下載之後自己整理使用。

DocuSky是由台灣大學數位人文研究中心研發,是提供研究者一個工具集合平台,研究者能在此將資料匯入,並加上自訂的標籤或詮釋資料,並透過自己的方式將資料拆分,如此,能加速使用者對文件的分析效率,並提供許多相關分析工具讓人文研究更加便利。


Wiki2DocuXML

WikiToDocuXml (docusky.org.tw) 是一個純前端的維基文庫應用工具,他是作為 維基文庫 與 DocuSky 數位人文學術研究平台 之間的存在,其目的是透過此工具將WikiSource原本只能單純瀏覽的資料,經過使用者的檢索與蒐集之後,附加個人化的標記與詮釋資料(元資料 - 維基百科,自由的百科全書 (wikipedia.org)),最後將檔案轉為DocuSky能接受的DocuXML格式匯入個人資料庫。


開發工具

鑑於當時Vue3剛出現尚未穩定,我選擇了使用套件Buefy(Bulma與Vue的組合工具)來開發,並串接WikiSource提供的MediaWiki API,也使用了學術開源的HandsonTable來作為大量資料編輯的工具,並自己實作了Highlight文字加上標籤的工具。此工具的詳細的使用說明與功能皆在以下網址中有詳細的教學。


https://docusky.org.tw/DocuSky/docuTools/ComposeDocuXml/wiki2docuxml/


開發難點

  1. MediaWiki的API整理文件不全,且獲得的文稿皆為HTML格式,需要自行清理
  2. 如何讓使用者能簡易地編輯大量資料,最後在github搜尋得到開源工具,但因為有部分功能尚不支援Vue.js,所以還是要透過原生JS來做修改
  3. 使用者編輯存檔:這是與使用者討論後所附加的功能,因為使用者可能會在附加個人功能時花掉很多時間,因此他們希望可以透過保存CSV或是TXT的方式以免資料消失,我也提供localStorage的存檔方式,讓使用者可以不用得要一次編輯大量資料,而可以以自己的安排來完成工作
  4. API速度問題:原先MediaWiki的API取得資源的方式是一筆完成後再進行下一筆,如此則花掉了大量時間,後將Fetch API的方式改為平行化之後,則速度提升了大約10倍左右。
使用者透過檢索與勾選資料,不用在維基文庫一筆一筆下載所需的文本,而可以直接將其大量取得後,轉為特定格式匯入個人資料庫,讓數位人文研究能獲得更多的資源與更高的效率
Avatar of the user.
Please login to comment.

Published: Dec 16th 2022
57
3
0

Tools

javascript
JavaScript
css3
CSS3
vuejs
Vue.js

詮釋資料標記
數位人文研究
JS
CSS
HTML
Bulma
Vue

Share