吳明倫 Allen Wu

Data Scientist / Engineer

  Taiwan

緯創資通 - 軟體工程師 (機器學習、自然語言處理)

            https://minglunwu.github.io

目前在緯創資通進行自然語言處理及分析,具備文字分析的實務經驗。

擁有強烈的自主學習能力,樂於透過線上課程及各項資源累積新知,並將所學透過部落格或是討論的形式,與他人進行交流,以達共同成長的效果。

除文字分析外,對於MLOps的數位工具(MLFlow, Airflow) 及容器化(Docker, K8S)有相當的興趣,將這些工具導入至專案中,期許自己持續累積相關經驗。

技能

深度學習


  • Tensorflow2
  • Pytorch 
  • Pytorch Lightning
  • Transformers

API開發


  • Flask
  • FastAPI
  • Azure Serverless API

MLOps


  • Linux
  • Docker, K8S
  • Airflow
  • MLFlow
  • Gitlab CI/CD

資料庫


  • MongoDB
  • Relational Database

工作經歷

軟體工程師 (資料分析、自然語言處理)  •  緯創資通

三月 2020 - Present

  • 智慧醫療 - ICD10 國際疾病分類標準碼預測系統

依據病人的文字病摘及其他病理報告,預測該次診療的疾病分類碼,協助疾病分類師進行分類。此專案實際提供區域醫院上線使用,每週使用量約300-400次。在此專案中負責:

  • 導入Clinical-BERT模型,提升10%準確率
  • 使用 Azure Serverless API 及 PostgreSQL 建構雲端服務
  • 使用 Flask 建立POC系統,收集初期使用者回饋
  • 數位轉型 -  使用外部資料預測產線產量

收集市調公司 論壇 社群媒體等外部文字資料,預測工廠端特定產品未來的出貨量,協助降低存貨成本。在此專案中負責:

  • 撰寫爬蟲程式,收集外部文字資料 (四個來源、數十萬則內容)
  • 使用 Docker 建立 PostgreSQL, MongoDB, MLFlow 專案環境
  • 導入 MLFlow 工具,管理模型超參數,並搭配Amazon S3 進行模型版本管控
  • 以 XLMRoberta 萃取文字情緒,建模以預測未來產量
  • 使用 Azure 生態系建立自動化流程 ( 自動執行資料收集、 ETL 、建模、部署)
  • 框架建置 - 文字分析框架開發

規劃及開發文字分析框架,供部門文字分析團隊使用。此框架以主流語言模型(BERT, GPT-2, XLNet)處理常見的文字下游任務 (Sequence / Token Classification, QA)。此框架及相關成果在後續三項專案中持續使用。在此專案中負責:

  • 研讀論文、根據使用情境規劃框架架構
  • 以 Transformers 及 Pytorch Lightning 開發框架
  • 導入 Gitlab CI/CD 機制,建構自動化整合機制 

其他經歷

  • Side Project - Text Mining Workflow Platform

與研究所成員共同開發「文字探勘工作流程系統」,以利使用者快速的建立和執行文字分析的工作流程,並且針對工作流程的合法性以及可執行性進行驗證,其中包含文字分析常見的「資料爬蟲」、「文字前處理」、「特徵轉換」、「視覺化」步驟。 在此專案中負責 : 

  • 以 Flask 開發系統「視覺儀表板」功能,將處理後的結構資料轉化為各類型圖表
  • 負責在 Kubernetes 集群中部署 Airflow 工具,負責工作流程的排程及管理
  • 導入 Jenkins ,建置持續整合/持續部署的自動化流程

此平台提供各領域的使用者進行簡易的文字分析,利用平行運算資源,讓使用者快速地對文章做斷詞斷句及其他標注處理。透過平台處理完後的資料,可以根據使用者的需求實現資料視覺化。 此平台2019/05 上線後,持續服務中山大學管理學院及各大專院校師生。在此專案中負責:

  • 撰寫爬蟲程式,以 Linux Crontab 定期爬取各大論壇、新聞文字資料
  • 透過 Celery 建置平行運算服務,提升CoreNLP, Jieba等文字前處理的效率
  • 以 Docker 及 Docker-Compose 封裝相關服務,提升部署速度
  • 透過 Shiny 開發視覺化功能,使用者可依需求繪製各類型圖表(文字雲、圓餅圖...)

此專案整合人工智慧相關服務,包含開放源碼應用程式及程式庫,提供各種商業需求的解決方案。在此專案中負責:

  • 整合聊天機器人相關開源套件:Deeppavlov, Chatterbot,建構聊天機器人解決方案
  • 以開源 Keras CNN模型,建構問答系統的解決方案
  • 優化模型效率,使用LSH技術將預測速度由數十秒縮短為一秒內


學歷

2018 - 2019

國立中山大學

資訊管理研究所 (五年學碩士計畫)  - GPA 3.88 / 4.3

2015 - 2018

國立中山大學

資訊管理學系 - GPA 3.9 / 4.3


證照

Coursera 線上課程

其他


經歷

  • 2020 中山大學資管系程式設計研究社 - Python 講師
  • 中山資管所 社群媒體分析、資料庫系統 - 教學助理