吳明倫 Allen Wu

Data Scientist / Engineer

Taiwan

緯創資通 - 軟體工程師 (機器學習、自然語言處理)

https://minglunwu.github.io

目前在緯創資通進行自然語言處理及分析，具備文字分析的實務經驗。

擁有強烈的自主學習能力，樂於透過線上課程及各項資源累積新知，並將所學透過部落格或是討論的形式，與他人進行交流，以達共同成長的效果。

除文字分析外，對於MLOps的數位工具(MLFlow, Airflow) 及容器化(Docker, K8S)有相當的興趣，將這些工具導入至專案中，期許自己持續累積相關經驗。

技能

深度學習

Tensorflow2
Pytorch
Pytorch Lightning
Transformers

API開發

Flask
FastAPI
Azure Serverless API

MLOps

Linux
Docker, K8S
Airflow
MLFlow
Gitlab CI/CD

資料庫

MongoDB
Relational Database

工作經歷

軟體工程師 (資料分析、自然語言處理) • 緯創資通

三月 2020 - Present

智慧醫療 - ICD10 國際疾病分類標準碼預測系統

依據病人的文字病摘及其他病理報告，預測該次診療的疾病分類碼，協助疾病分類師進行分類。此專案實際提供區域醫院上線使用，每週使用量約300-400次。在此專案中負責：

導入Clinical-BERT模型，提升10%準確率
使用 Azure Serverless API 及 PostgreSQL 建構雲端服務
使用 Flask 建立POC系統，收集初期使用者回饋

數位轉型 - 使用外部資料預測產線產量

收集市調公司、論壇、社群媒體等外部文字資料，預測工廠端特定產品未來的出貨量，協助降低存貨成本。在此專案中負責：

撰寫爬蟲程式，收集外部文字資料 (四個來源、數十萬則內容)
使用 Docker 建立 PostgreSQL, MongoDB, MLFlow 專案環境
導入 MLFlow 工具，管理模型超參數，並搭配Amazon S3 進行模型版本管控
以 XLMRoberta 萃取文字情緒，建模以預測未來產量
使用 Azure 生態系建立自動化流程 ( 自動執行資料收集、 ETL 、建模、部署)

框架建置 - 文字分析框架開發

規劃及開發文字分析框架，供部門文字分析團隊使用。此框架以主流語言模型(BERT, GPT-2, XLNet)處理常見的文字下游任務 (Sequence / Token Classification, QA)。此框架及相關成果在後續三項專案中持續使用。在此專案中負責：

研讀論文、根據使用情境規劃框架架構
以 Transformers 及 Pytorch Lightning 開發框架
導入 Gitlab CI/CD 機制，建構自動化整合機制

其他經歷

Side Project - Text Mining Workflow Platform

與研究所成員共同開發「文字探勘工作流程系統」，以利使用者快速的建立和執行文字分析的工作流程，並且針對工作流程的合法性以及可執行性進行驗證，其中包含文字分析常見的「資料爬蟲」、「文字前處理」、「特徵轉換」、「視覺化」步驟。在此專案中負責 :

以 Flask 開發系統「視覺儀表板」功能，將處理後的結構資料轉化為各類型圖表
負責在 Kubernetes 集群中部署 Airflow 工具，負責工作流程的排程及管理
導入 Jenkins ，建置持續整合/持續部署的自動化流程

研究所專案 - 中山大學管理學院文字分析平台

此平台提供各領域的使用者進行簡易的文字分析，利用平行運算資源，讓使用者快速地對文章做斷詞斷句及其他標注處理。透過平台處理完後的資料，可以根據使用者的需求實現資料視覺化。此平台2019/05 上線後，持續服務中山大學管理學院及各大專院校師生。在此專案中負責：

撰寫爬蟲程式，以 Linux Crontab 定期爬取各大論壇、新聞文字資料
透過 Celery 建置平行運算服務，提升CoreNLP, Jieba等文字前處理的效率
以 Docker 及 Docker-Compose 封裝相關服務，提升部署速度
透過 Shiny 開發視覺化功能，使用者可依需求繪製各類型圖表(文字雲、圓餅圖...)

研究所專案 - 人工智慧平台 - 問答系統

此專案整合人工智慧相關服務，包含開放源碼應用程式及程式庫，提供各種商業需求的解決方案。在此專案中負責：

整合聊天機器人相關開源套件：Deeppavlov, Chatterbot，建構聊天機器人解決方案
以開源 Keras CNN模型，建構問答系統的解決方案
優化模型效率，使用LSH技術將預測速度由數十秒縮短為一秒內

學歷

2018 - 2019

國立中山大學

資訊管理研究所 (五年學碩士計畫) - GPA 3.88 / 4.3

碩士論文 : 建構跨語言情緒辭典之框架研究
指導教授 : 黃三益博士
論文 "An approach to Cross-Lingual Sentiment Lexicon Construction" 登錄 IEEE Big Data Congress 2019 研討會

2015 - 2018

國立中山大學

資訊管理學系 - GPA 3.9 / 4.3

證照

Coursera 線上課程

其他

Scrum Master Accredited Certification
TOEIC 885

經歷

2020 中山大學資管系程式設計研究社 - Python 講師
中山資管所社群媒體分析、資料庫系統 - 教學助理