李宜澤 | Frederick Lee

AZION 驊宏資通集團(3年研發替代役、研發工程師)：
LLM研究開發及模型預訓練、Sol-Idea輿情網站維護、Gufonet搜尋引擎應用、自然語言處理應用、UAV電腦視覺及空間物件座標計算相關專案。

鴻海工業大數據辦公室(實習生)：

NLP、神經網路分析及爬蟲程式開發。

國立成功大學工程科學系(碩士)：

學生時期：個人PowerPoint

碩士論文

碩論PowerPoint：使用具注意力機制之孿生神經網路以分析新聞事件支持度

淡江大學數學系(學士)

Machine Learning\ Deep Learning Engineer\R&D Engineer\AI Engineer
Taipei City，TW

Github

Linkedin
mail : [email protected]

學歷

國立成功大學, 碩士學位, 工程科學所, 2020

淡江大學, 學士學位, 數學系純數組, 2017

熟練技能

Deep Learning、Machine Learning、NLP(Natural Language Processing)、LLM Application、Object Detection、Model Training and Optimization、Web Development。
Language：Python、C#、Vue.js
Tool：MSSQL \MYSQL、ROS、Qt Designer、Docker

常用工具

AI：Pytorch、Keras、Hugging Face、Transformers、OpenAI、Langchain、Gradio、OpenCV、SentenceTransformers。
Basic：PyQT5、Flask、Selenium、Beatifulsoup、Pymssql\Pymysql

工作經歷

驊宏資通正職：RDD (研發替代役)、Software Engineer, Sep 2020 ~NOW

Sol-Idea輿情系統維護
Sol-Crawler爬蟲系統維護
Gufonet搜尋引擎應用
MiVIP 3D空間坐標重建專案
鐵雲Vaidio 影像物件辨識應用
衛福部QA chatbot(LLM)
台灣證交所AI專案
桃園刑案分析專案
主計總處創新變革項目智慧比對專案
GufoLAB 自然語言研究實驗室
AI鬥智賽（佳作）

上醇股份有限公司, 兼職, Side Project

生理醫學信號即時顯示系統(國防大學)
地震模擬系統(台北市政府消防局防災科學教育館)

鴻海工業大數據辦公室, Machine Learning Intern, Jun 2019 ~ Sep 2019

機器學習AI相關事務
輿情系統相關NLP技術開發
事件支持度分析
爬蟲系統
工業大數據辦公室相關事務

專案經歷

Sol-Idea輿情系統維護 (2020/9~2021/6)

Tool : C#, MSSQL, Python, Web Crawl,line api, gensim, Flask,Gufonet search engine,Docker

NET Framework框架網頁設計
MSSQL
Gufonet search engine分散式檢索系統
Sol-Crawler爬蟲系統維護
以word2vec方法查詢關鍵字推薦(Docker)
命名實體識別NER(Docker)
DockerHub
LINE Notify 推播功能

臺灣證券交易所「以語意分析技術建構情緒指標自動分類模型之可行性分析」(ABSA BERT) (2021/7~2022/2、2022/12~2023/3)

Tool : Python, Web Crawl, pymssql, pytorch, transformers, Flask

目標：預測對該個股的利多利空情緒分類並提升篩選新聞文章效率。
使用BERT Model編碼提取語意。
設計Aspect-Based Sentiment Analysis(ABSA)模型。
參考Attentional Encoder Network for Targeted Sentiment Classification(AEN)。
使用分類器及迴歸數值輸出。
極端正向看漲或是極端負向看跌的數值排序做篩選。
幫助使用者快速找到重點文章。
驗證資料準確率可高達80.2%、考試資料由證交所domain knowledge人員做評估，準確率有82%。
訓練整合系統：環境整合部屬、訓練排程、Web API情緒貼標預測、最新股票文章更新機制、人工標記校正機制。

「臺灣證券交易所新聞股票分類模型」(BERT) (2022/12~2023/3)

Tool : Python, Web Crawl, pymssql, pytorch, transformers, Flask

目標：效果超越原先使用的Convolution Network模型。
改用BERT Model，Test Data由75.99%進步到99.40%。
總共有一千多種上市股票，且有回滾機制，可以新增新的上市股票代號。
使用Sol-Crawler爬蟲機制及人工修正分類方法，做錯誤修正後定期重新模型訓練。
訓練整合系統：環境整合部屬、訓練排程、Web API股票分類預測、最新股票文章更新機制、人工標記校正機制。

「桃園刑案分析決策支援系統」 (2021/10~2021/11)

Tool : Python, pytorch, transformers, reular expression

目標：從筆錄中自動擷取相關人名、地名、電話、犯罪工具…等資訊。
運用NER(命名實體識別)技術。
由桃園市警察局提供偵查紀錄。
使用CKIP的BERT預訓練模型，並設計的BERT NER微調訓練程式。
將訓練後的權重以CKIP-Transformer套件讀取，可以直接對文章找到關鍵名稱。
準確率：0.8251。

「MiVIP」空間物件世界座標同步 (2022/9~2023/1)

Tool:Ubuntu: 20.04,ROS-noetic (rospy),mavros,CvBridge,Python,Vaidio Object Detection,PyQt5,Qt Design,mysql, opencv

目標：所有空間中物件及IPCAM世界座標同步。
使用ModalAI UAV(m500, Seeker)。
ROS接收UAV姿態或影像訊息。
UAV同步空間訊息，使用AprilTag回推計算所有固定相機(IPCAM)的世界座標及姿態。
鐵雲Vaidio系統接收所有(IPCAM)圖片訊息。
Vaidio系統Object Detect功能觸發Alert機制發送物件訊息(bounding box)、圖片給接收端。
接收端使用bounding box做Solvepnp推算物件世界座標，物件座標寫入Mysql，前端畫面顯示室內地圖及物件所在座標畫面。

主計總處「主計創新變革項目智慧比對案」 (2022/7~2022/8)

Tool : Python, pytorch, transformers,scikit-learn

將有關聯的提案報告彙整，新提案與過去舊有提案相互比對是否創新。
使用BERT Model以及AutoEncoder組合。
將[CLS]當作文章embedding並且再用AutoEncoder將其再編碼，最後做Cluster分群。
分群相似度做排序，讓客戶能快速找到相似的提案報告，以確定是否為創新提案。

GufoLab (AI Lab) (2023/3~NOW)

Tool : NLP, LLM, Transformers, Deepspeed, Docker,VectorDB, Pytorch,DDP, Gufonet Search Engine

Gufonet搜尋引擎LLM應用「主題查詢方法自建搜尋引擎導入GPT」

以Chatbot方式進行對系統內建FAQ資料庫的問答。
使用Gufonet搜尋引擎依照問題做主題檢索衛福部資料或是使用Langchain API 呼叫數據資料庫計算embedding相似度方法做DocSearch。
將相關資料組合Prompt，做重點回答問題。
LLM：ChatGPT、ChatGLM。

AI鬥智賽(數位發展部舉辦) (Github)

好物飛電商平台
Gufonet 搜尋引擎
Weaviate Vector DB
SBERT Model 訓練介面(Model Huggingface)
成果：

啟用檢索引擎 -> 檢索結果上升28.43倍
加入同義詞 -> 每項檢索詞結果增幅6%
A/B Test實測點擊率提升 4.5%
比賽佳作==得到獎金20萬

BERT Model Pretrain (Model Huggingface) (Github)

台灣繁體中文資料集 + Sol-Idea 爬蟲資料集
GeForce RTX 3090 * 4
Pytorch 分散式訓練 DistributedDataParallel
Mask Language Model Task

M2-BERT Pretrain

可用更快速的推理速度且更長的長度遇訓練類似BERT Model框架模型：arXiv Link
使用台灣繁體中文資料集
Mosaicml composer trainer預訓練中文M2-BERT Model (Monarch Mixer)
GeForce RTX 3090 * 4

GPT-InvestAR

arXiv Link
依照論文所說方式，將過去所有S&P500企業年報全部下載
從2002-2022年的年報中隨機取1000篇當訓練資料、500篇當測試資料
使用Chroma做採樣資料的向量資料庫
依照27種特徵名稱，詢問ChatGPT如何訪問10-k年報，來製作Prompt問題
使用ChatGPT 進行 System Prompt訪問向量資料庫，並回傳該特徵一個代表性的0~1數值
並用多個特徵值訓練Linear Regression Model
5 年策略性投資累積報酬率優於 S&P500平均 2倍
台灣股票也測試，結果與美股的選擇策略差不多

多種最新模型工具測試及研究：

GLM、LLaMa、Baichuan等可商用模型。
Flash Attention、Multi-Query Attention、RoPE等有效率推理方法研究。
Vector DB application

Weaviate Docker Compose
Langchain faiss, chroma

AI鬥智賽-好會飛網路股份有限公司 (2023/6~2023/10)

Tool : NLP, LLM, Transformers, Deepspeed, Docker,VectorDB, Pytorch,DDP, Gufonet Search Engine

題目：透過NLP技術分辨消費者輸入的搜尋字串是否正確，以提高搜尋結果之正確性。

以Chatbot方式進行對系統內建FAQ資料庫的問答。
使用Gufonet搜尋引擎依照問題做主題檢索衛福部資料或是使用Langchain API 呼叫數據資料庫計算embedding相似度方法做DocSearch。
將相關資料組合Prompt，做重點回答問題。
LLM：ChatGPT、ChatGLM。

解決出題廠商痛點

別字輸入->校正用戶輸入條件
商品/品牌之多重名稱->引進同義詞檢索
字串比對的侷限->引進斷詞機制
無法單次查詢多個詞彙->引進布林檢索

搜尋引擎Gufonet

校正用戶輸入條件

AI技術應用及Web UI設計

SBERT Model訓練語意模型
Weaviate Vector DB
推薦可能同義詞，選取同義詞匯出同義詞庫。
使用Vue.js設計AI訓練流程網頁

成果：

啟用檢索引擎 -> 檢索結果上升28.43倍
加入同義詞 -> 每項檢索詞結果增幅6%
A/B Test實測點擊率提升 4.5%
數發部舉辦的AI鬥智賽取得佳作
得到獎金20萬

AI鬥智賽(數位發展部舉辦) 得獎名單連結

Side Project

1. 生理醫學信號即時顯示系統(國防大學)

Tool : Python, PyQT5, pymysql,PyQt5

與國防大學合作。
根據Sensor的訊號，將人員的呼吸、心跳、溫度即時顯示於介面，生醫資訊的顯示畫面。

2. 地震模擬系統(台北市政府消防局防災科學教育館)

Tool : Python, PyQt5, Stewart_Platform, matplotlib,PyQt5,Qt Design

使用史都華六軸平台模擬地震情境。
用matplotlib3D虛擬史都華六軸呈現史都華六軸模擬器。
地震模擬器操作介面，並根據1~6級地震數據控制六軸平台模擬地震情境。
防災館地震體驗區

相關證書

Certificate LINK

Earners of the Azure AI Fundamentals certification have demonstrated foundational knowledge of machine learning (ML) and artificial intelligence (AI) concepts and related Microsoft Azure services.

Describe Artificial Intelligence workloads and considerations (20–25%)
Describe fundamental principles of machine learning on Azure (25–30%)
Describe features of computer vision workloads on Azure (15–20%)
Describe features of Natural Language Processing (NLP) workloads on Azure (25–30%)

Final score: 921/1000

Certificate LINK

Generative AI with Large Language Models
To use LLM model on Amazon Web Services
Describe the key steps in a typical LLM-based generative AI lifecycle
Describe in detail the transformer architecture
Apply state-of-the art training, tuning, inference, tools, and deployment methods to maximize the performance of models within the specific constraints of your project