Profile 03 00@2x

李宜澤 | Frederick Lee

AZION 驊宏資通集團(3年研發替代役、研發工程師):
LLM研究開發及模型預訓練、Sol-Idea輿情網站維護、Gufonet搜尋引擎應用、自然語言處理應用、UAV電腦視覺及空間物件座標計算相關專案。


鴻海工業大數據辦公室(實習生):

NLP、神經網路分析及爬蟲程式開發。


國立成功大學工程科學系(碩士):

學生時期:個人PowerPoint

碩士論文

碩論PowerPoint:使用具注意力機制之孿生神經網路以分析新聞事件支持度


淡江大學數學系(學士)


Machine Learning\ Deep Learning Engineer\R&D  Engineer\AI Engineer
Taipei City,TW

Github

Linkedin
mail : [email protected]


學歷

國立成功大學, 碩士學位, 工程科學所, 2020

淡江大學, 學士學位, 數學系純數組, 2017

熟練技能


  • Deep Learning、Machine Learning、NLP(Natural Language Processing)、LLM Application、Object Detection、Model Training and Optimization、Web Development。
  • Language:Python、C#、Vue.js
  • Tool:MSSQL \MYSQL、ROS、Qt Designer、Docker

常用工具


  • AI:Pytorch、Keras、Hugging Face、Transformers、OpenAI、Langchain、Gradio、OpenCV、SentenceTransformers。
  • Basic:PyQT5、Flask、Selenium、Beatifulsoup、Pymssql\Pymysql


工作經歷

驊宏資通正職:RDD (研發替代役)、Software Engineer, Sep 2020 ~NOW

  • Sol-Idea輿情系統維護 
  • Sol-Crawler爬蟲系統維護
  • Gufonet搜尋引擎應用
  • MiVIP 3D空間坐標重建專案
  • 鐵雲Vaidio 影像物件辨識應用
  • 衛福部QA chatbot(LLM)
  • 台灣證交所AI專案
  • 桃園刑案分析專案
  • 主計總處創新變革項目智慧比對專案
  • GufoLAB 自然語言研究實驗室
  • AI鬥智賽(佳作)

上醇股份有限公司, 兼職, Side Project

  • 生理醫學信號即時顯示系統(國防大學)
  • 地震模擬系統(台北市政府消防局 防災科學教育館)

鴻海工業大數據辦公室, Machine Learning Intern, Jun 2019 ~ Sep 2019

  • 機器學習AI相關事務 
  • 輿情系統相關NLP技術開發 
  • 事件支持度分析 
  • 爬蟲系統 
  • 工業大數據辦公室相關事務


專案經歷

Sol-Idea輿情系統維護 (2020/9~2021/6)

Tool : C#, MSSQL, Python, Web Crawl,line api, gensim, Flask,Gufonet search engine,Docker
  • NET Framework框架網頁設計
  • MSSQL
  • Gufonet search engine分散式檢索系統
  • Sol-Crawler爬蟲系統維護
  • word2vec方法查詢關鍵字推薦(Docker)
  • 命名實體識別NER(Docker)
  • DockerHub
  • LINE Notify 推播功能

臺灣證券交易所「以語意分析技術建構情緒指標自動分類模型之可行性分析」(ABSA BERT) (2021/7~2022/2、2022/12~2023/3)

Tool : Python, Web Crawl, pymssql, pytorch, transformers, Flask
  • 目標:預測對該個股的利多利空情緒分類並提升篩選新聞文章效率。 
  • 使用BERT Model編碼提取語意。 
  • 設計Aspect-Based Sentiment Analysis(ABSA)模型 。
  • 參考Attentional Encoder Network for Targeted Sentiment Classification(AEN)。
  • 使用分類器及迴歸數值輸出。 
  • 極端正向看漲或是極端負向看跌的數值排序做篩選。 
  • 幫助使用者快速找到重點文章。 
  • 驗證資料準確率可高達80.2%、考試資料由證交所domain knowledge人員做評估,準確率有82%。
  • 訓練整合系統:環境整合部屬、訓練排程、Web API情緒貼標預測、最新股票文章更新機制、人工標記校正機制。

「臺灣證券交易所新聞股票分類模型」(BERT) (2022/12~2023/3)

Tool : Python, Web Crawl, pymssql, pytorch, transformers, Flask
  • 目標:效果超越原先使用的Convolution Network模型。
  • 改用BERT Model,Test Data由75.99%進步到99.40%。
  • 總共有一千多種上市股票,且有回滾機制,可以新增新的上市股票代號。
  • 使用Sol-Crawler爬蟲機制及人工修正分類方法,做錯誤修正後定期重新模型訓練。
  • 訓練整合系統:環境整合部屬、訓練排程、Web API股票分類預測、最新股票文章更新機制、人工標記校正機制。

「桃園刑案分析決策支援系統」 (2021/10~2021/11)

Tool : Python, pytorch, transformers, reular expression
  • 目標:從筆錄中自動擷取相關人名、地名、電話、犯罪工具…等資訊。
  • 運用NER(命名實體識別)技術。
  • 由桃園市警察局提供偵查紀錄。
  • 使用CKIP的BERT預訓練模型,並設計的BERT NER微調訓練程式。
  • 將訓練後的權重以CKIP-Transformer套件讀取,可以直接對文章找到關鍵名稱。
  • 準確率:0.8251。

「MiVIP」空間物件世界座標同步 (2022/9~2023/1)

Tool:Ubuntu: 20.04,ROS-noetic (rospy),mavros,CvBridge,Python,Vaidio Object Detection,PyQt5,Qt Design,mysql, opencv
  • 目標:所有空間中物件及IPCAM世界座標同步。
  • 使用ModalAI UAV(m500, Seeker)。
  • ROS接收UAV姿態或影像訊息。
  • UAV同步空間訊息,使用AprilTag回推計算所有固定相機(IPCAM)的世界座標及姿態。
  • 鐵雲Vaidio系統接收所有(IPCAM)圖片訊息。
  • Vaidio系統Object Detect功能觸發Alert機制發送物件訊息(bounding box)、圖片給接收端。
  • 接收端使用bounding box做Solvepnp推算物件世界座標,物件座標寫入Mysql,前端畫面顯示室內地圖及物件所在座標畫面。

主計總處「主計創新變革項目智慧比對案」 (2022/7~2022/8)

Tool : Python, pytorch, transformers,scikit-learn
  • 將有關聯的提案報告彙整,新提案與過去舊有提案相互比對是否創新
  • 使用BERT Model以及AutoEncoder組合。
  • 將[CLS]當作文章embedding並且再用AutoEncoder將其再編碼,最後做Cluster分群。
  • 分群相似度做排序,讓客戶能快速找到相似的提案報告,以確定是否為創新提案。

GufoLab (AI Lab) (2023/3~NOW)

Tool : NLP, LLM, Transformers, Deepspeed, Docker,VectorDB, Pytorch,DDP, Gufonet Search Engine
  • Gufonet搜尋引擎LLM應用「主題查詢方法自建搜尋引擎導入GPT」
    • 以Chatbot方式進行對系統內建FAQ資料庫的問答。 
    • 使用Gufonet搜尋引擎依照問題做主題檢索衛福部資料或是使用Langchain API 呼叫數據資料庫計算embedding相似度方法做DocSearch。 
    • 將相關資料組合Prompt,做重點回答問題。 
    • LLM:ChatGPT、ChatGLM。
  • AI鬥智賽(數位發展部舉辦) (Github)
    • 好物飛電商平台
    • Gufonet 搜尋引擎
    • Weaviate Vector DB
    • SBERT Model 訓練介面(Model Huggingface)
    • 成果:
      • 啟用檢索引擎 -> 檢索結果上升28.43倍 
      • 加入同義詞 -> 每項檢索詞結果增幅6% 
      • A/B Test實測 點擊率提升 4.5%
      • 比賽佳作==得到獎金20萬
  • BERT Model Pretrain (Model Huggingface) (Github)
    • 台灣繁體中文資料集 + Sol-Idea 爬蟲資料集 
    • GeForce RTX 3090 * 4
    • Pytorch 分散式訓練 DistributedDataParallel
    • Mask Language Model Task
  • M2-BERT Pretrain
    • 可用更快速的推理速度且更長的長度遇訓練類似BERT Model框架模型:arXiv Link
    • 使用台灣繁體中文資料集
    •  Mosaicml  composer trainer預訓練中文M2-BERT Model (Monarch Mixer) 
    • GeForce RTX 3090 * 4
  • GPT-InvestAR
    • arXiv Link
    • 依照論文所說方式,將過去所有S&P500企業年報全部下載
    • 從2002-2022年的年報中隨機取1000篇當訓練資料、500篇當測試資料
    • 使用Chroma做採樣資料的向量資料庫
    • 依照27種特徵名稱,詢問ChatGPT如何訪問10-k年報,來製作Prompt問題 
    • 使用ChatGPT 進行 System Prompt訪問向量資料庫,並回傳該特徵一個代表性的0~1數值
    • 並用多個特徵值訓練Linear Regression Model
    • 5 年策略性投資累積報酬率優於 S&P500平均 2倍
    • 台灣股票也測試,結果與美股的選擇策略差不多
  • 多種最新模型工具測試及研究:
    • GLM、LLaMa、Baichuan等可商用模型。
    • Flash Attention、Multi-Query Attention、RoPE等有效率推理方法研究。
    • Vector DB application
      • Weaviate Docker Compose
      • Langchain faiss, chroma

AI鬥智賽-好會飛網路股份有限公司 (2023/6~2023/10)

Tool : NLP, LLM, Transformers, Deepspeed, Docker,VectorDB, Pytorch,DDP, Gufonet Search Engine
  • 題目:透過NLP技術分辨消費者輸入的搜尋字串是否正確,以提高搜尋結果之正確性。
    • 以Chatbot方式進行對系統內建FAQ資料庫的問答。 
    • 使用Gufonet搜尋引擎依照問題做主題檢索衛福部資料或是使用Langchain API 呼叫數據資料庫計算embedding相似度方法做DocSearch。 
    • 將相關資料組合Prompt,做重點回答問題。 
    • LLM:ChatGPT、ChatGLM。
  • 解決出題廠商痛點
    • 別字輸入->校正用戶輸入條件 
    •  商品/品牌之多重名稱->引進同義詞檢索 
    •  字串比對的侷限->引進斷詞機制 
    •  無法單次查詢多個詞彙->引進布林檢索
  • 搜尋引擎Gufonet
    • 校正用戶輸入條件
  • AI技術應用及Web UI設計
    • SBERT Model訓練語意模型 
    • Weaviate Vector DB 
    • 推薦可能同義詞,選取同義詞匯出同義詞庫。 
    • 使用Vue.js設計AI訓練流程網頁
  • 成果:
    • 啟用檢索引擎 -> 檢索結果上升28.43倍 
    • 加入同義詞 -> 每項檢索詞結果增幅6% 
    •  A/B Test實測 點擊率提升 4.5% 
    • 數發部舉辦的AI鬥智賽取得佳作 
    • 得到獎金20萬

AI鬥智賽(數位發展部舉辦) 得獎名單連結

Side Project

1. 生理醫學信號即時顯示系統(國防大學)

Tool : Python, PyQT5, pymysql,PyQt5

  • 與國防大學合作。
  • 根據Sensor的訊號,將人員的呼吸、心跳、溫度即時顯示於介面,生醫資訊的顯示畫面。

2. 地震模擬系統(台北市政府消防局 防災科學教育館)

Tool : Python, PyQt5, Stewart_Platform, matplotlib,PyQt5,Qt Design

  • 使用史都華六軸平台模擬地震情境。
  • 用matplotlib3D虛擬史都華六軸呈現史都華六軸模擬器。
  • 地震模擬器操作介面,並根據1~6級地震數據控制六軸平台模擬地震情境。
  • 防災館地震體驗區


相關證書
Certificate LINK

Earners of the Azure AI Fundamentals certification have demonstrated foundational knowledge of machine learning (ML) and artificial intelligence (AI) concepts and related Microsoft Azure services.

  • Describe Artificial Intelligence workloads and considerations (20–25%) 
  •  Describe fundamental principles of machine learning on Azure (25–30%) 
  •  Describe features of computer vision workloads on Azure (15–20%) 
  •  Describe features of Natural Language Processing (NLP) workloads on Azure (25–30%)

  • Final score:  921/1000


Certificate LINK
  • Generative AI with Large Language Models
  • To use LLM model on Amazon Web Services
  • Describe the key steps in a typical LLM-based generative AI lifecycle
  • Describe in detail the transformer architecture
  • Apply state-of-the art training, tuning, inference, tools, and deployment methods to maximize the performance of models within the specific constraints of your project

Certificate LINK
  • IBM AI Engineer
  • Machine Learning with Python
  • Introduction to Deep Learning & Neural Networks with Keras
  • Introduction to Computer Vision and Image Processing Deep
  • Neural Networks with PyTorch 
  • Building Deep Learning Models with TensorFlow 
  • AI Capstone Project with Deep Learning 

Certificate LINK
  • Practical Data Science on the AWS Cloud
  • Analyze Datasets and Train ML Models using AutoML
  • Build, Train, and Deploy ML Pipelines using BERT
  • Optimize ML Models and Deploy Human-in-the-Loop Pipelines


學生時期成果

1.跨界超越競賽TRANS ACTION

第四屆跨界超越競賽與成大工設所一起榮獲Mtel Taiwan超越獎,以及星展銀行超越獎

作品介紹

2.全國性金融科技創新競賽-南科AI Robot

全國性金融科技創新競賽榮獲佳作

3.鴻海工業大數據辦公室IBDO

鴻海工業大數據辦公室當過實習生。

Paragraph image 04 00@2x
Paragraph image 04 01@2x
Paragraph image 05 00@2x
Paragraph image 05 01@2x

4.法律黑客松

與台北大學法律系合作。題目為:LightGBM或DL方法預測性侵案件慰撫金。

PPT連結

5.AI CUP 2020愛文芒果等級分類競賽

使用CNN模型,如Resnet、Vgg16萃取圖片特徵,加入一些特別去背方法及Ensemble's predict,以準確率81%。543個參賽者中第47名過了第一階段。 報告書

6.碩士論文

使用孿生神經網路(Siamese Network)將一句較短的事件支持語句和一整篇事件新聞文章匹配在一起,並導入注意力機制(Attention Mechenism)於孿生神經網路中。

碩士論文

Paragraph image 02 00@2x