廖永誠

我是一名在大學才開始正式接觸寫程式的資工人,從小到大雖然愛接觸電腦但都沒有系統化的學過程式,直到上大學選擇資訊工程系後,發現自己很喜歡透過程式來解決問題,因此開始認真學習。接觸到這個領域後發現很多同年紀的人都很厲害會很多程式相關的技能,我雖然開始得比較慢會的比較少,但我很有學習熱忱,不論是在課堂上或者是興趣開發的專案,我都會嘗試去使用自己不熟悉的工具來完成,不僅增加自己的經驗也滿足我對學習所抱有的衝勁。相信即使現在落後別人,我也能靠著我的學習能力跟熱忱來追上並且超越別人!

  New Taipei City, Taiwan

       


工作經歷

七月 2021 - Present

學習型兼任人員  中央研究院 資訊科學研究所

配合中研院的研究計畫,與學校專題計畫做結合,在研究人員及指導教授的領導下,做有關記憶體加速現今自然語言處理語言模型之效率。


學歷

2019 - 2023

台北科技大學 - 資訊工程學系

.近兩學期的學業排名達到6/63 (9.5%) 與 1/59 (1.7%) 

.巨量資料分析課程分數達100分

.程式設計相關課程平均成績超過90分 


競賽項目

參與由教育部人工智慧共創平台推出的比賽AI-CUP 2021,比賽題目為農業文章文字標註及辨識,其目標為在比較兩篇文本是否為相似的文本,在實現該目標的過程中我們先是透過一些簡單的特徵擷取的辦法,再搭配獨特的訓練來處理該資料集不平衡的問題,在不斷的優化改善架構後,達到了前標(25%)的佳績。


專題研究

專題題目簡介

.基於現今自然語言處理(NLP)中,實現語言模型的方法逐漸朝著參數規模化的方向發展,因此現今的模型都有很多 優化的機會,本專題專注在研究由Google-Research團隊在2018年提出的Bert語言模型,其擁有340M的參數量,因此不論是訓練或者是推理時間都會耗費大量的時間及內存占用。

本專題目前已觀察出現象並提出了3種可行的解決方向 

.第一種為模型架構方面,這個方面也是最多文獻研究的方向,透過將模型參數做修改,或者新增額外的機制,改善訓練任務等等,基於此方向已經產生很多變體Bert,因此本專題目前尋求的為其餘兩種方面的解決方法。

.第二種為資料預處理方面,透過使用Computing SSD,在資料仍在磁碟就對資料進行基本的處理,不僅可以優化資料在讀取進記憶體時所需要的記憶體占用,也能節省額外的運算資源。

.第三種為優化參數運算本身的行為,透過閱讀記憶體結合神經網路領域的相關論文,了解到由於神經網路的相關特性導致其擁有一定的容錯性,因此可以透過記憶體的擺放方式,編碼方式,來達到對神經網路模組的優化改善。

本專題目前進度

.科技部大專生研究計畫

  研究方向採用第二種,觀察資料預處理的各種行為,並嘗試在SSD實現相同的效果。

.中研院計畫結合學校專題

  研究方向採用第三種,研究觀察其模型的基本原始碼呈現,以及實現其文獻中預訓練及微調模型的相關程式碼,在實際的做訓練過程中去找到參數運算的優化解法。


專案

購物網站後端實作

.使用Nodejs 來製作後端 API

.使用Mysql 當作主資料庫的選擇

.實現買賣家以及管理員在購物網站        會有的商業邏輯


加密貨幣交易機器人

運用python來寫主要的邏輯控制

.結合第三方API來取得股價及實現  下單功能

.實現各樣的指標運算及回測

Powered By CakeResume