陳得翊 William

Data analyst, Machine learning engineer

我是一個熱愛挖掘潛在問題的統計人,以客觀的角度分析問題及處理,重視團隊合作,開放的態度分享彼此不同的想法和意見,有效率的解決問題。就學期間致力研究於機器學習,降維(Dimension Reduction)以及模型分類問題。並與台北榮民總醫院合作結合人工智慧開發全方位疾病診斷,在臨床上預測病人在一年內是否發生中風,以及是否由肺靜脈引起心房顫動的3D影像分類。

  

Mobile: +886-988-313-160

Email: [email protected]

技能

Python


  • 視覺化:Matplotlib, Seaborn


  • 機器學習套件:
    Tensorflow, Keras, Scikit-learn, Fast.ai, OpenCV

Machine Learning


  • 模型:Random Forest, XGBoost, LightGBM, SVM, CNN, RNN, LSTM, ResNet
  • 特徵選擇:Genetic algorithm, Simulated Annealing

Dimension Reduction


Multidimensional Scaling (MDS), SCMDS, Principal component analysis (PCA), Factor analysis model, Lasso regression

學歷

2018 - 2020

國立交通大學

統計學研究所

論文題目:Using Machine Learning Model and Ensemble Learning to Predict Ischemic stroke

第三屆統計研究成果研討會海報論文競賽—特優獎


2014 - 2018

私立淡江大學

統計學係

相關課程:回歸分析, 類別資料分析, 實驗設計, 無母數統計, 多變量分析, 時間序列, 倖存分析

程式:R, SAS (SAS Certified Base Programmer)

社團:統計系籃球隊-隊長                                           大統盃,亞軍, 2016 大統盃季軍, 2017

專案經驗


國立交通大學與台北榮民總醫院心臟科

預測病人在一年內是否發生中風Ischemic Stroke

                                                                

透過機器學習 (Machine Learning) 預測病人在一年內是否發生腦缺血型中風 (Ischemic stroke) 並且提升模型在 auc 上的表現。研究過程我們遇到資料極度不平衡的問題,透過變數選擇 (Feature Selection) 幫助我們挑選重要的特徵,使用集成學習 (Ensemble Learning)及下採樣 (Under-sampling)結合多個模型及處理資料不平衡的問題。


國立交通大學

Modeling High-dimensional time series by Structural factor model

                      

研究威爾夏5000指數 (Wilshire 5000 index) 成分股,透過主成份分析 (Principle Component Analysis) by Bai and Ng, Ratio-based method by Lam and Yao, and Structural factor model by Gao and Tsai, 找出背後影響5000支股票的潛在變數。對應於潛在變數與5000支股票的權重,得到新的一組投資組合,比較投組與指數的報酬。 



國立交通大學與台北榮民總醫院心臟科

CT Images Classification of PV and Non-PV trigger by 3D Convolution Network

                                                                                                

一位病人通常會有多張CT影像,有些影像包含疾病而有些影像則未包含, 使用3D CNN 可以使模型以病人為單位而非影像。在3D影像前處理對於像素的長寬和影像之間的切片厚度做歸一化。由於每位病人的影像張數不同, 在張數較少的病人上下補上黑色影像。在模型的選擇上使用 3D Resnet 做 模型訓練,針對資料不平衡的問題,我們對病人的影像做旋轉使得少數類 病人與多數類病人以相同比例進入模型。                                                              



Kaggle

Predict Future Sales (Top 8%)

                                                                                                

資料集由俄羅斯1C公司提供,紀錄2013/01~2015/10的日資料,目的是預測下個月每個產品和商店的總銷售額。在EDA探討各變數與總銷售額的marginal effect,以及變數之間對總銷售額的Joint effect,我們在特徵工程將商店與商品名稱所額外提供的資訊,像是城市,產品類別形成了新的變數。最後透過LightGBM經由gridsearch調整超參數後得到在LB的 rmse : 0.89258。                                                  

工作經歷

四月 2020 - 六月 2020

時間序列助教  國立交通大學

批改學生作業以及協助課業問題。

七月 2019 - 八月 2019

因子選股實習生  元大投信

利用統計方法幫助大中華團隊研究A股,挑選出重要因子且建構模型挑選股票。檢定因子間是否存在共線性,影響下一期報酬率估計。最後透過因子表現分成五組,回測並且比較各組表現。實習期間與主管配合良好,經理人提供想法以及自己的選股邏輯,我再透過檢定和回歸等相關統計方法實現,彼此互助學習讓我獲益良多。

七月 2016 - 八月 2016

顧問助理  VIT Advisors Limited(維億投資顧問有限公司)

陪同顧問到中國海口平安銀行做諮詢及授課,負責記錄諮詢重點。