賴冠州 (Ed Lai)

Python 工程師

  Taiwan

以 HackMD 記錄所見所聞。

技術棧(Tech Stack)

  Python    Git    TensorFlow    Ubuntu   MySQL 

擁有資料科學商業管理相關實習經驗,曾擔任「機器學習工程師」,開發混合式推薦系統核心演算法;也曾擔任「產業分析師」,聚焦於資料服務產業的案例研究。此外,也曾加入「資料工程師養成班」,建置Hadoop叢集與新聞輿情分析系統。長以資料驅動思維分析商業問題。正積極尋求加入「資料驅動/機器學習為產品核心」的公司,鎖定「Python 工程師」相關職缺。 

Machine Learning  Bayesian Inference  Recommendation System

          [email protected]  +886 983 372 689

一、工作與求學經驗


機器學習工程師

尼諾思科技  •  Jun 2020 - Sep 2020

  • 研讀相關論文並numpyscipy實作OBI-CTR混合式推薦系統演算法核心。
  • cython加快演算法關鍵步驟運算效率提升23%。
  • pytest撰寫單元測試並以TravisCI持續整合,確保套件功能正常運作
  • scrapy抓取電影文本內容;以sphinx產出使用說明文件與模型套件

產業分析師

工業技術研究院  •  Jul 2018 - Jun 2019

  • 研究「數位廣告產業」七大角色定位並以意藍資訊作為案例研究,預測未來產業發展趨勢並提供建議  
  • 協助政府分析了解「雲端服務產業趨勢」,曾撰寫兩篇與之相關的研究文章。
  • 蒐集統整「民生公共物聯網」水、空、地、災四大領域的國內標竿案例

資料工程師就業養成班

資訊工業策進會  •  Sep 2019 - Feb 2020

共636小時的受訓時間,期末專題為「輿情分析系統」,課程內容大致分為三大面向:

  • 「資料科學」相關,包括Scikit-learnTensorFlowPandas等。
  • 「資料工程」、「作業系統」相關,包括HadoopSparkMySQLLinuxShell Script等。
  • 「網頁應用」相關,包括FlaskJavaScriptHTMLCSS等。

企業管理研究所

國立政治大學  •  Jul 2017 - present

心理學系

國立中正大學  •  Sep 2013 - Jun 2017

二、專案與競賽成就


【OBI-CTR混合式推薦系統】

擔任「機器學習工程師」實習期間,實作了以線上貝式推論的協同主題迴歸模型(OBI-CTR)。該模型是個結合機率矩陣分解(PMF)和潛在狄利克雷配置(LDA)主題模型的貝氏網路,屬於混合式推薦系統,其中的線上貝式推論能有效提升RMSE與加快運算效率。右圖是以機率圖模型表示的CTR模型。

商業價值:

  • 擁有可解釋的潛在向量,可作為消費者行為分析和行銷活動之用
  • 能挖掘出跨族群皆受人喜愛的電影/文本,精準推薦給不同族群 
  • 能做到串流、分散式且非同步的更新潛在向量,加快收斂效率。

透過這次推薦系統演算法開發的經驗,培養了我軟體產品開發的知識以及評估不同演算法技術的能力。

點擊圖片以檢視詳細內容

點擊圖片以檢視詳細內容

【Dcard論壇熱門文章預測】

在「研究所」期間,參與過Dcard的實習面試作業,內容是根據發文10小時內的資訊,預測其在一天半內是否達到1,000顆愛心數。左圖是不同的重抽樣器在F1指標的平均表現。報告內容包括:

  • 過探索性資料分析與資料視覺化,了解自變數間的關係,並找尋後續特徵工程的可能作法。
  • 聚焦在決策樹為基礎的集成模型,比較三種分類器在F1指標上的表現。
  • AllKNN重抽樣器所建立的AdaBoost分類器,比起不做任何重抽樣的,公開測試集的F1指標表現上從0.53進步到0.57,提升了7.5%

透過這次機器學習建模經驗,培養了我處理不平衡資料集、撰寫資料分析報告、提供商業洞察與後續建議的能力。

【新聞輿情分析系統】

在「資料工程師養成班」受訓期間,選定「新聞輿情分析系統」作為期末專題。企業只需在系統上搜尋關注議題,即可得知相關討論話題和關鍵字,以及新聞有哪些主題討論,快速掌握市場趨勢。

技術細節:

  • threading結合requests套件實作多執行緒網路爬蟲,33萬筆網路請求的執行時間從原本1,100小時加快至7小時完成。
  • sklearn內建的LDA主題模型,擷取文章中潛在主題成分;以TF-IDF和PMI指標擷取文章關鍵詞和關聯詞。
  • 建置擁有10個節點,具有自動故障轉移的Hadoop叢集系統

透過這次實際接觸到產品開發的經驗,培養了我從用戶需求轉換成產品原型的能力。

點擊圖片以檢視詳細內容

點擊圖片以檢視詳細內容

【Hadoop叢集系統建置】

在「資料工程師養成班」受訓期間,以Ubuntu 18.04建置擁有10個節點,具有自動故障轉移的Hadoop叢集系統,並以Spark進行基礎資料分析,報告內容包括:

  • 說明叢集架構與各節點功能,包括JournalNode, ZooKeeper等。
  • 演示ResourceManagerNameNode的自動故障轉移功能。
  • 以Spark計算引擎演示parquet檔案格式在資料處理的高效運算能力。

透過這次Hadoop叢集系統建置的經驗,培養了我在作業系統與資料工程領域的技術掌握能力,更加深了我對大數據生態圈的熟悉。


資料科學競賽-複賽入圍

在「研究所」期間,與同學共同參加由SAS與玉山銀行舉辦的資料科學競賽,主題為外匯金融需求預測,最終挺進複賽(70組取20組)。

物聯網個案分析競賽-佳作

在「研究所」期間, 與同學共同參加由台科大舉辦的物聯網個案分析競賽,選定「研華」公司作為個案,探討臺灣物聯網廠商如何前進東南亞市場。

三、自我傳記


【工作經驗】

  在研究所期間就決定未來要以Python 工程師作為職涯第一站,並且選定「資料科學」作為個人核心價值。不同於同儕直接尋找與職涯規劃相稱的實習機會,我為自己在研究所期間的實習經歷立下兩個目標:要能以宏觀角度認識資料服務產業,也要以微觀角度欣賞並鑽研其中的技術細節。

  首先,實習第一站我選擇進入工研院產業科技國際發展所,擔任「產業分析師」,聚焦於資料服務相關產業。實習期間我選定「數位廣告產業」作為期末專題報告,分析產業發展趨勢並提供建議;另一方面,也曾撰寫過「Google AutoML發展趨勢對於資料服務業者之正反面衝擊分析」、「CloudMile與iKala之營運布局與優劣勢分析」兩篇與雲端服務產業相關的文章。透過這次經驗,培養了我從產業脈動剖析未來趨勢的能力

  接著,沉潛於資料科學領域後,實習第二站我選擇在去年6月接下「以線上貝氏推論的協同主題迴歸演算法」開發案,過程中是以一對一形式與案主每週進行專案進度討論、文獻回顧以及程式碼審查(Code Review)。這是我第一次實際著手演算法開發專案,儘管先前已花費不少心力學習,但因為對軟體專案開發與產品開發的知識淺薄,專案初期仍造成溝通與開發排程的困難。幸運的是,案主會主動分享他過去產品開發與專案管理經驗,包括「敏捷軟體開發」與「測試驅動開發」的理念、如何排序產品開發需求等。透過一次又一次的討論與改進,最終克服效能問題,產出以Python實作的OBI-CTR模型套件與使用說明文件透過這次經驗,培養了我軟體產品開發的知識以及評估不同演算法技術的能力。

我相信不同尺度的實習經驗,能幫助我在產品開發時快速熟悉產品核心技術,並能以公司觀點思考產品策略走向。

【求學經驗】

  除了實務經驗外,課堂上的多元學習固然也相當重要。我的學習是以「多元」為主軸,在人生早期階段盡可能地接觸不同領域的訓練,藉此豐富自身觀點。因此,在大學我選擇以「個人」為主體,了解人類內在心理歷程與外顯行為的交互作用;而在研究所則以「企業」為主體,以個案研究形式探討企業管理議題的理論與實務;最後,則是參加資料工程師就業養成班,以「資料工程資料科學」領域作為學習主軸,深化自身能力。值得一提的是,在資料工程師就業養成班期間,我們團隊選定「新聞輿情分析系統」作為期末專題報告,這是我第一次的系統實作經驗,從用戶痛點分析、解決方案發想到技術障礙克服都必須由團隊自主完成。透過這次經驗,讓我實際接觸到產品開發的過程,培養了我從用戶需求轉換成產品原型的能力。

我相信將學習的觸角延伸到各個領域能幫助我在工作時避免陷入本位主義並可以有效率進行跨部門溝通 。

【自學經驗】

  學習不應該止於學業完成那一刻,而應該成為一種生活態度。在閒暇之餘我經常透過線上課程與書籍,充實「資料科學」與「產品開發」兩大面向的能力:在資料科學方面,過去已在線上平台完成機器學習、資料視覺化及資料探勘等課程,已熟悉相關技術並有相關專案經驗;而在產品開發方面,目前正積極透過線上平台學習「產品數據分析」、「產品思維」課程並輔以《產品專案管理全書》書籍吸收相關內容,對於相關知識有完整的理解。

我相信高自我驅動力的特質與充足的先備知識,能幫助我快速上手Python 工程師一職並獨立解決工作難題

四、持續精進自我


【機器學習完課證明】


【Flask後端框架完課證明】

【圖論演算法完課證明】

《產品專案管理全書》

全面探討網路科技產品的開發,內容包括產品團隊各成員的職責劃分;產品路徑圖的問題及其替代方案;產品探索階段所需處理的四大風險;探索建構、規劃、測試技術等。

書籍摘要請至這裡

成長駭客攻略

《成長駭客攻略》

全面探討獲得、啟動及留住顧客的攻略,內容包括如何創立一支成長駭客團隊;辨明成長方程式和關鍵指標;以「分析-構想-排序-測試」的方式逐步改善產品等。

五、其它特殊成就


讀書會導讀人(圖左二)

曾在政大企管校友讀書會擔任《刻意練習》導讀人,並博得雄獅旅遊員工內訓講師的機會。

熱舞社副社長(圖右一)

曾在大學期間擔任熱舞社副社長,舉辦過規模約250人的嘉義街舞賽事「真愛盃」。

日本企業參訪(圖右二)

曾在研究所期間參加以「組織變革」 為主題的日本企業參訪,主要負責Panasonic的專題研究

TOEIC多益金色證書(910/990分)

能明確掌握職場與生活所需英文,並且能夠流暢有條理地以英文表達自身觀點並參與商業談話。

巨量資料分析師-初級能力鑑定通過

取得由經濟部iPAS產業人才能力鑑定核發的初級巨量資料分析師證書,具備資料導向程式設計與資料分析能力。