吳承儒 

Wu Cheng Ju


Data Engineer/ Backend Engineer
台北市,台灣
[email protected]

Profile 06 00@2x

 教育背景

國立中央大學, 碩士學位, 資訊工程/軟體工程, 2019 ~ 2021

在中央大學就讀軟工所期間,除了系上必修的軟體工程相關課程 (如: OOAD/軟體開發/雲端運算) 之外,也同時在網頁智慧與資料探勘 (WIDM) 實驗室底下開發非監督式網頁資料擷取系統,並著手研究關於序列標記應用在自動化網頁爬取之技術,整體涵蓋領域從 Machine Learning Engineering 至 Software Engineering 皆有接觸。
T1lpbat6fhj0i7ni5ke4

國立台北大學, 學士學位, 資訊工程, 2015 ~ 2019

在台北大學期間除了基礎本科 (如: 演算法、資料結構、電腦網路) 之外,也有選修機器學習、類神經網路以及軟體工程相關課程。並且在大四課外期間也有與同學籌辦前後端讀書會,一邊精實自己網頁全端開發技術、一邊分享所學技巧給共同參與的同學。
Sy7kqajpzjcpdu8s7bj5

 工作經歷

狄卡科技, 資料工程師, Feb 2023 ~ Now

松山區, 台北市, 台灣

  • Ads Event Data pipeline
  • Reporting Pipeline from scratch (Event -> Aggregation -> Clickhouse -> FastAPI)
  • DataProc, PySpark
  • Google Cloud Platform
  • Airflow

Fbr4a2wyrzcx1akbl35p

宇匯知識科技, 資料工程師, Aug 2021 ~ Feb 2023

松山區, 台北市, 台灣

  • Ads Event Data pipeline
  • Protobuf
  • Kafka
  • Apache Parquet/Apache Spark
  • BigQuery, Looker Studio, GA

Fbr4a2wyrzcx1akbl35p

友達光電, A+ 暑期實習, Jul 2020 ~ Aug 2020

東區, 新竹市, 台灣

  • 利用 Python、Pandas 將公司內數據進行自動串聯、整理,取代原本人工撈取、Excel 整理步驟,大幅縮減重複人力支出。
  • 利用機器學習演算法 (Boosting、Bagging)、資料重採樣 (Data Resampling) 針對 OQC複判資料進行訓練,得到能夠快速判斷製造端檢片資料是否為漏檢對象的模型,並且 ROC AUC 分數能到達到 95% 以上。
  • 撰寫腳本自動化資料預處理以及模型健康度檢驗,並且自動上拋預測結果至 EDA Server 進行可視化供檢驗人員快速瀏覽預測結果以及查看模型健康度。

Fbr4a2wyrzcx1akbl35p

關貿網路, 資料科學實習生, Jul 2019 ~ June 2020

南港區, 新北市, 台灣

  • 利用 NLP 方法針對客戶投訴之公司實體進行 NED 分析。
  • 幫助撰寫前端 SPEC 提供外包廠商參考。
  • 利用 Python 做資料清洗、整理。
  • 利用 SQL 幫助大數據專案前期做資料勾稽。
  • 基於 Express.js 開發 SNA 網路圖演算法 API。

Fbr4a2wyrzcx1akbl35p

中國信託銀行, 兼職全端工程師, Jul 2018 ~ Aug 2019

南港區, 新北市, 台灣

  • 使用 Appserv 框架開發/維護內部系輔助 TMU 加速檢核法人交易資訊。
  • 利用定時爬蟲抓取內部不同系統的交易資料並且利用 Pandas 整理成結構化資料匯入 DB。
  • 導入 GitFlow 來管理整個專案程式,加快系統部署時間。
  • 串接 Bloomberg、Reuter API 來抓取債券、FX 資料並利用 Chart.js 來可視化圖表。

Qynz666fxvbrjsnqnonx

 技能


 資料工程

  • Python
  • Data ETL
  • Poetry/Virtualenv
  • Web Scraping

 後端工程

  • Express.js
  • Egg.js
  • FastAPI
  • MongoDB
  • MySQL
  • Redis
  • Nginx

 軟體工程

  • Git/GitHub
  • VS Code
  • Vim
  • Docker
  • Jenkins
  • GitFlow/GithubFlow
  • OOAD

 作品集


個人網站: https://github.com/UnderSam (更多詳細資訊)

Paragraph image 01 00@2x

UML Editor

此專案為中央軟工所 OOAD 課程之期末專案,要利用 Java 撰寫一個擁有基本功能之 UML 應用程式,功能包括: 選取、移動、連接、群組、移除、命名。

keywords: OOAD, UML, Java

source code: https://github.com/UnderSam/UML_editor

Paragraph image 01 00@2x

LibrAssist Scraper

此專案為台北大學軟體工程課程之期末專案,要開發一個圖書館藏 APP,而我負責的部分為整個後端以及爬蟲的部分,為了節省硬體成本,我們將所有爬蟲以及身份認證轉由 Firebase 搭配 Google Cloud Function 去執行,達到 Serverless 的應用。

keywords: Web Scraping, Google Cloud Function, Firebase, Serverless

source code: https://github.com/UnderSam/Librassist_scraper

Paragraph image 01 00@2x

Electric Monitor System

此專案為課外期間額外接的全端開發案子,主要為開發一個能夠監控不同站點的電錶監控系統,並且附帶權限管理以及帳號動態啟用,另外還能夠限制單一帳號/裝置登入。

keywords: Python, MS-SQL, Express.js, RESTful API, JWT, Redis, Jenkins, Docker

source code: https://github.com/UnderSam/ElectricMonitor

Paragraph image 01 00@2x

Unsupervised Data ETL System

此專案為研究所負責之機器學習系統開發專案,旨在建立一個穩定且精準的非監督式網頁資料擷取系統,使用者只需要輸入幾頁相似架構的網站即可由系統自動推導出可能含有的資料欄位,並且此系統利用動態排程的方式來自動重新爬取/擷取新的資料,提供 24hr 更新不中斷的 Live API Endpoint。

keywords: MongoDB, Egg.js, Next.js, Redis, RabbitMQ

demo website: Data ETL System