十一月 2021 - 十月 2023
接手SMIS之爬蟲工作,採用Python + Scrapy + MongoDB,爬取諸如Adidas、Lululemon、Nike等國際服飾品牌之商品資料,如價格、材質、特色等。除維護原有爬蟲外,因應需求開發不同品牌爬蟲程式,於過程中進行ETL、克服網站反爬手段(如JS渲染、機器人驗證等)。此外提倡將爬蟲know-how(如特定網站需定時手動更新cookie、遇到403需手動驗證等)以文件形式留存,增加系統可靠性、易維護性。
在過程中提議導入Proxy API代理平台,以極小成本使爬蟲開發時程與維護成本降低50%以上。此外當時由於人手不足,以至無人發現有兩套爬蟲系統做著極為相似之工作(一爬取特定品牌所有產品,另一僅爬取新品),提議將其合併整合並實施,為日後爬蟲人天工時降低50%以上。開發Scrapy pipeline,使資料流最後匯入至資料庫時標準化。
最終於交接該爬蟲系統時達成半自動化,十幾隻品牌除特定幾隻品牌因成本考量採用手動驗證,其餘皆以腳本自動化完成任務,僅需檢查結果log確認該週爬取目標無誤。
與另一位資深工程師協作搭建後端系統,並負責後續的需求追加開發、維護與資料更新。技術採用Python + Django REST framework + PostgresSQL,服務部署於AWS service,使用了EC2、VPC、ELB、Route 53等相關服務。甲方為一傳統藥局,具有數個資訊系統,其皆未整合形成數據孤島。該系統整合客戶個人資料、量測資料、領藥紀錄、藥局所販售之保健食品等資訊。
過程中負責撰寫與維護以下功能:
七月 2018 - 五月 2019
使用Python並結合OpenCV、CNN等電腦視覺技術開發球卡 文字辨識、球員人臉辨識等功能API,以達成上傳即完成球卡標記任務之需求。
2015 - 2019
Python、Django、Django REST Framework、API Development、MongoDB 、Scrapy 、AWS、 Unit Test
十一月 2021 - 十月 2023
接手SMIS之爬蟲工作,採用Python + Scrapy + MongoDB,爬取諸如Adidas、Lululemon、Nike等國際服飾品牌之商品資料,如價格、材質、特色等。除維護原有爬蟲外,因應需求開發不同品牌爬蟲程式,於過程中進行ETL、克服網站反爬手段(如JS渲染、機器人驗證等)。此外提倡將爬蟲know-how(如特定網站需定時手動更新cookie、遇到403需手動驗證等)以文件形式留存,增加系統可靠性、易維護性。
在過程中提議導入Proxy API代理平台,以極小成本使爬蟲開發時程與維護成本降低50%以上。此外當時由於人手不足,以至無人發現有兩套爬蟲系統做著極為相似之工作(一爬取特定品牌所有產品,另一僅爬取新品),提議將其合併整合並實施,為日後爬蟲人天工時降低50%以上。開發Scrapy pipeline,使資料流最後匯入至資料庫時標準化。
最終於交接該爬蟲系統時達成半自動化,十幾隻品牌除特定幾隻品牌因成本考量採用手動驗證,其餘皆以腳本自動化完成任務,僅需檢查結果log確認該週爬取目標無誤。
與另一位資深工程師協作搭建後端系統,並負責後續的需求追加開發、維護與資料更新。技術採用Python + Django REST framework + PostgresSQL,服務部署於AWS service,使用了EC2、VPC、ELB、Route 53等相關服務。甲方為一傳統藥局,具有數個資訊系統,其皆未整合形成數據孤島。該系統整合客戶個人資料、量測資料、領藥紀錄、藥局所販售之保健食品等資訊。
過程中負責撰寫與維護以下功能:
七月 2018 - 五月 2019
使用Python並結合OpenCV、CNN等電腦視覺技術開發球卡 文字辨識、球員人臉辨識等功能API,以達成上傳即完成球卡標記任務之需求。
2015 - 2019
Python、Django、Django REST Framework、API Development、MongoDB 、Scrapy 、AWS、 Unit Test