AI Team Data Engineer Intern
iKala 愛卡拉互動媒體股份有限公司
・
Internship1. 透過自動化數據完整性測試增強 ETL 管道穩定性: 使用 Python 和 SQL 設計並實施了一個自動化的 ETL 管道驗證測試流程,測試從 PostgreSQL 到 Elasticsearch 的Data Pipeline完整性,增強數據穩定性以解決數據不一致問題。
2. Presto 的部署: 在 Docker 內部署 Presto,整合 PostgreSQL、Elasticsearch 和 BigQuery;優化了複雜的配置和用 Prometheus 和 Grafana 監控Presto環境,提高了系統的可用性,使查詢計算性能提升和減少成本增加效益。
3. 自動化擷取YouTube 頻道貼文重複內容: 設計開發萃取無用雜訊流程,用於去除 YouTube 影片描述中的重複信息,利用 SnowNLP 進行斷句和計算 Rapid Fuzz Ratio 來識別重複內容; 整合到公司爬蟲數據清洗的流程中,提高了機器學習模型分類 YouTube 影片的準確性。
4. 品牌/產品命名實體識別(NER)模型部署: 設計開發了社交內容自動標記程式,能夠標記特定的品牌和產品實體;利用 NLP 技術實現更精確的識別,提高了 KOL 部門評估商業影響力和市場趨勢的能力。