1. 建立深度學習模型(ALBERT、XLNet、DistilBERT),預測商品分類,提升搜尋引擎的品質。過程訓練近184萬筆的商品文字資訊,且可預測類別高達480類,最終準確度來到87%以上,且修正近30萬筆錯置的商品
2. 和前端進行跨組合作,以開發搜尋關鍵字績效API及邏輯,提供使用者有效率的查詢系統
3. 開發自動化流程的分析專案(Python、SQL),並利用Airflow進行排程上線
4. 開發google ads相關專案,為專案設計排除重複SKU的機制,並提供其他關鍵字專案近90萬筆的數據源,以提升廣告投放效益
【預測商品分類模型】
專案目的: 建立商品預測模型,以修正錯誤分類的商品,優化平台搜尋結果
專案流程: 撈取數據 → 模型訓練 → 開發及部署API → 開發自動化流程及上線
1. 撈取數據: 透過SQL撈取商品的文字資訊,總共取得184萬筆數據進來訓練
2. 模型訓練: 分別訓練三大模型ALBERT、XLNet、DistilBERT,最終Top5準確度皆超過87%以上
3. 開發及部署API:利用flask架構設計出API,讓使用者透過輸入商品編號或是商品資訊取得模型預測結果
4. 開發自動化流程及上線 : 透過取得Market部門的待測商品名單,並呼叫三大模型API取得預測類別。經過整合及備份模型預測的邏輯,將最終結果回傳到指定Table並更新任務狀態。
專案結果: 每天執行一次流程,累積修正了近三十萬筆錯誤分類的商品
【搜尋關鍵字績效API】
專案目的: 提供使用者關鍵字對應前五名熱門商品的資訊,以擴充平台功能及方便賣家擬定行銷策略
專案流程: 數據準備及運算 → 匯入數據庫 → 開發及部署API
1. 數據準備及運算: 透過有效率的整合及運算多張SQL Table數據,並開發成SP
2. 匯入數據庫: 經過測試Mongo及Elastic Search效能,最後選擇匯入後者因為該資料庫對於搜尋結果的檢索能力是較強的
3. 開發及部署API :利用flask架構設計API,將使用者輸入的keyword及條件(時間、地區、顯示筆數、頁數等)轉換成ES的Query語法,整理成Json格式並回傳查詢結果
專案結果: 在數據為百萬級別及大量文字的情況下,API反應時間從6秒優化到2秒,滿足前端UI開發需求以及使用者高效能的查詢