#工作內容
1.負責設計和開發分佈式網路爬蟲系統,進行多平臺信息的抓取和分析工作
2.負責網頁搜索的頁面內容提取,搜索領域下的濾重(simhash/minhash)、聚類、反垃圾、頁面分析、標簽、分類器(貝葉斯/Bayes/LR/SVM)、數據挖掘等工作,提升平臺的抓取效率
3.參與爬蟲核心演算法和策略優化,熟悉採集系統的調度策略
4.實時監控爬蟲的進度和警報反饋
#工作條件
1.熟悉Linux系統,掌握Python等語言
2.掌握網頁抓取原理及技術,瞭解基於Cookie的登錄原理,熟悉基於正則表達式、XPath、CSS等網頁信息抽取技術
3.熟悉整個爬蟲的設計及實現流程,有大規模網頁信息抽取開發經驗,熟悉各種反爬蟲技術,有分佈式爬蟲架構經驗
4.有鏈接分析(pagerank、trustrank)、特徵提取(頁面質量、權威度、topic、線性/非線性回歸、LDA)等能力優先
我們是比特數字科技有限公司,具有前瞻性區塊鏈事業體 產品包含世界排名百大的MEXC 交易所, 是一個熱愛學習,活潑新世代的團隊,團隊皆擁有一顆年輕新鮮的心與肝, 希望你加入我們後,能感受到工作上的成就感與歸屬感。
經營理念公司團隊擁有專業的開發技術,還有前瞻性的策略規劃(讓你想都想不到) 以及厚實的資本,提供區塊鏈技術、FinTech 等數位資訊服務。 追求Breakthrought突破、追求Innovation創新、追求Transfers轉變。 除此之外我們還擁有虛擬貨幣交易業界最快上新幣速度,不用等了又等! 用戶成長速度最快,就知道我們是未來趨勢了吧,還不快加入我們! 以人為本,最照顧使用者的感受與體驗,希望你跟我們有共同的理念!
主要商品 / 服務項目【 MEXC 交易所】 世界排名百大的虛擬貨幣交易所