噹噹網爬蟲

Avatar of 蔣德美.
Avatar of 蔣德美.

噹噹網爬蟲

Taichung City, Taiwan
1. 下載項目為編號、歸類、書名、價格、連結網址。三個步驟完成最終成果,第一步選擇好網頁,目標為圖書歸類與歸類連結;第二步由歸類連結找出歸類的最後頁數;第三步由歸類的頁數讀取每筆圖書的資料並附上連結。 2. 中間有套件BeautifulSoup, requests, requests_cache, json, pandas。BeautifulSoup抓取重要資料;requests抓取程式碼內容;request_cache使用快取降低網站負擔;json存檔;pandas輸出csv檔案內容。 3. 結合網路數據與交易資料能進一步做預測、關聯性、歸類...等大數據處理。
Avatar of the user.
Please login to comment.

Published: Mar 27th 2019
111
3
0

python

Share