簡單的 Dcard 時事版文章爬蟲

2019年4月,全台對2020總統大選候選人的未來將由誰來出線非常關注,媒體、社群討論度極高, 大家都非常好奇與爭論民調的輸贏,而當時我因旁聽Python的課程,加上對該議題的好齊心, 便起心想透過爬蟲來了解在 Dcard 上,各個可能候選人的討論熱度,便試做這個爬蟲程式。 這隻爬蟲是使用 Python 的 lxml 套件,依照 XPath 取得網頁上的內容。 也利用了 Selenium 的 Web Driver 來模擬滑鼠滾動以自動載入多數頁面。在取得文章標題後依照使用者先前輸入之關鍵字篩選, 最後將符合結果的統計出來,便能得知該議題在某段時間內 Dcard 時事版的討論熱度。
Published: March 21, 2020
lxml
Web Crawler
Python
More from 莊于霆 Tim
中央買菜郎-Django 與 Open Data
Timer Bus-Google 路線規劃與捷運即時動態資料的結合
Tim's Web 個人網站(RWD)
TimeKeeper 智慧鬧鐘(Android App)
中文數字手寫辨識
高雄老司機-網頁版的高雄公車通
chat placeholder

Build Your Professional Network

Click icon on the company page or under talent search engine to start the conversation.