簡單的 Dcard 時事版文章爬蟲

Avatar of 莊于霆 Tim.
Avatar of 莊于霆 Tim.

簡單的 Dcard 時事版文章爬蟲

Taipei, Taiwan
2019年4月,全台對2020總統大選候選人的未來將由誰來出線非常關注,媒體、社群討論度極高, 大家都非常好奇與爭論民調的輸贏,而當時我因旁聽Python的課程,加上對該議題的好齊心, 便起心想透過爬蟲來了解在 Dcard 上,各個可能候選人的討論熱度,便試做這個爬蟲程式。 這隻爬蟲是使用 Python 的 lxml 套件,依照 XPath 取得網頁上的內容。 也利用了 Selenium 的 Web Driver 來模擬滑鼠滾動以自動載入多數頁面。在取得文章標題後依照使用者先前輸入之關鍵字篩選, 最後將符合結果的統計出來,便能得知該議題在某段時間內 Dcard 時事版的討論熱度。
Avatar of the user.
请先登入再留言。

发布时间: 2020年3月21日
351
4
0

lxml
Web Crawler
Python

分享