[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?
瀑布流網站如EZTABLE讓資訊抓取變得困難,但可使用Selenium執行Javascript解決頁面捲動問題。透過execute_script函數執行window.scrollTo(0 document.body.scrollHeight),可以成功抓取瀑布流式網頁。
開始上課瀑布流網站如EZTABLE讓資訊抓取變得困難,但可使用Selenium執行Javascript解決頁面捲動問題。透過execute_script函數執行window.scrollTo(0 document.body.scrollHeight),可以成功抓取瀑布流式網頁。
開始上課這堂免費課介紹了使用Selenium和BeautifulSoup4來抓取以Ajax生成的網頁的方法。傳統上,抓取這樣的網頁需要很多耐心觀察,才能找到抓取的切入點。但是使用Selenium可以自動點擊和載入Ajax生成的頁面,使得抓取變得簡單。然後,配合BeautifulSoup4的強大解析功能,使用Python抓取網頁就變得非常簡單了。
開始上課