[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?
有些網頁伺服器會檢查用戶代理以限制爬蟲存取頁面內容,但我們可以通過在標頭中增加自己的瀏覽器用戶代理來繞過這種限制,成功獲取網頁內容。這種技術可以用來抓取永慶房屋的房價資訊。
開始上課有些網頁伺服器會檢查用戶代理以限制爬蟲存取頁面內容,但我們可以通過在標頭中增加自己的瀏覽器用戶代理來繞過這種限制,成功獲取網頁內容。這種技術可以用來抓取永慶房屋的房價資訊。
開始上課最近證交所的頁面更新,爬蟲面臨網頁伺服器的rate limiting造成無法連上證交所的問題。為解決此問題,我們可以讓爬蟲在抓取資料之間隔幾秒讓其小睡,避免IP被封鎖。這樣,爬蟲就能夠順利抓取所需要的資料。有關程式碼可以參考Github連結。
開始上課