[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?
![[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?](https://img.youtube.com/vi/MQH4Rau_F_A/0.jpg)
這堂免費課介紹了使用Selenium和BeautifulSoup4來抓取以Ajax生成的網頁的方法。傳統上,抓取這樣的網頁需要很多耐心觀察,才能找到抓取的切入點。但是使用Selenium可以自動點擊和載入Ajax生成的頁面,使得抓取變得簡單。然後,配合BeautifulSoup4的強大解析功能,使用Python抓取網頁就變得非常簡單了。
開始上課這堂免費課介紹了使用Selenium和BeautifulSoup4來抓取以Ajax生成的網頁的方法。傳統上,抓取這樣的網頁需要很多耐心觀察,才能找到抓取的切入點。但是使用Selenium可以自動點擊和載入Ajax生成的頁面,使得抓取變得簡單。然後,配合BeautifulSoup4的強大解析功能,使用Python抓取網頁就變得非常簡單了。
開始上課文章指出了了解市場必須先取得市場相關數據的重要性。說明在中國,可以參考Google Trend,但只能使用淘寶指數。然而,淘寶指數需要先登入才能取得相關資訊,但透過耐心觀察並使用Python抓取,仍然可以取得所需的資料。
開始上課文章提到可以使用requests.post來取得需要POST請求的網頁內容,但也可以使用GET模擬整個POST動作。只需要將POST內容編碼後,串接在原網址的問號(?)後面,就可以順利取得內容。目標網站有變,已經更新爬取方法至: https://www.largitdata.com/course/248/
開始上課這篇文章介紹了如何使用Selenium來解決爬取司法院法學檢索系統的問題。由於該系統使用了Iframe來嵌入檢索結果,常常造成爬蟲無法正確獲取內容。作者建議使用Selenium IDE來自動記錄抓取步驟,並將步驟轉換為Python腳本,使得抓取過程變得更加簡單。
開始上課本文介紹了在使用程式語言連結到資料庫時可使用的兩種方法:ODBC和JDBC。同樣地,R語言也提供了RODBC和RJDBC兩種方法供使用者選擇。本文將教您如何下載JAR檔和設定連線資訊,使得R可以通過RJDBC連結到資料庫,並獲取資料庫中存放的三大法人買賣資訊。
開始上課