如何使用GET 抓取網頁內容?

  • 大數學堂
  • April 16, 2015, 3:15 p.m.
如何使用GET 抓取網頁內容?

這篇文章介紹了如何使用Python編寫三行程式碼來抓取淘寶網的網頁內容。並且提供了一個範例網頁連結供讀者參考。

開始上課

如何使用POST 抓取網頁內容?

  • 大數學堂
  • April 19, 2015, 9:29 a.m.
如何使用POST 抓取網頁內容?

本文章介紹了如何使用POST方法在Python中抓取高鐵網頁內容。使用POST方法可以將請求資訊包裝起來,再傳送至伺服器以取得回應資訊。在Python中使用POST方法非常簡單,只需將請求資訊以字典做包裝即可。

開始上課

如何使用RSelenium 抓取 PTT Food版的內容?

  • 大數學堂
  • June 29, 2015, 3:41 p.m.
如何使用RSelenium 抓取PTT Food版的內容?

R可以搭配Web自動化測試工具Selenium進行網頁抓取,只要使用RSelenium進行安裝和使用,就能在Firefox瀏覽器中使用R腳本抓取網頁內容。這樣的功能不僅僅只有Python才能實現。

開始上課

[爬蟲實戰] 如何剖析PTT的網頁?

  • 大數學堂
  • April 24, 2015, 1:49 p.m.
[爬蟲實戰] 如何剖析PTT的網頁?

本篇文章介紹了如何使用Python的requests和BeautifulSoup4函式庫來獲取並解析PTT網站的文章內容。透過requests的get方法可以將網頁內容取回,再使用BeautifulSoup4來解析原始碼,提取出有意義的結構化資訊,例如文章標題 作者和發文時間等。這對於進一步分析和處理PTT文章內容非常有用。

開始上課

[爬蟲實戰] 如何抓取集保戶股權分散表?

  • 大數學堂
  • Aug. 5, 2015, 11:55 a.m.
[爬蟲實戰] 如何抓取集保戶股權分散表?

文章提到可以使用requests.post來取得需要POST請求的網頁內容,但也可以使用GET模擬整個POST動作。只需要將POST內容編碼後,串接在原網址的問號(?)後面,就可以順利取得內容。目標網站有變,已經更新爬取方法至: https://www.largitdata.com/course/248/

開始上課

[爬蟲實戰] 如何破解Cloudflare 的反爬蟲機制

  • 大數學堂
  • Aug. 11, 2024, 9 p.m.
[爬蟲實戰] 如何破解Cloudflare 的反爬蟲機制

在網路爬蟲的世界裡,我們經常會遇到各種反爬蟲機制。🛡️其中,Cloudflare的5秒挑戰(5-second Cloudflare Challenge)是一個常見的障礙。當我們使用普通的requests請求時,往往會被擋下來,無法取得想要的內容。🚫這次,我們將介紹如何使用pyppeteer和pyppeteer_stealth 這兩個強大的工具來突破這個限制。

開始上課