大數軟體 X 大數學堂 | 搜尋關鍵字: 網頁內容

如何使用GET 抓取網頁內容?

大數學堂
April 16, 2015, 3:15 p.m.

這篇文章介紹了如何使用Python編寫三行程式碼來抓取淘寶網的網頁內容。並且提供了一個範例網頁連結供讀者參考。

開始上課

如何使用POST 抓取網頁內容?

大數學堂
April 19, 2015, 9:29 a.m.

本文章介紹了如何使用POST方法在Python中抓取高鐵網頁內容。使用POST方法可以將請求資訊包裝起來，再傳送至伺服器以取得回應資訊。在Python中使用POST方法非常簡單，只需將請求資訊以字典做包裝即可。

開始上課

如何使用Python 套件: BeautifulSoup4 剖析網頁內容?

大數學堂
April 17, 2015, 4:19 p.m.

這篇文章介紹了使用BeautifulSoup4來解析網頁內容的方法。透過幾個簡單的選取動作，我們可以迅速地從非結構化的資料中抓取有價值的部分。有了這些資料，進一步的分析也就離我們不遠了。

開始上課

如何使用RSelenium 抓取PTT Food版的內容?

大數學堂
June 29, 2015, 3:41 p.m.

R可以搭配Web自動化測試工具Selenium進行網頁抓取，只要使用RSelenium進行安裝和使用，就能在Firefox瀏覽器中使用R腳本抓取網頁內容。這樣的功能不僅僅只有Python才能實現。

開始上課

[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?

大數學堂
April 27, 2015, 3:29 p.m.

有些網頁伺服器會檢查用戶代理以限制爬蟲存取頁面內容，但我們可以通過在標頭中增加自己的瀏覽器用戶代理來繞過這種限制，成功獲取網頁內容。這種技術可以用來抓取永慶房屋的房價資訊。

開始上課

[爬蟲實戰] 如何剖析PTT的網頁?

大數學堂
April 24, 2015, 1:49 p.m.

本篇文章介紹了如何使用Python的requests和BeautifulSoup4函式庫來獲取並解析PTT網站的文章內容。透過requests的get方法可以將網頁內容取回，再使用BeautifulSoup4來解析原始碼，提取出有意義的結構化資訊，例如文章標題作者和發文時間等。這對於進一步分析和處理PTT文章內容非常有用。

開始上課

[爬蟲實戰] 如何簡簡單單突破驗證碼 (Captcha) 限制?

大數學堂
July 26, 2023, 12:39 p.m.

這堂免費課指出，不一定需要使用OpenCV來辨識文字，可以使用之前的HTTP請求Session和圖片顯示功能來半自動地抓取有驗證碼限制的網頁內容。這種方法讓抓取網頁資料變得容易又輕鬆。

開始上課

[爬蟲實戰] 如何抓取集保戶股權分散表?

大數學堂
Aug. 5, 2015, 11:55 a.m.

文章提到可以使用requests.post來取得需要POST請求的網頁內容，但也可以使用GET模擬整個POST動作。只需要將POST內容編碼後，串接在原網址的問號(?)後面，就可以順利取得內容。目標網站有變，已經更新爬取方法至： https://www.largitdata.com/course/248/

開始上課

[爬蟲實戰] 如何擷取網頁中的隱藏輸入以順利下載證交所的 csv 檔?

大數學堂
Sept. 20, 2015, 5:05 p.m.

本文章提到了爬蟲不僅可以擷取網頁的資訊，還可以下載csv檔案。作者在探索過程中發現，證交所使用了base64編碼將網頁內容放在post參數中，讓人感到十分困惑。然而，通過直接抓取網頁中的隱藏輸入欄位，再將資料進行base64編碼，作者成功地下載了csv檔案。

開始上課

[爬蟲實戰] 如何破解Cloudflare 的反爬蟲機制

大數學堂
Aug. 11, 2024, 9 p.m.

在網路爬蟲的世界裡，我們經常會遇到各種反爬蟲機制。🛡️其中，Cloudflare的５秒挑戰(5-second Cloudflare Challenge)是一個常見的障礙。當我們使用普通的requests請求時，往往會被擋下來，無法取得想要的內容。🚫這次，我們將介紹如何使用pyppeteer和pyppeteer_stealth 這兩個強大的工具來突破這個限制。

開始上課

hidden