大數軟體 X 大數學堂 | 搜尋關鍵字: 請求

[Scrapy 爬蟲] 什麼是Scrapy以及為什麼要用Scrapy 爬取網頁?

大數學堂
Jan. 31, 2016, 2:59 p.m.

Scrapy是一個網路爬蟲框架，可以幫助我們撰寫具有非同步請求能力的爬蟲，避免重造輪子。安裝Scrapy的步驟包括下載並安裝Anaconda，使用Anaconda Command Prompt安裝Scrapy，以及開啟爬蟲專案。

開始上課

[Scrapy 爬蟲] 如何從蘋果新聞的清單聯結抓取下一層的內容頁面?

大數學堂
Feb. 23, 2016, 4:14 p.m.

這篇文章介紹了如何在Scrapy爬蟲中使用yield 產生器來抓取下一層的內容頁面，並使用BeautifulSoup進行剖析，獲取內容頁的標題資訊。

開始上課

如何使用POST 抓取網頁內容?

大數學堂
April 19, 2015, 9:29 a.m.

本文章介紹了如何使用POST方法在Python中抓取高鐵網頁內容。使用POST方法可以將請求資訊包裝起來，再傳送至伺服器以取得回應資訊。在Python中使用POST方法非常簡單，只需將請求資訊以字典做包裝即可。

開始上課

[爬蟲實戰] 如何簡簡單單突破驗證碼 (Captcha) 限制?

大數學堂
July 26, 2023, 12:39 p.m.

這堂免費課指出，不一定需要使用OpenCV來辨識文字，可以使用之前的HTTP請求Session和圖片顯示功能來半自動地抓取有驗證碼限制的網頁內容。這種方法讓抓取網頁資料變得容易又輕鬆。

開始上課

[爬蟲實戰] 如何抓取集保戶股權分散表?

大數學堂
Aug. 5, 2015, 11:55 a.m.

文章提到可以使用requests.post來取得需要POST請求的網頁內容，但也可以使用GET模擬整個POST動作。只需要將POST內容編碼後，串接在原網址的問號(?)後面，就可以順利取得內容。目標網站有變，已經更新爬取方法至： https://www.largitdata.com/course/248/

開始上課

[財經爬蟲] 使用 Python 網路爬蟲輕鬆爬取集保戶股權分散表

大數學堂
Nov. 3, 2024, 9:30 p.m.

爬蟲的定律就是目標網站一直在變！本教學示範如何突破集保網站的更新限制，成功抓取股權分散表資料。🔍 透過結合 requests 的 Session 管理、Synchronizer Token 驗證機制，並運用 BeautifulSoup 解析 HTML 與 Pandas 處理表格數據，輕鬆完成資料擷取。💡 整個過程展示了如何應對網站的變化，透過 POST 請求技巧實現穩定的爬蟲功能。🚀

開始上課

[爬蟲實戰] 如何突破蝦皮拍賣的重重限制以順利抓取拍賣商品資訊?

大數學堂
July 26, 2023, 3:52 p.m.

本堂課介紹了如何使用爬蟲抓取時下最夯的蝦皮拍賣網站。要抓取蝦皮的資料，必須先找到XHR請求連結，然後使用POST傳輸json格式的參數。如果無法正確獲得回應，可能是缺少一些標頭資訊，此時可以嘗試不同的組合來取得正確的商品資訊。如果無法獲得某些標頭資訊，可以使用Selenium搭配正確的Cookie來解決這個問題。

開始上課

[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

大數學堂
April 12, 2021, 1:47 p.m.

本文介紹了如何透過Python Flask建立一個橋接器，來自動化抓取實價登錄網的加密字串。通常我們會使用Node.js或Pyexecjs等方法來加載加密函數，但這牽涉到處理Node.js或修改JavaScript的問題。透過Python Flask橋接器，我們可以輕鬆地重新導向加密字串到實價登錄網，實現破解新版實價登錄網的目標。影片和程式碼也提供了詳細的操作示例。

開始上課

[爬蟲實戰] 如何破解Cloudflare 的反爬蟲機制

大數學堂
Aug. 11, 2024, 9 p.m.

在網路爬蟲的世界裡，我們經常會遇到各種反爬蟲機制。🛡️其中，Cloudflare的５秒挑戰(5-second Cloudflare Challenge)是一個常見的障礙。當我們使用普通的requests請求時，往往會被擋下來，無法取得想要的內容。🚫這次，我們將介紹如何使用pyppeteer和pyppeteer_stealth 這兩個強大的工具來突破這個限制。

開始上課

hidden