大數軟體 X 大數學堂 - 網路爬蟲(Crawler)實戰教學

[爬蟲實戰] 如何抓取心食譜的食譜資訊?

大數學堂
April 20, 2015, 2:01 p.m.

[爬蟲實戰] 如何抓取心食譜的食譜資訊?

這篇文章介紹使用CSS Selector的nth-of-type來抓取特定位置的食譜資訊的示範。並且提供了一個示範網頁的連結。

[爬蟲實戰] 如何透過 Python 網路爬蟲快速找出1111購物狂歡節折扣最多的商品? (2018年版)

大數學堂
Nov. 10, 2018, 12:43 p.m.

[爬蟲實戰] 如何透過 Python 網路爬蟲快速找出1111購物狂歡節折扣最多的商品? (2018年版)

1111購物狂歡節即將到來，如果你還不知道該買什麼，可以嘗試使用數據來做決策。本課程將使用Python網路爬蟲抓取天貓的商品頁面，再用json和pandas整理商品資訊，最後使用pandas的排序功能，幫助你找出折扣最多的商品。程式碼可參考：https://github.com/ywchiu/largitdata/blob/master/code/Course_108.ipynb

[爬蟲實戰] 如何爬取PTT的網頁?

大數學堂
April 23, 2015, 3:09 p.m.

[爬蟲實戰] 如何爬取PTT的網頁?

本次實戰介紹如何從PTT Food版抓取鄉民的言論，以進行美食文字探勘分析。

[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?

大數學堂
April 27, 2015, 3:29 p.m.

[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?

有些網頁伺服器會檢查用戶代理以限制爬蟲存取頁面內容，但我們可以通過在標頭中增加自己的瀏覽器用戶代理來繞過這種限制，成功獲取網頁內容。這種技術可以用來抓取永慶房屋的房價資訊。

[爬蟲實戰] 如何剖析PTT的網頁?

大數學堂
April 24, 2015, 1:49 p.m.

[爬蟲實戰] 如何剖析PTT的網頁?

本篇文章介紹了如何使用Python的requests和BeautifulSoup4函式庫來獲取並解析PTT網站的文章內容。透過requests的get方法可以將網頁內容取回，再使用BeautifulSoup4來解析原始碼，提取出有意義的結構化資訊，例如文章標題作者和發文時間等。這對於進一步分析和處理PTT文章內容非常有用。

[爬蟲實戰] 如何告訴PTT我已滿18並順利抓取八卦版的文章 ?

大數學堂
June 8, 2015, 3:21 p.m.

[爬蟲實戰] 如何告訴PTT我已滿18並順利抓取八卦版的文章 ?

這段文章談論到PTT八卦版的年齡限制問題，即使已滿18歲，仍需進行驗證才能閱讀內容。然而，作者提到可以使用爬蟲技術，利用Chrome開發人員工具找到如何通過18歲驗證後，再接續之前的Session，並成功存取八卦版的內容。

[爬蟲實戰] 如何抓取圖表內的價格資訊?

大數學堂
April 25, 2015, 3:26 p.m.

[爬蟲實戰] 如何抓取圖表內的價格資訊?

本文介紹了如何使用Python的正規表達式模塊re中的search函數來抓取匯率網站圖表內的價格資訊，並提供了示範網址。

[爬蟲實戰] 如何簡簡單單突破驗證碼 (Captcha) 限制?

大數學堂
July 26, 2023, 12:39 p.m.

[爬蟲實戰] 如何簡簡單單突破驗證碼 (Captcha) 限制?

這堂免費課指出，不一定需要使用OpenCV來辨識文字，可以使用之前的HTTP請求Session和圖片顯示功能來半自動地抓取有驗證碼限制的網頁內容。這種方法讓抓取網頁資料變得容易又輕鬆。

[爬蟲實戰] 如何抓取591租屋網的資訊?

大數學堂
April 29, 2015, 3:52 p.m.

[爬蟲實戰] 如何抓取591租屋網的資訊?

這篇文章介紹了如何觀察和爬取使用AJAX換頁的網頁中的資訊，同時也講解了如何使用Python的json套件將json內容轉換為字典。

[爬蟲實戰] 如何透過網路爬蟲將網路圖片存放至SQLite之中?

大數學堂
May 4, 2015, 5:02 p.m.

[爬蟲實戰] 如何透過網路爬蟲將網路圖片存放至SQLite之中?

本文介紹了網路爬蟲的另一個功能，即抓取並存儲網路上的圖片。作者透過設定stream = TRUE後，使用shutil的copyfileobj功能將圖片存儲為檔案，並建立一個能夠存儲blob資料的資料表。這樣，我們便能夠將圖片存儲到資料庫中。

[爬蟲實戰] 如何抓取淘寶網雙十一購物狂歡節活動網頁中的商品列表?

大數學堂
Nov. 10, 2015, 2:41 p.m.

[爬蟲實戰] 如何抓取淘寶網雙十一購物狂歡節活動網頁中的商品列表?

這篇文章介紹了如何使用Python網路爬蟲來抓取雙十一購物狂歡節活動網頁中的商品列表。雖然淘寶的網頁改版後讓資料抓取變得困難，但這不會阻止我們追求購物資訊的熱情。文章將教你如何使用Python網路爬蟲來解決這個問題。

[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

大數學堂
May 30, 2015, 9:40 a.m.

[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

縱使針對網站進行多層保護，但只要爬取資料的思路正確，破解任意網站只是時間問題。就像這個知名財經網站，儘管檢查使用者是否使用爬蟲或內嵌iframe，仍無法逃脫被爬取的命運。

[爬蟲實戰] 如何抓取淘寶網的商品名稱與價格 (2016年版)?

大數學堂
Oct. 10, 2016, 3:27 p.m.

[爬蟲實戰] 如何抓取淘寶網的商品名稱與價格 (2016年版)?

本文介紹了作者對於更新淘寶爬蟲的一些方法。他提到以前的爬蟲只需要獲取Document下的連結即可獲取商品價格資訊，但淘寶現在使用了AJAX的方式填充頁面內容。為了解決這個問題，作者建議從XHR和JS入手，使用正則表達式來解析重要資訊，以便在雙十一節中獲取淘寶資訊更容易。

[爬蟲實戰] 如何抓取MoneyDJ 文章中的人氣指數?

大數學堂
April 15, 2015, 2:27 p.m.

[爬蟲實戰] 如何抓取MoneyDJ 文章中的人氣指數?

本教學示範如何使用Python抓取MoneyDJ文章中的人氣指數。如果要安裝POSTMAN，請到指定網站下載。

[爬蟲實戰] 如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例

大數學堂
July 21, 2015, 3:45 p.m.

[爬蟲實戰] 如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例

這篇文章介紹了如何使用Selenium來解決爬取司法院法學檢索系統的問題。由於該系統使用了Iframe來嵌入檢索結果，常常造成爬蟲無法正確獲取內容。作者建議使用Selenium IDE來自動記錄抓取步驟，並將步驟轉換為Python腳本，使得抓取過程變得更加簡單。

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

大數學堂
March 31, 2016, 4:24 p.m.

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

瀑布流網站如EZTABLE讓資訊抓取變得困難，但可使用Selenium執行Javascript解決頁面捲動問題。透過execute_script函數執行window.scrollTo(0 document.body.scrollHeight)，可以成功抓取瀑布流式網頁。

[爬蟲實戰] 如何抓取集保戶股權分散表?

大數學堂
Aug. 5, 2015, 11:55 a.m.

[爬蟲實戰] 如何抓取集保戶股權分散表?

文章提到可以使用requests.post來取得需要POST請求的網頁內容，但也可以使用GET模擬整個POST動作。只需要將POST內容編碼後，串接在原網址的問號(?)後面，就可以順利取得內容。目標網站有變，已經更新爬取方法至： https://www.largitdata.com/course/248/

[爬蟲實戰] 如何使用 PyAutoGUI 搶雙 11 百萬紅包

大數學堂
Nov. 9, 2023, 3:30 p.m.

[爬蟲實戰] 如何使用 PyAutoGUI 搶雙 11 百萬紅包

嘿嘿，年度盛事雙 11 又來囉！🎉🎉🎉 眾所周知，這天除了剁手的好去處，還有那讓人心跳加速的搶紅包活動！是不是已經等不及用你的小手機app瘋狂點擊了呢？但別急，讓我們來點科技的魔法：PyAutoGUI + 手機模擬器加持！🧙‍♂️只需輕鬆設定，對準那閃閃發亮的紅包位置，一個指令，咻——！紅包自動入袋，就這麼簡單！今年雙 11，就讓我們用點小技巧，把好運和紅包一網打盡吧！💰🚀 快來試試，看看誰能成為搶紅包的速度之王！

[爬蟲實戰] 如何在1111購物狂歡節快速爬取淘寶上的商品資訊?

大數學堂
Oct. 30, 2019, 1:39 p.m.

[爬蟲實戰] 如何在1111購物狂歡節快速爬取淘寶上的商品資訊?

這篇文章介紹了如何快速寫一個淘寶爬蟲程式。現在的電商網頁都有提供API，可以方便地將商品資訊下載下來。只要透過Chrome的開發人員工具找到API的端口，然後使用requests將JSON格式資料爬取下來。再搭配Pandas的資料整理功能，就可以將商品資訊整理成表格，方便閱覽和分析。文章最後提供了相關影片和程式碼的連結。

[爬蟲實戰] 如何抓取廉價航空的機票價格 – 以酷航為例?

大數學堂
July 26, 2023, 2:28 p.m.

[爬蟲實戰] 如何抓取廉價航空的機票價格 – 以酷航為例?

這堂免費課介紹了如何使用爬蟲去抓取酷航的最新票價資訊，以便能夠搶到廉價的航空機票。作者提到，關注最新的票價是獲得便宜機票的最佳方法，但大家都很忙，所以讓爬蟲代勞是一個好選擇。使用Python Crawler，可以輕鬆地抓取酷航的最新票價，避免錯失機會。

[爬蟲實戰] 如何撰寫Python爬蟲抓取台灣銀行的牌告匯率?

大數學堂
Dec. 16, 2016, 3:24 p.m.

[爬蟲實戰] 如何撰寫Python爬蟲抓取台灣銀行的牌告匯率?

這篇文章介紹了如何利用爬蟲和Python Pandas來抓取台灣銀行的牌告匯率資料，並將其整理成漂亮的表格，並存成Excel檔案。這樣的工具可以幫助你在買進日圓時，找到最低價位，提供了出國血拼時的硬是划算方式。

[爬蟲實戰] 如何在1212購物狂歡節快速爬取momo購物網上的商品資訊?

大數學堂
Dec. 11, 2019, 2 p.m.

[爬蟲實戰] 如何在1212購物狂歡節快速爬取momo購物網上的商品資訊?

這篇文章介紹如何撰寫momo購物網的爬蟲程式碼，並給予了相關影片和程式碼的連結。文章提到，momo購物網有防爬蟲機制，但只要加入headers，就能騙過防護系統，從而快速搜刮特價品資訊。該文章還提到，momo購物網有兩個購物狂歡節，其中一個是雙12。

[爬蟲實戰] 如何撰寫網路爬蟲快速爬取微博上所有關於新冠肺炎的輿情?

大數學堂
Feb. 4, 2020, 1:27 p.m.

[爬蟲實戰] 如何撰寫網路爬蟲快速爬取微博上所有關於新冠肺炎的輿情?

一個關於使用Python網路爬蟲快速爬取微博手機版上的疫情訊息的教學文章。這個方法可以讓人們及時獲取最新的疫情訊息，並提供了相關影片和程式碼連結。文章也列出了一些相關的標籤，如Python網路爬蟲武漢肺炎 2019-nCoV 微博和weibo。

[爬蟲實戰] 如何使用Pandas快速分析上市櫃公司員工的薪資水平?

大數學堂
July 5, 2020, 2:16 p.m.

[爬蟲實戰] 如何使用Pandas快速分析上市櫃公司員工的薪資水平?

證交所公佈了上市與上櫃公司非擔任主管職務的全時員工薪資資訊，介紹了使用Python的requests和pandas來爬取和分析這些公司的薪資水平。以往只提供薪資平均值，而今年則加入了中位數的資訊，以更客觀地反映薪資水平。影片和程式碼連結也提供在文章中。

[爬蟲實戰] 如何使用 PANDAS 快速爬取財報表格?

大數學堂
Dec. 30, 2015, 5:14 p.m.

[爬蟲實戰] 如何使用 PANDAS 快速爬取財報表格?

表格是一種常見的數據呈現格式，使用BeautifulSoup4和PANDAS可以很方便地對表格進行解析和爬取。PANDAS的read_html方法可以將復雜的網絡表格信息快速轉換為DataFrame，成為股票分析的數據來源之一。

[爬蟲實戰] 如何使用Selenium 抓取驗證碼?

大數學堂
Oct. 24, 2017, 3:22 p.m.

[爬蟲實戰] 如何使用Selenium 抓取驗證碼?

使用selenium抓取驗證碼圖片並非難事，只需要先存取頁面快照，然後找到圖片位置，然後根據位置和大小，就能成功從頁面中擷取出驗證碼。接著，只需要將驗證碼交給機器學習引擎辨識，就能輕鬆讓電腦為我們自動訂票。可以參考這篇程式碼來實踐：<a href="https://github.com/ywchiu/largitdata/blob/master/code/Course_95.ipynb">https://github.com/ywchiu/largitdata/blob/master/code/Course_95.ipynb</a>

[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

大數學堂
July 26, 2023, 3:44 p.m.

[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

這堂免費課介紹了使用Selenium和BeautifulSoup4來抓取以Ajax生成的網頁的方法。傳統上，抓取這樣的網頁需要很多耐心觀察，才能找到抓取的切入點。但是使用Selenium可以自動點擊和載入Ajax生成的頁面，使得抓取變得簡單。然後，配合BeautifulSoup4的強大解析功能，使用Python抓取網頁就變得非常簡單了。

[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

大數學堂
Nov. 10, 2016, 2:34 p.m.

[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

本文介紹了如何使用Python網路爬蟲來抓取天貓特價商品資料。使用Python的requests模組抓取商品頁面，再使用BeautifulSoup4抓取特價商品的資料區塊，最後使用json.loads將資料轉換成字典結構。這樣就可以在1111購物狂歡節期間，同時享受購物樂趣，又顧好自己的錢包了。程式碼可以在文章中提供的GitHub連結中找到。

[爬蟲實戰] 如何破解高鐵驗證碼 (1) - 去除圖片噪音點?

大數學堂
Oct. 26, 2017, 12:02 a.m.

[爬蟲實戰] 如何破解高鐵驗證碼 (1) - 去除圖片噪音點?

這篇文章介紹了如何使用opencv的fastNlMeansDenoisingColored函數來去除圖片中的噪音點，以提升驗證碼圖片的清晰度。文章提供了程式碼和相關資源的連結。

[爬蟲實戰] 如何破解高鐵驗證碼 (2) - 使用迴歸方法去除多餘弧線?

大數學堂
Nov. 1, 2017, 2:35 p.m.

[爬蟲實戰] 如何破解高鐵驗證碼 (2) - 使用迴歸方法去除多餘弧線?

這篇文章提到了如何去除高鐵驗證碼中的弧線，以提高圖片的可辨識率。文章指出，這些弧線可以用一個二項式迴歸公式表示，並介紹了使用sklearn的linear model進行迴歸線適配的方法。最終，文章還提供了相關的程式碼供讀者參考。

[爬蟲實戰] 如何使用Pandas 函式將台灣銀行的牌告匯率存進資料庫中?

大數學堂
Dec. 22, 2016, 4:12 p.m.

[爬蟲實戰] 如何使用Pandas 函式將台灣銀行的牌告匯率存進資料庫中?

使用Excel管理匯率資料不方便，因此我們建議使用資料庫來儲存資料。使用Pandas可以輕鬆將資料儲存到資料庫中，並使用read_sql_query函式將資料讀回。這樣可以增加資料的可維護性。

[爬蟲實戰] 如何突破蝦皮拍賣的重重限制以順利抓取拍賣商品資訊?

大數學堂
July 26, 2023, 3:52 p.m.

[爬蟲實戰] 如何突破蝦皮拍賣的重重限制以順利抓取拍賣商品資訊?

本堂課介紹了如何使用爬蟲抓取時下最夯的蝦皮拍賣網站。要抓取蝦皮的資料，必須先找到XHR請求連結，然後使用POST傳輸json格式的參數。如果無法正確獲得回應，可能是缺少一些標頭資訊，此時可以嘗試不同的組合來取得正確的商品資訊。如果無法獲得某些標頭資訊，可以使用Selenium搭配正確的Cookie來解決這個問題。

[爬蟲實戰] 如何使用Python Pandas 分析比特幣最佳買點?

大數學堂
June 9, 2017, 3:09 p.m.

[爬蟲實戰] 如何使用Python Pandas 分析比特幣最佳買點?

這篇文章提到使用Python網路爬蟲和數據分析工具Pandas來分析比特幣的趨勢線和移動平均線，以幫助投資者找到最適合的買點。並提供了程式碼的連結和與天善智能合作的線上課程，供讀者進一步了解如何使用Python進行資料分析。文章也提醒投資有賺有賠，投資前應詳閱公開說明書。

[爬蟲實戰] 如何在1111購物狂歡節快速爬取蝦皮限時特賣的商品折扣資訊?

大數學堂
Nov. 10, 2020, 1:50 p.m.

[爬蟲實戰] 如何在1111購物狂歡節快速爬取蝦皮限時特賣的商品折扣資訊?

這篇文章介紹了如何在蝦皮購物的1111購物狂歡節活動中，使用Selenium透過API偷看特賣商品的折扣資訊。因為蝦皮在API存取上有限制，所以藉由取得Cookie和csrf token等資訊，來繞過限制。文章中還附上了相關的影片和程式碼連結，方便讀者參考使用。這篇文章討論了1111購物狂歡節蝦皮API 蝦皮特賣商品折扣 Selenium和Python網路爬蟲等主題。

[爬蟲實戰] 如何透過開發人員工具破解實價登錄網新版API中的加密字串?

大數學堂
April 5, 2021, 1:30 p.m.

[爬蟲實戰] 如何透過開發人員工具破解實價登錄網新版API中的加密字串?

這篇文章介紹了如何使用Chrome開發人員工具來解析新版實價登錄網站的API連結中的神秘字串。透過瀏覽器的Debugger功能，可以找到加密的JavaScript程式碼片段，然後使用這些加密函數片段來解析參數的查詢條件，從而成功抓取實價登錄資訊。文中還提供了相關的影片和程式碼連結，方便讀者深入了解和實踐Python網路爬蟲的相關知識。

[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

大數學堂
April 12, 2021, 1:47 p.m.

[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

本文介紹了如何透過Python Flask建立一個橋接器，來自動化抓取實價登錄網的加密字串。通常我們會使用Node.js或Pyexecjs等方法來加載加密函數，但這牽涉到處理Node.js或修改JavaScript的問題。透過Python Flask橋接器，我們可以輕鬆地重新導向加密字串到實價登錄網，實現破解新版實價登錄網的目標。影片和程式碼也提供了詳細的操作示例。

[爬蟲實戰] 如何設定工作排程自動將牌告匯率存進資料庫之中?

大數學堂
Dec. 23, 2016, 4:17 p.m.

[爬蟲實戰] 如何設定工作排程自動將牌告匯率存進資料庫之中?

本文介紹了如何使用爬蟲定期執行爬取工作，以實現工作自動化。對於Windows使用者，可以利用工作排程器功能進行每天的資料庫更新，特別是匯率資料，以便後續進行投資時能提供準確的資訊。對於MAC或Linux使用者，可以參考Crontab的用法來設定定時執行爬蟲任務。

[爬蟲實戰] 如何透過EMAIL即時獲取最新匯率資訊?

大數學堂
Dec. 26, 2016, 4:32 p.m.

[爬蟲實戰] 如何透過EMAIL即時獲取最新匯率資訊?

文章介紹了如何透過Python的爬蟲和電子郵件功能來自動通知匯率的變化。使用smtplib和GMAIL工具，將匯率資料以HTML格式的郵件寄送給用戶，使他們能夠即時掌握最佳的買點。這種自動化的方法能夠節省用戶的時間和精力，並確保他們不會錯過任何重要的交易機會。

[爬蟲實戰] 如何爬取圖片以建立慾望之牆?

大數學堂
Sept. 12, 2015, 4:15 p.m.

[爬蟲實戰] 如何爬取圖片以建立慾望之牆?

這篇文章介紹了如何使用網路爬蟲蒐集圖片檔案，並提及了使用 streaming 的資料抓取 binary 寫檔以及 shutil 套件來完成任務。作者希望將自己最喜歡的雪芙女神照片收集起來，並表示可以在 Gamebase

[爬蟲實戰] 如何使用Pandas 快速繪製日幣近期的匯率走勢?

大數學堂
Dec. 27, 2016, 5:04 p.m.

[爬蟲實戰] 如何使用Pandas 快速繪製日幣近期的匯率走勢?

本文介紹了使用Pandas進行資料分析並畫圖的簡單方法。首先使用pandas的read_csv功能讀取csv資料，然後使用%pylab inline將圖表顯示在Jupyter Notebook中，最後使用plot函式繪製折線圖。這篇文章強調了透過Pandas的幾行指令就能輕鬆完成資料分析並畫出圖表的便利性。

[爬蟲實戰] 如何使用Selenium 自動將slides.com 的網頁投影片輸出成圖檔?

大數學堂
Jan. 1, 2017, 3:46 p.m.

[爬蟲實戰] 如何使用Selenium 自動將slides.com 的網頁投影片輸出成圖檔?

這篇文章介紹了如何使用Selenium撰寫一個爬蟲，將slides.com上製作的HTML網頁投影片自動轉換成圖檔，然後結合起來匯出成PDF檔。這樣一來，就可以不需要花錢升級會員，也能將投影片匯出為PDF檔。

[爬蟲實戰] 如何突破證交所的限制，穩穩抓取最新成交資訊?

大數學堂
July 26, 2023, 2:34 p.m.

[爬蟲實戰] 如何突破證交所的限制，穩穩抓取最新成交資訊?

最近證交所的頁面更新，爬蟲面臨網頁伺服器的rate limiting造成無法連上證交所的問題。為解決此問題，我們可以讓爬蟲在抓取資料之間隔幾秒讓其小睡，避免IP被封鎖。這樣，爬蟲就能夠順利抓取所需要的資料。有關程式碼可以參考Github連結。

[爬蟲實戰] 如何利用Python快速分析網易雲性格主導色心理測驗?

大數學堂
June 1, 2021, 2:59 p.m.

[爬蟲實戰] 如何利用Python快速分析網易雲性格主導色心理測驗?

在疫情期間的居家隔離中，大家都感到非常無聊。有人提到了網易雲的性格主導色心理測驗，並探討了該測驗中還有哪些顏色性格以及哪種性格最特別。透過網路爬蟲工具和Python的正規表達法，可以快速列出所有的性格色。作者分享了自己的性格色是橙+粉，並分享了觀察Python網路爬蟲常見的開發人員工具和Python的正規表達法的方法。該文章還提供了相關的影片和程式碼連結，以及性格主導色的完整資料的鏈接。

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (1) ? – 安裝opencv3

大數學堂
June 14, 2017, 3:12 p.m.

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (1) ? – 安裝opencv3

這篇文章介紹了使用機器學習中的類神經網路方法破解驗證碼的技術。為了建立模型，需要在Anaconda Python 3.6上安裝Opencv3，並使用Opencv3來切割出驗證碼的數字，然後建立分類模型以使機器可以自動辨識驗證碼。

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (2) ? – 切割出驗證碼中的各個數字

大數學堂
June 21, 2017, 3:57 p.m.

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (2) ? – 切割出驗證碼中的各個數字

這篇文章提到了如何使用Python和OpenCV來爬取經濟部公司資料的驗證碼，並使用OpenCV的findContours功能進行切割和儲存驗證碼中的數字。

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (3) ? – 使用類神經網路自動辨認驗證碼

大數學堂
July 14, 2017, 9:29 a.m.

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (3) ? – 使用類神經網路自動辨認驗證碼

這篇文章介紹了如何用Python scikit-learn中的類神經網路(MLPClassfier)來辨識驗證碼中的數字，以進一步讓爬蟲程式更容易破解驗證碼的阻擋。文中還提供了程式碼的GitHub連結，想要學習更多機器學習相關課程的讀者們，也可以參考提供的連結。

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (4) ? – 如何存取訓練模型

大數學堂
Aug. 18, 2017, 3:23 p.m.

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (4) ? – 如何存取訓練模型

本文提及在建立完訓練模型後，我們需要將模型儲存成pickle檔，以方便系統再次讀取使用，進而破解驗證碼並進行爬蟲，以抓取公司及分公司的基本資料。同時提供相關程式碼與學習資源連結。

[爬蟲實戰] 如何使用 Pyppeteer抓取 PCHOME 商品價格資訊?

大數學堂
Oct. 16, 2021, 9:55 a.m.

[爬蟲實戰] 如何使用 Pyppeteer抓取 PCHOME 商品價格資訊?

這篇文章介紹了在處理由Javascript渲染的網頁資料時，無法直接使用requests，需要使用Pyppeteer作為解決方案。Pyppeteer是一個Python接合Chromium API的工具，可以輕鬆讀取Javascript渲染的頁面資料，使網頁爬取更加直覺。文章還提供了相關的視頻和程式碼連結，並標籤了PCHOME爬蟲 Pyppeteer Puppeteer和Python網路爬蟲。

[爬蟲實戰] 如何擷取網頁中的隱藏輸入以順利下載證交所的 csv 檔?

大數學堂
Sept. 20, 2015, 5:05 p.m.

[爬蟲實戰] 如何擷取網頁中的隱藏輸入以順利下載證交所的 csv 檔?

本文章提到了爬蟲不僅可以擷取網頁的資訊，還可以下載csv檔案。作者在探索過程中發現，證交所使用了base64編碼將網頁內容放在post參數中，讓人感到十分困惑。然而，通過直接抓取網頁中的隱藏輸入欄位，再將資料進行base64編碼，作者成功地下載了csv檔案。

[爬蟲實戰] 如何不寫任何一行程式碼透過低代碼Low-Code / No-Code 工具 Playwright撰寫網頁自動化瀏覽程式

大數學堂
Nov. 10, 2021, 1:47 p.m.

[爬蟲實戰] 如何不寫任何一行程式碼透過低代碼Low-Code / No-Code 工具 Playwright撰寫網頁自動化瀏覽程式

Playwright是一個低代碼/無代碼開源工具，可以讓不懂編寫程式的人快速撰寫Python腳本進行自動化操作。使用Playwright，使用者可以輕鬆地對網頁進行複雜操作，無論多麼繁瑣，只需極短的時間就能完成。這對需要自動化的工作流程非常方便。使用者可以在提供的影片和程式碼鏈接中了解更多詳細信息。

[爬蟲實戰] 如何使用工具 Playwright爬取 MOMO 購物網 1111 特價資訊

大數學堂
Nov. 10, 2021, 2:02 p.m.

[爬蟲實戰] 如何使用工具 Playwright爬取 MOMO 購物網 1111 特價資訊

本文介紹了使用Python網路爬蟲和自動化神器Playwright搭配BeautifulSoup來抓取不同購物網站的特價資訊的方法。作者指出，由於每家購物網站都有不同的結構，因此客製化爬蟲可能需要花費很長時間。然而，透過這種方法，我們只需要寫少量程式碼，就可以快速抓取並跟上1111購物節的節奏。此外，文章還提供了相關影片和程式碼的連結。

[爬蟲實戰] 如何利用Python網路爬蟲爬取有道翻譯打造自動化翻譯系統

大數學堂
June 30, 2022, 2:14 p.m.

[爬蟲實戰] 如何利用Python網路爬蟲爬取有道翻譯打造自動化翻譯系統

這篇文章介紹了如何使用Playwright撰寫Python網路爬蟲程式，以爬取有道翻譯的翻譯結果。透過自動化程式，可以省下許多時間和麻煩，無需重複複製貼上文字。此外，文章還宣布大數軟體正在徵求一位資深前端工程師，成功推薦人的將獲得獎金。最後，文章提供了一些相關連結，包括徵才網頁影片程式碼和學習資源。

[爬蟲實戰] 如何用Python網路爬蟲抓取台灣運彩上的世界杯足球賠率?

大數學堂
Dec. 4, 2022, 10:19 a.m.

[爬蟲實戰] 如何用Python網路爬蟲抓取台灣運彩上的世界杯足球賠率?

這篇文章主要是介紹如何透過突破台彩網站的防爬蟲機制，使用開發者工具觀察網頁並使用Python快速撰寫網路爬蟲，抓取世界杯足球賠率。文中也提到，台彩還有其他防範機制阻止抓取正確的數據，如果讀者對此有興趣，可以在文章下方留言，未來或許會再開視頻專門解說。文章中也附上了相關的影片和程式碼連結。

[爬蟲實戰] 英鎊暴跌! 如何利用Python 網路爬蟲進行全球商品比價、撿便宜

大數學堂
Oct. 5, 2022, 3:03 a.m.

[爬蟲實戰] 英鎊暴跌! 如何利用Python 網路爬蟲進行全球商品比價、撿便宜

這篇文章提到最近英鎊暴跌，作者建議在高通膨時代要想辦法省錢。他介紹了一個利用Python網路爬蟲來爬取Burberry商品在不同市場價格的方法，來看看貨幣競貶是否會產生價差。他還附上了相關的影片和程式碼供讀者參考。文章標籤包括python網路爬蟲比價爬蟲英鎊暴跌貨幣競貶和撿便宜。

[爬蟲實戰] 1111 不購物?! 來用Python網路爬蟲每天簽到領蝦幣

大數學堂
Nov. 11, 2022, 12:53 p.m.

[爬蟲實戰] 1111 不購物?! 來用Python網路爬蟲每天簽到領蝦幣

這篇文章介紹了使用Python網路爬蟲自動搶購1111最優惠商品，同時也可以自動化搶蝦幣的過程。文章提到使用Selenium腳本可以輕鬆填入帳號密碼並點擊領蝦幣的按鈕，再透過工作排程的設定，可以天天躺著領蝦幣。文章中還附上了相關影片和程式碼供參考，此外也推薦了其他學習資料科學的資源。

[爬蟲實戰] 如何使用Python 爬蟲 (Python Crawler) 下載Youtube 影片

大數學堂
July 26, 2023, 2 p.m.

[爬蟲實戰] 如何使用Python 爬蟲 (Python Crawler) 下載Youtube 影片

這堂免費課介紹了如何使用Python爬蟲抓取YouTube影片並進行下載。不同於一般的爬蟲，要抓取實體影片連結，需要使用正規表達式和查詢字符串解析函數。接著，使用二進制編碼的方式，可以下載Girl's day Expectation的音樂影片串流。這篇文章提供了一個實際的例子來示範如何下載YouTube影片。

[爬蟲實戰] 如何透過 Python 網路爬蟲抓取並整理 2018 公投選舉資料?

大數學堂
Nov. 29, 2018, 2:29 p.m.

[爬蟲實戰] 如何透過 Python 網路爬蟲抓取並整理 2018 公投選舉資料?

這篇文章提到了選舉結果以及如何利用Python的Selenium和Requests來抓取選舉統計資料，並分析各地民眾的意向。同時也提供了一個可以下載整理過後的資料的網址，以及相關的程式碼連結。

[爬蟲實戰] 如何破解Cloudflare 的反爬蟲機制

大數學堂
Aug. 11, 2024, 9 p.m.

[爬蟲實戰] 如何破解Cloudflare 的反爬蟲機制

在網路爬蟲的世界裡，我們經常會遇到各種反爬蟲機制。🛡️其中，Cloudflare的５秒挑戰(5-second Cloudflare Challenge)是一個常見的障礙。當我們使用普通的requests請求時，往往會被擋下來，無法取得想要的內容。🚫這次，我們將介紹如何使用pyppeteer和pyppeteer_stealth 這兩個強大的工具來突破這個限制。

[爬蟲實戰] 如何使用Python 模擬登入淘寶並成功抓取淘寶指數?

大數學堂
Aug. 17, 2015, 4:51 p.m.

[爬蟲實戰] 如何使用Python 模擬登入淘寶並成功抓取淘寶指數?

文章指出了了解市場必須先取得市場相關數據的重要性。說明在中國，可以參考Google Trend，但只能使用淘寶指數。然而，淘寶指數需要先登入才能取得相關資訊，但透過耐心觀察並使用Python抓取，仍然可以取得所需的資料。

[爬蟲實戰] 如何快速爬取天貓TMALL 雙11 特價商品資訊?

大數學堂
Nov. 9, 2017, 2:08 p.m.

[爬蟲實戰] 如何快速爬取天貓TMALL 雙11 特價商品資訊?

這篇文章介紹如何使用Python的Requests套件 BeautifulSoup4和Pandas來進行天貓網路爬蟲。作者分享了他們如何抓取天貓商城的商品資訊，並使用這些工具來整理和儲存數據。此外，文章還提供了相應的程式碼連結。

[爬蟲實戰] 如何快速蒐集免費IP作為Python 網路爬蟲跳板Proxy?

大數學堂
Sept. 28, 2020, 2:47 p.m.

[爬蟲實戰] 如何快速蒐集免費IP作為Python 網路爬蟲跳板Proxy?

這篇文章介紹了利用Python網路爬蟲抓取一些會鎖IP的網站時，需要使用免費的Proxy來規避被封鎖的風險。文章提到了抓取Free Proxy List上的頁面，利用正規表達式蒐集IP清單，再利用ipify進行測試，重複操作便能建立自己的Python網路爬蟲跳板清單。文章中還提供了相關影片和程式碼連結。

[爬蟲實戰] 如何使用Pandas 快速抓取並分析iPhone 12 購機方案?

大數學堂
Oct. 18, 2020, 2:15 p.m.

[爬蟲實戰] 如何使用Pandas 快速抓取並分析iPhone 12 購機方案?

這篇文章介紹了使用Python Pandas來抓取並分析中華電信最新的5G購機方案。透過數據分析，讀者可以輕鬆找到最優惠的方案，不用再煩惱買空機或綁電信方案的問題。此外，文章也提供了相關的影片和程式碼供讀者參考。