大數軟體 X 大數學堂 | 搜尋關鍵字: 抓取

[資料產品實作] 如何取得臉書使用頻率最高的文字 (Part 1)?

大數學堂
Nov. 25, 2015, 1:07 p.m.

文章介紹了最近vonvon的人氣臉書文字分析服務，並提供了使用網路爬蟲（Python Crawler）來抓取用戶在Facebook上留下的所有訊息內容的教程。

開始上課

什麼是網路爬蟲?

大數學堂
April 10, 2015, 5:49 a.m.

爬蟲是一種利用HTTP Request 抓取網路資料的技術，可以用來建立比價網站或進行資料分析。當你需要資料但又無法與他人交換或合作時，爬蟲技術可以將他人的資料庫變成自己的資料庫。這種技術擁有很大的應用價值。

開始上課

[財經爬蟲] 如何透過Pandas 快速抓取並分析黃金價格?

大數學堂
May 15, 2020, 2:56 p.m.

這篇文章介紹了如何使用Python的Pandas套件進行黃金價格的抓取和分析。文章提供了一個影片教學和相應的程式碼連結。這將幫助讀者輕鬆地掌握黃金價格的網路爬蟲。文章也列出了一些相關的標籤，包括Python網路爬蟲黃金價格 Pandas和財經爬蟲。

開始上課

[交易系統] 如何抓取三大法人買賣金額統計表(Part 1)?

大數學堂
April 26, 2015, 1:51 p.m.

本篇文章介紹了如何使用Python的Requests模組來抓取三大法人買賣金額統計表。這是建立自己交易系統前需要的資料之一，作者提供了一步步的教學來引導讀者完成這個任務。這個教學對於想要學習如何使用Python來獲取金融相關資料的人來說很有幫助。

開始上課

[深度學習] 如何建構深度學習模型分辨誰是屈中恆、宋少卿、鈕承澤 (2)?

大數學堂
Dec. 12, 2018, 2:28 p.m.

這篇文章介紹了如何使用OpenCV和Haar分類器來擷取圖像中的人臉。作者提供了程式碼和相關連結，並提到了一些相關的主題，包括大數軟體鈕承澤卷積神經網路 Python網路爬蟲和深度學習。

開始上課

[Scrapy 爬蟲] 如何從蘋果新聞的清單聯結抓取下一層的內容頁面?

大數學堂
Feb. 23, 2016, 4:14 p.m.

這篇文章介紹了如何在Scrapy爬蟲中使用yield 產生器來抓取下一層的內容頁面，並使用BeautifulSoup進行剖析，獲取內容頁的標題資訊。

開始上課

[RPA] 如何使用 PyAutoGUI 突破 reCAPTCHA 順利下載櫃買中心券商買賣證券日報表?

大數學堂
July 29, 2019, 2:33 p.m.

這篇文章介紹了在進行上櫃股票交易時，如何利用PyAutoGUI突破reCAPTCHA的限制，以進行自動化操作。作者分享了一個影片和程式碼，詳細解釋了如何使用PyAutoGUI進行自動化投資。這將有助於投資者更好地理解資金流向，掌握更準確的交易資訊。

開始上課

[深度學習] 如何建構深度學習模型分辨誰是屈中恆、宋少卿、鈕承澤 (3)?

大數學堂
Dec. 28, 2018, 10:49 a.m.

這篇文章介紹如何使用OpenCV和卷積神經網路來識別和標示圖片中的人臉。作者提到可以透過OpenCV來擷取人物圖片並擷取臉部特徵，然後使用卷積神經網路訓練一個模型來識別這些圖片中的人物。並且還提供了一些相關的線上課程和程式碼供讀者參考。

開始上課

[交易系統] 如何抓取三大法人買賣金額統計表(Part 2)?

大數學堂
April 28, 2015, 4:04 p.m.

本教學將透過BeautifulSoup 4和css selector，來抓取三大法人買賣金額統計表的資訊。首先，我們需要導入requests和BeautifulSoup套件。然後，使用requests.get()函式來獲取網頁的HTML內容，將其存儲在一個變數中。接下來，使用BeautifulSoup的select()方法和正確的css選擇器，來定位我們要抓取的元素。最後，遍歷結果，將每個元素的文本打印出來或進一步處理。這樣，我們就可以輕鬆地獲取三大法人買賣金額統計表的資訊了。

開始上課

如何使用GET 抓取網頁內容?

大數學堂
April 16, 2015, 3:15 p.m.

這篇文章介紹了如何使用Python編寫三行程式碼來抓取淘寶網的網頁內容。並且提供了一個範例網頁連結供讀者參考。

開始上課

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

大數學堂
Feb. 26, 2016, 3:27 p.m.

scrapy是一個用於抓取網頁數據的框架，它通過pipelines來處理抓取到的數據。在pipelines中，我們可以清理數據驗證數據的有效性去除重複數據，並將數據存儲到數據庫中。在範例中，我們在pipelines.py中設置open_spider在開始時建立數據庫連接並創建表格，close_spider在結束時提交交易並關閉數據庫連接，process_item則將數據保存到sqlite數據庫中。最後，在settings.py中啟用pipelines的設置。

開始上課

[Selenium] 如何使用 Selenium 撰寫網路爬蟲?

大數學堂
Aug. 15, 2018, 1:53 p.m.

這篇文章介紹了如何使用Selenium和BeautifulSoup進行網頁爬取。使用Selenium的page_source屬性可以抓取當前頁面的原始碼，並透過BeautifulSoup處理，使得能夠爬取任何瀏覽器瀏覽的網頁。同時提供了程式碼以供參考。

開始上課

如何使用POST 抓取網頁內容?

大數學堂
April 19, 2015, 9:29 a.m.

本文章介紹了如何使用POST方法在Python中抓取高鐵網頁內容。使用POST方法可以將請求資訊包裝起來，再傳送至伺服器以取得回應資訊。在Python中使用POST方法非常簡單，只需將請求資訊以字典做包裝即可。

開始上課

[Selenium] 如何設定 Selenium 中的隱含等待(Implicit Wait)?

大數學堂
Oct. 30, 2018, 3:05 p.m.

Selenium在抓取資料時，有時會遇到頁面尚未完全載入的問題，導致NoSuchElementException的錯誤。為了避免此問題，可以使用implicit_wait功能，讓程式在執行後續動作之前等待頁面完全載入。附上程式碼範例的連結。

開始上課

[交易系統] 如何抓取多天期的三大法人交易資訊?

大數學堂
May 2, 2015, 7:57 a.m.

本文指出，我們可以利用之前學到的知識來獲取不同天期的三大法人交易資訊。只需將重複的抓取動作包裝成函式，再利用迴圈來完成多天期的抓取。這將是一個簡單而有效的方法。

開始上課

[Scrapy 爬蟲] 如何使用Scrapy 的CrawlSpider 實現多網頁爬取?

大數學堂
March 1, 2016, 4:49 p.m.

Scrapy的CrawlSpider類別可實現多網頁爬取。只需讓爬蟲繼承CrawlSpider類別，並在rules清單中增加抓取規則，透過LinkExtractor中的分頁抓取規則，即可輕鬆爬取符合條件的蘋果新聞資料。

開始上課

如何使用Python 套件: BeautifulSoup4 剖析網頁內容?

大數學堂
April 17, 2015, 4:19 p.m.

這篇文章介紹了使用BeautifulSoup4來解析網頁內容的方法。透過幾個簡單的選取動作，我們可以迅速地從非結構化的資料中抓取有價值的部分。有了這些資料，進一步的分析也就離我們不遠了。

開始上課

如何使用RSelenium 抓取PTT Food版的內容?

大數學堂
June 29, 2015, 3:41 p.m.

R可以搭配Web自動化測試工具Selenium進行網頁抓取，只要使用RSelenium進行安裝和使用，就能在Firefox瀏覽器中使用R腳本抓取網頁內容。這樣的功能不僅僅只有Python才能實現。

開始上課

[爬蟲實戰] 如何抓取心食譜的食譜資訊?

大數學堂
April 20, 2015, 2:01 p.m.

這篇文章介紹使用CSS Selector的nth-of-type來抓取特定位置的食譜資訊的示範。並且提供了一個示範網頁的連結。

開始上課

[爬蟲實戰] 如何透過 Python 網路爬蟲快速找出1111購物狂歡節折扣最多的商品? (2018年版)

大數學堂
Nov. 10, 2018, 12:43 p.m.

1111購物狂歡節即將到來，如果你還不知道該買什麼，可以嘗試使用數據來做決策。本課程將使用Python網路爬蟲抓取天貓的商品頁面，再用json和pandas整理商品資訊，最後使用pandas的排序功能，幫助你找出折扣最多的商品。程式碼可參考：https://github.com/ywchiu/largitdata/blob/master/code/Course_108.ipynb

開始上課

如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲?

大數學堂
April 18, 2015, 1:59 a.m.

這篇文章介紹如何使用Python的requests和BeautifulSoup4來完成淘寶網站的爬蟲。作者提到，既然已經了解了如何使用requests抓取網頁內容，並使用BeautifulSoup4來解析有用的資訊，接下來將進入實戰階段，示範如何完成淘寶爬蟲。

開始上課

[交易系統] 如何清理爬蟲所抓取下來的金額資訊?

大數學堂
May 5, 2015, 3:29 p.m.

這篇文章主要介紹了如何處理金額資料中的千進位逗號符號。作者提到可以使用split和join的技巧來輕鬆地進行金額轉換。無論何時需要將金額從不帶有千進位逗號的字串轉換回包含千進位逗號的格式，這個技巧都非常有用。這個方法可以讓我們方便地處理金額資料並將其存儲到資料庫中。

開始上課

[ChatGPT] 利用 ChatGPT 打造萬用網路爬蟲追蹤最新機票價格

大數學堂
June 25, 2023, 9:23 a.m.

本教學將教您如何使用Selenium自動瀏覽Expedia網站，並利用LangChain和ChatGPT的Extraction功能，自動解析半結構化資料。最後，使用Pandas將半結構化資料轉換為結構化資訊。透過ChatGPT和LangChain的幫助，我們可以省去編寫網路爬蟲時需要觀察元素的麻煩。再加上Selenium可以模擬人類操作，我們能夠簡化網路爬蟲的過程，輕鬆地獲取所需的網頁資訊。期待著中秋節的到來，並希望能在日圓跌至新低的時候，節省機票費用，享受一趟愉快的旅程。

開始上課

[爬蟲實戰] 如何爬取PTT的網頁?

大數學堂
April 23, 2015, 3:09 p.m.

本次實戰介紹如何從PTT Food版抓取鄉民的言論，以進行美食文字探勘分析。

開始上課

[交易系統] 如何透過Python 將抓取下來的金額資訊存入資料庫中?

大數學堂
May 8, 2015, 2:49 p.m.

這篇文章講述學會使用Python將資料存入資料庫並準備進行資料分析的最後一步。作者指出，他們可以將抓取的三大法人統計資訊存入finance.sqlite資料庫中，這樣就能開始進行分析了。整篇文章提供了構建分析所需的基本步驟和資訊。

開始上課

[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?

大數學堂
April 27, 2015, 3:29 p.m.

有些網頁伺服器會檢查用戶代理以限制爬蟲存取頁面內容，但我們可以通過在標頭中增加自己的瀏覽器用戶代理來繞過這種限制，成功獲取網頁內容。這種技術可以用來抓取永慶房屋的房價資訊。

開始上課

[爬蟲實戰] 如何抓取圖表內的價格資訊?

大數學堂
April 25, 2015, 3:26 p.m.

本文介紹了如何使用Python的正規表達式模塊re中的search函數來抓取匯率網站圖表內的價格資訊，並提供了示範網址。

開始上課

[RPA] 如何透過 Line 發送最新一集的漫畫?

大數學堂
Oct. 24, 2019, 3:30 p.m.

本文章介紹了如何將整個漫畫自動發送流程串接起來，先將漫畫集數存放至SQLite，再透過爬蟲結果比對取得尚未抓取的集數，利用Selenium爬取新集數後，使用Line Notify發送最新的漫畫圖片。這樣可以讓看漫畫變得簡單有趣。文章中還附有相關影片和程式碼來幫助讀者。提到的技術有SQLite LineNotify Selenium RPA和Python自動化。

開始上課

[爬蟲實戰] 如何簡簡單單突破驗證碼 (Captcha) 限制?

大數學堂
July 26, 2023, 12:39 p.m.

這堂免費課指出，不一定需要使用OpenCV來辨識文字，可以使用之前的HTTP請求Session和圖片顯示功能來半自動地抓取有驗證碼限制的網頁內容。這種方法讓抓取網頁資料變得容易又輕鬆。

開始上課

[財經爬蟲] 如何使用Python 網路爬蟲抓取Yahoo 台指期的即時行情?

大數學堂
Sept. 30, 2022, 12:59 p.m.

這篇文章介紹了如何使用Python網路爬蟲抓取台指期的即時行情資料，並製作成分析圖表。作者提供了相關的影片和程式碼連結，讓讀者可以更深入地了解和應用這項技術。此外，文章還提到了大數學堂這個資料科學學習平台，讓讀者可以在此找到更多學習資源。文章標籤包括python網路爬蟲財經爬蟲即時行情交易機器人 Yahoo股市台指期和台指期貨。

開始上課

[爬蟲實戰] 如何透過網路爬蟲將網路圖片存放至SQLite之中?

大數學堂
May 4, 2015, 5:02 p.m.

本文介紹了網路爬蟲的另一個功能，即抓取並存儲網路上的圖片。作者透過設定stream = TRUE後，使用shutil的copyfileobj功能將圖片存儲為檔案，並建立一個能夠存儲blob資料的資料表。這樣，我們便能夠將圖片存儲到資料庫中。

開始上課

[財經爬蟲]手把手帶你用Python網路爬蟲抓取Goodinfo，再結合GPT-4o快速分析潛力股!

大數學堂
June 16, 2024, 9 p.m.

本教學將手把手教學如何從GoodInfo網站獲取臺積電財報數據外，還將進一步利用ChatGPT的GPT-4 API解讀財報，判斷公司是否值得投資。影片內容涵蓋了爬蟲、資料處理、API註冊、提示詞設計、財報分析等詳細步驟，幫助您掌握快速取得股票財報和AI輔助投資決策的方法。

開始上課

[爬蟲實戰] 如何抓取淘寶網雙十一購物狂歡節活動網頁中的商品列表?

大數學堂
Nov. 10, 2015, 2:41 p.m.

這篇文章介紹了如何使用Python網路爬蟲來抓取雙十一購物狂歡節活動網頁中的商品列表。雖然淘寶的網頁改版後讓資料抓取變得困難，但這不會阻止我們追求購物資訊的熱情。文章將教你如何使用Python網路爬蟲來解決這個問題。

開始上課

[爬蟲實戰] 如何抓取MoneyDJ 文章中的人氣指數?

大數學堂
April 15, 2015, 2:27 p.m.

本教學示範如何使用Python抓取MoneyDJ文章中的人氣指數。如果要安裝POSTMAN，請到指定網站下載。

開始上課

[財經爬蟲] 如何透過Python 網路爬蟲抓取Goodinfo 台灣股市資訊網?

大數學堂
Aug. 2, 2020, 2:08 p.m.

Goodinfo台灣股市資訊網為投資者提供重要股票資訊，作者使用Python網路爬蟲自動化爬取各股票的歷年經營績效。作者通過設定user-agent以規避Goodinfo的防爬蟲機制，並使用Pandas整理資料。這樣的資料結構可以幫助投資者做出更好的投資決策。詳細的影片和程式碼連結都有提供。

開始上課

[爬蟲實戰] 如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例

大數學堂
July 21, 2015, 3:45 p.m.

這篇文章介紹了如何使用Selenium來解決爬取司法院法學檢索系統的問題。由於該系統使用了Iframe來嵌入檢索結果，常常造成爬蟲無法正確獲取內容。作者建議使用Selenium IDE來自動記錄抓取步驟，並將步驟轉換為Python腳本，使得抓取過程變得更加簡單。

開始上課

[財經爬蟲] 使用 Python 網路爬蟲輕鬆爬取集保戶股權分散表

大數學堂
Nov. 3, 2024, 9:30 p.m.

爬蟲的定律就是目標網站一直在變！本教學示範如何突破集保網站的更新限制，成功抓取股權分散表資料。🔍 透過結合 requests 的 Session 管理、Synchronizer Token 驗證機制，並運用 BeautifulSoup 解析 HTML 與 Pandas 處理表格數據，輕鬆完成資料擷取。💡 整個過程展示了如何應對網站的變化，透過 POST 請求技巧實現穩定的爬蟲功能。🚀

開始上課

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

大數學堂
March 31, 2016, 4:24 p.m.

瀑布流網站如EZTABLE讓資訊抓取變得困難，但可使用Selenium執行Javascript解決頁面捲動問題。透過execute_script函數執行window.scrollTo(0 document.body.scrollHeight)，可以成功抓取瀑布流式網頁。

開始上課

[爬蟲實戰] 如何抓取廉價航空的機票價格 – 以酷航為例?

大數學堂
July 26, 2023, 2:28 p.m.

這堂免費課介紹了如何使用爬蟲去抓取酷航的最新票價資訊，以便能夠搶到廉價的航空機票。作者提到，關注最新的票價是獲得便宜機票的最佳方法，但大家都很忙，所以讓爬蟲代勞是一個好選擇。使用Python Crawler，可以輕鬆地抓取酷航的最新票價，避免錯失機會。

開始上課

[爬蟲實戰] 如何撰寫Python爬蟲抓取台灣銀行的牌告匯率?

大數學堂
Dec. 16, 2016, 3:24 p.m.

這篇文章介紹了如何利用爬蟲和Python Pandas來抓取台灣銀行的牌告匯率資料，並將其整理成漂亮的表格，並存成Excel檔案。這樣的工具可以幫助你在買進日圓時，找到最低價位，提供了出國血拼時的硬是划算方式。

開始上課

[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

大數學堂
July 26, 2023, 3:44 p.m.

這堂免費課介紹了使用Selenium和BeautifulSoup4來抓取以Ajax生成的網頁的方法。傳統上，抓取這樣的網頁需要很多耐心觀察，才能找到抓取的切入點。但是使用Selenium可以自動點擊和載入Ajax生成的頁面，使得抓取變得簡單。然後，配合BeautifulSoup4的強大解析功能，使用Python抓取網頁就變得非常簡單了。

開始上課

[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

大數學堂
Nov. 10, 2016, 2:34 p.m.

本文介紹了如何使用Python網路爬蟲來抓取天貓特價商品資料。使用Python的requests模組抓取商品頁面，再使用BeautifulSoup4抓取特價商品的資料區塊，最後使用json.loads將資料轉換成字典結構。這樣就可以在1111購物狂歡節期間，同時享受購物樂趣，又顧好自己的錢包了。程式碼可以在文章中提供的GitHub連結中找到。

開始上課

[爬蟲實戰] 如何突破蝦皮拍賣的重重限制以順利抓取拍賣商品資訊?

大數學堂
July 26, 2023, 3:52 p.m.

本堂課介紹了如何使用爬蟲抓取時下最夯的蝦皮拍賣網站。要抓取蝦皮的資料，必須先找到XHR請求連結，然後使用POST傳輸json格式的參數。如果無法正確獲得回應，可能是缺少一些標頭資訊，此時可以嘗試不同的組合來取得正確的商品資訊。如果無法獲得某些標頭資訊，可以使用Selenium搭配正確的Cookie來解決這個問題。

開始上課

[爬蟲實戰] 如何使用Pandas 函式將台灣銀行的牌告匯率存進資料庫中?

大數學堂
Dec. 22, 2016, 4:12 p.m.

使用Excel管理匯率資料不方便，因此我們建議使用資料庫來儲存資料。使用Pandas可以輕鬆將資料儲存到資料庫中，並使用read_sql_query函式將資料讀回。這樣可以增加資料的可維護性。

開始上課

[財經爬蟲] 如何使用正規表達法快速抓取所有上市公司代號?

大數學堂
Oct. 13, 2020, 2:20 p.m.

這篇文章介紹如何使用Python網路爬蟲抓取GoodInfo的所有上市公司基本資訊。作者首先透過Tej的網站找到上市上櫃公司的代碼清單，接著使用正規表達法快速抽取出所有的數字代碼，以獲得所有上市公司的代碼。文章中還提供了影片和程式碼的連結。

開始上課

[爬蟲實戰] 如何透過開發人員工具破解實價登錄網新版API中的加密字串?

大數學堂
April 5, 2021, 1:30 p.m.

這篇文章介紹了如何使用Chrome開發人員工具來解析新版實價登錄網站的API連結中的神秘字串。透過瀏覽器的Debugger功能，可以找到加密的JavaScript程式碼片段，然後使用這些加密函數片段來解析參數的查詢條件，從而成功抓取實價登錄資訊。文中還提供了相關的影片和程式碼連結，方便讀者深入了解和實踐Python網路爬蟲的相關知識。

開始上課

[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

大數學堂
April 12, 2021, 1:47 p.m.

本文介紹了如何透過Python Flask建立一個橋接器，來自動化抓取實價登錄網的加密字串。通常我們會使用Node.js或Pyexecjs等方法來加載加密函數，但這牽涉到處理Node.js或修改JavaScript的問題。透過Python Flask橋接器，我們可以輕鬆地重新導向加密字串到實價登錄網，實現破解新版實價登錄網的目標。影片和程式碼也提供了詳細的操作示例。

開始上課

[爬蟲實戰] 如何透過EMAIL即時獲取最新匯率資訊?

大數學堂
Dec. 26, 2016, 4:32 p.m.

文章介紹了如何透過Python的爬蟲和電子郵件功能來自動通知匯率的變化。使用smtplib和GMAIL工具，將匯率資料以HTML格式的郵件寄送給用戶，使他們能夠即時掌握最佳的買點。這種自動化的方法能夠節省用戶的時間和精力，並確保他們不會錯過任何重要的交易機會。

開始上課

[爬蟲實戰] 如何爬取圖片以建立慾望之牆?

大數學堂
Sept. 12, 2015, 4:15 p.m.

這篇文章介紹了如何使用網路爬蟲蒐集圖片檔案，並提及了使用 streaming 的資料抓取 binary 寫檔以及 shutil 套件來完成任務。作者希望將自己最喜歡的雪芙女神照片收集起來，並表示可以在 Gamebase

開始上課

[爬蟲實戰] 如何突破證交所的限制，穩穩抓取最新成交資訊?

大數學堂
July 26, 2023, 2:34 p.m.

最近證交所的頁面更新，爬蟲面臨網頁伺服器的rate limiting造成無法連上證交所的問題。為解決此問題，我們可以讓爬蟲在抓取資料之間隔幾秒讓其小睡，避免IP被封鎖。這樣，爬蟲就能夠順利抓取所需要的資料。有關程式碼可以參考Github連結。

開始上課

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (2) ? – 切割出驗證碼中的各個數字

大數學堂
June 21, 2017, 3:57 p.m.

這篇文章提到了如何使用Python和OpenCV來爬取經濟部公司資料的驗證碼，並使用OpenCV的findContours功能進行切割和儲存驗證碼中的數字。

開始上課

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (4) ? – 如何存取訓練模型

大數學堂
Aug. 18, 2017, 3:23 p.m.

本文提及在建立完訓練模型後，我們需要將模型儲存成pickle檔，以方便系統再次讀取使用，進而破解驗證碼並進行爬蟲，以抓取公司及分公司的基本資料。同時提供相關程式碼與學習資源連結。

開始上課

[爬蟲實戰] 如何擷取網頁中的隱藏輸入以順利下載證交所的 csv 檔?

大數學堂
Sept. 20, 2015, 5:05 p.m.

本文章提到了爬蟲不僅可以擷取網頁的資訊，還可以下載csv檔案。作者在探索過程中發現，證交所使用了base64編碼將網頁內容放在post參數中，讓人感到十分困惑。然而，通過直接抓取網頁中的隱藏輸入欄位，再將資料進行base64編碼，作者成功地下載了csv檔案。

開始上課

[爬蟲實戰] 如何使用 Pyppeteer抓取 PCHOME 商品價格資訊?

大數學堂
Oct. 16, 2021, 9:55 a.m.

這篇文章介紹了在處理由Javascript渲染的網頁資料時，無法直接使用requests，需要使用Pyppeteer作為解決方案。Pyppeteer是一個Python接合Chromium API的工具，可以輕鬆讀取Javascript渲染的頁面資料，使網頁爬取更加直覺。文章還提供了相關的視頻和程式碼連結，並標籤了PCHOME爬蟲 Pyppeteer Puppeteer和Python網路爬蟲。

開始上課

[爬蟲實戰] 如何用Python網路爬蟲抓取台灣運彩上的世界杯足球賠率?

大數學堂
Dec. 4, 2022, 10:19 a.m.

這篇文章主要是介紹如何透過突破台彩網站的防爬蟲機制，使用開發者工具觀察網頁並使用Python快速撰寫網路爬蟲，抓取世界杯足球賠率。文中也提到，台彩還有其他防範機制阻止抓取正確的數據，如果讀者對此有興趣，可以在文章下方留言，未來或許會再開視頻專門解說。文章中也附上了相關的影片和程式碼連結。

開始上課

[爬蟲實戰] 如何使用Python 爬蟲 (Python Crawler) 下載Youtube 影片

大數學堂
July 26, 2023, 2 p.m.

這堂免費課介紹了如何使用Python爬蟲抓取YouTube影片並進行下載。不同於一般的爬蟲，要抓取實體影片連結，需要使用正規表達式和查詢字符串解析函數。接著，使用二進制編碼的方式，可以下載Girl's day Expectation的音樂影片串流。這篇文章提供了一個實際的例子來示範如何下載YouTube影片。

開始上課

[財經爬蟲] 怎麼繞過驗證碼? 利用 2Captcha 驗證碼識別服務突破 reCAPTCHA 驗證碼，抓取證券櫃買中心的券商買賣證券日報表上分點交易資訊

大數學堂
July 1, 2021, 7:08 a.m.

這篇文章介紹了如何利用Python網路爬蟲和2Captcha驗證碼識別服務，突破券商買賣證券日報表上的reCAPTCHA驗證碼，以獲取分點交易資訊。透過分析分點資料，可以分析大戶的進出行為，以便跟單獲利。文章提供了完整的教學文章連結影片教學連結和程式碼，並介紹了2Captcha服務的連結。

開始上課

[爬蟲實戰] 如何使用Python 模擬登入淘寶並成功抓取淘寶指數?

大數學堂
Aug. 17, 2015, 4:51 p.m.

文章指出了了解市場必須先取得市場相關數據的重要性。說明在中國，可以參考Google Trend，但只能使用淘寶指數。然而，淘寶指數需要先登入才能取得相關資訊，但透過耐心觀察並使用Python抓取，仍然可以取得所需的資料。

開始上課

[爬蟲實戰] 如何透過 Python 網路爬蟲抓取並整理 2018 公投選舉資料?

大數學堂
Nov. 29, 2018, 2:29 p.m.

這篇文章提到了選舉結果以及如何利用Python的Selenium和Requests來抓取選舉統計資料，並分析各地民眾的意向。同時也提供了一個可以下載整理過後的資料的網址，以及相關的程式碼連結。

開始上課

[爬蟲實戰] 如何快速爬取天貓TMALL 雙11 特價商品資訊?

大數學堂
Nov. 9, 2017, 2:08 p.m.

這篇文章介紹如何使用Python的Requests套件 BeautifulSoup4和Pandas來進行天貓網路爬蟲。作者分享了他們如何抓取天貓商城的商品資訊，並使用這些工具來整理和儲存數據。此外，文章還提供了相應的程式碼連結。

開始上課

[爬蟲實戰] 如何快速蒐集免費IP作為Python 網路爬蟲跳板Proxy?

大數學堂
Sept. 28, 2020, 2:47 p.m.

這篇文章介紹了利用Python網路爬蟲抓取一些會鎖IP的網站時，需要使用免費的Proxy來規避被封鎖的風險。文章提到了抓取Free Proxy List上的頁面，利用正規表達式蒐集IP清單，再利用ipify進行測試，重複操作便能建立自己的Python網路爬蟲跳板清單。文章中還提供了相關影片和程式碼連結。

開始上課

[爬蟲實戰] 如何使用Pandas 快速抓取並分析iPhone 12 購機方案?

大數學堂
Oct. 18, 2020, 2:15 p.m.

這篇文章介紹了使用Python Pandas來抓取並分析中華電信最新的5G購機方案。透過數據分析，讀者可以輕鬆找到最優惠的方案，不用再煩惱買空機或綁電信方案的問題。此外，文章也提供了相關的影片和程式碼供讀者參考。

開始上課

hidden