什麼是網路爬蟲?

  • 大數學堂
  • April 10, 2015, 5:49 a.m.
什麼是網路爬蟲?

爬蟲是一種利用HTTP Request 抓取網路資料的技術,可以用來建立比價網站或進行資料分析。當你需要資料但又無法與他人交換或合作時,爬蟲技術可以將他人的資料庫變成自己的資料庫。這種技術擁有很大的應用價值。

開始上課

[財經爬蟲] 如何透過Pandas 快速抓取並分析黃金價格?

  • 大數學堂
  • May 15, 2020, 2:56 p.m.
[財經爬蟲] 如何透過Pandas 快速抓取並分析黃金價格?

這篇文章介紹了如何使用Python的Pandas套件進行黃金價格的抓取和分析。文章提供了一個影片教學和相應的程式碼連結。這將幫助讀者輕鬆地掌握黃金價格的網路爬蟲。文章也列出了一些相關的標籤,包括Python網路爬蟲 黃金價格 Pandas和財經爬蟲。

開始上課

[交易系統] 如何抓取三大法人買賣金額統計表(Part 1)?

  • 大數學堂
  • April 26, 2015, 1:51 p.m.
[交易系統] 如何抓取三大法人買賣金額統計表(Part 1)?

本篇文章介紹了如何使用Python的Requests模組來抓取三大法人買賣金額統計表。這是建立自己交易系統前需要的資料之一,作者提供了一步步的教學來引導讀者完成這個任務。這個教學對於想要學習如何使用Python來獲取金融相關資料的人來說很有幫助。

開始上課

[交易系統] 如何抓取三大法人買賣金額統計表(Part 2)?

  • 大數學堂
  • April 28, 2015, 4:04 p.m.
[交易系統] 如何抓取三大法人買賣金額統計表(Part 2)?

本教學將透過BeautifulSoup 4和css selector,來抓取三大法人買賣金額統計表的資訊。首先,我們需要導入requests和BeautifulSoup套件。然後,使用requests.get()函式來獲取網頁的HTML內容,將其存儲在一個變數中。接下來,使用BeautifulSoup的select()方法和正確的css選擇器,來定位我們要抓取的元素。最後,遍歷結果,將每個元素的文本打印出來或進一步處理。這樣,我們就可以輕鬆地獲取三大法人買賣金額統計表的資訊了。

開始上課

如何使用GET 抓取網頁內容?

  • 大數學堂
  • April 16, 2015, 3:15 p.m.
如何使用GET 抓取網頁內容?

這篇文章介紹了如何使用Python編寫三行程式碼來抓取淘寶網的網頁內容。並且提供了一個範例網頁連結供讀者參考。

開始上課

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

  • 大數學堂
  • Feb. 26, 2016, 3:27 p.m.
[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

scrapy是一個用於抓取網頁數據的框架,它通過pipelines來處理抓取到的數據。在pipelines中,我們可以清理數據 驗證數據的有效性 去除重複數據,並將數據存儲到數據庫中。在範例中,我們在pipelines.py中設置open_spider在開始時建立數據庫連接並創建表格,close_spider在結束時提交交易並關閉數據庫連接,process_item則將數據保存到sqlite數據庫中。最後,在settings.py中啟用pipelines的設置。

開始上課

[Selenium] 如何使用 Selenium 撰寫網路爬蟲?

  • 大數學堂
  • Aug. 15, 2018, 1:53 p.m.
[Selenium] 如何使用 Selenium 撰寫網路爬蟲?

這篇文章介紹了如何使用Selenium和BeautifulSoup進行網頁爬取。使用Selenium的page_source屬性可以抓取當前頁面的原始碼,並透過BeautifulSoup處理,使得能夠爬取任何瀏覽器瀏覽的網頁。同時提供了程式碼以供參考。

開始上課

如何使用POST 抓取網頁內容?

  • 大數學堂
  • April 19, 2015, 9:29 a.m.
如何使用POST 抓取網頁內容?

本文章介紹了如何使用POST方法在Python中抓取高鐵網頁內容。使用POST方法可以將請求資訊包裝起來,再傳送至伺服器以取得回應資訊。在Python中使用POST方法非常簡單,只需將請求資訊以字典做包裝即可。

開始上課

[Selenium] 如何設定 Selenium 中的隱含等待(Implicit Wait)?

  • 大數學堂
  • Oct. 30, 2018, 3:05 p.m.
[Selenium] 如何設定 Selenium 中的隱含等待(Implicit Wait)?

Selenium在抓取資料時,有時會遇到頁面尚未完全載入的問題,導致NoSuchElementException的錯誤。為了避免此問題,可以使用implicit_wait功能,讓程式在執行後續動作之前等待頁面完全載入。附上程式碼範例的連結。

開始上課

如何使用RSelenium 抓取 PTT Food版的內容?

  • 大數學堂
  • June 29, 2015, 3:41 p.m.
如何使用RSelenium 抓取PTT Food版的內容?

R可以搭配Web自動化測試工具Selenium進行網頁抓取,只要使用RSelenium進行安裝和使用,就能在Firefox瀏覽器中使用R腳本抓取網頁內容。這樣的功能不僅僅只有Python才能實現。

開始上課

[爬蟲實戰] 如何透過 Python 網路爬蟲快速找出1111購物狂歡節折扣最多的商品? (2018年版)

  • 大數學堂
  • Nov. 10, 2018, 12:43 p.m.
[爬蟲實戰] 如何透過 Python 網路爬蟲快速找出1111購物狂歡節折扣最多的商品? (2018年版)

1111購物狂歡節即將到來,如果你還不知道該買什麼,可以嘗試使用數據來做決策。本課程將使用Python網路爬蟲抓取天貓的商品頁面,再用json和pandas整理商品資訊,最後使用pandas的排序功能,幫助你找出折扣最多的商品。程式碼可參考:https://github.com/ywchiu/largitdata/blob/master/code/Course_108.ipynb

開始上課

如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲?

  • 大數學堂
  • April 18, 2015, 1:59 a.m.
如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲?

這篇文章介紹如何使用Python的requests和BeautifulSoup4來完成淘寶網站的爬蟲。作者提到,既然已經了解了如何使用requests抓取網頁內容,並使用BeautifulSoup4來解析有用的資訊,接下來將進入實戰階段,示範如何完成淘寶爬蟲。

開始上課

[交易系統] 如何清理爬蟲所抓取下來的金額資訊?

  • 大數學堂
  • May 5, 2015, 3:29 p.m.
[交易系統] 如何清理爬蟲所抓取下來的金額資訊?

這篇文章主要介紹了如何處理金額資料中的千進位逗號符號。作者提到可以使用split和join的技巧來輕鬆地進行金額轉換。無論何時需要將金額從不帶有千進位逗號的字串轉換回包含千進位逗號的格式,這個技巧都非常有用。這個方法可以讓我們方便地處理金額資料並將其存儲到資料庫中。

開始上課

[ChatGPT] 利用 ChatGPT 打造萬用網路爬蟲追蹤最新機票價格

  • 大數學堂
  • June 25, 2023, 9:23 a.m.
[ChatGPT] 利用 ChatGPT 打造萬用網路爬蟲追蹤最新機票價格

本教學將教您如何使用Selenium自動瀏覽Expedia網站,並利用LangChain和ChatGPT的Extraction功能,自動解析半結構化資料。最後,使用Pandas將半結構化資料轉換為結構化資訊。透過ChatGPT和LangChain的幫助,我們可以省去編寫網路爬蟲時需要觀察元素的麻煩。再加上Selenium可以模擬人類操作,我們能夠簡化網路爬蟲的過程,輕鬆地獲取所需的網頁資訊。期待著中秋節的到來,並希望能在日圓跌至新低的時候,節省機票費用,享受一趟愉快的旅程。

開始上課

[RPA] 如何透過 Line 發送最新一集的漫畫?

  • 大數學堂
  • Oct. 24, 2019, 3:30 p.m.
[RPA] 如何透過 Line 發送最新一集的漫畫?

本文章介紹了如何將整個漫畫自動發送流程串接起來,先將漫畫集數存放至SQLite,再透過爬蟲結果比對取得尚未抓取的集數,利用Selenium爬取新集數後,使用Line Notify發送最新的漫畫圖片。這樣可以讓看漫畫變得簡單有趣。文章中還附有相關影片和程式碼來幫助讀者。提到的技術有SQLite LineNotify Selenium RPA和Python自動化。

開始上課

[財經爬蟲] 如何使用Python 網路爬蟲抓取Yahoo 台指期的即時行情?

  • 大數學堂
  • Sept. 30, 2022, 12:59 p.m.
[財經爬蟲] 如何使用Python 網路爬蟲抓取Yahoo 台指期的即時行情?

這篇文章介紹了如何使用Python網路爬蟲抓取台指期的即時行情資料,並製作成分析圖表。作者提供了相關的影片和程式碼連結,讓讀者可以更深入地了解和應用這項技術。此外,文章還提到了大數學堂這個資料科學學習平台,讓讀者可以在此找到更多學習資源。文章標籤包括python網路爬蟲 財經爬蟲 即時行情 交易機器人 Yahoo股市 台指期和台指期貨。

開始上課

[財經爬蟲]手把手帶你用Python網路爬蟲抓取Goodinfo,再結合GPT-4o快速分析潛力股!

  • 大數學堂
  • June 16, 2024, 9 p.m.
[財經爬蟲]手把手帶你用Python網路爬蟲抓取Goodinfo,再結合GPT-4o快速分析潛力股!

本教學將手把手教學如何從GoodInfo網站獲取臺積電財報數據外,還將進一步利用ChatGPT的GPT-4 API解讀財報,判斷公司是否值得投資。影片內容涵蓋了爬蟲、資料處理、API註冊、提示詞設計、財報分析等詳細步驟,幫助您掌握快速取得股票財報和AI輔助投資決策的方法。

開始上課

[財經爬蟲] 如何透過Python 網路爬蟲抓取Goodinfo 台灣股市資訊網?

  • 大數學堂
  • Aug. 2, 2020, 2:08 p.m.
[財經爬蟲] 如何透過Python 網路爬蟲抓取Goodinfo 台灣股市資訊網?

Goodinfo台灣股市資訊網為投資者提供重要股票資訊,作者使用Python網路爬蟲自動化爬取各股票的歷年經營績效。作者通過設定user-agent以規避Goodinfo的防爬蟲機制,並使用Pandas整理資料。這樣的資料結構可以幫助投資者做出更好的投資決策。詳細的影片和程式碼連結都有提供。

開始上課

[爬蟲實戰] 如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例

  • 大數學堂
  • July 21, 2015, 3:45 p.m.
[爬蟲實戰] 如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例

這篇文章介紹了如何使用Selenium來解決爬取司法院法學檢索系統的問題。由於該系統使用了Iframe來嵌入檢索結果,常常造成爬蟲無法正確獲取內容。作者建議使用Selenium IDE來自動記錄抓取步驟,並將步驟轉換為Python腳本,使得抓取過程變得更加簡單。

開始上課

[財經爬蟲] 使用 Python 網路爬蟲輕鬆爬取集保戶股權分散表

  • 大數學堂
  • Nov. 3, 2024, 9:30 p.m.
[財經爬蟲] 使用 Python 網路爬蟲輕鬆爬取集保戶股權分散表

爬蟲的定律就是目標網站一直在變!本教學示範如何突破集保網站的更新限制,成功抓取股權分散表資料。🔍 透過結合 requests 的 Session 管理、Synchronizer Token 驗證機制,並運用 BeautifulSoup 解析 HTML 與 Pandas 處理表格數據,輕鬆完成資料擷取。💡 整個過程展示了如何應對網站的變化,透過 POST 請求技巧實現穩定的爬蟲功能。🚀

開始上課

[爬蟲實戰] 如何抓取廉價航空的機票價格 – 以酷航為例?

  • 大數學堂
  • July 26, 2023, 2:28 p.m.
[爬蟲實戰] 如何抓取廉價航空的機票價格 – 以酷航為例?

這堂免費課介紹了如何使用爬蟲去抓取酷航的最新票價資訊,以便能夠搶到廉價的航空機票。作者提到,關注最新的票價是獲得便宜機票的最佳方法,但大家都很忙,所以讓爬蟲代勞是一個好選擇。使用Python Crawler,可以輕鬆地抓取酷航的最新票價,避免錯失機會。

開始上課

[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

  • 大數學堂
  • July 26, 2023, 3:44 p.m.
[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

這堂免費課介紹了使用Selenium和BeautifulSoup4來抓取以Ajax生成的網頁的方法。傳統上,抓取這樣的網頁需要很多耐心觀察,才能找到抓取的切入點。但是使用Selenium可以自動點擊和載入Ajax生成的頁面,使得抓取變得簡單。然後,配合BeautifulSoup4的強大解析功能,使用Python抓取網頁就變得非常簡單了。

開始上課

[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

  • 大數學堂
  • Nov. 10, 2016, 2:34 p.m.
[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

本文介紹了如何使用Python網路爬蟲來抓取天貓特價商品資料。使用Python的requests模組抓取商品頁面,再使用BeautifulSoup4抓取特價商品的資料區塊,最後使用json.loads將資料轉換成字典結構。這樣就可以在1111購物狂歡節期間,同時享受購物樂趣,又顧好自己的錢包了。程式碼可以在文章中提供的GitHub連結中找到。

開始上課

[爬蟲實戰] 如何突破蝦皮拍賣的重重限制以順利抓取拍賣商品資訊?

  • 大數學堂
  • July 26, 2023, 3:52 p.m.
[爬蟲實戰] 如何突破蝦皮拍賣的重重限制以順利抓取拍賣商品資訊?

本堂課介紹了如何使用爬蟲抓取時下最夯的蝦皮拍賣網站。要抓取蝦皮的資料,必須先找到XHR請求連結,然後使用POST傳輸json格式的參數。如果無法正確獲得回應,可能是缺少一些標頭資訊,此時可以嘗試不同的組合來取得正確的商品資訊。如果無法獲得某些標頭資訊,可以使用Selenium搭配正確的Cookie來解決這個問題。

開始上課

[財經爬蟲] 如何使用正規表達法快速抓取所有上市公司代號?

  • 大數學堂
  • Oct. 13, 2020, 2:20 p.m.
[財經爬蟲] 如何使用正規表達法快速抓取所有上市公司代號?

這篇文章介紹如何使用Python網路爬蟲抓取GoodInfo的所有上市公司基本資訊。作者首先透過Tej的網站找到上市上櫃公司的代碼清單,接著使用正規表達法快速抽取出所有的數字代碼,以獲得所有上市公司的代碼。文章中還提供了影片和程式碼的連結。

開始上課

[爬蟲實戰] 如何透過開發人員工具破解實價登錄網新版API中的加密字串?

  • 大數學堂
  • April 5, 2021, 1:30 p.m.
[爬蟲實戰] 如何透過開發人員工具破解實價登錄網新版API中的加密字串?

這篇文章介紹了如何使用Chrome開發人員工具來解析新版實價登錄網站的API連結中的神秘字串。透過瀏覽器的Debugger功能,可以找到加密的JavaScript程式碼片段,然後使用這些加密函數片段來解析參數的查詢條件,從而成功抓取實價登錄資訊。文中還提供了相關的影片和程式碼連結,方便讀者深入了解和實踐Python網路爬蟲的相關知識。

開始上課

[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

  • 大數學堂
  • April 12, 2021, 1:47 p.m.
[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

本文介紹了如何透過Python Flask建立一個橋接器,來自動化抓取實價登錄網的加密字串。通常我們會使用Node.js或Pyexecjs等方法來加載加密函數,但這牽涉到處理Node.js或修改JavaScript的問題。透過Python Flask橋接器,我們可以輕鬆地重新導向加密字串到實價登錄網,實現破解新版實價登錄網的目標。影片和程式碼也提供了詳細的操作示例。

開始上課

[爬蟲實戰] 如何透過EMAIL即時獲取最新匯率資訊?

  • 大數學堂
  • Dec. 26, 2016, 4:32 p.m.
[爬蟲實戰] 如何透過EMAIL即時獲取最新匯率資訊?

文章介紹了如何透過Python的爬蟲和電子郵件功能來自動通知匯率的變化。使用smtplib和GMAIL工具,將匯率資料以HTML格式的郵件寄送給用戶,使他們能夠即時掌握最佳的買點。這種自動化的方法能夠節省用戶的時間和精力,並確保他們不會錯過任何重要的交易機會。

開始上課

[爬蟲實戰] 如何爬取圖片以建立慾望之牆?

  • 大數學堂
  • Sept. 12, 2015, 4:15 p.m.
[爬蟲實戰] 如何爬取圖片以建立慾望之牆?

這篇文章介紹了如何使用網路爬蟲蒐集圖片檔案,並提及了使用 streaming 的資料抓取 binary 寫檔以及 shutil 套件來完成任務。作者希望將自己最喜歡的雪芙女神照片收集起來,並表示可以在 Gamebase

開始上課

[爬蟲實戰] 如何使用 Pyppeteer抓取 PCHOME 商品價格資訊?

  • 大數學堂
  • Oct. 16, 2021, 9:55 a.m.
[爬蟲實戰] 如何使用 Pyppeteer抓取 PCHOME 商品價格資訊?

這篇文章介紹了在處理由Javascript渲染的網頁資料時,無法直接使用requests,需要使用Pyppeteer作為解決方案。Pyppeteer是一個Python接合Chromium API的工具,可以輕鬆讀取Javascript渲染的頁面資料,使網頁爬取更加直覺。文章還提供了相關的視頻和程式碼連結,並標籤了PCHOME爬蟲 Pyppeteer Puppeteer和Python網路爬蟲。

開始上課

[爬蟲實戰] 如何用Python網路爬蟲抓取台灣運彩上的世界杯足球賠率?

  • 大數學堂
  • Dec. 4, 2022, 10:19 a.m.
[爬蟲實戰] 如何用Python網路爬蟲抓取台灣運彩上的世界杯足球賠率?

這篇文章主要是介紹如何透過突破台彩網站的防爬蟲機制,使用開發者工具觀察網頁並使用Python快速撰寫網路爬蟲,抓取世界杯足球賠率。文中也提到,台彩還有其他防範機制阻止抓取正確的數據,如果讀者對此有興趣,可以在文章下方留言,未來或許會再開視頻專門解說。文章中也附上了相關的影片和程式碼連結。

開始上課

[爬蟲實戰] 如何使用Python 爬蟲 (Python Crawler) 下載Youtube 影片

  • 大數學堂
  • July 26, 2023, 2 p.m.
[爬蟲實戰] 如何使用Python 爬蟲 (Python Crawler) 下載Youtube 影片

這堂免費課介紹了如何使用Python爬蟲抓取YouTube影片並進行下載。不同於一般的爬蟲,要抓取實體影片連結,需要使用正規表達式和查詢字符串解析函數。接著,使用二進制編碼的方式,可以下載Girl's day Expectation的音樂影片串流。這篇文章提供了一個實際的例子來示範如何下載YouTube影片。

開始上課

[財經爬蟲] 怎麼繞過驗證碼? 利用 2Captcha 驗證碼識別服務突破 reCAPTCHA 驗證碼,抓取證券櫃買中心的券商買賣證券日報表上分點交易資訊

  • 大數學堂
  • July 1, 2021, 7:08 a.m.
[財經爬蟲] 怎麼繞過驗證碼? 利用 2Captcha 驗證碼識別服務突破  reCAPTCHA 驗證碼,抓取證券櫃買中心的券商買賣證券日報表上分點交易資訊

這篇文章介紹了如何利用Python網路爬蟲和2Captcha驗證碼識別服務,突破券商買賣證券日報表上的reCAPTCHA驗證碼,以獲取分點交易資訊。透過分析分點資料,可以分析大戶的進出行為,以便跟單獲利。文章提供了完整的教學文章連結 影片教學連結和程式碼,並介紹了2Captcha服務的連結。

開始上課

[爬蟲實戰] 如何快速蒐集免費IP作為Python 網路爬蟲跳板Proxy?

  • 大數學堂
  • Sept. 28, 2020, 2:47 p.m.
[爬蟲實戰] 如何快速蒐集免費IP作為Python 網路爬蟲跳板Proxy?

這篇文章介紹了利用Python網路爬蟲抓取一些會鎖IP的網站時,需要使用免費的Proxy來規避被封鎖的風險。文章提到了抓取Free Proxy List上的頁面,利用正規表達式蒐集IP清單,再利用ipify進行測試,重複操作便能建立自己的Python網路爬蟲跳板清單。文章中還提供了相關影片和程式碼連結。

開始上課