[Selenium] 如何使用 Selenium 撰寫網路爬蟲?

  • 大數學堂
  • Aug. 15, 2018, 1:53 p.m.
[Selenium] 如何使用 Selenium 撰寫網路爬蟲?

這篇文章介紹了如何使用Selenium和BeautifulSoup進行網頁爬取。使用Selenium的page_source屬性可以抓取當前頁面的原始碼,並透過BeautifulSoup處理,使得能夠爬取任何瀏覽器瀏覽的網頁。同時提供了程式碼以供參考。

開始上課

[Selenium] 如何設定 Selenium 中的隱含等待(Implicit Wait)?

  • 大數學堂
  • Oct. 30, 2018, 3:05 p.m.
[Selenium] 如何設定 Selenium 中的隱含等待(Implicit Wait)?

Selenium在抓取資料時,有時會遇到頁面尚未完全載入的問題,導致NoSuchElementException的錯誤。為了避免此問題,可以使用implicit_wait功能,讓程式在執行後續動作之前等待頁面完全載入。附上程式碼範例的連結。

開始上課

[爬蟲實戰] 如何透過 Python 網路爬蟲快速找出1111購物狂歡節折扣最多的商品? (2018年版)

  • 大數學堂
  • Nov. 10, 2018, 12:43 p.m.
[爬蟲實戰] 如何透過 Python 網路爬蟲快速找出1111購物狂歡節折扣最多的商品? (2018年版)

1111購物狂歡節即將到來,如果你還不知道該買什麼,可以嘗試使用數據來做決策。本課程將使用Python網路爬蟲抓取天貓的商品頁面,再用json和pandas整理商品資訊,最後使用pandas的排序功能,幫助你找出折扣最多的商品。程式碼可參考:https://github.com/ywchiu/largitdata/blob/master/code/Course_108.ipynb

開始上課

如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲?

  • 大數學堂
  • April 18, 2015, 1:59 a.m.
如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲?

這篇文章介紹如何使用Python的requests和BeautifulSoup4來完成淘寶網站的爬蟲。作者提到,既然已經了解了如何使用requests抓取網頁內容,並使用BeautifulSoup4來解析有用的資訊,接下來將進入實戰階段,示範如何完成淘寶爬蟲。

開始上課

[RPA] 如何使用 Selenium 自動下載漫畫 (1)?

  • 大數學堂
  • Aug. 12, 2019, 3:20 p.m.
[RPA] 如何使用 Selenium  自動下載漫畫 (1)?

這篇文章介紹了一個使用Python爬蟲的專題,目的是為了自動化閱讀漫畫的過程。文章提到了使用Selenium來自動開啟漫畫頁面,然後使用BeautifulSoup解析圖片位置,最後使用Requests下載圖片。作者分享了相關的影片和程式碼連結。整篇文章展示了使用爬蟲技術來達到自動化閱讀漫畫的目標,展現了黑客精神。

開始上課

[ChatGPT] 利用 ChatGPT 打造萬用網路爬蟲追蹤最新機票價格

  • 大數學堂
  • June 25, 2023, 9:23 a.m.
[ChatGPT] 利用 ChatGPT 打造萬用網路爬蟲追蹤最新機票價格

本教學將教您如何使用Selenium自動瀏覽Expedia網站,並利用LangChain和ChatGPT的Extraction功能,自動解析半結構化資料。最後,使用Pandas將半結構化資料轉換為結構化資訊。透過ChatGPT和LangChain的幫助,我們可以省去編寫網路爬蟲時需要觀察元素的麻煩。再加上Selenium可以模擬人類操作,我們能夠簡化網路爬蟲的過程,輕鬆地獲取所需的網頁資訊。期待著中秋節的到來,並希望能在日圓跌至新低的時候,節省機票費用,享受一趟愉快的旅程。

開始上課

[財經爬蟲]手把手帶你用Python網路爬蟲抓取Goodinfo,再結合GPT-4o快速分析潛力股!

  • 大數學堂
  • June 16, 2024, 9 p.m.
[財經爬蟲]手把手帶你用Python網路爬蟲抓取Goodinfo,再結合GPT-4o快速分析潛力股!

本教學將手把手教學如何從GoodInfo網站獲取臺積電財報數據外,還將進一步利用ChatGPT的GPT-4 API解讀財報,判斷公司是否值得投資。影片內容涵蓋了爬蟲、資料處理、API註冊、提示詞設計、財報分析等詳細步驟,幫助您掌握快速取得股票財報和AI輔助投資決策的方法。

開始上課

[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

  • 大數學堂
  • May 30, 2015, 9:40 a.m.
[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

縱使針對網站進行多層保護,但只要爬取資料的思路正確,破解任意網站只是時間問題。就像這個知名財經網站,儘管檢查使用者是否使用爬蟲或內嵌iframe,仍無法逃脫被爬取的命運。

開始上課

[爬蟲實戰] 如何抓取淘寶網的商品名稱與價格 (2016年版)?

  • 大數學堂
  • Oct. 10, 2016, 3:27 p.m.
[爬蟲實戰] 如何抓取淘寶網的商品名稱與價格 (2016年版)?

本文介紹了作者對於更新淘寶爬蟲的一些方法。他提到以前的爬蟲只需要獲取Document下的連結即可獲取商品價格資訊,但淘寶現在使用了AJAX的方式填充頁面內容。為了解決這個問題,作者建議從XHR和JS入手,使用正則表達式來解析重要資訊,以便在雙十一節中獲取淘寶資訊更容易。

開始上課

[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

  • 大數學堂
  • July 26, 2023, 3:44 p.m.
[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

這堂免費課介紹了使用Selenium和BeautifulSoup4來抓取以Ajax生成的網頁的方法。傳統上,抓取這樣的網頁需要很多耐心觀察,才能找到抓取的切入點。但是使用Selenium可以自動點擊和載入Ajax生成的頁面,使得抓取變得簡單。然後,配合BeautifulSoup4的強大解析功能,使用Python抓取網頁就變得非常簡單了。

開始上課

[爬蟲實戰] 如何使用Selenium 抓取驗證碼?

  • 大數學堂
  • Oct. 24, 2017, 3:22 p.m.
[爬蟲實戰] 如何使用Selenium 抓取驗證碼?

使用selenium抓取驗證碼圖片並非難事,只需要先存取頁面快照,然後找到圖片位置,然後根據位置和大小,就能成功從頁面中擷取出驗證碼。接著,只需要將驗證碼交給機器學習引擎辨識,就能輕鬆讓電腦為我們自動訂票。可以參考這篇程式碼來實踐:<a href="https://github.com/ywchiu/largitdata/blob/master/code/Course_95.ipynb">https://github.com/ywchiu/largitdata/blob/master/code/Course_95.ipynb</a>

開始上課

[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

  • 大數學堂
  • Nov. 10, 2016, 2:34 p.m.
[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

本文介紹了如何使用Python網路爬蟲來抓取天貓特價商品資料。使用Python的requests模組抓取商品頁面,再使用BeautifulSoup4抓取特價商品的資料區塊,最後使用json.loads將資料轉換成字典結構。這樣就可以在1111購物狂歡節期間,同時享受購物樂趣,又顧好自己的錢包了。程式碼可以在文章中提供的GitHub連結中找到。

開始上課

[財經爬蟲] 如何使用正規表達法快速抓取所有上市公司代號?

  • 大數學堂
  • Oct. 13, 2020, 2:20 p.m.
[財經爬蟲] 如何使用正規表達法快速抓取所有上市公司代號?

這篇文章介紹如何使用Python網路爬蟲抓取GoodInfo的所有上市公司基本資訊。作者首先透過Tej的網站找到上市上櫃公司的代碼清單,接著使用正規表達法快速抽取出所有的數字代碼,以獲得所有上市公司的代碼。文章中還提供了影片和程式碼的連結。

開始上課

[財經爬蟲] 如何使用Python 網路爬蟲抓取新版Yahoo 股市上的即時行情?

  • 大數學堂
  • April 20, 2021, 1:34 p.m.
[財經爬蟲] 如何使用Python 網路爬蟲抓取新版Yahoo 股市上的即時行情?

這篇文章提到Yahoo股市的頁面最近有更新版本,為了讓交易機器人能根據最新的行情做決策,需要找到即時行情的API,並使用Python的網路爬蟲來蒐集新版Yahoo股市資訊。提供兩個連結,一個是影片教學,另一個是程式碼範例。文章標籤有Python網路爬蟲 財經爬蟲 即時行情 交易機器人和Yahoo股市。

開始上課

[爬蟲實戰] 如何使用 Pyppeteer抓取 PCHOME 商品價格資訊?

  • 大數學堂
  • Oct. 16, 2021, 9:55 a.m.
[爬蟲實戰] 如何使用 Pyppeteer抓取 PCHOME 商品價格資訊?

這篇文章介紹了在處理由Javascript渲染的網頁資料時,無法直接使用requests,需要使用Pyppeteer作為解決方案。Pyppeteer是一個Python接合Chromium API的工具,可以輕鬆讀取Javascript渲染的頁面資料,使網頁爬取更加直覺。文章還提供了相關的視頻和程式碼連結,並標籤了PCHOME爬蟲 Pyppeteer Puppeteer和Python網路爬蟲。

開始上課

[爬蟲實戰] 如何快速蒐集免費IP作為Python 網路爬蟲跳板Proxy?

  • 大數學堂
  • Sept. 28, 2020, 2:47 p.m.
[爬蟲實戰] 如何快速蒐集免費IP作為Python 網路爬蟲跳板Proxy?

這篇文章介紹了利用Python網路爬蟲抓取一些會鎖IP的網站時,需要使用免費的Proxy來規避被封鎖的風險。文章提到了抓取Free Proxy List上的頁面,利用正規表達式蒐集IP清單,再利用ipify進行測試,重複操作便能建立自己的Python網路爬蟲跳板清單。文章中還提供了相關影片和程式碼連結。

開始上課