大數軟體 X 大數學堂 | 搜尋關鍵字: 網頁

[Selenium] 如何使用 Selenium 開啟 Chrome 瀏覽器?

大數學堂
2018年5月11日 15:09

[Selenium] 如何使用 Selenium 開啟 Chrome 瀏覽器?

本篇文章介紹了Selenium的基礎教程，Selenium是一種能夠進行人機互動操作的工具，可以自動打開瀏覽器瀏覽網頁，對於不擅長觀察資料連結的爬蟲開發者來說非常有用。文章提供了一段程式碼，詳細介紹了如何使用Selenium的基本指令來開啟Chrome瀏覽器並自動瀏覽網頁。具體的程式碼則可以在文章中提供的連結中找到。

[Selenium] 如何使用 Selenium 查找元素定位?

大數學堂
2018年6月26日 15:42

[Selenium] 如何使用 Selenium 查找元素定位?

這篇文章介紹了使用Selenium開啟瀏覽器後，如何尋找網頁元素定位並進行操作。其中，文中提到了幾個常用的定位方法，包括使用元素的id class名稱 name CSS selector以及XPath。若要查看完整的程式碼，可以點擊連結進入GitHub頁面。

[Selenium] 如何使用 Selenium 操作網頁元素?

大數學堂
2018年8月1日 14:37

[Selenium] 如何使用 Selenium 操作網頁元素?

這篇文章介紹了如何使用Selenium點擊網頁按鈕和送出內容，並提供了相關程式碼的連結。同時，文章還提到正在尋找網站可靠工程師的招募訊息，並提供了應徵連結。

如何安裝 Jupyter (Ipython Notebook)

大數學堂
2015年5月7日 07:04

如何安裝 Jupyter (Ipython Notebook)

Jupyter是一個強大而方便的工具，它提供網頁介面，讓使用者可以使用瀏覽器進行Julia Python或R程式的開發和維護。這個工具相當實用，值得一試。未來我們將陸續介紹它的各種好用功能。

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

大數學堂
2016年2月26日 15:27

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

scrapy是一個用於抓取網頁數據的框架，它通過pipelines來處理抓取到的數據。在pipelines中，我們可以清理數據驗證數據的有效性去除重複數據，並將數據存儲到數據庫中。在範例中，我們在pipelines.py中設置open_spider在開始時建立數據庫連接並創建表格，close_spider在結束時提交交易並關閉數據庫連接，process_item則將數據保存到sqlite數據庫中。最後，在settings.py中啟用pipelines的設置。

如何使用GET 抓取網頁內容?

大數學堂
2015年4月16日 15:15

如何使用GET 抓取網頁內容?

這篇文章介紹了如何使用Python編寫三行程式碼來抓取淘寶網的網頁內容。並且提供了一個範例網頁連結供讀者參考。

如何使用POST 抓取網頁內容?

大數學堂
2015年4月19日 09:29

如何使用POST 抓取網頁內容?

本文章介紹了如何使用POST方法在Python中抓取高鐵網頁內容。使用POST方法可以將請求資訊包裝起來，再傳送至伺服器以取得回應資訊。在Python中使用POST方法非常簡單，只需將請求資訊以字典做包裝即可。

如何使用RSelenium 抓取PTT Food版的內容?

大數學堂
2015年6月29日 15:41

如何使用RSelenium 抓取PTT Food版的內容?

R可以搭配Web自動化測試工具Selenium進行網頁抓取，只要使用RSelenium進行安裝和使用，就能在Firefox瀏覽器中使用R腳本抓取網頁內容。這樣的功能不僅僅只有Python才能實現。

如何使用Python 套件: BeautifulSoup4 剖析網頁內容?

大數學堂
2015年4月17日 16:19

如何使用Python 套件: BeautifulSoup4 剖析網頁內容?

這篇文章介紹了使用BeautifulSoup4來解析網頁內容的方法。透過幾個簡單的選取動作，我們可以迅速地從非結構化的資料中抓取有價值的部分。有了這些資料，進一步的分析也就離我們不遠了。

[Scrapy 爬蟲] 如何使用Scrapy 的CrawlSpider 實現多網頁爬取?

大數學堂
2016年3月1日 16:49

[Scrapy 爬蟲] 如何使用Scrapy 的CrawlSpider 實現多網頁爬取?

Scrapy的CrawlSpider類別可實現多網頁爬取。只需讓爬蟲繼承CrawlSpider類別，並在rules清單中增加抓取規則，透過LinkExtractor中的分頁抓取規則，即可輕鬆爬取符合條件的蘋果新聞資料。

[爬蟲實戰] 如何抓取心食譜的食譜資訊?

大數學堂
2015年4月20日 14:01

[爬蟲實戰] 如何抓取心食譜的食譜資訊?

這篇文章介紹使用CSS Selector的nth-of-type來抓取特定位置的食譜資訊的示範。並且提供了一個示範網頁的連結。

[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?

大數學堂
2015年4月27日 15:29

[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?

有些網頁伺服器會檢查用戶代理以限制爬蟲存取頁面內容，但我們可以通過在標頭中增加自己的瀏覽器用戶代理來繞過這種限制，成功獲取網頁內容。這種技術可以用來抓取永慶房屋的房價資訊。

[ChatGPT] 利用 ChatGPT 打造萬用網路爬蟲追蹤最新機票價格

大數學堂
2023年6月25日 09:23

[ChatGPT] 利用 ChatGPT 打造萬用網路爬蟲追蹤最新機票價格

本教學將教您如何使用Selenium自動瀏覽Expedia網站，並利用LangChain和ChatGPT的Extraction功能，自動解析半結構化資料。最後，使用Pandas將半結構化資料轉換為結構化資訊。透過ChatGPT和LangChain的幫助，我們可以省去編寫網路爬蟲時需要觀察元素的麻煩。再加上Selenium可以模擬人類操作，我們能夠簡化網路爬蟲的過程，輕鬆地獲取所需的網頁資訊。期待著中秋節的到來，並希望能在日圓跌至新低的時候，節省機票費用，享受一趟愉快的旅程。

[爬蟲實戰] 如何剖析PTT的網頁?

大數學堂
2015年4月24日 13:49

[爬蟲實戰] 如何剖析PTT的網頁?

本篇文章介紹了如何使用Python的requests和BeautifulSoup4函式庫來獲取並解析PTT網站的文章內容。透過requests的get方法可以將網頁內容取回，再使用BeautifulSoup4來解析原始碼，提取出有意義的結構化資訊，例如文章標題作者和發文時間等。這對於進一步分析和處理PTT文章內容非常有用。

[爬蟲實戰] 如何簡簡單單突破驗證碼 (Captcha) 限制?

大數學堂
2023年7月26日 12:39

[爬蟲實戰] 如何簡簡單單突破驗證碼 (Captcha) 限制?

這堂免費課指出，不一定需要使用OpenCV來辨識文字，可以使用之前的HTTP請求Session和圖片顯示功能來半自動地抓取有驗證碼限制的網頁內容。這種方法讓抓取網頁資料變得容易又輕鬆。

[爬蟲實戰] 如何抓取591租屋網的資訊?

大數學堂
2015年4月29日 15:52

[爬蟲實戰] 如何抓取591租屋網的資訊?

這篇文章介紹了如何觀察和爬取使用AJAX換頁的網頁中的資訊，同時也講解了如何使用Python的json套件將json內容轉換為字典。

[爬蟲實戰] 如何抓取淘寶網雙十一購物狂歡節活動網頁中的商品列表?

大數學堂
2015年11月10日 14:41

[爬蟲實戰] 如何抓取淘寶網雙十一購物狂歡節活動網頁中的商品列表?

這篇文章介紹了如何使用Python網路爬蟲來抓取雙十一購物狂歡節活動網頁中的商品列表。雖然淘寶的網頁改版後讓資料抓取變得困難，但這不會阻止我們追求購物資訊的熱情。文章將教你如何使用Python網路爬蟲來解決這個問題。

[財經爬蟲] 如何透過Python 網路爬蟲抓取Goodinfo 台灣股市資訊網?

大數學堂
2020年8月2日 14:08

[財經爬蟲] 如何透過Python 網路爬蟲抓取Goodinfo 台灣股市資訊網?

Goodinfo台灣股市資訊網為投資者提供重要股票資訊，作者使用Python網路爬蟲自動化爬取各股票的歷年經營績效。作者通過設定user-agent以規避Goodinfo的防爬蟲機制，並使用Pandas整理資料。這樣的資料結構可以幫助投資者做出更好的投資決策。詳細的影片和程式碼連結都有提供。

[爬蟲實戰] 如何抓取集保戶股權分散表?

大數學堂
2015年8月5日 11:55

[爬蟲實戰] 如何抓取集保戶股權分散表?

文章提到可以使用requests.post來取得需要POST請求的網頁內容，但也可以使用GET模擬整個POST動作。只需要將POST內容編碼後，串接在原網址的問號(?)後面，就可以順利取得內容。

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

大數學堂
2016年3月31日 16:24

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

瀑布流網站如EZTABLE讓資訊抓取變得困難，但可使用Selenium執行Javascript解決頁面捲動問題。透過execute_script函數執行window.scrollTo(0 document.body.scrollHeight)，可以成功抓取瀑布流式網頁。

[爬蟲實戰] 如何在1111購物狂歡節快速爬取淘寶上的商品資訊?

大數學堂
2019年10月30日 13:39

[爬蟲實戰] 如何在1111購物狂歡節快速爬取淘寶上的商品資訊?

這篇文章介紹了如何快速寫一個淘寶爬蟲程式。現在的電商網頁都有提供API，可以方便地將商品資訊下載下來。只要透過Chrome的開發人員工具找到API的端口，然後使用requests將JSON格式資料爬取下來。再搭配Pandas的資料整理功能，就可以將商品資訊整理成表格，方便閱覽和分析。文章最後提供了相關影片和程式碼的連結。

[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

大數學堂
2023年7月26日 15:44

[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

這堂免費課介紹了使用Selenium和BeautifulSoup4來抓取以Ajax生成的網頁的方法。傳統上，抓取這樣的網頁需要很多耐心觀察，才能找到抓取的切入點。但是使用Selenium可以自動點擊和載入Ajax生成的頁面，使得抓取變得簡單。然後，配合BeautifulSoup4的強大解析功能，使用Python抓取網頁就變得非常簡單了。

[爬蟲實戰] 如何使用Selenium 自動將slides.com 的網頁投影片輸出成圖檔?

大數學堂
2017年1月1日 15:46

[爬蟲實戰] 如何使用Selenium 自動將slides.com 的網頁投影片輸出成圖檔?

這篇文章介紹了如何使用Selenium撰寫一個爬蟲，將slides.com上製作的HTML網頁投影片自動轉換成圖檔，然後結合起來匯出成PDF檔。這樣一來，就可以不需要花錢升級會員，也能將投影片匯出為PDF檔。

[爬蟲實戰] 如何突破證交所的限制，穩穩抓取最新成交資訊?

大數學堂
2023年7月26日 14:34

[爬蟲實戰] 如何突破證交所的限制，穩穩抓取最新成交資訊?

最近證交所的頁面更新，爬蟲面臨網頁伺服器的rate limiting造成無法連上證交所的問題。為解決此問題，我們可以讓爬蟲在抓取資料之間隔幾秒讓其小睡，避免IP被封鎖。這樣，爬蟲就能夠順利抓取所需要的資料。有關程式碼可以參考Github連結。

[爬蟲實戰] 如何使用 Pyppeteer抓取 PCHOME 商品價格資訊?

大數學堂
2021年10月16日 09:55

[爬蟲實戰] 如何使用 Pyppeteer抓取 PCHOME 商品價格資訊?

這篇文章介紹了在處理由Javascript渲染的網頁資料時，無法直接使用requests，需要使用Pyppeteer作為解決方案。Pyppeteer是一個Python接合Chromium API的工具，可以輕鬆讀取Javascript渲染的頁面資料，使網頁爬取更加直覺。文章還提供了相關的視頻和程式碼連結，並標籤了PCHOME爬蟲 Pyppeteer Puppeteer和Python網路爬蟲。

[爬蟲實戰] 如何擷取網頁中的隱藏輸入以順利下載證交所的 csv 檔?

大數學堂
2015年9月20日 17:05

[爬蟲實戰] 如何擷取網頁中的隱藏輸入以順利下載證交所的 csv 檔?

本文章提到了爬蟲不僅可以擷取網頁的資訊，還可以下載csv檔案。作者在探索過程中發現，證交所使用了base64編碼將網頁內容放在post參數中，讓人感到十分困惑。然而，通過直接抓取網頁中的隱藏輸入欄位，再將資料進行base64編碼，作者成功地下載了csv檔案。

[爬蟲實戰] 如何不寫任何一行程式碼透過低代碼Low-Code / No-Code 工具 Playwright撰寫網頁自動化瀏覽程式

大數學堂
2021年11月10日 13:47

[爬蟲實戰] 如何不寫任何一行程式碼透過低代碼Low-Code / No-Code 工具 Playwright撰寫網頁自動化瀏覽程式

Playwright是一個低代碼/無代碼開源工具，可以讓不懂編寫程式的人快速撰寫Python腳本進行自動化操作。使用Playwright，使用者可以輕鬆地對網頁進行複雜操作，無論多麼繁瑣，只需極短的時間就能完成。這對需要自動化的工作流程非常方便。使用者可以在提供的影片和程式碼鏈接中了解更多詳細信息。

[爬蟲實戰] 如何用Python網路爬蟲抓取台灣運彩上的世界杯足球賠率?

大數學堂
2022年12月4日 10:19

[爬蟲實戰] 如何用Python網路爬蟲抓取台灣運彩上的世界杯足球賠率?

這篇文章主要是介紹如何透過突破台彩網站的防爬蟲機制，使用開發者工具觀察網頁並使用Python快速撰寫網路爬蟲，抓取世界杯足球賠率。文中也提到，台彩還有其他防範機制阻止抓取正確的數據，如果讀者對此有興趣，可以在文章下方留言，未來或許會再開視頻專門解說。文章中也附上了相關的影片和程式碼連結。

[爬蟲實戰] 如何利用Python網路爬蟲爬取有道翻譯打造自動化翻譯系統

大數學堂
2022年6月30日 14:14

[爬蟲實戰] 如何利用Python網路爬蟲爬取有道翻譯打造自動化翻譯系統

這篇文章介紹了如何使用Playwright撰寫Python網路爬蟲程式，以爬取有道翻譯的翻譯結果。透過自動化程式，可以省下許多時間和麻煩，無需重複複製貼上文字。此外，文章還宣布大數軟體正在徵求一位資深前端工程師，成功推薦人的將獲得獎金。最後，文章提供了一些相關連結，包括徵才網頁影片程式碼和學習資源。