大數軟體 X 大數學堂

[爬蟲實戰] 如何抓取廉價航空的機票價格 – 以酷航為例?

大數學堂
July 26, 2023, 2:28 p.m.

這堂免費課介紹了如何使用爬蟲去抓取酷航的最新票價資訊，以便能夠搶到廉價的航空機票。作者提到，關注最新的票價是獲得便宜機票的最佳方法，但大家都很忙，所以讓爬蟲代勞是一個好選擇。使用Python Crawler，可以輕鬆地抓取酷航的最新票價，避免錯失機會。

開始上課

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

大數學堂
March 31, 2016, 4:24 p.m.

瀑布流網站如EZTABLE讓資訊抓取變得困難，但可使用Selenium執行Javascript解決頁面捲動問題。透過execute_script函數執行window.scrollTo(0 document.body.scrollHeight)，可以成功抓取瀑布流式網頁。

開始上課

[Scrapy 爬蟲] 如何設置 Job 以分段爬蟲任務?

大數學堂
March 13, 2016, 4:42 p.m.

Scrapy提供了一個方便的功能，可以在爬取大型網站時暫停和回復任務。透過指定 -s JOBDIR=DIR 的方法，我們可以讓Scrapy處理繁瑣的任務管理，方便地分段進行爬取任務。這使得爬取大型網站變得更加輕鬆和高效。

開始上課

[Scrapy 爬蟲] 如何使用Scrapy 的CrawlSpider 實現多網頁爬取?

大數學堂
March 1, 2016, 4:49 p.m.

Scrapy的CrawlSpider類別可實現多網頁爬取。只需讓爬蟲繼承CrawlSpider類別，並在rules清單中增加抓取規則，透過LinkExtractor中的分頁抓取規則，即可輕鬆爬取符合條件的蘋果新聞資料。

開始上課

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

大數學堂
Feb. 26, 2016, 3:27 p.m.

scrapy是一個用於抓取網頁數據的框架，它通過pipelines來處理抓取到的數據。在pipelines中，我們可以清理數據驗證數據的有效性去除重複數據，並將數據存儲到數據庫中。在範例中，我們在pipelines.py中設置open_spider在開始時建立數據庫連接並創建表格，close_spider在結束時提交交易並關閉數據庫連接，process_item則將數據保存到sqlite數據庫中。最後，在settings.py中啟用pipelines的設置。

開始上課

hidden

[爬蟲實戰] 如何抓取廉價航空的機票價格 – 以酷航為例?

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

[Scrapy 爬蟲] 如何設置 Job 以分段爬蟲任務?

[Scrapy 爬蟲] 如何使用Scrapy 的CrawlSpider 實現多網頁爬取?

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?