大數軟體 X 大數學堂

[Scrapy 爬蟲] 什麼是Scrapy以及為什麼要用Scrapy 爬取網頁?

大數學堂
Jan. 31, 2016, 2:59 p.m.

Scrapy是一個網路爬蟲框架，可以幫助我們撰寫具有非同步請求能力的爬蟲，避免重造輪子。安裝Scrapy的步驟包括下載並安裝Anaconda，使用Anaconda Command Prompt安裝Scrapy，以及開啟爬蟲專案。

[Scrapy 爬蟲] 如何撰寫第一支Scrapy 爬蟲以抓取蘋果即時新聞?

大數學堂
Feb. 1, 2016, 4:12 p.m.

這篇文章介紹了如何使用Scrapy爬蟲框架進行網站爬蟲的步驟。首先，我們需要在spiders目錄下建立一個Python檔案，並在其中定義一個class，指定爬蟲的名稱起始網址以及解析函數。最後，執行指令"scrapy crawl 爬蟲名稱"來運行爬蟲。

開始上課

[Scrapy 爬蟲] 如何從蘋果新聞的清單聯結抓取下一層的內容頁面?

大數學堂
Feb. 23, 2016, 4:14 p.m.

這篇文章介紹了如何在Scrapy爬蟲中使用yield 產生器來抓取下一層的內容頁面，並使用BeautifulSoup進行剖析，獲取內容頁的標題資訊。

開始上課

[Scrapy 爬蟲] 如何使用items.py整理Scrapy 爬取下來的資料並輸出成JSON檔?

大數學堂
Feb. 24, 2016, 3:26 p.m.

Scrapy 的 items.py 可以將爬蟲爬取到的資料結構化，爬蟲主程式隨後可建立物件來存放爬取下來的資料。最後，透過指令 "scrapy crawl apple -o

開始上課

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

大數學堂
Feb. 26, 2016, 3:27 p.m.

scrapy是一個用於抓取網頁數據的框架，它通過pipelines來處理抓取到的數據。在pipelines中，我們可以清理數據驗證數據的有效性去除重複數據，並將數據存儲到數據庫中。在範例中，我們在pipelines.py中設置open_spider在開始時建立數據庫連接並創建表格，close_spider在結束時提交交易並關閉數據庫連接，process_item則將數據保存到sqlite數據庫中。最後，在settings.py中啟用pipelines的設置。

開始上課