[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

大數學堂
Feb. 26, 2016, 3:27 p.m.

當使用scrapy抓取資料後，會將每個item傳遞給pipelines。在pipeline中可以：

1. 清理網頁資料

2. 驗證抓取資料

3. 去重覆化

4. 將資料儲存至資料庫。

在範例中，我們在pipelines.py：

1. 設置open_spider: 開啟資料庫連線，建立表格

2. 設置close_spider: 認可交易(commit)，關閉資料庫連線

3. 設置process_item: 將資料儲存至sqlite中。

最後在settings.py啟用pipelines的設定。