只要三分鐘,立即來學習如何使用開源工具來分析資料吧

[Scrapy 爬蟲] 什麼是Scrapy以及為什麼要用Scrapy 爬取網頁?

  • 星期日 31 一月 2016

透過 Scrapy 網路爬蟲框架,我們就可以在不用重造輪子的情況下撰寫較為完整且具非同步化(asynchronous)請求能力的網路爬蟲。 安裝步驟: 1. 下載並安裝 Anaconda Python 2. 在Anaconda Command Prompt 鍵入 pip install scrapy 3. 開啟爬蟲專案: scrapy startproject apple

開始上課

[Scrapy 爬蟲] 如何撰寫第一支Scrapy 爬蟲以抓取蘋果即時新聞?

  • 星期一 01 二月 2016

繼說明為何要使用Scrapy 這爬蟲框架後,我們便可以開始寫作第一支Scrapy 爬蟲。 1. 於spiders 目錄下開一個Python檔案 (e.g. crawl.py) 2. 於crawl.py 中定義 a. class name b. name c. start_urls d. parse 函數 3. 於scrapy.cfg 處執行 scrapy crawl apple

開始上課

[Scrapy 爬蟲] 如何從蘋果新聞的清單聯結抓取下一層的內容頁面?

  • 星期二 23 二月 2016

取得第一頁的清單聯結後,我們可以在scrapy 爬蟲中使用yield 產生器(generator) 產生一個scrapy 請求以抓取下一層的內容頁面,並用BeautifulSoup 剖析內容後,得到內容頁的標題資訊。

開始上課

[Scrapy 爬蟲] 如何使用items.py整理Scrapy 爬取下來的資料並輸出成JSON檔?

  • 星期三 24 二月 2016

使用Scrapy 所提供的items.py可以將Scrapy 爬蟲爬取到的資料結構化。之後便可以在爬蟲主程式建立物件,存放爬取下來的資料。最後可以透過scrapy crawl apple -o apple.json -t json 指令,將資料整理成JSON 檔,以利之後操作。

開始上課

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

  • 星期五 26 二月 2016

當使用scrapy 抓取資料後,會將每個item 傳遞給 pipelines。在pipeline 中可以:1. 清理網頁資料 2. 驗證抓取資料 3. 去重覆化 4. 將資料儲存至資料庫。 在範例中,我們在pipelines.py: 1. 設置 open_spider: 開啟資料庫連線,建立表格 2. 設置close_spider: 認可交易(commit),關閉資料庫連線 3. 設置process_item: 將資料儲存至sqlite 中 。最後在 settings.py 啟用pipelines 的設定。

開始上課

[Scrapy 爬蟲] 如何使用Scrapy 的CrawlSpider 實現多網頁爬取?

  • 星期二 01 三月 2016

Scrapy 有提供CrawlSpider 的類別以實現多網頁爬取的功能。使用方法相當簡單,只要讓爬蟲繼承CrawlSpider類別,並增加抓取規則Rule 至rules 清單中,在LinkExtractor 中增加分頁抓取的規則,便可以順利將符合條件的蘋果新聞資料快速爬取下來。

開始上課

[Scrapy 爬蟲] 如何設置 Job 以分段爬蟲任務?

  • 星期日 13 三月 2016

在爬取大型網站時,常會需要將爬取任務分段,所幸我們可以在Scrapy中透過 -s JOBDIR=DIR 暫停及回復任務(Job)暫停,讓頭痛的任務管理留給Scrapy 處理。

開始上課
回到最上面