大數軟體 X 大數學堂 | 搜尋關鍵字: pip

[Scrapy 爬蟲] 什麼是Scrapy以及為什麼要用Scrapy 爬取網頁?

大數學堂
Jan. 31, 2016, 2:59 p.m.

Scrapy是一個網路爬蟲框架，可以幫助我們撰寫具有非同步請求能力的爬蟲，避免重造輪子。安裝Scrapy的步驟包括下載並安裝Anaconda，使用Anaconda Command Prompt安裝Scrapy，以及開啟爬蟲專案。

開始使用Python撰寫網路爬蟲 ( Crawler )

大數學堂
April 15, 2015, 12:49 a.m.

這篇文章介紹了使用Python編寫網路爬蟲的開始步驟，其中需要安裝兩個Python套件：Requests和BeautifulSoup4。Requests是一個用於網路資源擷取的套件，而BeautifulSoup4則是一個用於HTML剖析的套件。

開始上課

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

大數學堂
Feb. 26, 2016, 3:27 p.m.

scrapy是一個用於抓取網頁數據的框架，它通過pipelines來處理抓取到的數據。在pipelines中，我們可以清理數據驗證數據的有效性去除重複數據，並將數據存儲到數據庫中。在範例中，我們在pipelines.py中設置open_spider在開始時建立數據庫連接並創建表格，close_spider在結束時提交交易並關閉數據庫連接，process_item則將數據保存到sqlite數據庫中。最後，在settings.py中啟用pipelines的設置。

開始上課

第三方套件練習題 - 運用結巴斷詞

大數學堂
May 23, 2022, midnight

結巴斷詞（jieba）是一個常用的中文中文字斷詞的Python套件。該套件可以將中文文本進行分割，分離出詞彙的單位，方便進行文本分析文字處理等自然語言處理任務。想使用結巴斷詞套件，需要先安裝並匯入該套件。以下有安裝指令和匯入代碼的示例。透過結巴斷詞可以將中文句子斷詞為詞彙的單位，方便後續的處理和分析。

開始上課

hidden

[Scrapy 爬蟲] 什麼是Scrapy以及為什麼要用Scrapy 爬取網頁?

開始使用Python撰寫網路爬蟲 ( Crawler )

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

第三方套件練習題 - 運用結巴斷詞