如何使用GET 抓取網頁內容?

  • 大數學堂
  • 2015年4月16日 15:15
如何使用GET 抓取網頁內容?

這篇文章介紹了如何使用Python編寫三行程式碼來抓取淘寶網的網頁內容。並且提供了一個範例網頁連結供讀者參考。

開始上課

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

  • 大數學堂
  • 2016年2月26日 15:27
[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

scrapy是一個用於抓取網頁數據的框架,它通過pipelines來處理抓取到的數據。在pipelines中,我們可以清理數據 驗證數據的有效性 去除重複數據,並將數據存儲到數據庫中。在範例中,我們在pipelines.py中設置open_spider在開始時建立數據庫連接並創建表格,close_spider在結束時提交交易並關閉數據庫連接,process_item則將數據保存到sqlite數據庫中。最後,在settings.py中啟用pipelines的設置。

開始上課

第三方套件練習題 - 運用結巴斷詞

  • 大數學堂
  • 2022年5月23日 00:00
第三方套件練習題 - 運用結巴斷詞

結巴斷詞(jieba)是一個常用的中文中文字斷詞的Python套件。該套件可以將中文文本進行分割,分離出詞彙的單位,方便進行文本分析 文字處理等自然語言處理任務。想使用結巴斷詞套件,需要先安裝並匯入該套件。以下有安裝指令和匯入代碼的示例。透過結巴斷詞可以將中文句子斷詞為詞彙的單位,方便後續的處理和分析。

開始上課

[AI人工智慧] 使用 Ollama 調用本地語言模型生成文章並且辨識圖片內容

  • 大數學堂
  • 2024年3月24日 16:00
[AI人工智慧] 使用 Ollama 調用本地語言模型生成文章並且辨識圖片內容

Ollama是一款能在個人電腦上輕鬆部署和使用語言模型的工具,透過Ollama,我們便能在終端機使用:1. 聯發科的 Breeze 7b 模型、2. 利用 Python 接合 Ollama 的端口,3. 甚至使用 Llava 模型智慧地重命名文件中的圖片。透過本地端部署的大型語言模型,便能在保障隱私與安全的前提下,有效能夠提高工作效率。

開始上課

[AI人工智慧] EasyOCR v.s. PaddleOCR 誰才是圖片轉文字(OCR)的最佳神器?!

  • 大數學堂
  • 2023年10月1日 17:30
[AI人工智慧] EasyOCR v.s. PaddleOCR 誰才是圖片轉文字(OCR)的最佳神器?!

光學字元辨識(OCR)能夠將紙上文字數位化,使得資訊管理變得更加方便,例如:將書籍掃描成電子版、識別及翻譯外國的路標或菜單,以及將手寫筆記快速轉化成文字檔。本文介紹如何透過 Python使用EasyOCR和PaddleOCR兩種開源工具,可以簡單地識別圖片中的文字。同時,影片中亦比較了兩個套件與不同類型文字的識別準確率。

開始上課

[爬蟲實戰] 如何剖析PTT的網頁?

  • 大數學堂
  • 2015年4月24日 13:49
[爬蟲實戰] 如何剖析PTT的網頁?

本篇文章介紹了如何使用Python的requests和BeautifulSoup4函式庫來獲取並解析PTT網站的文章內容。透過requests的get方法可以將網頁內容取回,再使用BeautifulSoup4來解析原始碼,提取出有意義的結構化資訊,例如文章標題 作者和發文時間等。這對於進一步分析和處理PTT文章內容非常有用。

開始上課

[ChatGPT] 運用微調之力!如何將 ChatGPT 訓練成公司的客服助理

  • 大數學堂
  • 2023年8月27日 21:30
[ChatGPT] 運用微調之力!如何將 ChatGPT 訓練成公司的客服助理

解密微調:定制專屬於你的大型語言模型!🚀 想知道如何提升ChatGPT模型性能、節省成本,還能獲得更快的回應速度嗎?透過微調(Fine-Tuning),我們為你展現客製化模型的強大之處,讓你掌握產生高品質回應的關鍵技術!不要錯過這場關於AI革命的探索之旅,立即點擊觀看!

開始上課