大數軟體 X 大數學堂 | 搜尋關鍵字: 範例

如何使用GET 抓取網頁內容?

大數學堂
2015年4月16日 15:15

這篇文章介紹了如何使用Python編寫三行程式碼來抓取淘寶網的網頁內容。並且提供了一個範例網頁連結供讀者參考。

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

大數學堂
2016年2月26日 15:27

scrapy是一個用於抓取網頁數據的框架，它通過pipelines來處理抓取到的數據。在pipelines中，我們可以清理數據驗證數據的有效性去除重複數據，並將數據存儲到數據庫中。在範例中，我們在pipelines.py中設置open_spider在開始時建立數據庫連接並創建表格，close_spider在結束時提交交易並關閉數據庫連接，process_item則將數據保存到sqlite數據庫中。最後，在settings.py中啟用pipelines的設置。

開始上課

[Selenium] 如何設定 Selenium 中的隱含等待(Implicit Wait)?

大數學堂
2018年10月30日 15:05

Selenium在抓取資料時，有時會遇到頁面尚未完全載入的問題，導致NoSuchElementException的錯誤。為了避免此問題，可以使用implicit_wait功能，讓程式在執行後續動作之前等待頁面完全載入。附上程式碼範例的連結。

開始上課

第三方套件練習題 - 運用結巴斷詞

大數學堂
2022年5月23日 00:00

結巴斷詞（jieba）是一個常用的中文中文字斷詞的Python套件。該套件可以將中文文本進行分割，分離出詞彙的單位，方便進行文本分析文字處理等自然語言處理任務。想使用結巴斷詞套件，需要先安裝並匯入該套件。以下有安裝指令和匯入代碼的示例。透過結巴斷詞可以將中文句子斷詞為詞彙的單位，方便後續的處理和分析。

開始上課

[AI人工智慧] 使用 Ollama 調用本地語言模型生成文章並且辨識圖片內容

大數學堂
2024年3月24日 16:00

Ollama是一款能在個人電腦上輕鬆部署和使用語言模型的工具，透過Ollama，我們便能在終端機使用：1. 聯發科的 Breeze 7b 模型、2. 利用 Python 接合 Ollama 的端口，3. 甚至使用 Llava 模型智慧地重命名文件中的圖片。透過本地端部署的大型語言模型，便能在保障隱私與安全的前提下，有效能夠提高工作效率。

開始上課

[AI人工智慧] EasyOCR v.s. PaddleOCR 誰才是圖片轉文字(OCR)的最佳神器?!

大數學堂
2023年10月1日 17:30

光學字元辨識(OCR)能夠將紙上文字數位化，使得資訊管理變得更加方便，例如：將書籍掃描成電子版、識別及翻譯外國的路標或菜單，以及將手寫筆記快速轉化成文字檔。本文介紹如何透過 Python使用EasyOCR和PaddleOCR兩種開源工具，可以簡單地識別圖片中的文字。同時，影片中亦比較了兩個套件與不同類型文字的識別準確率。

開始上課

[爬蟲實戰] 如何剖析PTT的網頁?

大數學堂
2015年4月24日 13:49

本篇文章介紹了如何使用Python的requests和BeautifulSoup4函式庫來獲取並解析PTT網站的文章內容。透過requests的get方法可以將網頁內容取回，再使用BeautifulSoup4來解析原始碼，提取出有意義的結構化資訊，例如文章標題作者和發文時間等。這對於進一步分析和處理PTT文章內容非常有用。

開始上課

[ChatGPT] 運用微調之力！如何將 ChatGPT 訓練成公司的客服助理

大數學堂
2023年8月27日 21:30

解密微調：定制專屬於你的大型語言模型！🚀 想知道如何提升ChatGPT模型性能、節省成本，還能獲得更快的回應速度嗎？透過微調(Fine-Tuning)，我們為你展現客製化模型的強大之處，讓你掌握產生高品質回應的關鍵技術！不要錯過這場關於AI革命的探索之旅，立即點擊觀看！

開始上課

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

大數學堂
2016年3月31日 16:24

瀑布流網站如EZTABLE讓資訊抓取變得困難，但可使用Selenium執行Javascript解決頁面捲動問題。透過execute_script函數執行window.scrollTo(0 document.body.scrollHeight)，可以成功抓取瀑布流式網頁。

開始上課

hidden