什麼是網路爬蟲?

  • 大數學堂
  • 2015年4月10日 05:49
什麼是網路爬蟲?

爬蟲是一種利用HTTP Request 抓取網路資料的技術,可以用來建立比價網站或進行資料分析。當你需要資料但又無法與他人交換或合作時,爬蟲技術可以將他人的資料庫變成自己的資料庫。這種技術擁有很大的應用價值。

開始上課

錯誤與例外

  • 大數學堂
  • 2022年5月23日 00:00
錯誤與例外

錯誤與例外處理在Python中是一個重要的主題,它允許程式在遇到錯誤時能夠正常運行並提供相應的反饋。錯誤通常分為語法錯誤和執行時錯誤。語法錯誤是在撰寫程式時發生的錯誤,而執行時錯誤是在程式執行過程中發生的錯誤。Python提供了try-except語句來處理這些錯誤,我們可以在try區塊中嘗試執行可能出錯的程式碼,在except區塊中處理錯誤。此外,finally語句可以定義一段無論是否出錯都會執行的代碼,通常用於清理工作或釋放資源。

開始上課

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

  • 大數學堂
  • 2016年2月26日 15:27
[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

scrapy是一個用於抓取網頁數據的框架,它通過pipelines來處理抓取到的數據。在pipelines中,我們可以清理數據 驗證數據的有效性 去除重複數據,並將數據存儲到數據庫中。在範例中,我們在pipelines.py中設置open_spider在開始時建立數據庫連接並創建表格,close_spider在結束時提交交易並關閉數據庫連接,process_item則將數據保存到sqlite數據庫中。最後,在settings.py中啟用pipelines的設置。

開始上課

如何使用RJDBC 連結到MySQL?

  • 大數學堂
  • 2015年7月6日 16:23
如何使用RJDBC 連結到MySQL?

本文介紹了在使用程式語言連結到資料庫時可使用的兩種方法:ODBC和JDBC。同樣地,R語言也提供了RODBC和RJDBC兩種方法供使用者選擇。本文將教您如何下載JAR檔和設定連線資訊,使得R可以通過RJDBC連結到資料庫,並獲取資料庫中存放的三大法人買賣資訊。

開始上課

[交易系統] 如何操作SQLite ?

  • 大數學堂
  • 2015年5月3日 16:10
[交易系統] 如何操作SQLite ?

本文介紹了如何使用Firefox的SQLite Manager擴充插件來操作SQLite數據庫,以儲存爬取的三大法人統計資訊。相較於安裝和配置MySQL PostgreSQL等數據庫,SQLite Manager的簡單易用讓資料儲存變得輕鬆方便。SQLite Manager提供了一個直觀的用戶界面,讓您可以輕鬆創建 編輯和查詢數據庫表格,並支持導入和導出數據等功能。讀者可以通過本文學習如何使用SQLite Manager進行數據庫操作,輕鬆管理爬取資料。

開始上課

[交易系統] 如何清理爬蟲所抓取下來的金額資訊?

  • 大數學堂
  • 2015年5月5日 15:29
[交易系統] 如何清理爬蟲所抓取下來的金額資訊?

這篇文章主要介紹了如何處理金額資料中的千進位逗號符號。作者提到可以使用split和join的技巧來輕鬆地進行金額轉換。無論何時需要將金額從不帶有千進位逗號的字串轉換回包含千進位逗號的格式,這個技巧都非常有用。這個方法可以讓我們方便地處理金額資料並將其存儲到資料庫中。

開始上課

[爬蟲實戰] 如何設定工作排程自動將牌告匯率存進資料庫之中?

  • 大數學堂
  • 2016年12月23日 16:17
[爬蟲實戰] 如何設定工作排程自動將牌告匯率存進資料庫之中?

本文介紹了如何使用爬蟲定期執行爬取工作,以實現工作自動化。對於Windows使用者,可以利用工作排程器功能進行每天的資料庫更新,特別是匯率資料,以便後續進行投資時能提供準確的資訊。對於MAC或Linux使用者,可以參考Crontab的用法來設定定時執行爬蟲任務。

開始上課