如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha) (Part 2)?

  • 大數學堂
  • May 17, 2015, 12:57 p.m.
如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha) (Part 2)?

本文介紹了破解驗證碼的方法。首先將驗證碼分解成獨立的字母圖片,然後使用OCR技術辨識圖像文字。作者嘗試了使用pytesser進行圖片辨識,但效果不佳,所以使用Word建立基準圖片,並使用Mean Square Error計算兩張圖片的相似度。結果表明,這種簡單的方法可以輕鬆破解驗證碼。並提到若想得到更新訊息,可以至Facebook粉絲團按讚。

開始上課

[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

  • 大數學堂
  • May 30, 2015, 9:40 a.m.
[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

縱使針對網站進行多層保護,但只要爬取資料的思路正確,破解任意網站只是時間問題。就像這個知名財經網站,儘管檢查使用者是否使用爬蟲或內嵌iframe,仍無法逃脫被爬取的命運。

開始上課

[財經爬蟲] 使用 Python 網路爬蟲輕鬆爬取集保戶股權分散表

  • 大數學堂
  • Nov. 3, 2024, 9:30 p.m.
[財經爬蟲] 使用 Python 網路爬蟲輕鬆爬取集保戶股權分散表

爬蟲的定律就是目標網站一直在變!本教學示範如何突破集保網站的更新限制,成功抓取股權分散表資料。🔍 透過結合 requests 的 Session 管理、Synchronizer Token 驗證機制,並運用 BeautifulSoup 解析 HTML 與 Pandas 處理表格數據,輕鬆完成資料擷取。💡 整個過程展示了如何應對網站的變化,透過 POST 請求技巧實現穩定的爬蟲功能。🚀

開始上課

[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

  • 大數學堂
  • April 12, 2021, 1:47 p.m.
[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

本文介紹了如何透過Python Flask建立一個橋接器,來自動化抓取實價登錄網的加密字串。通常我們會使用Node.js或Pyexecjs等方法來加載加密函數,但這牽涉到處理Node.js或修改JavaScript的問題。透過Python Flask橋接器,我們可以輕鬆地重新導向加密字串到實價登錄網,實現破解新版實價登錄網的目標。影片和程式碼也提供了詳細的操作示例。

開始上課