[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

  • 大數學堂
  • May 30, 2015, 9:40 a.m.
[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

縱使針對網站進行多層保護,但只要爬取資料的思路正確,破解任意網站只是時間問題。就像這個知名財經網站,儘管檢查使用者是否使用爬蟲或內嵌iframe,仍無法逃脫被爬取的命運。

開始上課

如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha) (Part 2)?

  • 大數學堂
  • May 17, 2015, 12:57 p.m.
如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha) (Part 2)?

本文介紹了破解驗證碼的方法。首先將驗證碼分解成獨立的字母圖片,然後使用OCR技術辨識圖像文字。作者嘗試了使用pytesser進行圖片辨識,但效果不佳,所以使用Word建立基準圖片,並使用Mean Square Error計算兩張圖片的相似度。結果表明,這種簡單的方法可以輕鬆破解驗證碼。並提到若想得到更新訊息,可以至Facebook粉絲團按讚。

開始上課