[財經爬蟲] 如何使用正規表達法快速抓取所有上市公司代號?

  • 大數學堂
  • 2020年10月13日 14:20

為了能夠抓取 GoodInfo 所有上市公司基本資訊,首先我們要先取得所有上市公司的代碼,因此我們就造訪了Tej 的網站找到了上市上櫃公司的代碼清單。為了節省剖析頁面的時間,我們直接使用了正規表達法,把所有的數字代碼抽取(\d+)出來,如此一來,我們便能輕鬆取得所有上市公司的代碼!

影片:https://largitdata.com/course/134/

程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_134.ipynb

Python網路爬蟲

正規表達法

TEJ