[爬蟲實戰] 如何使用Pandas快速分析上市櫃公司員工的薪資水平?
證交所公佈了上市與上櫃公司非擔任主管職務的全時員工薪資資訊,介紹了使用Python的requests和pandas來爬取和分析這些公司的薪資水平。以往只提供薪資平均值,而今年則加入了中位數的資訊,以更客觀地反映薪資水平。影片和程式碼連結也提供在文章中。
開始上課證交所公佈了上市與上櫃公司非擔任主管職務的全時員工薪資資訊,介紹了使用Python的requests和pandas來爬取和分析這些公司的薪資水平。以往只提供薪資平均值,而今年則加入了中位數的資訊,以更客觀地反映薪資水平。影片和程式碼連結也提供在文章中。
開始上課最近證交所的頁面更新,爬蟲面臨網頁伺服器的rate limiting造成無法連上證交所的問題。為解決此問題,我們可以讓爬蟲在抓取資料之間隔幾秒讓其小睡,避免IP被封鎖。這樣,爬蟲就能夠順利抓取所需要的資料。有關程式碼可以參考Github連結。
開始上課本文章提到了爬蟲不僅可以擷取網頁的資訊,還可以下載csv檔案。作者在探索過程中發現,證交所使用了base64編碼將網頁內容放在post參數中,讓人感到十分困惑。然而,通過直接抓取網頁中的隱藏輸入欄位,再將資料進行base64編碼,作者成功地下載了csv檔案。
開始上課這篇文章介紹了利用Python網路爬蟲抓取一些會鎖IP的網站時,需要使用免費的Proxy來規避被封鎖的風險。文章提到了抓取Free Proxy List上的頁面,利用正規表達式蒐集IP清單,再利用ipify進行測試,重複操作便能建立自己的Python網路爬蟲跳板清單。文章中還提供了相關影片和程式碼連結。
開始上課