清單 (List) 練習題
本章節指出了練習題的重要性,以加強資料科學家對於Python中清單的熟練度。清單概念在資料科學中佔有重要地位,因此通過這些練習題能夠提升對清單的使用能力。
開始上課這篇文章介紹了如何在Scrapy爬蟲中使用yield 產生器來抓取下一層的內容頁面,並使用BeautifulSoup進行剖析,獲取內容頁的標題資訊。
開始上課Scrapy的CrawlSpider類別可實現多網頁爬取。只需讓爬蟲繼承CrawlSpider類別,並在rules清單中增加抓取規則,透過LinkExtractor中的分頁抓取規則,即可輕鬆爬取符合條件的蘋果新聞資料。
開始上課1111購物狂歡節即將到來,如果你還不知道該買什麼,可以嘗試使用數據來做決策。本課程將使用Python網路爬蟲抓取天貓的商品頁面,再用json和pandas整理商品資訊,最後使用pandas的排序功能,幫助你找出折扣最多的商品。程式碼可參考:https://github.com/ywchiu/largitdata/blob/master/code/Course_108.ipynb
開始上課這篇文章介紹如何使用Python網路爬蟲抓取GoodInfo的所有上市公司基本資訊。作者首先透過Tej的網站找到上市上櫃公司的代碼清單,接著使用正規表達法快速抽取出所有的數字代碼,以獲得所有上市公司的代碼。文章中還提供了影片和程式碼的連結。
開始上課這篇文章介紹了利用Python網路爬蟲抓取一些會鎖IP的網站時,需要使用免費的Proxy來規避被封鎖的風險。文章提到了抓取Free Proxy List上的頁面,利用正規表達式蒐集IP清單,再利用ipify進行測試,重複操作便能建立自己的Python網路爬蟲跳板清單。文章中還提供了相關影片和程式碼連結。
開始上課