只要三分鐘,立即來學習如何使用開源工具來分析資料吧

[爬蟲實戰] 如何抓取心食譜的食譜資訊?

  • 星期一 20 四月 2015

今天要示範如何使用CSS Selector 的nth-of-type 抓取特定位置的食譜資訊。示範網頁於下列URL: http://goo.gl/TgEr3l

開始上課

[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?

  • 星期一 27 四月 2015

有的網頁伺服器,會透過檢查用戶代理(User Agent),以限制爬蟲存取頁面內容,此時我們只要在標頭上增加自身瀏覽器所使用的用戶代理(User Agent) 就可成功騙過對方伺服器,存取網頁內容!我們便能使用這技術成功抓取永慶房屋的房價資訊瞜!

開始上課

[爬蟲實戰] 如何爬取PTT的網頁?

  • 星期四 23 四月 2015

本次實戰將教您如何從PTT 的Food版(https://www.ptt.cc/bbs/Food/index.html)v抓取鄉民寶貴的言論,以利之後做美食的文字探勘分析!

開始上課

[爬蟲實戰] 如何剖析PTT的網頁?

  • 星期五 24 四月 2015

繼之前教學過該如何透過requests 的 get 取得PTT 網頁內容後,還必須將有意義的結構化資訊從回傳的原始碼之中抽取出來,本範例將介紹該如何使用 BeautifulSoup4 將發文者的文章標題、作者及發文時間剖析出來!

開始上課

[爬蟲實戰] 如何告訴PTT我已滿18並順利抓取八卦版的文章 ?

  • 星期一 08 六月 2015

雖然已滿18歲多年,但是不知道你實際年齡的PTT,還是要禮貌性的問你是否滿18後­,才能讓你閱讀八卦版裡面的內容,但人可以做點選,爬蟲呢?於是我們便可以先透過Ch­rome開發人員工具快速找到如何使用POST方法通過18歲驗證後,再接續之前的S­ession,就能順利存取八卦版的內容!

開始上課

[爬蟲實戰] 如何抓取圖表內的價格資訊?

  • 星期六 25 四月 2015

今天我們將示範如何使用Python 的正規表達法(re.search)抓取匯率網站圖表內的價格資訊!示範網址如下:http://goo.gl/rrq67Z

開始上課

[爬蟲實戰] 如何簡簡單單突破驗證碼 (Captcha) 限制?

  • 星期三 21 十月 2015

不一定要用OpenCV 做文字辨識才能抓取(Crawl) 網頁資料,有時只要巧妙延續之前做HTTP 請求的Session,並搭配Ipython Notebook 的圖片顯示功能,半自動化的辨識方式也能讓你輕輕鬆鬆抓取有驗證碼 (Captcha) 限制的網頁內容。

開始上課

[爬蟲實戰] 如何抓取591租屋網的資訊?

  • 星期三 29 四月 2015

今天要為各位講解當網頁是透過AJAX 換頁時該如何觀察及爬取換頁資訊,同場加映該如何透過Python 的json 套件讀取json 內容後,將資訊轉換為字典!

開始上課

[爬蟲實戰] 如何透過網路爬蟲將網路圖片存放至SQLite之中?

  • 星期一 04 五月 2015

除了能抓取網路上的文章內容,網路爬蟲也能將美美的圖片放置到資料庫之中歐!本次教學先將教各位透過設定stream =TRUE,以將網路圖片抓取下來,之後透過shutil 的copyfileobj 將圖片存放置檔案,接者於建立一個可以存放blob 資料的資料表之中,我們就可以將圖片存放置資料庫之中了!

開始上課

[爬蟲實戰] 如何抓取淘寶網雙十一購物狂歡節活動網頁中的商品列表?

  • 星期二 10 十一月 2015

又來到購物血拼的雙十一購物狂歡節了,雖然淘寶 (Taobao) 前一次的網頁改版,讓抓取資料開始變的棘手,但檔不了我們或取購物資訊的熱情!這次,就是要敎你如何用Python 網路爬蟲 (Python Crawler)將雙十一購物狂歡節活動網頁中的商品列表抓取下來。

開始上課

[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

  • 星期六 30 五月 2015

即使針對網站做層層保護,但只要爬取資料的觀念對了,破解任何網站只是時間的問題。如­同這知名財報網站(https://goo.gl/7Q2v8p),雖有檢查使用者是否是透過爬蟲爬取資料或有使用iframe 做頁面內嵌,都還是難逃被爬取的命運!

開始上課

[爬蟲實戰] 如何抓取淘寶網的商品名稱與價格 (2016年版)?

  • 星期一 10 十月 2016

為了迎接即將到來的雙十一節,更新一下以前淘寶的爬蟲,造福所有想要在當天掌握價格變化,殺進殺出的買賣家。舊的爬蟲只要爬取Document 下的連結,便可很容易獲取商品價格資訊。但淘寶網也在這些時日更新了,變成使用AJAX 的方式填入頁面內容。因此我們便可以從XHR 以及JS 下手,找尋進入點,再使用正規表達法(re),便可以快速的剖析出重要資訊,讓你爬取淘寶網,無往不利!

開始上課

[爬蟲實戰] 如何抓取MoneyDJ 文章中的人氣指數?

  • 星期三 15 四月 2015

本教學將教會各位如何使用Python 抓取 MoneyDJ 文章中http://www.moneydj.com/KMDJ/News/NewsViewer.aspx?a=a180a15b-9e4f-4575-b28f-927fcb5c63a3 的人氣指數。 如果想要安裝POSTMAN 的,請到以下網站下載 https://chrome.google.com/webstore/detail/postman-rest-client-packa/fhbjgbiflinjbdggehcddcbncdddomop

開始上課

[爬蟲實戰] 如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例

  • 星期二 21 七月 2015

如果要抓取司法院法學檢索系統的檢索內容,通常會碰到因為該查詢結果是鑲嵌在Iframe 中,以致爬蟲無法順利抓取內容。這時就可以使用Selenium 解決抓取的問題。但是該如何寫一個Selenium程式呢? 這時候可以靠Selenium IDE 的幫忙,自動記錄抓取步驟後,並將步驟轉換成Python Script,讓一切爬取動作變得不可能再簡單!

開始上課

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

  • 星期四 31 三月 2016

當碰到瀑布流網站(例如: EZTABLE),抓取資訊就會變得比較困難。但所幸可以使用Selenium 執行Javascript 來解決頁面捲動的問題,在本範例中,我們利用execute_script 執行 window.scrollTo(0, document.body.scrollHeight);,便可順利抓取瀑布流式網頁。

開始上課

[爬蟲實戰] 如何抓取集保戶股權分散表?

  • 星期三 05 八月 2015

雖然我們可以使用requests.post 取得需要POST請求的網頁內容,但我們也可巧妙的使用GET 模擬整個的POST 動作,只需要簡單的將POST 內容編碼後,串接在原網址的問號(?)後面,便可以順利取得裡面的內容。

開始上課

[爬蟲實戰] 如何抓取廉價航空的機票價格 – 以酷航為例?

  • 星期二 31 五月 2016

要能搶的到便宜的廉價航空機票最佳妙方,便是無時無刻關注最新的票價。但上班很忙、上課很累,所以我們還是讓我們的爬蟲代勞吧。因此我們就教大家如何使用爬蟲 (Python Crawler) 抓取酷航(http://www.flyscoot.com/)的最新票價資訊,讓你不再錯失便宜的機票。

開始上課

[爬蟲實戰] 如何撰寫Python爬蟲 抓取台灣銀行的牌告匯率?

  • 星期五 16 十二月 2016

想知道何時能買進最低價位的日圓嗎? 使用爬蟲通知你就對了!今天我們會使用Python Pandas,極快速的將台灣銀行的牌告匯率抓取下來,並使用Pandas 的語法將匯率資料整理成漂亮的表格。最後,我們便能將整理過的資料存成Excel。讓你出國血拼,硬是划算!

開始上課

[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

  • 星期日 30 八月 2015

抓取以Ajax 生成的頁面需要許多時間耐心觀察,才能找到抓取的切入點。但是使用Selenium 可以省去這個麻煩,他的自動點擊跟載入Ajax生成的頁面結果,讓人只消知道元素所在便可抓取資訊,再搭配BeautifulSoup4 強大的解析功能,用Python 抓取網頁,再簡單不過!

開始上課

[爬蟲實戰] 如何使用 PANDAS 快速爬取財報表格?

  • 星期三 30 十二月 2015

表格是網路上常見擺放數據的格式,除了可以使用BeautifulSoup4做數據的剖析外,最佳能將該資料格式爬取下來的工具可能莫過於PANDAS 莫屬,只要透過簡單的read_html,就可以把網路上看來複雜的表格資訊,快速轉變成DataFrame,納為股票分析的數據源之一!

開始上課

[爬蟲實戰] 如何使用Selenium 抓取驗證碼?

  • 星期二 24 十月 2017

用Python Requests 擷取驗證碼圖片不是件難事,但用selenium呢? 最簡單的做法就是先存下頁面快照(screenshot),再找尋圖片位置後,根據位置還有圖片大小,我們就可以從頁面中順利擷取出驗證碼,之後只要把驗證碼丟到我們的機器學習引擎辨認,以後就可以讓電腦自動幫我們訂票啦! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_95.ipynb

開始上課

[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

  • 星期四 10 十一月 2016

又來到1111 購物狂歡的季節,除了要瘋狂的Shopping 以外,千萬別忘了用Pyhton 網路爬蟲關注重要的特價訊息! 這次我們將用簡單的爬蟲,抓取天貓主會場的特價商品資料!先用python requests 抓取商品頁面,接者用BeautifulSoup4 抓取位在 .J_dynamic_data 的資料區塊,最後用簡簡單單的json.loads,便可以將資料讀成字典結構,讓妳敗家當下,同時顧好荷包! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_80.ipynb

開始上課

[爬蟲實戰] 如何破解高鐵驗證碼 (1) - 去除圖片噪音點?

  • 星期四 26 十月 2017

進到高鐵驗證碼破解系列!今天先從去除驗證碼上的噪音點開始。首先我們要安裝opencv,接者便可以使用opencv 中的 fastNlMeansDenoisingColored (https://docs.opencv.org/3.0-beta/modules/photo/doc/denoising.html) 去除圖片中的的噪音點,讓驗證碼圖變得更加乾淨! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_96.ipynb

開始上課

[爬蟲實戰] 如何破解高鐵驗證碼 (2) - 使用迴歸方法去除多餘弧線?

  • 星期三 01 十一月 2017

在去除掉腦人的噪音點後,如何該去除掉跟字一樣粗的弧線便是大問題。所幸,所有高鐵驗證碼的弧線都可以簡單的用一個二項式迴歸公式表示,因此我們便可以用sklearn 的linear model去適配出迴歸線後,便可以擦去這條煩人的弧線,提高圖片的可辨識率! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_97.ipynb

開始上課

[爬蟲實戰] 如何使用Pandas 函式將台灣銀行的牌告匯率存進資料庫中?

  • 星期四 22 十二月 2016

將抓取到的牌告匯率存進Excel之中是個保存資料的好方法,但使用者卻很難使用Excel管理新增的匯率資料。因此,比較好的做法是我們可以將資料庫當成儲存媒介,增加資料的可維護性。而使用Pandas,只需要在建立與資料庫(SQLite)的連線後,利用 to_sql 函式,即可瞬間將資料儲存進資料庫中。之後,只要再使用read_sql_query,便可將資料庫中的資料讀回變成 DataFrame。

開始上課

[爬蟲實戰] 如何突破蝦皮拍賣的重重限制以順利抓取拍賣商品資訊?

  • 星期五 07 四月 2017

又回到爬蟲實戰的課題了,這次要抓時下最夯的蝦皮拍賣(https://shopee.tw/)。蝦皮的抓取方法必須先找到放在XHR 的請求連結,接下來必須連同json 格式的參數一同透過POST做傳輸,方能送出正確的請求出去。但是如果今天發出請求後,如何都拿不到正確回應時,便要思考是不是有少帶哪些標頭(Headers)資訊,此時只要一一嘗試,總會找到一個正確的組合取得商品資訊。當然,有些標頭資訊是很難以取得的,此時再搭配Selenium 取得正確Cookie,任何難解的網站都可以迎刃而解!

開始上課

[爬蟲實戰] 如何使用Python Pandas 分析比特幣最佳買點?

  • 星期五 09 六月 2017

比特幣(Bitcoin)與以太幣(Ethereum)大漲的故事,似乎在投資界升起一股虛擬貨幣投資浪潮,但看著日益上漲的的比特幣,你是不是會擔心高點到了,始終買不下手,遲遲無法進場? 這時我們可以利用Python 網路爬蟲加上Python Pandas 的數據分析功能,協助你找出比特幣的趨勢線與移動平均線,讓你可以用傳統的均線理論,趨吉避凶,找出最適當的買點!當然,老話一句,投資有賺有賠,投資前請詳閱公開說明書 XD 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_90.ipynb 想了解更多該如何使用Python 做資料分析? 可以參考我跟天善智能合作的線上課程: https://edu.hellobi.com/course/159

開始上課

[爬蟲實戰] 如何設定工作排程自動將牌告匯率存進資料庫之中?

  • 星期五 23 十二月 2016

讓爬蟲每天定期執行爬取工作才能達成真正的工作自動化!而Windows 使用者可以善用工作排程器功能,我們便可以每天更新資料庫的匯率資料,以利之後進一步提醒我們現在是否是進場的好時機! 如果是MAC 或 Linux 使用者,可以參考Crontab 的用法歐 (http://linux.vbird.org/linux_basic/0430cron.php)

開始上課

[爬蟲實戰] 如何透過EMAIL即時獲取最新匯率資訊?

  • 星期一 26 十二月 2016

當已經能夠設定自動排程,每天定期抓取匯率資訊後,我們便想知道如果今天匯率觸擊我們心目中的價格,是否可以讓爬蟲透過EMAIL自動通知我們? 因此我們可以使用Python 的smtplib 結合 GMAIL,再將Data Frame 的資料以HTML 的方式寄出,我們便可以將整個匯率擷取過程全部用Python 爬蟲自動化,讓你不再錯失任何最佳買點!

開始上課

[爬蟲實戰] 如何使用Pandas 快速繪製日幣近期的匯率走勢?

  • 星期二 27 十二月 2016

談到資料分析,圖表一定是其中不可或缺的一環,而透過Pandas 的處理,你會發現原來畫圖不過就是兩三行指令的事。在這邊我們先善用pandas 的 read_csv 讀取 csv 資料,再用%pylab inline 讓圖表成現在Jupyter Notebook 之中,最後使用 plot函式繪製折線圖。畫圖,就是這麼簡單!

開始上課

[爬蟲實戰] 如何爬取圖片以建立慾望之牆?

  • 星期六 12 九月 2015

除了可以使用網路爬蟲(Web Crawler)抓取文字資料外,我們當然也可以利用爬蟲抓取圖片檔。因此想要把最喜­愛的雪芙女神照片蒐集成美女牆(慾望之牆?),我們只須找到圖片的位置後,結合使用s­treaming 的資料抓取, binary 寫檔跟shutil套件。我們便可以把Gamebase(http://goo.gl/oOwFme)上雪芙女神相關的照片變成我們的收藏品。Hi 雪芙,妳好嗎!

開始上課

[爬蟲實戰] 如何使用Selenium 自動將slides.com 的網頁投影片輸出成圖檔?

  • 星期日 01 一月 2017

爬蟲不一定是用來抓資料! 你也可以應用網路爬蟲把身邊一些瑣事自動化!這邊我們就教學該如何使用Selenium 撰寫一個爬蟲,自動將我用slides.com 所製作的HTML 網頁投影片轉換成圖檔,之後再將圖檔結合起來後匯出成pdf 檔,這樣就不用花錢升級會員,也可以將投影片匯出成pdf 了!

開始上課

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (1) ? – 安裝opencv3

  • 星期三 14 六月 2017

為了能夠使用更聰明的方法自動破解驗證碼,我們將運用機器學習方法中的類神經網路方法破解驗證碼。但在建立模型之前,我們先須將opencv3安裝於Anaconda Python 3.6 上,之後便可以利用Opencv3 切割出各驗證碼數字,方能建立分類模型,讓機器自動辨識驗證碼!

開始上課

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (2) ? – 切割出驗證碼中的各個數字

  • 星期三 21 六月 2017

繼我們可以於Python 3.5.2 安裝 OpenCV3 以後,我們便可以先透過 Python 爬蟲抓取經濟部─公司及分公司基本資料查詢(http://gcis.nat.gov.tw/pub/cmpy/cmpyInfoListAction.do)的驗證碼,之後便可以使用OpenCV 的 findContours 協助我們切割並儲存驗證碼中的各個數字!

開始上課

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (3) ? – 使用類神經網路自動辨認驗證碼

  • 星期五 14 七月 2017

將驗證碼切成一個個數字以後,我們接者就可以使用Python scikit-learn 提供的類神經網路(MLPClassfier),便可以讓電腦透過機器學習方法自動辨認圖片中的數字。如此一來,驗證碼再也沒有辦法阻擋我們的爬蟲大軍! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_93.ipynb 如要學習更多有關Python 與機器學習相關課程,可參考: https://edu.hellobi.com/course/159

開始上課

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (4) ? – 如何存取訓練模型

  • 星期五 18 八月 2017

當建立完訓練模型後,勢必要將模型保存成pickle 檔,系統後續便可以再讀取pickle 檔,便可持續利用該模型破解驗證碼,完成爬蟲以順利抓取公司及分公司基本資料! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_94.ipynb 如要學習更多有關Python 與機器學習相關課程,可參考: https://edu.hellobi.com/course/159

開始上課

[爬蟲實戰] 如何擷取網頁中的隱藏輸入以順利下載證交所的 csv 檔?

  • 星期日 20 九月 2015

爬蟲除了可以直接擷取網頁上的資訊外,也可以用來下載 csv 檔。但看到證交所將網頁內容以base64 的編碼放置在post 的參數中時,著實也被這匪夷所思的寫法嚇了一跳。所幸我們可以直接抓取網頁中的隱藏輸入,再將資料做base64編碼,這時我們便可順利的將csv 抓取下來了!

開始上課

[爬蟲實戰] 如何使用Python 爬蟲 (Python Crawler) 下載Youtube 影片

  • 星期六 26 九月 2015

這次介紹該如何寫一個Python 爬蟲 (Python Crawler) 把Youtube 影片下載下來。雖然是影片檔案,但抓取的方法其實跟一般的爬蟲並無二異,只要先觀察到實體影片的連結位址後,用正規表達法還有Query String 剖析函式,就可以把影片連結抓取出來,接者再用寫進binary 的方式,就可以把Girl's day Expectation 的影音串流(https://youtu.be/5yAU52qfYuU) 從Youtube下載下來啦!好吧,該來練一下吊帶舞了! Woo~ woo~ woo~

開始上課

[爬蟲實戰] 如何使用Python 模擬登入淘寶並成功抓取淘寶指數?

  • 星期一 17 八月 2015

要了解一個市場前,獲取市場相關數據勢必是第一優先!在中國已外可以參照Google Trend,但在中國就只能用淘寶指數。但困難點在於淘寶指數必須先登入後,才能抓取相關資訊。但天下沒有無法抓取的資料,一切都在於耐心觀察,藉由觀察登入的樣式與資料的位置後,再透過強大的Python抓取。依然,我們這次依然可以取得我們要的資料!

開始上課

[爬蟲實戰] 如何快速爬取天貓TMALL 雙11 特價商品資訊?

  • 星期四 09 十一月 2017

又到了雙11 購物狂歡的日子!話不多說,我們就從天貓TMALL 網路爬蟲當做瘋狂購物的前奏吧!我們首先就用了Python Requests 套件抓取天貓商城的商品資訊,接著搭配BeautifulSoup4 及 Pandas,讓資料爬取、資料整理到資料儲存能夠三位一體,一次完成! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_98.ipynb

開始上課
回到最上面