只要三分鐘,立即來學習如何使用開源工具來分析資料吧

[資料產品實作] 如何取得臉書使用頻率最高的文字 (Part 1)?

  • 星期三 25 十一月 2015

最近vonvon 有推出一篇人氣相當高的臉書文字分析服務(http://tw.vonvon.me/quiz/318),引起眾多網民的使用與討論。但在學習過如何使用網路爬蟲(Python Crawler)以後,我們便可以實作出一模一樣的資料產品,因此在此教學中,我們先教各位該如何透過網路爬蟲(Python Crawler) 抓取各位2015年於Facebook 所留下的所有訊息內容。

開始上課

[Scrapy 爬蟲] 什麼是Scrapy以及為什麼要用Scrapy 爬取網頁?

  • 星期日 31 一月 2016

透過 Scrapy 網路爬蟲框架,我們就可以在不用重造輪子的情況下撰寫較為完整且具非同步化(asynchronous)請求能力的網路爬蟲。 安裝步驟: 1. 下載並安裝 Anaconda Python 2. 在Anaconda Command Prompt 鍵入 pip install scrapy 3. 開啟爬蟲專案: scrapy startproject apple

開始上課

[資料產品實作] 如何取得臉書使用頻率最高的文字 (Part 2)?

  • 星期三 25 十一月 2015

繼取得Facebook 2015 年所有的貼文內容後,接下來我們可以將貼文進行斷詞,並取得詞頻。對於英文資料而言,斷詞只須根據空白斷句即可,但中文便必須仰賴好的分詞工具,這邊大家可以學習使用Python 套件 jieba ,便可以順利將貼文分詞,於排序過後,便可以取得Facebook 貼文中最常使用的詞頻。

開始上課

[實價登錄分析] 如何使用Python Pandas 讀取實價登錄網的資料?

  • 星期五 09 九月 2016

實價登錄資料反映了現在市場房屋的交易行情,善用這個資料,便可以分析目前的房市景氣。當然,做資料分析前,我們會需要將資料讀進Python 做分析,因此在這個教學中,我們將先教各位如何使用Python Pandas 讀取實價登錄資料,並且教大家該如何透過Linux 工具 iconv 做編碼的轉換與清理。

開始上課

[Open Jarvis] 如何讓Python 自動將語音轉譯成文字?

  • 星期一 13 二月 2017

終於開始我們的Open Jarvis Project 了,首先第一步,便是讓電腦自動能將我們所說的話轉譯成文字。語音辨識當然很難,但所幸透過Python 的 SpeechRecognition 套件,我們便可以順利使用各大公司提供的語音辨識API,幫我們把語音轉譯成文字瞜!

開始上課

Buzz Alert - Social Media Based Disaster Alert Map

  • 星期二 13 十月 2015

An early-warning system can save many people's lives from natural disasters. By mining the real-time message on the social network and location information of emergency center from open data, we make real-time disaster warning possible. Do you know how to protect yourself from an earthquake or flood? Many people die in accidents and nature disasters for they simply do not how to protect themselves at the time being. Therefore, if the government can build up an early-warning system, many people can be saved from the devastating disasters. Thanks to the social network, people nowadays can spread out real-time information more easily than ever before. Thus, we can alert our government if there is any occurring disaster within the country. Furthermore, we can integrate the information of open data, so that people can go to the nearest emergency center or shelter to seek help. For above reasons, we build Buzz Alert, a social-media based alert map. The system automatically collects opinion data from the social network and mark the disaster information as a luminous spot on the map. Thus, the government would immediately know where and when the disaster is happening. Furthermore, we collect the location of the official emergency center, hospital, fire agency from open data, and mark the spot on the map. Hence, people who have the urgent need can go to the nearest emergency center nearby to seek help. Our utmost wishes are that government around the globe can use Buzz Alert to save lives from any disaster in the future. Find more detail at http://www.largitdata.com/service/buzzalert

開始上課

如何在三分鐘內於Ubuntu 14.04中啟用Spark-shell?

  • 星期六 30 五月 2015

於本地端啟用Spark,其實非常簡單!只需要透過簡單的apt-get 指令,快速安裝Java, Scala 等語言後,便可透過預先編譯(pre-build)過的spark 版本開始進入spark的世界。

開始上課

為什麼要使用版本控制系統?

  • 星期日 12 四月 2015

假使你的客戶一直修改需求,你怎麼管理每個版本? 假使多人要共同開發一個網站吧,有人負責A、B、C,我負責開發B,C,D;如果同時間必須更改到同一個檔案? 該怎麼合併檔案? 這時我們就需要版本控制管理系統解決以上的問題! 在接下來的章節,大數學堂將教各位如何使用git 做版本控制

開始上課

什麼是網路爬蟲?

  • 星期五 10 四月 2015

爬蟲? 這不是在看動物星球,而是一種利用HTTP Request 抓取網路資料的技術。想想看如果你要做個比價網站或資料分析,但苦無資料的時候,又來不及跟別人談資料交換或合作時,就可以利用這種技術將別人的資料庫變成自己的資料庫,聽起來很迷人嗎?趕快來了解一下。

開始上課

如何更改 AWS EC2的防火牆設定 ?

  • 星期一 04 五月 2015

如果已經在AWS EC2安裝好服務,卻無法透過瀏覽器連線到服務之中,代表你尚未變更好對應的防火牆設­定,下面教學將教您如何更改EC2 的Security Group

開始上課

超快速! 如何五分鐘啟用Amazon EC2雲端主機

  • 星期三 13 五月 2015

今天要教各位如何在五分鐘內於AWS (https://aws.amazon.com)上快速啟用一個免費的EC2雲端主機

開始上課

[Scrapy 爬蟲] 如何撰寫第一支Scrapy 爬蟲以抓取蘋果即時新聞?

  • 星期一 01 二月 2016

繼說明為何要使用Scrapy 這爬蟲框架後,我們便可以開始寫作第一支Scrapy 爬蟲。 1. 於spiders 目錄下開一個Python檔案 (e.g. crawl.py) 2. 於crawl.py 中定義 a. class name b. name c. start_urls d. parse 函數 3. 於scrapy.cfg 處執行 scrapy crawl apple

開始上課

如何使用OpenCV 建立山寨版的 how-old.net ?

  • 星期六 02 五月 2015

想必大家最近都玩過最夯的 http://how-old.net/ ,系統判別的準不準倒是其次,但應該對該系統所呈現出來的臉部、年齡、性別辨識技術一定感到相當驚奇。但其實完成臉部偵測的技術並不難,這次就教各位該如何透過OpenCV,讓你/妳能用短短的幾行程式碼,做出個山寨版的how-old.net

開始上課

[交易系統] 如何抓取三大法人買賣金額統計表(Part 1)?

  • 星期日 26 四月 2015

開始來點有趣的,我們將教學該如何透過Python 一步步建立屬於自己的交易系統!但要進行交易分析前,還是需要點資料,我們先從三大法人買賣金額統計表下手。本教學將教您如何使用Python 的Requests 抓取三大法人買賣金額統計表。

開始上課

如何安裝 R (3.2.0 for Windows)

  • 星期一 11 五月 2015

開始R系列摟~ R 是資料分不可或缺的利器,也是資料分析的好夥伴,在這章節中,我們將介紹如何在Windows 上安裝 R 3.2.0。

開始上課

如何使用Jupyter 操作 Spark?

  • 星期日 31 五月 2015

除了透過IntelliJ IDEA 建立Spark 開發環境外,如果可以像Python 一樣可以透過Jupyter 記錄所有開發內容,那該會有多方便。所幸真的有大神建立ISpark 這樣的解決方案,本教學將教您怎麼一步步的在Ubuntu 14.04 中連結Jupyter 跟 Spark,讓您建立一個簡易好用的開發環境!

開始上課

如何在Windows下安裝git?

  • 星期日 12 四月 2015

接下來我們介紹,該如何下載及安裝git 至Windows 之中。 首先先到http://git-scm.com/ 點選 Downloads for Windows, 再依安裝選單步驟進行安裝。

開始上課

[Scrapy 爬蟲] 如何從蘋果新聞的清單聯結抓取下一層的內容頁面?

  • 星期二 23 二月 2016

取得第一頁的清單聯結後,我們可以在scrapy 爬蟲中使用yield 產生器(generator) 產生一個scrapy 請求以抓取下一層的內容頁面,並用BeautifulSoup 剖析內容後,得到內容頁的標題資訊。

開始上課

[資料產品實作] 如何取得臉書使用頻率最高的文字 (Part 3)?

  • 星期四 26 十一月 2015

當然只有表列出在臉書最常使用的文字頻率是還不夠的,最好能夠像vonvon 一樣,用文字雲呈現才能一目了然最常使用的文字。不過,該怎麼繪製文字雲呢?當然你可以使用d3.js,但我們其實可以使用更簡單的Tableau Public,讓你第一次畫文字雲就上手!

開始上課

[實價登錄分析] 如何使用Python Pandas 整併歷年實價登錄資訊?

  • 星期三 14 九月 2016

只有整理一季的資料是沒有辦法做全面的房價分析的,因此我們先把歷年的實價登錄資訊解壓縮後放在各目錄夾,將各季資料讀到Pandas 的 Data Frame 之中後,便可以使用Pandas 的 Concat 指令合併所有的Data Frame,之後我們便可以選擇是否用describe 指令取得敘述性統計還是使用to_excel 功能將資料寫進excel 檔之中。

開始上課

如何在Windows上 安裝 RStudio

  • 星期一 11 五月 2015

當安裝完成R以後,我們便可以透過RGui 來操作R。但畢竟RGui 的功能有限,導致我們在開發上沒有那麼靈活,因此這時候我們便可以使用RStudio,讓開發及維護R能無往不利。

開始上課

如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha) (Part 1)?

  • 星期六 16 五月 2015

本次教學將教各位如何透過OpenCv,以影像辨識的手法將台灣證券交易所買賣日報表五碼驗證碼獨立分解成五個單一文字,以利之後透過機器學習演算法(Machine Learning)辨識圖像文字(OCR)。

開始上課

如何在五分鐘內透過AWS的EMR服務快速開啟一個Hadoop叢集?

  • 星期三 20 五月 2015

想要玩巨量資料,卻不會架設Hadoop?或苦無資源快速建立5台以上的Hadoop 叢集?善用Amazon 提供的 EMR (Elastic MapReduce) 服務(還要準備一張能夠付費的信用卡),便可以讓你在五分鐘內就可以架設20台的Hadoop 叢集,讓巨量資料分析變得不可能再簡單! 當然,如果你有興趣了解更多Hadoop 與其Ecosystem 的運作跟實務的話,也歡迎參考我跟Tibame 共同開設的線上課程: http://goo.gl/XlS82W

開始上課

[Scrapy 爬蟲] 如何使用items.py整理Scrapy 爬取下來的資料並輸出成JSON檔?

  • 星期三 24 二月 2016

使用Scrapy 所提供的items.py可以將Scrapy 爬蟲爬取到的資料結構化。之後便可以在爬蟲主程式建立物件,存放爬取下來的資料。最後可以透過scrapy crawl apple -o apple.json -t json 指令,將資料整理成JSON 檔,以利之後操作。

開始上課

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 1)?

  • 星期一 15 六月 2015

用Spark 進行機器學習? 其實非常簡單,只要將資料整理出特徵(Feature) 跟標籤 (Label),就可以透過MLlib 所提供的眾多演算法快速分類資料。這時電腦就不只會選土豆,更可以預測電信業客戶是否流失!但要分類之前,我們得先把資料整理好!讓我們來看看該怎麼整理出分類演算法可以吃的資料格式吧!

開始上課

在Windows中如何使用金鑰登入Amazon EC2 雲端主機

  • 星期四 14 五月 2015

在申請好雲端主機後,我們必須透過pem 金鑰登入到雲端主機中。但是在Windows 中,如果我們要使用PuTTY 或 PieTTY 登入時,就必須先透過PuTTYgen 將pem 轉成ppk 以後,方能用ppk 登入到雲端主機中。

開始上課

如何使用R 的 Quantmod 套件快速蒐集股價資訊並計算技術指標?

  • 星期日 24 五月 2015

除了自己寫程式蒐集股價資訊並產生技術指標外,使用既有的套件可能是更簡單的方法。在R 裡面,你便可以透過安裝 Quantmod 來快速蒐集各股票的資訊,以不可能再簡單的方式計算技術指標。

開始上課

如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha) (Part 2)?

  • 星期日 17 五月 2015

繼上一次我們已經可以將驗證碼分解成獨立的字母圖片後,接下來便可以透過OCR 技術辨識圖像文字,在這邊我們將圖片變更成同一大小後(resize),我們先試著使用pytesser 做圖片辨識,但是發現效果不佳,因此我們土炮式的用Word 建立基準圖片後,使用簡單的Mean Square Error 計算兩張圖片的相似度,果然簡單的最好,輕輕鬆鬆破解惱人的驗證碼。 想收到更新訊息,請至Facebook粉絲團按讚: https://www.facebook.com/largitdata

開始上課

如何安裝Spark-Notebook 在Ubuntu?

  • 星期二 02 六月 2015

繼上次講述如何使用ispark 整合 Jupyter 和 Spark 後,本次將介紹一個更優秀的專案spark-notebook,除了可以使用記事本(notebook)的形式存取Spark 外,更可以透過WISP,使用簡單幾個指令就可以用d3.js 產生svg 圖檔,除做資料分析之餘,更可產生可互動的視覺化的圖表!

開始上課

[交易系統] 如何抓取三大法人買賣金額統計表(Part 2)?

  • 星期二 28 四月 2015

繼上次教學過該如何使用Python 的 Requests 取得三大法人買賣金額統計表內容後,這次教學該如何透過 BeautifulSoup 4,使用css selector 抓取三大法人買賣的資訊!

開始上課

如何在Windows下開始使用git?

  • 星期一 13 四月 2015

本篇將教學如何使用git 可以透過三種方法操作git * git bash * git gui * 命令提示字元

開始上課

開始使用Python撰寫網路爬蟲 ( Crawler )

  • 星期三 15 四月 2015

開始使用Python 撰寫網路爬蟲( Crawler ),首先必須安裝用Python 的套件管理工具pip 安裝兩個套件: 1. Requests 網路資源(URLs)擷取套件 2. BeautifulSoup4 HTML剖析套件

開始上課

如何安裝 Jupyter (Ipython Notebook)

  • 星期四 07 五月 2015

今天要跟各位介紹個好用的工具"Jupyter"!Jupyter 提供一個網頁介面,讓使用者可以透過瀏覽器連線進網頁服務,並在上面進行Julia, Python 或 R 程式的開發與維護!功能相當強大,不可錯過!之後我們會陸續介紹到它有多麼好用!

開始上課

Jupyter 操作入門 (1)

  • 星期日 10 五月 2015

Jupyter 可以說是開發、維護Python 程式的好幫手,今天介紹該如何在Jupyter 中引入pylab 進行繪圖、使用類linux 指令觀看當前目錄的檔案、執行python 程式,以及如何使用MathJax 繪製數學方程式。

開始上課

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

  • 星期五 26 二月 2016

當使用scrapy 抓取資料後,會將每個item 傳遞給 pipelines。在pipeline 中可以:1. 清理網頁資料 2. 驗證抓取資料 3. 去重覆化 4. 將資料儲存至資料庫。 在範例中,我們在pipelines.py: 1. 設置 open_spider: 開啟資料庫連線,建立表格 2. 設置close_spider: 認可交易(commit),關閉資料庫連線 3. 設置process_item: 將資料儲存至sqlite 中 。最後在 settings.py 啟用pipelines 的設定。

開始上課

如何使用GET 抓取網頁內容?

  • 星期四 16 四月 2015

為大家示範Python如何使用簡單三行程式碼就可以抓取淘寶網的網頁內容 範例網頁: http://tw.taobao.com/product/%E5%A4%9A%E6%A8%A3%E5%B1%8B-%E8%91%AB%E8%98%86-%E4%BF%9D%E6%BA%AB%E6%9D%AF.htm

開始上課

[交易系統] 如何產生不同天期的交易資訊?

  • 星期四 30 四月 2015

繼上次談過該如何存取及剖析三大法人買賣金額以後,我們該開始動手把所有的資料爬取下來,但是首先要面對的是不同日期的問題,因此我們這次教學該如何透過timedelta產生不同日期的資訊

開始上課

如何使用POST 抓取網頁內容?

  • 星期日 19 四月 2015

POST 是另一種HTTP 請求方法,讓你可以將請求資訊包裝起來後,再送至伺服器以取得回應資訊,在Python 中使用POST 的方法一樣簡單,只需將請求資訊以字典做包裝即可,本單元將敎您如何使用POST 方法抓取高鐵網頁內容。

開始上課

[交易系統] 如何抓取多天期的三大法人交易資訊?

  • 星期六 02 五月 2015

在瞭解如何產生不同天期的資訊後,我們便可以利用這個資訊抓取多天期的三大法人交易資訊。我們只要簡單的利用def將重複地抓取動作包裝在Python 的函式中,再加上簡單的迴圈,就可以成功完成多天期的抓取!

開始上課

如何使用Python 套件: BeautifulSoup4 剖析網頁內容?

  • 星期五 17 四月 2015

終於進到該如何使用BeautifulSoup4 剖析網頁內容的部分了!簡簡單單幾個Select 動作,可以快速幫您抓取非結構化資料中有價值的部分,有了資料,想當然爾,分析只是一步之遙!

開始上課

[交易系統] 如何操作SQLite ?

  • 星期日 03 五月 2015

繼上次講完該如何爬取多天三大法人統計資訊後,我們現在需要一個地方儲存這些資料。與其考量安裝、架設MySQL, PostgreSQL 等資料庫,不如來學習如何Firefox 的SQLite Manager 操作 SQLite,他簡單易用的操作方式,讓資料存放不再您的成為困擾。

開始上課

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 2)?

  • 星期四 18 六月 2015

整理完資料後,就可以使用MLlib 提供的決策樹分類資料,全部只要打入神奇的 DecisionTree.train ,就可以建立分類模型,精準預測客戶是否流失!除了預測以外,還可以透由不同的套件計算準確度與AUC,用Spark 分析巨量資料,就是這麼簡單快速!

開始上課

如何使用RSelenium 抓取 PTT Food版的內容?

  • 星期一 29 六月 2015

除了可以使用Python 抓取網頁內容外,R也可以搭配Web 自動化測試工具Selenium 進行網頁抓取,只要透過RSelenium 的安裝與使用,使用者便可以於啟用Firefox 瀏覽器後,使用R的腳本抓取網頁內容!

開始上課

如何使用RJDBC 連結到MySQL?

  • 星期一 06 七月 2015

如果要使用程式語言連結到資料庫,一般可以用的方法便為ODBC 及JDBC 兩種方法。R也一樣,提供RODBC 及RJDBC 兩種方法讓使用者選用,本次教學即教使用者該如何下載鏈結JAR 檔及設定連線資訊,讓R可透過RJDBC 連結到資料庫,讓我們取得資料庫中存放的三大法人買賣資訊。

開始上課

[資料產品實作] 如何跟vonvon一樣取得在臉書中最難忘的相片?

  • 星期五 11 十二月 2015

vonvon 最近又創造一個高人氣話題的服務,讓你取得臉書中最難忘的相片。但在享受服務的同時,我們也可以利用爬蟲(Python Crawler)的力量,做出一模一樣的服務。這次的課程便會引導你如何從取得自己在Facebook 上的相片及按讚統計,然後在排序過按讚最多的聯結後,將所有最難忘的臉書照片爬取下來!

開始上課

[Scrapy 爬蟲] 如何使用Scrapy 的CrawlSpider 實現多網頁爬取?

  • 星期二 01 三月 2016

Scrapy 有提供CrawlSpider 的類別以實現多網頁爬取的功能。使用方法相當簡單,只要讓爬蟲繼承CrawlSpider類別,並增加抓取規則Rule 至rules 清單中,在LinkExtractor 中增加分頁抓取的規則,便可以順利將符合條件的蘋果新聞資料快速爬取下來。

開始上課

[爬蟲實戰] 如何抓取心食譜的食譜資訊?

  • 星期一 20 四月 2015

今天要示範如何使用CSS Selector 的nth-of-type 抓取特定位置的食譜資訊。示範網頁於下列URL: http://goo.gl/TgEr3l

開始上課

該如何使用git init 建立程式碼版本的儲存空間?

  • 星期二 21 四月 2015

繼前一節教學過該如何安裝git 之後,接下來我們來建立程式碼的儲存庫吧! 儲存庫(Repository) 即是用來儲存所有版本的一個空間,要建立Repository,只要使用 git init 指令,便可以設立儲存庫進行版本控制!

開始上課

如何安裝及使用SparkR?

  • 星期六 20 六月 2015

Spark 在最近釋出的1.4 版中有包入SparkR,讓資料分析語言神器R 與巨量資料新星Spark 可以順利接軌。在RStudio 下的安裝實測,發現安裝步驟相當簡單,使用上跟RHadoop 撰寫MapReduce般雷同。唯探索後其專案測試檔後,發現部分機器學習還是得自行撰寫,除了透過rJava外沒法直接呼叫MLlib,是目前讓人最失望的一塊。

開始上課

如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲?

  • 星期六 18 四月 2015

既然已經知道如何使用requests 抓取頁面內容,也懂得如何使用BeautifulSoup4 剖析有用資訊,接下來我們就進入實戰階段,示範如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲!

開始上課

[Scrapy 爬蟲] 如何設置 Job 以分段爬蟲任務?

  • 星期日 13 三月 2016

在爬取大型網站時,常會需要將爬取任務分段,所幸我們可以在Scrapy中透過 -s JOBDIR=DIR 暫停及回復任務(Job)暫停,讓頭痛的任務管理留給Scrapy 處理。

開始上課

[交易系統] 如何清理爬蟲所抓取下來的金額資訊?

  • 星期二 05 五月 2015

知道要把資料存放到資料庫之前,我們還有一個步驟要完成,就是要清理抓取下來的資訊。但是如果碰到我們常見的金額資料,該如何把千進位所帶的逗號符號拿掉呢? 這邊教各位一個應用split 跟join 的小技巧,讓大家可以無痛的做金額轉換!

開始上課

[交易系統] 如何透過Python 操作SQLite3?

  • 星期四 07 五月 2015

既然我們已經爬取並清理過三大法人交易金額以後,我們便可以把清理完的資訊存入資料庫之中,以便後續分析。本章即教學該如何透過Python 指令以及sqlite3 模組操作資料庫finance.sqlite,並示範如何成功將資訊存入表格之中!

開始上課

探索Facebook 隱藏的秘密: 使用Graph API

  • 星期三 22 四月 2015

今天來說些好玩的,教學大家該如何使用Facebook Graph API 探索個人的隱私,想測試使用Graph API,可以連線到 Facebook Developer Page: https://developers.facebook.com/

開始上課

[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?

  • 星期一 27 四月 2015

有的網頁伺服器,會透過檢查用戶代理(User Agent),以限制爬蟲存取頁面內容,此時我們只要在標頭上增加自身瀏覽器所使用的用戶代理(User Agent) 就可成功騙過對方伺服器,存取網頁內容!我們便能使用這技術成功抓取永慶房屋的房價資訊瞜!

開始上課

[交易系統] 如何透過Python 將抓取下來的金額資訊存入資料庫中?

  • 星期五 08 五月 2015

終於到了最後一步,學會使用Python 將資料存入資料庫後,我們就可以將抓取下來的三大法人統計資訊存到資料庫finance.sqlite 中了。有了資料,分析只剩一步之遙摟!

開始上課

探索Facebook 隱藏的秘密: 使用Python 存取 Facebook 資訊

  • 星期三 22 四月 2015

緊接著上一段,如何使用Graph API 存取FB 資訊後,我們接者示範只要擷取access token 後,把access token 資訊填入Graph API 中即可透過Python 的requests取得個人資訊(ID, 最喜歡的運動員)

開始上課

[爬蟲實戰] 如何爬取PTT的網頁?

  • 星期四 23 四月 2015

本次實戰將教您如何從PTT 的Food版(https://www.ptt.cc/bbs/Food/index.html)v抓取鄉民寶貴的言論,以利之後做美食的文字探勘分析!

開始上課

[爬蟲實戰] 如何剖析PTT的網頁?

  • 星期五 24 四月 2015

繼之前教學過該如何透過requests 的 get 取得PTT 網頁內容後,還必須將有意義的結構化資訊從回傳的原始碼之中抽取出來,本範例將介紹該如何使用 BeautifulSoup4 將發文者的文章標題、作者及發文時間剖析出來!

開始上課

[爬蟲實戰] 如何告訴PTT我已滿18並順利抓取八卦版的文章 ?

  • 星期一 08 六月 2015

雖然已滿18歲多年,但是不知道你實際年齡的PTT,還是要禮貌性的問你是否滿18後­,才能讓你閱讀八卦版裡面的內容,但人可以做點選,爬蟲呢?於是我們便可以先透過Ch­rome開發人員工具快速找到如何使用POST方法通過18歲驗證後,再接續之前的S­ession,就能順利存取八卦版的內容!

開始上課

[爬蟲實戰] 如何抓取圖表內的價格資訊?

  • 星期六 25 四月 2015

今天我們將示範如何使用Python 的正規表達法(re.search)抓取匯率網站圖表內的價格資訊!示範網址如下:http://goo.gl/rrq67Z

開始上課

如何使用API 抓取附近神奇寶貝的位置資訊

  • 星期三 20 七月 2016

雖然Pokemon GO 還沒有在台灣發行,但國外已經有很多神人已找到破解該APP 的方法,讓我們可以輕輕鬆鬆使用API 存取APP 內的資訊,而我們將搶先教學該如何存取其 API 資訊,讓大家都能快速找到附近的神奇寶貝!

開始上課

[爬蟲實戰] 如何簡簡單單突破驗證碼 (Captcha) 限制?

  • 星期三 21 十月 2015

不一定要用OpenCV 做文字辨識才能抓取(Crawl) 網頁資料,有時只要巧妙延續之前做HTTP 請求的Session,並搭配Ipython Notebook 的圖片顯示功能,半自動化的辨識方式也能讓你輕輕鬆鬆抓取有驗證碼 (Captcha) 限制的網頁內容。

開始上課

[爬蟲實戰] 如何抓取591租屋網的資訊?

  • 星期三 29 四月 2015

今天要為各位講解當網頁是透過AJAX 換頁時該如何觀察及爬取換頁資訊,同場加映該如何透過Python 的json 套件讀取json 內容後,將資訊轉換為字典!

開始上課

[爬蟲實戰] 如何透過網路爬蟲將網路圖片存放至SQLite之中?

  • 星期一 04 五月 2015

除了能抓取網路上的文章內容,網路爬蟲也能將美美的圖片放置到資料庫之中歐!本次教學先將教各位透過設定stream =TRUE,以將網路圖片抓取下來,之後透過shutil 的copyfileobj 將圖片存放置檔案,接者於建立一個可以存放blob 資料的資料表之中,我們就可以將圖片存放置資料庫之中了!

開始上課

[爬蟲實戰] 如何抓取淘寶網雙十一購物狂歡節活動網頁中的商品列表?

  • 星期二 10 十一月 2015

又來到購物血拼的雙十一購物狂歡節了,雖然淘寶 (Taobao) 前一次的網頁改版,讓抓取資料開始變的棘手,但檔不了我們或取購物資訊的熱情!這次,就是要敎你如何用Python 網路爬蟲 (Python Crawler)將雙十一購物狂歡節活動網頁中的商品列表抓取下來。

開始上課

[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

  • 星期六 30 五月 2015

即使針對網站做層層保護,但只要爬取資料的觀念對了,破解任何網站只是時間的問題。如­同這知名財報網站(https://goo.gl/7Q2v8p),雖有檢查使用者是否是透過爬蟲爬取資料或有使用iframe 做頁面內嵌,都還是難逃被爬取的命運!

開始上課

[爬蟲實戰] 如何抓取淘寶網的商品名稱與價格 (2016年版)?

  • 星期一 10 十月 2016

為了迎接即將到來的雙十一節,更新一下以前淘寶的爬蟲,造福所有想要在當天掌握價格變化,殺進殺出的買賣家。舊的爬蟲只要爬取Document 下的連結,便可很容易獲取商品價格資訊。但淘寶網也在這些時日更新了,變成使用AJAX 的方式填入頁面內容。因此我們便可以從XHR 以及JS 下手,找尋進入點,再使用正規表達法(re),便可以快速的剖析出重要資訊,讓你爬取淘寶網,無往不利!

開始上課

[爬蟲實戰] 如何抓取MoneyDJ 文章中的人氣指數?

  • 星期三 15 四月 2015

本教學將教會各位如何使用Python 抓取 MoneyDJ 文章中http://www.moneydj.com/KMDJ/News/NewsViewer.aspx?a=a180a15b-9e4f-4575-b28f-927fcb5c63a3 的人氣指數。 如果想要安裝POSTMAN 的,請到以下網站下載 https://chrome.google.com/webstore/detail/postman-rest-client-packa/fhbjgbiflinjbdggehcddcbncdddomop

開始上課

如何徹底解決在Windows上安裝Python 套件的惱人問題?

  • 星期日 07 六月 2015

如果想要在windows 上用Numpy, Pandas玩資料分析,卻又不想裝Anaconda 時,該怎麼解決惱人的套件安裝問題呢?你可以選擇安裝Microsoft Visual C++ Compiler for Python 2.7 (https://goo.gl/nBRz7G) 一次解決套件的安裝問題!

開始上課

[爬蟲實戰] 如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例

  • 星期二 21 七月 2015

如果要抓取司法院法學檢索系統的檢索內容,通常會碰到因為該查詢結果是鑲嵌在Iframe 中,以致爬蟲無法順利抓取內容。這時就可以使用Selenium 解決抓取的問題。但是該如何寫一個Selenium程式呢? 這時候可以靠Selenium IDE 的幫忙,自動記錄抓取步驟後,並將步驟轉換成Python Script,讓一切爬取動作變得不可能再簡單!

開始上課

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

  • 星期四 31 三月 2016

當碰到瀑布流網站(例如: EZTABLE),抓取資訊就會變得比較困難。但所幸可以使用Selenium 執行Javascript 來解決頁面捲動的問題,在本範例中,我們利用execute_script 執行 window.scrollTo(0, document.body.scrollHeight);,便可順利抓取瀑布流式網頁。

開始上課

[爬蟲實戰] 如何抓取集保戶股權分散表?

  • 星期三 05 八月 2015

雖然我們可以使用requests.post 取得需要POST請求的網頁內容,但我們也可巧妙的使用GET 模擬整個的POST 動作,只需要簡單的將POST 內容編碼後,串接在原網址的問號(?)後面,便可以順利取得裡面的內容。

開始上課

[爬蟲實戰] 如何抓取廉價航空的機票價格 – 以酷航為例?

  • 星期二 31 五月 2016

要能搶的到便宜的廉價航空機票最佳妙方,便是無時無刻關注最新的票價。但上班很忙、上課很累,所以我們還是讓我們的爬蟲代勞吧。因此我們就教大家如何使用爬蟲 (Python Crawler) 抓取酷航(http://www.flyscoot.com/)的最新票價資訊,讓你不再錯失便宜的機票。

開始上課

[爬蟲實戰] 如何撰寫Python爬蟲 抓取台灣銀行的牌告匯率?

  • 星期五 16 十二月 2016

想知道何時能買進最低價位的日圓嗎? 使用爬蟲通知你就對了!今天我們會使用Python Pandas,極快速的將台灣銀行的牌告匯率抓取下來,並使用Pandas 的語法將匯率資料整理成漂亮的表格。最後,我們便能將整理過的資料存成Excel。讓你出國血拼,硬是划算!

開始上課

[爬蟲實戰] 如何使用 PANDAS 快速爬取財報表格?

  • 星期三 30 十二月 2015

表格是網路上常見擺放數據的格式,除了可以使用BeautifulSoup4做數據的剖析外,最佳能將該資料格式爬取下來的工具可能莫過於PANDAS 莫屬,只要透過簡單的read_html,就可以把網路上看來複雜的表格資訊,快速轉變成DataFrame,納為股票分析的數據源之一!

開始上課

[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?

  • 星期日 30 八月 2015

抓取以Ajax 生成的頁面需要許多時間耐心觀察,才能找到抓取的切入點。但是使用Selenium 可以省去這個麻煩,他的自動點擊跟載入Ajax生成的頁面結果,讓人只消知道元素所在便可抓取資訊,再搭配BeautifulSoup4 強大的解析功能,用Python 抓取網頁,再簡單不過!

開始上課

[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

  • 星期四 10 十一月 2016

又來到1111 購物狂歡的季節,除了要瘋狂的Shopping 以外,千萬別忘了用Pyhton 網路爬蟲關注重要的特價訊息! 這次我們將用簡單的爬蟲,抓取天貓主會場的特價商品資料!先用python requests 抓取商品頁面,接者用BeautifulSoup4 抓取位在 .J_dynamic_data 的資料區塊,最後用簡簡單單的json.loads,便可以將資料讀成字典結構,讓妳敗家當下,同時顧好荷包! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_80.ipynb

開始上課

[爬蟲實戰] 如何使用Pandas 函式將台灣銀行的牌告匯率存進資料庫中?

  • 星期四 22 十二月 2016

將抓取到的牌告匯率存進Excel之中是個保存資料的好方法,但使用者卻很難使用Excel管理新增的匯率資料。因此,比較好的做法是我們可以將資料庫當成儲存媒介,增加資料的可維護性。而使用Pandas,只需要在建立與資料庫(SQLite)的連線後,利用 to_sql 函式,即可瞬間將資料儲存進資料庫中。之後,只要再使用read_sql_query,便可將資料庫中的資料讀回變成 DataFrame。

開始上課

[爬蟲實戰] 如何設定工作排程自動將牌告匯率存進資料庫之中?

  • 星期五 23 十二月 2016

讓爬蟲每天定期執行爬取工作才能達成真正的工作自動化!而Windows 使用者可以善用工作排程器功能,我們便可以每天更新資料庫的匯率資料,以利之後進一步提醒我們現在是否是進場的好時機! 如果是MAC 或 Linux 使用者,可以參考Crontab 的用法歐 (http://linux.vbird.org/linux_basic/0430cron.php)

開始上課

[爬蟲實戰] 如何透過EMAIL即時獲取最新匯率資訊?

  • 星期一 26 十二月 2016

當已經能夠設定自動排程,每天定期抓取匯率資訊後,我們便想知道如果今天匯率觸擊我們心目中的價格,是否可以讓爬蟲透過EMAIL自動通知我們? 因此我們可以使用Python 的smtplib 結合 GMAIL,再將Data Frame 的資料以HTML 的方式寄出,我們便可以將整個匯率擷取過程全部用Python 爬蟲自動化,讓你不再錯失任何最佳買點!

開始上課

[爬蟲實戰] 如何爬取圖片以建立慾望之牆?

  • 星期六 12 九月 2015

除了可以使用網路爬蟲(Web Crawler)抓取文字資料外,我們當然也可以利用爬蟲抓取圖片檔。因此想要把最喜­愛的雪芙女神照片蒐集成美女牆(慾望之牆?),我們只須找到圖片的位置後,結合使用s­treaming 的資料抓取, binary 寫檔跟shutil套件。我們便可以把Gamebase(http://goo.gl/oOwFme)上雪芙女神相關的照片變成我們的收藏品。Hi 雪芙,妳好嗎!

開始上課

[爬蟲實戰] 如何使用Pandas 快速繪製日幣近期的匯率走勢?

  • 星期二 27 十二月 2016

談到資料分析,圖表一定是其中不可或缺的一環,而透過Pandas 的處理,你會發現原來畫圖不過就是兩三行指令的事。在這邊我們先善用pandas 的 read_csv 讀取 csv 資料,再用%pylab inline 讓圖表成現在Jupyter Notebook 之中,最後使用 plot函式繪製折線圖。畫圖,就是這麼簡單!

開始上課

[爬蟲實戰] 如何使用Selenium 自動將slides.com 的網頁投影片輸出成圖檔?

  • 星期日 01 一月 2017

爬蟲不一定是用來抓資料! 你也可以應用網路爬蟲把身邊一些瑣事自動化!這邊我們就教學該如何使用Selenium 撰寫一個爬蟲,自動將我用slides.com 所製作的HTML 網頁投影片轉換成圖檔,之後再將圖檔結合起來後匯出成pdf 檔,這樣就不用花錢升級會員,也可以將投影片匯出成pdf 了!

開始上課

[爬蟲實戰] 如何擷取網頁中的隱藏輸入以順利下載證交所的 csv 檔?

  • 星期日 20 九月 2015

爬蟲除了可以直接擷取網頁上的資訊外,也可以用來下載 csv 檔。但看到證交所將網頁內容以base64 的編碼放置在post 的參數中時,著實也被這匪夷所思的寫法嚇了一跳。所幸我們可以直接抓取網頁中的隱藏輸入,再將資料做base64編碼,這時我們便可順利的將csv 抓取下來了!

開始上課

[爬蟲實戰] 如何使用Python 爬蟲 (Python Crawler) 下載Youtube 影片

  • 星期六 26 九月 2015

這次介紹該如何寫一個Python 爬蟲 (Python Crawler) 把Youtube 影片下載下來。雖然是影片檔案,但抓取的方法其實跟一般的爬蟲並無二異,只要先觀察到實體影片的連結位址後,用正規表達法還有Query String 剖析函式,就可以把影片連結抓取出來,接者再用寫進binary 的方式,就可以把Girl's day Expectation 的影音串流(https://youtu.be/5yAU52qfYuU) 從Youtube下載下來啦!好吧,該來練一下吊帶舞了! Woo~ woo~ woo~

開始上課

[爬蟲實戰] 如何使用Python 模擬登入淘寶並成功抓取淘寶指數?

  • 星期一 17 八月 2015

要了解一個市場前,獲取市場相關數據勢必是第一優先!在中國已外可以參照Google Trend,但在中國就只能用淘寶指數。但困難點在於淘寶指數必須先登入後,才能抓取相關資訊。但天下沒有無法抓取的資料,一切都在於耐心觀察,藉由觀察登入的樣式與資料的位置後,再透過強大的Python抓取。依然,我們這次依然可以取得我們要的資料!

開始上課
回到最上面