只要三分鐘,立即來學習如何使用開源工具來分析資料吧

如何在三分鐘內於Ubuntu 14.04中啟用Spark-shell?

  • 星期六 30 五月 2015

於本地端啟用Spark,其實非常簡單!只需要透過簡單的apt-get 指令,快速安裝Java, Scala 等語言後,便可透過預先編譯(pre-build)過的spark 版本開始進入spark的世界。

開始上課

如何使用Jupyter 操作 Spark?

  • 星期日 31 五月 2015

除了透過IntelliJ IDEA 建立Spark 開發環境外,如果可以像Python 一樣可以透過Jupyter 記錄所有開發內容,那該會有多方便。所幸真的有大神建立ISpark 這樣的解決方案,本教學將教您怎麼一步步的在Ubuntu 14.04 中連結Jupyter 跟 Spark,讓您建立一個簡易好用的開發環境!

開始上課

如何安裝Spark-Notebook 在Ubuntu?

  • 星期二 02 六月 2015

繼上次講述如何使用ispark 整合 Jupyter 和 Spark 後,本次將介紹一個更優秀的專案spark-notebook,除了可以使用記事本(notebook)的形式存取Spark 外,更可以透過WISP,使用簡單幾個指令就可以用d3.js 產生svg 圖檔,除做資料分析之餘,更可產生可互動的視覺化的圖表!

開始上課

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 1)?

  • 星期一 15 六月 2015

用Spark 進行機器學習? 其實非常簡單,只要將資料整理出特徵(Feature) 跟標籤 (Label),就可以透過MLlib 所提供的眾多演算法快速分類資料。這時電腦就不只會選土豆,更可以預測電信業客戶是否流失!但要分類之前,我們得先把資料整理好!讓我們來看看該怎麼整理出分類演算法可以吃的資料格式吧!

開始上課

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 2)?

  • 星期四 18 六月 2015

整理完資料後,就可以使用MLlib 提供的決策樹分類資料,全部只要打入神奇的 DecisionTree.train ,就可以建立分類模型,精準預測客戶是否流失!除了預測以外,還可以透由不同的套件計算準確度與AUC,用Spark 分析巨量資料,就是這麼簡單快速!

開始上課

如何安裝及使用SparkR?

  • 星期六 20 六月 2015

Spark 在最近釋出的1.4 版中有包入SparkR,讓資料分析語言神器R 與巨量資料新星Spark 可以順利接軌。在RStudio 下的安裝實測,發現安裝步驟相當簡單,使用上跟RHadoop 撰寫MapReduce般雷同。唯探索後其專案測試檔後,發現部分機器學習還是得自行撰寫,除了透過rJava外沒法直接呼叫MLlib,是目前讓人最失望的一塊。

開始上課
回到最上面