大數軟體 X 大數學堂 | 搜尋關鍵字: 巨量資料

如何在五分鐘內透過AWS的EMR服務快速開啟一個Hadoop叢集?

大數學堂
May 20, 2015, 4:38 p.m.

這篇文章介紹了如何使用Amazon EC2的EMR服務快速建立Hadoop叢集，並指出這將使巨量資料分析變得非常簡單。同時，文章也提到如果讀者對Hadoop和其生態系統有更多興趣的話，可以參考由作者和Tibame共同開設的線上課程。

開始上課

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 2)?

大數學堂
June 18, 2015, 4:14 p.m.

MLlib 提供了決策樹分類的功能，使用DecisionTree.train可以輕鬆建立模型並預測客戶是否流失。此外，也可以使用不同的套件計算準確度和AUC，使用Spark來分析大量的資料非常簡便和迅速。

開始上課

如何安裝及使用SparkR?

大數學堂
June 20, 2015, 3:02 p.m.

Spark最近版本中收錄了R語言的SparkR，這讓R語言的資料分析能夠與Spark進行無縫整合。在RStudio下的安裝過程經過實測後發現，非常簡單且與使用RHadoop撰寫MapReduce非常相似。然而，研究後發現部分機器學習的功能仍需自行撰寫，無法直接呼叫MLlib，這是目前讓人最失望的部分。

開始上課

hidden

如何在五分鐘內透過AWS的EMR服務快速開啟一個Hadoop叢集?

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 2)?

如何安裝及使用SparkR?