大數據是什麼?從零開始,認識大數據定義、分析與工具 2024年版
電商巨頭亞馬遜透過「大數據」預測顧客行為,大幅減省物流與倉儲成本;阿里巴巴仰賴數據分析,打造品牌數據銀行並在11天內增加300萬位目標消費者;就連中華郵政也設定2019年為「數位元年」,開放郵務資料並舉辦競賽,計畫從大數據中找到提高作業效率、優化顧客體驗的方法。所謂「大數據」是指數量龐大而無法以傳統方式處理的資料,無論何種產業皆能透過分析大數據預測未來趨勢,使大數據成為各行業都在發展的數位技術。
大數據的興起使資料探勘、統計領域成為熱門科目,也使大數據工具開發更加快速、更容易取得與使用。以下會介紹大數據的定義、分析過程與相關工具,以及其背後的隱私爭議。即使你不曾聽過大數據,也能從無到有,了解大數據在數位時代備受關注的原因。
大數據的定義:4V
比起大數據,「數據」人人都熟悉,比如銀行戶頭的轉帳紀錄、網頁的瀏覽紀錄、購物網站中的消費紀錄,種種資料都可被稱為數據,而大數據就是這些資料的增量版。大數據還有以下幾種特性,統稱為4V:
Volume大,資料量
大數據與傳統數據最大的差異在於資料量,資料量遠大於傳統數據,因此以「大數據」一詞來敘述並區分兩者的不同。若以量化表示,大數據特指在一天內可生成1TB以上資料量的數據,等同於128個8G隨身碟。也因為資料量大,無法以傳統的方式儲存處理,因此衍生出大數據這一新興科學。
Variety雜,資料多樣性
與前述的轉帳紀錄、瀏覽紀錄僅紀錄一種數據不同,大數據的資料類型龐雜,比如臉書上的帳戶紀錄,就包含照片、文字、超連結等多種數據形式。由於形式多元複雜,大數據儲存也需要不同於傳統數據的儲存技術。
Velocity快,資料即時性
大數據與傳統數據最大的不同點,就是生成速度飛快。由於網際網路興起與資訊設備普及,以用戶突破20億人的臉書為例,如果每個用戶每天按一個like,就會有20億筆資料。每一個人隨時隨地都可以創造數據,數據生成的速度已非過去可比擬。
Veracity真,資料真實性
在3V成為大數據的主要定義後,隨著儲存資料的成本下降、取得成本也下降,大數據發展出第四個特性:Veracity,意旨除了資料量,也需要確認資料的真實性,過濾掉造假的數據與異常值後,分析出來的結果才能達到準確預測的目的。
大數據分析:數據統計與資料探勘
比起大數據本身的4V特性,使它在數位時代脫穎而出的是準確預測未來的能力。而分析大數據的步驟其實與處理傳統數據相同,只是使用的工具有所差異。
數據統計是什麼?
處理數據的第一步是獲得並儲存,大數據在發展期間碰到的第一個問題就是資料生成過於快速且大量,需要開發新的儲存方式處理源源不絕的資料。
若能成功儲存大量資料,僅只是簡單的描述統計,也有助於了解提供數據者的特徵。職業數據網站Comparably就從數據面分析Google、臉書、微軟、蘋果、亞馬遜五家科技公司的面試難度,發現大多數Google的員工覺得面試過程很困難,反之到微軟面試工程職位時,即使穿著T恤、牛仔褲也可以被接受。從大量數據中即可發現各家公司的差異,應徵者也可以在面試前就做好相對應的心理準備。
資料探勘是什麼?
大數據無法使用過去人工方式統計與分析,即使能達成也需要耗費大量時間。因此在處理大數據時經常使用人工智慧、機器學習等技術,讓機器協助人類在短時間內分析巨量資料,這整理資料並找出其中規律的過程被稱為資料探勘。
資料探勘技術可以追蹤分析看似不相關的數據,應用在偵查、取得線索等領域上,甚至是追查犯罪者、預測犯罪地點。矽谷的大數據公司Palantir就以獨特的資料探勘技術,協助美國軍方找到蓋達組織首領賓拉登,也多次為企業與警方提供金融犯罪的線索。
大數據的分析步驟
大數據分析第一步:取得
數據隨時隨地都在產生,就連你上班時的行走路線,都可以成為商家選擇新店地址的參考資料。若是擁有大量使用者的企業,蒐集使用者的活動紀錄就可達到以數據預測未來的目標;若是較小型的企業,則可主動邀請使用者填寫問卷,逐步累積資訊量。
大數據分析第二步:儲存
由於資料量龐大,突破儲存技術式處理大數據的第一個難關。因此處理大數據時多使用分散式處理系統,透過分割資料與備份儲存,突破記憶體過小的障礙。
大數據分析第三步:運算
為達成預測未來的目的,機器可以透過分類、迴歸分析、排序、關聯分析等方式找出其中規律,並運用決策樹、遺傳演算法、人工神經網路等模型進行計算。
大數據分析第四步:視覺化
經過分析後的數據仍是數字與列表,不易閱讀。因此可搭配視覺化工具,將數據轉化為較容易閱讀與理解的形式。
常見的大數據工具有哪些?
大數據取得工具:Google Form與SurveyCake
除了Amazom、Facebook等擁有大量使用者而能快速累積資料的大企業,一般企業可以用統計軟體取得資料,或請目標客群填寫問卷,持續累積資料量。相關工具包括:Google Form、SurveyCake,可以讓使用者免費製作線上問卷並提供簡單的問卷結果統計與分析。
大數據儲存工具:Apache Hadoop
目前最常見的大數據轉體技術為Hadoop,是由Apache軟體基金會使用Java語言所發展的軟體框架,並開放原始碼供人免費使用。
Hadoop使用HDFS分散式檔案系統(Hadoop Distributed File System),在儲存資料時,會將同一份檔案切割成小份,將每一小份製作多個備份後分別儲存在不同位置。即使部分資料損毀,也可使用其他備份重製出完整的資料。這種儲存技術可以突破巨量資料難以儲存的困境,同時確保資料的完整性,因此能成功累積資料並持續發展。
大數據分析工具:Hadoop MapReduce
Hadoop MapReduce是Hadoop的項目之一,可將儲存在HDFS中的資料調出、統計、處理後再回傳數據。整個Hadoop系統使用HDFS儲存資料,並交由Hadoop MapReduce處理資料,Hadoop MapReduce因此成為最常見的大數據分析軟體之一。
大數據分析工具:Spark
Spark是近年新型的大數據分析軟體,運算速度比Hadoop MapReduce還要快100倍。由於Hadoop MapReduce會在運算的同時儲存資料,資料需在記憶體與處理器之間不斷轉化。而Spark使用記憶體內運算技術,可直接在記憶體內運算,因此省下資料轉換時的能源與時間。
不過Spark只能分析大數據,而不能儲存大數據,使用時仍須搭配HDFS儲存系統,是Hadoop難以被取代的主要原因。
大數據視覺化工具:Tableau
Tableau可將大數據轉換為圖表、地圖等視覺化資料,並可以配合多種資料形式,包括Excel、txt、xml等,即使沒有科技背景的使用者也很容易操作,僅需平移、拖放等操作,適合用來呈現已分析過的資料。
大數據視覺化工具:Wordcloud
Wordcloud,又成為文字雲,可用來表示單一字詞在文件中出現的次數多寡與比例,且呈現方式簡單易懂,是非常常見的大數據視覺化方式,目前網路上也可找到處理少量資料的文字雲製作工具。
大數據的憂患:隱私
儘管大數據由於應用範圍廣泛,已成為各領域的發展趨勢,但數據的公布有時會伴隨使用者隱私的曝光,比如Facebook資料外洩、Google+個資外洩風波等因數據外洩而引發隱私問題的事件層出不窮。數據外洩問題會對蒐集數據的企業產生極大影響,動搖使用者的信心,甚至可能導致使用者不願再次使用產品。
企業在蒐集數據前應告知使用者將提供何種數據給第三方,以及數據可能的使用方式,並應維護使用者的隱私權。但當所有人隨時隨地都在產生數據、當數據對人的生活影響漸增, 隱私與正當使用的界線也值得探討,隱私也將成為未來大數據發展的方向。
大數據快速掌握現在局勢、推斷未來走向
大數據由於基數龐大,從中推斷出的趨勢因此足夠準確。除了電商可用大數據完成預測式購物、社群網站可以推薦使用者感興趣的內容,一般企業也可以大數據監控網路輿情,了解目前消費者的喜好,做出精準行銷決策與準確公關反應。
InfoMiner 即時輿情分析平台使用自行研發的大數據處理技術與文字探勘技術,可以即時掌握社群風向,追蹤特定關鍵字,彙整為短文與圖表,分析輿情,以Email或LINE將目前最新的即時輿論資訊寄送給使用者。掌握最新情報,在危機發生時第一時間反應,作好危機處理降低風險。
延伸閱讀:一次了解大數據應用:商業決策前的必修課