第二章 大數據分析趨勢觀察
第二節 大數據的價值在於「分析」
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
22
潛在的年產值具有 2,500 億歐元。更有甚者,在這份 2011 年廣 受好評的報告中提及,在 2020 年從全球範圍內使用個人位置資 料的年度潛在消費者剩餘可高達 6,000 億美元以上,這是一個很 大的價值 (McKinsey Global Institute, 2011)。當然,資料本身是 沒有價值的。價值是在資料被變成資訊,並最終把它變成知識,
以及如何進行的分析。價值端視組織將如何看待與利用這些資 料,進而組織成一個以資訊為中心,仰賴從資料分析衍生見解 進而決策的公司。
第二節 大數據的價值在於「分析」
「大數據」可貴的價值並非資料本身的巨大(這也是前述所謂這個名詞 的不幸之處),而是在於之後的資料分析,而資料為何要分析?分析學是如 何演進的?如何才可以做到有效的分析?
資料分析的定義 一、
從收集來的資料中分析有用資訊,發現知識,而對資料加以詳細研究 和概括歸納的過程,稱為資料分析(Data Analysis),而在不同背景或應用場 合上,資料分析與資料採礦(Data Mining)、資料分析學(Data Analytics)均有 概念上互用的情形 (譚磊, 2013),但事實上三者本質上有以下的差異:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
23
資料分析學(Data Analytics):是一門多面向而廣泛地使用數學與統
(一)
計學的學科,其內涵比較不涉及個別的資料分析或資料分析步驟,而 泛指整個方法論,簡言之,它包含了資料分析(Data Analysis)及所產生 的洞察(Insights)及決策(Decision making) (如圖 二-8)。這個詞通常於商 業上使用,目前也有逐漸增加使用在先進的資料分析方法上,特別是 涉及描述分析學上的技術層面時,如預測建模,機器學習技術,神經 網絡技術 23。
圖 二-8 Data Analytics與Data Analysis之差異24
23 http://en.wikipedia.org/wiki/Analytics#Analytics_vs._analysis
24
http://www.quora.com/What-is-the-difference-between-Data-Analytics-Data-Analysis-Data-Min ing-and-Data-Science
‧
資料採礦(Data Mining):一般係指從資料庫中自動搜尋隱含於大量資
(二)
料中之相關性及樣態的過程,是目前資料分析(Data Analysis)中「資 料庫知識發現」(Knowledge-Discovery in Databases,縮寫:KDD)
的技術方法之一。簡言之,資料分析是資料採礦的上位概念,而也 錄(Meditations Sacrae)中寫出:「知識就是力量」, Peter Drucker也於 1965 年預言「知識將取代土地、勞動、資本與機器設備,成為最重要的生產因 素。」那資料與知識之間存在怎樣的關係呢?
依據DIKW體系 (DIKW Pyramid、DIKW Hierarchy)26指出資料(Data)、
資訊(Information)、知識(Knowledge)及智慧(Wisdom)四者間關聯的體系。當 the wisdom we have lost in knowledge? / Where is the knowledge we have lost in information?)。 哈藍·克利夫蘭根據這個 1982 年 12 月在《未來主義者》雜誌中的文章-「資訊有如資源」
的基礎來建設這個體系。後來這個體系得到米蘭·瑟蘭尼(Milan Zeleny)及羅素·艾可夫
(Russell .L. Ackoff)不斷的擴展。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
25
誰?什麼?哪裡?什麼時候?為什麼?資訊是信息,意味著有聽眾及 目的。
3. 在行動上應用資訊產生了知識。知識可以回答「如何?」的問題。知 識是一些可行的關係及習慣工作方式。
4. 透過智者間的溝通及自我反省而利用知識會產生了智慧。我們可以利 用智慧解答關於行動的為什麼及什麼時候的問題。智慧是關心未來而 含有暗示及滯後影響的意味。
圖 二-9 DIKW體系27
從「知識就是力量」到「資訊有如資源」,再到「資料是新世紀的石油!」
可以看出人類在 DIKW 體系的重視視角越趨於細微根本,而資料要如「石 油」般淬鍊而成為可資利用的「資源」的步驟就是透過資料分析,故資料 分析之目的就希冀獲得「資訊」、「知識」,甚至於「智慧」。
27 http://blog.pluralsight.com/knowledge-management-success-secrets
‧
決策支援(Decision Support) 1970-1985 使用資料分析來支援決策
主管支援(Executive Support) 1980-1990 聚焦於以資料分析來支援高階主管 決策
線上分析處理 (Online analytical Process;
OLAP)
1990-2000 在多維度資料表下,可彈性地提供 積存(Roll-up)、下鑽(Drill-down)、 和樞紐分析(pivot)等操作,呈現 整合性決策資訊的方法/軟體 商業智慧(Business Intelligence) 1989-2005 支持數據驅動決策模式的工具,比
較強調報表
分析學(Analytics) 2005-2010 聚焦於統計與數學上的決策分析 大數據(Big Data) 2010-present 聚焦於大量而非結構化、快速移動
的資料 (Davenport, Big Data @ Work, 2014)
知識管理大師 Thomas H.Davenport 將商業分析區分為兩個時代,一為
「大數據之前」(BBD, before big data)和「大數據之後」(ABD, After big data),
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
27
另外又就分析學內涵或主體上之差異區分為「分析學 1.0」、「分析學 2.0」、
「分析學 3.0」 (Davenport, Analytics 3.0, 2013)進行期間的比較理解。
分析學 1.0 時代:商業情報時代 (長達半世紀)
(一)
開始有了廣義地理解到以分析學當作競爭優勢來源的想法,主要展現 在獲取較高的營運效率,在某些關鍵點作出較佳決策,方式上客觀而深入 了解重要商業現象,以讓經理人在決策時能超越直覺,這也是首次開始記 錄、匯集並分析有關生產流程、銷售與顧客互動資料,而在這期間,新的 運算技術興起是關鍵 ,資料倉儲(Data Warehouse)及商業智慧(Business Intelligence)被廣泛使用,但此時期的分析是艱苦而緩慢的工作,經常要耗 費數周或數月去執行。
分析學 2.0 時代:大數據時代 (2000 年中期之後至今)
(二)
雖然「大數據」這個名詞是之後才出現,但在矽谷的網路原生公司與 社群公司(internet-based and social network firms),如 Google、eBay 等公司 已開始匯集並分析新種類的資訊,這樣的新現實,迅速改變了資料與分析 在公司裡的角色,資料來源上也開始從企業內部的少量資料移到外部,如 網際網路、各類感應器、公共資料計畫(如人類基因組計畫)以及擷取各種影 音的紀錄等。
如此大量而多樣化的外部資料,很快就凸顯企業需要更大的新工具,
以及提供新工具帶來的獲利機會,因而引發一股令人印象深刻的熱潮,如:
類似 LinkedIn 商務社群網站群起、Hadoop 架構、NoSQL 資料庫、In-memory 或 In-Database 分析的興起以及資料科學家炙手可熱現象。
分析學 3.0 時代:資料強化產品時代 (現在進行式)
(三)
在 2.0 時代目光銳利的觀察者,可能已看到分析學的下一個大時代正在 展開,當其他非網路原生的這些大型組織開始跟進之時,正式開啟了 3.0 時代,代表如今不只是資訊公司和網路公司能從資料分析中創造商品與服
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
28
務,而是每個產業的每家公司都可以,3.0 時期為想運用分析學來競爭的公 司及想提供資料與工具以便企業運用分析學來競爭的供應商,帶來新的挑 戰與商機,這種策略焦點的改變,意味著分析學在企業內有了新角色,企 業必須看出許多挑戰,並且以新的能力、位置和優先要務來因應。
分析 3.0 時代是否為以分析學來競爭的終極形式?也許不是,但可以很 肯定地說分析學 3.0 出現的時間點,資料經濟的參與(participation in the data economy)與規範分析(Prescriptive Analytics)的使用將成為主流。
資料分析的類別 四、
企業長期以來一直隨著時間推移下進行各類的分析。就如前述資料分 析事實上早已存在,人們試圖通過分析現有數據來理解企業在各地的行為 是如何的。在過去,這就是敘述性的分析。這回答了問題:「企業在過去發 生了什麼事?」隨著大數據的可用性,我們進入了預測性分析的新領域,
其重點是回答這個問題:「什麼是未來可能會發生的」,但是,分析的真正 的優勢來自於分析的最後階段:規範性分析。這種類型的分析中試圖回答 這樣一個問題:「現在怎麼辦?(Now what?)」或「那又怎麼樣?(so what?)」
它嘗試給出了基於未來結果的關鍵決定的建議。
這三個種分析在企業中各有其存在目的,欲解決的問題、分析的議題、
分析預期產出的結果、對企業的價值程度皆有所不同(參圖 二-10 及圖 二-11)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
29
圖 二-10 分析類別及解決議題圖28
圖 二-11 三種分析類別之比較 (IBM, 2013)
28 圖片來源:
http://ifii-enews.blogspot.tw/2013/08/mining-data-for-library-decision-support.html
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
30
敘述分析(Descriptive Analytics):關於過去的
(一)
敘述分析可以幫助企業了解過去發生的事情。在這方面,過去可以從 一分鐘前到幾年前。敘述分析有助於理解客戶和產品之間的關係,目標是 獲得什麼方法把對未來的認識:從過去的行為影響未來的結果。
超過 80%的商業分析是描述性的分析(尤其是社交分析)。他們計算敘 述統計(即計數,求和,平均值,百分比,最小值,最大值和簡單的算術 題:+ - ×÷),總結某一分組或數據,這通常是一些事件的簡單計數的過濾 版本。使用到基本統計(如標準差,方差,p 值等)是相當罕見的 (Wu, 2013) 。
敘述分析中常見的例子是有關銷售,客戶,業務,財務的管理報告和 尋找各種變量之間的相關性提供資訊。 如 Netflix 公司的例子使用敘述性 分析發現在用戶租用不同電影的相關性,以提升其銷售數據及其客戶推薦 引擎效能。
因此,在進行敘述分析時,應確定下一步該怎麼做,並可提供有關事 件可以轉化為未來預測分析的資料來源。
預測分析(Predictive Analytics):關於未來的
(二)
預測分析為企業提供了基於資料而產生的切實可行洞見(actionable insights)。它提供了關於未來結果的可能性的估計。為了做到這一點,各種 技術的使用(如機器學習,數據挖掘,建模和賽局理論)。例如預測分析可以 幫助企業辨識在未來的任何風險或機會。
預測分析技術可以在所有部門使用,從預測銷售和市場行銷的客戶行 為,預測營運需求或金融決定的風險狀況。預測分析模式最廣為人知的就 是金融服務上的信用評分機制,用來決定顧客未來信用還款的可能性,而 要確定這樣的風險概況,需要數據的數量繁多,包括了公開和社交的資料。
預測性分析的另一個例子是用於預測某一地區或客戶群的需求,並根
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
31
據預測來調整生產。這是一個相當普遍的分析,並考慮到了許多不同的資 料集,從來自公開資料,天氣資料及如銷售資料和社群媒體資料等。
歷史交易數據常用來識別模式,而統計模型和演算法則被用來捕捉在 各個資料集的關係。在大數據時代預測分析技術已真正實現了,有很多可 用的工具來組織預測未來結果。對預測分析而言,盡可能越多的資料越好,
這是非常重要的,因為更多的數據意味著更好的預測。
規範分析(Prescriptive Analytics):基於預測而提供建議
(三)
1. 涵義:
(1). 所謂「規範分析」係指一系列指出首選行動方案的分析能力。
最常見的例子是優化方法(optimization methods);如線性規劃
最常見的例子是優化方法(optimization methods);如線性規劃