• 沒有找到結果。

第二章   文獻探討

第一節   商業智慧

一、   商業智慧的流程

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4

第二章 文獻探討

第一節 商業智慧

商業智慧(Business Intelligence)首見於IBM的研究報告中(1958年), 直到1989 年,Howard Dresner於發表的文章中對 “商業智慧”一詞給予了新的定義,推廣利用企業 的資料資源,先了解企業目前的運作和行為模式,再以此提高決策所需的效率與準確性 [8]。商業智慧至此開始流行,受企業所青睞,其為企業提供了解決方案來整合並且分析 企業所擁有的各式資料,並從這些資料中獲得有價值的信息,這解決方案包含數據庫,

數據倉庫,績效管理,分析方法等等,將這些集成到一個統一的軟體套件裡[10],透過 視覺化或是報表的方法呈現給使用者,使用者可以藉此資訊,做出明智和聰明的商業決 策,達到有效的預測分析能力,最後提升企業的績效[2] 。

一、 商業智慧的流程 1. 循環的商業智慧流程

Vitt et al. (2002)認為商業智慧一詞是多面向的,由多個專家和軟體廠商所組成的 一廣泛的技術、軟體平台、具體的應用和過程,商業智可簡單分為四個步驟,以此闡明 商業智慧的流程。首先透過分析,再經由洞悉、行動,最後再衡量,衡量的結果可能會 產生新的分析目標出來,形成一循環(Figure 2)。[24]

Figure 2. 商業智慧流程(Vitt et al., 2002)[24]

(1)  分析:使用者定義分析的目標,了解重要性的先後,分析企業目前所需的資訊種 類,這三個小步驟缺一不可,如若是選擇錯誤的方向,將猶如亂槍打鳥,打的不

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5

一定是肥美可口的小鳥,可能又瘦又小不符成本,對於企業的效益並不會有所提 升; 

(2)  洞悉:透過分析得來的資訊,從儀表板上使用者可獲知事實及情報,以此對應在 企業營運上的戰略方向及戰術目標,並制定數個方案選項,提供決策者抉擇; 

(3)  行動:透過實際的行動執行所做下的決策,藉此提升企業的績效; 

(4)  衡量:洞悉和行動之後,須對其結果進行量化的評估,透過評估結果來調整未來 在洞悉和行動時需要注意的限制條件或是取捨方向,最後訂立新企業目標,開始 新的商業智慧流程。 

2. 煉油廠的商業智慧流程

Wayne W. Eckerson(2003)提出的架構,可將商業智慧視為一煉油廠,將原生的資 料經過一層一層的萃取成為可用於支援決策的知識。(Figure 3)[25]

(1) 從企業內部收集可用的資料,經過資料萃取後載入資料倉儲內,並整合成可用 於分析的資訊;

(2) 將資訊透過線上分析和報表等工具,發現資訊之間的關連與隱藏其中的事實,

讓使用者獲取可用以支援決策的知識;

(3) 透過知識建立可信的決策模型和企業規則,提供企業發展的依據;

(4) 根據前述的決策模型,制定行動計畫,將決策模型轉為實際的行動,也就是企 業的營運內容;

(5) 實際行動產生的數據資料,將可繼續做為商業智慧分析的新生資料,進入下一 個迴圈。

Figure 3. 商業智慧流程( Wayne W. Eckerson, 2003)[25]

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6 二、 巨量資料帶來的影響

現有的商業智慧系統大多都是由資料萃取、資料倉儲、資料採礦、線上分析處理、

儀表板五大功能組成,過往企業藉上述系統分析自己建制的範例及模型,但是只憑這些 模型真的能給予準確的建議?根據統計這些模型的資料來源僅占所有可獲得之資料的 20%,使用20%資料所給予的建議,猶如瞎子摸象,模糊的概念將令決策者難以準確地 做出正確的選擇。為了符合企業的期望及節省成本,有人提出引用外部的巨量資料,以 此來彌補缺少的80%資料所帶來的誤差[4],也因此舊有的商業智慧系統必須有所改變以 因應這些提供輔助的巨量資料的融入,以下將介紹目前商業智慧系統廠商的應對方法。

1. Oracle Business Intelligence

Oracle Big Data Appliance是Oracle對於巨量資料所提出的解決辦法,它以Cloudera為 開發核心,建置可儲存各種類型資料的非關連式資料庫,接著使用開放來源的統計用語 言R,對於未過濾的雜亂資料先行分析,再透過下圖(Figure 4)中第二階段的Oracle Big Data Connectors連結Oracle Exadata Database Machine資料庫並以此做為資料倉儲儲存萃 取完後的資料, Oracle Business Intelligence從前者獲取資料來源進行商業智慧的分析與 應用[19][20]。

Figure 4. Oracle的巨量資料解決辦法[20]

從上述可發現其解決的要點有:1. 在舊有的商業智慧系統架構,用戶能採用類似升 級的方式納入原本既有的Oracle系統,提供靈活性給予使用者。其整合進新的功能,此 一功能將持續的載入巨量的資料,並且先行處理萃取資料,留下符合該使用者需求的資 訊;2. 資料倉儲的部分改用可提供大量平行運算的架構,提供可快速處理巨量資料的能 力,用以進行建立資料立方體。

Oracle Big Data Appliance

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

7 2. SAP HANA

SAP提出的是新的服務平台- HANA,其系統架構如下圖所示(Figure 5),運用Amazon Web Services (AWS) 作為SAP HANA雲端運算的開發測試環境,並使用記憶體運算引擎

(in-memory computing engine)作為處理核心,兼具了資料庫與處理計算的能力,讓系 統能在記憶體中執行即時且大量的資料處理,而面對持續增加的巨量數據,亦能在交易 進行中的狀態下,將營運過程中產生的新數據,擷取至記憶體中,並根據不斷變化的大 量資料,即時分析業務營運狀況,能提供如此快速的處理及分析是因為,其採用的記憶 體運算引擎能將資料存放在記憶體中以加快處理的速度,如同Figure5所示處理運算能力 和儲存能力位於同一台伺服器中,防止了與儲存設備的I/O資料交換可能受限於磁碟機 的機械運作所花費的時間,並且排除了可能發生的網路傳輸問題,並將結果直接回傳給 最終的處理核心。HANA提供原生的文本 (text) 搜尋功能,包含可以透過Structured Query Language (SQL)語法查詢結構化資料,也可運用Multi-Dimensional Expressions(MDX)

進行線上分析處理的查詢[22]。

Figure 5. HANA系統架構[22]

SAP所採取的是與分散式運算不同的解決辦法,採取記憶體運算的模式試圖解決巨 量資料的問題,增加記憶體的容量,而不是增建儲存空間,如此可以讓企業在使用舊有 的商業智慧系統時,可以透過增建的方式解決巨量資料的困擾,而不影響舊有的系統。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8 3. QlikTech Qlikview

QlikTech推出QVSource處理巨量資料,QVSource是一網路服務,內部分成兩部分 QVSource Core 和Connectors,前者負責管理建立後的各連接器,後者可以透過建立各式 的連接器連接各別的web APIs,獲取其網頁的內容並儲存成其資料來源,另一方面 Connectors也可以連接非結構化資料庫,例如:MongoDB、Hbase等,因此使用者可將 原本無法分析的各式檔案類型內資料,例如: PDF、XBRL、HTML、文本文件、機器 數據以及其他許多非關係型數據源儲存在非結構化資料庫內,透過連接器萃取這些資料 並建置模型,再透過Qlikview的分析報表和儀錶盤等工具做資料的分析,原本看似無法 使用的另外80%資料以及巨量資料,將成為最豐富的金礦。其系統架構如下圖所示

(Figure 6)[21]。

Figure 6. Qlikview系統架構 資料來源:Qlikview官方網站

(http://www.qlikview.com/us/explore/products/big-data)

QlikTech採取了在不影響現有的商業智慧系統的架構上,開闢新的資料來源,透過 Connectors建立與企業有關的網站連結,透過語意分析進行持續性的資料蒐集,並藉由 非關聯性資料庫儲存這些雜亂的資料。此外,透過聯合式記憶體緩衝型資料庫引擎,重 寫了記憶體緩衝型資料庫引擎(In-Memory),通過高效率的資料庫靜態預先分包緩衝的 技術,最大可能的減少了傳統基於記憶體和硬碟讀寫的處理大資料方式帶來的對系統資 源的耗費。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

9

第二節 巨量資料

在2001年,Gartner公司發表的一篇文章定義資料增長的挑戰和機遇是三維度的,分 別為資料增加量(Volume),資料輸入和輸出速度(Velocity),資料類型和來源(Variety)

[9],如同下圖(Figure 7)所示。

 Volume:根據 MC 公司發表其贊助的 IDC 數位世界研究(Digital Universe)所發表 的文章《從混沌中發掘價值》,文中指出,資料量以每兩年超過兩倍的速度在成長,

2011 年產生與複製的資料量將達到 1.8 Zetta Bytes,成長速度超越摩爾定律[12]。

 Velocity:資訊的分析通常具有時效性,資料一旦串流到運算伺服器就須立即進行 分析,即時分析的結果才能發揮資料的最大價值。

 Variety:企業於業務執行中產生的資料是包羅萬象,其格式不完全是統一類型,因 此往往許多資料是無法用來進行分析,僅作儲存之用;另外於近年來崛起的社群網 路,包含臉書、推特等,這些社群網路上的所發布的影音、照片等訊息;此外,包 含GPS、感應器、監視器等各種設備所產生的資料,這些各式的來源包含各類非 結構化的資料:諸如音訊、視訊、點擊串流、日誌檔等等。

Figure 7. 巨量資料3Vs範例[9]

“3Vs”開始廣為受大眾用來描述巨量資料之後,這幾年開始出現第4個V用以描述巨 量資料,但是尚未有準確的定調,但是都是對於巨量資料的質量產生疑問,IBM提出關 於巨量資料的可信度(Veracity)[4],根據他們的調查,有三成的企業家因為資料來源 過於複雜,若資料本身就是有問題的,分析後的結果也不會正確,因而導致決策者不敢

(Variability ),資料雜異性過高會導致分析出的數據可信任度低。總而言之,雖然說 法有很多種,但都是質疑資料本身的可靠度、品質是否足夠,如何建立可信任的真實性,

將是使用巨量資料做為分析數據首先需要克服的問題。

目前對於巨量資料的使用範圍從專業科學到娛樂遊戲皆在使用,各類型產業都擁有 大量的資料,無法再用以往方法處理。例如:在大型強子對撞機的實驗中,150萬個感 應器可以每秒提供40萬次的資料,每秒強子之間的碰撞更是高達600萬次,這些分析

目前對於巨量資料的使用範圍從專業科學到娛樂遊戲皆在使用,各類型產業都擁有 大量的資料,無法再用以往方法處理。例如:在大型強子對撞機的實驗中,150萬個感 應器可以每秒提供40萬次的資料,每秒強子之間的碰撞更是高達600萬次,這些分析