OLAP線上分析處理在資料倉儲的應用
一以技職課程資源網站為例(上〉
戴建耘袁贊助蔡志宏 臺灣師大工業教育系副教授研究生研究生 宣、日 u .s 由於網際網路的技術進步神速, 加上網際網路快速傳遞訊息的特性, 「網路無國界」的觀念已逐漸形成,隨 著大量的資料在網際網路上流通與交 換,如何運用、整合與分析資料產生 有用的資訊,成為重要的研究課題之 -。 資料在資訊時代是一項極重要的 材料,產生、儲存與管理好資料的目 的就是要從中找出有意義的資訊(嚴 紀中和古政元,民 89) 。資料倉儲(Data
Warehouse) 為一種新的資料儲
存技術,資料倉儲中不只統合資料, 且能在不同的範團與層面中進行分 解、合併及交叉分析的工作(莊雅 葉,民87) ,再利用工其進行線上分析 處理 (On-LineAnalytical Processing;
OLAP) 或資料採擷 (Data Mining) 工
作,得到更進一步的資訊,提供決策 者適當的訊息。因此,這幾年來資料 倉儲亦逐建成為決策支援系統 (DSS) 的主要資料來源。 資料倉儲的實際連作就是資料庫 系統,資料庫系統從檔案型系統、階 期 仇",/ 卷 ,、 J 句、 d 吉日叩昕一掀
年一科 口一王口 (Tvi m-生 層式、網狀式到關聯式資料庫系統、 物件導向資料庫、物件關聯式資料庫 系統等 (Connolly , 1998) 不斷的演 進,加上網路的應用,資料庫也走向了主從架構及 Web-based 分散式系統,
不但加大資料儲存的空間與容量,也加快了資料處理與存取的速度。然
而,大多數企業或學校雖建置或多或 少的資料庫系統,甚至是資料倉儲系 統,但卻對進一步發展決策支援系統 鮮少著墨,可能礙於時間、人力、成 本、技術的限制,不易達成此一目 標,因此,建置實務經驗的成功案例 即扮演著重要角色之一。 貳、 OlAP 概述 、 OlAP 的意義 OLAP 就是一種快速擷取多維資訊 和了解企業整體概況的工真,不但不 需要設定特定角度和觀點,而且不需 要設定資料層級就可以最快速的方法 瀏覽並分析資料。 OLAP 可滿足企業上 對大量的多維度資訊做分析比較或預 測模擬之需求,令企業組織可經由 OLAP 的資訊處理以洞察營運狀況或藉 以協助決策分析。32
點選其中一類可查看更深入的資料 銷售業績(千萬元)
第一季
|
第二季
$1.
4
$0.6
$2.0
$1.
2
二、多維度資訊的意義(多度空間 的資料分析) 針對任一事物所能觀察的角度應 是多元的,因此資料應皆其備多度空 間的性質。要對資訊進行通透且全面 的分析與處理,即需要兼顧資料於各 個角度各個空間中所呈現象微的價 值,利用 OLAP技術即能連到面面俱到 的要求。 三、 OlAP的資料分析方式 OLAP系統於資料分析的過程中, 包括下列的分析方式(莊雅薯,民87)
(一)下探 (Drill-Down)
OLAP除了從多維角度瀏覽資料
外,亦注重細部資料中所隱含資訊的 發掘。使用者於資料分析的過程中, 必先瀏覽概括性的資料,並且對整體 的情況有大致的瞭解後,即對細部的 資料愈加地重視。因此,為了能取得 更為詳盡的資訊, OLAP則針對此概括品一喘一飾一子一其
產一帥一服一電一玩
電子產晶$
個人電腦
錄影機 電視機PDA
性資料發揮下探的能力。例如,從整 個公司的銷售開始,使用者可以下探 分區域的銷售、再區分業務辦公室、 再區分出個別的業務員之銷售成績, 如圖 l 所示。 (二)上捲 (Roll-up) 根據維度層級的關係,縮小成摘 要性資料。例如圖 2 下方為某工廠一~ 三月產晶生產量,甲工廠與乙工廠生 產量互有高低,若欲尋找每季各工廠 生產量的趨勢情形,可經由上捲功能 查詢第一季至第四季的生產量摘要 (如圖 2上方) ,便可發現長期以來,乙 工廠生產量明顯高於甲工廠。(二) 切片及切丁 (Slicing
and
Dicing)
在OLAP系統中是以多維度資料的
瀏覽來擷取資料,而多維度的概念可 由立方體的模型來比擬。在資料的分 析上,同樣的資料對不同的使用者來 說,會因其所持的觀點不同而代表不 圖 1Drill-Down
33
2002 年9 月 't{r~科技教育 35 卷9 期同的意義。從不同的觀點來分析資料 可比擬為不斷地切割立方體方式來呈
現,所以稱為切片及切丁。
(三)轉軸 (Pivot) 若以報表為例,報表是一個二維 度的資料空間,而轉軸則是使用者觀 看報表的角度從橫的基準移到縱的基 準。例如可以將報表中月份的軸移到 直的方向上(由上到下排列) ,同時將 產品維度移到橫的方向上(由左向右 排列) ,然後還可以將同一產品別再按 業務部門區分,或反過來先以業務部 門別之後再按產品區分,如圖3所示。第二季
45
67
第三季34
第四季56
91
單位仟髓
月
二月 三月甲工廠
叫 川口…30
26
22
乙工廠…
28
30
32
圖 2Roll-up
銷售業績(千萬兀)第一季
產品 業務部門1 業務部門2 電子$5.2
$8.9
化妝品$1.
9
$0.75
業務部門 1 服飾$2
.3
$4.6
玩具
$1.
1
$1.
5
電子$8.9
化妝品$0.75
業務部門2 服飾$4.6
玩具
$1.
5
圖 3Pivot
判UV 仇y 卷 c 、 v 串門 1" 教 2 技 主利 侃一活叩一生
34
四、 Cube自由意義 Cube是OLAP資料庫的主要物件, 使用者必須依實際需求來建立自己的 cube' 例如:與銷售有關的cube和與庫 存有關的 cube 等。 Cube包含以下元件
(方盈,民90)
(一)資料來源(data source)
用來定義 cube 的資料來源並且連 接資料來源的資料庫。例如:可透過 ODBC 介面定義 cube 的資料來源為 Oracle 資料庫上的資料。 (二)維度(dimension)
維度將 cube 內的資料映射成不同層次的資料表示方式,而維度不外分
為人、事、時、地、物等。例如:將 銷售資料按時間區分的話就可區分為 日、月、季、年等層次;若按顧客的 年齡來分析的話則可依每十歲一個階 層來加以分析。 (三)量值 (measure) Measure 一般是 cube 資料內的數值 欄位(亦可為非數值欄位) ,也是在整 個分析過程中使用者最感興趣的項 目。例如:銷售金額、產品價格、庫存量等。
(四)分割 (partition) Cube 可以實際需求將它儲存在不 同的分割下,例如:將每年的銷售資 料分別儲存在不同的分割下。將 cube 的 資料分成 partition 的最大好處是為了查 詢效能的考量,因為可以將不同的分 割存放在不同的硬碟上,這樣便能增 加查詢的速度。(五)角色 (roles)
Roles 是用來管理使用者存取 cube
35
內資料的權限控制。 五、 OlAP 的資料儲存模式OLAP
Service 提供了三種儲存模
式分別為 MOLAP 、 ROLAP 及
HOLAP' 此三種模式分別有其優缺 點,其間的差別在於佔用的儲存體和 查詢效能間的 trade off抉擇,詳細說明 如後(方盈,民 90) ,三者之優缺點比 較請參考表 1 (林裕仁,民 88)(一)
MOLAP (Multi-dimensional
OLAP) 多維式
Cube 的內部資料和彙總資料皆擺 放在OLAP 的資料庫內,以多層次的資料架構 (multi-dimensional
structure)
來儲存。這樣的結果雖然需要耗費大 量的儲存容量,但是卻可以提昇查詢的效率。
(二)
ROLAP (Relational OLAP)
關聯式 Cube 的內部資料和彙總資料皆擺 放在原有的 RDBMS 上。此種架構可以 使用既有的硬體設備和軟體工其來建
立自己的 OLAP 系統,其好處是可以降
低成本,不過在資料查詢的效能上會 打些折扣。(三)
HOLAP (Hybrid
OLAP) 混
合式 Cube的內部資料在原有的 RDBMS 上,但彙總資料則以多維度架構的方 式儲存在 OLAP資料庫上。此種架構的
好處是資料不必重複地儲存在 OLAP資
料庫和 RDBMS 上,但查詢效能上會比 MOLAP差一點。 參、 OlAP 與資料倉儲的關係 2002 年9 月 生活科技教育 35 卷9 期一、 OlAP為資料倉儲的一種應用 資料倉儲的應用相當廣泛,因為
它是所有應用的基礎,一般來說有
Forecast
、 DataMining
、 OLAP 、 Report 四種應用,其關係如圖4 。 由技術人員的角度來看,我們可 以對資料倉儲進行查詢、列印報表, 並利用它來做計畫、分析、預測、模 擬、建立模式、發出預警、財務、會 計的整合、比較等。所以資料倉儲可 以應用在決策支援系統 (DSS) 、高階 主管資訊系統 (EIS) 、管理報表系統表 1 MOlAP 、 ROlAP 、 HOlAP之優缺點比較
﹒彈性較佳,變更設計較易,可 支援中大型資料倉儲需求 關聯式 |﹒適應性良好,對資料較不挑剔
ROLAP
I ﹒建檔速度較快
﹒開放式技術,開發人才與工具
較好找﹒查詢速度介於MOLAP 與
ROLAP兩者之間混合式
|﹒建檔速度極快,擴展性佳,可
HOLAP
I
支援大型資料庫 ﹒資料模組設計彈性佳,適用ERModel
資料來源:林裕仁,民88 0多維式
MOLAP
﹒查詢速度極快 ﹒硬體設備要求較低 ﹒簡單、好用,使用者不需有資 訊技術背景亦會使用 ﹒分析、評比、數學功能強 ﹒易於維護 ﹒資料建構 (Load) 速度慢 ﹒由於建檔速度慢,一般的多 維式資料庫不能太大 ﹒架構缺乏彈性,如果需變更 設計,必須重新建置資料庫 .對資料比較挑剔,不是每種 資料都適用於MOLAP ﹒資料重複性高、專屬性技術與開放性較差
﹒查詢速度一般較MOLAP慢 .SQL查詢是對非資訊背景的 人員一項挑戰 .SQL有些先天限制,難以執 行許多複雜的查詢 .對硬體設備要求比較高 ﹒微觀查詢速度極慢 .SQL有些先天限制,難以執 行許多複雜的查詢 2002付毛9 月 生活科技教向'35 卷9 期36
事實 資料表 星狀綱要 雪花式綱要 星狀雪花式綱要 圖6 資料倉儲的綱要的三種架構 一個資料倉儲是由事實資料 (Fact
Data) 與維度資料 (Dimension
Data)
所組成的,事實資料是能夠反應過去 事實的資料,而維度資料則是為了使 查詢更加快速而建立的索引參考資 料。一般來說,可以使用下述三種架 構來建立資料倉儲的綱要:星狀綱要