• 沒有找到結果。

第二章 文獻探討

2.4 資料倉儲(Data Warehouse, DW)

2.4.2 資料倉儲的架構

3. 不變動性(Nonvolatile)

資料一旦確認寫入到資料倉儲之後,即不允許變動,表示資料的操作只 料,經過結構化的轉換,以利於資料的查詢及分析。Inmon 和 Kimball 的概念兩 方陣營的支持者也爭論了十幾年,堪稱是資料倉儲討論最熱烈的年代。兩位學者 最大的差異,在於對資料倉儲的資料模式看法不同,Inmon 認為資料倉儲的資料 模型應該以三階正規化的型式儲存資料;相比之下Kimball 的作法較為簡單,提 出維度模式(Dimension Model)的資料模型,分為事實資料表(Fact Table)和維度資 料表 (Dimension Table)。

2.4.2 資料倉儲的架構

資料倉儲的架構與建置,以Inmon 和 Kimball 最為有名,彼此也有眾多的支 持者持續爭論著。Inmon 建議由上而下(Top-down)的方式建置一個資料集中整合 的大型資料儲存,稱之為企業級資料倉儲(Enterprise Data Warehouse)。Kimball 建議由下而上(Bottom-up)的方式建置,根據不同的主題,在不同的時間點,建立 資料超市(Data Marts),透過整合或合併,將多個資料超市整合成一個資料倉儲。

由於Kimball 的概念比較簡單,因此大部分的資料倉儲建置都是採用 Kimball 的

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

較多(Velicanu, 2007)。

1. 由上而下(Top-down)

Inmon(2005)主張由上而下的建置方式,認為要先建立一個企業級的資 料倉儲,然後才根據不同的主題從資料倉儲中萃取出來,建立成資料超市。

優點是能達到全面性的整合,統一企業資料倉儲模型的一致性,缺點是建構 時間較長,而且成本較為昂貴。

2. 由下而上(Bottom-up)

Kimball & Ross(2002)主張由下而上的建置方式,經過彙整需求後,據 此從資料來源處理轉換與清理工作,進入資料超市,由多個資料超市彙集至 資料倉儲。優點是建置流程具備彈性、低成本,缺點是不同資料超市整合的 問題,以及確保彼此資料的一致性。

由於由下而上的建置方式的起始成本較低,因此實務上大部分的資料倉儲都 是採用此種方式,也使得Kimball 的理論較受業界歡迎。而 Kimball & Ross(2002) 在The Data Warehouse Lifecycle Toolkit 一書中提到資料倉儲的基本元件包含以 下幾個部分,如下圖2-14:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖2-14 資料倉儲的基本元件 資料來源:Kimball & Ross(2002)

1. 來源系統(Source System)

異質性的資料來源,每一個獨立的系統採用不同的軟、硬體。主要是日 常交易系統的資料(On-Line Transaction Processing, OLTP),其特徵是處理例 行性的交易,要讓原始交易資料可以很快速的進行即時處理,並不會做太複 雜或超出預期的查詢。也有可能從其他外部匯入資料來源。

2. 資料緩衝區(Data Staging Area)

資料緩衝區在資料倉儲裡面,就如同工廠倉庫的卸貨區一樣,而來源資 料如同進貨的商品,將進貨的商品在卸貨區內做各式各樣的前處理。資料緩 衝區的主要程序包括萃取、轉換、載入(ETL):

到暫存的區域(Staging Area),等待處理。萃取的方式有兩種,第一種是 全部萃取,將來源系統的資料原封不動複製;另一種是增量萃取,只萃 取出表格中新增和修改的資料。

(2) 轉換(Transforming)

將從來源系統中萃取出來的資料,使用一系列預先設定好的嚴謹規 格和函數,進行資料清洗(Data Cleansing),達到資料一致性、錯誤更正、

合併資料等。

(3) 載入(Loading)

轉換好的資料,使用大量匯出資料的方法,將資料載入資料倉儲。

3. 資料呈現區(Data Presentation Area)

將資料緩衝區中處理好的資料儲存到資料呈現區,以供終端使用者查詢 或其它應用程式使用。資料呈現區通常是彙整好幾個來源系統,因此在資料 結構設計上,採用星狀結構(Star Schema)來儲存,讓資料查詢時獲得較佳的 效能。

4. 終端使用者存取工具(End User Access Tool)

使用者可以利用終端使用者存取工具,來查詢儲存在資料呈現區中的資 料,可能是簡單到需要使用者自己查詢的介面工具,也可能是複雜的報表應 用(Reporting)或資料探勘工具(Data Mining Application)。

使用者選擇何種終端存取工具,必須依據使用者的操作習慣做有效率的

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

使用。少部分的使用者懂得如何使用自行配置所要查詢的項目,然而大部份 的使用者需要藉由一些已經設定好的查詢方式,來查詢資料倉儲的資料。

相關文件