Evaluation and Presentation
2.3.3 資料探勘之研究流程
整體而言,欲進行資料探勘前,需由管理或企業目標確認欲 探勘之成果為何,據此以選取合適之資料探勘技術。透過資料探 勘之研究流程(如圖2.5所示),分別為定義研究目的與問題所 在、決定資料來源與蒐集方式、資料探勘的前置處理、資料探勘 及資料探勘後的評估與報告,得以在大量的資料裡,透過多樣資 料探勘的技術,來探討潛在之技術與管理模式。以下茲就上述的 研究流程略做敘述:
圖2.5 資料探勘之流程.
2.3.4 資料探勘工具
資料探勘的工具主要乃提供一平台協助分析者,透過資料之 分析建立模擬真實世界的模式與經驗法則。利用這些模式與經驗 法則來描述資料中的特徵(patterns)以及關係(relations)。這些模式 有兩種用途,一為瞭解資料的特徵與關係可以提供你做決策所需 要的資訊,另一為資料的特徵可以幫助你做預測。
一般而言,資料探勘的理論技術可分為傳統技術與改良技術 兩支。另外,還有其他改良之資料探勘技術。茲將目前常用之探 勘工具及其對資料探勘功能之適用性彙整如表2.7所示。以下便 針對資料探勘的理論技術做一介紹。
表2.7 各項資料探勘技術適用之功能 分
類
推 估
預 測
關 聯 分 組
群 集 化
描 述
視 覺 化 統計分析 ◎ ◎ ◎ ◎ ◎ ◎ ◎
關聯規則 ◎ ◎ ◎ ◎ ◎
序列型樣 ◎ ◎ ◎ ◎
記 憶 基 礎 理
解 ◎ ◎ ◎ ◎
群集偵測 ◎
決策樹 ◎ ◎ ◎ ◎
類神經網路 ◎ ◎ ◎ ◎ 基因演算法 ◎ ◎
連結分析 ◎ ◎ ◎
相關分析 ◎ ◎
經 驗 法 則 萃
取 ◎ ◎ ◎ ◎
區別分析 ◎ ◎ 功 能
技 術
3-25
一、傳統技術
傳統技術以統計分析(Statistics Analysis)為代表,舉凡統計學 內所含之敘述統計、機率論、迴歸分析、類別資料分析等皆屬之。
此外由於資料探勘對象多為變數繁多且變數龐大的資料,所以高 等統計學中之多變量分析的技術也常被使用。如用來精簡變數的 因素分析(Factor Analysis)、用來分類的判別分析(Discriminant Analysis)以及用來區隔群體的分群分析(Cluster Analysis)等。
二、改良技術
1. 關聯規則(Association Rules)
關聯規則有時也稱為嗜好群聚(affinity grouping)是群集分析 的一種型式。其最常被用來找尋在同一筆交易中,最常一起發生 的物品。
2. 序列型樣(Sequential Pattern)
序列型樣與關聯規則推導方式相似,不同的是序列型 樣技術的重點在於另外考慮了時間的因素,可以分析不同項目發 生的先後順序。
3. 記憶基礎理解(Memory Based Reasoning, MBR)
記憶基礎理解是利用已知的相似案例資料來預測未知的模 型。是直接用來預測和分析的資料探勘技術。
4. 群集偵測(Cluster Detection)
群集偵測是一種來將相似性質的資料分群以建立模型的技 術。其目的是要將組與組之間的差異找出來,同時也要將一個組 之中的成員的相似性找出來。
5. 決策樹(Decision Trees)和歸納規則(Rules Induction)
決策樹是同時提供分類和預測的常用方法。是經由一連串的
問題和規則將資料分類,可以藉由相似的型態來推測相同的結 果,。
6. 類神經網路(Neural Networks)
類神經網路是一種模擬人腦思考結構的資料分析模式,由輸 入之變數與數值中自我學習並根據學習經驗所得之知識不斷調 整參數以期建構資料的型樣(patterns),以逼近輸入相似的參數就 會有相似的結果。
7. 基因演算法(Genetic Algorithms)
基因演算法是採用相同的概念,讓生存的適者繼續繁衍其基 因,不適者則被淘汰,盡而增加個體對環境的適應性來解決問題。
三、其他改良技術
其他有用的資料探勘技術尚有,相關性分析(Find
Dependencies)可以找出對資料搜尋最重要的變數或發現規則以 外的錯誤及例外資料點;經驗法則萃取(Find Laws)可以建立完整 的數學結構,藉此對一個連續變數做預測,並解釋資料中所存在 的關係;區別分析(Discriminate)可以將資料分成兩類別並加以比 較,找出其差異性,亦可預測一個資料點是屬於那個資料集。
本研究即期望利用資料探勘「分類」、「預測」與「關聯分 組」的功能,將蒐集的資料彙整成一個小資料庫,並利用適當的 探勘工具,經由「有意義」資料的探索,找出資料的規則性,建 立完整的數學結構,藉此將變數做預測,並解釋資料中所存在的 關係,以提供決策者所需之資訊。