資料探勘之研究流程 - Evaluation and Presentation - 營建專案績效前瞻預測與成因萃取之探討(II)

Evaluation and Presentation

2.3.3 資料探勘之研究流程

整體而言，欲進行資料探勘前，需由管理或企業目標確認欲探勘之成果為何，據此以選取合適之資料探勘技術。透過資料探勘之研究流程（如圖2.5所示），分別為定義研究目的與問題所在、決定資料來源與蒐集方式、資料探勘的前置處理、資料探勘及資料探勘後的評估與報告，得以在大量的資料裡，透過多樣資料探勘的技術，來探討潛在之技術與管理模式。以下茲就上述的研究流程略做敘述：

圖2.5 資料探勘之流程.

2.3.4 資料探勘工具

資料探勘的工具主要乃提供一平台協助分析者，透過資料之分析建立模擬真實世界的模式與經驗法則。利用這些模式與經驗法則來描述資料中的特徵(patterns)以及關係(relations)。這些模式有兩種用途，一為瞭解資料的特徵與關係可以提供你做決策所需要的資訊，另一為資料的特徵可以幫助你做預測。

一般而言，資料探勘的理論技術可分為傳統技術與改良技術兩支。另外，還有其他改良之資料探勘技術。茲將目前常用之探勘工具及其對資料探勘功能之適用性彙整如表2.7所示。以下便針對資料探勘的理論技術做一介紹。

表2.7 各項資料探勘技術適用之功能分

類

推估

預測

關聯分組

群集化

描述

視覺化統計分析 ◎ ◎ ◎ ◎ ◎ ◎ ◎

關聯規則 ◎ ◎ ◎ ◎ ◎

序列型樣 ◎ ◎ ◎ ◎

記憶基礎理

解 ◎ ◎ ◎ ◎

群集偵測 ◎

決策樹 ◎ ◎ ◎ ◎

類神經網路 ◎ ◎ ◎ ◎ 基因演算法 ◎ ◎

連結分析 ◎ ◎ ◎

相關分析 ◎ ◎

經驗法則萃

取 ◎ ◎ ◎ ◎

區別分析 ◎ ◎ 功能

技術

3-25

一、傳統技術

傳統技術以統計分析(Statistics Analysis)為代表，舉凡統計學內所含之敘述統計、機率論、迴歸分析、類別資料分析等皆屬之。

此外由於資料探勘對象多為變數繁多且變數龐大的資料，所以高等統計學中之多變量分析的技術也常被使用。如用來精簡變數的因素分析(Factor Analysis)、用來分類的判別分析(Discriminant Analysis)以及用來區隔群體的分群分析(Cluster Analysis)等。

二、改良技術

1. 關聯規則(Association Rules)

關聯規則有時也稱為嗜好群聚(affinity grouping)是群集分析的一種型式。其最常被用來找尋在同一筆交易中，最常一起發生的物品。

2. 序列型樣(Sequential Pattern)

序列型樣與關聯規則推導方式相似，不同的是序列型樣技術的重點在於另外考慮了時間的因素，可以分析不同項目發生的先後順序。

3. 記憶基礎理解(Memory Based Reasoning, MBR)

記憶基礎理解是利用已知的相似案例資料來預測未知的模型。是直接用來預測和分析的資料探勘技術。

4. 群集偵測(Cluster Detection)

群集偵測是一種來將相似性質的資料分群以建立模型的技術。其目的是要將組與組之間的差異找出來，同時也要將一個組之中的成員的相似性找出來。

5. 決策樹(Decision Trees)和歸納規則(Rules Induction)

決策樹是同時提供分類和預測的常用方法。是經由一連串的

問題和規則將資料分類，可以藉由相似的型態來推測相同的結果，。

6. 類神經網路(Neural Networks)

類神經網路是一種模擬人腦思考結構的資料分析模式，由輸入之變數與數值中自我學習並根據學習經驗所得之知識不斷調整參數以期建構資料的型樣(patterns)，以逼近輸入相似的參數就會有相似的結果。

7. 基因演算法(Genetic Algorithms)

基因演算法是採用相同的概念，讓生存的適者繼續繁衍其基因，不適者則被淘汰，盡而增加個體對環境的適應性來解決問題。

三、其他改良技術

其他有用的資料探勘技術尚有，相關性分析(Find

Dependencies)可以找出對資料搜尋最重要的變數或發現規則以外的錯誤及例外資料點；經驗法則萃取(Find Laws)可以建立完整的數學結構，藉此對一個連續變數做預測，並解釋資料中所存在的關係；區別分析(Discriminate)可以將資料分成兩類別並加以比較，找出其差異性，亦可預測一個資料點是屬於那個資料集。

本研究即期望利用資料探勘「分類」、「預測」與「關聯分組」的功能，將蒐集的資料彙整成一個小資料庫，並利用適當的探勘工具，經由「有意義」資料的探索，找出資料的規則性，建立完整的數學結構，藉此將變數做預測，並解釋資料中所存在的關係，以提供決策者所需之資訊。

3-27

在文檔中營建專案績效前瞻預測與成因萃取之探討(II) (頁 24-28)