第三章 計畫績效管理方法之探討及應用
BCWP BCWS
3.4 資料探勘之基本理論與應用 [18] [19] [26]
本研究在公共建設計畫績效評估方面的探討,將不同以往僅能對績效指標 作靜態的評估,而是希望能建立動態之預測模型,進而評估績效指標。為了建 立此預測模型,則需透「資料探勘」技術,從公共建設計畫基本資料中,採擷 有用的訊息,以闡釋公共建設計畫之績效指標。所以本節即是對「資料探勘」
之理論及技術作簡單之介紹。
隨著資訊科技的日新月益,各產業面臨與以往然不同的競爭環境,因此,
其經營的焦點已從以往的資料整理與蒐集,轉變成如何有效的利用資料來進行 資訊的獲取,並轉換成有用的訊息,以供決策。而這樣的技術在最近幾年逐漸 受到各界的重視將之稱「資料探勘(Data Mining, DM)」。
3.4.1 資料探勘之內涵
資料探勘是近年來資料庫應用領域中,相當熱門的議題。它是以自動化或 半自動化(Semi-automatic)的程序來分析大量的資料,以建立有效的模型(
Model)及規則(rule),其處理機制如圖 3-4 所示。
圖 3-4 資料探勘處理機制
資料庫 Database
資料探勘工具
Data Mining Tools
視覺化表示工具
Presentation Visualization Tools
評估與展現
Evaluation and Presentation
由圖 3-4 可瞭解,資料探勘所要處理的問題,就是在龐大的資料庫中尋找 出價值的隱藏事件,並且加以分析。並透過視覺化方式,將由資料庫中所獲取 的有意義資訊或歸納出之結構模式,展現其效果,以作為產業在進行決策時之 參考依據。所以資料探勘並不只是一種技術或是一套軟體,而是一種結合數種 專業技術的應用。
3.4.2 資料探勘的組成
由於資料探勘是指找尋隱藏在資料中的訊息,如趨勢(Trend)、特徵(Pattern
)及相關性(Relationship)的過程,也就是從資料中發掘資訊或知識,目前已 被許多研究人員視為結合資料庫系統與機器學習技術的重要領域,許多產業界 人士也認為此領域是一項增加各產業潛能的重要指標。
如果能透過資料探勘技術,從巨量的資料庫中,探勘出不同的資訊與知識 出來,作為決策支援之用,必能產生企業的競爭優勢。所以資料探勘可說是由 下列六個領域結合而成,其關係如圖 3-5 所示。
z 資料庫系統或資料倉儲(Database systems or Data Warehouses)
z 機械學習(Machine learning)
z 統計學及資料分析方法(Statistical and data analysis methods)
z 視覺化(Visualization)
z 數學程式(Mathematical programming)
z 高效率之計算(High performance computing)
圖 3-5 資料探勘之關連技術圖
3.4.3 資料探勘之研究流程
資料探勘之研究架構,可分成如圖 3-6 等五個步驟,分別為定義研究目的 與問題所在、決定資料來源與蒐集方式、資料探勘的前置處理、資料探勘及資 料探勘後的評估與報告。整個分析過程,基本上是由左至右做分析的流程,必 要時在每個步驟都可往回走,以下對上述五大項略做敘述:
圖 3-6 資料探勘之研究架構圖 資料庫系統
資料倉儲
人工智慧 統計學 機械學習
(Statistice)
視學化表達 規則及趨勢 前
中
後
Time
定義研究目的 決定資料來源 與蒐集方式
資料探勘的
前置處理 資料探勘 資料探勘後的
評估與報告
(一)定義研究目的與問題所在
在研究的過程中首先要確定研究的目的及釐清研究的問題主軸,進而從中 尋適合的研究方法或技術。
(二)決定資料來源與蒐集方式
資料探勘所需的資料,最好的情況是資料都是立即可用的。然而,經常事 與願違,資料往往散佈在各種不同的系統中,此時則需依據資料探勘的目的,
蒐集所需資料。
(三)資料探勘的前置處理
要直接從資料庫中挖掘出我們要的有用資訊,是非常不容易的,所以要適 當的減少資料量、加入其他需要的資料、對資料做編碼或轉換等方法,以便在 進行後續分析時會更有效率。
(四)資料探勘作業
在整個分析的過程中,以這個步驟最為重要,要找出有用的特徵或是資訊,
需利用探勘的技術或工具來予以協助,有關探勘的工具將於後續小節介紹。
(五)資料探勘後的評估與報告
經過資料探勘所得到結果,可以透過不同的評估方法及評估標準,求得探 勘結果之可信度及準確度,並可用比較容易瞭解的圖形表示,以提供決策高層 做為決策的參考。
3.4.4 探勘作業流程
上節所述之研究流程中之第 4 步驟「資料探勘作業」是整個資料探勘技術 的軸心,也就是預測模型的建立。無論運用何種資料探勘技術,建立預測模型 的基本程序都一樣,預測模型的成功因素,依賴建立模型的過程,而非技術。
(一)利用模型資料組中部分集合,稱為訓練集合(training set),來訓練模型。
在步驟,會利用資料探勘演算法或技術來找出預測值的規律,惟利用訓 練集來建立模型所產生的模型可能會太過寬鬆。
(二)利用模型資料組成另一個部分集合,稱為測試集合(test set),藉由某些 資料探勘的技術,如類神經網路或決策樹來測試修正模型。修正模型的 目的是為了避免模型將訓練資料集合的資料記憶下來,以確保模型的一 般性,並也能有效地預測尚未發現的資料。
(三)利用第三個資料集合,來預估模型的效能,或比較不同模型的效能。此 資料組完全不同於第一或第二個資料組,稱為評估集(evaluation set),
亦即利用評估集來預估模型應用在模型資料組外的資料時,所預期的準
(四)最後,將產生的最佳模型應用到評分資料組(score set)中,評分資料組 並沒有預先分類好,也不是模型資料組的一部分,在事先不會知道此資 料的預測結果,這此預測分數提供商業決策更多的參考資訊。
圖 3-7 模型建立及應用的步驟 模型
(粗略)
模型 (最適化) 訓練集
測試集 模型
(修正過後)
評估集
評分
資料集 測
量
上述之資料探勘作業流程,對於本研究在建立預測模型的工作上,提供了 非常重要的遵循法則,尤其是模型資料集合的觀念,就是本研究在建置預測模 型之核心。
3.4.5 探勘工具
資料探勘的工具是利用資料來建立一些模擬真實世界的模式(Model),利 用這些模式來描述資料中的特徵(Patterns)以及關係(Relations)。這些模式有 兩種用途,一為瞭解資料的特徵與關係可以提供你做決策所需要的資訊,另一 為資料的特徵可以幫助你做預測。各種探勘工具簡述如下。
一般而言,資料探勘的理論技術可分為傳統技術與改良技術兩支。另外,
還有其他探勘工具,屬於改良型的技術。
(一)傳統技術
傳統技術以統計分析(Statistics Analysis)為代表,舉凡統計學內所含之敘 述統計、機率論、迴歸分析、類別資料分析等皆屬之,在資料探勘過程中,除 可對資料作簡單的統計運算,包括平均數、標準差、變異係數等外,亦可對兩 組資料的分配及特性作比較,所以此方法在資料探勘過程特別常用。
(二)改良技術
1、購物籃分析(Market Basket Analysis, MBA)與群集偵測(Cluster Detection),二者是一種來將相似性質的資料分群以建立模型的技術,
其目的是要將組與組之間的差異找出來,同時也要將一個組之中的成 員的相似性找出來。
2、記憶基礎理解(Memory Based Reasoning, MBR)是利用已知的相似案 例資料來預測未知的模型。是直接用來預測和分析的資料探勘技術。
的問題和規則,同時提供分類和預測的常用方法。
4、類神經網路(Neural Networks)是一種模擬人腦思考結構的資料分析 模式,由輸入之變數與數值中自我學習並根據學習經驗所得之知識不 斷調整參數以期建構資料的型樣(patterns),以逼近輸入相似的參數 就會有相似的結果。
5、基因演算法(Genetic Algorithms)是採用相同的概念,讓生存的適者繼 續繁衍其基因,不適者則被淘汰,盡而增加個體對環境的適應性來解 決問題。
(三)其他技術
其他有用的資料探勘技術尚有,相關性分析(Find Dependencies)可以找 出對資料搜尋最重要的變數或發現規則以外的錯誤及例外資料點;經驗法則萃 取(Find Laws)可以建立完整的數學結構,藉此對一個連續變數做預測,並解 釋資料中所存在的關係;區別分析(Discriminate)可以將資料分成兩類別並加 以比較,找出其差異性亦可預測一個資料點是屬於那個資料集。
在大量的探勘資料中,我們可以套用多種資料探勘的技術來定義模式,不 同的應用程式型態使用不同的資料探勘技術。在後續建置預測模型研究過程 中,吾人將依據資料的特性及預測目的選擇適合的「資料探勘」技術。
3.4.6 資料探勘的功能及用途
資料是現代企業的核心,它源自於交易,而且成為許多產業的基礎。資料 探勘的功能便是在這數以億位元計的資料中找出有用的規律。但是僅是找出規 律是不夠的,必須透過找出規律的行動,將資料轉為資訊,再將資訊晉升為行 動,而且透過行動產生價值,這正是資料探勘工作循環的真意。
資料探勘每個活動的過程,都是從資料中,粹取出有意義的新資訊,其主 要目的是用以發現資料庫擁有者先前關心卻未曾知悉的「有價值」資訊,以及 模式的建構或資料樣式的決定。所以,資料探勘可用來將有意義的資料,依其 規則作分類(Classification)、關聯分組(Affinity Grouping)或群集(Clustering
)動作;或依據資料的特徵進行推估(Estimation)及預測(Prediction)、亦可 具以描述(Description)探勘結果,並以視覺化(Visualization)方式展現探勘 成果。
因此,資料探勘在各領域的應用非常廣泛,例如:可以用在產品製造週期 最開始的研發階段,以降低成本如;用在市場行銷的領域,以資料庫市場行銷
(Database Marketing)觀念,來節省成本及增加收益;透過資料探勘應用程式
(Database Marketing)觀念,來節省成本及增加收益;透過資料探勘應用程式