資料探勘的處理流程

第二章文獻回顧

第五節資料探勘的處理流程

資料探勘是一種採擷知識的過程，是結合許多種不同領域專業技術的應用方式，因此資料探勘在應用於不同範圍的工作時，常會因工作性質的不同，而採用不同的方式或流程(謝邦昌、鄭宇庭、蘇志雄，2011)。由於資料探勘目前已廣泛應用於在各領域的工作上，因此也發展出許多不同的應用軟體支援資料探勘的工作流程。目前已有許多的組織或是公司發展自己的資料探勘標準流程，如 SAS 公司發展的 SEMMA、歐洲商業聯盟提出的 CRISP-DM 等…。此外，亦有多位學者對資料探勘的流程進行定義，其中有 Fayyad & Stolorz(1997)所認為的資料選擇與抽樣、預處理、轉換、探勘、評估效益與解釋與應用六階段；Cabena et al.(1997) 所提出的五階段：定義問題、資料準備、選擇演算法、解釋與評估、分析結果與應用；Dunham(2002)所主張的五步驟為選擇(Selection)、前處理(Preprocessing)、

轉換(Transformation)、探勘(Data mining)、視覺化呈現(Interpretation)；Han &

Kamber ,& Pei(2005) 將流程分成七個步驟，包含 Data Cleaning、Data Integration、

Data Seletcion、Data Transformaton、Data Mining、Pattern Evaluationc 和 Knowledge Presentation。而 SAS 的 SEMMA 流程則為資料取樣(Sample)、資料探索(Explore)、

資料整理(Modify)、建立模型(Model)與模型評價(Access)五個階段。其中以 CRISP-DM(Cross Industry Standard Process for Data Mining)標準為最多數使用者採用的流程(廖述賢、溫志皓，2012)。因此，本研究採用 CRISP-DM 的方法來規劃所需資料探勘工作的流程，故將 CRISP-DM 的源起與其流程詳細說明之。

CRISP-DM 流程標準是於 2000 年後由統計軟體公司 SPSS(2009 年被 IBM 併購)、德國汽車公司 Daimler-Chrysler、資訊與自動化服務供應商 NCR、荷蘭銀行

保險公司 OHRA 這家公司組成的委員會共同討論與制定，其中 NCR 與 SPSS 提供許多實務上的經驗，讓 CRISP-DM 的標準能更符合實用上的需要。CRISP-DM 流程強調資料探勘的完整過程須包含對需求的了解與對結果的評估都是不能缺少的部份，並非只有資料的清理、分析和模型建立。因此 CRISP-DM 能以方法學的角度來說明資料探勘的流程，其範圍能適用於任何的領域資料與演算法(謝邦昌、鄭宇庭、蘇志雄，2011)。

與傳統的演算分析流程不同，CRISP-DM 是一循環的過程，其流程分成問題理解(Business Understanding)、資料理解(Data Understanding) 、資料預備(Data Preparation) 、模型建立 (Modeling) 、評估與解釋 (Evaluation) 、部署與實施 (Deployment)六個階段(Phases)(如圖 2-2 所示)。此六個階段形成一個迴圈(circle) 的過程，如果在某一階段中發現問題，都可以隨時依流程圖的順序進行回饋與修正，讓資料探勘所得到的結果更能符合使用者的需要。因此，在進行資料探勘時要特別注意各階段進行時所發生的問題和狀況，並適當的返回前面的階段進行修正後再繼續，這樣所產生的結果或模型才不會建立在錯誤的基礎上。

5.評估解釋(

6.部署實施

4.模型建立資料(Data)

3.資料預備 2.資料理解

1.問題理解

圖2-2 CRISP-DM 階段圖 資料來源：Chapman et al.(2000)

以下對 CRISP-DM 的六個階段步驟詳細說明如下(廖述賢、溫志皓，2012) (Olson & Shi， 2008) (Efraim ,Ramesh & Dursun，2010)：

一、問題理解(Business Understanding)：

從深入分析與理解問題或需求開始，進行資料探勘初步構想的擬定，並將目標或問題定義清楚，分析此目標或問題是否能使用資料探勘的技術來達成或解決。最後要制定一專案計畫來處理整個資料探勘的工作。

二、資料理解(Data Understanding)：

此階段包含定義資料探勘所需的資料來源，並進行資料蒐集工作。另外也可能需要建立資料庫或從現有資料庫中進行選擇，或是對將被探勘的資料進行整理與品質的評估工作。

三、資料預備(Data Preparation)：

是六個階段中需花費最多時間的一個階段。因為大部分的原始資料都是雜亂且不完整的，同時不適當的資料規劃會使資料探勘的效率不佳與得不到需要的結果。因此在資料探勘的工作中，此一步驟常常被反覆執行，以獲得最好的結果。資料預備的工作包含資料的整合、清理、轉換、精簡等方法，

其目的為增加資料的品質，讓資料能準備好被探勘，以順利產生一有實用性的模型。在實務的操作上，可能會將準備好的資料分成數個部份，包含探勘用資料、測試用資料與評估用資料。

四、模型建立(Modeling)：

這是實際對資料進行探勘的階段，使用特定的探勘方式或演算法對資料進行探勘，以建立解決問題的模型。此階段必須依據第一階段的目標或是問題進行合適的資料探勘方法選擇的工作。不同資料探勘演算法或方法有不同的特性與使用限制，如果選錯方法，就無法得到正確且有效的模型。且不同的方法有其資料格式的要求與限制，一旦更換方法就必須先將資料重新格式化，因此常需要回到資料準備階段，以符合新方法的需要。在實務操作上，

本階段需要選擇合適的演算法與決定該演算法的訓練參數。訓練參數的選定是一件十分重要的工作，必須依照探勘資料的特性決定最佳的參數內容，因為每一個參數都會影響到演算法的處理結果。

五、評估與解釋(Evaluation)：

在得到了探勘的成果或模型之後，評估前一階段的成果是否符合第一階段所定義的目標即是本階段的工作。因此本階段是最具關鍵性的步驟，一旦評估後發現所得到的成果或模型無法滿足目標或使用者需要，或是不具有實

用性的價值，則表示之前的工作是無效的，因此必須將流程導回第一階段的問題理解，重新進行 CRISP-DM 流程，找出合適的發展方向。為能清楚的展示和評估得到的結果，本階段在實務上會採用大量的圖表或視覺化的技術來解釋所得到的成果的實用價值。

六、部署與實施(Deployment)：

此為資料探勘工作的結果應用階段。將探勘工作所得到的成果轉換成報告或是實際應用的方法，以改善現狀。本階段其他的工作包含監控成果應用的情形、驗證成果在不同的資料的實用性、維護整個探勘結果的應用以達成改善的目標等…。

第六節資料探勘的功能

資料探勘的發展源起於商業資料庫的分析與運用，其發展的方向與實務運用上有十分密切的關係。加上目前各領域工作都累積了大量的歷史資料，因此引起人們對於資料運用的興趣，也期望能從資料的探索中發掘出能帶領人類往前邁進的知識。因此許多基於實用需求的功能因此被開發，如美國連鎖商店對消費者購物紀錄進行資料探勘分析後發現尿布與啤酒的關聯規則(張云濤、龔玲，2012)。

資料探勘與統計分析都是以大量資料為對象進行分析研究的技術，所以在功能名稱上有些類似，但是在實際使用的目的、條件、過程與限制上卻有許多的差別，

因此在使用上仍需依實際需求判斷應使用何種分析方式(廖述賢、溫志皓，

2012)。以下將多位學者專家對於資料探勘的功能整理歸納如下表 2-8 所示：

表 2-8 資料探勘功能之相關研究

作者 ( 年代 ) 資料探勘的功能

孫惠民(2007) 關聯規則(Association Rule)、集群規則(Clustering)、分類規則(Classification)、預測分析(Prediction)、趨勢分析 (Trend)、偏差分析(Deviation)、總結規則(Summarization Rule)。

Olson & Shi(2008) Classification(分類 ) 、 Prediction(預測 ) 、 Association( 關聯)、Detection (偵測)。

Efraim ， Ramesh &

Dursun(2010)

Prediction (預測)、Association (關聯)、Cluster (集群)、

Sequential Relationship (順序關係)。

謝邦昌、鄭宇庭、蘇志雄(2011)

分類(Classification)、推估(Estimation)、預測(Prediction)、

關聯分組(Affinity grouping)、同質分組(Clustering)。

廖述賢、溫志皓 (2012)

分類(Classification)、推估(Estimation)、預測(Prediction)、

集群 (Clustering) 、關聯 (Association Rule) 、順序 (Sequential)。

a資料來源：研究者自行整理可依受益值(Gain)或增益圖(Lift Chart)來判斷探勘結果的好壞。以下將此六種功能分述如下：

一、關聯(Association)：

其目的為找出哪一些事情總是會同時發生，或是有一定強度的聯結關係。其常應用於商業交易上的購物分析之中，以協助賣方制定增加銷售量的策略，因此又稱為購物籃分析(Basket Purchases Analysis) (Berry & Lionoff，

2004)。其可衍生出連結分析(Link Analysis)與序列探勘(Sequence Mining)的

應用方式。在實際上常用的演算法有 Apriori、FPGrowth、OneR、Zero-R 與 Eclat。

二、集群(Clustering)：

又稱為群集分析或是同質分組，是屬於非監督式的分析方式，將資料分割成數個群組，形成群組內同質性高，不同的群組則有明顯的差異性，其目的為建立群組，並找出各群組內的共同特性，以協助決策。集群功能常用的演算法包含 K-means、華德法（Ward's Method）和 K-means 組合之兩階段法、凝集群法(Agglomeration)與自我組織圖(Self-Organizing Map)。

三、分類(Classification)：

分類與集群看似相同，其實是不同的分組方式。分類是屬於監督式的分析方式，其亦為最常使用的資料探勘功能(Efraim，Ramesh & Dursun，2010)。

其目的為檢視所有資料的特性，並依照預先定義的類別法則將資料分成數類，最終能自動產生可預期未來新資料的類別模式。在實務上常使用的演算法有決策樹(Decision Tree)、類神經網路(Neural Network)、基因演算法 (Genetic Algorithms)、羅吉斯迴歸（Logistic Regression)與支援向量機(Support Vector Machine)。

四、預測(Prediction)：

是依據資料的歷史屬性來猜測屬性的未來可能性。其目的為找出能估計某種標準或是因變數值的獨立自變數的組合或是公式，也就是未來的數值或是趨勢。預測功能常使用的方法有迴歸分析（Regression Analysis）、時間序列分析(Time Series Analysis) 與類神經網路。

五、推估(Estimation)：

推估和分類的不同在於推估的結果為連續性的數值，其目的的重點不放在判定與分類上，而是觀察數值結果的趨勢與未來發展(尹相志，2006)。推估功能常使用的演算法有類神經網路、迴歸分析與相關分析 (Correlate

六、順序(Sequential)：

順序與關聯的分析方法十分類似，唯一不同的是順序分析的資料是以時間進行區分，因此其目的亦為發現有時間順序為基礎條件的關連性。也正因順序的關連性是有時間的註解，其所得的結果也能作為判斷趨勢的參考依據。順序功能常使用的演算法有時間序列分析(Time Series Analysis)。

本研究擬以資料探勘的方式建立學校建築耐震能力評估的預測系統，其結果的重點為能力評估的預測，因此在功能上可使用分類、預測與推估，其相對的適用演算法有決策樹、類神經網路、基因演算法、迴歸分析等…。在後續的研究中將依研究資料的性質與使用軟體的特性來選擇不同的演算法進行資料探勘的分析工作，並比較其預測模型是否符合本研究目的的需求，最後採用最符合研究需求的模型建置學校建築物耐震能力初步評估系統。

在文檔中應用資料探勘技術於學校建築耐震能力評估之研究 (頁 47-55)

第二章 文獻回顧

第五節 資料探勘的處理流程

第六節 資料探勘的功能

第二章文獻回顧

第五節資料探勘的處理流程

第六節資料探勘的功能