資料採礦概述

（Pattern）及相關性（Relationship）的過程，亦視為資料庫知識發掘（Knowledge Discovery in Database，KDD）其中的一部分，其為在資料採礦上的應用極為重要的影響，只有資料庫知識發掘才能確保資料採礦得到有意義的結果。根據 Fayyad（1996）等人對資料庫知識發掘的定義為：「KDD is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable

patterns in data」，他們認為在得到知識之前，原始資料必頇經過五個步驟的處理，其流程圖（見圖 2-1）及步驟如下：

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1、 Selection：了解工作並選擇所需的資料

2、 Pre-processing：將所需要的資料做前置作業，刪減不必要的資料 3、 Transformation：資料轉換或簡化工作

4、 Data Mining：利用資料的趨式，採取模型進行預測、分類或推估。

5、 Interpretation/Evaluation：解釋與評估資料

圖2-1 資料庫知識發掘之流程圖

二、資料採礦的步驟

資料採礦是在資料庫知識發掘流程的其中一個步驟，卻也是相當重要的一個步驟，隨著不同領域的不同問題需求，資料採礦的過程也會不同，分析人員所採用的資料採礦技術也會因資料特性而有所差異，而資料採礦完整的步驟如下：

1、理解資料與進行的工作

2、獲取相關知識與技術（Acquisition）

3、整合與查核資料（Integration and Checking）

4、去除錯誤或不一致的資料（Data Cleaning）

5、發展模式與假設（Model and Hypothesis Development）

6、實際資料採礦工作

7、測試與檢驗其資料（Testing and Verification）

8、解釋與使用資料（Interpretation and Use）

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

因此，資料採礦涉及了大量的準備工作和複雜的過程，而資料採礦的流程有許多種，使用者最常使用的流程為 CRISP-DM （CRoss-Industry Standard Process for Data Mining），此流程是 SPSS 和 NCR 在 1996 年時訂出的一套資料採礦標準程序，CRISP-DM 模型建構步驟及流程圖如圖 2-2：

圖2-2 CRISP-DM 模型建構流程圖

（資料來源：http://www.crisp-dm.org/）

CRISP-DM 將進行一個資料採礦專案分為六大階段，簡述如下：

1、定義商業問題（Business Understanding）

要想充分發揮資料採礦發現的知識價值，必頇要先對問題有一個清晰明確的定義，有了明確的問題定義，最後才能得到結果進行衡量的標準。因此，在初始階段著重於了解商業問題，從商業角度化的問題轉化為資料採礦問題，以符合資料採礦流程，並初步計劃目標。

2、定義分析資料（Data Understanding）

收集可用分析的完整資料，熟悉資料，並利用簡單的統計分析方法及統計軟

‧

3、資料準備（Data Preparation）

這是建立模型之前的最後一步資料準備工作。將原始資料加工成最後的資料，以用在資料採礦過程的資料表，準備工作可能要重複執行數次，是最耗時又費力的部分。此階段包含了資料選擇（Data Selection）、資料清理（Data Cleaning）、

資料擴充（Enrichment）及資料編碼（Data Coding）。

4、建立模型（Modeling）

資料採礦的功能可包含分類（Classification）、推估（Estimation）、預測

（Prediction）、關聯分組（Affinity Grouping）及同質分組（Clustering）等五項功能，簡述如下：

‧

1、分類（Classification）

分類是找出新事物特性，然後判斷該事物與現存集群何者比較類似，再將其歸類到該集群；分類的主要工作就是對現有集群的特性加以定義，並利用一些統計分析技巧來建立判別的準則，並利用該準則將尚未瞭解的資料加以分類。常用的方法有決策樹（Decision Tree）以及記憶基礎推理（Memory-Based Reasoning）

等。分類問題的應用如顧客的信用風測預測。

2、推估（Estimation）

推估是依據現有的連續性資料，來估計未知屬性；在實務上的運用大多與分類功能結合運用；常用的方法有相關分析、迴歸分析（Regression Analysis）與類神經網路（Neural Network）等。推估問題的應用如商品價格的趨勢變化。

3、預測（Prediction）

預測依據現有資料進行推測，估計未來的趨勢及數據，不論是分類、推估或預測都是利用現有資料來推測分類，而現有資料則是很好的資料來源，我們利用過去的數值來建立估計未來數值的模型。常用的方法有迴歸分析（Regression Analysis）、時間數列分析（Time Series Analysis）與類神經網路（Neural Network）

等。

4、關聯分組（Affinity Grouping）

找出彼此之間有相關聯的產品，將這些相關聯的物件放在一起。其應用如由

‧

常用的方法有 K-means Method、集群分析與判別分析等。其應用如產品自動化推薦內部的案例，如席內銀行（Signet Banking Corporation）從不同來源獲取顧客的行為資料並建立預測模型，利用預測模型的結果來推展轉帳卡業務，並獲得極大的成功。1994 年，雖然席內銀行的發卡部門被全球十大發卡公司之一的美國第一資本金融公司 Capital One 所併購，但 Capital One 同樣透過資料採礦的技術，

利用顧客智慧（Consumer Intelligence）及 CRM 系統來進行顧客分群，辨別出履約風險程度高低的顧客，若是信用優良的顧客，將會給予較優惠的循環利息，但

‧

在文檔中導入雲端運算概念於資料採礦之分類系統 - 政大學術集成 (頁 21-27)

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

‧

‧

‧

立政治大學

立政治大學