• 沒有找到結果。

(Pattern)及相關性(Relationship)的過程,亦視為資料庫知識發掘(Knowledge Discovery in Database,KDD)其中的一部分,其為在資料採礦上的應用極為重 要的影響,只有資料庫知識發掘才能確保資料採礦得到有意義的結果。根據 Fayyad(1996)等人對資料庫知識發掘的定義為:「KDD is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable

patterns in data」,他們認為在得到知識之前,原始資料必頇經過五個步驟的處 理,其流程圖(見圖 2-1)及步驟如下:

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

14

1、 Selection:了解工作並選擇所需的資料

2、 Pre-processing:將所需要的資料做前置作業,刪減不必要的資料 3、 Transformation:資料轉換或簡化工作

4、 Data Mining:利用資料的趨式,採取模型進行預測、分類或推估。

5、 Interpretation/Evaluation:解釋與評估資料

圖2-1 資料庫知識發掘之流程圖

二、 資料採礦的步驟

資料採礦是在資料庫知識發掘流程的其中一個步驟,卻也是相當重要的一個 步驟,隨著不同領域的不同問題需求,資料採礦的過程也會不同,分析人員所採 用的資料採礦技術也會因資料特性而有所差異,而資料採礦完整的步驟如下:

1、 理解資料與進行的工作

2、 獲取相關知識與技術(Acquisition)

3、 整合與查核資料(Integration and Checking)

4、 去除錯誤或不一致的資料(Data Cleaning)

5、 發展模式與假設(Model and Hypothesis Development)

6、 實際資料採礦工作

7、 測試與檢驗其資料(Testing and Verification)

8、 解釋與使用資料(Interpretation and Use)

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

15

因此,資料採礦涉及了大量的準備工作和複雜的過程,而資料採礦的流程有 許多種,使用者最常使用的流程為 CRISP-DM (CRoss-Industry Standard Process for Data Mining),此流程是 SPSS 和 NCR 在 1996 年時訂出的一套資料採礦標準 程序,CRISP-DM 模型建構步驟及流程圖如圖 2-2:

圖2-2 CRISP-DM 模型建構流程圖

(資料來源:http://www.crisp-dm.org/)

CRISP-DM 將進行一個資料採礦專案分為六大階段,簡述如下:

1、 定義商業問題(Business Understanding)

要想充分發揮資料採礦發現的知識價值,必頇要先對問題有一個清晰明確的 定義,有了明確的問題定義,最後才能得到結果進行衡量的標準。因此,在初始 階段著重於了解商業問題,從商業角度化的問題轉化為資料採礦問題,以符合資 料採礦流程,並初步計劃目標。

2、 定義分析資料(Data Understanding)

收集可用分析的完整資料,熟悉資料,並利用簡單的統計分析方法及統計軟

3、 資料準備(Data Preparation)

這是建立模型之前的最後一步資料準備工作。將原始資料加工成最後的資 料,以用在資料採礦過程的資料表,準備工作可能要重複執行數次,是最耗時又 費力的部分。此階段包含了資料選擇(Data Selection)、資料清理(Data Cleaning)、

資料擴充(Enrichment)及資料編碼(Data Coding)。

4、 建立模型(Modeling)

資料採礦的功能可包含分類(Classification)、推估(Estimation)、預測

(Prediction)、關聯分組(Affinity Grouping)及同質分組(Clustering)等五項功 能,簡述如下:

1、 分類(Classification)

分類是找出新事物特性,然後判斷該事物與現存集群何者比較類似,再將其 歸類到該集群;分類的主要工作就是對現有集群的特性加以定義,並利用一些統 計分析技巧來建立判別的準則,並利用該準則將尚未瞭解的資料加以分類。常用 的方法有決策樹(Decision Tree)以及記憶基礎推理(Memory-Based Reasoning)

等。分類問題的應用如顧客的信用風測預測。

2、 推估(Estimation)

推估是依據現有的連續性資料,來估計未知屬性;在實務上的運用大多與分 類功能結合運用;常用的方法有相關分析、迴歸分析(Regression Analysis)與 類神經網路(Neural Network)等。推估問題的應用如商品價格的趨勢變化。

3、 預測(Prediction)

預測依據現有資料進行推測,估計未來的趨勢及數據,不論是分類、推估或 預測都是利用現有資料來推測分類,而現有資料則是很好的資料來源,我們利用 過去的數值來建立估計未來數值的模型。常用的方法有迴歸分析(Regression Analysis)、時間數列分析(Time Series Analysis)與類神經網路(Neural Network)

等。

4、 關聯分組(Affinity Grouping)

找出彼此之間有相關聯的產品,將這些相關聯的物件放在一起。其應用如由

常用的方法有 K-means Method、集群分析與判別分析等。其應用如產品自動化 推薦 內部的案例,如席內銀行(Signet Banking Corporation)從不同來源獲取顧客的 行為資料並建立預測模型,利用預測模型的結果來推展轉帳卡業務,並獲得極大 的成功。1994 年,雖然席內銀行的發卡部門被全球十大發卡公司之一的美國第 一資本金融公司 Capital One 所併購,但 Capital One 同樣透過資料採礦的技術,

利用顧客智慧(Consumer Intelligence)及 CRM 系統來進行顧客分群,辨別出履 約風險程度高低的顧客,若是信用優良的顧客,將會給予較優惠的循環利息,但

相關文件