• 沒有找到結果。

表 2-4 KDD、SEMMA 及 CRISP-DM 對應表(Azevedo, A. & Santos, 2008)

KDD SEMMA CRISP-DM

Pre KDD --- Business Understanding Selection Sample

Data Understanding Pre processing Explore

Transformation Modify Data preparation Data mining Model Modeling Interpretation/Evaluation Access Evaluation Post KDD --- Deployment (Estimation)、預測 (Prediction)、關聯規則 (Association Rules)、群集分析(Clustering)和描述 及視覺化(Description),來挖掘其隱藏相關資訊,提供給決策者參考使用,其各項功能及 目的如下:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

1. 分類(Classification):

分類的工作為將每一個群集的特徵清楚地定義,並且透過訓練資料建立出模型 (圖 2-7),按照資料中的屬性先區分類別加以定義,並透過訓練一定數量的資料後,

依據所得到的規則或特徵來建立類別(Class),再利用各種類別的資料特徵,對於其他 未分類或新進的資料來做預測,建立出一個樣式,將欲歸類的資料做指派的工作。

Training Data

Classification Algorithm

Test Data New Data

Classification Rules

Class label

圖 2-7 資料分類程序 (Han. J. & Kamber. M, 2001) 2. 推估(Estimation)

透過已知的屬性來推估未知的連續數值的走向與趨勢。分類所得到的結果是不連 續,利用推估所產生的結果,是連續性的數值,利用既有連續性數值之相關屬性之資 料建立模型,可以獲得某一屬性未知之值,或根據對象屬性之過去觀察值來推估該屬 性未來值。例如依據信用卡申請者之職業、年齡、教育程度來推估其未來刷卡量。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

3. 預測(Prediction)

利用對象屬性的歷史資料作為觀察值來建立樣式,用以預測未來的數值、趨勢或 行為,預測、分類與推估的功能是非常相似的,預測是用以推估未來的數值和趨勢,

且用來進行分類及推估的技術皆能經過修正後,利用已知變數數值的訓練組資料來加 以求得其數值,可以運用從前的歷史資料,然後建立樣式以觀察最近觀察值的變化情 形,將現有新的資料做為輸入,即可以產生有關於未來變化的預測值,如透過顧客的 職業、年齡、收入等人口屬性特質及其消費行為來預測可能的流失率。

4. 關聯規則(Association Rules)

主要目的是從大量的交易資料中,尋找出令決策者所感到有興趣項目組合與關聯 性,而這些關聯通常以規則來表示,主要描述在龐大資料庫中資料項目間彼此的關聯 性。關聯規則之探勘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有 出現頻率大於或等於最小支持度(Minimum Support)的頻繁項目集(Frequent Itemsets),

第 二 階 段 再 由 這 些 頻 繁 項 目 集 找 出 信 心 度 大 於 或 等 於 最 小 信 心 度(Minimum Confidence)的規則。

5. 群集分析(Clustering)

屬非監督式學習(unsupervised learning),依據資料之間的相似程度分成若干個程 度相似的群集,使每個群集內的資料具有相當程度的相似性及同質性,可為群集內同 質、群集間異質,群集與分類最大的不同在於群集並未預先定義好類別,且在處理過 程中,並不需要事先定義該如何分類,也不需要事先區分訓練組資料,如一群住在附 近的人,駕駛相同的汽車,使用相同家電,並且食用相同的食物。而另一群從事相同 行業的人,家庭成員人數接近,年收入接近,出國次數也很接近。透過觀察資料為何 被群集在一起的,可以更了解資料間的關係性。

6. 描述及視覺化(Description)

描述的功能可以很容易從雜亂無章的資料中解釋出一種現象或狀態,透過此項功 能,可以描述一個複雜的資料庫特性,以協助企業對於顧客的服務、產品及流程有更

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23

多的了解,對於顧客的消費特徵可以有更完整的敘述,以作為輔助企業制訂決策時的 參考依據。

上述為資料探勘最常被使用之功能,經由資料探勘分析過程,即可從交易資料中發現 新的資訊或潛在的知識,但在進行探勘過程之前,必須先對欲探勘資料先進行整理與過濾,

處理完後再應用至資料探勘技術。資料探勘與過去使用資料庫查詢方式有相當程度的不同,

其處理目標在於分析海量且複雜的資料庫,通常其服務對象為高階管理者,主要為其決策 提供有力之分析資料外,並可透過圖表方式讓決策者更容易解讀。因此近年來資料探勘已 成了各不同專業的研究熱點之一,由其隨著大資料的時代來臨其重要性更不可或缺,本研 究採用其中分類、關聯法則、群集分析等功能進行障礙查修資料分析,並透過描述及視覺 化功能說明分析後之結果,如關聯法則之規則說明、群集分析之群聚圖。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

24

資料初步檢視

相關文件