資料探勘功能與技術 2.3.3 - 應用資料探勘技術於分析電信網路障礙查修資料

表 2-4 KDD、SEMMA 及 CRISP-DM 對應表(Azevedo, A. & Santos, 2008)

KDD SEMMA CRISP-DM

Pre KDD --- Business Understanding Selection Sample

Data Understanding Pre processing Explore

Transformation Modify Data preparation Data mining Model Modeling Interpretation/Evaluation Access Evaluation Post KDD --- Deployment (Estimation)、預測 (Prediction)、關聯規則 (Association Rules)、群集分析(Clustering)和描述及視覺化(Description)，來挖掘其隱藏相關資訊，提供給決策者參考使用，其各項功能及目的如下:

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

1. 分類(Classification):

分類的工作為將每一個群集的特徵清楚地定義，並且透過訓練資料建立出模型 (圖 2-7)，按照資料中的屬性先區分類別加以定義，並透過訓練一定數量的資料後，

依據所得到的規則或特徵來建立類別(Class)，再利用各種類別的資料特徵，對於其他未分類或新進的資料來做預測，建立出一個樣式，將欲歸類的資料做指派的工作。

Training Data

Classification Algorithm

Test Data New Data

Classification Rules

Class label

圖 2-7 資料分類程序 (Han. J. & Kamber. M, 2001) 2. 推估(Estimation)

透過已知的屬性來推估未知的連續數值的走向與趨勢。分類所得到的結果是不連續，利用推估所產生的結果，是連續性的數值，利用既有連續性數值之相關屬性之資料建立模型，可以獲得某一屬性未知之值，或根據對象屬性之過去觀察值來推估該屬性未來值。例如依據信用卡申請者之職業、年齡、教育程度來推估其未來刷卡量。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3. 預測(Prediction)

利用對象屬性的歷史資料作為觀察值來建立樣式，用以預測未來的數值、趨勢或行為，預測、分類與推估的功能是非常相似的，預測是用以推估未來的數值和趨勢，

且用來進行分類及推估的技術皆能經過修正後，利用已知變數數值的訓練組資料來加以求得其數值，可以運用從前的歷史資料，然後建立樣式以觀察最近觀察值的變化情形，將現有新的資料做為輸入，即可以產生有關於未來變化的預測值，如透過顧客的職業、年齡、收入等人口屬性特質及其消費行為來預測可能的流失率。

4. 關聯規則(Association Rules)

主要目的是從大量的交易資料中，尋找出令決策者所感到有興趣項目組合與關聯性，而這些關聯通常以規則來表示，主要描述在龐大資料庫中資料項目間彼此的關聯性。關聯規則之探勘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有出現頻率大於或等於最小支持度(Minimum Support)的頻繁項目集(Frequent Itemsets)，

第二階段再由這些頻繁項目集找出信心度大於或等於最小信心度(Minimum Confidence)的規則。

5. 群集分析(Clustering)

屬非監督式學習(unsupervised learning)，依據資料之間的相似程度分成若干個程度相似的群集，使每個群集內的資料具有相當程度的相似性及同質性，可為群集內同質、群集間異質，群集與分類最大的不同在於群集並未預先定義好類別，且在處理過程中，並不需要事先定義該如何分類，也不需要事先區分訓練組資料，如一群住在附近的人，駕駛相同的汽車，使用相同家電，並且食用相同的食物。而另一群從事相同行業的人，家庭成員人數接近，年收入接近，出國次數也很接近。透過觀察資料為何被群集在一起的，可以更了解資料間的關係性。

6. 描述及視覺化(Description)

描述的功能可以很容易從雜亂無章的資料中解釋出一種現象或狀態，透過此項功能，可以描述一個複雜的資料庫特性，以協助企業對於顧客的服務、產品及流程有更

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

多的了解，對於顧客的消費特徵可以有更完整的敘述，以作為輔助企業制訂決策時的參考依據。

上述為資料探勘最常被使用之功能，經由資料探勘分析過程，即可從交易資料中發現新的資訊或潛在的知識，但在進行探勘過程之前，必須先對欲探勘資料先進行整理與過濾，

處理完後再應用至資料探勘技術。資料探勘與過去使用資料庫查詢方式有相當程度的不同，

其處理目標在於分析海量且複雜的資料庫，通常其服務對象為高階管理者，主要為其決策提供有力之分析資料外，並可透過圖表方式讓決策者更容易解讀。因此近年來資料探勘已成了各不同專業的研究熱點之一，由其隨著大資料的時代來臨其重要性更不可或缺，本研究採用其中分類、關聯法則、群集分析等功能進行障礙查修資料分析，並透過描述及視覺化功能說明分析後之結果，如關聯法則之規則說明、群集分析之群聚圖。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

資料初步檢視

在文檔中應用資料探勘技術於分析電信網路障礙查修資料 - 政大學術集成 (頁 33-37)

資料探勘功能與技術 2.3.3

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

資料初步檢視

立政治大學

立政治大學

立政治大學

立政治大學