資料探勘分析方法

2 第二章文獻探討

2.4 顧客價值發現－資料探勘

2.4.3 資料探勘分析方法

Shaw et al.(2001)指出，各式各樣的資料探勘任務可以廣泛的被區分為 5 類，包括：

附屬分析(Dependency Analysis)、分類(Class Identification)、觀念描述(Concept

Description)、異常偵測(Deviation Detection)以及資料視覺化呈現(Data Visualization)，如下圖2-8 所示：

圖2-8 資料探勘的分類

資料來源: Shaw et. al. “Knowledge management &data mining for marketing”. Decision Support

資料探勘任務

依屬分析分類辨認觀念描述偏離偵測資料視覺化

關聯順序

數學的分類概念化區隔

加總區別比較

異常改變像素導向幾何投射圖形基礎

Systems,Vol.31 No. 1, pp. 127-137. 2001.

Rygielski et al.(2002)以流程的觀點指出，資料探勘分析包含三類，如下圖 2-9 所示：

圖2-9 從流程導向來分類資料探勘方法

資料來源：Rygielski, C., Wang, J.-C., Yen, D.C. “Data mining techniques for customer relationship management.” Technology in Society. 24(4), 483-502. 2002.

其中，各分析方法如下：

資料探勘

發現預測模型

辯論分析

條件句邏輯關聯法則趨勢和變化結果預測比對事先預測

偏差偵測連結分析

發現(Discovery)：在資料庫中，沒有先決定或是假設樣式是什麼，透過尋找的過程來發現隱藏的樣式

預測模型(Predictive Modeling)：從資料庫中找到的模型，並使用此模型來預測未來的流程。

辯論分析(Forensic Analysis)：應用粹取樣式到異常或奇特資料元素的流程

根據Han & Kamber（2001）的分類，資料探勘的功能與所挖掘出來的模式種類共有以下六種，分述如下：

(1)概念/類別描述：特性與區別（Concept/Class Description: Characterization

discrimination）此一模式是依據分析的對象加以分類，並建立類別（class）。在描述類別間的特性，有下列兩種方法：

資料特性：是指描述類別(class）內資料一般特性的摘要或目標資料類組的特徵。

資料區別：是比較各類組間的特性，以找出各類組間的差異變數為何。

(2)關聯分析（Association Analysis）

關聯分析是去瞭解X與Y在資料集中的相關性，藉以找出未知的潛在關聯，協助企業在行銷商品上的決策制定，如商品擺設、產品搭銷、交叉銷售與促銷活動的安排等。

常用的關聯分析應用為購物籃分析(market basket analysis）或交易資料分析，從顧客購買的購物籃中之各種項目關聯來分析，瞭解顧客的潛在購買習慣，以幫助企業找出哪些是顧客最常相互購買的商品組合，如買奶油的顧客是否也會同時買麵包?這樣的資訊可以讓商家把奶油與麵包擺在鄰近架上以增加這些商品的銷售量。關聯分析是以規則

（rule）的方式呈現，亦即”XÆY”，X、Y皆為資料的集合，此稱為關聯法則（association rule），意涵”在資料集中含有滿足條件的X 商品之交易也會同時包含滿足條件的Y商品”，如此的關聯法則存在於資料庫中可能會有上千條(根據資料庫大小及產品結構)，然而並不非每一條法則都是信賴的，因此，有兩種衡量指標必須用來共同衡量關聯法則的可有用性，亦即為信賴度(Confidence)與支持度(Support)，如下表2-3所示。Confidence 一般也可稱為”Accuracy”，指X 如果發生，則Y 也發生的機率，越高的Confidence 值則表示這法則越可靠（dependable）。

表2-3 關聯法則之 support 與 confidence 關係

Confidence low Confidence high Support high 準確性低但常發生準確性高且常發生

Support low 準確性低且不常發生準確性高但不常發生

因此得知，Support 值是去衡量在資料集中，X、Y產品一起發生的頻率，Confidence 是去衡量X被購買時，Y也同時被購買的機率，簡單寫法為X =>Y[1%,50%]，指X與Y有 1%的support及50%的confidence，此兩數值都是衡量法則價值非常重要的指標。

(3)分類與預測（Classification & Prediction）

分類是指尋找一個能夠描述或區分資料模型(或功能)的流程，進而使用這模型來預測類別未知的資料。在預測的過程中，將以建立好的預測模型(稱為Training data )，透過與其它未知的資料來做預測比較，進而去調整、學習，分析方式有許多不同的方法，如 IF-THEN規則，決策樹(Decission Tree)或類神經網路(neural network)。

(4)集群分析（Cluster Analysis）

集群分析與預測、分類不同點在於不需Training data，資料不須要先知道分類標籤 (class label)。在集群分析中相似的資料會群聚在一起(maximizing the intraclass

similarity)，但群與群之間極不相似(minimizing the interclass similarity)，而每一群可視為同一個類別等級。

(5)異常值分析（Outlier Analysis）

資料庫中可能包含與一般資料行為或模型不同的資料，這種資料稱為異常資料

（outlier），而Oullier Analysis亦即利用異常值探勘(Oultier mining)來找出這些異常的資料。大部分的資料挖掘方法都把這類的資料視為噪音或例外而丟棄，但在一些應用中，

如保險詐欺的偵測(fraud detection)，這種很少發生的事件會比常發生的事件的案例，使用異常值分析是很有用的。

(6)進化分析（Evolution Analysis）

資料的進化分析是針對會隨時間改變的模型來做描述與建立趨勢資料，此方法雖可以利用集群、區別、預測或關聯分析來分析時間相關的資料(time-related data)，此外，

進化分析還包含時間序列分析(time-series data analysis)、Sequence pattern matching 與 similarity-based analysis。

在文檔中顧客價值發現之研究－整合資料探勘技術與顧客終身價值分析 (頁 44-47)

2 第二章 文獻探討

2.4 顧客價值發現－資料探勘

2.4.3 資料探勘分析方法

2 第二章文獻探討