資料探勘分析

3 第三章研究方法

3.3 研究方法

3.3.3 資料探勘分析

研究將Schmittlien et al.(1987)所提的顧客活動率(probability of active customer)以及 Schmittlien & Peterson(1994)所提的再購買金額，彼此相乘而形成

預測個別顧客其模型之各符號的涵意以及模型如下所示。

Srikant,1994)。Apriori 利用簡單且循序漸進的方式，來找出資料庫項目間的關聯規則。Apriori 演算法缺點為需多次掃瞄整個資料庫及產生候選項目集，不僅浪

效率，研究者提出很多改進之演算法。

目前大都以FP_growth(Frequent-pattern growth)演算法來減少資料庫掃瞄次數及不產生侯選項目組以增快速度及提高效率(沈清正等，2002)。FP_growth 演算法

以避免多次審視整個資料庫及無須產生候選項目集，本研究所用的DBMiner2.0 體亦即使用FP_growth 演算法。

P_growth 的優點：

)建構FP_tree（Frequent-pattern tree），用FP_tree 結構將資料庫壓縮。

完整的找出「常出現的項目集」。

(3)避免多次審視整個資料庫，可以節省時間。

(4)可用於時間序列資料的挖掘。

輸出為「常兩項。

_tre 數，再依次

列。

從FP_tree去尋找出「常出現樣式」。

FP_growth 的演算法程序如下所示：

費時間也浪費空間；為增加Apriori演算法

可軟 F (1 (2)

(5)不產生候選項目集。

FP_growth演算法的輸入為原始交易資料庫及最小支持度門檻值，

出現樣式」，主要演算法內容包括下列

(1)建立FP e：先審視資料庫一次，找出單項目集並計算其出現次數以降冪排

(2)

Procedure FP_growth( Tree, a ) {

if Tree contains a single path P

then for each combination (denoted asβ) of the nodes in the path P do generate pattern β ∪α with support = minimum support of nodes in b ; else for each α_i in the header of Tree do {

generate pattern b =α_i ∪αwith support=α_i .support;

constructβ's conditional pattern base and then sβ' conditional FP_tree Tree_β; if Tree_β ≠φ

then call FP_growth(Tree_β,β) } }

資料來源：Han , J. & Kamber, M., “Data Mining: Concepts and Techniques,” Hardcover Ed:

Morgan Kaufmann, 2001.

2、集群分析

易受到不適當之屬性度距離

本研究採用K-means 集群分析法，K-mean 模式可以將顧客群集分為指定的

群數，而且比較不容 (構面)、異常點與不同的相似 ( )

的影響。 K-means 方法的群的個數是固定的，這個凝聚塊方法是一個自底向上的過程。首先將每個元素作爲群，然後一點點的擴大。然後把擴大的過程記錄下來。演算法的大致過程：首先建一個 N*N 的 matrix。每個格子上都是兩個元素一起形成一個新的群。由於 K-means 可以

本研究是採用Microsoft Decision tree，它是改良自C4.5的演算法，Microsoft®

Decision Tree 運算法是以分類概立一個根據培訓資料集剩

餘資料行一資料行數值的樹狀構。因此，樹狀結構中的每一個節點就

代表資料特定 Case。這個節點要擺在那裡，是由運算法決定的，深度

用來評估一個決策樹分隔變數

（Diversity），對於資料的分散度指標有多種計算方式。而分散度指標很高表示這個組合中包含平均分配的多個類別，而分散度指標很低則之間的距離。然後將最相近的元素組合在

分析出集群的重心，找出組內相似，而組間內相異的情形集群個數，因此適合於本研究來應用。

3、決策樹

念為基礎。運算法會建

來預測某結

行的一個

與其同層級 (Sibling) 不同的節點代表各資料行不同的案例。它能幫助我們很快速地建立決策樹及利用其結果做推論的工作。其中

的衡量標準是分散度

表示一個單一類別的成員居優勢。C4.5決策樹演算法，是使用亂度函數（Entropy）

作為分散度指標，而Microsoft Decision tree則是使用貝氏分數（Bayesian Score）

來作為指

4、結果驗證分析

否與實際情形有效性，因此採用Kohavi & Provost(1998) 所提出的混淆矩陣(confusion matrix)

混淆是由LxL 的構面所組成，其中 L 為不同的標籤值(例如：大、中、小)，以下以L=2 的矩陣為例，如下表 3-1 所示：

表3-1 混淆矩陣表

-N 預測-Y

標。分析結果將會提供許多資訊，包括：決策樹的結構圖、顯示各樹葉節點的規則（Rule）以及預測結果的機率。

為了驗證預測結果是

，此矩陣是用來預測與實際結果之準確性。

預測

實際-N a b

實際-Y c d

在計算上，須找出Accuracy, True positive rate, True negative rate, Precision, False

準確性在確定整體的預測結果之

True positive rate (Recall, Sensitivity)：

正確率目的為瞭解所實際為Y的

rue negative rate (Specificity)：

正確

越高表預測越精確，如公式(30)所示：

a/(a+b)---(30)

(4)精確性 Precision

positive rate, False negative rate，計算公式如下：

(1)準確性 Accuracy

準確有多高，值越高表越精確，如公式(28) 所示：

(a+d)/(a+b+c+d)---(28) (2)正確率

，有哪些是被預測到的，值越高表示效果越佳，如公式(29)所示：

d/(c+d)---(29)

(3)正確錯誤率 T

錯誤率是在瞭解實際為錯誤的，預測上亦是錯誤的比率，其正確錯誤率

精確性是在瞭解而預測結果為 Y 的，其實際上亦為 Y 的比率，值越高表越精確，如公式(31)所示：

b+d)---(31)

(6)錯誤錯誤率 False negative rate

但實際為Y 的比例，值越低表錯誤率越低，如公式如(33)所示：

在文檔中顧客價值發現之研究－整合資料探勘技術與顧客終身價值分析 (頁 64-68)

3 第三章 研究方法

3.3 研究方法

3.3.3 資料探勘分析

3 第三章研究方法