• 沒有找到結果。

3 第三章 研究方法

3.3 研究方法

3.3.3 資料探勘分析

研究將Schmittlien et al.(1987)所提的顧客活動率(probability of active customer)以及 Schmittlien & Peterson(1994)所提的再購買金額,彼此相乘而形成

預測個別顧客 其模型之各符號的涵意以及模型如下所示。

Srikant,1994)。Apriori 利用簡單且循序漸進的方式,來找出資料庫項目間的關聯 規則。Apriori 演算法缺點為需多次掃瞄整個資料庫及產生候選項目集,不僅浪

效率,研究者提出很多改進之演算法。

目前大都以FP_growth(Frequent-pattern growth)演算法來減少資料庫掃瞄次數及 不產生侯選項目組以增快速度及提高效率(沈清正等,2002)。FP_growth 演算法

以避免多次審視整個資料庫及無須產生候選項目集,本研究所用的DBMiner2.0 體亦即使用FP_growth 演算法。

P_growth 的優點:

)建構FP_tree(Frequent-pattern tree),用FP_tree 結構將資料庫壓縮。

完整的找出「常出現的項目集」。

(3)避免多次審視整個資料庫,可以節省時間。

(4)可用於時間序列資料的挖掘。

輸出為「常 兩項。

_tre 數,再依次

列。

從FP_tree去尋找出「常出現樣式」。

FP_growth 的演算法程序如下所示:

費時間也浪費空間;為增加Apriori演算法

可 軟 F (1 (2)

(5)不產生候選項目集。

FP_growth演算法的輸入為原始交易資料庫及最小支持度門檻值,

出現樣式」,主要演算法內容包括下列

(1)建立FP e:先審視資料庫一次,找出單項目集並計算其出現次 數以降冪排

(2)

Procedure FP_growth( Tree, a ) {

if Tree contains a single path P

then for each combination (denoted asβ) of the nodes in the path P do generate pattern β ∪α with support = minimum support of nodes in b ; else for each αi in the header of Tree do {

generate pattern b =αi ∪αwith support=αi .support;

constructβ's conditional pattern base and then sβ' conditional FP_tree Treeβ; if Treeβ ≠φ

then call FP_growth(Treeβ,β) } }

資料來源:Han , J. & Kamber, M., “Data Mining: Concepts and Techniques,” Hardcover Ed:

Morgan Kaufmann, 2001.

2、集群分析

易受到不適當之屬性 度 距離

本研究採用K-means 集群分析法,K-mean 模式可以將顧客群集分為指定的

群數,而且比較不容 (構面)、異常點與不同的相似 ( )

的影響。 K-means 方法的群的個數是固定的,這個凝聚塊方法是一個自底向上 的過程。首先將每個元素作爲群,然後一點點的擴大。然後把擴大的過程記錄下 來。演算法的大致過程:首先建一個 N*N 的 matrix。每個格子上都是兩個元素 一起形成一個新的群。由於 K-means 可以

本研究是採用Microsoft Decision tree,它是改良自C4.5的演算法,Microsoft®

Decision Tree 運算法是以分類概 立一個根據培訓資料集剩

餘資料行 一資料行數值的樹狀 構。因此,樹狀結構中的每一個節點就

代表資料 特定 Case。這個節點要擺在那裡,是由運算法決定的,深度

用來評估一個決策樹分隔變數

(Diversity),對於資料的分散度指標有多種計算方式。而 分散度指標很高表示這個組合中包含平均分配的多個類別,而分散度指標很低則 之間的距離。然後將最相近的元素組合在

分析出集群的重心,找出組內相似,而組間內相異的情形集群個數,因此適 合於本研究來應用。

3、決策樹

念為基礎。運算法會建

來預測某 結

行的一個

與其同層級 (Sibling) 不同的節點代表各資料行不同的案例。它能幫助我們很快 速地建立決策樹及利用其結果做推論的工作。其中

的衡量標準是分散度

表示一個單一類別的成員居優勢。C4.5決策樹演算法,是使用亂度函數(Entropy)

作為分散度指標,而Microsoft Decision tree則是使用貝氏分數(Bayesian Score)

來作為指

4、結果驗證分析

否與實際情形有效性,因此採用Kohavi & Provost(1998) 所提出的混淆矩陣(confusion matrix)

混淆是由LxL 的構面所組成,其中 L 為不同的標籤值(例如:大、中、小),以下 以L=2 的矩陣為例,如下表 3-1 所示:

表3-1 混淆矩陣表

-N 預測-Y

標。分析結果將會提供許多資訊,包括:決策樹的結構圖、顯示各樹葉 節點的規則(Rule)以及預測結果的機率。

為了驗證預測結果是

,此矩陣是用來預測與實際結果之準確性。

預測

實際-N a b

實際-Y c d

在計算上,須找出Accuracy, True positive rate, True negative rate, Precision, False

準確性在確定整體的預測結果之

True positive rate (Recall, Sensitivity):

正確率目的為瞭解所實際為Y的

rue negative rate (Specificity):

正確

越高表預測越精確,如公式(30)所示:

a/(a+b)---(30)

(4)精確性 Precision

positive rate, False negative rate,計算公式如下:

(1)準確性 Accuracy

準確有多高,值越高表越精確,如公式(28) 所示:

(a+d)/(a+b+c+d)---(28) (2)正確率

,有哪些是被預測到的,值越高表示效果越 佳,如公式(29)所示:

d/(c+d)---(29)

(3)正確錯誤率 T

錯誤率是在瞭解實際為錯誤的,預測上亦是錯誤的比率,其正確錯誤率

精確性是在瞭解而預測結果為 Y 的,其實際上亦為 Y 的比率,值越高表越 精確,如公式(31)所示:

b+d)---(31)

(6)錯誤錯誤率 False negative rate

但實際為Y 的比例,值越低表錯誤率越低,如公 式如(33)所示: