序列型樣的定義及演算法 - 績效指標管制圖影響因素序列型樣探勘分析

Control Chart: 87519 CPI

5.3 績效指標管制圖影響因素序列型樣探勘分析

5.3.1 序列型樣的定義及演算法

序列(Sequence)的問題與定義，首先由Agrawal等人[Agrawal and Srikant, 1995]所提出。其定義簡述如下：假設一序列 S 可表示成＜s

1

, s

2

,…,s

n

>，其中s

i

為一個項目組(Itemset)I，I ={i

1

, i

2

, ... , i

n

}是項目(Items)的組合，而項目組的長度(length)是指此項目組

所包含之項目的個數，長度為 k 的項目組可表示成k-項目組 (k-itemset)，例如一個項目組為(d, e)，即包含a跟b兩個項目，則此項目組為2-項目組。一個序列是項目組的有序列(ordered list ofitemsets)，也就是按照時間先後順序排序過，而序列的長度是指此序列所包含之項目組的個數，長度為 k 的序列可表示成k-序列(k-sequence)，例如一個序列為< (d, e) (h) >，即包含(d, e)跟 (h)兩個項目組，表示(d, e)項目組之後為項目組(h)，則此序列為 2-序列。對於任一個項目組，是長度為 1 的序列，故為1-序列，

例如< (d, e) >是一個1-序列，而< (h) >也是一個1-序列。。

在一個交易資料庫中每一個顧客包括多個交易，每個交易包含項目的組合，都按照先後時間順序排序過，所以一個顧客的所有交易能看成一個序列，我們稱為一個顧客序列

(customer-sequence)。例如表5.12中，CID(Customer Id)為2的顧客序列為<(a, b) (c) (d, f, g) >，即該顧客有三個交易，首先購買(a, b) 項目組，接著購買(c)項目組，之後購買(d, f, g)項目組。

表5.12 一個序列資料庫的例子顧客編號顧客序列

1 < (c)(i) >

2 < (a, b) (c) (d, f, g) >

3 < (c, e, g) >

4 < (c) (d, g) (i) >

5 < (i) >

若一項目組的支持度大於或等於某一門檻值(threshold

4-100

為高頻k-項目組(frequent k- itemset)；若一序列的支持度大於或等於某一門檻值，則稱為高頻序列，若此序列包含k 個項目組，

則稱其為高頻k-序列(frequent k-sequence)。而此門檻值則稱為最小支持度(minimum support)。若一高頻序列不被任何其它高頻序列所包含，則稱此高頻序列為最大序列(maximal sequence)。挖掘序列型樣的工作就是找出所有的最大序列。我們以表5.13為例，

最小支持度為25%，也就是最少要有兩個顧客支持。我們舉一個沒有滿足最小支持度序列的例子，< (a, b) (c) >只有被顧客2所支持，不滿足最小支持度(兩個顧客支持)。而序列< (c) >, < (d) >, <

(g) >, < (i) >,< (c) (d) >, < (c) (g) >跟< (d, g) >雖有滿足最小支持度，但卻不是最大序列。最後我們找出< (c) (i) >跟< (c) (d, g) >

是滿足最小支持度的最大序列，也就是我們所要的序列型樣。其中序列型樣< (c) (i) >是由顧客1跟顧客4所支持，而序列型樣< (c) (d, g) > 是由顧客2跟顧客4所支持。

Agrawal等人首先於1995年提出挖掘序列型樣的演算法

AprioriAll[Agrawal and Srikant, 1995]，其做法分成以下五個執行步驟：

1. Sort Phase：首先將資料庫以顧客編號(Customer_Id)為主鍵、交易時間為次鍵來排序。

2. Litemset Phase：找出所有滿足最小支持度的項目集 (itemset)，即稱為large itemsets，並將這些項目集對應到一組連續整數，以方便往後的比對工作。

3. Transformation Phase：將資料庫中不是large itemsets的項目集去除，並將剩下的large itemsets以上述的整數來代替。

4. Sequence Phase：利用AprioriAll 演算法藉由large itemsets

的集合，找出滿足最小支持度及最小信賴度的序列，即large sequence。

% 100

資料庫中所有顧客總數*

支持此序列的顧客數

Support

% 100 A *

B A

之支持度序列

之支持度

= 序列

Confidence

5. Maximal Phase：從large sequence的集合中找出最長的序列。

在進行序列型樣探勘時，最重要考量點為須以人工方式設定最小支持度(Minimum Support)及最小信賴度(Minimum

Confidence)。支持度門檻值與信賴度門檻值的設定可依據使用者的需求而訂定，但是這兩個門檻值的設定是很重要的，當支持度門檻值設太低時，會將重要性較低之序列項目也包含進來，設太高又怕因此失去某些重要規則；而信賴度門檻值設太低則產生的序列規則較不具代表意義。因此在兩參數設定上應加以評估，以探勘出合適的規則。關於支持度和信賴度的關係，如表5.13所示。

表5.13 支持度(support)和信賴度(confidence)代表的意義

低信賴度高信賴度

高支持度雖然此關聯法則發生的頻率高，但是正確率低。

此關聯法則發生的頻率高，且法則相當正確。

低支持度關聯法則發生的頻率雖然法則發生的頻率不

4-102

在文檔中營建專案績效前瞻預測與成因萃取之探討(II) (頁 126-130)