• 沒有找到結果。

序列型樣的定義及演算法

Control Chart: 87519 CPI

5.3 績效指標管制圖影響因素序列型樣探勘分析

5.3.1 序列型樣的定義及演算法

序列(Sequence)的問題與定義,首先由Agrawal等人[Agrawal and Srikant, 1995]所提出。其定義簡述如下:假設一序列 S 可表 示成<s

1

, s

2

,…,s

n

>,其中s

i

為一個項目組(Itemset)I,I ={i

1

, i

2

, ... , i

n

}是項目(Items)的組合,而項目組的長度(length)是指此項目組

所包含之項目的個數,長度為 k 的項目組可表示成k-項目組 (k-itemset),例如一個項目組為(d, e),即包含a跟b兩個項目,則 此項目組為2-項目組。一個序列是項目組的有序列(ordered list ofitemsets),也就是按照時間先後順序排序過,而序列的長度是 指此序列所包含之項目組的個數,長度為 k 的序列可表示成k-序列(k-sequence),例如一個序列為< (d, e) (h) >,即包含(d, e)跟 (h)兩個項目組,表示(d, e)項目組之後為項目組(h),則此序列為 2-序列。對於任一個項目組,是長度為 1 的序列,故為1-序列,

例如< (d, e) >是一個1-序列,而< (h) >也是一個1-序列。。

在一個交易資料庫中每一個顧客包括多個交易,每個交易包 含項目的組合,都按照先後時間順序排序過,所以一個顧客的所 有交易能看成一個序列,我們稱為一個顧客序列

(customer-sequence)。例如表5.12中,CID(Customer Id)為2的顧客 序列為<(a, b) (c) (d, f, g) >,即該顧客有三個交易,首先購買(a, b) 項目組,接著購買(c)項目組,之後購買(d, f, g)項目組。

表5.12 一個序列資料庫的例子 顧客編號 顧客序列

1 < (c)(i) >

2 < (a, b) (c) (d, f, g) >

3 < (c, e, g) >

4 < (c) (d, g) (i) >

5 < (i) >

若一項目組的支持度大於或等於某一門檻值(threshold

4-100

為高頻k-項目組(frequent k- itemset);若一序列的支持度大於或 等於某一門檻值,則稱為高頻序列,若此序列包含k 個項目組,

則稱其為高頻k-序列(frequent k-sequence)。而此門檻值則稱為最 小支持度(minimum support)。若一高頻序列不被任何其它高頻序 列所包含,則稱此高頻序列為最大序列(maximal sequence)。挖掘 序列型樣的工作就是找出所有的最大序列。我們以表5.13為例,

最小支持度為25%,也就是最少要有兩個顧客支持。我們舉一個 沒有滿足最小支持度序列的例子,< (a, b) (c) >只有被顧客2所支 持,不滿足最小支持度(兩個顧客支持)。而序列< (c) >, < (d) >, <

(g) >, < (i) >,< (c) (d) >, < (c) (g) >跟< (d, g) >雖有滿足最小支持 度,但卻不是最大序列。最後我們找出< (c) (i) >跟< (c) (d, g) >

是滿足最小支持度的最大序列,也就是我們所要的序列型樣。其 中序列型樣< (c) (i) >是由顧客1跟顧客4所支持,而序列型樣< (c) (d, g) > 是由顧客2跟顧客4所支持。

Agrawal等人首先於1995年提出挖掘序列型樣的演算法

AprioriAll[Agrawal and Srikant, 1995],其做法分成以下五個執行 步驟:

1. Sort Phase:首先將資料庫以顧客編號(Customer_Id)為主 鍵、交易時間為次鍵來排序。

2. Litemset Phase:找出所有滿足最小支持度的項目集 (itemset),即稱為large itemsets,並將這些項目集對應到一組連 續整數,以方便往後的比對工作。

3. Transformation Phase:將資料庫中不是large itemsets的項 目集去除,並將剩下的large itemsets以上述的整數來代替。

4. Sequence Phase:利用AprioriAll 演算法藉由large itemsets

的集合,找出滿足最小支持度及最小信賴度的序列,即large sequence。

% 100

資料庫中所有顧客總數*

支持此序列的顧客數

=

Support

% 100 A *

B A

之支持度 序列

之支持度

= 序列

Confidence

5. Maximal Phase:從large sequence的集合中找出最長的序 列。

在進行序列型樣探勘時,最重要考量點為須以人工方式設定 最小支持度(Minimum Support)及最小信賴度(Minimum

Confidence)。支持度門檻值與信賴度門檻值的設定可依據使用者 的需求而訂定,但是這兩個門檻值的設定是很重要的,當支持度 門檻值設太低時,會將重要性較低之序列項目也包含進來,設太 高又怕因此失去某些重要規則;而信賴度門檻值設太低則產生的 序列規則較不具代表意義。因此在兩參數設定上應加以評估,以 探勘出合適的規則。關於支持度和信賴度的關係,如表5.13所示。

表5.13 支持度(support)和信賴度(confidence)代表的意義

低信賴度 高信賴度

高支持度 雖 然 此 關 聯 法 則 發 生 的 頻率高,但是正確率低。

此 關 聯 法 則 發 生 的 頻 率 高,且法則相當正確。

低支持度 關 聯 法 則 發 生 的 頻 率 雖 然 法 則 發 生 的 頻 率 不

4-102