第二章 問題定義及背景知識
2-1 問題定義
令 I = {i1, i2, …, im}表示資料流中所有的資料項(item)所成的集合,一筆交
易 T 是指由 I 集合中一個或一個以上的資料項所形成的集合。本論文中所考慮的
資料流型態如下:在每一個單位時間點 k(k ≥1)內,會有零到多筆不等的新交
易輸入。在單位時間點 k 內輸入的新交易所成之集合{Tk1, Tk2 ,…,Tkj}稱為一個單
位累積交易集,以 Bk表示,|Bk|表示第 k 個單位累積交易集中所包含的交易筆數。
至時間點 t 為止,資料流所形成的資料庫 DSt = [ B1, B2, …, Bt )。
給定一個視窗大小值 w,且目前時間點為 t。令t ≥ ,則目前交易視窗 CTWw t
(Current Transaction Window)是由最近 w 個單位時間內所輸入的單位累積交易
集,也就是 Bt-w+1∪Bt-w+2∪ …∪Bt所構成的交易集合,目前交易視窗 CTWt的數
量以|CTWt|表示,| CTWt | = |Bt-w+1|+|Bt-w+2|+ …+|Bt|,即指 CTWt中各單位累積
交易集所包含的交易數之加總。CTWt中的第一個單位累積交易集,意指 Bt-w+1。
當目前時間變為 t+1 時,CTWt+1相當於對 CTWt的內容,新增 Bt+1且移除原
來 Bt-w+1,CTWt+1中仍包含有最近 w 個單位時間內輸入的單位累積交易集中的交
易。以下圖 2.1 顯示一個資料流範例,當視窗大小 w 設為 4 個單位累積交易集時,
從時間點 4 到 6 對應的 CTWt內容。
cd b
c ac a
bd ab
b ac
c ab 單位累積交易 a 所包含之交易
8 7 6 5 4 3 2 單位時間編號 1
時間軸
CTW4 CTW5
CTW6
圖 2.1 目前視窗 CTW 移動情形
一個資料項集(itemset)是由 I 集合中一個或一個以上的資料項所組成的集
合。一個資料項集 P 內所包含的資料項個數稱為 P 的長度,以| P |來表示;而長
度為 l 的資料項集,稱為一個 l-資料項集(l-itemset)。當一個資料項集 P 為交易
T 的一個子集,則稱 T 包含 P。在目前交易視窗 CTWt中包含資料項集 P 的交易 筆數稱為 e 在資料流中的最近支持度計數值,以RCt (P)表示;最近支持度則由
) P
t (
RC 除以|CTWt|計算得之,以Rsupt(P)表示。由使用者給定一個介於 0 到 1 之間的最小支持度門檻值(minimum support)Smin,對一個資料項集 P,若
) P ( supt
R 大於等於 Smin,則稱 P 為資料流中一個最近常見資料項集(Recent
Frequent itemset);若Rsupt(P)小於 Smin,則稱 P 為一個非最近常見資料項集
(Recent Infrequent itemset)。
根據論文[16]中的定義,任兩個資料項集 P1 與 P2 的距離計算方式,
| ) T(P ) T(P
|
| ) T(P ) T(P -| 1 ) P ,
D(P1 2 1 2
∪
= ∩ ,其中 T(P1)表示包含資料項集 P1之所有交易所成的
集合,T(P2)表示包含資料項集 P2之所有交易所成的集合,因此此值表示包含 P1
及包含 P2之交易資料重疊程度。任意兩個資料項集 P 與 P’,若資料項集 P’包含
資料項集 P 且資料項集 P’與 P 之距離 D(P, P’)小於等於一個給定的δ值,那麼就
稱資料項集 P 被資料項集 P’δ-覆蓋(δ-covered)。此外,若在一個資料項集所成
之集合中,存在一個資料項集 Pr 使得集合中所有其它的資料項集都被 Prδ-覆
蓋,則稱 Pr為這些資料項集之代表樣式。
在本論文,在探勘過程中我們並沒有存下在目前交易視窗中包含資料項集的
交易資訊。因此根據先前δ-覆蓋的定義,我們對兩個資料項集 P 及 Pr定義其在
目前交易視窗中的距離推導如下:
對兩個資料項集 Pr和 P,若 Pr 包含 P,在目前交易視窗中 T(Pr)⊆ T(P),因此
(P) Rsup
) (P 1 Rsup
|
| ) P ( RC
|
|
) P ( RC (P) 1
RC ) (P 1 RC
| ) P ( T
|
| ) P ( T 1 |
| ) T(P T(P)
|
| ) T(P T(P) -| 1 ) P RD(P,
t r t t
r t
t r t r
r r
r = − = − = − = −
∪
= ∩
t t
CTW CTW
若 Pr不包含 P,則 RD(P, Pr) = ∞。
我們定義若 RD(P, Pr) 小於等於給定的δ值,則稱在目前交易視窗中 Prδ-
覆蓋 P。在一個最近常見資料項集所成的集合中,若存在一個資料項集 Pr使得集
合中其它資料項集都被 Prδ-覆蓋,則此集合將以 Pr為代表樣式,並稱 Pr為一個
最近常見代表樣式。
2-2 出現頻率改變點法
如前一章文獻探討所述,論文[13]中考慮資料流為在每個單位時間都會恰有
一筆新輸入的交易資料,而欲從若在目前視窗中的 w 筆交易探勘出最近常見資
料項集。為了不需將目前視窗內的交易資料全部儲存下來,在論文[13]中提出記
錄資料項集出現摘要資訊的方法,稱為出現頻率改變點法,運用這種摘要資訊儲
存法,只需較小儲存空間,即可近似找出目前視窗內的常見資料項集。
出現頻率改變點法的基本想法,是對出現的資料項集只記錄其累積計數值及
出現區間,因此以下我們討論當一個資料項集 P 的開始累計時間點在目前視窗
開始時間點前的狀況下,以其累積計數值判定 P 在視窗中是否為常見資料項集
的四種情況:
(1) 若資料項集 P 在視窗中為常見資料項集,且其在資料項集開始累積時間 點至視窗開始時間點間為常見資料項集。則由 P 之累積計數值可估算出
P 為一常見資料項集。
(2) 若資料項集 P 在視窗中為常見資料項集,且其在資料項集開始時間點至 視窗開始時間點間為非常見資料項集。則由 P 之累積計數值會判定 P 為
一常見或為一非常見資料項集。
(3) 若資料項集 P 在視窗中為非常見資料項集,且其在資料項集開始時間點 至視窗開始時間點間為常見資料項集。則由 P 之累積計數值會判定 P 為
一常見或為一非常見資料項集。
(4) 若資料項集 P 在視窗中為非常見資料項集,且其在資料項集開始時間點 至視窗開始時間點間為非常見資料項集。則由 P 之累積計數值可估算出
P 為一非常見資料項集。
由以上之分析情況顯示,以 P之開始累積時間點到目前時間點 t 期間的支持
度,來判斷 P 在視窗中是否為最近常見資料項集,可能發生誤判的情況為情況 2
或情況 3。在情況 2 中,當 P 在視窗外(即從 P 之開始時間點到視窗之開始時間
點前)的出現次數很稀疏,造成根據 P 從開始時間點到目前時間點間的支持度,
會判斷 P 為一個非常見資料項集。在情況 3 中,發生誤判的原因為 P 在視窗中
的出現分佈變的稀疏,但其總累計次數仍足夠被判別為常見資料項集,因此誤判
為最近常見資料項集。
由情況 2 跟 3 可知,資料項集出現頻率發生變化,會造成以 P 的累計出現
次數判斷 P 是否是最近常見資料項集的誤判情形。因此,出現頻率改變點法所
記錄的摘要資料結構,會記錄資料項集發生出現頻率可能轉為偏向非常見的時間
點。以論文[13]設定的資料流環境,若資料項集 P 為常見資料項集,那麼平均至
少應該每隔(1/Smin)個資料項集 P 就會出現一次,因此當此次出現和前一次出現時
間點的間隔大於(1/Smin)之時間點,代表此次出現頻率已小於常見資料項集之最小
平均出現頻率,將其稱為一個出現頻率改變點。每當找到資料項集 P 的一個頻
率改變點,就記錄此改變點出現的時間點,以及從前一個頻率改變點到此改變點
前的出現累計次數,若此次出現之前 P 尚未發生過頻率改變點,則記錄其從第
一次 P 出現的時間點到此改變點前的出現累計次數。
當時間點由 t 進到 t+1 時,目前視窗中的交易隨時間改變,必須扣除落在過
時時間點的資料項集出現次數。雖然沒有保留資料項集在剛過時的單位時間點中
之精確資訊,但可根據其出現頻率改變點之資訊,將各資料項集的開始累計時間
點調整到儘可能接近視窗開始時間點,即可有效估算出各資料項集的最近支持度
值。