• 沒有找到結果。

背景知識及問題定義

2-1 背景知識

令 I = {i1, i2, …, in}表示資料流中所有可能出現的資料項(item)所形成的集合,

一筆交易 T 為包含一個或一個以上 I 中的資料項所成的集合。在本論文中,特例 資料流是指每一個單位時間點 k (k1)都只有一筆交易 Tk輸入;而在一般化資料 流的情況下,每一個單位時間點 k (k1)內則會有一筆或多筆交易 𝑇𝑘1, … , 𝑇𝑘𝑛形成的一個單位交易區塊 Bk輸入,且每時間點的交易區塊中包含的交易筆數可不 固定。由於特例資料流為一般化資料流的一種特殊情況,因此我們在本論文以下 內容皆直接討論一般化資料流環境的處理,但一個單位時間點內產生的交易筆數 則假設為固定,也就是每個單位交易區塊中包含的交易筆數為固定。

滑動視窗的模型是指給定一個 w 值,則探勘範圍包含最近固定 w 個時間點內 的交易資料。令目前時間點為 t ( t ≥ w ),則目前交易視窗 CTWt (Current Transaction

Window) 是由最近 w 個單位交易區塊{Bt-w+1, Bt-w+2, …, Bt}所構成的交易集合。以

|Bi|表示單位交易區塊 Bi中包含的交易筆數,而 CTWt中所包含的交易數量以|CTWt| 表示,則|CTWt| = |Bt-w+1| + |Bt-w+2| + … + |Bt|,也就是 CTWt中各單位交易區塊所包 含的交易數總和。當目前時間點變為 t+1 時,CTWt+1中的交易資料相對於 CTWt

來說,新增了一個單位交易區塊 Bt+1,且原視窗中最早的一個單位交易區塊 Bt-w+1

會因為過時而被移除,故 CTWt+1中仍維持最近 w 個單位時間內的交易。

圖 2.1 所示為一個一般化資料流之滑動視窗移動範例,當視窗大小 w 設為 3,

交易筆數稱為 P 在時間點 t 時的最近支持度計數值,以 SCt(P)表示。當使用者給 定一個介於 0 到 1 之間的最小支持度門檻值(minimal support threshold)Smin,則由 𝐶𝑇𝑊𝑡 × 𝑆𝑚𝑖𝑛 所得到的值稱為時間點 t 時的最小支持度計數門檻值(minimal

support count threshold)SCmin(t)。由於本論文假設在每個單位時間點|CTWt|為固定,

因此 SCmin(t)在個時間點為相等,可簡寫為 SCmin。對一個資料項集 P,若 SCt(P) 大於或等於 SCmin(t),則稱 P 在時間點 t 為一個最近常見項目集(recent frequent

itemset);若 SCt(P) 小於 SCmin(t),則稱 P 在時間點 t 時為一個最近非常見項目集 (recent infrequent itemset)。

2-2 狀態變動項目集探勘

隨著時間的改變,最近常見項目集之集合及最近非常見項目集之集合可能發 生變動。令時間點 t 時,CTWt中最近常見項目集所成之集合以F𝑡表示,最近非常 見項目集所成之集合以F 𝑡表示;當經過 1 個時間點後,CTW𝑡+1中最近常見項目集 所成之集合為F𝑡+1,最近非常見項目集所成之集合為F 𝑡+1。若項目集𝑃 ∈ F𝑡且 P ∈ F 𝑡+1,則稱 P 為時間點𝑡 + 1相對於時間點 t 之常見狀態變動項目集,表示項 目集 P 在 t 為常見,在經過1個時間點後轉變為非常見而產生了狀態變動。此外,

若項目集𝑃 ∈ F 𝑡且P ∈ F𝑡+1,則稱 P 為時間點𝑡 + 1相對於時間點 t 之非常見狀態變 動項目集,表示項目集 P 在 t 為非常見,在經過δ個時間點後轉變為常見而產生了

狀態變動。一個狀態變動項目集是指該項目為一個常見狀態變動項目集或是非常

見狀態變動項目集。

在一個一般化資料流的環境下,給定滑動視窗大小 w,最小支持度門檻值 Smin, 則狀態變動項目集探勘是要從時間點𝑡 ≥ 𝑤起,每隔1個時間點,輸出時間𝑡 + 1相

對於 t 之所有常見狀態變動及非常見狀態變動項目集。因此下一次再進行探勘的 時間為𝑡 + 2,並輸出相對於𝑡 + 1之所有常見狀態變動及非常見狀態變動項目集,

以此類推。因此每次都會輸出每一時間點相對於上一時間點之所有常見狀態變動 及非常見狀態變動項目集。

相關文件