狀態變動項目集儲存及分析 - 資料流最近常見項目集變動探勘之研究

本章將說明當探勘出狀態變動項目集後，如何將這些資訊儲存起來；而儲存狀態變動項目集的相關資訊後，要如何分析這些資訊，進一步讓使用者對狀態變動的項目集之變動特性有更進一步的概念。

4-1 狀態變動資料項集快照

狀態變動項目集可能隨著時間呈現出不同的特性，例如有某些項目集的狀態變動可能具有週期性，每隔一定時間就會由常見變為非常見，或由非常見變為常見；有些項目集可能很少產生狀態變動，因此一旦產生變動可能就需要特別注意是否有異常狀況發生。有些項目集的狀態變動間隔原本有固定的模式，後來變動的頻率卻逐漸趨於平緩或變得較為劇烈等狀況。因此對於這些在不同時間點探勘出的狀態變動項目集，隨時間進行進一步的總結分析，將提供更多關於該項目集狀態變動特性資訊。

若將執行探勘狀態變動項目集，則每個時間點都會有和前時間點相較下之狀態變動項目集被找出來。為了隨時間進行狀態變動項目集的總結分析，本論文方 法提供由使用者訂定一個快照間隔 SI，蒐集每 SI 次進行狀態變動項目集探勘出來 的項目集，以及各項目集發生變動的時間點資訊，稱為一個狀態變動項目集快照。

如果目前時間點 t 為 SI 的倍數，則會建立狀態變動項目集快照S(_𝑆𝐼^𝑡)，其中所記錄

的是[t-SI+1, t]這段時間區間內所探勘出來的狀態變動項目集及其發生狀態變動的 時間點。

為方便項目集的搜尋比對，我們以一個相同字首樹的結構來記錄一個快照內各時間點所產生的變動項目集，每個項目集在此區間內第一次發生狀態變動的情況，及每次發生狀態變動的時間點，都記錄在對應該項目集之節點路徑下的葉節點中。本儲存設計的觀點是：如果每次探勘的結果都分別記錄在不同棵相同字首樹上，則需要對項目集每次發生變動的時間點來進行資料分析時，就要到各個相同字首樹上進行搜尋，將會相當耗費時間。由於快照儲存的是一段間隔內產生的狀態變動項目集，對於在間隔內有多次出現狀態變動的項目集可以共用相同字首樹內同一條路徑，降低所需儲存空間。

圖 4.1(a)所示為假設從時間點 1 到時間點 10 這段期間內，每個時間點相較於 上個時間點所探勘出的狀態變動項目集之範例。將快照間隔 SI 設為 10 時，圖 4.2(b) 所示為時間點 10 時，所記錄之時間點 1 到時間點 10 的狀態變動項目集快照，以 相同字首樹結構儲存的結果。其中初次變動情況以 if 表示由非常見變為常見，

fi 表示由常見變為非常見。項目集 AB 在此區間第一次發生狀態變動是在時間

點 5 時由非常見變為常見，另外時間點 6、時間點 7、時間點 9 也都產生了狀態上的變動，意指 AB 在時間點 6 及 9 是由常見變為非常見，而在時間點 5 和時間點 7 一樣是由非常見變為常見。而項目集 CE 在此區間只發生一次狀態變動，在時間點 1 時由常見變為非常見。

[範例 4-1]

avg ∆CT^t P = 1

由(3)式及(4)式中可以得知，不需儲存狀態變動項目集的每個變動時間點，只要藉由儲存 sum 、sqr_sum 及 ∆CT^t P 的資訊，即可計算出avg ∆CT^t P 和 cr ∆CT^t P 。

接下來針對S(_𝑆𝐼^𝑡)所儲存之各狀態變動項目集及計算出之時間間隔平均 avg ∆CT^t P 、時間間隔變動率cr ∆CT^t P ，本論文利用 k-means 分群演算法將 S(_𝑆𝐼^𝑡)中各項目集之avg ∆CT^t P 值分成兩群，區別出狀態變動時間間隔相對較短 (Short)及狀態變動時間間隔相對較長(Long)的兩群；對於各項目集之 cr ∆CT^t P 同樣也以 k-means 分群演算法分成兩群，區別出狀態變動時間間隔相對較為穩定

(Stable)及狀態變動時間間隔相對較不穩定(Unstable)的兩群。組合一個項目集 P 的avg ∆CT^t P 和cr ∆CT^t P 在這兩個分群中的結果，可將 P 分成變動時間間隔短而穩定(SS)，變動時間短而不穩定(SU)，變動時間間隔長而穩定(LS)，變動時間間隔長而不穩定(LU)四類。對於在S(_𝑆𝐼^𝑡)中只發生一次狀態變動的項目集，由於

無法計算狀態變動時間間隔，因此狀態變動的時間間隔平均為無限大，狀態變動的時間間隔標準差不存在，因此變動率也不存在，故自成一類，稱為狀態演進

(Status Evolution)，簡稱 SE。另外，當項目集在快照記錄期間內只出現兩次狀態 變動，或是產生狀態變動的時間間隔皆相同，此情況下能夠計算出狀態變動的時間間隔平均，但其狀態變動的時間間隔標準差的值等於 0，變動率也等於 0，我 們將此類型的狀態變動項目集也另外歸成一類，稱為週期變換(Periodic Shift)，簡 稱 PS。因此對於S(_SI^t)中的狀態變動項目集共可分為六個類別，如表 4.1 所列。

表 4.1 狀態變動項目集類別

法計算，故為類別 SE。而狀態變動項目集 D 及 E 經由計算後得出cr ∆CT^t P = 0，

故此兩個項目集為類別 PS。狀態變動項目集 AB、AC、DG、EF 在經由 k-means 分別對其avg ∆CT^t P 及cr ∆CT^t P 分類後，可得 AB 為類別 SS，EF 為類別 LS，

DG 為類別 SU，AC 為類別 LU。

圖 4.2 狀態變動項目集之分佈與分類

4-3 快照儲存結構

對於每個儲存下來的狀態變動項目集快照，使用者可以藉由指定一個時間區間 i, j ，i ≤ j，表示希望得知在這段時間內之狀態變動項目集的總結分類結果，

因此我們必頇整合這段期間內所記錄的快照資訊，才能採用 4.2 節所述方式進行總結特性分析。如果 i，j 不為 SI 的倍數，則選擇離 i 或 j 最接近的狀態變動項目集快照進行資訊的統整。令在時間區間 i, j (i ≤ j)之間的快照為 S_m, S_n ，m =

PS SU

LS LU

本論文引用論文[8]中所提出之金字塔式時間框架(pyramidal time frame)做為儲存快照的架構，此架構以分層的方式儲存記錄不同區間的快照。其概念是愈接近目

(1) α α ≥ 1 ：第 0 層中的每個快照對應到快照間隔 SI。第𝑖層(𝑖 ≥ 0)中的每個快 照對應到的快照間隔為𝑆𝐼 × α^𝑖，也就是合併α^𝑖個原基本快照的結果。

(2) ℓ ℓ > 1 ：表示每一層級中可儲存α^ℓ+ 1個快照。

以下說明金字塔式時間框架儲存快照之方法：首先每一時間間隔 SI 所產生的 基本快照會儲存在第 0 層中，但是由於每一層級中可儲存的快照數量是有限制的 (α^ℓ+ 1個)，因此當層級𝑖(𝑖 ≥ 0)已經到達可儲存的快照最大數量，又有新的快照

必頇儲存在該層級中，則必頇對該層級中最前面的α個快照(對應編號為 S_m,

Sm+1, …, Sm+d-1)進行資料合併，並儲存到層級𝑖 + 1中，編碼為 Sm+d-1。快照合併的方法同樣是利用公式(5)及公式(6)對儲存在不同快照中的狀態變動項目集資訊進行avg ∆CT^t P _S

m,S_{m +d −1} 與cr ∆CT^t P _S

m,S_{m +d −1} 的合併，而快照 Sm, Sm+1, …,

Sm+d-1則會從層級𝑖中移除。

[範例 4-2]

當α = 2，ℓ = 2，每一層級可容納的快照個數α^ℓ+ 1 = 2²+ 1 = 5，隨著快

照資料不斷輸入，其快照儲存架構內容如圖 4.3 所示。

圖 4.3(a)顯示當時共儲存 5 個快照時的記錄情形，當只有儲存這 5 個快照時，

這些快照都會依序記錄在層級 0 中。當必頇儲存快照 S6 時，由於層級 0 已到達可儲存快照數量之最大值，因此將層級 0 的前 2 個快照進行合併，也就是將 S1 合併至 S2 中，並將合併後的 S2 儲存至層級 1 中，層級 0 中所儲存之 S1、S2 即

被移除，如圖 4.3(b)中所示。接下來當必頇儲存快照 S7 時，由於層級 0 仍有空間

在文檔中資料流最近常見項目集變動探勘之研究 (頁 39-49)