• 沒有找到結果。

狀態變動項目集儲存及分析

本章將說明當探勘出狀態變動項目集後,如何將這些資訊儲存起來;而儲存 狀態變動項目集的相關資訊後,要如何分析這些資訊,進一步讓使用者對狀態變 動的項目集之變動特性有更進一步的概念。

4-1 狀態變動資料項集快照

狀態變動項目集可能隨著時間呈現出不同的特性,例如有某些項目集的狀態 變動可能具有週期性,每隔一定時間就會由常見變為非常見,或由非常見變為常 見;有些項目集可能很少產生狀態變動,因此一旦產生變動可能就需要特別注意 是否有異常狀況發生。有些項目集的狀態變動間隔原本有固定的模式,後來變動 的頻率卻逐漸趨於平緩或變得較為劇烈等狀況。因此對於這些在不同時間點探勘 出的狀態變動項目集,隨時間進行進一步的總結分析,將提供更多關於該項目集 狀態變動特性資訊。

若將執行探勘狀態變動項目集,則每個時間點都會有和前時間點相較下之狀 態變動項目集被找出來。為了隨時間進行狀態變動項目集的總結分析,本論文方 法提供由使用者訂定一個快照間隔 SI,蒐集每 SI 次進行狀態變動項目集探勘出來 的項目集,以及各項目集發生變動的時間點資訊,稱為一個狀態變動項目集快照。

如果目前時間點 t 為 SI 的倍數,則會建立狀態變動項目集快照S(𝑆𝐼𝑡),其中所記錄

的是[t-SI+1, t]這段時間區間內所探勘出來的狀態變動項目集及其發生狀態變動的 時間點。

為方便項目集的搜尋比對,我們以一個相同字首樹的結構來記錄一個快照內 各時間點所產生的變動項目集,每個項目集在此區間內第一次發生狀態變動的情 況,及每次發生狀態變動的時間點,都記錄在對應該項目集之節點路徑下的葉節 點中。本儲存設計的觀點是:如果每次探勘的結果都分別記錄在不同棵相同字首 樹上,則需要對項目集每次發生變動的時間點來進行資料分析時,就要到各個相 同字首樹上進行搜尋,將會相當耗費時間。由於快照儲存的是一段間隔內產生的 狀態變動項目集,對於在間隔內有多次出現狀態變動的項目集可以共用相同字首 樹內同一條路徑,降低所需儲存空間。

圖 4.1(a)所示為假設從時間點 1 到時間點 10 這段期間內,每個時間點相較於 上個時間點所探勘出的狀態變動項目集之範例。將快照間隔 SI 設為 10 時,圖 4.2(b) 所示為時間點 10 時,所記錄之時間點 1 到時間點 10 的狀態變動項目集快照,以 相同字首樹結構儲存的結果。其中初次變動情況以 if 表示由非常見變為常見,

fi 表示由常見變為非常見。項目集 AB 在此區間第一次發生狀態變動是在時間

點 5 時由非常見變為常見,另外時間點 6、時間點 7、時間點 9 也都產生了狀態 上的變動,意指 AB 在時間點 6 及 9 是由常見變為非常見,而在時間點 5 和時間 點 7 一樣是由非常見變為常見。而項目集 CE 在此區間只發生一次狀態變動,在 時間點 1 時由常見變為非常見。

[範例 4-1]

avg ∆CTt P = 1

由(3)式及(4)式中可以得知,不需儲存狀態變動項目集的每個變動時間點,只 要藉由儲存 sum 、sqr_sum 及 ∆CTt P 的資訊,即可計算出avg ∆CTt P 和 cr ∆CTt P 。

接 下 來針 對S(𝑆𝐼𝑡)所儲存之各狀態變動項目集及計算出之時間間隔平均 avg ∆CTt P 、時間間隔變動率cr ∆CTt P ,本論文利用 k-means 分群演算法將 S(𝑆𝐼𝑡)中各項目集之avg ∆CTt P 值分成兩群,區別出狀態變動時間間隔相對較短 (Short)及狀態變動時間間隔相對較長(Long)的兩群;對於各項目集之 cr ∆CTt P 同樣也以 k-means 分群演算法分成兩群,區別出狀態變動時間間隔相對較為穩定

(Stable)及狀態變動時間間隔相對較不穩定(Unstable)的兩群。組合一個項目集 P 的avg ∆CTt P 和cr ∆CTt P 在這兩個分群中的結果,可將 P 分成變動時間間隔 短而穩定(SS),變動時間短而不穩定(SU),變動時間間隔長而穩定(LS),變動時 間間隔長而不穩定(LU)四類。對於在S(𝑆𝐼𝑡)中只發生一次狀態變動的項目集,由於

無法計算狀態變動時間間隔,因此狀態變動的時間間隔平均為無限大,狀態變動 的時間間隔標準差不存在,因此變動率也不存在,故自成一類,稱為狀態演進

(Status Evolution),簡稱 SE。另外,當項目集在快照記錄期間內只出現兩次狀態 變動,或是產生狀態變動的時間間隔皆相同,此情況下能夠計算出狀態變動的時 間間隔平均,但其狀態變動的時間間隔標準差的值等於 0,變動率也等於 0,我 們將此類型的狀態變動項目集也另外歸成一類,稱為週期變換(Periodic Shift),簡 稱 PS。因此對於S(SIt)中的狀態變動項目集共可分為六個類別,如表 4.1 所列。

表 4.1 狀態變動項目集類別

法計算,故為類別 SE。而狀態變動項目集 D 及 E 經由計算後得出cr ∆CTt P = 0,

故此兩個項目集為類別 PS。狀態變動項目集 AB、AC、DG、EF 在經由 k-means 分別對其avg ∆CTt P 及cr ∆CTt P 分類後,可得 AB 為類別 SS,EF 為類別 LS,

DG 為類別 SU,AC 為類別 LU。

圖 4.2 狀態變動項目集之分佈與分類

4-3 快照儲存結構

對於每個儲存下來的狀態變動項目集快照,使用者可以藉由指定一個時間區 間 i, j ,i ≤ j,表示希望得知在這段時間內之狀態變動項目集的總結分類結果,

因此我們必頇整合這段期間內所記錄的快照資訊,才能採用 4.2 節所述方式進行 總結特性分析。如果 i,j 不為 SI 的倍數,則選擇離 i 或 j 最接近的狀態變動項目 集快照進行資訊的統整。令在時間區間 i, j (i ≤ j)之間的快照為 Sm, Sn ,m =

SS

PS SU

LS LU

i

本論文引用論文[8]中所提出之金字塔式時間框架(pyramidal time frame)做為儲存 快照的架構,此架構以分層的方式儲存記錄不同區間的快照。其概念是愈接近目

(1) α α ≥ 1 :第 0 層中的每個快照對應到快照間隔 SI。第𝑖層(𝑖 ≥ 0)中的每個快 照對應到的快照間隔為𝑆𝐼 × α𝑖,也就是合併α𝑖個原基本快照的結果。

(2) ℓ ℓ > 1 :表示每一層級中可儲存α+ 1個快照。

以下說明金字塔式時間框架儲存快照之方法:首先每一時間間隔 SI 所產生的 基本快照會儲存在第 0 層中,但是由於每一層級中可儲存的快照數量是有限制的 (α+ 1個),因此當層級𝑖(𝑖 ≥ 0)已經到達可儲存的快照最大數量,又有新的快照

必頇儲存在該層級中,則必頇對該層級中最前面的α個快照(對應編號為 Sm,

Sm+1, …, Sm+d-1)進行資料合併,並儲存到層級𝑖 + 1中,編碼為 Sm+d-1。快照合併的 方法同樣是利用公式(5)及公式(6)對儲存在不同快照中的狀態變動項目集資訊進 行avg ∆CTt P S

m,Sm +d −1 與cr ∆CTt P S

m,Sm +d −1 的合併,而快照 Sm, Sm+1, …,

Sm+d-1則會從層級𝑖中移除。

[範例 4-2]

當α = 2,ℓ = 2,每一層級可容納的快照個數α+ 1 = 22+ 1 = 5,隨著快

照資料不斷輸入,其快照儲存架構內容如圖 4.3 所示。

圖 4.3(a)顯示當時共儲存 5 個快照時的記錄情形,當只有儲存這 5 個快照時,

這些快照都會依序記錄在層級 0 中。當必頇儲存快照 S6 時,由於層級 0 已到達 可儲存快照數量之最大值,因此將層級 0 的前 2 個快照進行合併,也就是將 S1 合併至 S2 中,並將合併後的 S2 儲存至層級 1 中,層級 0 中所儲存之 S1、S2 即

被移除,如圖 4.3(b)中所示。接下來當必頇儲存快照 S7 時,由於層級 0 仍有空間

相關文件