UT-growth 演算法處理過程

第五章可用性前 k 名擴展查詢字集探勘方法

5.2 UT- GROWTH 探勘演算法

5.2.2 UT-growth 演算法處理過程

探勘可用性前k名擴展查詢字集的重要依據是一個擴展查詢字集的可用性分數值，以下定理表示常見擴展查詢字集的可用性分數值具有向下封閉的特性

(downward closure property)。

【定理5-2】

在q的擴展查詢字集中，若給定一個大小為(ℓ − 1)的擴展查詢字集QE ，以₁ 及大小為 ℓ 的擴展查詢字集QE ，若₂ count QE_q( ₁)r ， count QE_q( ₂)r 且

1 2

QE QE ，則u QE_q( ₂)u QE_q( ₁)。

(a) (b)

【證明】

根據 Apriori 特性，一個資料物件 o 若包含大小為 ℓ 的擴展查詢字集QE ，則₂

必定會包含QE 的子集(subset)。因此₂ o 必包含QE ，但是包含₁ QE 之資料物件，₁ 則未必包含QE ，可得₂ O QE_q( ₂)必為O QE_q( ₁)之子集。因此O QE_q( ₁)中之可用性分數值前r高的資料物件之分數總和必大於等於O QE_q( ₂)之分數總和，由此可知

1 2

( ) ( )

q q

u QE u QE 。

根據上述定理，本方法先對每個 UT-tree 之 Header Table 中的標籤可用性分數值前k名的標籤形成k個大小為 1 的擴展查詢字集。根據 3.2 節描述的封閉常見擴展查詢字集的概念，在下一步驟檢查這些大小為 1 的擴展查詢字集，若具有相同 的可用性分數值及前 r 個相同的物件集合，則其個別形成的擴展查詢字集不為

CFQE，可先組合成較長的常見擴展查詢字集。探勘可用性前 k 名擴展查詢字集的步驟如下：

步驟<1>: 從 UT-tree 之 Header Table 中，找出可用性分數前k名的標籤形成大小為 1 的擴展標籤字集(1-QE)記錄在Temp_QEs中。

步驟<2>: 對Temp_QEs中每一個1-QE執行下列子步驟：

<步驟2-1>: 檢查是否有其他 1-QE之可用性分數值u_q(1-QE)及包含 1-QE的前 r 個物件編號皆相同。若有 n 個 1-QE符合上述兩個條件，則將這些 1-QE 結合成一個 n- QE 加入至

TempResultQEs；若沒有相同分數值及物件編號，則將該1-QE 直接加入TempResult_QEs。

<步驟2-2>: 以num表示TempResult_QEs中的QE個數。若num小於k個，

則再從 UT-tree 的 Header Table 中尚未被取用之可用性分數值高的(knum)個標籤形成1-QE加入Temp_QEs，重複執行步驟

<2>；若TempResult_QEs中已有k個QE，則進入下一步驟探勘。

步驟<3>: 將Temp_QEs中的QE加入優先佇列(priority queue, PQ)，PQ中每次會取出其中可用性分數最高的1-QE，以{ }t 表示。對原始 UT-tree_i 做投影，建立{ }t -conditional UT-tree，找尋和_i t 在_i O_q一起出現的次 數大於等於 r 之標籤t_j，所需的條件如下所示：

步驟<3-1>: 比對{ }t -conditional UT-tree 之 Header Table 中的標籤_i t_j之可用性分數和{ }t 相同者，若其前 r 個物件編號和{ }_i t 也相同，_i 則將{ , }t t_i _j 加入TempResult_QEs中，並且從TempResult_QEs中刪除{ , }t t_i _j 的子集合。接著用遞迴方式以t_j對 { }t -conditional _i UT-tree 做投影形成{ , }t t_i _j -conditional UT-tree，再找{ , }t t_i _j -conditional UT-tree 中的標籤t 能與_l { , }t t_i _j 形成更長的擴展查詢字集，觀察其可用性分數值是否大於目前TempResult_QEs中 之第 k 名的可用性分數值，若u_q({ , , })t t t_i _j _l 大於TempResult_QEs

中之第 k 名的可用性分數值，則將 { , , }t t t_i _j _l 加入

Q E s

T e m p R e s u l t中且刪除原先的第 k 名，並繼續遞迴投影；若 ({ , , })

q i j l

u t t t 小於TempResult_QEs中之第 k 名的可用性分數值，

則停止投影。

步驟<3-2>: 若{ }t -conditional UT-tree 中所能形成的_i QE之可用性分數值與t 之可用性分數不相等，但是比_i TempResult_QEs中第k名可用性分數值要高，則將QE加入TempResult_{QE s}。接著判斷

TempResultQE s中是否有QE的子集，若有QE的子集合且子集合的可用性分數等於 (u QE)_r ，則移除子集合；否則將

TempResultQEs中的第k名擴展查詢字集移除。

反覆執行步驟<3>直到PQ結束。

步驟<4>: 最後輸出即為目前所存取的TempResult_QEs。

【範例5-4】

承表 5.1 為例，假設給定r為 2，k為 3，圖 5.4(a)之 Header Table 中各標籤字形成 1-QE的可用性分數值分別為{A}:1.7, {B}:1.7, {C}:1.1, {D}:1.6。取前三名分別為{A}, {B}, {D}加入Temp_QEs。檢查發現{A}與{B}的可用性分數值相同且前兩名的物件編號一樣，故可先結合成一個2-QE{A, B}，並加入TempResult_QEs，而{D}

沒有其他 QE 有相同的可用性分數值及前 2 個物件編號，則直接加入

Q E s

T e m p R e s u l t。此時TempResult_QEs為{{ , },{ }}A B D ，其中包含的擴展查詢字集個

數小於 3，因此再找可用性分數值僅次於{A}、{B}及{D}的1-QE {C}加入Temp_QEs，而{C}也找不到其他 1-QE有相同的可用性分數值及前 2 個物件編號，則{C}也加入TempResult_QEs，目前TempResult_QEs {{ , },{ },{ }}A B D C ，接下來，將Temp_QEs 

{{ },{ },{ },{ }}A B C D 依其可用性大小加入至優先佇列 PQ ，此時 PQ { } , { } , {A B D } , { }C

 。接著依序取PQ中的1-QE對圖 5.4(a)之 UT-tree 做投影，以

下將說明每一個投影處理結果：

<1>.以標籤 A 對 UT-tree 的投影結果如圖 5.4(b)，可以得知u_q({ , })A B 1.7、 ({ , }) 1.1

uq A C  及u_q({ , })A D 1.6 ，對照T e m p R e s u l t_{Q E s}{ { , } , { } ,A B D { } }C 可以發現{D}與{A,D}、{C}與{A,C}的分數及前兩名標籤編號相同，

所以可以被取代成較長的擴展查詢集合。此時 {{ , },{ , },{ , }}

TempResultQEs  A B A D A C 。

<2>.以標籤 B 對 UT-tree 投影結果如圖 5.4(c)，可以得知u_q({ , })B D 1.1，並沒有比目前TempResult_QEs中的第三名可用性分數值 1.1 大，故不需更新

TempResultQEs。

<3>.以標籤 D 對 UT-tree 的投影結果為空，故不需處理。

<4>.以標籤 C 對 UT-tree 投影結果如圖 5.4(d)，可以得知u_q({ , })C D 0.5及 ({ , }) 0.9

uq C F  ，皆比TempResult_QEs中的第三名分數 1.5 小，故不需更新TempResult_QEs。

<5>. 執行完PQ，最後輸出為目前TempResult_QEs 所存取的結果，即為

{ { ,A B} , { ,A D } , { ,A C 。 } }

圖 5.4 原始 UT-tree 和各標籤投影之 conditional UT-forest 與 Header Table (a)

(b)

(c)

(d)

在文檔中有效率探勘社交標籤系統中前k名擴展查詢字集之研究 (頁 42-48)

第五章 可用性前 k 名擴展查詢字集探勘方法

5.2 UT- GROWTH 探勘演算法

5.2.2 UT-growth 演算法處理過程

第五章可用性前 k 名擴展查詢字集探勘方法