相關名詞及問題定義 - 有效率探勘社交標籤系統中前k名擴展查詢字集之研究

3.1 相關名詞定義

令TDB表示一個具標籤資料物件所形成的資料庫，每一筆資料物件(object) o = (o.id,o.tagset,o.utility)，其中物件編號(identity) o.id 以一組數字組成；一個物件

的標籤集合(tagset) o.tagset 是由一個或一個以上的標籤 t 所形成的集合；物件可用 性(utility) o.utility 表示使用者對資料物件的點擊次數或是評分機制，評斷該物件是 否受使用者喜歡的分數值，再將值正規化成 0 到 1 之間。如表 3.1 所示範例，標 號為 244797952 的物件，其標籤集合 o.tagset 為{art, band, blue, music}，所對應到 的物件可用性 o.utility 為 0.6。

查詢q為{music}，則O_q為{244797952, 194954995, 521223056, 400043609}。候選標籤字詞(candidate tags)

C 為O_q中所有物件的 o.tagset 扣除{music}之聯集結果，

也就是COq  o Oi_ qo .tagseti q。承上例：

C 為{art, band, blue, guitar, live, concern,

microphone, rock, ticket}。

令一個查詢q的擴展查詢字集QE{ , ,..., }t t₁ ₂ t_m 是由找到之QE需滿足一個最少出現次數門檻值(minimal count threshold)，以r表示，

也就是確保在O_q中以QE為查詢條件篩選可回傳一定數量的資料物件。從O 中包_q 含 QE 的資料物件，取其可用性值 o.utility 的前r名進行加總所得之值，稱為 QE 在

Oq中的可用性值(object utility)，以u QE_q( )表示。舉例來說，若O_q中包含 QE 的物件有o 、₁ o 、₂ o 、₅ o 及₇ o ，各物件可用性分數分別為 0.4、0.6、0.8、0.2 及 0.3，₈ 當r 2時，則包含QE的物件中可用性分數最高的前兩名物件為o 及₅ o ，故₂

( )

u QEq 為 0.8 與 0.6 相加得到之值 1.4。

根據封閉項目集(closed itemset)的概念[16]，若O_q中存在兩個擴展查詢字集

QE 及i QE_j，QE_i QE_j且QE 和_i QE_j在O_q中所找到可用性分數前r名的資料物件集合相同，則u QE_q( _i)一定等於u QE_q( _j)。既然採用QE 和_i QE_j在O_q中所找到可用性分數前r名的資料物件集合相同，且QE_j中包含較多標籤，語意更明確，我們認為若已選取QE_j就不需再取QE 。在探勘可用性前_i k 名擴展查詢字集時，根據上述說明，本論文所要探勘查詢q的可用性前k名擴展查詢字集的定義如下：

【定義3.1】查詢 q 的可用性前 k 名擴展查詢字集

給定一個標籤資料庫 TDB 、一個查詢q，以及一個最少出現次數門檻值r。針對一個q的擴展查詢字集 QE ，將 count (QE)_q r之 QE ，稱為O_q中的常見擴 展查詢字集，這些常見擴展查詢字集所成的集合，以 FQE 表示。在 FQE 中的 QE ， 若不存在一個q的擴展查詢字集QE ，使得' QEQE'且 QE 和QE 在' O_q中所找到可用性分數前r名的資料物件集合相同，則稱 QE 為O_q中一個封閉常見擴展查詢字集。將O_q中的封閉常見擴展查詢字集所成的集合，以 CFQE 表示。在 CFQE 中找出u QE_q( )前k高的 QE ，稱為q的可用性前 k 名擴展查詢字集，以topk_QEs表示。

【範例3-1】

以上表 3.1 所示的標籤資源範例，給定查詢q為{music}、r 2及k 2，在O_q 下，找出的FQE有QE₁{band}、QE₂{concern}、QE₃ {live}及QE₄{concern,

live}。其中包含QE 的資料物件為{194954995, 521223056, 400043609}，因為取可₂ 用性最高的前兩名之可用性值加總算出u QE_q( ₂)1.3；而QE₁、QE 及₃ QE 皆被₄ 兩個物件包含，所以u QE_q( ₁)1.1、u QE_q( ₃)1.3及u QE_q( ₄)1.3。可以發現QE₂ 及QE 為₃ QE 的子集合，且₄ QE 和₂ QE 在₃ O_q中所找到可用性分數前 2 名的資料物件集合與QE 相同，因此₄ QE 、₂ QE 及₃ QE 的可用性分數都相同。根據【定義 3.1】₄ 的描述，封閉常見擴展查詢字集 CFQE 為QE₁及QE ，所以從 CFQE 中挑選可用₄ 性值最高的前兩名為QE₁及QE 。 ₄

在文檔中有效率探勘社交標籤系統中前k名擴展查詢字集之研究 (頁 21-25)