3.1 相關名詞定義
令TDB表示一個具標籤資料物件所形成的資料庫,每一筆資料物件(object) o = (o.id,o.tagset,o.utility),其中物件編號(identity) o.id 以一組數字組成;一個物件
的標籤集合(tagset) o.tagset 是由一個或一個以上的標籤 t 所形成的集合;物件可用 性(utility) o.utility 表示使用者對資料物件的點擊次數或是評分機制,評斷該物件是 否受使用者喜歡的分數值,再將值正規化成 0 到 1 之間。如表 3.1 所示範例,標 號為 244797952 的物件,其標籤集合 o.tagset 為{art, band, blue, music},所對應到 的物件可用性 o.utility 為 0.6。
查詢q為{music},則Oq為{244797952, 194954995, 521223056, 400043609}。候選 標籤字詞(candidate tags)
Oq
C 為Oq中所有物件的 o.tagset 扣除{music}之聯集結果,
也就是COq o Oi qo .tagseti q。承上例:
Oq
C 為{art, band, blue, guitar, live, concern,
microphone, rock, ticket}。
令一個查詢q的擴展查詢字集QE{ , ,..., }t t1 2 tm 是由 找到之QE需滿足一個最少出現次數門檻值(minimal count threshold),以r表示,
也就是確保在Oq中以QE為查詢條件篩選可回傳一定數量的資料物件。從O 中包q 含 QE 的資料物件,取其可用性值 o.utility 的前r名進行加總所得之值,稱為 QE 在
Oq中的可用性值(object utility),以u QEq( )表示。舉例來說,若Oq中包含 QE 的 物件有o 、1 o 、2 o 、5 o 及7 o ,各物件可用性分數分別為 0.4、0.6、0.8、0.2 及 0.3,8 當r 2時,則包含QE的物件中可用性分數最高的前兩名物件為o 及5 o ,故2
( )
u QEq 為 0.8 與 0.6 相加得到之值 1.4。
根據封閉項目集(closed itemset)的概念[16],若Oq中存在兩個擴展查詢字集
QE 及i QEj,QEi QEj且QE 和i QEj在Oq中所找到可用性分數前r名的資料物 件集合相同,則u QEq( i)一定等於u QEq( j)。既然採用QE 和i QEj在Oq中所找到可 用性分數前r名的資料物件集合相同,且QEj中包含較多標籤,語意更明確,我 們認為若已選取QEj就不需再取QE 。在探勘可用性前i k 名擴展查詢字集時,根 據上述說明,本論文所要探勘查詢q的可用性前k名擴展查詢字集的定義如下:
【定義3.1】 查詢 q 的可用性前 k 名擴展查詢字集
給定一個標籤資料庫 TDB 、一個查詢q,以及一個最少出現次數門檻值r。 針對一個q的擴展查詢字集 QE ,將 count (QE)q r之 QE ,稱為Oq中的常見擴 展查詢字集,這些常見擴展查詢字集所成的集合,以 FQE 表示。在 FQE 中的 QE , 若不存在一個q的擴展查詢字集QE ,使得' QEQE'且 QE 和QE 在' Oq中所找 到可用性分數前r名的資料物件集合相同,則稱 QE 為Oq中一個封閉常見擴展查 詢字集。將Oq中的封閉常見擴展查詢字集所成的集合,以 CFQE 表示。在 CFQE 中找出u QEq( )前k高的 QE ,稱為q的可用性前 k 名擴展查詢字集,以topkQEs表 示。
【範例3-1】
以上表 3.1 所示的標籤資源範例,給定查詢q為{music}、r 2及k 2,在Oq 下,找出的FQE有QE1{band}、QE2{concern}、QE3 {live}及QE4{concern,
live}。其中包含QE 的資料物件為{194954995, 521223056, 400043609},因為取可2 用性最高的前兩名之可用性值加總算出u QEq( 2)1.3;而QE1、QE 及3 QE 皆被4 兩個物件包含,所以u QEq( 1)1.1、u QEq( 3)1.3及u QEq( 4)1.3。可以發現QE2 及QE 為3 QE 的子集合,且4 QE 和2 QE 在3 Oq中所找到可用性分數前 2 名的資料物 件集合與QE 相同,因此4 QE 、2 QE 及3 QE 的可用性分數都相同。根據【定義 3.1】4 的描述,封閉常見擴展查詢字集 CFQE 為QE1及QE ,所以從 CFQE 中挑選可用4 性值最高的前兩名為QE1及QE 。 4