實驗結果

第六章實驗評估與討論

6.2 評估選取代表標籤方法之效果

6.2.3 實驗結果

以下實驗使用 Flickr 和 Delicious 資料集，評估未挑選代表標籤及使用兩種挑選代表標籤方法，對所找出的前 k 名擴展查詢字集的涵蓋率、重覆率及選擇率之

圖 6.1 Flickr 資料集 Coverage 實驗結果

apple music sky tree sea holiday snow travel california animal

query

business television program shop book technology app film youtube education

query

Coverage

NoUse AvgDiversity Novelty

在圖 6.1 中，查詢為“sky”時，觀察到採用 Novelty 的涵蓋率比 AvgDiversity 低，原因是產生的擴展查詢字集有 {color} 、 {blue,color} 、 {nature,color} 、

{landscape,color}、{water,color}、{cloud,color}、{light,color}及 {building,color}

都是含有 color 這個標籤的超集合，所以字集彼此間涵蓋的資料物件會有較多重覆，造成涵蓋率較低。而查詢為“travel”時，觀察到其 AvgDiversity 的涵蓋率比

Novelty 低，其原因也是因為擴展查詢字集中存在該字集與該字集的超集，造成較低的的涵蓋率。在圖 6.2 中查詢為“app”時，藉由 AvgDiversity 挑選出的代表標籤所產生的前 k 名擴展查詢字集，也是由上述情況造成涵蓋率較低的原因。

圖 6.3 Flickr 資料集 Overlap 實驗結果 0

0.1 0.2 0.3 0.4 0.5

apple music sky tree sea holiday snow travel california animal

query

Overlap

NoUse AvgDiversity Novelty

圖 6.4 Delicious 資料集 Overlap 實驗結果

從圖 6.3 中可以觀察到查詢字“apple”有較低的重覆率，原因是能夠產生

{red}、{fruit}、{green}、{newyork,bigapple,city}、{computer}及{canon,iphone}沒有子集關係的擴展查詢字集，字集彼此間的語意概念又能涵蓋不重覆的物件，故能有較低的重覆率。反觀查詢字“sky”所產生的高重覆率，原因如同[實驗 1-1]

所述是產生有該字集與該字集的超集，造成彼此間涵蓋的物件雷同，因此就會造成重覆率較高。而圖 6.4 中使用 Delicious 資料集，發現整體重覆率比圖 6.3 中使用 Flickr 的重覆率高。根據 6.1.1 說明的資料來源，Delicious 有 14 萬筆網頁連結物件，只有 6 萬個不同的標籤；反觀 Flickr 有 26 萬筆照片物件，卻有 40 萬個標籤。所以 Delicious 的資料分佈較密集，也是造成重覆率較高的原因。

0 0.1 0.2 0.3 0.4 0.5

business television program shop book technology app film youtube education

query

Overlap

NoUse AvgDiversity Novelty

圖 6.5 Flickr 資料集 Selectivity 實驗結果

apple music sky tree sea holiday snow travel california animal

query

business television program shop book technology app film youtube education

query

Selectivity

NoUse AvgDiversity Novelty

觀察圖 6.5 中，發現查詢字“snow”的 Selectivity 值偏低，原因是前 k 名的擴展查詢字集中，每個擴展查詢字集都涵蓋到的一半個數以上的查詢資料物件，

雖然可以有很高的涵蓋率，但是卻無法有效過濾物件。圖 6.6 中的查詢“program”

也是由相同原因造成較低的選擇率。

觀察整體結果，比較使用代表標籤與未使用代表性標籤的結果，顯示有使用代表標籤大部分的涵蓋率較高、重覆率較低且選擇率較高，所以有使用代表標籤的方法較未使用代表標籤的方法好。

圖 6.7 Flickr 資料集 Coverage 與 Overlap 之分佈圖 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Overlap

Coverage

NoUse AvgDiversity Novelty

圖 6.8 Delicious 資料集 Coverage 與 Overlap 之分佈圖

圖 6.7 及圖 6.8 同時顯示上述不同方法在 Flickr 與 Delicious 資料集測試所得之涵蓋率及重覆率數據，而理想狀況是能有高涵蓋率及低重覆率，也就是愈分佈在圖右下角的位置表示效果愈好。觀察圖 6.7 中，可以發現使用代表標籤方法明顯優於未使用代表標籤，其中 AvgDiversity 又比 Novelty 好。圖 6.8 則是整體都趨於右下角的位置，但是未使用代表標籤方法有少量分佈位置較不理想。

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Overlap

Coverage

NoUse AvgDiversity Novelty

[實驗1-2] 評估資料物件可用性分數前 n 名的涵蓋率、重覆率及選擇率之影響 由於[實驗 1-1]將O_q中全部資料物件都納入考慮，在此實驗我們則偏重於觀察對O_q中可用性分數前n名物件的查詢效果，所以只對可用性分數的前n名的資料物件評估topk_QEs達到的涵蓋率、重覆率及選擇率。

從圖 6.9 及圖 6.10 中發現隨著選取的n越小，涵蓋率及選擇率都會提高，而重覆率效果卻變大。我們認為原因是由於擴展查詢字集的可用性分數取決於物件 可用性分數高的前 r 名，所以選出的擴展查詢字集多能涵蓋前幾名的資料物件，

因此當n愈小，涵蓋率也愈高。相對的，擴展查詢字集很可能皆涵蓋到可用性前幾名的物件，因此n愈小，重覆率反而呈現愈高的結果。

圖 6.9 Flickr 資料集選取物件可用性前n名範圍之影響 0

0.2 0.4 0.6 0.8 1

30 50 100 200 300 all

The number of object

AvgDiversity

Coverage Overlap Selectivity

圖 6.10 Delicious 資料集選取物件可用性前n名範圍之影響

在文檔中有效率探勘社交標籤系統中前k名擴展查詢字集之研究 (頁 58-66)

第六章 實驗評估與討論

6.2 評估選取代表標籤方法之效果

6.2.3 實驗結果

Coverage

Overlap

Overlap

Selectivity

AvgDiversity

第六章實驗評估與討論