第六章 實驗評估與討論
6.2 評估選取代表標籤方法之效果
6.2.3 實驗結果
以下實驗使用 Flickr 和 Delicious 資料集,評估未挑選代表標籤及使用兩種挑 選代表標籤方法,對所找出的前 k 名擴展查詢字集的涵蓋率、重覆率及選擇率之
圖 6.1 Flickr 資料集 Coverage 實驗結果
apple music sky tree sea holiday snow travel california animal
query
business television program shop book technology app film youtube education
query
Coverage
NoUse AvgDiversity Novelty
在圖 6.1 中,查詢為“sky”時,觀察到採用 Novelty 的涵蓋率比 AvgDiversity 低 , 原 因 是 產 生 的 擴 展 查 詢 字 集 有 {color} 、 {blue,color} 、 {nature,color} 、
{landscape,color}、{water,color}、{cloud,color}、{light,color}及 {building,color}
都是含有 color 這個標籤的超集合,所以字集彼此間涵蓋的資料物件會有較多重 覆,造成涵蓋率較低。而查詢為“travel”時,觀察到其 AvgDiversity 的涵蓋率比
Novelty 低,其原因也是因為擴展查詢字集中存在該字集與該字集的超集,造成 較低的的涵蓋率。在圖 6.2 中查詢為“app”時,藉由 AvgDiversity 挑選出的代表 標籤所產生的前 k 名擴展查詢字集,也是由上述情況造成涵蓋率較低的原因。
圖 6.3 Flickr 資料集 Overlap 實驗結果 0
0.1 0.2 0.3 0.4 0.5
apple music sky tree sea holiday snow travel california animal
query
Overlap
NoUse AvgDiversity Novelty
圖 6.4 Delicious 資料集 Overlap 實驗結果
從圖 6.3 中可以觀察到查詢字“apple”有較低的重覆率,原因是能夠產生
{red}、{fruit}、{green}、{newyork,bigapple,city}、{computer}及{canon,iphone}沒 有子集關係的擴展查詢字集,字集彼此間的語意概念又能涵蓋不重覆的物件,故 能有較低的重覆率。反觀查詢字“sky”所產生的高重覆率,原因如同[實驗 1-1]
所述是產生有該字集與該字集的超集,造成彼此間涵蓋的物件雷同,因此就會造 成重覆率較高。而圖 6.4 中使用 Delicious 資料集,發現整體重覆率比圖 6.3 中使 用 Flickr 的重覆率高。根據 6.1.1 說明的資料來源,Delicious 有 14 萬筆網頁連結 物件,只有 6 萬個不同的標籤;反觀 Flickr 有 26 萬筆照片物件,卻有 40 萬個標 籤。所以 Delicious 的資料分佈較密集,也是造成重覆率較高的原因。
0 0.1 0.2 0.3 0.4 0.5
business television program shop book technology app film youtube education
query
Overlap
NoUse AvgDiversity Novelty
圖 6.5 Flickr 資料集 Selectivity 實驗結果
apple music sky tree sea holiday snow travel california animal
query
business television program shop book technology app film youtube education
query
Selectivity
NoUse AvgDiversity Novelty
觀察圖 6.5 中,發現查詢字“snow”的 Selectivity 值偏低,原因是前 k 名的 擴展查詢字集中,每個擴展查詢字集都涵蓋到的一半個數以上的查詢資料物件,
雖然可以有很高的涵蓋率,但是卻無法有效過濾物件。圖 6.6 中的查詢“program”
也是由相同原因造成較低的選擇率。
觀察整體結果,比較使用代表標籤與未使用代表性標籤的結果,顯示有使用 代表標籤大部分的涵蓋率較高、重覆率較低且選擇率較高,所以有使用代表標籤 的方法較未使用代表標籤的方法好。
圖 6.7 Flickr 資料集 Coverage 與 Overlap 之分佈圖 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Overlap
Coverage
NoUse AvgDiversity Novelty
圖 6.8 Delicious 資料集 Coverage 與 Overlap 之分佈圖
圖 6.7 及圖 6.8 同時顯示上述不同方法在 Flickr 與 Delicious 資料集測試所得 之涵蓋率及重覆率數據,而理想狀況是能有高涵蓋率及低重覆率,也就是愈分佈 在圖右下角的位置表示效果愈好。觀察圖 6.7 中,可以發現使用代表標籤方法明 顯優於未使用代表標籤,其中 AvgDiversity 又比 Novelty 好。圖 6.8 則是整體都趨 於右下角的位置,但是未使用代表標籤方法有少量分佈位置較不理想。
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Overlap
Coverage
NoUse AvgDiversity Novelty
[實驗1-2] 評估資料物件可用性分數前 n 名的涵蓋率、重覆率及選擇率之影響 由於[實驗 1-1]將Oq中全部資料物件都納入考慮,在此實驗我們則偏重於觀 察對Oq中可用性分數前n名物件的查詢效果,所以只對可用性分數的前n名的資 料物件評估topkQEs達到的涵蓋率、重覆率及選擇率。
從圖 6.9 及圖 6.10 中發現隨著選取的n越小,涵蓋率及選擇率都會提高,而 重覆率效果卻變大。我們認為原因是由於擴展查詢字集的可用性分數取決於物件 可用性分數高的前 r 名,所以選出的擴展查詢字集多能涵蓋前幾名的資料物件,
因此當n愈小,涵蓋率也愈高。相對的,擴展查詢字集很可能皆涵蓋到可用性前 幾名的物件,因此n愈小,重覆率反而呈現愈高的結果。
圖 6.9 Flickr 資料集選取物件可用性前n名範圍之影響 0
0.2 0.4 0.6 0.8 1
30 50 100 200 300 all
The number of object
AvgDiversity
Coverage Overlap Selectivity
圖 6.10 Delicious 資料集選取物件可用性前n名範圍之影響