• 沒有找到結果。

第六章 實驗評估

6.2 評估不同距離估算方式對查詢結果的效能

6.2.3 實驗結果

[實驗 1 ] 不同距離估算公式的查詢效果評估

採用表 6.1 所表示查詢標籤集,並以人工評分來計算查詢結果的 NDCG

值,其實驗結果如表 6.2 及圖 6.2 所示,用 HD 表示漢明距離公式、mHD

表示修正漢明距離公式、JD 表示傑卡德距離公式、mJD 表示修正傑卡德

距離公式、OD 表示重疊距離公式、mOD 表示修正重疊距離公式。

表 6.2: Top-30 查詢結果各項距離公式之 NDCG 值 HD mHD JD mJD OD mOD

Ta 0.9251 0.9197 0.9221 0.8583 0.9094 0.9466

Tb 0.9252 0.7690 0.9460 0.6832 0.9063 0.8105

Tc 0.9769 0.9041 0.9745 0.8878 0.9775 0.9397

Td 0.9367 0.9130 0.9036 0.7724 0.9212 0.8109

Te 0.9244 0.9410 0.8682 0.6642 0.8921 0.8469

Tf 0.9419 0.9491 0.9444 0.8381 0.9718 0.9057

Average 0.9384 0.8993 0.9265 0.7840 0.9297 0.8767

由實驗結果表 6.2 可觀察到兩點:(1) 原型距離評估公式的平均 NDCG 值較

圖 6.2: Top-30 查詢結果 NDCG 值之長條圖

由圖 6.2 亦可觀察到,使用修正距離公式後其 NDCG 值並未顯著提昇。以查

詢標籤集合 Tb 舉例說明,其對應的資料物件圖片為一隻兔子,但由於修正距離

公式在計算過程會對未配對的標籤做語意的計算,假使有一張並非兔子的資料物

件圖片其未配對到的標籤可以去配對到查詢標籤集中非"rabbit" 的標籤(如"pet"

配對到"animal" ),且具有高度相關語意關係,使其得到與 Tb 的距離值較小,故

此資料物件圖片結果排名會較前面。而受試者在判斷資料物件是否相關時是根據

對查詢標籤集對應的資料物件圖片,自然會將非兔子的資料物件圖片評較低分,

若此物件的標籤和其他非"rabbit" 的標籤有高度語意相關,則 NDCG 值會降低,

由此可知 NDCG 值高低容易受到" 使用者認為較重要" 的標籤字影響。

另外一個影響原因則為 NDCG 值本身計算的方式,只要相關分數高的排名

在前面、低的在後面,其 NDCG 值就會較高。舉例來說,查詢標籤集合為 Tc時,

使用漢明距離公式所得到的 NDCG 值為 0.9252,其排名前面且相關分數高的資

料物件只有少數幾個,其餘相關分數幾乎皆為 0,但因分數排序符合理想狀況所

以使 NDCG 值較高;而查詢標籤集為 Ta時使用修正傑卡德距離公式,得到的

NDCG 值為 0.8583 較前者低,但其查詢結果受試者判為相關分數高的個數較前 者多。

雖然實驗結果顯示修正距離公式的 NDCG 值大部分都比原型公式的 NDCG

值來的小,但是對於計算未配對標籤間的語意關係若是有同義字或是上下概

念階層關係,修正距離公式仍具有比原型公式良好效果。由圖 6.2 知,在查詢

標籤集合為 Ta的情形下,使用修正重疊距離的 NDCG 值較使用原型重疊距離

高,今系統標籤資料庫有兩個資料物件的標籤集為 T1 : { matansantiago, argentina,

temaiken} 、T2: { zoo, penguin, animal},若使用重疊距離公式來計算其與 Ta的距 離值,則此兩筆資料物件與 Ta的距離值皆相等,查詢結果排名亦相同。但若使

用修正重疊距離公式來計算,則 dist( Ta, T1) 比 dist( Ta, T2) 要來得高,T2對應的

資料物件排名會比 T1對應的資料物件排名要高,較符合受試者指定的排名順序。

而對於這三種距離評估公式的優劣,其實和查詢標籤集以及標籤資料庫內標

應當和 T4相像,{ d, e } 可能只是多幾個沒有太大意義或是額外資訊的標籤如相

相關文件