• 沒有找到結果。

第四章 實驗結果分析與評估

第三節 相關程度評估

要決定一篇文件和檢索問句是否有關聯是很主觀的,每個人可能有不同的 專業背景,搜尋的經驗也不同,會有不同的詮釋。最理想的狀況是每個專家都 看過每篇文件,再一篇一篇決定是否相關,但是在文件數目過多的情形下,這 種方式並不切實際。ImageCLEF 採用 TREC 和 CLEF、NTCIR 等等的做法,先

產生候選文件,稱為pool,候選文件的產生是由參加者的前 n 個相關文件取交 集,這個方法是假設每位參加者找到的前幾名文件都是相關的。ImageCEF 也 使用了NTCIR 的方法來補充 Pooling 法,亦即讓專家作互動式搜尋(Interactive Search and Judge, ISJ) 來保持 Pool 的品質。相關程度主要是從影像得知,用說 明文字做輔助。相關程度的評估使用了四個集合(Qrels),即嚴格/寬鬆

(Strict/Relaxed)、交集/聯集(Union / Intersection),比較嚴格的集合可以用來評 估高準確率的任務,比較寬鬆的集合用來評估高召回率的任務。

之前的結果(ImageCLEF2003)顯示,翻譯檢索問句為本的多語言影像檢索 對單語言來說可以達到高準確率。 對中文來說,專有名詞的翻譯是有幫助的,

對其他索引典為本的查詢自動擴展也可以提高準確率。這個Ad Hoc Task 可以 不用使用影像特徵。主要評估幾種不同的方法對於跨語言檢索系統效能的影 響:1.不同的檢索問句翻譯方法(例如雙語字典查詢之於機器翻譯);2.自動查 詢擴展(全域之於區域);3.不同的檢索模型(Retrieval Model);4.不同的索引 方式(Indexing Methods);5.手動和自動的使用者相關度回饋。

ImageCLEF2004 使用幾個標準來評估效能:(1)尚未內插的平均準確率;(2) 前100 個影像沒有任何相關(Failed Topics);(3)100 張影像包含相關的比率 (Precision at 100);(4)相關的圖片在前 100 被找到的比率(a Normalized Precision at 100,不會受到答案集的長度影響)。

準確率 (Precision)、召回率 (Recall)的定義如表 12,檢索的結果和相關程 度有A、B、C、D 四種關係,A 代表檢索出來而且相關,B 為檢索出來但是不 相關,C 為沒有檢索出來但是相關,D 為沒有檢索出來而且不相關。準確率定 義為檢索出來的文件中相關文件的比例,也就是

B A

A

,召回率定義為相關 的文件被檢索出來的比例,也就是

C A

A

相關 不相關 被檢索 A B

未被檢索 C D

表 12: 檢索出的文件和相關程度的四種可能關係

ImageCLEF 採用的評估方式為平均準確率,也就是每當一個相關的文件被 檢索出來時,計算當時的準確率,再取平均。其中相關的文件但是沒有被檢索 出來的準確率是0。以表 13 為例,正確答案總共有九篇文件,第一欄是檢索出 來的並且是相關文件的排名,檢索出來的文件中排名第3、6、7、8、16、20、

22、24,的八篇是檢索出來而且相關的,也就是還有一篇相關但是沒有被檢索 出來。計算每一篇相關文件被檢索出來時的準確率,例如第三篇文件是相關而 且被檢索,前兩名是被檢索出來但是不相關,所以該點的準確率是1/3 也就是 33%;而總共九篇相關文件到第三篇文件時被檢索出一篇,所以該點的召回率 是1/9=11%。依此類推,最後算十一點準確率的平均值,但是有一篇相關文件 沒被檢索出來,所以取平均時必須除以9 而非 8。

平均準確率只是針對單一檢索問句計算,對於整個系統的效能評估必須考 慮多個檢索問句,因此ImageCLEF 採用 Mean Average Precision(MAP)的算法,

對於每一個查詢主題都計算平均準確率(Average Precision),最後再將所有查詢 主題的平均準確率加以平均,也就是MAP。

排名 準確率 召回率

3 0.33 0.11 6 0.33 0.22 7 0.43 0.33 8 0.50 0.44 16 0.31 0.56 20 0.30 0.67 22 0.32 0.78 24 0.33 0.89 平均準確率 0.36

表 13: 平均準確率的計算例子。