相關程度評估

第四章實驗結果分析與評估

第三節相關程度評估

要決定一篇文件和檢索問句是否有關聯是很主觀的，每個人可能有不同的專業背景，搜尋的經驗也不同，會有不同的詮釋。最理想的狀況是每個專家都看過每篇文件，再一篇一篇決定是否相關，但是在文件數目過多的情形下，這種方式並不切實際。ImageCLEF 採用 TREC 和 CLEF、NTCIR 等等的做法，先

產生候選文件，稱為pool，候選文件的產生是由參加者的前 n 個相關文件取交集，這個方法是假設每位參加者找到的前幾名文件都是相關的。ImageCEF 也使用了NTCIR 的方法來補充 Pooling 法，亦即讓專家作互動式搜尋(Interactive Search and Judge, ISJ) 來保持 Pool 的品質。相關程度主要是從影像得知，用說明文字做輔助。相關程度的評估使用了四個集合(Qrels)，即嚴格/寬鬆

(Strict/Relaxed)、交集/聯集(Union / Intersection)，比較嚴格的集合可以用來評估高準確率的任務，比較寬鬆的集合用來評估高召回率的任務。

之前的結果(ImageCLEF2003)顯示，翻譯檢索問句為本的多語言影像檢索對單語言來說可以達到高準確率。對中文來說，專有名詞的翻譯是有幫助的，

對其他索引典為本的查詢自動擴展也可以提高準確率。這個Ad Hoc Task 可以不用使用影像特徵。主要評估幾種不同的方法對於跨語言檢索系統效能的影響：1.不同的檢索問句翻譯方法(例如雙語字典查詢之於機器翻譯)；2.自動查詢擴展(全域之於區域)；3.不同的檢索模型(Retrieval Model)；4.不同的索引方式(Indexing Methods)；5.手動和自動的使用者相關度回饋。

ImageCLEF2004 使用幾個標準來評估效能：(1)尚未內插的平均準確率；(2) 前100 個影像沒有任何相關(Failed Topics)；(3)100 張影像包含相關的比率 (Precision at 100)；(4)相關的圖片在前 100 被找到的比率(a Normalized Precision at 100，不會受到答案集的長度影響)。

準確率 (Precision)、召回率 (Recall)的定義如表 12，檢索的結果和相關程度有A、B、C、D 四種關係，A 代表檢索出來而且相關，B 為檢索出來但是不相關，C 為沒有檢索出來但是相關，D 為沒有檢索出來而且不相關。準確率定義為檢索出來的文件中相關文件的比例，也就是

B A

∪ ，召回率定義為相關的文件被檢索出來的比例，也就是

C A

∪ 。

相關不相關被檢索 A B

未被檢索 C D

表 12: 檢索出的文件和相關程度的四種可能關係

ImageCLEF 採用的評估方式為平均準確率，也就是每當一個相關的文件被檢索出來時，計算當時的準確率，再取平均。其中相關的文件但是沒有被檢索出來的準確率是0。以表 13 為例，正確答案總共有九篇文件，第一欄是檢索出來的並且是相關文件的排名，檢索出來的文件中排名第3、6、7、8、16、20、

22、24，的八篇是檢索出來而且相關的，也就是還有一篇相關但是沒有被檢索出來。計算每一篇相關文件被檢索出來時的準確率，例如第三篇文件是相關而且被檢索，前兩名是被檢索出來但是不相關，所以該點的準確率是1/3 也就是 33%；而總共九篇相關文件到第三篇文件時被檢索出一篇，所以該點的召回率是1/9=11%。依此類推，最後算十一點準確率的平均值，但是有一篇相關文件沒被檢索出來，所以取平均時必須除以9 而非 8。

平均準確率只是針對單一檢索問句計算，對於整個系統的效能評估必須考慮多個檢索問句，因此ImageCLEF 採用 Mean Average Precision(MAP)的算法，

對於每一個查詢主題都計算平均準確率(Average Precision)，最後再將所有查詢主題的平均準確率加以平均，也就是MAP。

排名準確率召回率

3 0.33 0.11 6 0.33 0.22 7 0.43 0.33 8 0.50 0.44 16 0.31 0.56 20 0.30 0.67 22 0.32 0.78 24 0.33 0.89 平均準確率 0.36

表 13: 平均準確率的計算例子。

在文檔中利用Ontological Chain解決跨語言資訊檢索系統中的翻譯歧義性問題 (頁 52-55)

第四章 實驗結果分析與評估

第三節 相關程度評估

第四章實驗結果分析與評估

第三節相關程度評估