• 沒有找到結果。

第四章 實驗結果分析與評估

第四節 實驗結果

本論文使用了表 11 的 30 個檢索主題作為檢索問句,實驗了三個模型:英 文單語言檢索(Mono-Lingual IR)、字典為本的跨語言檢索(Dictionary-based CLIR) 以及知識本體鏈為本的跨語言檢索(Ontological Chain-based CLIR)。其中單語言 檢索由專家將中文檢索問句翻譯為英文,因此這個模型不會有翻譯歧義性的問 題,以此作為基底評估標準(Baseline);字典為本的模型只用雙語字典翻譯,並 且取所有的可能翻譯,因此有翻譯歧義性的問題;知識本體鏈模型使用本論文 提出的知識本體鏈方法來解決翻譯歧義性問題。本節評估1) 檢索結果中前一 百篇的準確率和召回率; 2) 前一百篇的 11-Point Precision/Recall; 3) 使用者回 饋對平均準確率的影響。

針對檢索結果中前一百篇的效能評估方面,由表 14 可以看出純粹使用雙 語字典翻譯檢索問句的跨語言資訊檢索系統準確率只有5%,而加入知識本體 鏈之後可以提升到10%;召回率也由 63%提升到 83%。由於準確率的計算方式 是檢索出的相關文件除以所有檢索出的文件總數,所有檢索出的文件總數固定 為100,但是相關的文件可能不到 100,如表 13 的例子中,相關文件只有九篇,

9%,無法到 100%。

單語言檢索 字典為本 知識本體鏈 準確率 12.49% 5.3% 10.62 召回率 89.23% 63.98% 83.37%

表 14: 前一百篇檢索結果的準確率和召回率

在前一百篇的11 點準確率/召回率方面,由於相關文件的個數沒有正規化,

所以前一百篇的平均準確率很低,意義不太大,因此使用本章第三節介紹的平 均準確率(Average Precision)以及 MAP (Mean Average Precision) 來避免相關文 件個數的影響。表 15 是三種模型的 11 點平均準確率;表 16 是三種模型的 MAP 值實驗結果,從表 15 可以看出使用知識本體鏈可以從 49%提升到 55%,

並且達到單語言資訊檢索效能的92%。

檢索模型 召回率

字典為本 跨語言檢

單語言檢 索

知識本體鏈 跨語言檢索

0 0.3489 0.5877 0.3305

0.1 0.3134 0.5564 0.3292 0.2 0.3078 0.4863 0.3340 0.3 0.2457 0.4243 0.3563 0.4 0.2570 0.3993 0.3531 0.5 0.2394 | 0.3571 0.3277 0.6 0.2405 0.3659 0.3132 0.7 0.2321 0.3526 0.3084 0.8 0.2330 | 0.3122 0.3030 0.9 0.2254 0.2926 0.3038 1.0 0.2163 0.2906 0.3044 平均準確率 0.2600 0.4023 0.3240

表 15: 三種模型的平均準確率比較

單語言檢索 字典為本 知識本體鏈 MAP 60.63% 49.18% 55.81%

表 16: 前一百篇檢索結果的 MAP 值

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 召回率

準確率

字典為本 單語言檢索 知識本體鏈

圖 24 是系統的準確率/召回率相對圖,可以看出效能最佳的是單語言資訊 檢索,而知識本體鏈的方法效能較雙語字典比對為佳。

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 召回率

準確率

字典為本 單語言檢索 知識本體鏈

圖 24: 11 點準確率/召回率相對圖

在探討使用者回饋對平均準確率的影響方面,此功能需要兩種相關度回 饋,包括正例(也就是被檢索出的相關文件)和反例(也就是被檢索出的不相關文 件)。本論文採用自動的方式評估使用者相關度回饋功能:對於每個檢索問句的 每篇檢索結果交由評估的程式標示相關以及不相關,從相關的文件中隨機取出 4 篇文件作為正例;不相關的文件中隨機取出 2 篇文件作為反例,以模擬使用 者挑選正例和反例的流程。圖 25 是自動評估的結果,可知使用者回饋次數越 多,可以進一步提升準確率。

0 0.2 0.4 0.6 0.8 1 1.2

1 2 3 4 5 6

回饋次數

準確

處理魚的男人和女人 1908年四月拍攝的羅馬照

約克大教堂

加拿大英屬哥倫比亞

圖 25: 使用者相關度回饋次數與準確率關係圖