6. 實驗設計與結果
6.2. 基礎查詢模型實驗結果
不同查詢模型所採用的資訊及考慮之面向各有不同,故在比較各種虛擬關 連回饋方法之前,我們需先進行這些查詢模型使用基礎虛擬關聯文件之實驗,
語音文件數量 173249 篇文件
鑑別測試查詢數量 50 則語料庫所提供之測試查詢 最小值 最大值 中位數 平均值 文字文件長度 1 6157 6105 234.3
查詢長度 1 6 6 3.2 各查詢之關聯文件數 2 591 72 97.9
表(6.3) WSJ 之內容統計資訊
文中,我們以前面所介紹的關聯文件(RM)、簡單混和模型(SMM)、查詢調整混 和模型(RMM) 以及主題關聯模型(TRM)四種查詢模型作為比較及探討之對象。
以下我們將比較各類查詢模型及虛擬關聯文件選取方法之檢索效果。
為了便於進行比較,在此我們介紹評估虛擬關連回饋中各種效能的方法。
資訊檢索的目標是找到與查詢之關聯文件,因此我們會對文件以查詢的相關性 進行排序;為了瞭解排序結果的好壞,我們使用平均精確度(mean Average Precision, mAP)表示該排序的效果;此方法定義於[2, 73]中,其計算方法為:
Ni
j ij E
i i r
j N E 1 1 ,
1
mAP 1 (6.1)
上式中𝐸為查詢數目,𝑁𝑖為第𝑖個查詢之關聯文件數,𝑟𝑖,𝑗則為第𝑗個關聯文件於 文件排序中之位置。
mAP 所表現的是最後檢索的效果,而在評估虛擬關聯文件選取方法之效 能上,可以比較各方法所得結果之關聯密度[28](Relevance Density)。該方法透 過計算最後選取的虛擬關聯文件中關聯文件所佔之比例而得,如下式:
R
RD TR (6.2)
式中之|𝑅|為用以建立查詢模型之虛擬關聯文件個數,|𝑇𝑅|為虛擬關聯文件之集 合中真正屬於關聯文件之文件個數。透過各個排序位置之關聯密度變化,我們
語料庫 mAP T2S 0.3213 T2T 0.3711 T3S 0.3976 T3T 0.4375
WSJ 0.2237
表(6.4) 使用單連詞語言模型模型實驗結果
圖(6.1) 基礎虛擬關聯文件之關聯密度
由於虛擬關連回饋需要虛擬關連文件才得以進行,因此最簡單的虛擬關聯 文件取得方法即是簡單的使用單連詞語言模型的排序結果作為基礎的虛擬關 聯文件進行查詢模型的建立。表(6.4)為各語料庫之單連詞語言模型檢索結果。
在查詢模型的建立中,我們可以採用不同的虛擬關聯文件數量來來建立查 詢模型,其檢索效果亦有所差異。查詢模型所使用的文件數量並非是越多或越
0 0.1 0.2 0.3 0.4 0.5 0.6
1 3 5 7 9 1 1 1 3 1 5
關聯密度
所選取之虛擬關聯文件排序位置
T2S T2T T3S T3T WSJ
基礎實驗的進行上,我們使用前面所得之基礎虛擬關聯文件,並將利用不同數 量虛擬關聯文件之結果列出,以供參考。由於各種查詢模型本身都有可變的參 數,而查詢模型與原始查詢模型之結合權重也需依靠參數進行,故我們在此統 一於使用 15 個虛擬關聯文件的情況下進行各模型參數之調整,並將這些參數 保留;在這些參數將被用於利用不同虛擬關聯文件數量以及往後使用不同虛擬 關聯文件選取方法結果之實驗中,以降低參數調整所帶來的影響。
在 RM 的基礎實驗中,三種虛擬關聯文件選取數量之差別並不大;根據語 料庫的不同,最佳之結果亦分布的較為平均,此結果可見表(6.5)。RM 與原始
語料庫 使用文件數
5 10 15
T2S 0.3693 0.372 0.3697 T2T 0.4027 0.4168 0.4205 T3S 0.4743 0.4696 0.4686 T3T 0.4944 0.5088 0.5084 WSJ 0.2964 0.297 0.2994
表(6.5) RM 之基礎實驗結果
圖(6.2) RM 之參數調整情形
0 0.1 0.2 0.3 0.4 0.5 0.6
0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9
MAP
RM權重
T2S T2T T3S T3T WSJ
查詢模型結合之參數對結果的影響則可參考圖(6.2) RM 之參數調整情形。權重 調整之趨勢整體來說仍是高者有較好的結果,但在 T2S、T2T 及 T3S 中,其高 峰則是位於 0.6 至 0.9 之間。SMM 以迭代方式進行模型訓練,在此我們統一將 迭代次數棟為 10 次。在此實驗中,使用不同虛擬關聯文件數量的影響亦不明 顯,但在權重的調整方面,大部分語料庫在高權重時之結果反而較差,只有 T2T 在高權重時有較好的表現。本模型之實驗結果與權重調整情形可見表(6.6)及圖 (6.3)。RMM 在 T2T 語料庫上有較佳的表現,尤其在使用 15 個虛擬關聯文件 的情況中。而在其餘的語料庫上之表現則相對穩定。權重的調整對 RMM 之影 響較小,在大部分語料庫中,權重之高低所得知結果差距並不大。RMM 之實 驗結果及參數調整情形如表(6.7)、圖(6.4)所示。TRM 由於需要透過詞與主題之 關係、主題與文件之關係來進行模型之建立,故在此我們透過第三章中提到的 機率式隱含語意分析(PLSA)來估測前述之關係,同時我們也將主題的數量定為 32 個。由於單純使用 TRM 之效果較為有限,故在實際進行原始查詢模型結合 時,我們將 RM、TRM 各別給予權重,將三者加以結合。由於在參數調整的部 分我們只列出 TRM 之權重,故剩餘之權重即為 RM 即原始查詢模型之總和。
此外,在 T3T 與 WM 語料庫中,TRM 所佔權重較低,可能也顯示出 PLSA 對 此二語料庫的效果較為不足。TRM 於選取不同虛擬關聯文件數量之結果亦較 為平均。其結果及參數調整情形可參考表(6.8)及圖(6.5)。
語料庫 使用文件數
5 10 15
T2S 0.3896 0.3881 0.3670 T2T 0.4141 0.433 0.4397 T3S 0.4459 0.4307 0.4271 T3T 0.4957 0.4978 0.4925 WSJ 0.3083 0.3059 0.3067
表(6.6) SMM 之基礎實驗結果
綜合以上結果,我們可以發現 RMM 及 TRM 在整體上有著較突出之效果;
RMM 較 SMM 多考慮了查詢之資訊,而 TRM 則透過額外的資訊來輔助模型 建立,這也是兩者較突出的原因。但在較大語料庫 WSJ 上,則是以 SMM 之表 現較佳。目前的結果都是以基礎虛擬關聯文件建立的查詢模型所得,其考慮之 面向只有文件之查詢關聯性。若採用不同的虛擬關聯文件選取方法,則其效果 可能又會有所不同,這頁示我們在下一節中主要探討之內容。
語料庫 使用文件數
5 10 15
T2S 0.3734 0.3769 0.3692 T2T 0.4246 0.4503 0.5141 T3S 0.4441 0.4299 0.4294 T3T 0.4948 0.478 0.498 WSJ 0.2982 0.2954 0.3016
表(6.7) RMM 之實驗結果 圖(6.3) SMM 之參數調整情形
0 0.1 0.2 0.3 0.4 0.5 0.6
0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9
MAP
SMM權重
T2S T2T T3S T3T WSJ
圖(6.4) RMM 之參數調整情形