Medline 文集實驗結果 - 資訊檢索之應用 - 使用貝氏潛在語意分析於文件分類及資訊檢索

5.4 資訊檢索之應用

5.4.2 Medline 文集實驗結果

文件檢索的效能評估，採用 precision-recall curve 以及 nAP 兩種方法。此外，在實驗結果中也將觀察在計算時間上消耗的差距。首先，觀察文件檢索之實驗結果，在圖九中，實驗圖表顯示的是基礎模型經過 MAP PLSA、QB PLSA、SVS Fold-in 以及 SVD-updating⁵的調適之後，各方法

5此處採用的 SVD-updating 方法是由[Bellegarda 2002]提出的方法

的結果比較。觀察其中曲線的相對關係，不論哪一種調整方式都會提升效能。而本論文提出的方法精確率的提升幅度較 LSA 基礎的方式來的大。

另外，對於各種不同的批次的調整方法，其結果可以由表九觀察得知。本論文提出的方法在各個調適量中，nAP 值也都確實較 LSA 相關的更新方式效能更高。從實驗結果可以了解到統計型模型確實比傳統以 VSM 為基礎的模型有較好的效能。

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0 10 20 30 40 50 60 70 80 90

RECALL PR

ECI SI ON(

% )

MEDLINE DATA

Baseline MAP QB Fold-in SVD-Updating

圖九 Medline 文集 precision-recall curve

Numbers of adaptation data (N)

Baseline 150 300 450

Folding-in 36.24 35.38 36.97 38.83 SVD-updating 36.24 35.46 37.37 39.17 MAP PLSA 34.11 37.38 41.43 46.09

表九批次方法的 nAP 比較

接著，就 MAP PLSA 實驗觀察調整效能，圖十表現的是三個操作步驟所對應的效能比較。很明顯可以看的出來，較多的調適量的確對於調整後的模型有更佳的結果。其提升幅度隨著量的增加而有更佳的效果。

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0 10 20 30 40 50 60 70 80 90

RECALL PR

ECI SI ON(

% )

MEDLINE DATA

Baseline

MAP: 1st-learning epoch MAP: 2nd-learning epoch MAP: 3rd-learning epoch

圖十 Medline 文集 MAP PLSA 各操作步驟比較

圖十一是 QB PLSA 的實驗結果，和 MAP PLSA 同樣使用 Medline 文集。隨著操作步驟的次數增加，效果也呈現的越好。回應之前 5.2 節中提到的模型評估標準，藉由觀察圖十二的

perplexity 趨勢可以發現，文件

模型的

perplexity 的確隨著操作次數的增加而遞減。

值得注意的是，從實驗的圖表可以發現一個現象。在前兩次的操作步驟之中，本論文提出的方法和 baseline 之間的 recall-precision curve 存在著交錯點。在低召回率的狀況下，本方法的精確率具有顯著的提升，

而當召回率提升之後會發現精確率提升幅度較為下降。

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0

10 20 30 40 50 60 70 80 90

RECALL PR

ECI SI ON(

% )

MEDLINE DATA

Baseline

QB: 1st-learning epoch QB: 2nd-learning epoch QB: 3rd-learning epoch

圖十一 Medline 文集 QB PLSA 各操作步驟結果

200 400 600

50 60 70 80 90 100 110 120 130 140 150

Number of adaptation data Peplexyrit

Baseline MAP QB

圖十二 Medline 中不同操作步驟的 perplexity 比較

此現象可以解釋為，本方法提高了新加入的調適文件集所對應文件模型參數的效能，然而因為新文件所內含的字詞組成結構，對於基礎模型的參數結構產生的調適結果，導致在排名較前的文件中較易找到相關文件。另外，由於新的文件加入系統，其對應的查詢句也可以檢索出更多相關的文件。因此，在低召回率的狀況下有顯著的成長。觀察表十，

可以觀察到，不論是 QB PLSA 或者是 MAP PLSA 於不同召回率下，準確率的提升情形確實在低召回率有較顯著的效果。

然而在於較高召回率時，前兩次的操作步驟中，準確率反而較 baseline 稍低，對於此現象的解釋，是因為新加入的字詞資訊中有可能缺乏原先有出現在基礎文件的字詞，則這樣的結果有可能導致新增資料中有部份缺乏的資訊而使得相對應的文件排名落後。再者，和查詢句較不相關的文件，也有可能經過調整之後使得文件中某些字詞和查詢句的關鍵字產生較高的關聯，而讓部份較不相關的文件排名較高。因此可以從實驗中觀察到，在較高的召回率，精確率的提升就沒有低召回率時亮眼了。雖然如此，假設取回較少文件時擁有較多相關的文件是一件重要的評估標準，整體的效果實際上還是有所提升，尤其在低召回率下更容易找到相關的文件。

此問題可能藉由新增調適資料的完善程度得到改進。觀察在 MAP PLSA 以及 QB PLSA 在各次操作步驟中效能的變化情形，藉由表十一來觀察文件排名提升的效果，結果顯示在較前面排名的文件中，相關文件取回的數量確實提升的狀況。

MEDLINE queries 1-30

baseline MAP PLSA %change QB PLSA %change Relevant⁶: 696 696 696

Rel_ret⁷: 379 593 +56.46 593 +56.46 at 0.00 0.586 0.8611 +46.95 0.8693 +48.34 at 0.10 0.5574 0.7902 +41.77 0.7833 +40.53 at 0.20 0.478 0.6591 +37.89 0.6682 +39.79 at 0.30 0.447 0.5942 +32.93 0.5735 +28.30 at 0.40 0.3989 0.4997 +25.27 0.4692 +17.62 at 0.50 0.3423 0.3695 +7.95 0.3683 +7.60 at 0.60 0.3062 0.2999 -2.06 0.3001 -1.99 at 0.70 0.27 0.2447 -9.37 0.2413 -10.63 at 0.80 0.2244 0.2052 -8.56 0.2043 -8.96 at 0.90 0.1672 0.141 -15.67 0.1398 -16.39 at 1.00 0.0895 0.072 -19.55 0.0697 -22.12 Avg P 0.3431 0.4091 +19.24 0.4066 +18.51

表十比較在不同召回率對應的精確率 MEDLINE queries 1-30

baseline MAP PLSA %change QB PLSA %change 5 docs 0.42 0.6267 +49.21 0.6333 +50.79 10 docs 0.3867 0.5533 +43.08 0.5467 +41.38 15 docs 0.3511 0.4778 +36.09 0.4689 +33.55 20 docs 0.32 0.4167 +30.22 0.4167 +30.22 30 docs 0.2633 0.3467 +31.67 0.3378 +28.29 100 docs 0.11 0.154 +40.00 0.1537 +39.73 200 docs 0.0587 0.0857 +46.00 0.0855 +45.66 500 docs 0.0251 0.0373 +48.61 0.0376 +49.80 1000 docs 0.0126 0.0198 +57.14 0.0198 +57.14

R-P 0.3307 0.4155 +25.64 0.4094 +23.80 表十一不同排名值的篇數比較

6 答案集中相關的數量

7代表相關且取回的數量

1 2 3 0

1 2 3 4 5 6 7

Computation Time (sec)

Learning epoch MAP PLSA

QB PLSA

圖十三調適時間比較圖

在 QB PLSA 實驗設計上，每個操作步驟僅有該次調整所需大小的調適資料量。比較 QB PLSA 和 MAP PLSA 之間對於時間的使用情形。如圖十三所示，雖然 MAP PLSA 在效能上，略優於 QB PLSA，但是，在時間的花費上 MAP PLSA 所需時間會隨著資料量的增加而遞增⁸。由這個觀點來解釋，遞增式學習的架構擁有計算效率上的優勢。另外，對於訓練期間的記憶體使用量也可以控制，不至於像 MAP PLSA 需要累積大量資料作為更正訓練。

8時間增加量不是完全以倍數增長，是因為資料的量較小，系統的 overhead 影響所致，在其它實

驗中隨著資料量的增長會呈現大量增長的趨勢。

在文檔中使用貝氏潛在語意分析於文件分類及資訊檢索 (頁 64-71)