融入文件關聯與查詢清晰度資訊於虛擬關聯回饋之研究

全文

(1)國立台灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳. 博士. 融入文件關聯與查詢清晰度資訊於虛擬關聯回饋之研究 A Study on Integrating Document Relatedness and Query Clarity Information for Improved Pseudo-Relevance Feedback. 研究生：陳俊諭撰中華民國. 一百零三年八月.

(2) ii.

(3) 摘要虛擬關連回饋技術能透過虛擬關聯文件選取進行有效虛擬關聯文件以查詢重組，並用於資訊檢索系統中。大部分的資訊檢索系統是簡單的基於初步檢索結果所得到的查詢與文件之關聯分數來挑選用於查詢重組之虛擬關聯文件。故本論文藉由同時考慮文件間之關聯以及查詢與文件間之關聯來進行虛擬關聯文件之選取，而馬可夫隨機漫步(Markov Random Walk)概念之利用，能讓我們對前面所述的關係加以估測，並找到更佳之虛擬關聯文件。在關聯文件選取完成後，基於使用在資訊檢索的查詢模型上，我們亦探討如何有效的將原始查模型與利用虛擬關聯文件資訊之新查詢模型加以結合，而結合之權重則是以所謂的查詢清晰度決定。本論文中之實驗驗證主要進行於 Topic Detection and Tracking collection (TDT-2)、Topic Detection and Tracking collection (TDT-3)以及 Wall Street Journal (WSJ)語料庫上，而實驗結果顯示本論文所提出之虛擬關聯回饋之各類改進方法能夠提升資訊檢索之效能。. 關鍵字：虛擬關聯回饋、虛擬關聯文件選取、馬可夫隨機漫步、查詢清晰度、查詢模型。 iii.

(4) Abstract Pseudo-relevant document selection figures prominently in query reformulation with pseudo-relevance feedback (PRF) for an information retrieval (IR) system. Most of conventional IR systems select pseudo-relevant documents for query reformulation simply based on the query-document relevance scores returned by the initial round of retrieval. In this thesis, we propose a novel method for pseudo-relevant document selection that considers not only the query-document relevance scores but also the relatedness cues among documents. To this end, we adopt and formalize the notion of Markov random walk (MRW) to glean the relatedness cues among documents, which in turn can be used in concert with the query-document relevance scores to select representative documents for PRF. Furthermore, on top of the language modeling (LM) framework for IR, we also investigate how to effectively combine the original query model and new query model estimated from the selected pseudo-relevant documents in a more effective manner by virtue of the so-called query clarity measure. A series of experiments conducted on both the TDT (Topic Detection and Tracking) collection and the WSJ (Wall Street Journal) collection seem to demonstrate the performance merits of our proposed methods.. Index Terms–pseudo-relevance feedback, pseudo-relevant document selection, Markov random walk, query clarity, query model. iv.

(5) 誌謝. v.

(6) 章節目錄 1.. 緒論......................................................................................................................... 1 1.1. 研究動機........................................................................................................ 2 1.2. 相關研究........................................................................................................ 3 1.3. 論文貢獻........................................................................................................ 6 1.4. 論文章節安排................................................................................................ 7. 2.. 基於語言模型之資訊檢索架構............................................................................. 8 2.1. 單連詞語言模型(Unigram Language Model) .............................................. 8 2.2. 庫爾貝克-萊伯勒差異量測量法(Kullback-Leibler Divergence) ................. 8. 3.. 查詢模型簡介....................................................................................................... 10 3.1. 關聯模型(Relevant Model, RM) ................................................................. 10 3.2. 簡單混和模型(Simple Mixture Model, SMM) ........................................... 11 3.3. 查詢調整混和模型(Query-Regularized Mixture Model, RMM) ............... 13 3.4. 主題關連模型(Topic Relevant Model, TRM) ............................................. 15. 4.. 虛擬關聯文件選取方法簡介............................................................................... 17 4.1. 主動式關聯性、多樣性、密度學習法(Active-RDD) .............................. 17 4.2. 進階主動式關聯性、非關聯性、多樣性及密度學習法(Advanced ActiveRDD). 19. 4.3. 可重疊分群之再取樣法.............................................................................. 20 5.. 融入文件關聯之虛擬關聯文件選取................................................................... 21 5.1. 文件關聯性之探討...................................................................................... 21 5.2. 以馬可夫隨機漫步估測文件間之關聯...................................................... 22. 6.. 實驗設計與結果................................................................................................... 25 6.1. 實驗語料庫簡介.......................................................................................... 25 6.2. 基礎查詢模型實驗結果.............................................................................. 26. vi.

(7) 6.3. 虛擬關聯文件選取方法實驗結果.............................................................. 32 6.4. 新穎查詢模型與額外資訊使用方法之探討.............................................. 52 我們在本論文中探討了許多虛擬關聯回饋中之方法，而其中有許多部分是有改進或討論的空間的。在本章節中我們也將針對除了虛擬關聯文件選取以外的步驟之改良進行探討，並以實驗來檢視其效果。.............................. 52. 7.. 6.4.1.. SMM 之改進與實驗結果 ............................................................ 52. 6.4.2.. RMM 之改進與實驗結果 ............................................................ 54. 6.4.3.. 考慮查詢清晰度之查詢模型權重調整....................................... 57. 結論與未來展望................................................................................................... 60. vii.

(8) 圖目錄圖(1.1) 虛擬關連回饋流程以及本論文欲改進處之示意圖 ....................................... 2 圖(1.2) 虛擬關聯文件選取方法近年發展情形示意圖 ............................................... 3 圖(1.3) 查詢模型近年發展情形示意圖 ....................................................................... 5 圖(3.1) 簡單混和模型訓練方式示意圖 ..................................................................... 11 圖(3.2) 隱含主題與文件及詞之關聯示意圖 ............................................................. 15 圖(4.1) 文件密度與多樣性面向之示意圖 ................................................................. 19 圖(5.1) 以查詢關聯性為基礎之虛擬關聯文件挑選情形示意圖 ............................. 22 圖(5.2) 以馬可夫隨機漫步估測文件關聯性之示意圖 ............................................. 23 圖(6.1) 基礎虛擬關聯文件之關聯密度 ..................................................................... 28 圖(6.2) RM 之參數調整情形 ....................................................................................... 29 圖(6.3) SMM 之參數調整情形.................................................................................... 31 圖(6.4) RMM 之參數調整情形 ................................................................................... 32 圖(6.5) TRM 之參數調整情形 .................................................................................... 33 圖(6.6) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RM 之關聯密度變化 .......................................................................................... 35 圖(6.7)自基礎虛擬關聯文件前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RM 之關聯密度變化 .......................................................................................... 37 圖(6.8) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 SMM 之關聯密度變化 ....................................................................................... 39 圖(6.9) 自基礎虛擬關聯文件前前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 SMM 之關聯密度變化 ................................................................................... 41 圖(6.10) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RMM 之關聯密度變化 ................................................................................... 43 圖(6.11) 自基礎虛擬關聯文件前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RMM 之關聯密度變化 ................................................................................... 45 圖(6.12) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 TRM 之關聯密度變化 .................................................................................... 47. viii.

(9) 圖(6.13) 自基礎虛擬關聯文件前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 TRM 之關聯密度變化 .................................................................................... 49. ix.

(10) 表目錄表(6.1) TDT-2 之內容統計資訊 .................................................................................. 26 表(6.2) TDT-3 之內容統計資訊 .................................................................................. 26 表(6.3) WSJ 之內容統計資訊 ..................................................................................... 27 表(6.4) 使用單連詞語言模型模型實驗結果 ............................................................. 28 表(6.5) RM 之基礎實驗結果 ....................................................................................... 29 表(6.6) SMM 之基礎實驗結果.................................................................................... 30 表(6.7) RMM 之實驗結果 ........................................................................................... 31 表(6.8) TRM 之實驗結果 ............................................................................................ 32 表(6.9) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RM 之實驗結果 .................................................................................................. 34 表(6.10) 自基礎虛擬關聯文件前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RM 之實驗結果 .............................................................................................. 36 表(6.11) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 SMM 之實驗結果 ........................................................................................... 38 表(6.12) 自基礎虛擬關聯文件前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 SMM 之實驗結果 ........................................................................................... 40 表(6.13) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RMM 之實驗結果 ........................................................................................... 42 表(6.14) 自基礎虛擬關聯文件前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RMM 之實驗結果 ........................................................................................... 44 表(6.15) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 TRM 之實驗結果 ............................................................................................ 46 表(6.16) 自基礎虛擬關聯文件前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 TRM 之實驗結果 ............................................................................................ 48 表(6.17) 各種文件選取方法之參數數量 ................................................................... 51 表(6.18) SMM2 之基礎實驗結果................................................................................ 53 表(6.19) SMM2 使用 MRW 選取方法之實驗結果 .................................................... 53 表(6.20) RMM2 之實驗結果 ....................................................................................... 54 x.

(11) 表(6.21) RMM2 使用 MRW 選取方法之實驗結果 ................................................... 54 表(6.22) RMM3 之實驗結果 ....................................................................................... 54 表(6.23) RMM3 使用 MRW 選取方法之實驗結果 ................................................... 55 表(6.24) RMM4 之實驗結果 ....................................................................................... 56 表(6.25) RMM4 使用 MRW 選取方法之實驗結果 ................................................... 56 表(6.26) 不同查詢模型考慮查詢清晰度用於調整權重之實驗結果 ....................... 57 表(6.27) 不同改良查詢模型考慮查詢清晰度用於調整權重之實驗結果 ............... 57 表(6.28) 不同改良查詢模型使用 MRW 選取結果並考慮查詢清晰度用於調整權重之實驗結果................................................................................................................... 59. xi.

(12) 1.. 緒論資訊檢索[1]技術已經成為現代人生活中不可或缺的一部分。隨著資訊量. 的增加，如何在大量的資訊中取得使用者所需已成為各方研究的目標；而智慧型手機等設備的普及則使檢索更容易進行，但也因為使用者通常有希望能盡快取得所需資訊的急迫性，或所在場所不便於長時間詳細輸入文字等情形，故目前的檢索系統所面對的問題中，一部分是來自使用者所的查詢(Query)。這些查詢通常具備以下數個特性，包括長度較短、用詞不精確等；長度較短的特性讓使用者能表達的資訊量極為有限，而含糊的用詞可能同時包含多種含義，讓系統無法得知使用者的真正需求。為了克服這些問題，許多改良資訊檢索的技術便被發展出來，其中一項廣為使用及研究的技術─虛擬關聯回饋 (PseudoRelevant Feedback, PRF)，即是本文主要探討的議題。在資訊檢索系統中，我們通常會基於語言模型(Language Model, LM)對查詢建立模型[1, 2, 3, 4, 5]；但如前面所述，使用者所提供的查詢所包含的資訊通常十分有限，而虛擬關聯回饋則希望利用額外的訊息來輔助原始查詢以提升檢索系統的效能。一般以虛擬關聯回饋輔助的資訊檢索架構中包含以下幾個步驟，條列如下：一、設法取得初步檢索結果，如以單連詞語言模型(Unigram)等方法進行初步檢索[2, 3, 4, 5, 6]。在此階段所檢索到的文件集合我們即稱之為虛擬關聯文件(Pseudo-Relevant Document)。二、以初步檢索結果所得到之虛擬關聯文件求建立查詢模型(Query Model)，或稱回饋模型(Feedback Model)。三、將查詢模型單獨使用或與原始查詢模型進行結合，以此對文件進行排序，此排序結果即文件與查詢間之關連程度。整個架構之流程可參考圖(1.1)。. 1.

(13) 圖(1.1) 虛擬關連回饋流程以及本論文欲改進處之示意圖. 1.1. 研究動機在上述 PRF 的架構中，每一個步驟皆可視作是獨立的議題。雖然各個環節都有許多方法被提出，但也都有其缺憾或不足之處。如在虛擬關聯文件選取上，目前常見之方法大都以文件之查詢關聯性為主，較少輔以其他文件之其他面向。在查詢模型方面，雖然已有許多有效之方法被提出，但我們仍希望進一步改進模型，使其能更有效的利用來自於虛擬關聯文件中之資訊。而在查詢模型之結合步驟中，參數的調整對最後的檢索結果也有一定的影響，但參數的調整一般上常跟據經驗來進行，需花費較多時間。因此，藉由改進各個步驟之方法並將之結合，我們希望可以得到一個具有更佳效能的系統。. 2.

(14) 1.2. 相關研究資訊檢索是一門被廣為研究的領域，從常見的檢索方法如向量空間模型[7] 及 BM25[8]等研究，至查詢以及文件之各種特性[9, 10,11, 12, 13, 14]，如模糊及難易度的探討等，皆有許多研究結果。除了使用查詢進行檢索外，也有學者研究以文件作為查詢等應用[15, 16]。由於社群網站的發展，以及網路上資訊的大量流通，利用網際網路上之大型文件集或對社群網站上之語料進行分析的方法同樣成為研究之焦點[17, 18,19, 20, 21]，由於需求相較於傳統的資訊檢索有些不同，故這些方法通常考慮網頁的相似性與連結等面向。有些學者也以不同的架構來看資訊檢索的問題，如隱藏馬可夫模型[22] (Hidden Markov Model, HMM)、超圖 [23]及型態學[24]等，讓我們能從不同觀點切入。虛擬關連回饋也是近年資訊檢索領域中十分受到重視的一項技術；如我們在前面所提到的，其所包含的三個步驟：虛擬關聯文件選取、查詢模型建立以及查詢模型結合，都各別有許多方法被提出。. 圖(1.2) 虛擬關聯文件選取方法近年發展情形示意圖. 3.

(15) 在虛擬關連回饋技術中，為了對資訊量不足之原始查詢進行輔助，我們十分倚重虛擬關聯文件所包含之資訊，故虛擬關聯文件的品質對整個虛擬關連回饋之效果有極大的影響。最簡單虛擬關聯文件選取方法是使用初步檢索之結果，該結果通常是經由單連詞語言模型所產生。許多研究之結果顯示單純倚靠查詢關聯性之虛擬關聯文件挑選方法，所挑選而得之文章有可能未必為真正之關聯文件[25]。除此之外，由於我們無法確定查詢真正之資訊需求，故在選取虛擬關聯文件時，我們也必須在文件內容之多樣性或一致性等不同面向做出取捨；當選取之文件一致性高時[25]，所檢索到之文件性質通常也會偏向一致，若使用者所下之查詢可能具多種含義，此時便無法滿足其資訊需求，這樣的情形尤其容易在以查詢關聯性為主的方法中發生；而多樣性過高亦有可能會產生與前述相反之情形，使得使用者不知道何者才是其所需的資訊。基於以上的問題，許多不同的虛擬關聯文件選取方法亦被提出，以其改善前述之問題。在[25]中以數種較直覺之方式來避免挑選到過於相似的文件，如以間隔𝐾 自初步檢索結果中選取，或者是以最大邊際關聯 [26] (Maximal Marginal Relevance, MMR)來提高所選擇文件之多樣性。由於有著一致性的需求，分群也常被用於虛擬關聯文件的選取中。最簡單的方法，便如同在[25]中所提到的，將每候選文件分群後，選出與查詢關聯性最高的分群使用。而在[27]中則反過來將高排序的文件藉由分群方法剔除，增加多樣性。[28, 29]以可重疊之 K-均值(K-Means)分群法找出同時具多個面向之文件，藉此得到有利之資訊。[30]藉由多方面的考量文件之關聯性與多樣性以及密度等面向，可以挑選到十分有利之虛擬關聯文件。雖然[30]中已經考慮文件之多個面向，但在[31]中，我們則延續其概念並進一步加入非關聯之資訊，其結果也證實了該面向之考慮十分有價值。統計上的方法，如再取樣或自助抽樣法[32]，也常被運用於虛擬關聯文件選取，如[33]以及前面所提到的[27]等。而近年知名的虛擬關聯文件選取方法發展情形可參考圖(1.2)。. 4.

(16) 由於查詢本身所包含資資訊量不足，因此我們需要利用外部資訊來輔助原始查詢模型，這些技術可統稱為查詢擴展，而所得之模型及統稱為查詢模型或回饋模型。查詢模型主要可以分成數類，其中一類是以虛擬關連回饋技術為基礎，利用初步檢索或其他文件挑選方法所得到之虛擬關聯文件建立查詢模型或進行查詢重構[34, 35, 36, 37]，以及在本論文中做為實驗之比較對象的關連模型[38]、簡單混和模型[39]、查詢調整混和模型[40]等。除了利用查詢與虛擬關聯文件中之統計模型外，我們也能以段落或句子的層次來進行查詢模型的建立[41, 42]；在[43, 44, 45]中，更直接使用摘要技術所得之結果來. 圖(1.3) 查詢模型近年發展情形示意圖. 做為擴展用之文句。當文件長度過短時，其也會面臨如查詢般資訊過少的問題，故亦有將查詢擴展技術用於較短文件上之研究[46]，與其類似的應用還有關於尋找文件中句子之特殊情形[47]。在文件中，詞與詞之間之關係在出現次數之外，還包括其間之距離，如[48, 49, 50, 51]。由於各文件內可能包含許多較無貢獻之詞，若我們將文件模型映射之其他空間後再加以利用，便可以透過此空間. 5.

(17) 來描述文件中的資訊[52]，如主題關聯模型中之主題機率即是來自機率式隱含語義分析(Probabilistic Latent Semantic Analysis, PLSA)等方法。詞與詞之間的關係對查詢擴展的貢獻亦在[53, 54]中被探討，而馬可夫隨機漫步的技術可以讓我們估測一圖中，各點與整體之間的關係，若以其來進行詞的中要性評估亦對查詢擴展有所幫助[55, 56]。若要針對特定的領域或項目進行檢索，亦有研究是針對這樣的需求而提出了所謂的概念模型[57, 58]以提高查詢之精確度。每一種查詢擴展或查詢模型各有其優缺點，透過機器學習的方法，我們可以將各種模型結合，已盡量滿足各種情形[59]。圖(3.1)為近年來較具代表性之查詢模型發展示意圖。在最後的查詢模型結合階段，我們可以利用一些的方法來進行權重的調整 [60]。隨著所要檢索文件的數量增加，虛擬關連回饋的效能也成為改進的方向 [61, 62]，如保留可重複利用的資料等，都是提高效率與儲存空間有效的方法。. 1.3. 論文貢獻本論文在虛擬關連回饋技術的數個步驟都提出進行討論及改進。首先，在挑選虛擬關聯文件方面，前人的研究中已對初步檢索結果之文件進行多個面向之探討及挑選，並取得很好的結果。但這些方法仍是以查詢本身為基礎進行挑選，並沒有完整的考慮到文件之間的關聯。由於查詢本身資訊的不足[11]，因此在進行初步檢索時並無法找到有效的虛擬關聯文件。一些研究也指出初次檢索中排序最高之虛擬關聯文件有可能並不屬於關聯文件[9]，故在虛擬關聯文件的挑選上，我們希望藉由馬可夫隨機漫步來估測候選虛擬關聯文件集合中所有文件之關聯，並利用文件支查詢關聯性來做為文件本身之初始機率，希望能在考慮查詢需求的前提下找到初步檢索較難取得之文件。其次，在查詢模型的建立上，我們將現有的簡單混和模型及查詢調整混和模型內容進行討論，並提出些許改進方法。在簡單混和在簡單混和模型中，所要挑選的詞皆是基於與背景不相似或距離較遠之詞，再此我們將此一看法轉換. 6.

(18) 為挑選與虛擬關聯文件相似之詞。這樣的改變同樣也能應用於查詢調整混合模型中，以用不同的觀點建立查詢模型。查詢調整混和模型中之考慮查詢模型本身支貢獻是其與簡單混和模型最大的不同之處，在這裡我們也對此部分進行改進，希望能將查詢本身支資訊更有效的融入模型的建立中。最後，在結合查詢模型與原始查詢模型的部分，本論文將一評估查詢難易度之指標─清晰度應用於此階段，以取代傳統虛擬關連回饋技術中之參數調整步驟。由於清晰度本身即代表了查詢之困難與否，因此可針對個別不同之查詢得到不同之結合權重，讓各個查詢都能有效的與查詢模型結合。. 1.4. 論文章節安排本論文對整體虛擬關聯回饋皆有進行討論、介紹以及講解；以下簡介本文後續之各章節內容：第二章. 介紹一般在資訊檢索架構中所用到的語言模型、以及排序方法。. 第三章. 簡介本論文中欲比較之各類查詢模型。. 第四章. 介紹虛擬關連回饋的技術中，選取關聯文件的各類方法。. 第五章. 本論文所提出之融入文件關聯性之虛擬關聯文件選取方法所考慮之因素及選取方法介紹。. 第六章. 各種虛擬關聯文件選取方法以及本論文所提出之方法用於各種查詢模型之實驗結果，以及各種改良查詢模型與考慮清晰度之查詢模型權重調整方法之介紹與實驗結果。. 第七章. 結論及未來展望。. 7.

(19) 2.. 基於語言模型之資訊檢索架構在本章節中，我們將介紹基於語言模型(Language Model, LM)資訊檢索架. 構的基本組成：包含用於表示查詢及文件內容的語言模型、文件排序的機制等。. 2.1. 單連詞語言模型(Unigram Language Model) 語言模型能以統計方式來表達某一詞出現於一串詞序列之間的機率分布，是一個在自然語言處理領域中被廣泛研究的題材。在資訊檢索的過程中，語言模型即扮演了描述查詢及文件資訊的角色[4, 5]。若我們假設在某一串詞序列中，其先後順序並不影響檢索結果(即 bag-of-word 假設)，則對某一詞𝑤，我們定義其在查詢𝑄中出現的機率𝑃(𝑤|𝑄)為. p ( w | Q) . c( w, Q) Q. (2.1). 其中，𝑐(𝑤, 𝑄)表示詞𝑤出現在查詢𝑄中之次數，而|𝑄|為查詢𝑄所包含的詞數量。在本架構中，舉凡查詢、文件及我們所求得的回饋模型都是以單連詞語言模型來對其進行描述。. 2.2. 庫爾貝克-萊伯勒差異量測量法(Kullback-Leibler Divergence) 此測量法的目的在於幫助我們了解兩個機率分布間之相似性[63]。而在資訊檢索架構中，本測量法所要比較的目標便是我們所建立的查詢及文件模型。若給定查詢模型𝑃(𝑤|𝑄)和文件模型𝑃(𝑤|𝐷)，則庫爾貝克-萊伯勒差異量測量法 [64](Kullback-Leibler Divergence)的估測方式如(2.2)所述 SIM (Q, D )   KL (Q D )    P ( w Q) log wV. P( w Q) P( w D).    P ( w Q) log P ( w Q)   P ( w Q ) log P ( w D) wV. rank. . wV.  P( w Q) log P( w D). wV. 8. (2.2).

(20) 上式中之𝑉為所有詞之集合。在此式的最後，我們忽∑𝑤∈𝑉 𝑃(𝑤|𝑄)log𝑃(𝑤|𝐷)項之影響。這是由於該項在查詢與任意文件的排序過程中皆相同，並不影響排序結果，故將其排除。庫爾貝克-萊伯勒差異量測量法所得之值雖然無法滿足數學上對距離的定義，但我們仍可把它視作兩個機率分佈之間的距離看待；換言之，距離越近，則表示兩個分佈越為為相似。在之後的實驗中，我們將用各類的關聯模型加強或取代原本的的查詢模型，並將其用於與文件之庫爾貝克-萊伯勒差異量測量法的估測。最後，根據估測結果對文件進行排序，此排序則代表本檢索系統之檢索結果。. 9.

(21) 3.. 查詢模型簡介為了輔助原始查詢模型，在虛擬關聯回饋中，我們將虛擬關聯文件以各種. 方式建立查詢模型，以達到前述的目的。在本章節中，我們介紹目前較具代表性的一些查詢模型，這些模型也將會成為本論文實驗中的比較對象。. 3.1. 關聯模型(Relevant Model, RM) 在此查詢模型[38]中，為了估測未知關聯類別(Relevance Class)與文件之相似性，我們的目標在於為該關聯類別建立模型，即詞𝑤出現在此關聯模型中之機率𝑃𝑅𝑀 (𝑤|𝑄)。藉由簡單的機率原理，𝑃𝑅𝑀 (𝑤|𝑄)之結果可以透過將查詢𝑄與詞 𝑤在關聯類別中出現之聯合機率(Joint Probability) 𝑃𝑅𝑀 (𝑤, 𝑄)除以𝑄本身出現於該關聯模型中之機率𝑃𝑅𝑀 (𝑄)而得。若我們假設虛擬關聯文件集合𝑅中之各個文件出現的機率為𝑃(𝐷𝑚 )，則聯合機率𝑃𝑅𝑀 (𝑤, 𝑄)之結果即可以下列式子求得 PRM ( w, Q) .  P( D. m. DmR. ) P(q1 , q2 ,....ql | Dm ). (3.1). 其中𝑞1, 𝑞2 , … , 𝑞𝐿 代表長度為𝐿之查詢𝑄中所包含的詞序列。由於我們先前已經做過了忽略詞排列順序的假設，因此我們可以將詞 w 與查詢𝑄中包含之詞所產生的機率都視為條件獨立。依上述條件，(3.1)可改寫如下. PRM ( w, Q) . . Dm R. L. P( Dm ) P( w | Dm ) P(ql | Dm ). (3.2). l 1. 而將(3.2)與𝑃𝑅𝑀 (𝑄)相除之結果即為我們要估測的關聯模型. PRM ( w | Q) . . DmR. L. P( Dm ) P( w | Dm ) P(ql | Dm ) l 1. (3.3). L.  P( D ) P(q. Dm 'R. m'. l. | Dm ' ). l 1. 在本論文之實驗中，我們假設虛擬關聯文件集合𝑅中之各個文件出現的機率皆相等。. 10.

(22) 3.2. 簡單混和模型(Simple Mixture Model, SMM) 此方法中，我們同樣假設虛擬關聯文件集合 R 都是由主題模型 FB 所產生，而估測該主題模型的手段則是透過將虛擬關聯文件集合𝑅中的文件模型混和，可參見圖(3.1)。在此圖中，虛擬關聯文件集合中之各個詞之機率都是被視為來自主題模型與背景模型之結合。. 圖(3.1) 簡單混和模型訓練方式示意圖. 上述的想法可以簡單的由下面的式子表示. P( R | FB ) .   P(w | FB). Dm R wV. c ( w, Dm ). (3.4). 雖然我們已經將虛擬關聯文件之模型加以混和，但虛擬關聯文件中卻不見得都是有用的資訊，而是包含了許多沒有幫助的詞。由於我們無法得知各個詞的重要性，因此我們以一個參數  來調整一個詞出現在主題模型中或者是背景 (Background)模型中的傾向。背景模型的建立是藉由統計大量的文件中所包含的資訊而來，由於所有詞皆列入統計，因此其包含之資訊亦十分模糊，故此模型可以當作是雜訊的機率分佈。最後，若有一個適當的比例來調整背景所佔的比重，則用來估測主題模型產生虛擬關聯文件之對數相似度(Log Likelihood)的式子可以由(3.4)改寫為. 11.

(23) logP( R | FB ) .   c(w, D. Dm R wV. m. ) log[(1   )  P( w | FB )    P( w | BG )]. (3.5) 此式之值即為我們用虛擬關聯文件來估測關聯類別的效果，其值越大則表示我們的估測越接近主題模型。為了對此式最大化，我們以預期最大化 (Expectation–Maximization, EM)訓練[65]來調整關聯類別模型以滿足前述的需求。預期最大化訓練的結果是藉由數次的迭代而來，而每次的迭代包含兩步驟，分別是預期步驟(E-step)和最大化步驟(M-step)，如(3.6)與(3.7)所示。 E-step:. t. (n). (1   ) P ( n ) ( w | FB ) ( w)  (1   ) P ( n ) ( w | FB )  P( w | BG ). M-step. P. ( n 1). ( w | FB ) .  c(w, d )t. (n). ( w). Dm R.   c(w' , d )t. (3.6). (n). ( w' ). (3.7). w 'V Dm 'R. 每次迭代中，兩個步驟交替執行，而每個步驟的結果都將參予另一步驟的計算。在本方法中，為了得到最佳的主題模型，我們定義預期最大化訓練所進行的兩個步驟如下其中在𝑡(𝑤)與𝑃(𝑤|𝐹𝐵)所出現的上標𝑛代表的是訓練的迭代次數，兩個步驟間的差距 1 則表示在訓練過程中兩者依序更新的關係。在預期步驟中，我們所要決定的是每個詞的傾向，也就是一個詞於關聯類別模型與背景模型之總和中所佔的比重。有了此資訊後，我們將其用於最大化步驟中，使得主題模型的估測除了考慮詞在虛擬關聯文件中的出現機率外，也顧慮到其是否傾向於出現在關聯類別中。若某一詞出現在虛擬關聯文件之機率較其他詞高，但卻更傾向於出現於背景中，則該詞在虛擬關聯類別模型中發生的機率也將隨之下降，而這樣的結果又會對下次迭代的預期步驟造成影響。隨著迭代的進行，傾向於出現在背景中的詞在主題模型中產生的機率也將與其他詞拉開，進而達到去除雜訊的效果。. 12.

(24) 由於最初的預期步驟中我們就需要主題模型才能進行，故我們需要先定義主題模型之初始值；在本文中，藉由將所有虛擬關聯文件當作某一虛擬文件之一部分，並建立該虛擬文件之單連詞模型，我們可以將此模型作為主題模型之初始結果。. 3.3. 查詢調整混和模型(Query-Regularized Mixture Model, RMM) 簡單混合模型在估測關聯類別時考慮到了各個詞之重要性，而在本方法中，我們則更進一步將各個虛擬關聯文件的重要性也列入考慮，而實現的方法則是透過將在簡單混和模型中決定背景所佔比例的參數𝜆改為各個虛擬關聯文件都各自獨立之權重𝛼𝑚，並將其列入預期最大化之訓練目標。如此一來，每個文件的重要性都是由其中所包含的詞所決定，而不同於簡單混和模型的一視同仁。藉由這樣的手段，我們希望除了提高重要的詞產生的機率外，同時也要提高包含重要的詞之虛擬關聯文件所占之權重。基於以上的敘述，我們可將簡單混合模型的對數相似度式子中之參數𝜆以𝛼𝑚 取代，並將其修改如下 log P( R | FB ) .   c(w, D. Dm R wV. m. ) log((1   m ) P( w | FB )   m P( w | BG )). (3.8) 如同在前一節中所述，我們的目標同樣是藉由預期最大化訓練將對數相似度最大化。雖然最大化目標以及關聯文件之權重都已經列入考慮，但還有一個因素是同樣在簡單混和模型中也沒有考慮到的，也就是查詢本身的重要性。直覺上來說，為了輔助查詢模型而產生的主題模型理所當然的要考慮到查詢本身所包含的資訊，如此一來所得到的回饋模型才能進一步貼近使用者的原意。在此方法中，我們選擇讓查詢模型參予預期最大化訓練的過程，讓其能對最後的主題模型有所影響。改寫後的預期最大化訓練步驟如下：. 13.

(25) E-step： P( Z w, Dm  1) . M-step：. . (n) m.  m( n ) P ( n ) ( w | FB )  m( n ) P ( n ) ( w | FB )  (1   m( n ) ) P( w | BG ).  c(w, D ) P(Z   c(w' , D m. wV. m. w 'V. P( w | Q)  P ( n1) ( w | FB ) . . w, Dm.  1). (3.10). ).  c(w, D. m. Dm R.  c(w' , D. w 'V Dm 'R. (3.9). m. ) P( Z w, Dm  1). ' ) P( Z w', Dm '  1). (3.11). 相對於簡單混和模型，本方法在預期最大化訓練過程中有許多改變。在預期步驟上，有鑑於目前各個虛擬關聯文件之權重皆有獨立的權重，故在此我們不單考慮詞的傾向，而是考慮詞在某篇關連詞中之傾向。在(3.10)中，由於多考慮到於不同虛擬關聯文件上之差異，我們將𝑡 (𝑛) (𝑤)改為𝑃(𝑍𝑤,𝐷𝑚 = 1)，其中 𝑍𝑤,𝐷𝑚 = 1代表詞在虛擬關聯文件𝐷𝑚 中傾向於出現在主題模型中的情形。所多出來的(3.10)因為目的在訓練各個虛擬關聯文件之權重，因此將考慮範圍限定於一個文件內的所有詞上。最後，在(3.11)中，我們加入一參數𝜇與查詢模型 𝑃(𝑤|𝑄)，實現將查詢之資訊納入主題模型訓練中的想法。綜觀整個訓練過程，我們可以發現若某一虛擬關聯文件中所包含之詞大部分傾向於出現在背景中， (𝑛). 則其該次迭代之權重𝛼𝑚 也會隨之降低。而這個結果也影響到預期步驟中詞在每個虛擬關聯文件中之傾向：虛擬關聯文件的權重越低，則其中所包含的詞也將更傾向於出現在背景中。預期步驟的結果也反映在回饋模型的估測上。在 (3.11)中，我們可以清楚的看到，一個詞在主題模型中產生的機率是取決於其在查詢模型中的產生機率、在虛擬關聯文件中的出現次數與其傾向。如此所造成的效果是：因為查詢模型不隨著訓練過程而有所變動，故若有一詞在查詢模型中有很高的產生機率，則其在主題模型中至少也都會持續保有一定的重要性。藉由調整參數𝜇，查詢模型在主題模型中所佔的重要性就可以加以調整。最後我們得到的主題模型應該會有以下的特性，包括提高出現在重要文件中，以及傾向於主題模型的詞之機率，同時也讓查詢模型中出現的詞有一定的出現機率。. 14.

(26) 隨著訓練的迭代次數增加，上面所述的重要的詞與其他的詞之間的差距將會越來越明顯。更由於將查詢模型也納入訓練，在最後的排序過程中，理論上我們可以只用此關聯類別模型來與文件模型進行相似度的評估，而不需再與查詢模型結合。. 3.4. 主題關連模型(Topic Relevant Model, TRM) 在此模型中，我們更進一步利用隱含主題(Latent Topic)來表示詞與文件之間的關聯。隱含主題{𝑇1 , 𝑇2 , … , 𝑇𝑘 }是一組我們事先定義，用來描述詞與文件共同出現情形的變數，其關係如圖(3.2)所示。. 圖(3.2) 隱含主題與文件及詞之關聯示意圖. 在這樣的假設下，某一個詞𝑤被關聯文件𝐷𝑚 產生的機率並不直接由該詞在文件中出現的機率來估測，而是由在所有隱含主題中，𝑤與𝐷𝑚 共同出現機率的總和來決定。 K. P( w | Dm )   P( w | Tk ) P(Tk | Dm ). (3.12). k 1. 而上式中隱含主題𝑇𝑘 產生詞 w 之機率𝑃(𝑤|𝑇𝑘 )以及關聯文件𝐷𝑚 產生潛藏主題 𝑇𝑘 之機率 𝑃(𝑇𝑘 |𝐷𝑚 )可藉由許多不同的方式得到，如機率式潛藏語意分析 (Probabilistic Latent Semantic Analysis, PLSA) [66, 67]及潛藏狄利克雷分布. 15.

(27) (Latent Dirichlet Allocation, LDA) [68]。在此我們以機率式潛藏語意分析為例；在機率式潛藏語意分析的方法中，我們首先定義整體文件集合𝐶之對數相似度 (Log Likelihood)為log𝐿𝐶 ；該相似度之計算方式為整體文件集合之單連詞模型產生文件集合中所出現的所有詞彙之機率，如下所示 log LC .   c(w , D) log P(w | D) i. DC wi D. i. (3.13). 若將上式中文件產生詞之機率𝑃(𝑤𝑖 |𝐷)如前(3.12)的方式表示，藉由最大化對數相似度，個別的𝑃(𝑤𝑖 |𝑇𝑘 )及𝑃(𝑇𝑘 |𝐷𝑚 )機率都能以此為基礎進行估測。為了提高對數相似度，預期最大化被用於此。在預期步驟中，我們計算詞𝑤𝑖 與文件𝐷共同出現時產生隱含主題的機率： P(Tk | wi , D) . P( wi , Tk ) P(Tk | D). . L. l 1. P( wi , Tl ) P(Tl | D). (3.14). 在預期步驟中所得之結果，我們可用其來做為𝑃(𝑤𝑖 |𝑇𝑘 )及𝑃(𝑇𝑘 |𝐷𝑚 )計算中詞頻率之權重。最大化步驟的更新方法如下.  c(w , D)P(T | w , D) P( w | T )    c(w , D) P(T | w , D) i. i. DC L. k. l 1. k. i. j. w j D. k.  c(w , D)P(T  c(w , D) P(T. wi D. P(Tk | D) . w j D. (3.15). j. i. k. | wi , D). j. k. | w j , D). (3.16). 最後，我們將預期最大化訓練所得到的𝑃(𝑤𝑖 |𝑇𝑘 )及𝑃(𝑇𝑘 |𝐷𝑚 )用以取代關連模型中之𝑃(𝑤𝑖 |𝐷𝑚 )項，便可以潛藏主題與詞及關聯文件間的關係來估測最後的主題關連模型： K. PTRM ( w | Q) .   P(w | T ) P(Q | T ) P(T. Dm R k 1. k. k. k. | Dm ) P( Dm ). (3.17). K.    P(w'| T. w 'V Dm 'R k '1. k'. ) P(Q | Tk ' ) P(Tk ' | Dm ' ) P( Dm ' ). 式中之𝑅為虛擬關聯文件之集合。. 16.

(28) 4.. 虛擬關聯文件選取方法簡介為了建立查詢模型，我們需要取得虛擬關聯文件；雖然我們可以簡單的透. 過單連詞語言模型之排序結果來作為虛擬關聯文件，但這樣的選取方法所包含的資訊仍有不足，故有許多不同的方法被發展出來，以更有效的選取虛擬關聯文件。以下我們介紹近年有效的虛擬關聯文件選取方法，這些方法也將在實驗中與本論文所提出之方法進行比較. 4.1. 主動式關聯性、多樣性、密度學習法(Active-RDD) 初步檢索結果通常代表了文件與查詢間之關聯程度，雖然此一特性對挑選虛擬關聯文件有一定程度之參考價值，但在許多研究中都顯示此關係對於虛擬關連回饋之貢獻並非絕對[9]，故在挑選虛擬關聯文件時，我們除了與查詢之關聯外，仍有許多面向能估測一文件是否為一優良之虛擬關聯文件。在本方法中，我們藉由同時考慮一文件之關聯性、密度以及多樣性三個面向之資訊來做為依據，並選取三個面向之綜合結果最佳之文件做為虛擬關聯文件[30]。以下我們也對其個別介紹。. . 關聯性估測此方法之目的在於估測查詢與文件間之關聯性以做為其中一估測之面向。. 關聯性可以簡單的藉由計算原始查詢模型與文件模型間之庫爾貝克-萊伯勒差異量測量法得到。如前所述，單純倚靠關聯性雖然有許多不足之處，但其仍不失為一判斷之依據。. . 密度估測在選取虛擬關聯文件時，我們同樣不希望選取到與其他文件差異太大者。. 由於這樣的文件可能造成整體虛擬關連回饋之結果過於分散而導致檢索結果. 17.

(29) 不佳，因此在本估測方法中我們藉由估測某文件與所有候選文件之平均距離來做為其密度之判斷依據，希望能找到與所有候選文件之整體距離最近者，如圖圖(4.1a)。由於傳統的庫爾貝克-萊伯勒差異量測量法具有方向性，而我們想測量的是文件間相互之距離，故在此我們以 J-差異性測量法(J-Divergence)計算文件𝑑𝑖 與𝑑𝑗 間之距離，如下式： J ( Di || D j )  KL( Di || D j )  KL( D j || Di ). (4.1). 上式中之𝐾𝐿即表示兩文件間庫爾貝克-萊伯勒差異量測量法之結果。而最後密度估測的結果如前所述，為該文件與所有候選文件間之平均距離，其計算方法可見下式：. density ( Di ) . 1 R.  J ( D || D ). DmR. i. h. (4.2). 此處之𝑅為所有候選文件之集合。由於與所有候選文件間之距離是以近者為佳，故在此我們將最後平均距離之結果取負數以滿足計算上之需求。. . 多樣性估測在密度估測中，雖然我們希望找到與整體候選文件接近之文件，但同時我. 們也不希望所選取之文件與已選取之文件有過高的相似性。過高的相似性代表新選取的文件所提供之資訊已經存在於原本的虛擬關聯文件集合中，故此文件之選取對整體虛擬關連回饋並無任何助益。因此，多樣性估測之挑選目標便是找到與已選擇文件之間最短距離最大者，以避免相似性過高之情形發生，可參見圖圖(4.1b)。在此處我們同樣也需計算文件間之距離，而距離之計算我們使用相同於密度估測中所述之 J-差異性測量法進行估測。在介紹以上所述三種面向的估測後，我們以三個參數做為權重，並將前述三種面向之分數做線性結合以做為最後選取之依據。同時，我們可以發現多樣性估測需要有已選文件才得以進行，故在實際進行虛擬關聯文件挑選時. 18.

(30) (a). (b). 圖(4.1) 文件密度與多樣性面向之示意圖. ，我們先以關聯性及密度兩個面向挑選出分數最佳者，再依序選取關聯性、密度以及多樣性總合分數最高之文件。. 4.2. 進階主動式關聯性、非關聯性、多樣性及密度學習法(Advanced ActiveRDD) 主動式關聯性、非關聯性、多樣性及密度之文件排序考慮了三種不同面向，為一有效的虛擬關聯文件選取方式[30]。但這些面向都是以查詢或以初次檢索結果為基礎，為了找到與前者有適當關係之文件而設計。從反面來看，由於非關聯文件所提供的資訊對虛擬關連回饋毫無幫助，與非關聯文件越不關聯的文件表示其中所含的沒有幫助之資訊量亦越少，故同樣適合作為虛擬關聯回饋之文件，我們將此面向稱為非關聯性。本方法將非關聯性面向加入主動式關聯性、非關聯性、多樣性及密度之文件排序方法中，希望能藉由考慮更多面向，更進一步挑選出更佳之虛擬關聯文件。由於非關聯文件之估測較為困難，故我們直接將文件集中之所有文件視為一大型文件，並將其當作非關聯文件。透過計算. 19.

(31) 候選文件與非關聯文件間之庫爾貝克-萊伯勒差異量測量法所得距離，我們將其當作非關聯估測之分數，並同樣用一權重將此分數與主動式關聯性、非關聯性、多樣性及密度之文件排序方法中之三個面向之分數結合，以利排序。. 4.3. 可重疊分群之再取樣法在此方法中，我們假設一個優良的虛擬關聯文件應包含多個面向之資訊。因此，本方法利用可重疊之分群來挑選出符合前述條件之文件。與一般的分群方法不同的是，可重疊分群方法允許一元素同時屬於多個分群中。若我們將每一個分群當做一個不同面向來看待，則同時屬於多個分群中之文件即為同時包含多個面向者[29]。為得到各個不同面向之資訊，我們將每篇高排名的候選文件都各自當作一分群之中心，而與其距離最近之數個文件再加上該文件本身便構成此分群。由於每個分群各為一個文件之集合，故我們亦可以將其視為一大型文件，並為其建立模型；模型的建立可以讓我們計算該分群之查詢相似度，並讓我們對各分群進行排序，而排序最高之分群中的文件即為我們用來建立查詢模型之虛擬關聯文件。為了體現前面所提到之包含多個面向之文件之重要性，高排序之分群中所重複之文件在建立查詢模型時亦會被重複使用。. 20.

(32) 5.. 融入文件關聯之虛擬關聯文件選取本章節中，我們介紹本論文所提出之方法，即融入文件關聯之虛擬關聯. 文件選取中，文件關聯性之使用緣由及探討，以及如何透過馬可夫隨機漫步 (Markov Random Walk)來估測文件關聯性，並選出有效的虛擬關聯文件。. 5.1. 文件關聯性之探討以虛擬關連回饋為基礎的模型中，關聯文件的挑選將直接影響模型的好壞。由於傳統以單連詞語言模型進行挑選的方法所得到之文件對於模型的建立效果十分有限[69]，因此如前面所述的主動式關聯性、多樣性、密度學習法等方法便可以幫助我們選取更有效的關聯文件。但大部分的關聯文件挑選都以文件與查詢間之關係來做為選擇之依據，因此較不重視文件間之關聯。由於查詢本身所包含的資訊量較少，因此僅能找到與其有直接關聯的文件。然而，與這些關聯文件相似的文件有可能也包含了我們所需要的資訊，但卻因為和模糊的查詢相似度較低而未被選取。故有可能發生相似的文件中只有其中數篇被挑選為關聯文件，而其他內容相近的文件卻被忽略的情況，如圖(5.1)所示。在圖(5.1) 中，顏色越相近表示文件面向與內容同樣也較為接近，但在選取的過程中，每個集合中僅有少數會被選取。為了避免以上的情況，我們希望在尋找與查詢相關的文件時亦同時考慮文件間的關聯性，以補足由於查詢資訊不足而忽略掉的相似文件中的資訊。以下將敘述如何估測文件間的關聯性，以及利用文件間的關聯性來提升虛擬關聯文件挑選之效果。. 21.

(33) 圖(5.1) 以查詢關聯性為基礎之虛擬關聯文件挑選情形示意圖. 5.2. 以馬可夫隨機漫步估測文件間之關聯隨機漫步是由一連串隨機的軌跡組成，若隨機漫步以馬可夫鏈(Markov Chain)之形式出現，則我們將其稱之為馬可夫隨機漫步[70](Markov Random Walk, MRW)。馬可夫隨機漫步可以用來描述一系統在經過一連串隨機步驟後各元素最後發生之機率，由於整個過程都是隨機產生，因此各個元素之間皆有可能相互轉移，故各元素之產生機率是來自於所有其他元素之機率總合。在經過一段時間之迭代後，整個系統中產生機率最高者即為該系統之中心，表示其與其他元素間具有較強之關聯。此方法在資訊檢索領域中多被用於描述一模型中各詞之間之關聯[54, 55, 56]，並有著很好的效果。在此節中我們主要討論如何以此方法來估測文件間之關聯。假設有一圖𝐺包含點集合𝑉及邊集合𝐸，其中𝑉所包含之點{𝑣1 , 𝑣2 , … , 𝑣|𝐶| }分別代表文件集合𝐶中之文件{𝐷1 , 𝐷2 , … , 𝐷|𝐶| }，而𝐸包含𝑉中任意兩點𝑣𝑖 與𝑣𝑗 之間之邊𝑒𝑖𝑗，則我們定義𝑙𝑖𝑗 為𝑣𝑖 至𝑣𝑗 之轉移機率，而𝜋𝑖𝑡 為點𝑣𝑖 在時間點𝑡時之發生機率，此架構可參考圖(5.2)。在一般的馬可夫隨機漫步模型中，有些物件間並無轉移機率，因此必須定義一最小機率作為前述情況之轉移機率。在本論文中，. 22.

(34) 圖(5.2) 以馬可夫隨機漫步估測文件關聯性之示意圖. 由於我們考慮的是各文件間之關係，因此所有文件之間之轉移機率皆不為 0。 𝜋𝑖𝑡 的結果是藉由遞迴產生，其估測方法為前一時間點之所有其他文件轉移至此文件之機率總和，其式如下  it 1 . . DC. t j ij. l. (5.1). 在此我們以餘弦相似性(Cosine measure)為基礎來進行轉移機率之估測。餘弦相似性可用來表示兩個向量間之相似性，藉由對兩個文件之單連詞模型進行餘弦相似性計算，我們便能將其視為文件間之關聯性。文件間之餘弦相似性計算方法如下：. cos( Di , D j ) .  P( w | D ) P( w | D ) i. wV. j.  P( w | D )  P( w | D ) 2. i. wV. wV. 2. (5.2). j. 由於馬可夫隨機漫步中各個事件間之關係是以機率表示，其值須介於 0 至 1 之間，故一文件與其他文件間之轉移機率我們將其定為正規化後之餘弦相似度之值，如下：. 23.

(35) cos( Di , D j ). lij .  cos( D , D ). Di  D j , D j C. i. (5.3). j. 在經過數次的迭代之後，每個文件的發生機率變化會逐漸趨緩，為此我們設定一門檻以便決定迭代的終止時機。在馬可夫隨機漫步的系統中，除了各個物件之間的轉移機率外，物件本身之權重也是影響最後各個物件之機率分布的重要因素。在前一節中，由於文件間的轉移機率已經代表了文件間的關係，因此在權重的決定上我們便以查詢的觀點為出發點。有許多方式可以決定上述之權重，在此我們簡單的採用查詢關聯性，即𝑃(𝑄|𝐷)之值，並將所有文件之查詢關聯性正規化為機率後，做為各文件本身之權重。在以一參數將兩者結合後，每一次迭代各點之產生機率為：.  it 1  . . D j C. l  (1   ). t j ij. P(Q | D j ).  P(Q | D. D j ' C. j'. ). (5.4). 在這樣的過程中，原本就擁有高權重之文件在迭代過程中會保有其重要性，而與其相關之文件亦會因此獲得較高的查詢關聯分數；若一文件與許多高權重之文件有所關聯，則在經過迭代後，就算其本身之權重不高，亦有可能因為獲得其他文件之「推薦」而使其產生機率提高，甚至超過原本的高權重文件。這樣的方法與分群為基礎的選取方法不同的地方在於，這類的方法再透過分群得到各種面向之文件後，仍需以查詢關聯度來進行分群的選取；因此若該分群中有低查詢關聯度之文件，即有可能降低分群整體之查詢關聯性，導致該分群被選取之機會降低。而在此方法中，由於各文件仍可保有其本身之重要性，故除了有強烈文件關聯性的文件外，亦不會降低高查詢關聯性之文件。同理，在這樣的系統中，與越多文件有高關聯性者，也更容易提高其產生機率，此特性對擁有多面向之文件亦非常有利。根據前面所述之原因，我們希望此融入文件關聯之虛擬關聯文件選取方法能為整個虛擬關聯回饋找到有效的虛擬關聯文件。. 24.

(36) 6.. 實驗設計與結果在前面的章節中，我們介紹了數種虛擬關聯文件選取方法以及查詢模型，. 也提出了融入文件關聯性於虛擬關聯文件選取之方法。以下我們將呈現前述的各種選取方法與模型之實驗，並與本論文所提出之方法進行比較及討論，以驗證其效果。除了以上的實驗外，本論文亦對查詢模型及清晰度於虛擬關連回饋上之應用進行探討，並進行實驗以觀察這些改進是否能對整體檢索系統有所幫助。. 6.1. 實驗語料庫簡介本文的實驗主要進行在 Topic Detection and Tracking collection(TDT-2)、 Topic Detection and Tracking collection[71](TDT-3) 以及 Wall Street Journal(WSJ) 語料庫上。TDT-2 是藉由語音辨識結果產生的美國之音廣播電台中文新聞報導文件，為語音文件；其中的文件皆已被標記其所屬主題，而這些資訊也是我們在進行效能測試時的評量依據；同時，TDT-2 亦有人工標記的文字文件，我們也以這些文件進行實驗。此語料庫同樣也已將各個文件進行主題的分類，讓我們能對檢索效果進行評估。以下我們簡稱 TDT-2 之語音文件為 T2S，而文字文件為 T2T；本語料庫之統計資訊可參考表(6.1)。TDT-3 同樣為美國之音廣播電台之中文新聞報導文件，亦為語音文件。TDT-3 亦有人工標記之文字文件以及供我們評估檢索效果之文件分類。同樣的，TDT-3 之語音與文字文件以下亦簡寫為 T3S、T3T，而其內容資訊可參考表(6.2)。Wall Street Journal 語料庫收集了 1987 至 1992 年間 Wall Street Journal 上之文件，由於其原始文件包含圖表與圖示等額外訊息，因此我們預先將前面二者去除，並對其進行去除停用字 (Stop word)以及詞幹提取 (Stemming)等處理。在此我們採用 Porter 詞幹提取演算法[72] (Porter Stemming Algorithm)來進行前述的作業。由於我們只採用每篇文章中之本文欄位做為文章內容，故本文欄為空白之文章之長度即為零，在檢. 25.

(37) 語音文件數量鑑別測試查詢數量. 2265 篇文件 16 篇新華社文字報導最小值最大值中位數平均值. 語音文件長度. 23. 4841. 153. 287.1. 文字文件長度. 25. 4730. 153. 281. 查詢長度. 8. 27. 13. 14. 各查詢之關聯文件數. 2. 95. 13. 29.3. 表(6.1) TDT-2 之內容統計資訊. 語音文件數量. 3372 篇文件. 鑑別測試查詢數量 47 語料庫所提供之測試查詢最小值最大值中位數平均值語音文件長度. 9. 2269. 91. 241.6. 文字文件長度. 10. 2327. 96. 252.8. 查詢長度. 1. 34. 10. 9.2. 各查詢之關聯文件數. 3. 89. 12. 20. 表(6.2) TDT-3 之內容統計資訊. 索時我們也不會對其進行排序；WSJ 的各項資訊如表(6.3)所示。由於我們將以上語料庫的語音文件與文字文件皆視為一獨立的文件集合，故以下的實驗我們也都將進行在這五個文件集合上，以比較不同虛擬關聯回饋方法於各個文件集中之表現之差異。. 6.2. 基礎查詢模型實驗結果不同查詢模型所採用的資訊及考慮之面向各有不同，故在比較各種虛擬關連回饋方法之前，我們需先進行這些查詢模型使用基礎虛擬關聯文件之實驗，以了解其查詢模型本身效果及特性，並做為後續各種方法之比較基準。在本論. 26.

(38) 語音文件數量. 173249 篇文件. 鑑別測試查詢數量 50 則語料庫所提供之測試查詢最小值最大值中位數平均值文字文件長度. 1. 6157. 6105. 234.3. 查詢長度. 1. 6. 6. 3.2. 各查詢之關聯文件數. 2. 591. 72. 97.9. 表(6.3) WSJ 之內容統計資訊. 文中，我們以前面所介紹的關聯文件(RM)、簡單混和模型(SMM)、查詢調整混和模型(RMM) 以及主題關聯模型(TRM)四種查詢模型作為比較及探討之對象。以下我們將比較各類查詢模型及虛擬關聯文件選取方法之檢索效果。為了便於進行比較，在此我們介紹評估虛擬關連回饋中各種效能的方法。資訊檢索的目標是找到與查詢之關聯文件，因此我們會對文件以查詢的相關性進行排序；為了瞭解排序結果的好壞，我們使用平均精確度(mean Average Precision, mAP)表示該排序的效果；此方法定義於[2, 73]中，其計算方法為： mAP . 1 E 1 Ni j   E i 1 N i j 1 ri , j. (6.1). 上式中𝐸為查詢數目，𝑁𝑖 為第𝑖個查詢之關聯文件數，𝑟𝑖,𝑗 則為第𝑗個關聯文件於文件排序中之位置。 mAP 所表現的是最後檢索的效果，而在評估虛擬關聯文件選取方法之效能上，可以比較各方法所得結果之關聯密度[28](Relevance Density)。該方法透過計算最後選取的虛擬關聯文件中關聯文件所佔之比例而得，如下式： RD . TR R. (6.2). 式中之|𝑅|為用以建立查詢模型之虛擬關聯文件個數，|𝑇𝑅 |為虛擬關聯文件之集合中真正屬於關聯文件之文件個數。透過各個排序位置之關聯密度變化，我們便能知道該虛擬關聯文件選取方法之準確性。. 27.

(39) 語料庫. mAP. T2S T2T T3S T3T WSJ. 0.3213 0.3711 0.3976 0.4375 0.2237. 表(6.4) 使用單連詞語言模型模型實驗結果. 0.6 0.5. 關聯密度. 0.4 T2S 0.3. T2T T3S. 0.2. T3T WSJ. 0.1 0 1. 3. 5. 7. 9. 11. 13. 15. 所選取之虛擬關聯文件排序位置. 圖(6.1) 基礎虛擬關聯文件之關聯密度. 由於虛擬關連回饋需要虛擬關連文件才得以進行，因此最簡單的虛擬關聯文件取得方法即是簡單的使用單連詞語言模型的排序結果作為基礎的虛擬關聯文件進行查詢模型的建立。表(6.4)為各語料庫之單連詞語言模型檢索結果。在查詢模型的建立中，我們可以採用不同的虛擬關聯文件數量來來建立查詢模型，其檢索效果亦有所差異。查詢模型所使用的文件數量並非是越多或越少越好，而是根據虛擬關聯文件的內容及查詢模型種類而有所變動。因此，在. 28.

(40) 基礎實驗的進行上，我們使用前面所得之基礎虛擬關聯文件，並將利用不同數量虛擬關聯文件之結果列出，以供參考。由於各種查詢模型本身都有可變的參數，而查詢模型與原始查詢模型之結合權重也需依靠參數進行，故我們在此統一於使用 15 個虛擬關聯文件的情況下進行各模型參數之調整，並將這些參數保留；在這些參數將被用於利用不同虛擬關聯文件數量以及往後使用不同虛擬關聯文件選取方法結果之實驗中，以降低參數調整所帶來的影響。在 RM 的基礎實驗中，三種虛擬關聯文件選取數量之差別並不大；根據語料庫的不同，最佳之結果亦分布的較為平均，此結果可見表(6.5)。RM 與原始. 語料庫. 使用文件數 10 0.372 0.4168 0.4696 0.5088 0.297. 5 0.3693 0.4027 0.4743 0.4944 0.2964. T2S T2T T3S T3T WSJ. 15 0.3697 0.4205 0.4686 0.5084 0.2994. 表(6.5) RM 之基礎實驗結果. 0.6 0.5 0.4. MAP. T2S T2T. 0.3. T3S 0.2. T3T WSJ. 0.1 0 0.1. 0.2. 0.3. 0.4. 0.5. 0.6. 0.7. 0.8. RM權重. 圖(6.2) RM 之參數調整情形. 29. 0.9.

(41) 查詢模型結合之參數對結果的影響則可參考圖(6.2) RM 之參數調整情形。權重調整之趨勢整體來說仍是高者有較好的結果，但在 T2S、T2T 及 T3S 中，其高峰則是位於 0.6 至 0.9 之間。SMM 以迭代方式進行模型訓練，在此我們統一將迭代次數棟為 10 次。在此實驗中，使用不同虛擬關聯文件數量的影響亦不明顯，但在權重的調整方面，大部分語料庫在高權重時之結果反而較差，只有 T2T 在高權重時有較好的表現。本模型之實驗結果與權重調整情形可見表(6.6)及圖 (6.3)。RMM 在 T2T 語料庫上有較佳的表現，尤其在使用 15 個虛擬關聯文件的情況中。而在其餘的語料庫上之表現則相對穩定。權重的調整對 RMM 之影響較小，在大部分語料庫中，權重之高低所得知結果差距並不大。RMM 之實驗結果及參數調整情形如表(6.7)、圖(6.4)所示。TRM 由於需要透過詞與主題之關係、主題與文件之關係來進行模型之建立，故在此我們透過第三章中提到的機率式隱含語意分析(PLSA)來估測前述之關係，同時我們也將主題的數量定為 32 個。由於單純使用 TRM 之效果較為有限，故在實際進行原始查詢模型結合時，我們將 RM、TRM 各別給予權重，將三者加以結合。由於在參數調整的部分我們只列出 TRM 之權重，故剩餘之權重即為 RM 即原始查詢模型之總和。此外，在 T3T 與 WM 語料庫中，TRM 所佔權重較低，可能也顯示出 PLSA 對此二語料庫的效果較為不足。TRM 於選取不同虛擬關聯文件數量之結果亦較為平均。其結果及參數調整情形可參考表(6.8)及圖(6.5)。. 語料庫 T2S T2T T3S T3T WSJ. 5 0.3896 0.4141 0.4459 0.4957 0.3083. 使用文件數 10 0.3881 0.433 0.4307 0.4978 0.3059. 15 0.3670 0.4397 0.4271 0.4925 0.3067. 表(6.6) SMM 之基礎實驗結果. 30.

(42) 0.6 0.5 0.4. MAP. T2S 0.3. T2T T3S. 0.2. T3T WSJ. 0.1 0 0.1. 0.2. 0.3. 0.4. 0.5. 0.6. 0.7. 0.8. 0.9. SMM權重. 圖(6.3) SMM 之參數調整情形. 綜合以上結果，我們可以發現 RMM 及 TRM 在整體上有著較突出之效果； RMM 較 SMM 多考慮了查詢之資訊，而 TRM 則透過額外的資訊來輔助模型建立，這也是兩者較突出的原因。但在較大語料庫 WSJ 上，則是以 SMM 之表現較佳。目前的結果都是以基礎虛擬關聯文件建立的查詢模型所得，其考慮之面向只有文件之查詢關聯性。若採用不同的虛擬關聯文件選取方法，則其效果可能又會有所不同，這頁示我們在下一節中主要探討之內容。. 語料庫 T2S T2T T3S T3T WSJ. 5 0.3734 0.4246 0.4441 0.4948 0.2982. 使用文件數 10 0.3769 0.4503 0.4299 0.478 0.2954. 表(6.7) RMM 之實驗結果. 31. 15 0.3692 0.5141 0.4294 0.498 0.3016.

(43) 0.5 0.45 0.4. MAP. 0.35 0.3. T2S. 0.25. T2T. 0.2. T3S. 0.15. T3T. 0.1. WSJ. 0.05 0 0.1. 0.2. 0.3. 0.4. 0.5. 0.6. 0.7. 0.8. 0.9. RMM權重. 圖(6.4) RMM 之參數調整情形. 語料庫 T2S T2T T3S T3T WSJ. 5 0.3923 0.449 0.4733 0.5059 0.2968. 使用文件數 10 0.3962 0.4583 0.4667 0.5085 0.2988. 15 0.3968 0.4603 0.4657 0.5078 0.2997. 表(6.8) TRM 之實驗結果. 6.3. 虛擬關聯文件選取方法實驗結果虛擬關聯文件的好壞直接影響了查詢模型的效果，而虛擬關聯文件選取方法所著重之面向與各種查詢模型所著重面向之關係則是其中原因；也因此，虛擬關聯文件選取方法之優劣，應要考慮其用於不同查詢模型上之表現來決定。在不同選取方法之比較上，在此我們以可重疊分群之在取樣法(OC)、主動式關聯性、多樣性、密度學習法(ARDD)、進階主動式關聯性、多樣性、密度學習法 (AARDD)與本論文所提出的融入文件關聯之虛擬關聯文件選取方法(MRW)用於不同查詢模型上之結果作為比較。. 32.

(44) 0.6 0.5 0.4. MAP. T2S 0.3. T2T T3S. 0.2. T3T WSJ. 0.1 0 0.1. 0.2. 0.3. 0.4. 0.5. 0.6. 0.7. TRM權重. 圖(6.5) TRM 之參數調整情形. 在此，我們將沿用各查詢模型於基礎查詢模型實驗中最佳之參數設定，而僅調整虛擬關聯文件選取方法本身之參數。其中，由於文件與背景模型結合之參數是兩者皆具的，因此在虛擬關聯文件選取方法與不同查詢模型的結合中，此參數之設定亦是以查詢模型為準。在虛擬關聯文件選取的過程中，候選文件之數量以及最後選取的文件數量變化都會對選取結果造成影響；為了對此加以探討，我們將基礎實驗結果中所得之基礎虛擬關聯文件作為候選文件，並將其中的前 30 及 60 個文件作為候選文件之集合，從中選出 15 個文件作為虛擬關聯文件，最後讓各查詢模型分別採用前 5、10、15 個虛擬關聯文件建立模型，以進行檢索。在本節中之實驗結果將以 mAP 及關聯密度表示，以便我們對這些方法對虛擬關聯回饋之貢獻以及所挑選文件的品質進行比較，並能探討其原因。. 33.

(45) 語料庫 T2S. T2T. T3S. T3T. WSJ. 使用文件數 5 10 15 5 10 15 5 10 15 5 10 15 5 10 15. 文件選取方式 ARDD AARDD 0.4369 0.4131 0.374 0.3722 0.3748 0.3811 0.4223 0.4223 0.4442 0.4435 0.4725 0.4733 0.4749 0.4748 0.4716 0.4772 0.4729 0.4761 0.5107 0.5163 0.5203 0.5183 0.5186 0.5190 0.3178 0.3027 0.3152 0.3164 0.3124 0.3129. OC 0.3353 0.3503 0.3451 0.3904 0.3884 0.3836 0.4659 0.4608 0.4861 0.5072 0.5144 0.5155 0.3061 0.3013 0.3061. MRW 0.3548 0.3920 0.3885 0.4359 0.4306 0.4424 0.4712 0.4696 0.4695 0.5085 0.5087 0.5077 0.2950 0.2978 0.2987. 表(6.9) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RM 之實驗結果. 表(6.9)為自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RM 之實驗結果。在 T2T 及 T3S 語料庫中，MRW 可獲得與其他選取方法相當的表現，在其他的語料庫中則通常介於 ARDD、AARDD 與 OC 之間。相較於其他方法，MRW 在不同的虛擬關聯文件使用數量上所造成的效果差異較小，只有在 T2S 中是以選取較多者為佳；而 ARDD 與 AARDD 在 T2S 與 T2T 兩語料庫中，使用 5 與 15 個虛擬關聯文件之結果則有較大的變動，但沒有固定傾向。OC 雖然整體之效果不若其他三者，但其對於使用文件數量的影響同樣不高。圖(6.6)為此實驗之關聯密度變化情形。MRW 之關聯密度在 T2S 中有較佳之表現，但與其相對之檢索結果並不如其他方法；而在其他語料庫中則與各類方法的趨勢大概一致。我們也注意到，AARDD 在 T3T 中雖然在關聯密度上之表現較差，但檢索結果仍十分出色。OC 在大部分的語料庫中之關聯密度都與其他方法接近，甚至優於其他方法，但在檢索結果上較無突出表現。. 34.

(46) 圖(6.6) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RM 之關聯密度變化. 35.

(47) 語料庫 T2S. T2T. T3S. T3T. WSJ. 使用文件數 5 10 15 5 10 15 5 10 15 5 10 15 5 10 15. 文件選取方式 ARDD AARDD 0.4044 0.4122 0.3917 0.4225 0.4149 0.4237 0.3618 0.4027 0.345 0.4416 0.4545 0.4788 0.4557 0.4396 0.4744 0.467 0.4747 0.4755 0.5134 0.5107 0.5182 0.5115 0.5193 0.5207 0.3135 0.3098 0.3122 0.3116 0.3151 0.3173. OC 0.3626 0.3874 0.3852 0.3903 0.3863 0.3913 0.4721 0.4693 0.4758 0.5254 0.5304 0.5254 0.2822 0.2926 0.2921. MRW 0.3884 0.3893 0.3805 0.4121 0.4327 0.4331 0.4741 0.4715 0.4694 0.5097 0.5096 0.5078 0.2957 0.2968 0.2977. 表(6.10) 自基礎虛擬關聯文件前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RM 之實驗結果. 接著我們將候選文件增加至 60 個並用於 RM 上，並將結果呈現於表(6.10) 以及圖(6.7)中。MRW 在 T3S 中有較佳的表現，尤其在使用 5 與 10 個虛擬關聯文件時有最佳的效果，但在其他語料庫中則與各方法相當；在 T2S 及 WSJ 中則介於 ARDD、AARDD 與 OC 之間。而使用虛擬關聯文件的數量對檢索結果之影響上較小。ARDD 與 AARDD 在此實驗中有較佳效果，但對於使用虛擬關聯文件的數量變化較為敏感，尤其在 T2T、T3S 中之差距較其他方法為大。 OC 在 T3T 中有突出的表現，但在其他語料庫中效果通常不比其他方法。其結果受使用虛擬關聯文件數量之影響也很小。在關聯密度的結果上，各方法在 T2S、T2T 及 T3S 上有較大的落差；在這些語料庫中，ARDD、AARDD 與其他兩者在排序 1 至 3 的位置上，有相近的關聯密度，但隨著排序位置增加，其. 36.

(48) 圖(6.7)自基礎虛擬關聯文件前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RM 之關聯密度變化. 37.

(49) 語料庫 T2S. T2T. T3S. T3T. WSJ. 使用文件數 5 10 15 5 10 15 5 10 15 5 10 15 5 10 15. 文件選取方式 ARDD AARDD 0.3761 0.3803 0.3541 0.3508 0.3634 0.3649 0.4511 0.4509 0.4282 0.4289 0.4298 0.4313 0.4342 0.434 0.4359 0.4359 0.4259 0.4258 0.5046 0.5035 0.4991 0.4984 0.4909 0.4917 0.2991 0.2991 0.3072 0.3072 0.3121 0.3121. OC 0.3326 0.3219 0.3339 0.3829 0.3854 0.3911 0.4566 0.4455 0.4258 0.4969 0.4857 0.4695 0.3112 0.3081 0.3112. MRW 0.3911 0.3962 0.3919 0.4322 0.4355 0.4563 0.4529 0.4349 0.4333 0.5051 0.5092 0.5014 0.3161 0.3103 0.3084. 表(6.11) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 SMM 之實驗結果. 下降幅度便十分明顯，而 MRW 及 OC 則相對較為穩定，且整體結果亦較佳，但在其所對應的檢索結果則不如 ARDD 與 AARDD。表(6.11)與圖(6.8)為各虛擬關聯文件選取方法自 30 個基礎虛擬關聯文件選取並用於 SMM 之實驗。MRW 在各個語料庫中都有較佳的表現，而在選取虛擬關聯文件數目的影響上，則是在 T2T 及 T3S 上出現了些許差距。ARDD 與 AARDD 除 WSJ 之外，在其他語料庫上則是傾向於使用較少的虛擬關聯文件；我們也發現兩者在 WSJ 上之檢索結果是相同的，這是由於 AARDD 較 ARDD 多考慮了一項因素，但在此語料庫中，兩方法所得之此因素權重皆為 0，故有此現象產生。OC 在 WSJ 上有不錯的表現，但在其他語料庫上之結果則遜於其他方法；而 OC 在此實驗中也不太受使用虛擬關聯文件數量之影響。在關聯密度上，MRW 除在 T2T 中有最高的高排序關聯密度外，在其餘語料庫中之趨勢. 38.

(50) 圖(6.8) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 SMM 之關聯密度變化. 39.

(51) 語料庫 T2S. T2T. T3S. T3T. WSJ. 使用文件數 5 10 15 5 10 15 5 10 15 5 10 15 5 10 15. 文件選取方式 ARDD AARDD 0.3747 0.3751 0.3592 0.3574 0.3542 0.3559 0.4518 0.4518 0.4232 0.4232 0.4305 0.4305 0.4175 0.4118 0.4163 0.409 0.4284 0.4292 0.5046 0.5046 0.5028 0.5028 0.4967 0.4967 0.309 0.3085 0.309 0.3084 0.3102 0.3119. OC 0.32 0.3165 0.3135 0.3744 0.386 0.3996 0.4476 0.4422 0.4299 0.473 0.4695 0.4633 0.3002 0.3014 0.3056. MRW 0.3848 0.3874 0.38 0.4313 0.4584 0.4625 0.4591 0.4355 0.4417 0.5067 0.5091 0.5197 0.3165 0.3126 0.3085. 表(6.12) 自基礎虛擬關聯文件前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 SMM 之實驗結果. 也與其他方法接近，與查詢結果可相呼應。OC 在 T2S、T2T 之關聯密度則明顯低於其他方法，但在 T3T 中較高的關聯密度則反映於檢索結果上。接下來我們將候選的基礎虛擬關聯文件數量提高到 60 個，結果如表(6.12) 及圖(6.9)所示。MRW 之檢索結果在各語料庫中都有突出表現，而其受選取虛擬關聯文件數量之影響除 T2T 以外，皆沒有太大差距。ARDD 與 AARDD 在 T2T、T3T 中之檢索結果與 MRW 接近，但在 T2S 及 T2T 中受到使用虛擬關聯文件數量的影響較大。OC 在此實驗中之表現較差，而其在 T2T、T3S 中亦稍微受到使用虛擬關聯文件數量的影響。MRW 之整體關聯密度在 T2S、T3S 中皆高於 ARDD 與 AARDD，而在 T2T 之高排序位置中有較大的落差，但並未影響檢索結果。ARDD 與 AARDD 兩者之關聯密度趨勢在各語料庫中都相當一致，變化亦相對平穩。OC 在 T3S 中有最佳的關聯密度結果，但在其他語料庫中則與其他方法有很大的落差。. 40.

(52) 圖(6.9) 自基礎虛擬關聯文件前前 60 篇文件中使用各虛擬關聯文件選取方法挑選並用於 SMM 之關聯密度變化. 41.

(53) 語料庫 T2S. T2T. T3S. T3T. WSJ. 使用文件數 5 10 15 5 10 15 5 10 15 5 10 15 5 10 15. 文件選取方式 ARDD AARDD 0.3606 0.3678 0.3555 0.3563 0.3619 0.3623 0.4843 0.4814 0.4532 0.4532 0.4675 0.4682 0.4164 0.413 0.4232 0.4219 0.4275 0.4282 0.47 0.4727 0.4583 0.4616 0.4711 0.4816 0.2864 0.2968 0.2957 0.2961 0.3033 0.3046. OC 0.3339 0.3074 0.3234 0.3583 0.3521 0.3542 0.4512 0.4458 0.4333 0.5124 0.4888 0.4572 0.2958 0.2966 0.2901. MRW 0.3429 0.357 0.3791 0.4322 0.3963 0.4398 0.45 0.4364 0.4345 0.5139 0.4833 0.5001 0.2985 0.296 0.3011. 表(6.13) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RMM 之實驗結果. 接下來所列出的是基礎虛擬關聯文件前 30 中所挑選結果用於 RMM 之實驗結果，可參考表(6.13)與圖(6.10)。MRW 在 T2S、T3S 及 T3T 都有最佳的表現，而僅在 T2S 中較受選取虛擬關聯文件數量之影響，並傾向於使用較多文件。ARDD 與 AARDD 之幾所結果則相當接近，且同樣在 T2T 中傾向使用較少之文件。OC 則在 T2T、T3T 中與 MRW 之檢索結果接近，但在其他與藥庫中之表現不佳。MRW 在除了 WSJ 的語料庫外在關聯密度上都有不錯的表現，尤其是在於高排序之位置上；而在 T3S、T3T 中則是高於 ARDD 與 AARDD，但低於 OC。OC 在 T3S 與 T3T 中之高連密度較高，而其在此二語料庫之檢索結果也有不錯的表現。我們同樣將基礎虛擬關聯文件選取犯為提高到前 60 個，並進行 RMM 之實驗，實驗結果見表(6.14)、圖(6.11)。MRW 在 T2S、T3S、T3T 中所得之結. 42.

(54) 圖(6.10) 自基礎虛擬關聯文件前 30 篇文件中使用各虛擬關聯文件選取方法挑選並用於 RMM 之關聯密度變化. 43.