融入文件關聯之虛擬關聯文件選取 - 融入文件關聯與查詢清晰度資訊於虛擬關聯回饋之研究

本章節中，我們介紹本論文所提出之方法，即融入文件關聯之虛擬關聯文件選取中，文件關聯性之使用緣由及探討，以及如何透過馬可夫隨機漫步 (Markov Random Walk)來估測文件關聯性，並選出有效的虛擬關聯文件。

5.1. 文件關聯性之探討

以虛擬關連回饋為基礎的模型中，關聯文件的挑選將直接影響模型的好壞。

由於傳統以單連詞語言模型進行挑選的方法所得到之文件對於模型的建立效果十分有限[69]，因此如前面所述的主動式關聯性、多樣性、密度學習法等方法便可以幫助我們選取更有效的關聯文件。但大部分的關聯文件挑選都以文件與查詢間之關係來做為選擇之依據，因此較不重視文件間之關聯。由於查詢本身所包含的資訊量較少，因此僅能找到與其有直接關聯的文件。然而，與這些關聯文件相似的文件有可能也包含了我們所需要的資訊，但卻因為和模糊的查詢相似度較低而未被選取。故有可能發生相似的文件中只有其中數篇被挑選為關聯文件，而其他內容相近的文件卻被忽略的情況，如圖(5.1)所示。在圖(5.1) 中，顏色越相近表示文件面向與內容同樣也較為接近，但在選取的過程中，每個集合中僅有少數會被選取。

為了避免以上的情況，我們希望在尋找與查詢相關的文件時亦同時考慮文件間的關聯性，以補足由於查詢資訊不足而忽略掉的相似文件中的資訊。以下將敘述如何估測文件間的關聯性，以及利用文件間的關聯性來提升虛擬關聯文件挑選之效果。

圖(5.1) 以查詢關聯性為基礎之虛擬關聯文件挑選情形示意圖

5.2. 以馬可夫隨機漫步估測文件間之關聯

隨機漫步是由一連串隨機的軌跡組成，若隨機漫步以馬可夫鏈(Markov Chain)之形式出現，則我們將其稱之為馬可夫隨機漫步[70](Markov Random Walk, MRW)。馬可夫隨機漫步可以用來描述一系統在經過一連串隨機步驟後各元素最後發生之機率，由於整個過程都是隨機產生，因此各個元素之間皆有可能相互轉移，故各元素之產生機率是來自於所有其他元素之機率總合。在經過一段時間之迭代後，整個系統中產生機率最高者即為該系統之中心，表示其與其他元素間具有較強之關聯。此方法在資訊檢索領域中多被用於描述一模型中各詞之間之關聯[54, 55, 56]，並有著很好的效果。在此節中我們主要討論如何以此方法來估測文件間之關聯。

假設有一圖𝐺包含點集合𝑉及邊集合𝐸，其中𝑉所包含之點{𝑣₁, 𝑣₂, … , 𝑣_|𝐶|}分別代表文件集合𝐶中之文件{𝐷₁, 𝐷₂, … , 𝐷_|𝐶|}，而𝐸包含𝑉中任意兩點𝑣_𝑖與𝑣_𝑗之間之邊𝑒_𝑖𝑗，則我們定義𝑙_𝑖𝑗為𝑣_𝑖至𝑣_𝑗之轉移機率，而𝜋_𝑖^𝑡為點𝑣_𝑖在時間點𝑡時之發生機率，此架構可參考圖(5.2)。在一般的馬可夫隨機漫步模型中，有些物件間並無轉移機率，因此必須定義一最小機率作為前述情況之轉移機率。在本論文中，

圖(5.2) 以馬可夫隨機漫步估測文件關聯性之示意圖

在此我們以餘弦相似性(Cosine measure)為基礎來進行轉移機率之估測。餘弦相似性可用來表示兩個向量間之相似性，藉由對兩個文件之單連詞模型進行





在文檔中融入文件關聯與查詢清晰度資訊於虛擬關聯回饋之研究 (頁 32-36)