• 沒有找到結果。

融入文件關聯之虛擬關聯文件選取

本章節中,我們介紹本論文所提出之方法,即融入文件關聯之虛擬關聯 文件選取中,文件關聯性之使用緣由及探討,以及如何透過馬可夫隨機漫步 (Markov Random Walk)來估測文件關聯性,並選出有效的虛擬關聯文件。

5.1. 文件關聯性之探討

以虛擬關連回饋為基礎的模型中,關聯文件的挑選將直接影響模型的好壞。

由於傳統以單連詞語言模型進行挑選的方法所得到之文件對於模型的建立效 果十分有限[69],因此如前面所述的主動式關聯性、多樣性、密度學習法等方 法便可以幫助我們選取更有效的關聯文件。但大部分的關聯文件挑選都以文件 與查詢間之關係來做為選擇之依據,因此較不重視文件間之關聯。由於查詢本 身所包含的資訊量較少,因此僅能找到與其有直接關聯的文件。然而,與這些 關聯文件相似的文件有可能也包含了我們所需要的資訊,但卻因為和模糊的查 詢相似度較低而未被選取。故有可能發生相似的文件中只有其中數篇被挑選為 關聯文件,而其他內容相近的文件卻被忽略的情況,如圖(5.1)所示。在圖(5.1) 中,顏色越相近表示文件面向與內容同樣也較為接近,但在選取的過程中,每 個集合中僅有少數會被選取。

為了避免以上的情況,我們希望在尋找與查詢相關的文件時亦同時考慮文 件間的關聯性,以補足由於查詢資訊不足而忽略掉的相似文件中的資訊。以下 將敘述如何估測文件間的關聯性,以及利用文件間的關聯性來提升虛擬關聯文 件挑選之效果。

圖(5.1) 以查詢關聯性為基礎之虛擬關聯文件挑選情形示意圖

5.2. 以馬可夫隨機漫步估測文件間之關聯

隨機漫步是由一連串隨機的軌跡組成,若隨機漫步以馬可夫鏈(Markov Chain)之形式出現,則我們將其稱之為馬可夫隨機漫步[70](Markov Random Walk, MRW)。馬可夫隨機漫步可以用來描述一系統在經過一連串隨機步驟後 各元素最後發生之機率,由於整個過程都是隨機產生,因此各個元素之間皆有 可能相互轉移,故各元素之產生機率是來自於所有其他元素之機率總合。在經 過一段時間之迭代後,整個系統中產生機率最高者即為該系統之中心,表示其 與其他元素間具有較強之關聯。此方法在資訊檢索領域中多被用於描述一模型 中各詞之間之關聯[54, 55, 56],並有著很好的效果。在此節中我們主要討論如 何以此方法來估測文件間之關聯。

假設有一圖𝐺包含點集合𝑉及邊集合𝐸,其中𝑉所包含之點{𝑣1, 𝑣2, … , 𝑣|𝐶|}分 別代表文件集合𝐶中之文件{𝐷1, 𝐷2, … , 𝐷|𝐶|},而𝐸包含𝑉中任意兩點𝑣𝑖與𝑣𝑗之間 之邊𝑒𝑖𝑗,則我們定義𝑙𝑖𝑗為𝑣𝑖至𝑣𝑗之轉移機率,而𝜋𝑖𝑡為點𝑣𝑖在時間點𝑡時之發生機 率,此架構可參考圖(5.2)。在一般的馬可夫隨機漫步模型中,有些物件間並無 轉移機率,因此必須定義一最小機率作為前述情況之轉移機率。在本論文中,

圖(5.2) 以馬可夫隨機漫步估測文件關聯性之示意圖

在此我們以餘弦相似性(Cosine measure)為基礎來進行轉移機率之估測。餘弦 相似性可用來表示兩個向量間之相似性,藉由對兩個文件之單連詞模型進行

相關文件