查詢模型簡介 - 融入文件關聯與查詢清晰度資訊於虛擬關聯回饋之研究

為了輔助原始查詢模型，在虛擬關聯回饋中，我們將虛擬關聯文件以各種方式建立查詢模型，以達到前述的目的。在本章節中，我們介紹目前較具代表性的一些查詢模型，這些模型也將會成為本論文實驗中的比較對象。

3.1. 關聯模型(Relevant Model, RM)

在此查詢模型[38]中，為了估測未知關聯類別(Relevance Class)與文件之相似性，我們的目標在於為該關聯類別建立模型，即詞𝑤出現在此關聯模型中之

3.2. 簡單混和模型(Simple Mixture Model, SMM)

此方法中，我們同樣假設虛擬關聯文件集合 R 都是由主題模型 FB 所產生，

而估測該主題模型的手段則是透過將虛擬關聯文件集合𝑅中的文件模型混和，

可參見圖(3.1)。在此圖中，虛擬關聯文件集合中之各個詞之機率都是被視為來自主題模型與背景模型之結合。

圖(3.1) 簡單混和模型訓練方式示意圖

上述的想法可以簡單的由下面的式子表示

 

 



D wV

D w c

FB m

w P FB

P( | ) ( | ) ⁽ ^, ⁾ (3.4) 雖然我們已經將虛擬關聯文件之模型加以混和，但虛擬關聯文件中卻不見得都是有用的資訊，而是包含了許多沒有幫助的詞。由於我們無法得知各個詞的重要性，因此我們以一個參數來調整一個詞出現在主題模型中或者是背景 (Background)模型中的傾向。背景模型的建立是藉由統計大量的文件中所包含的資訊而來，由於所有詞皆列入統計，因此其包含之資訊亦十分模糊，故此模型可以當作是雜訊的機率分佈。最後，若有一個適當的比例來調整背景所佔的比重，則用來估測主題模型產生虛擬關聯文件之對數相似度(Log Likelihood)的式子可以由(3.4)改寫為

 

  (Expectation–Maximization, EM)訓練[65]來調整關聯類別模型以滿足前述的需求。預期最大化訓練的結果是藉由數次的迭代而來，而每次的迭代包含兩步驟，

分別是預期步驟(E-step)和最大化步驟(M-step)，如(3.6)與(3.7)所示。

E-step:

由於最初的預期步驟中我們就需要主題模型才能進行，故我們需要先定義主題模型之初始值；在本文中，藉由將所有虛擬關聯文件當作某一虛擬文件之一部分，並建立該虛擬文件之單連詞模型，我們可以將此模型作為主題模型之初始結果。

3.3. 查詢調整混和模型(Query-Regularized Mixture Model, RMM)

簡單混合模型在估測關聯類別時考慮到了各個詞之重要性，而在本方法中，

E-step：

隨著訓練的迭代次數增加，上面所述的重要的詞與其他的詞之間的差距將會越來越明顯。更由於將查詢模型也納入訓練，在最後的排序過程中，理論上我們可以只用此關聯類別模型來與文件模型進行相似度的評估，而不需再與查詢模型結合。

3.4. 主題關連模型(Topic Relevant Model, TRM)

在此模型中，我們更進一步利用隱含主題(Latent Topic)來表示詞與文件之間的關聯。隱含主題{𝑇₁, 𝑇₂, … , 𝑇_𝑘}是一組我們事先定義，用來描述詞與文件共同出現情形的變數，其關係如圖(3.2)所示。

圖(3.2) 隱含主題與文件及詞之關聯示意圖

在這樣的假設下，某一個詞𝑤被關聯文件𝐷_𝑚產生的機率並不直接由該詞在文件中出現的機率來估測，而是由在所有隱含主題中，𝑤與𝐷_𝑚共同出現機率的總和來決定。





 ^K

m k k

m P w T PT D

D w P

)

| ( )

( (3.12)

而上式中隱含主題𝑇_𝑘產生詞 w 之機率𝑃(𝑤|𝑇_𝑘)以及關聯文件𝐷_𝑚產生潛藏主題 𝑇_𝑘之機率𝑃(𝑇_𝑘|𝐷_𝑚)可藉由許多不同的方式得到，如機率式潛藏語意分析 (Probabilistic Latent Semantic Analysis, PLSA) [66, 67] 及潛藏狄利克雷分布

(Latent Dirichlet Allocation, LDA) [68]。在此我們以機率式潛藏語意分析為例；

在機率式潛藏語意分析的方法中，我們首先定義整體文件集合𝐶之對數相似度 (Log Likelihood)為log𝐿_𝐶；該相似度之計算方式為整體文件集合之單連詞模型產生文件集合中所出現的所有詞彙之機率，如下所示

在文檔中融入文件關聯與查詢清晰度資訊於虛擬關聯回饋之研究 (頁 21-28)