• 沒有找到結果。

為了輔助原始查詢模型,在虛擬關聯回饋中,我們將虛擬關聯文件以各種 方式建立查詢模型,以達到前述的目的。在本章節中,我們介紹目前較具代表 性的一些查詢模型,這些模型也將會成為本論文實驗中的比較對象。

3.1. 關聯模型(Relevant Model, RM)

在此查詢模型[38]中,為了估測未知關聯類別(Relevance Class)與文件之相 似性,我們的目標在於為該關聯類別建立模型,即詞𝑤出現在此關聯模型中之

3.2. 簡單混和模型(Simple Mixture Model, SMM)

此方法中,我們同樣假設虛擬關聯文件集合 R 都是由主題模型 FB 所產生,

而估測該主題模型的手段則是透過將虛擬關聯文件集合𝑅中的文件模型混和,

可參見圖(3.1)。在此圖中,虛擬關聯文件集合中之各個詞之機率都是被視為來 自主題模型與背景模型之結合。

圖(3.1) 簡單混和模型訓練方式示意圖

上述的想法可以簡單的由下面的式子表示

 

R

D wV

D w c

m

FB m

w P FB

R

P( | ) ( | ) ( , ) (3.4) 雖然我們已經將虛擬關聯文件之模型加以混和,但虛擬關聯文件中卻不見得都 是有用的資訊,而是包含了許多沒有幫助的詞。由於我們無法得知各個詞的重 要性,因此我們以一個參數來調整一個詞出現在主題模型中或者是背景 (Background)模型中的傾向。背景模型的建立是藉由統計大量的文件中所包含 的資訊而來,由於所有詞皆列入統計,因此其包含之資訊亦十分模糊,故此模 型可以當作是雜訊的機率分佈。最後,若有一個適當的比例來調整背景所佔的 比重,則用來估測主題模型產生虛擬關聯文件之對數相似度(Log Likelihood)的 式子可以由(3.4)改寫為

 

(Expectation–Maximization, EM)訓練[65]來調整關聯類別模型以滿足前述的需 求。預期最大化訓練的結果是藉由數次的迭代而來,而每次的迭代包含兩步驟,

分別是預期步驟(E-step)和最大化步驟(M-step),如(3.6)與(3.7)所示。

E-step:

由於最初的預期步驟中我們就需要主題模型才能進行,故我們需要先定 義主題模型之初始值;在本文中,藉由將所有虛擬關聯文件當作某一虛擬文 件之一部分,並建立該虛擬文件之單連詞模型,我們可以將此模型作為主題 模型之初始結果。

3.3. 查詢調整混和模型(Query-Regularized Mixture Model, RMM)

簡單混合模型在估測關聯類別時考慮到了各個詞之重要性,而在本方法中,

E-step:

隨著訓練的迭代次數增加,上面所述的重要的詞與其他的詞之間的差距將會越 來越明顯。更由於將查詢模型也納入訓練,在最後的排序過程中,理論上我們 可以只用此關聯類別模型來與文件模型進行相似度的評估,而不需再與查詢模 型結合。

3.4. 主題關連模型(Topic Relevant Model, TRM)

在此模型中,我們更進一步利用隱含主題(Latent Topic)來表示詞與文件之 間的關聯。隱含主題{𝑇1, 𝑇2, … , 𝑇𝑘}是一組我們事先定義,用來描述詞與文件共 同出現情形的變數,其關係如圖(3.2)所示。

圖(3.2) 隱含主題與文件及詞之關聯示意圖

在這樣的假設下,某一個詞𝑤被關聯文件𝐷𝑚產生的機率並不直接由該詞在文件 中出現的機率來估測,而是由在所有隱含主題中,𝑤與𝐷𝑚共同出現機率的總和 來決定。

K

k

m k k

m P w T PT D

D w P

1

)

| ( )

| ( )

|

( (3.12)

而上式中隱含主題𝑇𝑘產生詞 w 之機率𝑃(𝑤|𝑇𝑘)以及關聯文件𝐷𝑚產生潛藏主題 𝑇𝑘之機率𝑃(𝑇𝑘|𝐷𝑚)可藉由許多不同的方式得到,如機率式潛藏語意分析 (Probabilistic Latent Semantic Analysis, PLSA) [66, 67] 及潛藏 狄利 克雷分布

(Latent Dirichlet Allocation, LDA) [68]。在此我們以機率式潛藏語意分析為例;

在機率式潛藏語意分析的方法中,我們首先定義整體文件集合𝐶之對數相似度 (Log Likelihood)為log𝐿𝐶;該相似度之計算方式為整體文件集合之單連詞模型 產生文件集合中所出現的所有詞彙之機率,如下所示

相關文件