• 沒有找到結果。

虛擬關聯文件選取方法簡介

為了建立查詢模型,我們需要取得虛擬關聯文件;雖然我們可以簡單的透 過單連詞語言模型之排序結果來作為虛擬關聯文件,但這樣的選取方法所包含 的資訊仍有不足,故有許多不同的方法被發展出來,以更有效的選取虛擬關聯 文件。以下我們介紹近年有效的虛擬關聯文件選取方法,這些方法也將在實驗 中與本論文所提出之方法進行比較

4.1. 主動式關聯性、多樣性、密度學習法(Active-RDD)

初步檢索結果通常代表了文件與查詢間之關聯程度,雖然此一特性對挑選 虛擬關聯文件有一定程度之參考價值,但在許多研究中都顯示此關係對於虛擬 關連回饋之貢獻並非絕對[9],故在挑選虛擬關聯文件時,我們除了與查詢之關 聯外,仍有許多面向能估測一文件是否為一優良之虛擬關聯文件。在本方法中,

我們藉由同時考慮一文件之關聯性、密度以及多樣性三個面向之資訊來做為依 據,並選取三個面向之綜合結果最佳之文件做為虛擬關聯文件[30]。以下我們 也對其個別介紹。

 關聯性估測

此方法之目的在於估測查詢與文件間之關聯性以做為其中一估測之面向。

關聯性可以簡單的藉由計算原始查詢模型與文件模型間之庫爾貝克-萊伯勒差 異量測量法得到。如前所述,單純倚靠關聯性雖然有許多不足之處,但其仍不 失為一判斷之依據。

 密度估測

在選取虛擬關聯文件時,我們同樣不希望選取到與其他文件差異太大者。

由於這樣的文件可能造成整體虛擬關連回饋之結果過於分散而導致檢索結果

不佳,因此在本估測方法中我們藉由估測某文件與所有候選文件之平均距離來 做為其密度之判斷依據,希望能找到與所有候選文件之整體距離最近者,如圖 圖(4.1a)。由於傳統的庫爾貝克-萊伯勒差異量測量法具有方向性,而我們想測 量的是文件間相互之距離,故在此我們以 J-差異性測量法(J-Divergence)計算文 件𝑑𝑖與𝑑𝑗間之距離,如下式:

(a) (b)

圖(4.1) 文件密度與多樣性面向之示意圖

,我們先以關聯性及密度兩個面向挑選出分數最佳者,再依序選取關聯性、

密度以及多樣性總合分數最高之文件。

4.2. 進階主動式關聯性、非關聯性、多樣性及密度學習法(Advanced Active-RDD)

主動式關聯性、非關聯性、多樣性及密度之文件排序考慮了三種不同面向,

為一有效的虛擬關聯文件選取方式[30]。但這些面向都是以查詢或以初次檢索 結果為基礎,為了找到與前者有適當關係之文件而設計。從反面來看,由於非 關聯文件所提供的資訊對虛擬關連回饋毫無幫助,與非關聯文件越不關聯的文 件表示其中所含的沒有幫助之資訊量亦越少,故同樣適合作為虛擬關聯回饋之 文件,我們將此面向稱為非關聯性。本方法將非關聯性面向加入主動式關聯性、

非關聯性、多樣性及密度之文件排序方法中,希望能藉由考慮更多面向,更進 一步挑選出更佳之虛擬關聯文件。由於非關聯文件之估測較為困難,故我們直 接將文件集中之所有文件視為一大型文件,並將其當作非關聯文件。透過計算

候選文件與非關聯文件間之庫爾貝克-萊伯勒差異量測量法所得距離,我們將 其當作非關聯估測之分數,並同樣用一權重將此分數與主動式關聯性、非關聯 性、多樣性及密度之文件排序方法中之三個面向之分數結合,以利排序。

4.3. 可重疊分群之再取樣法

在此方法中,我們假設一個優良的虛擬關聯文件應包含多個面向之資訊。

因此,本方法利用可重疊之分群來挑選出符合前述條件之文件。與一般的分群 方法不同的是,可重疊分群方法允許一元素同時屬於多個分群中。若我們將每 一個分群當做一個不同面向來看待,則同時屬於多個分群中之文件即為同時包 含多個面向者[29]。為得到各個不同面向之資訊,我們將每篇高排名的候選文 件都各自當作一分群之中心,而與其距離最近之數個文件再加上該文件本身便 構成此分群。由於每個分群各為一個文件之集合,故我們亦可以將其視為一大 型文件,並為其建立模型;模型的建立可以讓我們計算該分群之查詢相似度,

並讓我們對各分群進行排序,而排序最高之分群中的文件即為我們用來建立查 詢模型之虛擬關聯文件。為了體現前面所提到之包含多個面向之文件之重要性,

高排序之分群中所重複之文件在建立查詢模型時亦會被重複使用。

相關文件