相關研究 - 緒論 - 融入文件關聯與查詢清晰度資訊於虛擬關聯回饋之研究

1. 緒論

1.2. 相關研究

資訊檢索是一門被廣為研究的領域，從常見的檢索方法如向量空間模型[7]

及 BM25[8]等研究，至查詢以及文件之各種特性[9, 10,11, 12, 13, 14]，如模糊及難易度的探討等，皆有許多研究結果。除了使用查詢進行檢索外，也有學者研究以文件作為查詢等應用[15, 16]。由於社群網站的發展，以及網路上資訊的大量流通，利用網際網路上之大型文件集或對社群網站上之語料進行分析的方法同樣成為研究之焦點[17, 18,19, 20, 21]，由於需求相較於傳統的資訊檢索有些不同，故這些方法通常考慮網頁的相似性與連結等面向。有些學者也以不同的架構來看資訊檢索的問題，如隱藏馬可夫模型[22] (Hidden Markov Model, HMM)、超圖 [23]及型態學[24]等，讓我們能從不同觀點切入。

虛擬關連回饋也是近年資訊檢索領域中十分受到重視的一項技術；如我們在前面所提到的，其所包含的三個步驟：虛擬關聯文件選取、查詢模型建立以及查詢模型結合，都各別有許多方法被提出。

圖(1.2) 虛擬關聯文件選取方法近年發展情形示意圖

在虛擬關連回饋技術中，為了對資訊量不足之原始查詢進行輔助，我們十分倚重虛擬關聯文件所包含之資訊，故虛擬關聯文件的品質對整個虛擬關連回饋之效果有極大的影響。最簡單虛擬關聯文件選取方法是使用初步檢索之結果，

該結果通常是經由單連詞語言模型所產生。許多研究之結果顯示單純倚靠查詢關聯性之虛擬關聯文件挑選方法，所挑選而得之文章有可能未必為真正之關聯文件[25]。除此之外，由於我們無法確定查詢真正之資訊需求，故在選取虛擬關聯文件時，我們也必須在文件內容之多樣性或一致性等不同面向做出取捨；

當選取之文件一致性高時[25]，所檢索到之文件性質通常也會偏向一致，若使用者所下之查詢可能具多種含義，此時便無法滿足其資訊需求，這樣的情形尤其容易在以查詢關聯性為主的方法中發生；而多樣性過高亦有可能會產生與前述相反之情形，使得使用者不知道何者才是其所需的資訊。基於以上的問題，

許多不同的虛擬關聯文件選取方法亦被提出，以其改善前述之問題。

在[25]中以數種較直覺之方式來避免挑選到過於相似的文件，如以間隔𝐾 自初步檢索結果中選取，或者是以最大邊際關聯 [26] (Maximal Marginal Relevance, MMR)來提高所選擇文件之多樣性。由於有著一致性的需求，分群也常被用於虛擬關聯文件的選取中。最簡單的方法，便如同在[25]中所提到的，

將每候選文件分群後，選出與查詢關聯性最高的分群使用。而在[27]中則反過來將高排序的文件藉由分群方法剔除，增加多樣性。[28, 29]以可重疊之 K-均值(K-Means)分群法找出同時具多個面向之文件，藉此得到有利之資訊。[30]藉由多方面的考量文件之關聯性與多樣性以及密度等面向，可以挑選到十分有利之虛擬關聯文件。雖然[30]中已經考慮文件之多個面向，但在[31]中，我們則延續其概念並進一步加入非關聯之資訊，其結果也證實了該面向之考慮十分有價值。統計上的方法，如再取樣或自助抽樣法[32]，也常被運用於虛擬關聯文件選取，如[33]以及前面所提到的[27]等。而近年知名的虛擬關聯文件選取方法發

由於查詢本身所包含資資訊量不足，因此我們需要利用外部資訊來輔助原始查詢模型，這些技術可統稱為查詢擴展，而所得之模型及統稱為查詢模型或回饋模型。查詢模型主要可以分成數類，其中一類是以虛擬關連回饋技術為基礎，利用初步檢索或其他文件挑選方法所得到之虛擬關聯文件建立查詢模型或進行查詢重構[34, 35, 36, 37]，以及在本論文中做為實驗之比較對象的關連模型[38]、簡單混和模型[39]、查詢調整混和模型[40]等。除了利用查詢與虛擬關聯文件中之統計模型外，我們也能以段落或句子的層次來進行查詢模型的建立[41, 42]；在[43, 44, 45]中，更直接使用摘要技術所得之結果來

圖(1.3) 查詢模型近年發展情形示意圖

做為擴展用之文句。當文件長度過短時，其也會面臨如查詢般資訊過少的問題，

故亦有將查詢擴展技術用於較短文件上之研究[46]，與其類似的應用還有關於尋找文件中句子之特殊情形[47]。在文件中，詞與詞之間之關係在出現次數之外，還包括其間之距離，如[48, 49, 50, 51]。由於各文件內可能包含許多較無貢

來描述文件中的資訊[52]，如主題關聯模型中之主題機率即是來自機率式隱含語義分析(Probabilistic Latent Semantic Analysis, PLSA)等方法。詞與詞之間的關係對查詢擴展的貢獻亦在[53, 54]中被探討，而馬可夫隨機漫步的技術可以讓我們估測一圖中，各點與整體之間的關係，若以其來進行詞的中要性評估亦對查詢擴展有所幫助[55, 56]。若要針對特定的領域或項目進行檢索，亦有研究是針對這樣的需求而提出了所謂的概念模型[57, 58]以提高查詢之精確度。每一種查詢擴展或查詢模型各有其優缺點，透過機器學習的方法，我們可以將各種模型結合，已盡量滿足各種情形[59]。圖(3.1)為近年來較具代表性之查詢模型發展示意圖。

在最後的查詢模型結合階段，我們可以利用一些的方法來進行權重的調整 [60]。隨著所要檢索文件的數量增加，虛擬關連回饋的效能也成為改進的方向 [61, 62]，如保留可重複利用的資料等，都是提高效率與儲存空間有效的方法。

在文檔中融入文件關聯與查詢清晰度資訊於虛擬關聯回饋之研究 (頁 14-17)