• 沒有找到結果。

1. 緒論

1.2. 相關研究

資訊檢索是一門被廣為研究的領域,從常見的檢索方法如向量空間模型[7]

及 BM25[8]等研究,至查詢以及文件之各種特性[9, 10,11, 12, 13, 14],如模糊 及難易度的探討等,皆有許多研究結果。除了使用查詢進行檢索外,也有學者 研究以文件作為查詢等應用[15, 16]。由於社群網站的發展,以及網路上資訊的 大量流通,利用網際網路上之大型文件集或對社群網站上之語料進行分析的方 法同樣成為研究之焦點[17, 18,19, 20, 21],由於需求相較於傳統的資訊檢索有 些不同,故這些方法通常考慮網頁的相似性與連結等面向。有些學者也以不同 的架構來看資訊檢索的問題,如隱藏馬可夫模型[22] (Hidden Markov Model, HMM)、超圖 [23]及型態學[24]等,讓我們能從不同觀點切入。

虛擬關連回饋也是近年資訊檢索領域中十分受到重視的一項技術;如我們 在前面所提到的,其所包含的三個步驟:虛擬關聯文件選取、查詢模型建立以 及查詢模型結合,都各別有許多方法被提出。

圖(1.2) 虛擬關聯文件選取方法近年發展情形示意圖

在虛擬關連回饋技術中,為了對資訊量不足之原始查詢進行輔助,我們十 分倚重虛擬關聯文件所包含之資訊,故虛擬關聯文件的品質對整個虛擬關連回 饋之效果有極大的影響。最簡單虛擬關聯文件選取方法是使用初步檢索之結果,

該結果通常是經由單連詞語言模型所產生。許多研究之結果顯示單純倚靠查詢 關聯性之虛擬關聯文件挑選方法,所挑選而得之文章有可能未必為真正之關聯 文件[25]。除此之外,由於我們無法確定查詢真正之資訊需求,故在選取虛擬 關聯文件時,我們也必須在文件內容之多樣性或一致性等不同面向做出取捨;

當選取之文件一致性高時[25],所檢索到之文件性質通常也會偏向一致,若使 用者所下之查詢可能具多種含義,此時便無法滿足其資訊需求,這樣的情形尤 其容易在以查詢關聯性為主的方法中發生;而多樣性過高亦有可能會產生與前 述相反之情形,使得使用者不知道何者才是其所需的資訊。基於以上的問題,

許多不同的虛擬關聯文件選取方法亦被提出,以其改善前述之問題。

在[25]中以數種較直覺之方式來避免挑選到過於相似的文件,如以間隔𝐾 自 初 步 檢 索 結 果 中 選 取 , 或 者 是 以 最 大 邊 際 關 聯 [26] (Maximal Marginal Relevance, MMR)來提高所選擇文件之多樣性。由於有著一致性的需求,分群 也常被用於虛擬關聯文件的選取中。最簡單的方法,便如同在[25]中所提到的,

將每候選文件分群後,選出與查詢關聯性最高的分群使用。而在[27]中則反過 來將高排序的文件藉由分群方法剔除,增加多樣性。[28, 29]以可重疊之 K-均 值(K-Means)分群法找出同時具多個面向之文件,藉此得到有利之資訊。[30]藉 由多方面的考量文件之關聯性與多樣性以及密度等面向,可以挑選到十分有利 之虛擬關聯文件。雖然[30]中已經考慮文件之多個面向,但在[31]中,我們則延 續其概念並進一步加入非關聯之資訊,其結果也證實了該面向之考慮十分有價 值。統計上的方法,如再取樣或自助抽樣法[32],也常被運用於虛擬關聯文件 選取,如[33]以及前面所提到的[27]等。而近年知名的虛擬關聯文件選取方法發

由於查詢本身所包含資資訊量不足,因此我們需要利用外部資訊來輔助 原始查詢模型,這些技術可統稱為查詢擴展,而所得之模型及統稱為查詢模 型或回饋模型。查詢模型主要可以分成數類,其中一類是以虛擬關連回饋技 術為基礎,利用初步檢索或其他文件挑選方法所得到之虛擬關聯文件建立查 詢模型或進行查詢重構[34, 35, 36, 37],以及在本論文中做為實驗之比較對象 的關連模型[38]、簡單混和模型[39]、查詢調整混和模型[40]等。除了利用查 詢與虛擬關聯文件中之統計模型外,我們也能以段落或句子的層次來進行查 詢模型的建立[41, 42];在[43, 44, 45]中,更直接使用摘要技術所得之結果來

圖(1.3) 查詢模型近年發展情形示意圖

做為擴展用之文句。當文件長度過短時,其也會面臨如查詢般資訊過少的問題,

故亦有將查詢擴展技術用於較短文件上之研究[46],與其類似的應用還有關於 尋找文件中句子之特殊情形[47]。在文件中,詞與詞之間之關係在出現次數之 外,還包括其間之距離,如[48, 49, 50, 51]。由於各文件內可能包含許多較無貢

來描述文件中的資訊[52],如主題關聯模型中之主題機率即是來自機率式隱含 語義分析(Probabilistic Latent Semantic Analysis, PLSA)等方法。詞與詞之間的 關係對查詢擴展的貢獻亦在[53, 54]中被探討,而馬可夫隨機漫步的技術可以 讓我們估測一圖中,各點與整體之間的關係,若以其來進行詞的中要性評估亦 對查詢擴展有所幫助[55, 56]。若要針對特定的領域或項目進行檢索,亦有研究 是針對這樣的需求而提出了所謂的概念模型[57, 58]以提高查詢之精確度。每 一種查詢擴展或查詢模型各有其優缺點,透過機器學習的方法,我們可以將各 種模型結合,已盡量滿足各種情形[59]。圖(3.1)為近年來較具代表性之查詢模 型發展示意圖。

在最後的查詢模型結合階段,我們可以利用一些的方法來進行權重的調整 [60]。隨著所要檢索文件的數量增加,虛擬關連回饋的效能也成為改進的方向 [61, 62],如保留可重複利用的資料等,都是提高效率與儲存空間有效的方法。

相關文件