資訊檢索與查詢擴展

第二章文獻探討

第二節資訊檢索與查詢擴展

資訊檢索是依據使用者的資訊需求，從資料集中選取並回傳使用者相關文件的一種技術。資訊檢索定義為從大規模非結構化資料的集合中找出滿足使用者資訊需求的資料(Manning et al., 2008)。而根據 Dae-Won and Lee (2001)對資訊檢索的定義則是：資訊檢索是用來處理資訊項目 (Information items) 的表徵 (representation)、儲存組織(storage organization)以及取用流程(access process)。隨著資訊與網路科技的進步，網際網路上充斥著龐大的資訊，人們所面臨的問題，

不再是資訊匱乏而是資訊爆炸。網路上的搜尋引擎即是資訊檢索技術的體現，除了網際網路資訊的檢索外，搜尋引擎在數位圖書館系統(如索摘與全文資料庫、

電子期刊、電子書)中亦扮演了重要的角色。全文索引(full-text index)是搜尋引擎

運作的基本機制，其將文件經過斷詞切字、停用字處理(stopword processing)、詞幹處理(stemming)、詞性判斷(POS tagging)等前置處理後，將詞彙建置成索引 (index)，繼而運用向量空間模型 (vector space model)或機率模型(probabilistic model)等方法比較使用者檢索策略與文件的相似度，並根據相似度高低列出符合使用者資訊需求的文件(Manning et al., 2008)。

資訊檢索的過程，可細分為以下四個步驟 (Baeza-Yates,andRibeiro-Neto, 1999)，如圖 2-1 所示。

1. 建置文件資料庫 (text database)：在開始資訊檢索之前，先準備好資料來源，也就是建置文件資料庫，該工作又可細分為三個部份：(a) 搜集所需的文件；(b) 轉換成結構化的文件格式；(c) 設定文件模式(文件結構以及可用於檢索的元素)。最後，在文件處理程序 (Text operations)將原始文件轉換為原始文件的邏輯概觀。

2. 建置索引檔：步驟 1 產生邏輯概觀後，文件資料庫管理者會為所有文件建置索引，目的是為了能在大量的資料中快速搜尋資料。

3. 開始資訊檢索流程：當索引建置完成之後，就能進行資訊檢索的步驟。

首先，使用者將其資訊需求轉化為檢索策略，常見的檢索策略是由 AND、

OR、NOT 等布林邏輯運算子結關鍵字，並將連結文字輸入系統做為檢索詞。系統對於使用者所輸入的檢索詞進行文字處理(text operations)，之後運用查詢運算(query operations)匹配檢索詞與文件以獲得檢索到的相關文件。

4. 排序(Ranking)：將檢索所得文件傳送予使用者之前，必須先依據文件與使用者需求的關聯程度予以排序，排序完成後再將結果傳送予使用者。

圖 2- 1 資訊檢索流程圖

資料來源：Baeza-Yates, Ricardo A., &Ribeiro-Neto, Berthier. (1999). Modern Information Retrieval: Addison-Wesley Longman Publishing Co., Inc.

以下就資訊檢索模型、查詢擴展、關鍵字擷取以及檢索成效評估等 4 個主題進行探討：

一、資訊檢索模型

為了處理資訊檢索中檢索詞與文件的匹配關係，資訊檢索領域發展許多種資訊檢索模型，本節介紹資訊檢索最主要的三種模型：布林模型(Boolean Model, BM)、向量空間模型(Vector Space Model, VSM)、機率模型(Probabilistic Model, PM)。此三種模型的假設為：每一篇文件可以由一組字詞來表徵文件，這些字詞稱為索引詞(Index terms)，每個索引詞皆有權重來表示在文件中的重要性。

(一) 布林模型

布林模型是資訊檢索模式中最為簡潔的，以集合論(Set Theory)和布林運算元 (Boolean algebra)為基礎，布林模型相當直覺並能將檢索詞以精準語意的布林邏

輯表達式(Boolean Expression)表達。在此模式中，只視索引詞有無存在文件中，

索引詞權重表示式為 { }也就是只有 0 或 1 兩個值，1 表示索引詞有存在該文件中，反之則無。

布林模型的主要優點是在所有資訊檢索模式中，它是最為簡潔的。而缺點則是布林模型對所有文件加以二分，也就是將所有文件分成相關或不相關，對於查詢條件無法進行部份比對(Partial Match)。

(二) 向量空間模型

向量空間模型(Salton & Lesk, 1968)是為了補強布林模型中僅二元權重的不足而發展，並且在向量空間模型中可以進行布林模型中無法辦到的部份比對。在向量空間模型中，索引詞的權重並非二元，且被用來計算系統中每篇文件與使用者查詢的相似度(degree of similarity)。

首先，將所有的索引文件經過字詞處理後，建置成索引詞庫，對於詞庫中的單一詞項，根據其在文件中出現的次數設為其權重，此權重稱為詞項頻率(term frequency, tf)，記為，其中的兩個下標分別對應詞項 t 和文件 d。

實際資訊檢索過程中，另一個更常用到的因數是文件頻率 (document frequency) ，它表示出現詞項的所有文件數目。由於本身往往較大，所以通常將其映射到一較小的取值範圍。為此，假定所有的文件數目為，詞項的 (inverse document frequency，逆向文件頻率)的定義如公式 2-1。

(公式 2-1) 對於文件中的每個詞項，可以將其和組合在一起，形成最終的權重。

- 權重機制對文件中的詞項賦予的權重如公式 2-2 所示。

就是未考慮文件長度的效應。因此，Robertson and Walker (1994)提出 BM25(Best Match 25)權重計算公式，主要是把詞頻對文件長度做正規化，可有效降低文件體的檢索效能(Baeza-Yates & Ribeiro-Neto, 1999)。

(三) 機率模型

機率模型最早由 Maron and Kuhns (1960)所提出，此模型為一機率架構 (Probabilistic framework) 。機率模型根據機率排序定律 (Probability Ranking Principle)，文件群集應該依照文件和檢索詞的相似機率，由高而低排列，以取得

較佳的資訊檢索效能。然而檢索詞和文件的機率很難正確得到，因此機率模型主要以估計為核心，推估文件和檢索詞相似的機率。

雖然後續的研究使用不同的機率評估方式，提出不同模式的機率模型，但大部份的機率模型仍然以貝式(Bayes)定理為基礎，推估檢索詞和文件的相似機率 (Baeza-Yates & Ribeiro-Neto, 1999)。文件和檢索詞相關和不相關的機率分別可以用 P(R|D)、 ̅| 表示，而文件排序則可以公式 2-5 作為排序的基準。

^|_̅| (公式 2-5)

上述公式中， P(R|D)表示檢索詞和文件相關的機率，而 ̅| 則表示檢索詞和文件不相關的機率。經過貝式定理轉換，可轉換成公式 2-6：

^| ̅ ̅ (公式 2-6)

因為事前機率 P(R)以及 P(Q)，跟文件是否和檢索詞相關互為獨立，對於排序結果並無影響，因此可以公式簡化公式 2-7

^|_̅ (公式 2-7)

不同的機率模型對於機率預估的方式，均是由簡化公式延伸變化而成，而資訊檢索的效能差異，則是受到不同的機率估算方式而定。

在機率模型中，由於訓練詞庫不可能無限大，因此許多詞與詞之間的搭配關係無法出現在語料庫之中，也就會產生資料稀疏(data sparseness)的問題，資料稀疏使得在語料庫中估計字串出現的機率變得困難。平滑技術(smoothing)可用以解決資料稀疏的問題，其採用最大概率估計式(Maximum Likelihood Estimator, MLE))整字串出現的機率，以產生更精確的機率。Zhai& Lafferty (2001) 提出 Jelinek-Mercer 以及 Dirichlet 兩種平滑化方法應用於資訊檢索語言模型，以解決資料稀疏的問題，提高檢索效率。平滑計算方式如表 1 所示。

表 2- 2 平滑化計算方法比較

方法

Jelinek-Mercer Dirichlet

計算公式 (



) |



| |

∑ 參數



(0.1~1.0)



(500~10,000)

適合環境 短查詢、短索引長查詢、長索引

資料來源：Zhai, C., & Lafferty, J. (2004). A study of smoothing methods for language models applied to information retrieval. ACM Trans. Inf.

Syst., ACM Trans. Inf. Syst., 22, 179–214.

上述公式中，Jelinek-Mercer Smoothing 的計算公式 | 為以最大概率估計檢索詞 w 在文件 d 出現機率， | 為檢索詞 w 於字詞庫 C 出現機率；Dirichlet 的計算公式為檢索詞 w 於文件 d 中出現次數。

二、查詢擴展

由於網路的快速發展，網路上的資料呈現爆炸性的成長，使用者想要搜尋網路上的文件時，通常欠缺全面性的考量，使得所輸入的檢索詞過短，無法在檢索過程中獲得使用者想要的所有文件。在 Chau, Fang, and Liu Sheng (2005)的研究中，擷取一個網站 168 天內的使用者檢索紀錄，一共獲取 200 萬筆的檢索紀錄，

分析結果顯示，檢索詞的平均長度以及中位數分別為 2.25 和 2，這與 Spink, Wolfram, Jansen, and Saracevic (2000)的研究結果類似。Spink et al. (2000)分析 Excite 網頁搜尋引擎的使用者檢索紀錄，結果顯示使用者輸入的檢索詞平均長度為 2。而在這篇研究中 Spink 等人更發現，有高達 30%的使用者會再修改他們的檢索詞，而其中有 29.3%的使用者會增加一個以上的字詞再行查詢。這顯示有不少的使用者對自己一開始使用的檢索詞檢索所得的文件並不滿意。

查詢擴展(Query Expansion)的目的即是為了輔助使用者重新進行檢索，提升檢索效能。其作法是：根據檢索結果，將與檢索結果有關聯之關鍵字再加入至使

用者之前的檢索詞之中。關於查詢擴展最早的研究之一是 Jones (1971)，在 Jones 的研究中，將文件中共同出現的字詞分群，使用這些群集進行查詢擴展。查詢擴展推薦字的的方式主要有兩種：自動化(automatic)以及半自動化(semi-automatic)。

自動化查詢擴展為自動增加與使用者所輸入的檢索詞相關的字詞至檢索之中，再重新進行檢索(Buckley, Salton, Allan, & Singhal, 1995; Gauch & Smith, 1993)。半自動化查詢擴展則是推薦字詞給予使用者，再由使用者自行新增或移除檢索詞 (Peat &Willett, 1991; Vélez, Weiss, Sheldon, & Gifford, 1997)。

Mitra, Singhal, and Buckley (1998)以 Blind Relevance Feedback 方式完成自動查詢擴展，其主要的方式是以初次檢索所得文件中相關分數較高的前 N 篇文件進行相關回饋，擷取這 N 篇文件中之可用資訊，例如摘要或關鍵詞，加入下一次的檢索中，增強檢索時需要的資訊。查詢擴展對資訊檢索的成效非常有幫助，

甚至在部份全文資料庫中可提升檢索成效 20%(曾元顯, 1997)。

三、檢索成效評估

TREC、CLEF (Conference and Labs of the Evaluation Forum)和 NTCIR (NII Test Collection for IR Systems)等標準資訊檢索測試集的發展，使檢索技術大幅進步之外，也建構公平合理的評估程序，並且採用適切的評估準則以及績效評分(陳光華, 2004)。就傳統的文件檢索而言，最常用的評估指標就是查全率(Recall)與查準率(Precision)，以及結合二者的 F-measure，其計算式分別如公式 2-8、公式 2-9、

公式 2-10 所示。

^{檢索到的相關文件總數}

檢索到文件總數 (公式 2-8) ^{檢索到的相關文件總數}

所有相關文件總數 (公式 2-9) (公式 2-10) 但是，這樣的計算方式僅適用於無排序的檢索結果，並不適用於依「相關程

度」排序的檢索結果。TREC 採用 trec_eval 評分程式用以評估排序的檢索結果 (http://trec.nist.gov/trec_eval) 。 trec_eval 評分程式包含 "Interpolated Recall-PrecisionAverages" 、 "Average precision" 、 "Precision: At X docs" 以及

"R-Precision"等四項針對有排序的檢索結果的評分方式。

(一) Interpolated Recall-PrecisionAverages：其查準率範圍由 0.0, 0.1, 0.2…1.0，

共 11 個值所組成，即是所謂的 11-pointPrecision，以內插法估計在固定查全率下相對的查準率，其計算的基礎是以"Precision: At X docs"等數

在文檔中社群資料對圖書搜尋系統效能之研究 (頁 20-29)

第二章 文獻探討

第二節 資訊檢索與查詢擴展

Jelinek-Mercer Dirichlet









第二章文獻探討

第二節資訊檢索與查詢擴展