文獻回顧

二、文獻回顧與系統功能需求

2.1. 文獻回顧

圖 2-1 為本研究文獻回顧整體分佈圖，共分為資訊檢索、檢索模式進展，與詞彙查詢搌展相關文獻等四大部份。

圖 2-1 文獻整理

2.1.1.

資訊檢索

Salton 對於「查詢」定義為：「a set of criteria specified by the user which describes

the kind of information desired」[3]，在資訊檢索過程中，就是由使用者輸入部份。

1. 全文檢索(Full-Text Retrieval)

根據使用者輸入的檢索詞彙，從文本或資料庫中，不限定資料欄位，自由地萃取出訊息的技術。基本上，全文檢索是針對文字型資料而設計的檢索方式，

目前技術多數仍侷限於 TF×IDF(詞彙頻率乘反向文件頻率)的基本計算模式[6]。

2. 內容檢索(Content-Based Retrieval)

全文資訊檢索是使用者依據查詢主題之詞彙，來擷取相關的文件，在全文文件集中，運用與內容(context)相關的屬性特徵，做為檢索過程中文件內容的識別因子(context identifiers)，即所謂的內容檢索，亦即提供使用者以內容查詢的方式(query by content)，檢索所需的資源或資訊。例如，使用者可以使用特定的影像，檢索資料庫中類似的影像。

3. 詮釋資料檢索(Metadata Retrieval)

詮釋資料檢索的最大特色是可以達到一致性的檢索，利用詮釋資料來描述

辦公室、或任何方便的地方連線上網查詢資料，使用者若沒有受過相當的訓練，或具備足夠的經驗，很難利用布林邏輯方式，擬出比較有效的檢索策略來進行資料檢索。於是檢索技術的發展方向逐漸把使用者端的檢索複雜度，移向檢索主機這一端，或是設計更便利的人機介面模式，讓使用者的檢索環境越來越簡單，但還維持一定、甚至更好的檢索效能(Retrieval Efficiency)[7]。

圖 2-2 是整個檢索模式發展的歷史。左列標示集合論的(set-theoretical)、代數學的(algebraic)、機率的(probabilistic)分別是代表(Boolean model)[8]、向量空間模式 (Vector Space Model)[9]和機率模式(Probabilistic Model)[10]下所擁有的著名演算法。在每個演算法間如果有箭號連接時，箭頭所指的演算法是屬於改進來源的演算法產生[11][12]。這三種模式分別介紹如下：

1. 布林邏輯模式

是利用集合中的交集和聯集來表示。例如查詢中關鍵字如果用布林表示 q = (information retrieval, chinese idiom, similar) = (1, 1, 0)，其中集合中有 1 則表示文件中有存在該關鍵字，0 就是代表沒有該關鍵字，所以從這個例子中關鍵字包含 information retrieval 和 chinese idiom 二個關鍵字，文件內容符合檢索詞之間的布林運算者才取出，不符合者即捨去。

2. 向量空間模式

轉換文件及查詢語句到向量空間後比對相似度，利用餘弦夾角(cosine)，將文件中關鍵字用向量表示並依權重表示出其中的差異程度。例如查詢 q = (information retrieval, chinese idiom, similar) = (3, 0, 1)，其中跟布林模式最大的差別在於向量中的數字是文件關鍵字所出現的次數。可概略稱為「近似字串查

利用機率的方式解釋查詢詞彙與相關文件的不確定性，典型是用 TF/IDF 演算法。TF 的目的是顯示出關鍵字在文件中所出現的次數，並以此來代表該關鍵字對文件的重要程度，IDF 的目的是看在所有文件中有該關鍵字的文件個數來分析這個關鍵字是否有代表性。優點有考慮多個文件間的交互關係和部份關鍵字所具的代表性。缺點是因為要計算所有文件中每個關鍵字相互關係，其中的計算複雜度相當高。並且所選擇的文件集合會影響結果。機率模式亦可做到向量模式的查詢效果，兩者不同處在基本假設與運算模式。

圖 2-2 文件比對的模型

資料來源：Dominik Kuropka [11]

2.1.3.

查詢模式的進展

資訊檢索技術歷經數十年的發展，累積了不少經驗與成果，在以使用者為導向(User Based)的趨勢下，各種查詢模式被提出來[13][7]：

1. 布林邏輯模式(Boolean model)

為最簡單的檢索模式，單純使用布林邏輯判斷文件中是否有檢索詞彙存在，對需求明確的檢索非常有效。然一般使用者較難以利用此種模式表達複雜的查詢而且缺乏程度上比對。

2. 重要性排序(Ranking)

4. 相關回饋(Relevance feedback)

使用者在將檢索詞鍵入系統後，會出現數筆相關資料，使用者依其資訊需求對每筆資料進行相關性評估，再回饋給系統。通常使用者會挑選重要的特徵，

此種特徵若是文件本身，則可稱為相關文件回饋，若為相關詞，則稱為相關詞回饋，或檢索詞提示(term suggestion)[14]。系統便會根據這些使用者列入「相關」的資料，再重新做更進一步精確的檢索，使檢索結果的準確性大大提升。

相關資訊回饋法最常用的技術是查詢句擴充法(Query Expansion, QE)。

5. 資訊過濾(Information filtering)

此模式主要是透過電腦來進行自動抽取、分類、摘要等工作；找出文件的關鍵詞並加以自動分類，再以自動摘要的技術將文件相關內容做一整理，提供給使用者瀏覽，其過濾的方式因應用範圍於不同領域、資訊系統所涵蓋的資訊特質不同，所採用的過濾方式也不同，其過濾技術大致可分為內容式資訊過濾 (Content-based Information Filtering)及協力式資訊過濾(Collaborative

Information Filtering)兩種，除了可在大型網路資源搜尋系統上使用，亦可和網

7. 同音查詢(Approximate)

中文字存在許多同音字，此模式可以查出查詢值內中文字的「同音字」及

「破音字」。

8. 自然語言檢索(Query by natural language)

對話式查詢仍由系統主導話題與使用的語句，自然語言檢索是運用人工智

好則可以追加更多詞彙。查詢問句擴展可以利用相關回饋或知識架構：相關回饋是

在文檔中以成語涵義為基礎之中文成語檢索系統 (頁 20-26)

二、 文獻回顧與系統功能需求

2.1. 文獻回顧

資訊檢索

查詢模式的進展

二、文獻回顧與系統功能需求