二、 文獻回顧與系統功能需求
2.1. 文獻回顧
圖 2-1 為本研究文獻回顧整體分佈圖,共分為資訊檢索、檢索模式進展,與詞 彙查詢搌展相關文獻等四大部份。
圖 2-1 文獻整理
2.1.1.
資訊檢索
Salton 對於「查詢」定義為:「a set of criteria specified by the user which describes
the kind of information desired」[3],在資訊檢索過程中,就是由使用者輸入部份。
1. 全文檢索(Full-Text Retrieval)
根據使用者輸入的檢索詞彙,從文本或資料庫中,不限定資料欄位,自由 地萃取出訊息的技術。基本上,全文檢索是針對文字型資料而設計的檢索方式,
目前技術多數仍侷限於 TF×IDF(詞彙頻率乘反向文件頻率)的基本計算模式[6]。
2. 內容檢索(Content-Based Retrieval)
全文資訊檢索是使用者依據查詢主題之詞彙,來擷取相關的文件,在全文 文件集中,運用與內容(context)相關的屬性特徵,做為檢索過程中文件內容的 識別因子(context identifiers),即所謂的內容檢索,亦即提供使用者以內容查詢 的方式(query by content),檢索所需的資源或資訊。例如,使用者可以使用特定 的影像,檢索資料庫中類似的影像。
3. 詮釋資料檢索(Metadata Retrieval)
詮釋資料檢索的最大特色是可以達到一致性的檢索,利用詮釋資料來描述
辦公室、或任何方便的地方連線上網查詢資料,使用者若沒有受過相當的訓練,或 具備足夠的經驗,很難利用布林邏輯方式,擬出比較有效的檢索策略來進行資料檢 索。於是檢索技術的發展方向逐漸把使用者端的檢索複雜度,移向檢索主機這一 端,或是設計更便利的人機介面模式,讓使用者的檢索環境越來越簡單,但還維持 一定、甚至更好的檢索效能(Retrieval Efficiency)[7]。
圖 2-2 是整個檢索模式發展的歷史。左列標示集合論的(set-theoretical)、代數學 的(algebraic)、機率的(probabilistic)分別是代表(Boolean model)[8]、向量空間模式 (Vector Space Model)[9]和機率模式(Probabilistic Model)[10]下所擁有的著名演算 法。在每個演算法間如果有箭號連接時,箭頭所指的演算法是屬於改進來源的演算 法產生[11][12]。這三種模式分別介紹如下:
1. 布林邏輯模式
是利用集合中的交集和聯集來表示。例如查詢中關鍵字如果用布林表示 q = (information retrieval, chinese idiom, similar) = (1, 1, 0),其中集合中有 1 則表示 文件中有存在該關鍵字,0 就是代表沒有該關鍵字,所以從這個例子中關鍵字 包含 information retrieval 和 chinese idiom 二個關鍵字,文件內容符合檢索詞之 間的布林運算者才取出,不符合者即捨去。
2. 向量空間模式
轉換文件及查詢語句到向量空間後比對相似度,利用餘弦夾角(cosine),將 文件中關鍵字用向量表示並依權重表示出其中的差異程度。例如查詢 q = (information retrieval, chinese idiom, similar) = (3, 0, 1),其中跟布林模式最大的 差別在於向量中的數字是文件關鍵字所出現的次數。可概略稱為「近似字串查
利用機率的方式解釋查詢詞彙與相關文件的不確定性,典型是用 TF/IDF 演算法。TF 的目的是顯示出關鍵字在文件中所出現的次數,並以此來代表該關 鍵字對文件的重要程度,IDF 的目的是看在所有文件中有該關鍵字的文件個數 來分析這個關鍵字是否有代表性。優點有考慮多個文件間的交互關係和部份關 鍵字所具的代表性。缺點是因為要計算所有文件中每個關鍵字相互關係,其中 的計算複雜度相當高。並且所選擇的文件集合會影響結果。機率模式亦可做到 向量模式的查詢效果,兩者不同處在基本假設與運算模式。
圖 2-2 文件比對的模型
資料來源:Dominik Kuropka [11]
2.1.3.
查詢模式的進展
資訊檢索技術歷經數十年的發展,累積了不少經驗與成果,在以使用者為導向(User Based)的趨勢下,各種查詢模式被提出來[13][7]:
1. 布林邏輯模式(Boolean model)
為最簡單的檢索模式,單純使用布林邏輯判斷文件中是否有檢索詞彙存 在,對需求明確的檢索非常有效。然一般使用者較難以利用此種模式表達複雜 的查詢而且缺乏程度上比對。
2. 重要性排序(Ranking)
4. 相關回饋(Relevance feedback)
使用者在將檢索詞鍵入系統後,會出現數筆相關資料,使用者依其資訊需 求對每筆資料進行相關性評估,再回饋給系統。通常使用者會挑選重要的特徵,
此種特徵若是文件本身,則可稱為相關文件回饋,若為相關詞,則稱為相關詞 回饋,或檢索詞提示(term suggestion)[14]。系統便會根據這些使用者列入「相 關」的資料,再重新做更進一步精確的檢索,使檢索結果的準確性大大提升。
相關資訊回饋法最常用的技術是查詢句擴充法(Query Expansion, QE)。
5. 資訊過濾(Information filtering)
此模式主要是透過電腦來進行自動抽取、分類、摘要等工作;找出文件的 關鍵詞並加以自動分類,再以自動摘要的技術將文件相關內容做一整理,提供 給使用者瀏覽,其過濾的方式因應用範圍於不同領域、資訊系統所涵蓋的資訊 特質不同,所採用的過濾方式也不同,其過濾技術大致可分為內容式資訊過濾 (Content-based Information Filtering)及協力式資訊過濾(Collaborative
Information Filtering)兩種,除了可在大型網路資源搜尋系統上使用,亦可和網
7. 同音查詢(Approximate)
中文字存在許多同音字,此模式可以查出查詢值內中文字的「同音字」及
「破音字」。
8. 自然語言檢索(Query by natural language)
對話式查詢仍由系統主導話題與使用的語句,自然語言檢索是運用人工智
好則可以追加更多詞彙。查詢問句擴展可以利用相關回饋或知識架構:相關回饋是