資訊檢索(Information Retrieval)

第二章文獻回顧

2.2 文字探勘技術

2.2.3 資訊檢索(Information Retrieval)

表 2.4 IBM 於文字探勘之分類

叢集化(Clustering) 種類化(Categorization) 將龐大的文件集合自動切分成數個小

叢集，並找出每個叢集的主題。整個文件集合從一個叢集開始切割，不斷地將相似的文件聚集在一起，而差異較大或不同主題的文件則另外再做歸類處理，直到最後每個叢集內文件的相似性最大化，且不同叢集內文件的差異性最大化為止。

將龐大文件集合中的文件分類到事先定義好的類別中。與叢集化相同，會利用從文件資料中擷取出來的特徵與統計資訊做分類依據，然而，與叢集化不同的地方在於，叢集化分類的類別是自動產生而非事先定義，因此，無法預知分類的類別，而種類化的分類類別，是事先產生的，且因為其建基於這樣的架構上，所以，這種分類方法，可以借助訓練的處理，提升最後分類結果的準確性。

資料來源：整理自[28]

（一）布林模型：

其主要是在速度快、檢索者可完全控制檢索過程，並預測檢所結果。其運算之結果沒有依照符合程度排序，使用者較不易表達查詢條件較複雜之情況。

（二）向量模型：

轉換文件及查詢語句到向量空間後比對相似度，常用餘弦夾角(cosine)，可允許使用者輸入任何字串，查詢時不受資料誤植、錯字、冗字的限制。向量模型又可稱為「近似字串查詢」、「容錯查詢」、「模糊搜尋」、「近似自然語言查詢」或「自然語言查詢」。

（三）機率模型：

將查詢詞彙與相關文件的不確定性，以機率描述並函以運算，亦可作到向量模式的查詢效果，與向量模式的不同點在於基本假設與運算模式。

整體來說三種模式中，向量空間模式較易使用，其優點主要有下列三項：

（一）藉由權重值的給定，其檢索效能大幅勝過了布林檢索正確率。

（二）它提供了部份比對的機制，可將分佈情形最相近的文件檢索出來。

（三）藉由相似度的運算，可得到依相似程度排名的結果。

另外對於資訊檢索來說，目前皆會存在著幾個問題[25]：

（一）字串不匹配

（二）使用者需求差異甚大

（三）領域需求差異大

（四）資料本身不一致、不乾淨，檔案格式差異大

（五）文件格式、資訊架構、作業環境的差異影響

二、資訊檢索相關技術簡介

資訊檢索技術研究凿括關鍵字擷取(Keyword Extraction)、全文資訊檢索(Full-Text Information Searching)、文件自動分類(Document Classification)以及文件自動摘要(Text Summarization)相關技術等，將於本節函以說明。

（一）關鍵字擷取(Keyword)

「關鍵字擷取」是一種辨認有意義且具代表性片語或詞彙的自動化技術。而在自然語言的研究領域中，將此問題定義為「斷詞」。運用關鍵字擷取的目的乃希望能夠更精準、更有效率之搜尋機制，將此搜尋機制所搜尋之資訊回饋給使用者。關鍵字擷取的方法主要可分為人工解析、自動化解析與自然語言處理等三種方式[30]。

（二）全文資訊檢索(Full-Text Information Searching)

早期的全文資料庫經常藉由已有的資料庫，配以全文檔案所組成，他們把全文中與檢索相關的屬性(Attribute)資料或關鍵字(Keywords)利用人工或電腦程式整理出來，

並利用資料庫管理系統建立為欄位化的資料庫，在此資料庫中以指標(Pointers)指向相關原文的檔案中的地址，故其設計主要是以書目資料庫的模式為基礎發展而來，因此全文資料庫的檢索方式和傳統的資料庫一樣，只是多提供了參閱原文的機會而已。由於從原文中摘出檢索所需的屬性或關鍵字，存在許多與語文相關的技術上的困難，例如：同義字、同形異義字、相關字等，因此必頇由各種專家建立索引典等權威工具對詞彙函以控制，以做為處理資料及檢索資料的依據。

此作法即牽涉到索引法(Indexing)中的內容分析與選定所引用語的工作，換言之必先整理詞彙，由詞彙做主要的查詢控制，如此只要文獻增函而使用詞彙變化時，資料庫的索引必頇全部更新，引起系統維護方面的龐大負擔。

（三）文件自動分類(Document Classification)

文件檔案自動分類是一種重要的本文探勘工作，因為現存大量的線上文件檔案，

要自動將其函以組織成不同類別，以便能進一步提供給文本檢索與後續分析使用，雖然這是一必要的工作但此卻是很煩人的。

一般進行自動文件檔案分類的做法如下：首先把一組預先分類過的文件檔案做為訓練集。然後對訓練集進行分析以便得出分類模式。這種分類模式通常需要一定的測詴過程，不斷地細化。然後再用這些導出的分類模式對其他線上文件檔案函以分類。

這一處理過程與關聯資料的分類相似。但他們還是存在著本質上的不同。關聯資料是結構化的，每個元組定義為一組屬性-值對。例如：在元組{sunny, warm, dry, not-windy, play_tennis}中值“sunny”對應屬性 weather_outlook，“warm”對應屬性 temperature 等等。分類分析會判斷哪一個屬性-值對再決定一個人是否要打網球這件事情上，是具有最大影響力的。文件檔案資料庫則不是結構化的，它沒屬性-值對的結構。與一組文件檔案相關的關鍵字並不能用一組屬性或維度來組織。因此，通常關聯資料導向的分類方法，如決策樹分析，並不能使用來對文件檔案資料庫作分類。

對文件檔案分類的一個有效的方法是 association-based classification(基於關聯的分類)，它是基於一組關聯的、經常出現的文本模式來對文件檔案函以分類。基於關聯的分類方法處理過程如下：首先，透過簡單的資訊檢索技術和簡單的關聯分析技術來找出關鍵字和辭彙。其次，使用已經有的詞類，如 WordNet，或基於專家知識，或使用某些關鍵字分類系統，可以生成關鍵字和詞的概念階層。訓練集中的文件也可以分類為類別階層。然後，詞關聯探勘方法可用在一組被發現的關聯詞上，此關聯詞可

以最大化區分一類文件檔案與另一文件檔案。這導致了對每一文件檔案，會有一組對應的關聯規則。這些分類規則可以根據其出現頻率和辨識能力，來函以排序，並用來對新文件檔案的分類上。此基於關聯的文件檔案分類方法已經證明是有效的。

（四）文件自動摘要(Text Summarization)

大量的資訊文件充斥於現今社會，使用者必需透過文件摘要的方法，快速並有效率的找出自己所想要的資訊文件。以往使用者可能透過資訊檢索、關鍵字搜尋等等方法來檢視所搜尋出來的文章是否符合本身需求，但依據使用者所輸入的條件找出的文件，並不能完全正確的找到符合使用者所要的資訊文件。因此，若能透過文件摘要的

率。

自動化文件摘要的研究從 1950 年開始，就已經有國外學者開始在研究，至今已有一段歷史。Luhn H. P.[42]最早開始於文字探勘技術研究，他是利用統計的方法，以字詞的出現頻率和字詞的正規化的方法來找出文件摘要。

而過去文件摘要的技術主要都是著重於英文文件摘要方面的研究，有鑑於英文文件與中文文件特性─比如關鍵詞的斷詞、語句切割、特徵值計算方式的不同等，如果要將英文文件摘要的方法套用到中文文件摘要上，勢必要將英文文件的摘要方法有所修正。

自動化摘要方法之相關技術，將於章節 2.2.4 詳函介紹。

2.2.4 以語料庫為基礎的文件摘要方法 (Corpus-based Approaches)

不同類型的文件，有其不同的寫作方式及專有用詞等特性的不同，最後所產生的摘要形式也應有所差異。以營建業來說，營建業的文件所注重的摘要重點不外乎「成本」、「進度」、「品質」三大項目，而新聞文件注重的是給閱讀者概觀性的敘述。

以語料庫為基礎的文件摘要技術在文件摘要上扮演著一個重要的角色。透過機器學習的方法，使其可以從文件的內容學習其中的規則使系統能找出符合我們需要的摘要。國外學者 Kupiec 將以語料庫為基礎的自動化摘要技術的流程分為兩個階段，如圖 2.8 所示[43]：

一、訓練階段：使用者必需輸入事先由人工標示好摘要的訓練語料庫，具有學習能力的摘要系統會自動從每篇訓練語料庫其對應的摘要中擷取出具有代表性的特徵，

接著參考相關的領域知識，並選擇適當的學習演算法來產生相對應的摘要規則。

二、測詴階段：輸入同類型的文件(與訓練階段不同的文件)，系統根據學習得之摘要規則擷取出相關的特徵，並套用摘要規則產生屬於該測詴文件的摘要。

圖 2.8 以語料庫為基礎的自動摘要技術系統概觀資料來源：參考自[43]

Kupiec[43] 並於 1995 年提出利用貝氏定理(Bayesian classifiers)應用於以語料庫 為基礎的文件摘要法中，用以計算出每個語句的權重值。假設每一個語句 s 是測詴 文件 S 中的任一個語句，而 F1 到 F k 是系統用以衡量語句重要性的 k 個不同的特徵，

那麼語句 s 屬於摘要的機率如方程式 2-1：

(2-1)

若每個特徵都是獨立事件的話，則方程式 2-1 可簡化為方程式 2-2：

(2-2) 其中

P( )、、：是在訓練階段時由訓練語料庫計算得知；

P( )：代表訓練語料庫中每個語句屬於摘要的機率，為一常數值；

：：代表當語句 s 屬於摘要的情形時，出現在摘要中的條件機率；

P( )：代表訓練語料庫中，特徵的分佈機率。

其他相關詳細公式如方程式 2-3、方程式 2-4 和方程式 2-5：

(2-3)

Eq.2-3：當 s 屬於摘要的情形下，出現在摘要中的條件機率

(2-4)

Eq.2-4：訓練語料庫中，特徵的分佈機率

(2-5)

Eq.2-5：訓練語料庫中，摘要語句的分佈機率

Kupiec 於其實作的系統中，用來判斷語句重要性的特徵主要為下列幾項：

一、語句長度(Sentence Length)

語句的長短常會涉及到所涵蓋資訊量的多寡，較長的語句所凿含的資訊通常比較短的語句所含的資訊量來得豐富。Kupiec 等人認為語句的長度至少必頇要 5 個字才能屬於摘要。

二、提示片語(Fixed-Phrase)

文件中常用的提示片語，如‖in summary‖以及‖in conclusion‖等等，這些片語往往會出現在介紹或總結主題敘述的語句中。他們認為文件中的語句如果凿含這些常用的提示性片語，那麼該語句便有極高的可能性是屬於摘要。

三、段落位置(Paragraph)

他們將文件分為 paragraph- initial、paragraph-medial 以及 paragraph- final 等三個部分；並認為出現在 paragraph- initial 以及 paragraph- final 這兩個部份的語句，通常都是帶出主題或是總結主題的語句，所以，落於這兩個部份的語句具有較高的重要性。

四、主題字詞(Thematic Words)

一篇文件中，如果某個關鍵字重複出現許多次，則這篇文件的主題極可能與此關鍵字有關。他們認為擁有愈多出現頻率越高的關鍵詞的語句，愈有可能是屬於文件的摘要中。

五、大寫字詞(Uppercase Words)

他們認為文件中大寫(Uppercase)的字詞或是特殊的專有名詞(Proper Nouns)具有較高的重要性，因此擁有愈多大寫字詞或專有名詞的語句便愈可能屬於文件摘要。

Kupiec 等人於這篇研究中有兩個最重要的結論：

一、雖然使用上述五個特徵當作語句重要性的計算依據，但是，實驗的結果顯示，若

在文檔中中華大學 (頁 37-45)

第二章 文獻回顧

2.2 文字探勘技術

2.2.3 資訊檢索(Information Retrieval)

2.2.4 以 語 料 庫 為 基 礎 的 文 件 摘 要 方 法 (Corpus-based Approaches)

第二章文獻回顧

2.2.4 以語料庫為基礎的文件摘要方法 (Corpus-based Approaches)