應用模糊資訊檢索對文件做多重分類之研究

全文

(1)應用模糊資訊檢索對文件做多重分類之研究蔡嘉嘉 (Chia-Chia Tsai)、曾守正 (Frank S.C. Tseng) 國立高雄第一科技大學資訊管理系 National Kaohsiung First University of Science and Technology Department of Information Management imfrank@ccms.nkfust.edu.tw. 摘. 要. 網際網路的普及造就了文件資料大量流通，所以對於日積月累的文件資料，如果不加以分類整理，將會為人們帶來相當多的困擾。在真實世界裡，一份文件的內容可能涉及多個不同的議題，或是各事先定義的類別之間並不完全獨立，使得將每份文件只歸類到單一特定類別的作法，並不見得合理。在本論文中，我們將以模糊集合理論 (Fuzzy Set Theory) 為基礎，透過「模糊資訊檢索分類」 (Fuzzy Information Retrieval Categorization) 以文件做為分析目標，將每份文件進行合理的多重分類。將文件同時歸屬於多類，不僅可以提高文件檢索的效率，後續更可以進一步建立文件倉儲 (Document Warehouse)，以便對該文件進行文件探勘 (Text Mining) 做準備。對於分類的結果，本研究將透過分類方法之效能評估，來驗證其正確率 (Precision Rate) 和回現率 (Recall Rate) 相關指標。關鍵字：多重分類問題、模糊資訊檢索分類、正確率、回現率. 一、緒論在現代科技工作中，對文件內容做資訊擷取 (Information Retrieval) 是一項很重要的工作。如進行某項課題的研究，查詢某項專利內容及時間、範圍等。而文件檢索 (Document Retrieval) 的工作量是浩瀚的，系統必須在合理的時間內滿足使用者的需求，因此現代文件檢索都要借助計算機來建立文件檢索系統。但是，實際應用中所需檢索的訊息也就是使用者的資訊需求，往往具有一定的模糊性 (Fuzziness)。過去的決策規則是建立於二值邏輯 (Two-Valued Logic) 之上，一個描述字 (Descriptor；或稱索引字，Index-Term) 只能「屬於」或「不屬於」一篇文件的描述。雖然傳統二值邏輯，對於理解和實作而言，皆顯得相當直觀且容易。但是，真實世界所存在的多種模糊性 (Fuzziness)，使它產生一些明顯的缺失： 1. 自然語言文件中，常有「非常」、「有些」等的模糊語意量化詞 (Fuzzy Linguistic Quantifier)。因此，描述字對於文件的描述程度應有所差異才是。 2. 無法對於查詢搜尋樣型 (Query Search Pattern) 中的描述字，以不同的重要性加以處理。如：「CASE (有點重要) and Hypertext (非常重要)」。. 由於文件之內容常跨多個主題，使得文件的分類含有不確定性，分類結果常因人而異，所以本研究利用模糊理論之演算，來規範文件分類的不確定性或大約的推理，方便人們的資訊處理，減少人為的差異。本論文以模糊集合理論 (Fuzzy Set Theory)[5][20][19] 為基礎，運用「模糊資訊檢索分類」(Fuzzy Information Retrieval Categorization) [21] 以文件做為分析目標，來將每份文件進行合理的多重分類。將文件同時歸屬於多類，不僅可以提高文件檢索的效率，後續更可以進一步建立文件倉儲 (Document Warehouse)[13]，以便對該文件進行文件探勘 (Text Mining) 做準備。對於分類的結果，本研究將透過分類方法之效能評估，來驗證其正確率 (Precision Rate) 和回現率 (Recall Rate) 相關指標。本論文的結構組織如下：第二節對相關研究做一番說明；第三節說明如何運用「模糊資訊檢索分類」來對文件做多重分類的問題與解法；第四節說明「模糊資訊檢索分類」的應用案例；第五節對分類方法之效能評估做一番討論；最後總結並討論未來可能的研究方向。. 二、相關研究 2.1 模糊集合理論根據定義，一個模糊集合可視為一個以模糊界限來分群所成的集合。假設存在一定義域 (Universe of Discourse) U，在此 U={u1, u2, …, un}，則一個針對 U 之模糊集合 A 將如定義 2.1 所述，其中µΑ可視為對應模糊集合 A 的歸屬函數 (Membership Function)，而 µΑ(ui) 可視為 ui (ui∈U) 隸屬於模糊集合 A 的歸屬程度 (Membership Degree)，其值介於 [0, 1] 之間。定義 2.1 ：針對一個定義域 (Universe of Discourse) U = {u1, u2, …, un}而言，一個模糊集合 (Fuzzy Set) A 定義為 Fuzzy Set A = {( ui , µ A ( ui ) ) ui ∈ U }. 假設有兩個針對定義域 U 之模糊集合 A 和 B (在此 U = {u1, u2, …, un}) 分別表示 Fuzzy Set A = {( ui, µΑ(ui))| ui∈U }和 Fuzzy Set B = {( ui, µB(ui))| ui∈U }。則模糊集合 A 和 B 的聯集運算和交集運算之定義分別如定義 2.2 及定義 2.3 所示。定義 2.2 ：針對一個定義域 (Universe of Discourse) U = {u1, u2, …, un}而言，模糊集合 A = {( ui, µΑ(ui))| ui∈U }和模糊集合 B = {( ui, µB(ui))| ui∈U }的聯集運算定義為.

(2) {. A ∪ B = ( ui , µ A∪ B ( ui ) ) µ A∪ B ( ui ) = Max ( µ A ( ui ) , µ B ( ui ) ) , ui ∈ U. }. 定義 2.3 ：針對一個定義域 (Universe of Discourse) U={u1, u2, …, un}而言，模糊集合 A = {( ui, µΑ(ui))| ui∈U }和模糊集合 B = {( ui, µB(ui))| ui∈U }的交集運算定義為. {. A ∩ B = ( ui , µ A∩ B ( ui ) ) µ A∩ B ( ui ) = Min ( µ A ( ui ) , µ B ( ui ) ) , ui ∈ U. }. 最後，我們介紹模糊集合理論中 α-截集 (α-level set or α-cut) 的概念[20][21]。α-截集是在模糊集合與普通集合相互轉化中的一個重要概念，在模糊決策中也經常用到。針對一個模糊集合 A 的α-截集 Aα 如定義 2.4 所示。定義 2.4 ：針對一個定義域 (Universe of Discourse) U={u1, u2, …, un}而言，一個模糊集合 A = {( ui, µΑ(ui))| ui∈U }的α-截集 Aα定義為 Aα = {ui µ A ( ui ) ≥ α , ui ∈ U }. α ∈ [0, 1]. 普通集合 Aα是對原來的模糊集合 A 的歸屬度先確定一個限定值α (0 ≤ α ≤ 1) 之後，再把歸屬度 µΑ(ui) ≥ α 的元素挑選出來而得。在 Aα的定義中要注意兩點： 1. A 是模糊子集，但 Aα是普通集合； 2. Aα的直觀意義是 ui 對 A 的歸屬度達到或超過α的就算 ui 是 A 的元素。而α-截集性質為[21]： (A∪B)α = Aα∪Bα (A∩B)α = Aα∩Bα 若 α1 、 α2 ∈ [0, 1] ，且 α1 ≤ α2 ，則 Aα1 ⊇ Aα 2 。由上述第 3 點可知：α-截值越低，Aα越大；α截值越高，Aα越小。當α = 1 時，Aα最小。所以，為了迎合使用者的主觀意識及提供多重分類的彈性，模糊訊息檢索分類引用了α截集的觀念可做為分類過程中的一個模糊項臨界值 (Threshold)。這個臨界值用以滿足限制條件的最低程度。. 1. 2. 3.. 2.2 分類的觀念和回顧. 1. 互斥(Exclusive) 與非互斥 (Non-Exclusive) (或稱重疊 (Overlapping))：前者是指一資料只能被分到一類別中。後者是指容許同一資料被分到多個類別。例如：在圖書分類中，一本名為「自然語言與資訊檢索」的書，可以被分到「自然語言」類，也可以被分到「資訊檢索」類。 2. 監督式 (Supervised) ( 或稱非固有 (Extrinsic)) 及非監督式 (Unsupervised) (或稱固有 (Intrinsic))：前者是指事先設定好類別，然後將欲分類的資料歸到與之相似程度較高的類別。例如：大家所知道的圖書分類法，這種方法稱為分類 (Classification)。後者是指事先不設定有幾類，只要欲分類的資料被視為相似，就被分為同一類。 3. 階層式 (Hierarchical) 與非階層式 (Non-Hierarchical) ( 或稱平面式 (Partitional))：前者是指分類具有階層性。例如： “電腦通訊” 這個類別又包含了 “程式設計”、 “電腦遊戲” 等類別，而 “電腦遊戲” 類別又包含了 “遊戲軟體”、“遊戲週邊” 等類別。以分群 (Clustering) 的觀點來看，階層式的分類有一個很大的好處，可以根據其樹狀結構得知資料是在什麼階段被合併 (Merge) (從樹葉開始往上看到樹根) 或被分開 (從樹根開始往下看到樹葉)。後者是指分類不具階層性，即平面式的分類。例如：將人劃分為男人與女人，即可以視為平面式的分類。以某個角度來看，可以將階層式的分類視為平面式分類的特殊情形。 Classifications. Non-Exclusive (Overlapping). Exclusive. Extrinsic (Supervised). Intrinsic (Unsupervised). 2.2.1 分類的定義及目的分類就是將資料 (Data) 或物件 (Object) 做某種方式的歸類，其主要作用在於將性質相近的資料或物件，放在同一個地方，使得人們要從眾多資料中查詢到所需的資料時，能夠更有效率且迅速地取得。尤其在此資訊爆炸的時代，如果沒有做分類的話，要從龐大的資料庫內尋找資料將是使用者的一大困擾，因此分類的重要性更形突顯。. 本論文所採用的分類方法：是融合上述之非互斥 (亦即做重覆分類)、監督式 (亦即本身就有類別) 與階層式所進行的研究。. 2.2.2 分類的方法及型態. 2.2.3 分類與分群. 根據 [7][8] 的研究，分類的型態有很多種，而 Lance and Williams (1967)[8] 則將分類的問題型態以一樹狀結構圖表示，如圖 2.1 所示。圖 2.1 的樹狀圖定義了不同種類的分類問題型態，圖中的每一個節點分別說明如下：. 分類 (Classification) 與分群 (Clustering) 的區別說明如下： 1. 分類 (Classification)：在分類的做法上，首先要定出類別並試圖用某些特性來描繪此類別。這些特性通常必須具備辨識能力. Hierarchical. Partitional. 圖 2.1：分類型態之樹狀圖.

(3) (Discrimination Value)，亦即它常常在某一類中出現，而幾乎不會在其他類別中出現。如何決定類別，也許非常主觀，直覺認為要這樣分，也可能是先瀏覽過欲分類的資料，然後訂出類別。另外，也可以先做分類之後，利用因素分析 (Factor Analysis) 重新決定類別[6]。 2. 分群 (Clustering)：分群即是將一些具有共同特性的文件群集在一起，目標是將相關的文件組合在一起[1]。最直覺的做法就是將資料依序讀入，與現有的類別比較相似度 (Similarity)，相似度如果大於某一定程度，即將此文件歸於此類，否則就自成一類，直到所有的資料都已分類完畢。當然，我們必須把原始資料用某種方法做適當地表示，例如：選定一些特性 (Property) 或屬性 (Attribute) 來描述這些資料，如此也才有衡量相似性的依據。分群在資訊檢索方面佔很重要的地位，也有許多這方面的研究成果發表[9][4]。對一個檢索系統而言，若此系統將資料事先做分群，以樹狀結構來儲存，當一個查詢來時，就不必做線性搜尋 (Linear Search) 而只要做樹狀搜尋 (Tree Search)，可以省去許多搜尋時間。. 2.3 模糊資訊檢索分類系統架構 2.3.1 模糊文件檢索架構所謂的「文件」(Documents)，指的是一個資訊體，其內容可以包含文字 (Text)、圖形 (Graphics)、動畫 (Animation)、語音 (Voice)、視訊 (Video) 等多媒體。然而，由於不同的媒體有不同的特性，因此在本論文中所探討的仍是以文字為主體的文件。文件檢索的流程大致可以以圖 2.3 表示。其中，查詢 (Query) 是使用者對系統所下的命令 (Command)，至於其命令的格式則因系統之不同而有差異，通常可包含搜尋樣型 (Search Pattern)、文件資料庫 (Document Base) 之名稱、符合文件數之上限以及輸出裝置 (Output Device) 等。所謂的「搜尋樣型」，指的是由描述字和邏輯運算子「NOT」、「AND」及「OR」所組成的片語，這是一個查詢的最基本部份，不可或缺。而其他部份則選擇性地可有可無。查詢在經過語法、語意分析後，系統便開始從文件資料庫中尋找符合搜尋樣型的文件，最後回應給使用者一份符合文件的清單。文件資料庫中的文件，由於數量龐大，一般並不適合做全文檢索 (Full-Text Retrieval)。因此，原始文件必須經過一個抽象化的過程，而以簡化的文件描述 (Document Description) 代表原始文件。在抽象化的過程中，原始文件通常是以對其內容具有描述性或代表性的描述字 (Descriptor；或稱關鍵詞，Keyword) 來組成它的文件描述，如圖 2.4 所示。. Analyze Query. Query. Search Matched Documents. Matched Documents. Document Base. 圖 2.3：文件檢索的概略流程原始文件描述字(關鍵字). f C h s. 文件描述. {c, f , h, s}. {( c, µ( c) ) , ( f , µ( f )) , ( h, µ( h) ) , ( s, µ( s) )} 圖 2.4：文件抽象化成文件描述. 至於模糊文件檢索的第一步，就是要從改進文件描述著手。文件描述中的任一描述字，對於文件的描述程度，應該根據文件之實際內容而有所不同，而不是一律視為平等，如圖 2.4 中的文件描述應改成{(c, µ(c)), (f, µ(f)), (h, µ(h)), (s, µ(s))}，其中µ(c)為 c 對該文件的描述程度，其餘類推，也就是說文件描述將是一個描述字的模糊集合。在過去，關於模糊檢索的研究，為了解決傳統二值邏輯法的缺失，多是屬於數學模型的研究[10][17][11][12][14][15]；這些研究提供了一些幫助，使我們得以數學的觀點了解模糊檢索；不過就實務觀點而言，有些仍難以實作。以下子節我們將以模糊文件檢索為基礎，提出應用模糊資訊檢索分類法來進行文件多重分類的系統架構，如圖 2.5 所示。. 1.3.2 模糊資訊檢索分類架構模糊資訊檢索分類架構是根植於模糊文件檢索的基礎上，它按照查詢訊息特性，應用模糊集合理論 (Fuzzy Set Theory) 和方法來來預先對文件進行分類，從而提高文件檢索的效率。模糊資訊檢索分類法的步驟為： 1. 首先，建立關鍵詞 - 文件模糊矩陣 (Keyword-Document Fuzzy Matrix) 及關鍵詞-類別模糊矩陣 (Keyword-Category Fuzzy Matrix)； 2. 其次，建立文件 - 類別模糊矩陣 (Document-Category Fuzzy Matrix)，並利用該矩陣建立文件-多重類別模糊矩陣 (Document-Multi-Category Fuzzy Matrix)； 3. 第三步則根據 α-cut 來判別文件可被多重歸屬的類別。而模糊文件檢索的查詢句改為新加入文件，原為檢索的模型就可成為分類的模型。圖 2.5 為本研究模糊資訊檢索分類的系統架構。而在模糊資訊檢索分類系統架構中之模糊分類機制 (Fuzzy Classifier Machine) 部份則是本研究極欲探討之中心主題，如圖 2.5 陰影部份所示。.

(4) 選定文件資料集合 Documents Enter Query User. User Interface. Analyze Query. Fuzzy Classifier Machine. Display. Ranking Documents with Similarity. Response(q). 萃取分類知識. Fuzzy Retrieval Engine. Document Base. 圖 2.5：模糊資訊檢索分類之系統架構本研究運用已預先完成的人工分類概念，延伸模糊文件檢索模型來進行文件模糊多重分類。利用已分類資料當作學習範本，並且假設人工分類類別都是正確的。進行模糊多重分類時，系統會依照新文件的描述項 (關鍵詞)、描述程度和各個訓練類別所得的類別分類知識進行比對，相似度較高的類別為文件的類別。以下章節將說明本研究模糊資訊檢索分類系統架構之詳細步驟以及如何運用於文件多重分類的問題與解法。本研究利用模糊資訊檢索分類法來將一個查詢和文件內容之間的匹配過程，按照查詢指令特點，並運用模糊集合理論和方法來對文件資料進行多重分類，從而提高文件檢索的效率。而在模糊分類好之後，後續更可以進一步建立文件倉儲 (Document Warehouse)，以便對該文件進行文件探勘 (Text Mining) 做準備，探勘出文件所蘊含的訊息。圖 3.1 為本研究模糊資訊檢索分類架構中模糊分類機制 (Fuzzy Classifier Machine) 之運作流程，也是本研究欲探討之中心主題。. 3.1 模糊資訊檢索分類步驟模糊資訊檢索分類系統可分成前端類別關鍵字選取與後端模糊多重分類兩部份架構，參考圖 3.2。下面各小節將分述此模糊分類機制之方法與步驟。 Class 1. Fuzzy Classifier. Class 2. ．． •. 模糊多重分類分類知識. 各類別的分類知識 (類別關鍵字). 學習資料定義關鍵詞的頻率列表. N-Gram選詞法. 定義關鍵詞集合. 詞彙. 計算關鍵詞在文件、類別中的歸屬程度. 計算次數、集中度和廣度，篩選符合次數、集中度和廣度的詞彙關鍵詞形成類別分類知識. 根據訓練資料分類回收率調整、決定次數、集中度和廣度門檻值. 計算文件在單一類別中的歸屬程度. 計算文件在多重類別中的歸屬程度. 測試資料 (新文件). N-Gram 選詞法. 計算文件與文件的模糊相關係數. 文件與文件的模糊相似關係. 確定 α − cut 求得 α − level set 相似樹排序多重分類且依其相似性排序的輸出結果. 三、文件多重分類問題. Fuzzy Information Retrieval Categorization. 區分學習與測試資料. ．． •. ．． •. Document Warehouse. Documents Class n. 圖 3.1：模糊分類機制之運作流程. 3.2 關鍵詞的選取從文件自動擷取片語知識，包括專有名詞，人名，地名，lexical templates 等，對多數資訊檢索應用，如文件摘要、分類、過濾等都是相當重要的研究課題。此外，對中文等東方語言而言，因為書寫時詞與詞間缺乏邊界標示，高效率片語知識擷取技術需求更加殷切。由於任一特定文件集合其重要關鍵詞多不會收錄在辭典中，因此發展中文關鍵詞抽取很難藉助辭典，必須有其他突破性的作法。. 圖 3.2：文件多重分類步驟本研究擬採用 N-Gram 選詞方法，這項技術已經應用在文件關鍵詞判定 (Keyword Identification) 以及文件分類 (Document Classification)[24]上。因為 N-Gram 選詞法是完全不需要辭典且全部依靠語言的統計結果來決定的統計檢測方法，透過檢測文件集合中所有字串前後相依程度，語意完整度及在集合內之重要性，多數中文關鍵詞或片語，特別是人名以及專有術語都可有效擷取出，並且擷取出的術語無長度限制。舉例來說，假設一個有分類價值的專有名詞 AB，其中 A、B 為中文字，因為電子詞典沒有這個詞，一被斷詞系統拆成 A 與 B 兩個單字詞以後，原本可以是有用的關鍵詞，可能因此而不被視為關鍵詞。再假設另一個有分類價值的專有名詞 ABCD，其中 A、B、C、D 為中文字，但是電子詞典中沒有這個詞，其中 AB 與 CD 因為分佈很平均以致不能成為關鍵詞，然而 BC 經過 2-Gram 篩選後成為關鍵詞，目的還是達到了，並沒有漏掉有用的訊息。而在統計句子內字與字的相鄰機率時，若是以每兩個字為一個單位切開，就叫做 Bi-Gram (2-Gram)，每三個字為一組，就叫做 Tri-Gram (3-Gram)，其餘類推。N-Gram 就是文件中任意 N 個連續字元，如「中國社會」此一字串，當 N 為 2 時將可產生「中國」、「國社」、「社會」三個索引詞。如此可排除或降低「字元法」中類似「中國」與「國中」的字串順序問題，也可省去「詞彙法」中維護詞庫的煩惱。在 Bi-Gram (2-Gram) 執行步驟中：先統計大量的語料，統計句子內字與字的相鄰機率。在斷詞的過程中，找出最大的兩字相鄰機率值，視此兩字為一詞，並且切割句子為前後兩部份，繼續此方法，直到任一相鄰兩字的機率值.

(5) 小於一個設定值。若僅採用此一 Bi-Gram (2-Gram) 選詞方法其特點是不需使用辭典，也不需用到任何法則的簡單方法；缺點是僅能找出兩字詞和單字詞，且正確率不是很高。本研究擬利用 Bi-Gram 做基礎，繼續找出 N-Gram，以進行關鍵詞的選取，不僅語料充足，且可以擷取的詞彙知識比傳統豐富，包括任意長度以及不同語言層次的資料串 (Data Stream) 機率，如字串，詞類串，語意串等，因此關鍵詞的判定將可以有效實施。而對於分類系統而言，一個具有分類價值的 N-Gram 關鍵詞應該滿足下列三個條件[23]： 1. 次數要夠：所選出的字詞並非都是有意義的詞，通常不具意義的字詞出現的次數不會多，如果定一界限值 (Threshold)，去掉出現次數低於此界限值者，則那些無意義的字詞大都會被摒除在外。根據[25]實驗所得的結果，界限值定為 5 時得到最高的回現率。 2. 集中度 (Conformity)：一個有分類價值的關鍵詞，應該要集中出現在某一類或某幾類中，而不是平均出現在各類中。因此，第二步利用 Shannon 所提出熵 (Entropy) 的公式來做篩選，以符合集中度的要求。對於一個 N-Gram Ti，衡量 Ti 的集中度 Entropy 值公式如下： k. H i = −∑ pij log pij ，j 代表類別 j =1. 其中，pij =. dij. ，dij 表示類別C j 中，出現 Ti 的文件數。. k. ∑d j =1. ij. 當平均分布在各類時，所得到的集中度值最大 Hj = logNclass (Nclass 代表類別數)，相對的，若只出現在一類中，則 Hj = 1log1 = 0，因此每一詞彙的 H 值應介於 0 (最集中) 與 logNclass (最分散) 之間，至於其臨界值則視訓練資料之不同，得經過多次的試驗來決定，沒有一標準可遵循。根據[24]實驗中， Entropy 界限值訂定為 log2 (= -1/2log1/2-1/2log1/2) ，大於界限值之 N-Gram 則予以捨棄。而實驗結果發現將 Entropy 界限值定為 log2 是假設一個平均分佈在兩類中的詞彙能讓它通過，但是後來發現關鍵詞跨類的現象很普遍，所以，對單一分類而言界限值定為 log2 可能太過於寬鬆。但對於本研究屬於重複分類的問題，Entropy 的界限值定為 log2 就可以了。 3. 廣度 (Uniformity)：在某類中出現頻率高的關鍵詞，如果是出現在此類中許多篇文件中，則它愈具有分類價值；反之，若只集中在此類的某一、兩篇文件中，則原因可能只是一突發事件，或是特定撰稿者的特殊寫作風格所致，所以此關鍵詞較無分類價值。因此訂定一個公式來篩選 N-Gram 關鍵詞，以符合廣度的要求[23]。對於一個 N-Gram Ti，衡量 Ti 的廣度公式如下：.  d. Value ( T ) = max  i. t . j.   ×  ∑ d  d. ij. ij. k. ij. ij. j =1. 其中，d 表示類別 C 出現 T 的文件數， t 表示 T 出現在類別 C 的次數。 ij. j. ij. i. i. j. 顯然 Value 的值愈大，此 N-Gram 愈具有分類的價值。假設有一個 N-Gram，它在 A 類出現 12 次且分佈在 6 篇文件中，以及在 B 類出現一次且分佈在一篇文件中，則此 N-Gram 的廣度依照公式計算如下：  6 × 6 , 1 × 1  = max ( 0.43, 0.14 ) = 0.43   12 7 1 7 . Value = max . 其臨界值與集中度一樣也是端視訓練資料不同，得經過多次的試驗才決定。本研究根據[24]來訂定廣度界限值為 0.2，小於界限值 0.2 則予以捨棄。. 3.3 定義關鍵詞的頻率列表假設一個文件檔案有 n 個文件 D1 ， D2，…，Dn 組成，每個文件 Dr 由 m 個描述項 (關鍵詞) K1，K2，…，Km 來描述。我們採隨機選擇的方式來挑選文件 (其一般性越高越好) 並統計每一個描述字在文件中出現的平均次數，最後將所有的描述字和其出現的次數記錄成一個頻率列表 (Frequency List)，以 FL 表示。定義 3.1： FL = {( fki , N FL ( fki ) ) i = 1,..., m f } fk :頻率列表中第i個描述字 i. N. FL. ( fk ) :描述字 i. fk 在 N 封文件中出現的平均次數 i. m : 頻率列表中描述字總數 f. 在各事先定義類別訓練組文件的內容中，所篩選出來的各類別的關鍵字，可聯集成一個關鍵字集合 (Keyword Set)，以 KS 表示。定義 3.2： KS = {k1 , k2 ,…, km } ,. ki ∈ KS. ( i = 1, 2,…, m ). 3.4 定義模糊關鍵詞集此一步驟我們利用模糊理論中的歸屬函數µDr(ki)和µCm(ki)來判斷每一個關鍵詞 ki 在文件和各分類類別中重要性的程度。我們採用一種模糊關鍵詞集 (Fuzzy Keyword Set, FKS)[22]的方法來作文件 Dr 的表示，它是一種用模糊數值來表達關鍵詞在文件中的重要程度。其計算方式如下：定義 3.3： FKS ( Dr ) = 其中. µ Dr ( ki ) =. {( k , µ 1. Dr. ( k1 ) ) , ( k2 , µ D ( k2 ) ) , ..., ( km , µ D ( km ) )}. nDr ( ki ). nDr ( ki ) + nFL ( ki ). r. ; r = 1, 2, ..., n. nDr ( ki ) : 關鍵字 k i 在該文件 Dr 中出現的次數 nFL ( k i ) : 關鍵字 ki 在頻率列表中出現的次數. r.

(6) 於是 n 個文件和 m 個描述項的關係可用一個 n × m 階矩陣 M1 來表示，為公式 3.1。 k1. …. k2. km. D1  µ D1 (k1 ) µ D1 (k2 ) … µ D1 (km )    D2  µ D2 (k1 ) µ D2 (k2 ) … µ D2 (km )  M1 =     Dn  µ Dn (k1 ) µ Dn (k2 ) … µ Dn (km )  n×m. m. µCm ( Dr ) =. (公式 3.1). µC. nC. m. n FL. {( k , µ 1. nC. (k ) = i. m. nC. Cm. ( k )) , ( k 1. i. m. i. ( k ) : 關鍵字 k ( k ) : 關鍵字 k i. i. i. i. , µC. (k ). (k ) + n (k ) m. 2. FL. m. ( k ) ) , ..., ( k 2. m. , µC. m. …. km. µC1 (k2 ) … µC1 (km )  . µC2 (k2 ) … µC2 (km ) .    µCk (k2 ) … µCk (km )   k ×m. (公式 3.2). 此步驟主要確定未分類文件所屬類別之歸屬函數並判斷未分類文件所應該被歸屬的類別。首先利用 N-Gram 選詞法將未分類文件做關鍵字篩選，並根據定義 3.2 中所求出的各類別關鍵字取聯集，定義出一組關鍵字集合。假設關鍵字集合為{gk1, gk2, …, gkm}，則利用定義 3.3 和 3.4 中之公式分別求出關鍵字 gki 在未分類文件 Dr 和事先定義類別 Cm 的 FKS 表示法，可得到定義 3.5 和 3.6，其中 µDr(gki) 和 µCm(gki) 分別表示關鍵詞 gki 在未分類文件 Dr 及事先定義類別 Cm 中的重要程度。定義 3.5：. µ Dr ( gki ) =. Dr. nDr ( gki ). r. r. µ C ( gki ) = m. Cm. (公式 3.4). C1 ∩ C3. …. Ck −1 ∩ Ck. (公式 3.5). {. }. µCm∩Cn ( Dr ) = min µCm ( Dr ), µCn ( Dr ) (公式 3.6). 然而，模糊多重分類原則應是使每個文件至少分到一類中去，所以模糊訊息檢索分類法引用了 α-截值的觀念做為分類過程中的一個模糊項臨界值 (Threshold)。這個臨界值用以滿足限制條件的最低程度且提供多重分類的彈性。經由觀察公式 3.5 的運算結果，可得出 max[µCm∩Cn (Dr)]，在代入公式 3.7，即可確定α截值 (α-cut)，其計算方式為： . .  α < min max  µCm∩Cn ( Dr )   (公式 3.7) m ,n  .  . nCm ( gki ) + nFL ( gki ). m. ; m = 1, 2, ..., k. nCm ( gki ) : 關鍵字 gki 在該類別 C m 中出現的次數 nFL ( gki ) : 關鍵字 gki 在頻率列表中出現的次數. }. ( m = 1, 2, ..., k ). (公式 3.8). 四、模糊資訊檢索分類的應用案例. ( gk1 ) ) , ( gk2 , µC ( gk2 ) ) , ..., ( gkm , µC ( gkm ) )}. nCm ( gki ). {. SCm = D µCm ( D ) ≥ α. 於是可以根據普通集合 SCm (i = 1, 2, …, k) 來進行分類。. ; r = 1, 2, ..., n. 定義 3.6： 1. Ck. 並且得到普通集合，即公式 3.8。. nDr ( gki ) + nFL ( gki ). {( gk , µ. …. C2. 其中 µCm∩Cn (Dr) 是表示文件 Dr 在模糊集 Cm ∩Cn 上的歸屬函數，其計算方式為公式 3.6。. ( gk1 ) ) , ( gk2 , µ D ( gk2 ) ) , ..., ( gkm , µ D ( gkm ) )}. nDr ( gki ) : 關鍵字 gk i 在該文件 Dr 中出現的次數 nFL ( gki ) : 關鍵字 gki 在頻率列表中出現的次數. FKS (Cm ) = 其中. (公式 3.3). i = 1, 2, ..., m. D1  µ C1 ∩C2 ( D1 ) µC1 ∩C3 ( D1 ) … µ Ck −1 ∩Ck ( D1 )    D2  µ C1 ∩C2 ( D2 ) µC1 ∩C3 ( D2 ) … µ Ck −1 ∩Ck ( D2 )  M4 =     Dn  µ C1 ∩C2 ( Dn ) µC1 ∩C3 ( Dn ) … µ Ck −1 ∩Ck ( Dn )  2 n×Cn. . 1. gki ,. 當每一個未分類文件和各個分類類別之間的相關程度都以模糊理論中的歸屬函數表示後，接下來我們即利用模糊集合理論的交集運算 (參考定義 2.3) 來計算每一個未分類文件在多重分類類別的歸屬度。若將 Cm ∩Cn (m、n =1, 2, …, k) 的歸屬函數用矩陣形式表示，則得到矩陣 M4，為公式 3.5。 C1 ∩ C2. 3.5 確定文件所屬類別之歸屬函數. {( gk , µ. r = 1, 2, ..., n. 3.6 計算文件於多重類別的歸屬度. 完成此一步驟後，從訓練組文件建立分類模型便已完成。而接下來便是要利用分類模型將未分類的文件加以分類。. FKS ( Dr ) = 其中. Dr ,. ; Cm , m = 1, 2, ..., k. 公式 3.4 中，列是對應類，行對應文件。. i. 於是 k 個類別和 m 個描述項的關係可用一個 k × m 階矩陣 M2 來表示，為公式 3.2。 k2. µ D ( gki ) ∑ i =1. C1. m. 在頻率列表中出現的次數. k1. m. D1  µC1 ( D1 ) µC2 ( D1 ) … µCk ( D1 )    D2  µC1 ( D2 ) µC2 ( D2 ) … µCk ( D2 )  M3 =     Dn  µC1 ( Dn ) µC2 ( Dn ) … µCk ( Dn )  n×k. ( k ) )}. 在該類別 C m 中出現的次數.  C1  µC1 (k1 ) C2  µC2 (k1 ) M2 =   Ck  µ (k )  Ck 1. r. m. 如果把所有未分類文件 D1，D2，…，Dn 歸屬於各分類類別 Cm 的程度列成矩陣，就得到矩陣 M3，為公式 3.4。. m = 1, 2, ..., k. ;. µ D ( gki )µC ( gki ) ∑ i =1 r. 同理，我們運用 FKS 的方法來作類別 Cm 的表示，以模糊數值來表達關鍵詞在類別中的重要程度。其計算方式如下：定義 3.4： FKS (C m ) = 其中. 則未分類文件 Dr 與類別 Cm 之間的相關程度即以歸屬函數µCm(Dr)來加以表示。其計算方式為公式 3.3：. m. Problem：假設一個文件檔案有一組文件共 15 份，要用“計算機”，“應用數學”，“資訊科技”，“自動控制” 4 個描述項來表示，試討論分類情況。 Solution：取定定義域 U = {D1，D2，…，D15} 並按描述項初步分為 4 類。首先根據定義 3.3 和定義 3.4 求出 µDr(ki) 和 µCm(ki)，(r =1, 2, …, 15；m =1, 2, 3, 4；i =1, 2, 3, 4)，即分別求出描.

(7) 述字 (或關鍵詞) ki 在文件 Dr 及類別 Cm 中的重要程度。定義 3.3： FKS ( Dr ) = 其中. µ Dr ( ki ) =. {( k , µ 1. Dr. ( k1 ) ) , ( k2 , µ D ( k2 ) ) , ..., ( km , µ D ( km ) )} r. nDr ( ki ). nDr ( ki ) + nFL ( ki ). r. ; r = 1, 2, ..., n. 定義 3.4：. µ C ( ki ) = m. {( k , µ 1. Cm. ( k1 ) ) , ( k2 , µC ( k2 ) ) , ..., ( km , µC ( km ) )} m. nCm ( ki ). nCm ( ki ) + nFL ( ki ). m. 再利用公式 3.3 算出歸屬函數，假設得到了公式 3.4 中的矩陣 M3 為 µCm ( Dr ) =. µ D ( ki )µC ( ki ) ∑ i =1 r. m. m. µ D ( ki ) ∑ i =1. Dr , r = 1, 2, ..., n ; Cm , m = 1, 2, ..., k (公式 3.3) ki ,. r. C1. C2. C3. i = 1, 2, ..., m C4.  µC1 ( D1 ) µC2 ( D1 ) µC3 ( D1 ) µC4 ( D1 )     µC1 ( D2 ) µC2 ( D2 ) µC3 ( D2 ) µC4 ( D2 )  M3 =     D15  µC1 ( D15 ) µC2 ( D15 ) µC3 ( D15 ) µC4 ( D15 )  15×4 D1 D2. C1 D1  0.63 D2  0.69 D3  0.06  D4  0.58 D5  0.66  D6  0.34 D7  0.60  M 3 = D8  0.37 D9  0.63  D10  0.32  D11  0.46 D12  0.63  D13  0.42 D14  0.44  D15  0.49. C2. C3. (公式 3.4). C4. 0.60 0.76 0.46  0.14 0.27 0.33  0.29 0.53 0.98   0.51 0.62 0.76  0.37 0.52 0.39   0.45 0.64 0.72  0.56 0.69 0.61   0.21 0.40 0.65  0.33 0.45 0.54   0.40 0.57 0.87   0.34 0.52 0.59  0.42 0.55 0.51   0.47 0.64 0.73  0.31 0.47 0.69   0.39 0.55 0.63 . M. M. 4. 4. C1 ∩ C 4. C1 ∩ C 3. C1 ∩ C 4.  0 .6 3   0 .2 7  0 .0 6   0 .5 2  0 .5 2   0 .3 4  0 .6 0   0 .3 7  0 .4 5   0 .3 2   0 .4 6  0 .5 5   0 .4 2  0 .4 4   0 .4 9. 0 .4 6 0 .3 3 0 .0 6 0 .5 8 0 .4 0 0 .3 4 0 .6 0 0 .3 7 0 .5 4 0 .3 2 0 .4 6 0 .5 1 0 .4 2 0 .4 4 0 .4 9. C3 ∩ C4. C3 ∩ C4 0 .4 6 0 .2 7 0 .5 3 0 .6 2 0 .4 0 0 .6 4 0 .6 1 0 .4 0 0 .4 5 0 .5 7 0 .5 2 0 .5 1 0 .6 0 0 .4 7 0 .5 5.                       . 五、分類方法之效能評估為了評估分類方法的效能，我們使用的度量值為：正確率 (Precision Rate) 和回現率 (Recall Rate)[2][18]。正確率是使用者每一次查詢之後，系統提供檢索結果中正確的資料量佔檢索結果出來的資訊總數比率，用來評估系統擷取的精確度。回現率是使用者每一次查詢之後，系統回傳擷取結果裏正確的資料量佔符合查詢要求的資訊總數比率，用來評估系統擷取的廣泛程度。在此以 Cm 類別來說明這兩個度量值的意義。圖 5.1 為分類方法之效能評估方式。 α α +β α recall = α +δ.  D 1  µ C1 ∩ C 3 ( D 1 ) µ C1 ∩ C 4 ( D 1 ) µ C 3 ∩ C 4 ( D 1 )   D  µ C ∩ C ( D 2 ) µ C1 ∩ C 4 ( D 2 ) µ C 3 ∩ C 4 ( D 2 )  = 2  1 3    D1 5  µ C ∩ C ( D1 5 ) µ C ∩ C ( D1 5 ) µ C ∩ C ( D1 5 )  1 4 3 4  1 3  1 5 × C 125. D1 D2 D3 D4 D5 D6 D7 = D8 D9 D1 0 D1 1 D1 2 D1 3 D1 4 D1 5. SC1 = { D1 , D2 , D5 , D7 , D9 , D12 } SC3 = { D1 , D4 , D6 , D7 , D13 } SC4 = { D3 , D4 , D6 , D7 , D8 , D10 , D11 , D13 , D14 , D15 }. precision =. 由於在本例中所有文件都有 µC2(D)< µC3(D)，即 C2 ⊆ C3。故只須分為 C1、C3 和 C4 三類，由 M3 代入公式 3.5 和公式 3.6 算得 M4。 C1 ∩ C 3. }. 這裡的分類中，一個文件可以同時屬於多類，但是這種情形對於文件的訊息檢索分類是合理的，因此所得結果同實際相符。. ; m = 1, 2, ..., k. nCm ( ki ) : 關鍵字 ki 在該類別 Cm 中出現的次數 nFL ( ki ) : 關鍵字 ki 在頻率列表中出現的次數. m. {. α < min max  µCm∩Cn ( Dr )  = min {0.63, 0.60, 0.64} (公式 3.7) m,n m ,n α < 0.60. 故應滿足 α < 0.60，我們取定 α = 0.59，再按矩陣 M3，可得文件分類. nDr ( ki ) : 關鍵字 ki 在該文件 Dr 中出現的次數 nFL ( ki ) : 關鍵字 ki 在頻率列表中出現的次數. FKS (Cm ) = 其中. 由 M4 得 maxµC1∩C3 = 0.63, maxµ C1∩C4 = 0.60、 maxµ C3∩C4 = 0.64。再代入公式 3.7，求得α < 0.60。. β. α γ. δ. 圖 5.1：分類方法之效能評估方式假設所有未分類之文件的數目為 N，當分類完成後，可能發生的情況有下面四種： 1. 有α篇被歸類於 Cm 類別，且歸類正確。 2. 有β篇被歸類於 Cm 類別，但歸類錯誤。 3. 有γ篇不被歸類於 Cm 類別，且歸類正確。 4. 有δ篇不被歸類於 Cm 類別，但歸類錯誤。且(α + β + γ + δ) = N，則 Cm 類別的回現率與正確率如下表示： α ( 擷取之與使用者需求相關文件數 ) 正確率 P (C ) = = α+β ( 擷取之總文件數 ) m. (公式 3 .5 ). 回收率 R (Cm ) =. α α +δ. =. ( 擷取之與使用者需求相關文件數 ) ( 與使用者需求相關文件數 ). 當類別回現率 R(⋅)或正確率 P(⋅)越高，則表示分類方法的效能越佳。當然，高回現率與高正確率是本研究所期望的，但兩者很難同時滿足，合理的情形是在某個回現率的範圍內，儘量提高正確率[16]。. 六、結論與未來研究方向到目前為止，雖已有許多處理文件分類問題的方法相繼被提出，但是，這些方法均是為.

(8) 處理單一分類問題所設計的，且並不適用於處理多重分類問題。因此，本研究以模糊理論來做多重分類的原因如下： 1. 較適合自然語言：人類之語言大都是表示模糊觀念，所以用模糊數學來做文件分類，理論上是很適用的。 2. 不確定性：文件之分類本來是不確定的，就算用人工分類，分類結果也會因人而異，我們並不能硬性說某一篇文章就是屬於某一類，而用模糊之歸屬度來說明文件所屬之類別是較為合理。且應用於多重分類，可以增加文件資料分類之正確性。 3. 一致性：人工分類常常因為人員的異動，同樣一篇文章有不同標準的分類，若利用模糊內積的計算方式來讓電腦自動分類就不會有這樣的問題。本研究使用模糊訊息檢索分類應用於文件多重分類問題的方法，在處理文件多重分類問題時，比起用傳統處理文件單一分類問題的方法來處理文件多重分類問題更加的適合。根據 Survey.com (http://www.survey.com) 的分析結果顯示：其實企業所需要的商業智慧 (Business Intelligence, BI) 大約只有 20% 是由存放在傳統關聯式資料庫中的結構化資料所推導出來的。其餘 80% 左右的商業智慧必須要到各式各樣的商業文件中去找尋。目前企業界對於這些文件的管理上也僅止於文件本體的管理，對於文件的內容仍然是以人為閱讀的方式來吸收，效率不彰且可能流於以偏蓋全。因此，在資料倉儲與資料採擷 (Data Mining) 已經普遍為企業界所認同與採行之際，學術界應當加緊腳步邁向下一個挑戰，那就是「文件倉儲」(Document Warehouse) 與「文件採擷」 (Text Mining) 的深入研究，以協助企業進一步掌握整體的商業智慧，提昇整體的競爭力。. 致謝本研究部分承蒙國科會計劃補助，計劃編號 NSC 91-2416-H-327-005，特此感謝。. 參考文獻 [1] Baeza-Yates, R. and B. Ribeiro-Neto, “Modern Information Retrieval,” Addison-Wesley, 1999.. [2] Benkhalifa, M., A. Bensaid and A. Mouradi, “Text Categorization Using the Semi-supervised Fuzzy C-algorithem,” NAFIPS Int’l Fuzzy Info. Processing Soc., 1999, pp. 561-565. [3] Blosseville, M.J. et al., “Automatic Document Classification: Natural Language Processing, Statistical Analysis, and Expert System Techniques Used Together,” ACM Trans. on Info. Sys., July 1992, pp. 51-58. [4] Can, F. and E. Ozkarahan, “A Dynamic Cluster Maintenance System for Information Retrieval,” Proc. the 10th Annual Int’l ACM SIGIR Conf., 1987, pp. 123-131. [5] Dubois, D. and H. Prade, “Fuzzy Sets and System: Theory and Applications,” Academic Press, New. York, 1980. H.S., “Information Retrieval – Computational and Theoretical Aspects,” Academic Press, New York, 1978. [7] Jain, A.K. and R. C. Dubes, “Algorithms of Clustering Data,” Prentice-Hall, Inc., 1988. [8] Lance, G. N. and W. T. Williams, “A General Theory of Classificatory Sorting Strategies: II. Clustering Systems,” Computer Journal 10, 1967, pp. 271-277. [9] Miyamoto, S., “Fuzzy Sets in Information Retrieval and Cluster Analysis,” Kluwer Academic Publishers, May 1990. [10] Murai, M.M. and M. Shimbo, “A Fuzzy Document Retrieval Method Based on Two-Valued Indexing,” Fuzzy Sets And Systems, Vol. 30, 1989, pp. 103-120. [11] Radecki, T., “Fuzzy Set Theoretical Approach to Document Retrieval,” Infor. Processing and Management, Vol. 15, 1979, pp. 247-259. [12] Radecki, T., “Mathematical Model of Information Retrieval Systems Based on the Concept of Fuzzy Thesaurus,” Info. Processing and Management, Vol. 12, 1976, pp. 313-318. [13] Sullivan, D., “Document Warehousing and Text Mining: Techniques for Improving Business Operations, Marketing and Sales,” John Wiley & Son, Inc., 2001.. [14] Tahani, V., “A Conceptual Framework for Fuzzy Query Processing --A Step toward Very Intelligent Database Systems,” Info. Processing and Management, Vol. 13, 1977, pp. 289-303. [15] Tahani, V., “A Fuzzy Model of Document Retrieval Systems,” Info. Processing and Management, Vol. 12, 1976, pp. 177-187. [16] van Rijsbergen, C. J., “Information Retrieval,” 2nd Ed., London, 1979. [17] Yager, R.R., “A Logical On-Line Bibliographic Searcher: an Application of Fuzzy Sets,” IEEE Trans. Systems, Man, & Cybernetics, Vol. 10, No.1, 1980, pp. 51-53. [18] Yang, Y. and C.G. Chute, “An Example-Based Mapping Method for Text Catalogization and Retrieval,” ACM Trans. on Info. Sys., Vol. 12, No. 3, July 1994, pp. 252-277. [19] Zadeh, L.A.,, “Fuzzy Sets,” Information and Control, Vol. 8, 1965, pp. 338-353. [20] Zimmermann, H.-J., “Fuzzy Set Theory – and Its Applications,” 2nd revised edition, Kluwer Academic Publishers, 1991. [21] 吳萬鐸與吳萬釗編著，模糊數學與計算機應用，台北市，儒林圖書，9 月，1993. [22] 李孟瑜、曾秋蓉，智慧型自動化網路客服系統之研究，台灣區網際網路研討會，2001。 [23] 陳淑美，財經新聞自動分類之研究，國立台灣大學圖書館學研究所碩士論文，1992。 [24] 楊允言，文件自動分類及其相似性排序，國立清華大學資訊科學研究所碩士論文，1993。 [25] 謝清俊、陳淑美、楊允言、陳克健， Auto classification of Texts，如何利用大型語料庫作研究研討會，計算語言學會，9 月，1992。. [6] Heaps,.

(9)