SupportVectorMachines技術應用於文件語意相關性分析之研究

(1)

行政院國家科學委員會補助專題研究計畫

■ 成果報告

□期中進度報告

Support Vector Machines 技術應用於文件語意相關性分析之研究

計畫類別：■ 個別型計畫 □ 整合型計畫

計畫編號：NSC

93 －

2213

－

E

－

151 －

005 執行期間： 93 年 8 月 1 日至 94 年 7 月 31 日

計畫主持人：

李俊宏助理教授

共同主持人：

計畫參與人員：

碩士班研究生兼任助理：徐豐智、陳廷忠、陳俊銘(國立高雄

應用科技大學電機工程系碩士班)

成果報告類型(依經費核定清單規定繳交)：■精簡報告 □完整報告

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式：除產學合作研究計畫、提升產業技術及人才培育研究計畫、列

管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

執行單位：

國立高雄應用科技大學電機工程系

中華民國 94 年 10 月 20 日

(2)

行政院國家科學委員會專題研究計畫成果報告

Support Vector Machines 技術應用於文件語意相關性分析之研究

Research on Applying Support Vector Machines Techniques to Supporting

Text Categorization and Analysis of Semantic Relatedness

計畫編號：NSC 93-2213-E-151-005 執行期限：93 年 8 月 1 日至 94 年 7 月 31 日主持人：李俊宏助理教授國立高雄應用科技大學電機系計畫參與人員：碩士班研究生兼任助理：徐豐智、陳廷忠、陳俊銘 (國立高雄應用科技大學電機工程系碩士班) 一、中英文摘要：本研究計畫提出一個以自動文件分類技術為基礎的多重分類器架構，結合在文件分類領域中有顯著效能的 Support Vector Machines(SVMs)演算法進行網路文件間之語意相關性量測(Semantic Relatedness Measure) 之運算平台建立，將文件原始之詞彙特徵向量透過已經訓練好的 SVM 分類器做決策後產生新的語意向量。實驗結果之效能評估顯示透過量測文件語意向量之間的距離 (Distance)餘弦函數(Cosine)、Dice 及 Jaccard，可以合理地計算出文件間語意相關性量化值。

關鍵詞：Support Vector Machines、文件自動分類、文件探勘、機器學習。

Abstract

In this research project we proposed a novel measuring method using a multi-classifier platform to perform evaluation of semantic relatedness among texts. We employed several text classifiers based on various specific topics using support vector machines (SVMs) to construct a multi-classifier platform. Firstly, we employ our developed algorithm to deal with text pre-processing and training for classifier generation. Subsequently, the texts of unknown

category go through the trained SVM classifiers to generate new vectors of decision features made by the classification results. Essentially, the resulting class vectors are used to represent semantic vectors of respective texts for comparison of relatedness with other texts. In addition, we evaluated the system performance with some traditional textual similarity evaluation techniques, including Distance, Inner, Cosine and Dice methods.

Keywords: Support Vector Machines 、 Text Categorization、Text Mining、Machine Learning 二、前言與研究目的：傳統的文件分類多半藉由判定文件間『相似度』作為分類的依據，經由計算後將相似程度高的文件集合於某一個『文件叢集』中，此種方法廣泛用於文件檢索系統的理論模型設計；『相似度量測(similarity measurement)』亦是資訊檢索過程中不可或缺的一部分。『語意相關性(semantic relatedness)』相較於『語意相似性』是更為廣泛的概念；語意相似度只是代表語意相關度的一種應用，Resnik[19] 試著以一個例子說明相似度與相關度的差異性：以相似度的觀點來看， “汽車與汽油”之間的關係似乎比 “汽車與腳踏車”來的低；但若以相關度的觀點來說，前者又較後者來高；對大多數計算應用的系統而言，相關度應用的場合遠高於相似度。隨著搜尋引擎近年來的發展越來越多元

(3)

化，越來越多的搜尋引擎推陳出新，若可透過一個語意相關性模型量測出兩網路文件間之語意相關性並透過數值的方式呈現，此技術可以應用於搜尋引擎技術上的提升，藉由文件間量化數值作為搜尋相關網路文件的依據之ㄧ，以有效的減少搜尋引擎搜尋結果中冗餘的網路文件。此技術未來發展亦可進一步應用於網路上相關多媒體文件的語意相關性量測。因此，本研究計畫提出一個以文件探勘技術應用於文件間語意相關性量測之分析方法，以探討量化文件內容差異程度的可行性。三、文獻探討本研究計畫發展以 Support Vector Machine(SVM) 為主的文件探勘 (text mining) 的演算法與文件間語意相關性分析之運算平台，相關技術的研究討論如下：

(1). 文件間『語意相關性量測』 (Measure of Semantic Relatedness)

傳統語意相關性量測根據主要使用的知識來源可分成下列幾種：

(i).Dictionary-Based Approaches ： 以 Longman Dictionary of Contemporary English(LDOCE) 為知識來源，其中包括 56000 個 headwords 與 2851 個 LDV(Longman Defining Vocabulary) ， Kozima and Furugori[9]將 headwords 與其定義轉變成一個網路模型，比較兩詞彙間相同相鄰結點個數來計算他們之間的相關程度。Kozima and Ito[10]將 LDV 中的字彙轉化成向量表示，計算向量與向量之間的距離，量測字彙之間的語意相關程度。 (ii).Thesaurus-Based Approaches

以 Peter Mark Roget 創造的 Thesaurus，詞彙以先依照其意義及語意相關性分成數個群組。Morris and Hirst[5]將英文 Thesaurus 中辭彙與詞彙之間的語意相關性制定了五種型態，利用這五種型態來量測辭彙與詞彙間的語意相關程度。Okumura and Honda[16]將[5]的演算法應用在日文的

辭彙上。

(iii).Approaches Using a Semantic Network WordNet 與 MeSH 為知識來源，藉由計算所屬辭彙在語意網路中的節點位置(node) 與另一辭彙的節點位置 (node) 的距離 (semantic distance) 來決定語意相近的程度；這方面的研究方法有簡單的 edge-counting[17] ， relative depth[11,20] 與 density[4]都是藉由語意網路如 WordNet 為主要的知識來源。 (iv).Integrated Approaches Resnik[18]利用特定語料庫作為知識來源，並依照兩個相似的概念 (shared information，information content)建立字彙的階層相關模型，計算字彙間的語意相關程度。Lin[14]提出 Similarity Theorem 計算兩字彙間語意相關程度， Jiang and Conrath[8]利用類似 Lin 的方法在量測語意相關性。由於上述的幾種模式，因為所根據的知識來源不同，無法判定何種模式成效較高。所以 Hirst[7]的研究針對 WordNet 知識來源的五種演算法 (Hirst-St-Onge[6] 、 Leacock-Chodorow[11] 、 Resnik[18] 、 Jiang-Conrath[8]與 Lin[14])作一系列實驗與比較。幾乎所有量測語意距離的相關計畫研究中，必須依賴在嚴謹限制的辭彙知識來源，而且大多只限於字(詞)彙間的語意相關性量測，無法對文件與文件之間的語意相關性作量測。 (2) 自動文件分類技術 (Automatic Text Classification)的比較 傳統的文件分類方式如下列幾種： (i). k-Nearest Neighbor Classifier

k-NN Classifier 經過實驗發現，於文件分類的工作上，能有極佳的效能[15,24]， k-NN 之演算法相當簡單，給定一測試文件，於訓練文件中系統會找到 k 個最接近的 neighbors，然後使用 k 個 neighbors 的分類，用以估量分類候選人的權值。於測試

(4)

文件中，每份鄰近文件之相似的計分，被用以當成鄰近文件之分類的權值，如果幾個鄰近的伙伴分享同一個分類，那麼，那個分類之 pre-neighbor 之權值會被附加在一起。亦即利用評估特徵向量空間中各樣本的相關程度，將相關程度高的分為一群。 (ii). Naïve Bayesian classifier

Naïve Bayesian classifier 乃利用貝氏定理（Bayesian Theory）來計算欲分類之資料其屬於各類別之機率，而貝氏定理利用已知的事前機率，加上取得的實際資訊，用以推斷事後分類機率之可能性。

(iii). Decision Trees classifier

DT classifier，決策樹分類器，由使用者之意旨來將資料依據其特性加以分類，使用者並可利用決策樹之各項不同變數來判斷及預測可能之結果。

(iv). Neural Network

類神經網路的方法，乃透過模擬人類神經的模型，藉由不同之變數設定，來訓練模型產生較佳之決策分析與預測，所提供的訓練樣本資料越多，則其輸出準確率越高，不同的網路模型有不同的訓練方法。 (v).Support Vector Machine (SVMs)

Support vector machines (SVMs) 是一種較新的且有潛力的分類技術，起源於統計學習法則裡的 Structural Risk Minimization：SRM（結構風險最小化），為一種選擇性的訓練技術，利用嵌入適當的核心函數(Kernel Function) ，便可用以學習多項式分類器(Polynomial Classifiers)，輻射基底函數網路(Radial Basic Function： RBF)，三層式 S 型神經網路(Three Layer Sigmoid Neural Nets) 等不同的分類器 (Classifier)，其主要的觀念為將資料用最大邊界來分類。四、研究方法經由相關文獻的探討與研究後，擬定主要的研究方向為透過多類別分類的方法將文件間語意相關程度透過量化的數值來表現其強弱，如圖 4.1 所示，在實驗架構上分為兩大階段來進行，第一階段為分類器的設計及訓練，第二階段為語意相關性量測模型的設計。 圖 4.1 本研究實驗流程圖 4.1 語料庫 中文文件分類研究上由於沒有像英文文件分類上有標準的資料集合提供研究使用，本研究語料庫利用自行收集的中文文件資料建立中文文件語料庫，基於資料多樣性的考量，在蒐集文件資料時透過不同的新聞網站來進行蒐集（如表 1），為避免所蒐集的新聞特定集中在某些特定的時間點上，本研究之語料庫經過長時間的建構以增加實驗的強韌性。 表 1 文件資料來源網站表 資料來源網站名稱網址 YAHOO http://www.yahoo.com.tw PC-home http://www.pchome.com.tw 中央日報 http://www.cdn.com.tw 台灣時報 http://www.taiwandaily.com.tw 聯合新聞網 http://www.udn.com 中時電子報 http://news.chinatimes.com 4.2 資料模型處理程序 首先將蒐集的新聞文件依照類別加以分類，透過中研院開發出來的斷詞程式進行斷詞，接著利用本研究自行開發的詞彙擷取程式配合實驗的特徵選取策略將所需的文件特徵萃取出來，將萃取出來之文件特徵組成特徵向量並作為文件代表的模型，經由運算得

(5)

到每一個特徵之權重值並紀錄於文件模型中作為訓練集合及測試集合之文件向量模型。 4.3 SVMs 分類器之訓練 在 SVMs 訓練階段，將訓練資料與驗證資料送入 SVMs 分類器中，根據本實驗室先前的相關研究[1,2,3]決定選用 Gaussian RBF 核心函數(Kernel Function)，並配合設定參數(包含調和係數 C、核心函數之參數)與結束條件。利用 SVMs 最佳化演算法，例如 Projection 、連續最小最佳化 (Sequential Minimal Optimization：SMO)等，藉由調整所有訓練文件之權重值求得最佳決策函數，即最佳分割超平面，在訓練完成後將所有訓練文件之權重值輸出作為測試階段決策函數建立之參數。 4.4 語意向量轉換 本研究計畫利用數個類別來模擬現實生活中的文件類別作為語意向量之特徵，每篇文件均各別經由不同類別 SVMs 分類器決策出一數值(如圖 4.2)形成一類別語意向量。 圖 4.2 文件語意向量架構 根據決策值的格式可分為兩種，第一種方式表示每一個分類器在決策後經過正規化將輸出只由「+1」與「-1」表現，文件語意向量只由+1 與-1 組成，此種方式只能呈現出兩文件是否同時屬於數個類別；第二種方式則直接將分類器之決策值透過 Symmetric Saturating Linear 函數正規化後，作為文件語意向量特徵之加權值，如圖 4.3 為經過 Symmetric Saturating Linear 函數正規化後可能之決策值，文件決策值若為+1 時(位置 a)，表示該文件完全屬於 SVMs 分類器之+1 類別；若決策值為介於 0 與+1 之間時(位置 b)，表示該文件某種程度屬於 SVMs 分類器之+1 類別；文件決策值若為-1 時(位置 c)，表示該文件完全屬於 SVMs 分類器之-1 類別，或是完全不屬於+1 類別；若決策值為介於 0 與-1 之間時(位置 d)，表示該文件某種程度屬於 SVMs 分類器之-1 類別，或是某種程度不屬於+1 類別。 圖 4.3 SVMs 分類決策可能值 4.5 語意相關性量測設計 本研究透過多類別分類的架構將原始文件詞彙特徵轉變成文件間類別語意向量，藉由相關演算法量測兩篇文件的類別語意向量，並透過量化的方式呈現其語意相關程度。除了透過 SVMs 分類器作為本系統向量轉換的工作外，假設所有文件均可同時屬於不同類別，而每一個 SVMs 分類器所決策出來的結果均代表文件在該類別主題概念中所之表現程度。 圖 4.4 兩文件語意量測架構 根據數個已訓練完成的分類器對測試文件 i 與文件 j 所決策判斷的結果做為此文件

(6)

對進行相關度量測時之文件語意向量代表，進一步利用相關演算法量測兩篇文件語意向量間相關程度，最後將運算所得之數值正規化，即為兩文件間語意相關程度之量化值。五、實驗結果與討論若單純透過系統四種決策演算法決策出來的數值來判斷文件間之語意相關程度似乎又顯得不夠客觀，本實驗參考 Resnik 提出之方法，透過人工評量方式來做一個驗證。將文件間之相關程度分為五個等級，0%~20%、 21%~40% 、 41%~60% 、 61%~80% 與 81%~100%分別用數字 1~5 表示，將計算數個人的評量結果取平均值做為人工評量之依據。人工評量的結果也將與系統所計算四種量測方式運算之結果進行比較。下列實驗結果中，文件的編號以英文字母代表文件類別，數字代表該文件於該類別的編號。表 2 呈現測試文件中以政治為主題的文件與其它主題的文件透過四種不同的量測方式及人工評量的方式做一個比較。表 3 呈現測試文件中以影視為主題的文件與其它主題的文件透過四種不同的量測方式及人工評量的方式做一個比較。 表 2 測式文件之間的相關性量測值(一) 表 3 測式文件之間的相關性量測值(二) 經由實驗中發現，經由五個類別主題的 SVM分類器轉換後的文件語意向量，其兩文件配對所運算出四種量測值與人工評估出的文件配對相關性量測值相似，最大誤差約為1 個等級左右。在實驗中亦發現文件詞彙特徵向量轉換成文件類別語意向量此過程在本系統的文件相關性分析中時間花費最多。六、計畫成果自評本研究計畫致力於應用 SVM 文件分類技術於支援文件『語意相關性 (semantic relatedness)』分析的研究。本研究計畫發展數以 Support Vector Machines(SVMs)為主的文件分類技術，再以 SVM 分類器用於目標文件間內容主題相關性(relatedness) 的分析，以驗證 SVMs 分類技術支援文件探勘應用的可能性與潛力。

本計畫的研究重點及具體成果如下： 1. 研究 Support Vector Machines 相關

演算法 2. 研究以 SVMs 計算文件『語意相關性(semantic relatedness)』之演算法 3. 實現文件探勘方法在大型中文語料庫上的進階應用 - 以向量空間模型 (vector space model)來處理文件內容的全文 索引及文件向量化 - 透過 SVMs 技術模型來進行文件分類 (i.e. automatic text classification)訓練 4. 以 SVMs 多重分類器之系統平台計算文件間特定主題語意相關性之量測 5. 系統效能評估本研究最大貢獻在於提出新穎的語意向量空間(Semantics-based Vector Space)模型，有別於透過辭彙特徵向量量測文件間相似性的研究方法，經由SVMs多重分類器系統之決策，將文件詞彙特徵向量轉換成文件類別語

(7)

意向量，透過計算兩向量之距離或餘弦等，表現兩文件間相關(Relatedness)程度。經由實驗中証實經過SVMs轉換而得之文件類別語意向量所測量出文件相關程度之四種量化值 (包括Distance、Cosine、Dice與Jaccard)，均可明顯區分文件之間的主題是否相同，初步驗證了本研究所建立之文件類別語意向量架構之可行性。從數個語意量測的實驗中，發現我們所提出以SVMs分類器類別為特徵的類別語意向量可應用傳統向量測量的方法進行相關性的量化表現，其中又以透過餘弦量測方法效果最佳，透過距離量測方法效果最差。本計畫研究內容與原計畫相符，且已達成預期目標，研究成果之學術或應用已發表於期刊及會議論文中，請參照參考文獻 [12,13,21-23]。七、參考文獻 [1] 李俊宏、李伯毅、徐豐智,2004。Support Vector Machines 應用於網路文件自動分 類,2004 台灣網際網路研討會,pp.298-301, 台東。 [2] 李俊宏、李伯毅、徐豐智 , 一個以 Support Vector Machines 為主之中文文件自動分類系統的建構與特徵選取策略之分 析，Journal of National Kaohsiung University

of Applied Sciences,vol.2, pp.67~89, 2005.

[10] Kozima,H. and Ito,A. 1997. Context-Sensitive [Measurement of] Word Distance by Adaptive Scaling of a Semantic Space. In Ruslan Mitkov and Nicolas Nicolov, editors, Recent Advances in Natural Language

Processing: Selected Papers from RANLP’95,

volume 136 of Amsterdam Sudies in the Theory and History of Linguistic Science: Current Issues in Linguistic Theory, pages 111–124. John Benjamins Publishing Company, Amsterdam/Phildadelphia, 1997.

[3] 李柏毅，Support Vector Machines 技術應用於中文文件自動分類之探討，國立高雄應用科技大學碩士論文,2004。

[4] Agirre, E. and Rigau G. 1996. An Experiment in Word SenseDisambiguation of the Brown Corpus Using WordNet. Memoranda in Computer and Cognitive Science, MCCS-96-291, Computing Research Laboratory, New Mexico State University, Las Cruces, New Mexico.

[5] Hirst ,G. and Morris ,J. 1991. Lexical Cohesion Computed by Thesaural Relations as

an Indicator of the Structure of Text. In

Computational Linguistics, 17(1):21–48,

March 1991.

[6] Hirst ,G. and St-Onge ,D. 1998. Lexical Chains as Representations of Context for the Detection and Correction of Malapropisms. In Fellbaum 1998, 305–332.

[7] Hirst ,G. and Budanitsky ,A. 2001. Correcting Real-Word Spelling Errors by Restoring Lexical Cohesion.

[8] Jiang ,J. J. and Conrath ,D. W. 1997. Semantic Similarity based on Corpus Statistics and Lexical Taxonomy. In Proceedings of

International Conference on Research in Computational Linguistics (ROCLING),

Taiwan.

[9] Kozima,H. and Furugori,T. 1993. Similarity between Words Computed by Spreading Activation on an English Dictionary. In Proceedings of 6th Conference of the

European Chapter of the Association for Computational Linguistics (EACL-93), pages

232–239, Utrecht, 1993.

[11] Leacock ,C. and Chodorow ,M. 1998. Combining Local Context and WordNet Similarity for Word Sense Identification. In Fellbaum 1998, 265–283.

[12] Lee, C.H. and Yang, H.C. 2005. “A Classifier-based Text Mining Approach for

(8)

Evaluating Semantic Relatedness Using Support Vector Machines”. International

Conference on Information Technology: Coding and Computing (ITCC'05) . IEEE

Computer Society, April 11-13 2005 , Las Vegas , Nevada , USA . Volumn 1, pp. 128-133.

[13] Lee, C.H., Yang, H.C., Hsu, F.C. , Chen, T.C. , and Hung, C.C. 2005. “A Multiple Classifier Approach for Measuring Text Relatedness Based on Support Vector Machines Techniques.” 9th World

Multiconference on Systemics, Cybernetics and Informatics (WMSCI 2005), Orlando , USA ,

July 10-13 2005.

[14] Lin ,D. 1998. An Information-Theoretic Definition of Similarity. In Proceedings of

International Conference on Machine Learning,

Madison, Wisconsin, July 1998.

[15] Masand, B., Linoff, G., and Waltz, D. 1992. Classifying News Stories Using Memory Based Reasoning. In International ACM SIGIR

Conference on Research and Development in Information Retrieval, pp. 59-65.

[16] Okumura,M. and Honda,T. 1994. Word Sense Disambiguation and Text Segmentation Based on Lexical Cohesion. In Proceedings of

the Fifteenth International Conference on Computational Linguistics (COLING-94),

volume 2, pages 755–761, Kyoto, Japan, August 1994.

[17] Rada, R., Mili, H., Bicknell, E.,Blettner, M., Development and Application of a Metric on Semantic Nets, In IEEE Transactions on

Systems, Man and Cybernetics , Volume: 19

Issue: 1 , Jan.-Feb. 1989 Page(s): 17 -30

[18] Resnik,P. 1995. Using Information Content to Evaluate Semantic Similarity. In Proceedings of the 14th International Joint

Conference on Artificial Intelligence, pages

448–453, Montreal, Canada, August 1995. [19] Resnik, P., “Semantic Similarity in Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language”. Journal of Artificial

Intelligence Research, Vol.11, pp.95-130,

1998.

[20] Sussna,M. 1993. Word Sense Disambiguation for Free-Text Indexing Using a Massive Semantic Network. In Proceedings of the Second International Conference on

Information and Knowledge Management (CIKM-93), pages 67–74, Arlington, Virginia,

1993.

[21] Yang, H.C. and Lee, C.H. 2004. "A Text Mining Approach on Automatic Generation of Web Directories and Hierarchies" To appear in

Expert Systems with Applications . (SCI)

[22] Yang, H.C. and Lee, C.H. 2005 “Automatic Category Theme Identification and Hierarchy Generation for Chinese Text Categorization“ Journal of Intelligent Information Systems , Kluwer, 2005.(SCI)(EI)

[23] Yang, H.C and Lee, C.H. 2005 “Automatic Metadata Generation for Web Pages Using a Text Mining Approach.” The

21th international Conference on Data Engineering (ICDE2005), Tokyo , Japan, April

8-9 2005.

[24] Yang, Y. 1997. An Evaluation of Statistical Approaches to Text Categorization.

Technical Report, Carnegie Mellon University,

SupportVectorMachines技術應用於文件語意相關性分析之研究

行政院國家科學委員會補助專題研究計畫

■ 成 果 報 告

□期中進度報告

Support Vector Machines 技術應用於文件語意相關性分析之研究

計畫類別：■ 個別型計畫 □ 整合型計畫

計畫編號：NSC

93

－

2213

－

E

－

151

－

005

執行期間： 93 年 8 月 1 日至 94 年 7 月 31 日

計畫主持人：

李俊宏 助理教授

共同主持人：

計畫參與人員：

碩士班研究生兼任助理：徐豐智、陳廷忠、陳俊銘(國立高雄

應用科技大學電機工程系碩士班)

成果報告類型(依經費核定清單規定繳交)：■精簡報告 □完整報告

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式：除產學合作研究計畫、提升產業技術及人才培育研究計畫、列

管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

執行單位：

國立高雄應用科技大學電機工程系

中 華 民 國 94 年 10 月 20 日

行政院國家科學委員會專題研究計畫成果報告

Support Vector Machines 技術應用於文件語意相關性分析之研究

Research on Applying Support Vector Machines Techniques to Supporting

Text Categorization and Analysis of Semantic Relatedness

■ 成果報告

李俊宏助理教授

中華民國 94 年 10 月 20 日