緒論 - 以自動摘要提昇中文文件分類之效能

文件分類(text categorization)是將文件依其內容與性質加以分類，以方便使用者按類瀏覽及選擇文件。例如，Yahoo!奇摩股市將網頁連結依行業別(電子、金融、化學、航運、…)加以分類、購物網站依商品型態(家電、禮品、玩具、精品、男裝、女裝、…)分類等。這些分類可幫助使用者/消費者快速找到其想要的資訊以進行比較與選擇。傳統由人類專家執行文件分類的方式已不符合時間及成本的考量。另一方面，人工檢閱的缺點除了速度慢以外，還包括個人主觀與意識型態的差異性，將可能導致文件分類的標準不一致；利用技術和機器可以有效解決人為產生的偏差，另外處理資訊的速度，人工檢閱是無法相比。因此，一種有效而分類結果令人滿意的自動分類方法是很重要的。

1.1 背景和動機

近年來，大量數位文獻不斷地增加，文件分類因此逐漸視為一種有效資訊檢索的方案，其可提供使用者依主題查詢而不必受限於文件用詞。故許多學者紛紛投入自動分類的研究，例如，Bayesian分類器[17]、

決策樹(decision tree)[25]、K個最鄰近法(k-nearest neighbor)分類器[27]、

等等。

大多數的文件分類演算法都需透過學習訓練文件的特徵來建構出

對應的模型。然而，由於文件中的自然語言，屬非結構化的資料(不似資料庫中的資料有固定數目及事先就定義好的屬性)，較難以描述，故需透過文件索引法(document indexing)，將文件映射成一組特徵字向量(term vector)。在普通大小的資料集中，中文的特徵字數量可能會很大，輕易達到10⁶ 或是甚至更多[29]( 中文特徵字將更多 ) 不像文件檢索 (text retrieval)，在文件分類時，若詞彙空間的維度高某些演算法將無法處理。

例如，KD-trees在維度高於 10 以上的速度會變得相當慢[31]。因此，在進行文件分類之前，通常必須先經過維度縮減的前處理。

傳統用於維度縮減的方法有兩類，一是進行特徵字選取(term selection)，將重要具代表性的特徵字選出；另一方式是進行特徵字擷取 (term extraction)，由舊有特徵字組合成新的特徵字。這些努力雖能改善文件分類的效率及有效性，但其缺點在於這些運算相當耗費資源，且這些辛苦獲得之特徵字向量並無法再利用。另一方面，我們也無法由這些獲得的特徵字來瞭解某一篇文件的主要概念。此外，特徵字向量長度決定不易，維度縮減演算法的一個潛在問題是會造成資訊遺失(information loss)。

最後，在文件分類比對部分，常用的是特徵向量(feature vector)來

詞彙字串不同時，就會忽略掉了。而這樣的忽略明顯地會影響到分類正確性。

1.2

目的

過去研究[24]指出由少量但具代表性的資料所建立的模型並不會比大量資料所建立模型差(當同時考量資料蒐集成本、模式建立成本、及預測錯誤之成本時)。因此，為了解決上述所提的問題，相對於採用特徵字選取或特徵字擷取來進行維度縮減，本研究提議從文件中先自動產生摘要，並擷取其特徵字，以進行中文文件分類。自動產生摘要的目的有二：

一、可成為該文件的指示性(indicative)摘要¹，可提供使用者在依主題查詢時，可快速知曉其文件之概念；二、可進一步減少特徵字數量，以達成維度縮減。現行維度縮減之解決方法都是從統計的角度去考量，極少從自然語言中語法概念方面去作考量。在語法概念上，一個句子必須有兩個部分：一部分叫作主語，表示意思中的「甚麼」，通常為名詞；另一部分叫作述語，通常為動詞，表示這個甚麼「怎麼樣」。因此，本研究從自然語言中語法概念的角度來進行，評估句子中動詞及名詞之數量及所在位置來決定句子的重要程度。依句子之重要程度降冪排序，挑選其中之前θ²％成為摘要，並由摘要中萃取關鍵字組成特徵向量以利分類

1 所謂指示性摘是依斷句來挑選，相對於一般摘要其差別在於無文章結構，前後句並無連貫。

2θ

學習。其次，本研究另一目的在於瞭解在文件分類的特徵字比對上，考量同義詞是否能提升特徵字比對結果，以改善「字彙不匹配」的問題。

在後續的章節中，我們將說明，由摘要產生特徵向量的作法具相當的可靠性及穩定性。

在文檔中以自動摘要提昇中文文件分類之效能 (頁 13-17)