• 沒有找到結果。

文件分類(text categorization)是將文件依其內容與性質加以分類,以 方便使用者按類瀏覽及選擇文件。例如,Yahoo!奇摩股市將網頁連結依 行業別(電子、金融、化學、航運、…)加以分類、購物網站依商品型態(家 電、禮品、玩具、精品、男裝、女裝、…)分類等。這些分類可幫助使用 者/消費者快速找到其想要的資訊以進行比較與選擇。傳統由人類專家執 行文件分類的方式已不符合時間及成本的考量。另一方面,人工檢閱的 缺點除了速度慢以外,還包括個人主觀與意識型態的差異性,將可能導 致文件分類的標準不一致;利用技術和機器可以有效解決人為產生的偏 差,另外處理資訊的速度,人工檢閱是無法相比。因此,一種有效而分 類結果令人滿意的自動分類方法是很重要的。

1.1 背景和動機

近年來,大量數位文獻不斷地增加,文件分類因此逐漸視為一種有 效資訊檢索的方案,其可提供使用者依主題查詢而不必受限於文件用 詞。故許多學者紛紛投入自動分類的研究,例如,Bayesian分類器[17]、

決策樹(decision tree)[25]、K個最鄰近法(k-nearest neighbor)分類器[27]、

等等。

大多數的文件分類演算法都需透過學習訓練文件的特徵來建構出

對應的模型。然而,由於文件中的自然語言,屬非結構化的資料(不似資 料庫中的資料有固定數目及事先就定義好的屬性),較難以描述,故需透 過文件索引法(document indexing),將文件映射成一組特徵字向量(term vector)。在普通大小的資料集中,中文的特徵字數量可能會很大,輕易 達 到106 或 是 甚 至 更 多[29]( 中 文 特 徵 字 將 更 多 ) 不 像 文 件 檢 索 (text retrieval),在文件分類時,若詞彙空間的維度高某些演算法將無法處理。

例如,KD-trees在維度高於 10 以上的速度會變得相當慢[31]。因此,在 進行文件分類之前,通常必須先經過維度縮減的前處理。

傳 統 用 於 維 度 縮 減 的 方 法 有 兩 類 , 一 是 進 行 特 徵 字 選 取(term selection),將重要具代表性的特徵字選出;另一方式是進行特徵字擷取 (term extraction),由舊有特徵字組合成新的特徵字。這些努力雖能改善 文件分類的效率及有效性,但其缺點在於這些運算相當耗費資源,且這 些辛苦獲得之特徵字向量並無法再利用。另一方面,我們也無法由這些 獲得的特徵字來瞭解某一篇文件的主要概念。此外,特徵字向量長度決 定不易,維度縮減演算法的一個潛在問題是會造成資訊遺失(information loss)。

最後,在文件分類比對部分,常用的是特徵向量(feature vector)來

詞彙字串不同時,就會忽略掉了。而這樣的忽略明顯地會影響到分類正 確性。

1.2

目的

過去研究[24]指出由少量但具代表性的資料所建立的模型並不會比 大量資料所建立模型差(當同時考量資料蒐集成本、模式建立成本、及預 測錯誤之成本時)。因此,為了解決上述所提的問題,相對於採用特徵字 選取或特徵字擷取來進行維度縮減,本研究提議從文件中先自動產生摘 要,並擷取其特徵字,以進行中文文件分類。自動產生摘要的目的有二:

一、可成為該文件的指示性(indicative)摘要1,可提供使用者在依主題查 詢時,可快速知曉其文件之概念;二、可進一步減少特徵字數量,以達 成維度縮減。現行維度縮減之解決方法都是從統計的角度去考量,極少 從自然語言中語法概念方面去作考量。在語法概念上,一個句子必須有 兩個部分:一部分叫作主語,表示意思中的「甚麼」,通常為名詞;另 一部分叫作述語,通常為動詞,表示這個甚麼「怎麼樣」。因此,本研 究從自然語言中語法概念的角度來進行,評估句子中動詞及名詞之數量 及所在位置來決定句子的重要程度。依句子之重要程度降冪排序,挑選 其中之前θ2%成為摘要,並由摘要中萃取關鍵字組成特徵向量以利分類

1 所謂指示性摘是依斷句來挑選,相對於一般摘要其差別在於無文章結構,前後句並無連貫。

2θ

學習。其次,本研究另一目的在於瞭解在文件分類的特徵字比對上,考 量同義詞是否能提升特徵字比對結果,以改善「字彙不匹配」的問題。

在後續的章節中,我們將說明,由摘要產生特徵向量的作法具相當的可 靠性及穩定性。

相關文件