Combining Unsupervised Feature Selection Strategy for Automatic Text Categorization 章秉純

(1)

Combining Unsupervised Feature Selection Strategy for Automatic Text Categorization

章秉純許清琦

國立台灣大學資訊工程研究所臺北市大安區 106 羅斯福路 4 段 1 號

TEL: (02) 23625336 ext 305

E-mail: {ptchang, cchsu}@ails10.csie.ntu.edu.tw

摘要

文件分類(Text Categorization)一直是資訊檢索(Information Retrieval)的重要問題，但至今無法突破的關鍵有兩點，一為使機器理解自然語言至今仍相當困難，二為以目前一般的統計學習理論，勢難避免以有限的訓練資料(training data)處理變異程度可能相當大的文件，而導致訓練資料不足以代表所有文件的問題。傳統統計方法中視文件為文字包裹(bag of terms)的組合，以序對分類 (pattern classification)的方式處理，無論序對分類、機器學習(machine learning)的技術多麼進步，

應用到文件分類至今卻仍然沒有一個被普遍接受的做法，而只是組合各種不同的技術，根本上的問題仍然沒有解決。在這篇論文中，我們嘗試以兩階段的做法處理文件分類的問題，第一階段將傳統統計法能幾乎確定的文件處理完，其他不能確定的文件留待第二階段處理，以解決文件所含之統計資訊不足，訓練的舊文件不足以代表新文件的問題。

關鍵字: 文件分類(Text Categorization)、資訊檢索 (information Retrieval) 、自然語言 (Natural Language)、人工智慧(Artificial Intelligence)、機器學習(Machine Learning) 、特徵選取 (Feature Selection) 、 Support Vector Machine 、 k-Nearest Neighbor、Naïve Bayes Classifier

1. 概論

自動文件分類問題是指利用電腦技術，將未標記類別的自然語言文件賦予特定的類別標記。

它的應用非常廣泛，如網頁、電子郵件、新聞…

等，相關的研究主題則包括資訊檢索、資訊擷取、

自動索引(Automatic Indexing)、語彙意義辨析 (Word Sense Disambiguation)…等，為一相當重要的基礎問題。

而在人工智慧(Artificial Intelligence)的角度看，我們一直希望電腦能夠幫助人類更快速、更正確地處理問題，而文件分類，正是一個亟待自動化處理的問題，在資訊過載(Information Overload)的問題對每個人都一天比一天嚴重的現代，文件分類的必要性無庸置疑[1]，但人類能夠在短時間內輕易做到的事情，為什麼電腦做不到?

如果電腦能做到自然語言理解，當然也就能夠處理文件分類的問題，但是遺憾的是，目前自然語言理解仍然沒有足堪在這個問題上應用的成果，

所以我們仍然只能以統計方式處理，也就是將文件轉變為足以代表該文件的統計量，然後以機器學習方式，從已知類別的文章(labeled articles)歸納出分類的目標函數(target function)，然後用這樣的函數去對新文章作分類。我們可以將這樣的方法分成兩大部分，一為特徵選取(feature selection)，

一為機器學習與分類(machine learning and classification)。

而以統計方式處理自然語言的方法仍然有其限界，由於自然語言是無限且非線性的，故統計方式較難處理新詞與統計無法表現的語言意義，

故引入使用者的意見以幫助作新特徵詞的選取，

方能使機器文件分類問題在實際情形中足堪應用。在以往的研究中以單一文件集分割為訓練集與測試集的做法[6]雖不失為檢驗機器學習方法的好方法，但在實際應用如網頁分類、新聞分類等等，每日以級數方式成長的鉅量知識勢必無法應用這樣的方式執行。而本文所提出一個兩階段的做法，同時保有統計方法的優點，以機器處理絕大部分的文件，同時綜合使用者的回饋，以當面對少數統計方法無法正確判斷的文件時，能夠作最正確的處理。

2. 背景知識

2-1 特徵選取(feature selection)

特徵選取即為從文件中選取足堪表現該文件的特徵(feature pattern)並決定其重要性。一般而

(2)

言，常用的方式為視文件為一連串的符號組，然後由其中選取有意義的符號作為特徵，中文特徵選取的前置處理一般須先斷詞(Word

Segmentation)，或是以 N-Gram 方式列出可能有意義的符號組，然後由其中選取有意義的詞作為特徵。由於中文文件中單一文字的意義不唯一且變異太大，所以我們必須選取有意義的字組作為特徵。可以如PAT-Tree[7]、SB-Tree 方式產生這樣的字組，再以如下的方式選取: 資訊增加 (Information Gain)(1)、互斥資訊(Mutual

Information)(2)、CHI-Square(3)等等，也可以特徵的機率分布方式(Distributional Clustering)、詞庫 (Thesaurus)對特徵作分群(Clustering)處理。至於決定該文件該特徵的重要性，一般的方式為TF•

IDF(4)。

∑

=

= +

=

= +

−

=

−

=

|

| 1

|

| 1

|

| 1

) 0

| ( log ) 0

| ( ) 0 (

) 1

| ( log ) 1

| ( ) 1 (

) ( log ) (

)

| ( ) ( ) , (

c

k k k

i c

k k k

i c k

k k

i i

t C P t

C P K

P

t C P t

C P K

P

C P C P

K C E C E C K IG

(1)

) ( ) (

) , log( ( ))

| ( log( 1 )) ( log( 1 ) ,

( Pk PC

C k P k

c P C

C P K MI

t t t

t = − =

(2)

) ( ) ( ) ( ) (

) ) (

, (

2 2

D C B A D B C A

CB AD C N

k_t

+

× +

−

= × χ

(3)

||

) / log(

)) , ( log(

1 ) ( ,

( d

n N d

k d tf

k

w _i = + ⁱ × ^t ,

∑

∈

=

d k

i i

d k w d|| ( , )²

|| (4)

2-2 機器學習與分類(machine learning and pattern classification)

在特徵選取結束後，文件被抽象化為特徵與重要性數字的關係，於是我們就可以套用到一般的機器學習與分類技術上，一般常用的方式有貝氏分類(Bayesian Classifier: BC)(5)，k 最近鄰居 (k-Nearest Neighbor: kNN)，直到最近的支撐向量機(Support Vector Machine: SVM)，都是很有效的序對分類方法。由於我們將文件以序對方式表現，未包含語言可能是特徵的非線性組合特色，

可能在某些情況中不能做到正確分類。文件中的關鍵特徵數量可能遠少於非關鍵的特徵，造成機器錯誤分類。但是這樣的方式在決定兩個文件的相似程度是足以利用的。我們可以幾乎確定兩篇用字非常相似的文件討論的事情也非常相似，這

就是kNN 被認為是一種相當簡單且有效的做法 [2]。所以我們在找不到足以堪稱”相似”的文件以供分類時，就認為這個文件根據訓練文件是不足以分類的。

) )

| ( ) ( ( max arg

∏

1

= n i c i

C K P C

P

(5)

所以在最近的研究中[2][3]，大部分的研究轉而處理特殊的問題，而不再處理一般性的文件分類問題，例如事件追蹤(Event Tracking)問題[2]，

往往因描述同一個事件的文件是非常”相似”的，

所以能夠有相當好的效果。

從方法的本質來看，我們將文件轉以向量表示，在N 個特徵的空間中，一個全域的分類函數可能導致過分符合於訓練資料(Overfitting)的偏差，且語言千變萬化，相同的詞、片語可能代表的意義在不同文件中完全不同，所以我們視各特徵項間為獨立的假設往往造成錯誤的結果，所以如果單純以此假設作貝氏分類並不是一個足夠好的方法。相較於貝氏分類，kNN 就能夠在文件分類問題上有較佳的表現，它取區域近似(local approximation)的做法更能以表現”使用字詞相似的文件往往屬於同類”這個事實，而不至有過分符合訓練資料的問題。但kNN 在面臨一個沒有和它所含訓練資料相似的文件時，取k 個離它最近的文件是否合理?而這樣的情況是相當可能發生的，一個新的文件使用的重要字詞和訓練資料中的文件所使用的特徵字詞幾乎沒有重疊，只好依照對該新文件而言不重要的特徵來決定它的類別，這樣的判斷是危險而無理的。

統計法上新的學習理論幾乎已將統計資料所能發揮的功用達到最高，自SVM[4]出現並被用於文件分類問題中[5][10]，它以計算空間中最大分隔界(margin)的做法確實同時盡可能避免了過分符合訓練資料的問題，且同時確實利用了所有的統計資料，儘管它的成效確實較之前所有統計方法都來得更好[6]，但面對新文件時，特徵可能不足的問題依然存在。

2-3 BC(Bayesian Classifier)

BC 是一個基於機率理論的分類方法。在特徵選取後，由已知文件計算出該特徵與該類別之間的條件機率關係，分類時藉由此機率關係計算文件屬於各類的機率，由其中選出機率最高的類別作為該文件的類別。這個方法在一般機器學習領域中，被長久而普遍的應用到各個問題。

對於訓練資料作特徵選取後，我們得到T 個

特徵，然後我們可以依訓練資料計

算 (8)，其中為C 類中有特

徵的文件數，

N

為C 類的總文件數，T 為

K

T

K K

₁

,

₂

,...,

)

| ( K

_i

C

i

(

P K

)

|

( K C

N

_i

)

C

(3)

總特徵數，至於可以以除以總文件

數求得。在得到所有的後，我們

對於任一文件均可從其中包含的n 個特徵求得 (5)其預測類別。

) (C P

(

∏

1

= n i

P

) (C N

| (K P

_i

) ) ) (C P

i

| C K

) C d

) C

+ T +1 ) C N

C K

_i

) (

| ( N ( ( max arg

c

P

C K

P (

_i

| ) =

(8)

但這樣的方法的表現並不理想，主要由於它對各特徵間的獨立假設。且容易因訓練文件中包含文件較多的大類而有所偏差，特徵對各類別的分別意義在這個方法中不容易顯現出來。

2-4 kNN(k Nearest Neighbor)

kNN 為一在機器學習領域中早已被廣泛使用的案例學習(Instance Based Learning)法之一，它和一般的機器學習方法的主要不同在於它並不是處理所有的訓練資料，並由此求得一全域的目標函數(global target function)，並依此全域的目標函數做分類，而是待待分類文件出現後，根據待分類文件在特徵空間中的位置，以回歸方式取一附近區域的近似函數(local approximation)，以此函數分類。

這個方法利用待分文件和其鄰近的文件相似，所以待分文件可以依鄰近文件的類別來判斷它的類別，這樣的判斷在確實選取到了足堪代表文件的特徵時，確實是一個相當理想的做法，在實驗中也證明了這樣的方法確實能有不錯的表現。

KNN 主要的缺點一為計算可能相當費時 [8]，尤其對於中文文件的大量特徵，依待分類文件向量找鄰近向量、並計算相似度的計算量很大，所以在之前的研究中，有以各種不同的方式如各種分群(Clustering)方法、詞庫(Thesaurus)等等，將特徵空間的維度下降，但也相對損失了部分的鑑別度。

KNN 能否有好的表現關鍵在於是否能有足夠好的特徵，因為有足夠表現該文件的特徵，我們判斷文件的相似程度才具有意義。一旦相似文件集合中的文件實際上並不相似時，kNN 也就無法做出正確的判斷了。

2-5 SVM(Support Vector Machine)

支撐向量機(SVM)為一近來被廣泛運用在分類問題上的數學工具。它能夠將原有的訓練資料

所在的空間

X

透過Mercer 核心運算子(kernel operator)轉換成另一個更高維的空間。它的目標是自中找出一個最佳的分割超平面

(hyperplane)，這個超平面能夠達到將兩類點分得最開，也就是有最大的邊界(margin)。這個超平面僅是由訓練資料在空間中的點中與該平面距離

F F

||

1 w

的點決定，若僅以這些點訓練，會得到相同的支撐向量(Support Vector)。

若能以非線性的方式組合，則可能真正找到一理論上對訓練資料而言所能找到的最好全域分類函數。尤其對於非線性的語言而言，更適於應用這樣的方法，於先前的研究結果中，也證明這樣的方法確實是較佳的[6]。

雖然它可以獲得統計學習理論上依訓練資料所得的最佳結果[4]，但相較於其他方法它的計算量顯得相當龐大，所以為解決支撐向量機所需龐大計算量的問題，最近相關的研究方向朝向主動式學習(Active Learning) [10]，也就是利用啟發的特殊方法(heuristic)找出可能為決定超平面的訓練資料，以減少計算量。

3. 結合特徵選擇於自動文件分類

為了克服傳統機器學習統計方法的缺點，本文提出結合特徵選取的兩階段做法，希望能同時具有統計法的優點，亦能在實際情況中足堪應用。

3-1 決定統計法是否能夠確定分類的規則

無論是BC, kNN, SVM 等等方法，均是將文件抽象化在特徵空間(document space)後再做處理，也就是將文件

d

視為n 個特徵構成的空間

R

ⁿ

中的一個點

d

，然後以不同的機器學習方式歸納出分類目標函數(target function)。

就kNN 而言，它之所以能夠有成效乃基於相似文件屬於同一類的假設，由離待判斷點最近的幾個點當作相似文件，並由此歸納待判斷該點所代表的文件屬於何類。在kNN 中，我們近似的方式(6)為對任一文件向量(document vector)

d

取特徵空間中鄰近的幾個文件集合

kNN

，比較

d

和

中所有文件的相似程度，並依

kNN

中文件的類別決定

kNN

d

的類別。文件向量中各特徵的值可以以TF•IDF(4)方式求得，文件間的相似程度一般而言是以餘弦(cosine)(9)方式求得。

(4)

∑

∈

=

kNN d

j i i j

i

c d C d d sim c

d

C ( , ) ( , ) ( , )

(6)

∑

=

⋅

× =

= ⋅

_T

l lj T

l li T

l li lj

j i

j i j

i

w w

w w d

d d d d

d sim

1 2 1

2 1

|

| ) |

, (

(9)

但如果最接近的點也和待判斷文件毫不相似，我們就認為這樣的文件為無法確定分類的文件。也就是在特徵空間中，距離最近的文件離待判斷的文件的距離過大(R1)。由於距離過遠，儘管它是離待判斷文件最近，我們仍然認為這樣的依據是不合理的。

圖1: 判斷白點的類別依據離它最近的黑點可能是不合理的

Rule 1:

arg min || −

_i

|| > δ

i

d

(R1) (R1): for kNN Classifier.

而距離遠於何值以上被認為是不合理的?也就是該如何選定一適當的

δ

值?在這裡我們使用

「錯誤的」正確率(precision)與召回率(recall)，使該

δ

值能儘量找到最多訓練資料中的誤分文章，

找到的這些無法確定的文章再移至下一階段處理。

由於支撐向量機[4]和 kNN 不同，它的分類所依據之超平面(hyperplane)，為一全域的目標函數 (global target function)，且這個目標函數被認為是理論上在該特徵空間中最佳的分類函數。但若在該特徵空間中無法表現該文件的重點或分類所需依據時，即使依據支撐向量機也不能保證這樣的分類是正確的。

文件中重要的詞為新詞，關鍵性的詞在文件中的比重不夠重，這兩項問題都仍然可能造成支撐向量機判斷錯誤，所以我們認為在該特徵空間中距離原點長度太短的向量是特徵不足的。

3-2 統計法無法確定文件之處理

由於統計方法對於新出現的重要特徵無法立

即作出反應，我們需要的是新的、重要的特徵，

所以這時我們對無法確定分類的文件引入類似相關性回饋(relevance feedback)的方式處理。我們將無法確定分類的文件重新作特徵選取，並由使用者做決定性的選取。

在這裡，我們由第一階段得到的不確定文章中取出所有的特徵，減掉原有的特徵集合，留下的特徵集合由使用者選出何特徵對決定是何類是重要的。在這一階段中，我們直接讓機器學習「規則」，而不以統計方法判定。這樣的想法乃來自於人類在決定文件的類別時，往往只基於一兩個關鍵字即可做出正確的判斷。

舉例來說，在第一階段中若留下一篇文章難以決定，而使用者因這篇文章出現某一關鍵人名而判斷這篇文章屬於學術類，而這個關鍵人名可能由於是新的特徵，而在統計中卻是不重要的，

所以我們可以定下「所有統計方法無法決定類別的文章，若出現該關鍵人名則直接判定為學術類文章」這樣的規則。

我們在這裡對於每個決定關鍵詞應用的順序，以類似相關性回饋(Relevant feedback)的方法決定，對於被機器判定為難以確定的文章，我們列出其所有新增特徵詞，使用者認為對決定為該類有決定性影響的新詞，以類似相關性回饋的方式勾選，當再遇到難以判定的文章時，則以存在被選出的關鍵詞是否存在於該文章，來決定該文章是否屬於該類，如仍無法決定，則再列出所有新增特徵詞以供使用者選出。

因為在一般文件分類應用中，突然在大量新文件中出現重要新詞是相當常發生的，如對新聞分類而言，出現某一事件中的重要人名，幾乎可以斷定該新聞屬於何類別。若以人工分類的觀點，當人在決定文件類別時，往往也是透過類似於這樣的方式決定文章的類別。

於是，我們可以在第一階段中處理大部分統計方法可以確定的文章，再第二階段中以之前第二階段的學習結果，做決定性的分類。

3-3 二階段文件分類

本文提出的演算法執行前，先以傳統統計方式做訓練，並設所得之特徵集合為F，新取得的 關鍵特徵集合Ui 分別對應到相應類別 Ci。

對每一新文件d，先以傳統統計方式做機器分類，並判斷它是否依前列規則，為依之前訓練資料無法確定判斷的文件，若否，則直接傳回傳統方法所得結果。若是，則留待第二階段，對每一類別Ci所對應的特徵集Ui 依序檢查該文章中是否存在Ui 中的特徵，若有，則傳回對應類別 Ci，若無，則由使用者判斷所屬類別與關鍵新特徵，

(5)

並更新特徵集Ui ，以期可以同時發揮統計方法的最大功效，又不致在實際應用中出現問題。

ALGORITHM Two-Stage-Text-Categorization (input: document d) returns category C

Statistic: Trained classifier: Traditional-Classifier The feature set: F

The new feature set by user feedback: Ui

for related catehory Ci

For new document d

C ← Traditional-Classifier (d) If NOT satisfy the rule R1 Return C {normal case}

Else {stage 2: relevant feedback}

For all category Ci

If d have the feature in Ui

C ← Ci Return C End If End For Cj ←User-Input

Uj ← Uj + User-Selected C ←Cj

END If Return C End For

圖二: 兩階段文件分類的演算法

4. 實驗結果

我們使用中央社新聞作為我們實驗的依據 [11]。實驗結果顯示分類正確性與訓練資料大小的相關性。我們先執行原有的分類演算法，然後列出本文提出的二階段方式以供比較，在我們的實驗中，本文提出的方法確實能有效提昇正確率。

在本篇論文提出的方法中，第一階段選用 kNN，調整 Rule 1 中門檻值使其有最佳表現，由於我們希望的門檻值能夠取得最多不適用該方法的文件，所以無論單以正確率(Precision)或召回率

(Recall)，都不足以完全表現該方法的效能，故我們以 F-Measure(10)來評估 kNN 的效能，以決定門檻值，無法到達該值的文章留待第二階段中，

以人工方式選取有決定性的特徵，並在其後若再有無法到達門檻值的文章，則在第二階段先觀察是否曾出現此類決定性的特徵，若有，則直接分類，若無，則再以人工選取其特徵。

實驗中，β值我們以一般最佳(State-of-the-art) 的0.8 計算[12]，當門檻值為 0.9 時，能夠讓第一階段的kNN 有最佳的表現(圖三)。

本論文所提方法與傳統方法相較，平均約有 71%的正確率，較之傳統方法中，SVM 的 67.6%，

kNN 的 66.17%，Naïve Bayes 的 65.08%均有相對較佳的表現(圖四)。而由這個實驗中，傳統方法的缺陷也清楚反映出來，Bayesian Classifier 由於本身的特徵獨立假設，統計上較大的類別會不合理的以較高的相關程度對應到較多的特徵，故在實驗結果中也很清楚的出現易誤分到文章數較多的類別的問題。

) (

) 1 (

2 2

R P

R F P

+

⋅

= + β

β

(10)

0 0.1 0.2 0.3 0.4 0.5 0.6

0 0.1 0.2 0.3

Threshold

F-measure

圖三: 第一階段中，門檻值與 F-measure 之關係。

(6)

55 60 65 70 75 80

Training Data Size

Precision (%)

BC kNN SVM Our

圖四: 結合非訓練式特徵選取之文件分類方法中訓練資料大小與正確率之關係。

5. 結論

由於訓練資料是有限的，而語言的變化是無窮的，目前基於統計學習理論的機器學習方法於文件分類問題上可能難有大幅的改進。本文提出了一個半自動、但儘量將其花費減低的二階段做法，以解決完全基於訓練資料的機器學習分類方式在實際上應用有效果的限界的問題。

本方法雖然需要在執行過程中的使用者介入，但在實際應用中，確實能讓機器同時為使用者減輕大量負擔，而又達到幾乎接近人工分類般的表現。

實驗結果中，原本的方式在面對中文文件時，無論是BC、kNN、SVM，都只能將分類正確率達到65%左右，若基於同樣大小的訓練資料，

傳統的機器學習方式無法將這個結果有大幅的提昇。若以本文提出的二階段做法，確實能選出重要的特徵與新出現的重要特徵，而大幅改進分類的正確率。

參考文獻

[1] Dunja Mladenic, J. Stefen Institute,

Text-Learning and Related Intelligent Agents: A Survey, IEEE Transactions on Intelligent Systems, pp. 44-54, 1999.

[2] Yiming Yang, Improving Text Categorization Methods for Event Tracking, In Proceedings of the 23^th Ann Int ACM SIGIR Conference on Research and Development in Information

Retrieval(SIGIR ’00), 2000.

[3] Yiming Yang, Combining Multiple Learning Strategies for Effective Cross Vaildation, In

Proceedings of the 17^th International Conference on Machine Learning (ICML ’00) ,2000.

[4] V. Vapnik, The Nature of Statiscal Learning Theory. Springer, New York, 1995.

[5] Thorsten Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevent Features. In European Conference on Machine Learning(ECML ’98), pages 137-142, Berlin, 1998, Springer.

[6] Yiming Yang, A re-examination of Text Categorization Methods, In Proceedings of the 22^th Ann Int ACM SIGIR Conference (SIGIR ’99), 1999.

[7] Lee-Feng Chien. Pat-tree-based keyword extraction for Chinese information retrieval. In Proceedings of the 20^th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR ’97), pages 50-58, 1997.

[8] Jyh-Jong Tsay and Jing-Doo Wang, Improving Automatic Chinese Text Categorization by Error Correction. In Proceedings of Information Retrieval of Asian Languages(IRAL ’00), 2000.

[9] James Tin-Yau Kwok, Automated Text Classification Using Support Vector Machine, International Conference on Neural Information Processing(ICNIP ’98), 1998.

[10] Daphne Koller and Simon Tone, Support Vector Machine Active Learning with Applications to Text Classification, In Proceedings of International Conference on Machine Learning(ICML ’00), 2000.

[11] Central News Agency, URL:

http://www.cna.com.tw

[12] D. E. Appelt, D. J. Israel. Introduction to Information Extraction Technology. Tutorial for International Joint Conference on Artificial Intelligence(IJCAI-99), Stockholm, August 1999.

Combining Unsupervised Feature Selection Strategy for Automatic Text Categorization 章秉純