• 沒有找到結果。

自動化文件分類法

第二章 文獻探討

2.5 自動化文件分類法

2.5.1 中心向量分類法

以向量空間法的概念而言,兩份文件的相似度越高,兩份文件的文件向量就越接 近。一旦可利用適當的數學形式表達出任意兩文件的相似度,就可以分析所有文件中各 文件之間的相似度,將相似度高的文件群聚在一起,如此即可達成文件群集的目的。而 若從分類的概念來看,相同類別的文件,其相似度應該比較高。因此相同類別的文件,

其文件向量會形成一個群集,各個不同的類別就形成各個不同的群集 [3, 5]。圖 2-7 所 示即為文件群集的概念示意圖。圖中所示有六個群集,各個群集內含數份文件,並建構 出該群集的中心向量。有些群集有所交集,彼此之間共享文件,意味著有些文件並不只 隸屬於單一個群集。

如果如果能掌握已分類好的文件,將隸屬同一類別的文件群集在一起,便能找出其 共有的特徵,也就是該分類類別的特徵。此種分類法稱為 Rocchio 分類法 [6, 7]。要找 出同一類別文件共有的特徵,最簡單的方法就是計算該類別中所有文件向量的中心向量 (centroid vector),然後將待分類的文件與各類別的中心向量相互比較,看看該文件與哪 一類別的中心向量相似度最高,即可決定該文件隸屬於哪個類別。因為使用類別的中心 向量作為該類別的特徵,因此也稱為中心向量分類法。

文件向量 中心向量

圖 2-7 文件群集的概念示意圖。

使用類別中心向量的分類法,其最大的好處在於概念簡單。而且當各類別的中心向 量確定後,待分類的文件只需要與各類別的中心向量比較,實際執行的比較次數與文件 類別的數量相同,相較於文件的數量而言,此次數相當少,因此在分類的運算效率上非 常高。

利用類別的中心向量進行文件的分類,雖然簡單也很有效率,但通常無法得到較高 的分類正確率。主要的原因在於隸屬於同一類別的訓練文件並不全然有良好的群集效 果。也就是說,有些訓練文件會偏離其所屬類別的群集,正如同雜訊一般,在計算其所 屬類別的中心向量時,反而會影響用以代表該類別的中心向量。

另外還有一個影響中心向量法的因素在於文件並不一定是只能隸屬於單一的類 別,在大部分的情況中,文件可以隸屬於多個不同的類別,這使得各個類別的文件無法 形成良好的群集效果,因此也無法得到具有類別代表性的中心向量。

2.5.2 k-NN 分類法

為了排除群集效果不佳的訓練文件,避免其影響分類的正確率,有不少改良的分類 法被提出,k-NN (k-nearest neighbor) 便是其中一種 [8]。k-NN 法並不利用各類別的特 徵來進行分類,而是對每一份測試文件,找出與其相似度最高的 k 份訓練文件。因為 該 k 份文件與測試文件的相似度最高,因此對於測試文件應隸屬於哪個類別具有關鍵 性的角色。分析該 k 份文件所屬類別以及與測試文件的相似度,將該相似度視為一種 權重值,並將 k 份文件中同屬相同類別的文件的權重值加總,最後視哪個類別的權重 值最高,就將測試文件分類至該類別。

圖 2-8 是 k-NN 分類法的示意圖。圖中 A、B、C 代表三個不同類別的文件,圓 點則是待分類的測試文件。為了簡化說明,圖中所示的 k-NN 法並不考慮權重的處理,

因此簡化成只考慮不同類別的文件數量。圖中最小的圓圈表示 k = 1 的狀況,此時待分 類的文件歸屬於 A 類別。中間的圓圈表示 k = 3 的狀況,此時待分類的文件歸屬於 B 類別,因為與待分類文件最相似的三份文件中,有一份屬 A 類別,而有兩份屬 B 類 別。至於最大的圓圈表示 k = 6 的狀況,此時待分類的文件歸屬於 C 類別。因為與待 分類文件最相似的六份文件中,歸屬 C 類別的文件數量最多。

嚴格來說,k-NN 法並不需要訓練的階段,因為只要建立了訓練文件的文件向量後,

無需其他額外的處理,就可以進行測試文件的分類。

A

2.5.3 其他分類法

除了前述的中心向量法與 k-NN 法外,其他還有許多應用也相當廣泛的分類法,例 如決策樹 (decision tree, DTree) 演算法 [9, 11]、運用機率分析的 Naïve Bayes 分類法 [9, 10]、運用回歸分析的線性最小平方根法 (linear least squares fit, LLSF) [14]、運用類 神經網路 (neural network, NNet) 的分類法 [12, 13] 、基因演算法 (genetic algorithm) [15]、supporting vector machine [16] 等。這些分類法各有其特色與優缺點,經過許多相 關的研究,證實均有不錯的分類效果,也有文獻對這些分類法的分類效果作了相當深入 的研究 [5, 6, 31, 32]。

在文件分類的研究中,為了簡化問題,有些只考慮單一分類的狀況,也就是假設每 份文件只隸屬於單一類別。但也有不少研究在探討多重分類的問題。此外,大部分的研 究所處理的分類架構都是平坦式 (flat) 的單層架構,但也有些研究探討多層的分類架構 [33–35]。

相關文件