相對雜訊過濾法-以混合式技術改善文件聚類精確度

(1)

相對雜訊過濾法-以混合式技術改善文件聚類精確度

古祐嘉，真理大學資訊管理系王海霞，真理大學資訊管理系王台平，真理大學資訊管理系

摘要

本研究討論的是利用混合式方式改善文件聚類的精確度。目的是以電腦自動化的方式取代傳統以人工分類方式以完成文件聚類，並運用 AHC 結合 K-means 的方式達到控制文件聚類時的品質，以提高其精確度(Precision)及召回率(Recall)。

文件聚類之前，需針對文件做前處理的動作。首先我們使用 CKIP 的中文斷詞系統將文件進行中文斷詞的處理，接著計算 TF，每個關鍵詞在各篇文章中出現的次數及 IDF，最後用雜訊過濾的方法，將權重值中會影響文件聚類精確度與召回率的關鍵詞權重值加以過濾。

實驗資料在95%的信賴度之下，有效樣本為512篇新聞資料。實驗結果顯示出，本研究所提出AHC結合K-means聚類演算法並加入雜訊過濾法相較於AHC結合K-means聚類演算法，獲得較理想的聚類結果。

關鍵字：文件探勘、文件聚類、凝聚式階層聚類法、雜訊過濾

1. 緒論

1.1. 研究動機

資料探勘(Data Mining)是資訊科學中的一項新興且重要的技術，美國麻省理工學院(Massachusetts Institute of Technology, MIT)的 Technology Review 期刊更將之列入為改變未來世界的十大創新科技之一(曾新穆、李建億，

2003)。而文件探勘(Text Mining)就是由資料探勘中延伸出來，其中最廣泛被運用的是文件分類(Text Classification)。

分類，指的是事先以人工方式定義各個類別建立好模型。然而，聚類則不需事先建立模型，而以當時文件中最相近的視為一群。以往在文件自動分類的研究，大多採用分類(Classification)的方式做文件自動分類(謝儒誠，

2002)。由於類別是事先定義好的，每當有新的文件產生而要加入時，如果

(2)

其未在事先定義的類別中則會導致不知道該分至何類別。所以，使用文件聚類(Clustering)的方式就不會產生上述的問題。

在文件聚類上，最為廣泛被使用的兩種聚類演算法: Agglomerative Hierarchical Clustering(AHC)、K-means。AHC 的品質控制比較好、能將資料以階層式的樹狀圖表達出來，缺點是在處理較大量的資料時較不易判讀及分析，而且其執行效率差。K-means 是最簡單又易實作的方法，能處理較大量的資料、執行的效率較高。缺點是從其資料中隨機選取初始中心點的 K 值該是多少卻沒有一定，且對於雜訊及離群值有著高敏感度。

本論文的研究動機主要來自以下幾點說明：

第一、在討論聚類演算法的論文中，多數都曾提及Single Linkage容易造成各群集之間「大者恆大，小者恆小」的情形出現，因此聚類的結果往往不如預期。但洪鵬翔學者的研究中，卻顯示Single Linkage相較於Complete Linkage有更好的精確度表現。洪鵬翔學者說明這是因為新聞類別中的新聞群聚並非是平均分佈的，其中只有部分新聞需要形成新聞群聚，與Single Linkage所產生的群聚分佈類似(洪鵬翔，2000)。

第二、國內學者李諺泯將非階層式聚類 K-means 及階層式聚類 AHC 做一個結合，將修改過後的 Modify K-means 演算法先對資料進行處理，之後採用階層式聚類處理資料，進而得到階層式樹狀圖。Hierarchical 可以將所有資料的差異求出，先用 Partitioning 的方式對資料進行分割處理，而 Hierarchical 就只需對群集進行處理即可，在資料量大時，可以達到節省時間的目的(李諺泯，2003)。

1.2. 研究目的

在此次的研究中，為了改善聚類在文件上的精確度，我們使用以 AHC(Agglomerative Hierarchical Clustering)階層式聚類演算法求取出合適的 K值，提供給K-means非階層式聚類演算法進行新聞文件聚類的動作。先進行階層式聚類演算法可以針對聚類時的群數進行控制，雖然實際上較花時間，但對於品質有較良好的表現。而取出合適的K值，可以讓K-means非階層式聚類演算法在處理文件上能夠達到加速收斂的目的，所以我們提出 AHC(Agglomerative Hierarchical Clustering)階層式聚類演算法結合K-means 非階層式聚類演算法進行文件聚類。聚類處理之前，我們將針對各個文件中去計算其關鍵字的平均值，以平均值倍數的區間為門檻值，對超過或是未達此門檻值的關鍵字權重進行過濾，刪除會影響文件聚類的關鍵詞，以提升類各類別的精確度。

2. 文獻探討

2.1. 特徵詞彙

(3)

在做文件聚類之前，除了需要將文件做斷詞的處理接著就是選取文件中的關鍵詞，並找出能代表本篇文章的關鍵字，再和文件群比較看看哪些文章是相似的且需要被歸為一類。若特徵詞取的好，可代表本文章的內容；若特徵詞選取的不好，將無法表現出此篇文章的大意。因此，特徵詞的選取會影響到是否能代表這偏文章的內容。事實上，在文章中有些詞出現的次數很多但卻不是該篇內容的主要重點，如：我們、我的、他們…等。這些詞雖然經常出現在文章裡，但卻不是最主要的內容。這一類的詞需要我們去避免，才不會降低文章的精確度及召回率。

與特徵詞彙相關的國外文獻，有利用SVM的分類器來做Reuters及在 20NG文件上的試驗(Bekkerman, R. and El-Yaniv, R. and Winter, Y. and Tishby, N.,2001)。在SVM的分類器上，拿出Reuters中的一個類別，並針對該類別取出部份的特徵詞彙加以分析(Joachims,1998)。國內的部份，陳俊達將其研究結果與上述兩位國外學者做比較，發現即使中文詞句的結構與英文是截然不同的，但不管是在其中文或是英文的特徵詞選取上，皆對分類器有著相同的影響(陳俊達，2004)。

2.2. 文件聚類

文件聚類(Document Clustering)是指將文字文件自動地分成幾個群集。

因此，文件同屬在一個群集內的相似度會較高，而群與群之間的相似度就比較低。以往在文件自動分類的研究，大多採用分類(Classification)的方式做文件自動分類(謝儒誠，2002)。而分類，指的是事先以人工的方式定義各個類別建立好模型。然而，聚類(Clustering)，則不需事先建立模型，而以當時文件中最相近的視為一群。由於分類之類別是事先定義好的，每當有新的文件產生而要加入時，如果其未在事先定義的類別中則會導致不知道該分至何類別。所以，使用文件聚類的方式較不會產生上述的問題。

在文件聚類的研究上，楊綠淵學者以文件關鍵屬性之擷取進行文件間相關性分析並以此結果進行自動化文件聚類。再透過使用者閱讀趨勢之搜集與分析結合文件聚類結果，自動推論文件接受對象，達成文件(或訊息)自動發佈之目的，最後建立以文件相關性為基礎之企業知識聚類與管理模式與系統技術，並以一案例驗證此模式與技術的可行性(楊綠淵，2004)。謝儒誠學者以論文作者給定的關鍵字做為文件之屬性，以 Jaccard 係數測量文件間的相似度，採用 Complete-link 演算法來做聚類，由實驗結果顯示此法可將論文做適當的聚類，區分不同科系或不同研究領域之論文(謝儒誠，2002)。江季洲學者提出了兩種以最近鄰居為基礎的聚類法，分別是「最近鄰居命中聚類法」及「共同最近鄰居聚類法」。經由實驗結果來評估聚類效能及優缺點，

發現實驗結果最佳的共同最近鄰居聚類法實作出聚類為基礎的使用者文件查詢系統(江季洲，2002)。洪鵬翔學者利用計算字串相似度的方式求得新聞

(4)

標題之間的相似度，再以「階層式聚合演算法」來完成聚類的動作。在訓練過程中系統調整聚類所需的參數，藉此提高電腦自動聚類的準確度。嘗試直接以統計的方法來求得聚類所需的參數，並加以比較這兩種方式所得到的聚類結果(洪鵬翔，2000)。郭家良學者的研究中，在新聞群聚上將一群描述相同或類似事件的新聞做群聚，並利用多文件摘要提供讀者初步了解新聞事件內容，可有效節省使用者閱讀的時間(郭家良，2003)。

目前有兩種主要的聚類技術型態為非階層式聚類 Non-Hierarchical Clustering(分割式， Partitioning)及階層式聚類 Hierarchical Clustering (樹的聚類，Tree Clustering)(Jain and Dubes,1988)。而 Agglomerative Hierarchical Clustering (AHC)、K-means 是兩種最常被用於文件聚類的聚類方法。

階層式的聚類分為凝聚式(Agglomerative)與分裂式(Divisive)。本論文採用的是凝聚式聚類。凝聚式聚類是從一顆樹的最底層將兩個相似的群集做合併，一直到樹的最頂端。凝聚式階層式聚類(AHC，Agglomerative Hierarchical Clustering)有四種計算距離的方式，分別為：

a. 單一連結法(Single Linkage)：在兩個群集間距離最近的兩點。

b. 群平均連結法(Group Average Linkage)：兩群集中各點與各點之間的距離總和之平均。

c. 完整連結法(Complete Linkage)：在兩個群集間距離最遠的兩點。

d. 沃德法(Ward's)：兩群集中各維度的變異數之平均和。

在以上的四種距離當中，最常被使用的是單一鏈結法。單一鏈結法被認為是較易發生鏈結效應與將負相關物件分在同一群。而完整鏈結法則較符合一般人資料聚類的目的。但在洪鵬翔的研究中，指出單一鏈結法雖易造成各群聚間「大者恆大，小者恆小」的現象，但在新聞聚類的使用上獲得較好的結果。而完整鏈結法，雖使所有文章能較平均地分佈於各群聚中，但卻與真實情況不相容(洪鵬翔，2000)。使用AHC的優點是在聚類的品質上較好、可利用階層式的樹狀圖表達，缺點則是執行效率差且不適合處理大量的資料。

在非階層式的聚類裡， K-means 演算法是非階層式演算法的代表 (Joachims,1998)。其優點簡單、易實做，在大量資料的處理上有較佳的效率表現。缺點在於其 K 值是隨機的，對於離群值的敏感度高結果易受其影響。

因此，李諺泯學者使用階層式聚類的凝聚式聚類的觀念在 K-means 方法中 update center 的步驟來修改 K-means 演算法，在中心點更新的方式上，利用同一群中相互間差異性最小的物件當成新的中心點，使之較不易受離群值的影響。再用階層式方法求算叢集間的差異來省去資料量大時需將所有物件的差異得知後才去做處理，只需要知道要分割的叢集差異即可(李諺泯，2003)。

(5)

而 AHC 與 K-means 兩者的最大差別在於 AHC 的品質要較 K-means 來的好。但在時間的複雜度上來看，卻是 K-means 優於 AHC。過去也有一些研究認為 AHC 的品質要比 K-means 來的好，如：在(Steinbach and Karypis and Kumar,2000)的研究中提到有一知名的研究指出 AHC 優於 K-means，但卻是用在非文件的資料上。不過在文件的領域裡，此篇 Douglass 等學者使用混合式的近似法同時包含了 K-means 跟 AHC，其選用 K-means 的原因是因為效率較好，選用 AHC 則是因為它的品質較好(Cutting and Karger and Pedersen and Tukey,1992)。

3. 研究方法與架構

本論文主要將 2005 年 6 月至 7 月的聯合新聞網內之新聞加以收錄為母體樣本，並依照統計學原理隨機抽樣取得適當的樣本數，再分別經過中文斷詞、計算詞頻、計算 IDF 等步驟之後，在權重值上，針對一些權重值過高或是太低而影響文件聚類精確度的關鍵詞，執行過濾的動作，再使用階層式聚類(AHC，Agglomerative hierarchical clustering)，將相似的兩個群集加以聚合，並根據群集品質的好壞，取出適當的 K 值，代表聚類的 K 個類別之初始值。套用到 K-means 演算法時，才不會因為預先設定的類別過多或是過少，導致某些文件被強制分入不適當的類別之中，而降低了文件聚類的精確度。

其中，本研究所使用的中文斷詞，採用的是中央研究院詞庫小組所維護的中文詞庫(CKIP 自動斷詞系統)，來進行中文新聞文件的斷詞前置處理。

3.1. 研究步驟

Step 1：蒐集背景資料：本研究自聯合新聞網於 2005 年 6 月至 2005 年 7 月之新聞為母體，有效樣本共 512 篇新聞。

Step 2：中文文件斷詞：採用中央研究院詞庫小組所維護的中文詞庫 (CKIP 自動斷詞統)，進行中文文件字句的斷詞處理。

Step 3：計算詞頻：透過 TF 程式分別計算出各個文件的詞頻(term frequency)。

Step 4：計算 IDF：透過 IDF 程式計算 IDF 並執行雜訊過濾的動作。

Step 5：將樣本以階層式聚類處理。

Step 6：取出 K 值：階層式聚類處理完成之後，根據群集品質的好壞，

取出適當的 K 值。

Step 7：將樣本以非階層式聚類及先前取出的 K 值對文件加以處理。

Step 8：實驗結果分析：針對實驗的結果進行分析。並提出結論。

(6)

3.2. 研究架構

圖一研究架構 3.2.1 中文斷詞系統

本研究所使用的中文斷詞系統，是由中央研究院中文詞庫小組所開發的 CKIP中文斷詞系統。此套系統採用的是最簡單的法則式斷詞方法，此法相較於統計式斷詞法則其正確性較高。雖然混合式的斷詞方式整合了法則式斷詞及統計式斷詞的優點，但也同時使其在比對的速度上更加緩慢。除此之外，其斷詞系統擁有較完整的詞庫，因此我們採用CKIP的中文斷詞系統，

對新聞內容進行斷詞處理。

3.2.2 TF與IDF的計算

在特徵詞彙上的選取我們利用 TF 與 IDF 來計算。詞頻 (TF，Term Frequency)，用來計算同一特徵詞在某篇文章中的出現次數。IDF 則是計算該特徵詞在所有文章中出現次數之倒數。其計算公式為：

)

) log( ( ) (

i

n w

w N IDF =

N

：文件集的總篇數、 )：文件中有出現第

i

個詞彙( )文件篇數(陳俊達，

2004)。

(

w

_i

n w

_i

3.2.3 相對雜訊過濾法

一個聚類結果的好壞，取決於關鍵詞是否取捨良好。而關鍵詞的權重太高，容易影響聚類時，某些不同類別的文章被聚在同一類別；而權重值過低，

(7)

也會使兩篇相同類型的文章，因為關鍵詞很多不相同，導致分入不一樣的類別內。所以我們針對這樣的關鍵詞進行相對雜訊過濾的方法，將剩下來良好的關鍵詞進行聚類，以提升文件聚類時的精確度與召回率。

3.2.4 階層式聚類

AHC 階層式聚類演算法中我們採用「單一鏈結」的方式，如樹狀結構的底部開始向上聚合，將相鄰近的特徵詞互相聚合成一個新的群聚。最後針對文件聚類的結果設定門檻值，來完成我們對於階層式聚類所需要的品質控制，讓文件的聚類可以有好的聚類依據，並獲取我們在使用非階層式聚類時所需的 K 值。

3.2.5 評估方式

F-Measure 是用來評估聚類後的品質好壞。因此，本研究採用 F-Measure 的評估方式來針對文件在聚類之後的品質好壞做評估。其中，F-Measure 包含了召回率(Recall)及精確度(Precision)。若以 TP:代表正確分到本類的文件數，FP:代表正確分到其他類別的文件數，FN:不正確分到本類的文件數。則召回率(Recall)與精確度(Precision)的公式如下:

召回率=TP FP TP

+ 、精確度=

FN TP

TP

+ ，若以 R：代表召回率、P：代表精確度，則 F-Measure 的公式為：F-Measure=

P R

2RP

+ ，當召回率與精確度的值愈高時，其 F-Measure 的值也愈高，這表示其聚類的品質也愈好。

4. 實驗及結論

4.1 實驗資料

本研究從聯合新聞網上搜集2005年6月至2005年7月之新聞作為母體，在 95%信賴度，抽取出超過有效樣本512篇，共1000篇文章當作測試資料。

4.2 實驗設計

由於本論文主要是想藉由 AHC 的方法求得 K 值以改進 K-means 在 K 值上該取多少的問題，並進一步的針對關鍵詞的權重值加以調整，以提高文件聚類的精確度與召回率。因此，我們將進行六組實驗並針對其結果加以比較。

實驗一、四：以 1000 篇文章及 100、200 個關鍵字為實驗資料，未調整權重值，使用 AHC 求出 K 值後，再以 K-means 進行文件聚類。

實驗二、五：以 1000 篇文章及 100、200 個關鍵字為實驗資料，只取權重值之平均的三分之一到三分之五的區間，使用 AHC 求出 K 值後，再以 K-means 進行文件聚類。

(8)

實驗三、六：以 1000 篇文章及 100、200 個關鍵字為實驗資料，只取權重值之平均的三分之二到三分之四的區間，使用 AHC 求出 K 值後，再以 K-means 進行文件聚類。

4.3 實驗結果

實驗一：以 AHC + K-means 進行聚類(取 100 個關鍵字，未調整權重值)

50.00%

55.00%

60.00%

65.00%

70.00%

75.00%

80.00%

85.00%

90.00%

1 2 3 4

精確度召回率 F-Value

圖 2 精確度、召回率、F-Value 折線圖(總精確度：64.47%、總召回率：

69.70%、總 F 值：0.6698551)

實驗二：以 AHC + K-means 進行聚類(取 100 個關鍵字，取權重值之平均的三分之一到三分之五的區間)

50.00%

55.00%

60.00%

65.00%

70.00%

75.00%

80.00%

85.00%

90.00%

1 2 3 4

精確度召回率 F-Value

75.80%、總 F 值：0.7596578)

(9)

實驗三：以 AHC + K-means 進行聚類(取 100 個關鍵字，取權重值之平均的三分之二到三分之四的區間)

50.00%

55.00%

60.00%

65.00%

70.00%

75.00%

80.00%

85.00%

90.00%

1 2 3 4

精確度召回率 F-Value

71.60%、總 F 值：0.7257367)

實驗四：以 AHC + K-means 進行聚類(取 200 個關鍵字，未調整權重值)

60.00%

65.00%

70.00%

75.00%

80.00%

85.00%

90.00%

95.00%

1 2 3 4

精確度召回率 F-Value

80.90%、總 F 值：0.8108661)

實驗五：以 AHC + K-means 進行聚類(取 200 個關鍵字，取權重值之平均的三分之一到三分之五的區間)

(10)

60.00%

65.00%

70.00%

75.00%

80.00%

85.00%

90.00%

95.00%

1 2 3 4

精確度召回率 F-Value

82.95%、總 F 值：0.8306625)

實驗六：以 AHC + K-means 進行聚類(取 200 個關鍵字，取權重值之平均的三分之二到三分之四的區間)

60.00%

65.00%

70.00%

75.00%

80.00%

85.00%

90.00%

95.00%

1 2 3 4

精確度召回率 F-Value

82.70%、總 F 值：0.8267912)

4.4 結論

本次實驗之後，我們可以觀察到實驗一、實驗二及實驗三中，透過相對雜訊過濾法之後再進行聚類，其聚類之後的精確度比未過濾雜訊提升許多，

證明若去除一些權重值過高或是太低的雜訊，將有助於聚類時品質的提升。

(11)

而實驗四、實驗五及實驗六中，我們取了比之前多一倍的關鍵詞來進行聚類。同樣也讓實驗五及實驗六先進行雜訊過濾，而這一組實驗之後，觀察聚類的情形，雖然提升的幅度並沒有很大，但仍然能夠說明過濾雜訊可以提升精確度與召回率。

我們也注意到實驗二、實驗三與實驗五、實驗六中，選擇不同大小的區間做為雜訊過濾的依據，對精確度的提升也產生了不同的影響。我們在取關鍵詞權重平均數的三分之一到三分之五的區間時(實驗二及實驗五)，發現其聚類的結果較取關鍵詞權重平均數的三分之二到三分之四的區間(實驗三及實驗六)，其精確度與召回率有比較高的情形。針對此一現象，我們認為是由於特徵詞彙權重值過濾不當所導致，特徵詞彙過濾的太多，不容易表現出一篇文章的特性之所在，因此容易使的類別之間的區隔產生模糊不清。

4.5 未來方向

在此次研究中，我們在雜訊的處理上是針對各篇文章中的關鍵詞。為了能夠使文件聚類之精確度與召回率可同時提高，讓F值可以有良好的水平，

未來若能將在雜訊的處理上針對文章做過濾並依據其平均值及標準差刪除離群值的文章，進而提昇聚類時的品質、精確度與召回率。

4.6 致謝

致謝中央研究院 CKIP 中文詞庫小組所提供的 CKIP 中文斷詞系統。

5. 參考文獻

1. 李諺泯，修改 K-means 演算法應用在距離矩陣為基礎的分類，中原大學資訊工程學系碩士學位論文，2003。

2. 郭家良，新聞事件群聚及摘要檢索研究，雲林科技大學資訊管理系碩士論文，2003。

3. 洪鵬翔，中文新聞自動群聚，國立清華大學資訊工程學系碩士論文，

2000。

4. 江季洲，以聚類為基礎的資訊呈現，國立台灣科技大學資訊管理學系碩士學位論文，2002。

5. 謝儒誠，資料探勘技術運用於文件自動聚類之研究，中央警察大學資訊管理研究所碩士論文，2002。

6. 陳俊達，中文文件分類器中特徵詞彙之研究，真理大學資訊管理學系學士論文，2004。

7. 曾新穆、李建億，資料探勘，2003，東華書局，台北。

8. 楊綠淵，以文件相關性為基礎之企業知識聚類與管理模式，國立清華大

(12)

學工業工程與工程管理學系，2004。

9. Bekkerman, R. and El-Yaniv, R. and Winter, Y. and Tishby, N., "On Feature Distributional Clustering for Text Categorization," Proceedings of the 24th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 2001, pp.146-153.

10. Cutting, D. R. and Karger, D. R. and Pedersen, J. O. and Tukey, J. W., "

Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections, " Proceedings of the 15th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. 1992.

11. Jain, A. K. and Dubes, R. C., "Algorithms for Clustering Data," Prentice Hall, USA, 1988.

12. Joachims, T., "Text Categorization with Support Vector Machines: Learning with Many Relevant Features," Proceedings of the European Conference on Machine Learning, Berlin, 1998, pp.137-142.

13. Steinbach, M. and Karypis, G. and Kumar, V.,"A Comparison of Document Clustering Techniques," In KDD Workshop on Text Mining, 2000.

相對雜訊過濾法-以混合式技術改善文件聚類精 確度