GA-FCM 模組

我們結合基因演算法 (Genet ic Algor it hm) 與模糊分群演算法 (Fuz z y C- mea ns a lgo r it hm) 建構 G A- FC M 模型，將第一階段未分到既有類別的文件進行分群，並期望能完整找出非既有類別文件的群聚架構，以下將分別針對 GA- FCM 演算法之執行細節做介紹。

(一 )特徵詞擷取

我們將未分類到既有類別之文件重新建立基底向量，若出現的次數大於 2 次以上，則被列為特徵詞，反之則將該特徵詞刪除，並重新計算文件之 T FIDF，以此建構文件的向量。

(二 )模糊分群與參數設定

由於本研究之目標是期望在分群過程中，能夠將無法分類至既有類別文件的群聚架構完整呈現，但模糊分群演算法本身無法自動找出最佳分群數，所以在進行模糊分群之前必須設定欲執行之最大群數

在設定完畢後，便可依照染色體解碼後所產生的模糊程度值u 對_cn 文件進行模糊分群，其中為 N文件數，C為群聚數目，u 代表第_cn n 篇 文件屬於第 c 群的程度。並於模糊分群處理完畢後評估該次分群的成 效，並進行適應函數的計算， FCM 之處理演算法如下所示：

1) Set the initial fuzzy pseudopartition at t0 satisfying

C ( t ) cn c







 ^, ⁿ^^{1 2}^{, ,...,N}^,

N ( t ) cn n

 N







 ^, ^c^^{1 2}^{, ,...,C}

2) In these two equations, _cn^{( t )} denotes the membership grade of node P belonging to cluster c at time t. _n

3) Set the initial performance index at t 0 as J_m⁽^t⁾ 0.

4) Calculate the C cluster centers v₁^{( t )},...,v^{( t )}_C for the partition by

1 N

( t ) m

cn n

( t ) n

c N

( t ) m cn n

( ) P

( )











v , c1,...,C,.

5) Update the partition for each node P , _n

1 1

2 1

( t ) m

C n k

( t )

kn c ( t )

n c

P P







 

 

  

 

  

 

    

 

 



 v

6) Compute the performance index

N C 2

(三 )GA-FCM 適應函數設計

然而 FCM 演算法的成效雖可藉由尋找中心點來避免局部最佳解來提升，但是需在分群前定義所需分群數，無法自動產生最佳群數，故本研究利用 Xie & Beni(1991) 提出的緊密度分離度函數 S(Co mpact ne ss a nd Separ at io n Va lid it y Funct io na l) 來找出最佳群數。假設屬於某群聚之文件和該群聚之中心點的距離愈大，則代表該群聚中心和文件的分散程度越高；若各個群聚和彼此中心點之距離如果愈大，則代表群和群之間分離度愈高，所以若是文件和該群聚中心距離愈短，群聚和群聚中心的距離愈大，則 S 值會愈小代表分群結果愈好，其定義如下 :

' '

|| ||

min || ||

C N

2 2

cn c n

c 1 n 1

c c

c c

u V X

S n V V

 





 



其中，

C

：代表群聚數目

N：代表文件數目

ucn：代表文件n屬於群聚 c 的程度

Vc：代表第 c 群的中心點

Vc：代表第c'群的中心點,cc' Xn：代表第 n 個文件

雖然利用緊密度分離度函數 S(Co mpact ness and Separat io n Va lid it y Fu nct io na l) 可以有效的找出最佳群數，但是該指標只考慮到中心點和資料的點距離，若是在類別間含有離群值的情況下容易產生較大的偏差進而影響到最佳群數判斷，故在適應函數設計方面我們結合了 Dis jo int 函數 ( Lin & Hsueh, 2006) 和緊密度分離度函數 S(Co mpact ne ss a nd Separ at io n Va lid it y Fun ct io na l) 做為評估該次分群結果的標準。

D is jo int 考量了群內點和點之間相似度的特色，可降低離群值造成的影響，如果文件在一個群聚內和同屬於該群聚的文件非常相似，

值將會相對的變小，因此利用 Dis jo int 測試可以瞭解該次分群的結果中，是否各個群聚的文件彼此之間都含有很高的相似度，其公式如下 :

' '

( , ) ( ) /

N n 1

n n

n 1 n 1 A

d o o Disjoint

N N 1 2



 

 



其中，

n ：代表在A群聚內的文件 n'：代表在A群聚內的文件

N：代表A群聚內所有的文件

( ,_n _n')

d o o ：代表文件 n 和文件n'間的距離(不相似度)

由於本研究同時考量 Dis jo int 函數與緊密度分離度函數 S(Co mpact ne ss a nd Separ at io n Va lid it y Fun ct io na l) ，而本研究之適應函值為愈高愈好，故適應函數的公式如下 :

min max

max min_ max max

1 1

ij j ij ij

j j ij ij

AvgDisjoint AvgDisjoint S S

fitness

AvgDisjoint AvgDisjoint S S

 

   

   

   

- _ - _

_ - _ - _

c c 1

Disjoint

AvgDisjoint σ

  



其中，

i：染色體編號

j：基因之世代

C：群聚數目

σ： AvgDisjoint_ij之標準差

min_AvgDisjoint_j：在j代最小的AvgDisjoint值

max_AvgDisjoint_j：在j代最大的AvgDisjoint值

min_S_j：在_j代最小的S值

max_S_j：在j代最大的S值

FC M 容易受初始中心影響，進而使得分群結果收斂在局部最佳解，導致收斂結果不一，因此在第二階段中，本研究期望藉由基因演算法來找出最佳分群中心點，以避免 FCM 陷入局部最佳解，並找出不屬於既有類別的文件架構，由於考慮到文件的向量過於龐大，若採用二元編碼對候選解進行編碼，所形成的組合會過於複雜使得演算法較不容易找到最佳解，為了避免編碼的複雜性和提高解碼和執行的效率，因此本研究在此階段使用實數編碼的方式來提升收斂效率，編碼設計如圖 14 所示， n 代表無法分類到既有類別的文件數， m 代表總群數，

i n

代表第 n 篇文件屬於第 i 群之程度。

i ~ i

1 n

u u

g g ~

i 1 i 1

1 n

u u

g g

  ~

m m

1 n

u u

g g

圖 14、GA-FCM 之染色體設計

2. 選擇與複製：與第一階段基因演算法之設定相同。

3. 交配：由於在第二階段中，基因演算法是以實數編碼。故本研究在此階段採用 BLX’α (Eshelman, 1989)和雙點交配方法進行交配，其交配率設定為 1。

4. 突變：因為第二階段之基因長度過於龐大。故本研究將突變率設定為 0.001，所以就平均而言，若無法分類至既有類別的文件有 300 篇，並期望分出 2 個群聚時，此時每個染色體將有 0.6(0.001*600)個基因進行突變，每一代會有 12(0.6*20)個基因進行突變。

5. 終止條件：與第一階段基因演算法之設定相同。

6. 群聚執行迴圈：因本研究必須藉由設定欲執行之群聚數目來找出文件分群的最佳群聚數，所以若基因演算法已到達終止條件時，則會進行判斷目前所執行的群數是否已經達到最大，若是

程。

在文檔中中華大學 (頁 41-46)

(一 )特 徵 詞 擷 取

(二 )模 糊 分 群 與 參 數 設 定











(三 )GA-FCM 適 應 函 數 設 計