第三章 使用強韌叢集演算法的叢集整合技術
3.3 從co-association矩陣取得最終分群
上一章節我們介紹了如何把各個叢集演算法的歸屬程度矩陣轉換成co-association 矩陣再做整合,本章節將介紹如何從co-association矩陣中得到最終的分群。根據(19)所 算 出 每 個 分 群 結 果 的 U 的 co-association矩 陣 , 再 由 (17) 將 結 果 做 整 合 得 到 最 終 的 co-association矩陣,其co-association矩陣是一個對稱矩陣,代表的是資料點與資料點之 間的關係,越高表示兩點皆在同一叢集的程度就越高,從(19)可知,Sij(q) 大表示資料點
xi、xj 的歸屬程度(membership)相似,Sij(q) 小表示xi、xj的歸屬程度不相似。
在我們對最終分群個數未知的情況下,將使用階層聚合(hierarchical clustering)的 單一連結(single-link; SL)或平均連結(average-link; AL)來做分群,由於階層聚合是 根據co-association矩陣去做分群,故在做分群之前我們必須先把雜訊去除掉,我們可以 從圖4(b)中看到,雜訊點與其他點的關係值都非常的小,若是資料點是在真正叢集裡,
那它一定會跟某些點會有很高的關聯性,像圖4(b)較黑的部份。我們判斷資料點xi是否 是雜訊的方法為:
(a) (b) (c) (d) 圖 5:表 1 範例資料經過 PFCM(a=b=K=1, m=n=2, 叢集數=2)做 10 次取平均的
co-association 矩陣,(a)UPFCM式子(19),(b)TPFCM式子(21),(c)式子(22),
(d)式子(23)
0
ωi是個0或1的數,用來表示資料點xi是否是雜訊點,max(xi)指的是co-association矩陣中
資料點xi與其他資料點最大的關係值,min(xi)指的是co-association矩陣中與xi與其他資 料點最小的關係值,threshold則是一個臨界值。非雜訊的資料點xi必定會跟某些資料點 的關聯性會特別高故max(xi)大且對其他叢集的歸屬程度很小,所以min(xi)會很小,所以
我們將小於 threshold 的資料點從co-association矩陣中去除掉,剩下的再做階層聚 )會小,我們定一個臨界值來分出雜 訊或是叢集資料點,因此我們可以從這些資訊去辨別出是否是雜訊。
舉例而言,圖6(a)是四個200個點的高斯分佈,另外加入200個雜訊點。圖6(b)是使 用NC演算法(k=15, λ=0.1)求得的歸屬程度經過(19)計算出個別的co-association矩陣,
做10次分群取平均後得到平均後的co-association矩陣。圖6(d)是根據圖6(b) co-association 矩陣求得max(xi)-min(xi)後的結果,其中801~1000為雜訊資料點,很明顯看出雜訊點比 真正資料叢集的值來的低,故我們可以訂定一個臨界值(threshold)將雜訊與真正資料 給區隔開來。另外,圖6(c)是使用FCM計算max(xi)-min(xi)後的結果,圖中的雜訊點的 值和真正資料點的值差距並不大,所以不容易把雜訊給區隔開來。
合分群,要找到最終分群的方法是根據階層聚合分群的lifetime[7]。定義k個叢集的 lifetime指的是階層圖中選擇到k個叢集的範圍,如圖7(b)的階層圖,2個叢集的lifetime是 l2,而3個叢集的lifetime的l3,4個叢集的lifetime是l4,即是每個階層的生命期(lifetime)。
就 l4 來 說 , 最 大 值 是 0.8657 , 最 小 值 是 0.7927 , lifetime 則 是 最 大 減 最 小 l4=0.8657-0.7927=0.0838。圖7(b)中,l2=0.071、l3=0.0393、l4=0.0838,其中l4最大,這 也 表 示階 層聚合 在 4個叢集 的時候, 穩定 度最高,所以圖7(b) 我們 的最大生命期
(maximum-lifetime criterion)則是l4=0.0838,4個叢集數,根據最大生命期的叢集數當 作最終的分群數目,圖7(a)為最終的分群結果。
圖 6:(a)資料點總共 1000 個,4 個 n=200 的 gaussian 外加 200 個雜訊,(b)經過 NC 做 10 次取 平均 後 的 co-association 矩 陣 。 (c) 和 (d) 是經 過 FCM 和 NC 後 的 co-association 矩陣,再計算 max(xi)-min(xi)後的結果,其中橫座標是資料點。
(a)
(b)
雜訊 (c)FCM
(d)NC
threshold (b)NC: co-association
(a)
圖 7:將圖 6 的 co-association 矩陣去除雜訊後剩下的資料做 single-link 後的結 果,(a)即是最大生命期=4 的最終分群結果,(b)是 single-link 產生的樹狀 圖,lifetime l2、l3、l4中,其中 l4的 lifetime 最長。
(b) l2
l3
l4