第三章 使用強韌叢集演算法的叢集整合技術
3.2 使用強韌叢集法來獲得co-association 矩陣
我們將強韌叢集演算法所得到的結果計算出co-association矩陣,假設資料集合 }
, , ,
{x1 x2,x3 xn
X = 表示n個資料點。一個X的分群可由k個子集合C1,C2,,Ck來表示。
我們用P=
{
C1,C2,,Ck}
代表一個分群,執行多次叢集演算法可以得到多個不同的P,總共有m個分群將被整合:P1,P2,,Pm。每個分群當中的叢集個數都可以是不同的,我 們以kq來代表分群Pq(1≤q≤m)當中的叢集個數。
為了讓m個分群結果有一致的表示方式,先針對每個個別叢集Pq計算個別n×n的 co-association矩陣,以S(q)來表示。sij(q)代表S(q)的第( i, j )個元素,式子如下:
=
= otherwise c
S 代表m個個別分群的co-association矩陣加總的平均。 *
在 此 我 們 舉 個 例 子 。 假 設 有 八 個 資 料 點 , 執 行 三 次 叢 集 演 算 法 後 分 群 為
P = ,其co-association矩陣分別為圖3(a)、圖3 (b)、圖3 (c),
圖3(d)表示這三個叢集及整合後的co-association矩陣。
個別co-association矩陣內只有0或1表示,如此不夠有彈性,我們若要針對模糊式的 分群計算co-association矩陣,我們的分群P將以n× 的矩陣U來代表,而U代表的是n個k 資料點對於 k 個分群的歸屬程度(membership),以FCM來說,它的U滿足以下式子:
,由原本只有0或1的表示方式改成0~1的表示方式,如此可以使資料更有彈性,提高正 確性。
對於強韌叢集演算法,由於資料點對於叢集的歸屬程度可以很小,它的U滿足以下 式子:
n i
u
k
j
ij 1, 1,2, ,
0
1
=
∀
≤
<
∑
=
(20)
表示說,若是雜訊點,其對每個叢集的歸屬值可以很小,所以在使用(19)計算個別叢集 的co-association矩陣中可能會有某個資料點與其他所有資料點的值都會非常小,我們可 以依這些資訊分辨出雜訊。
圖4中是將表1的範例資料經過FCM(a)和NC(b)計算出歸屬程度U後再依(19) 做10 次取平均後所算出的co-association矩陣,圖以灰階顯示表示0~1,矩陣內的值表示兩點 在同一個叢集關係程度,越高表示兩點皆在同一叢集的程度就越高,圖為了明顯表示故 以1- co-association表示。co-association是一個對稱矩陣,而最右邊兩排是雜訊資料點 x11和x12,從(a)和(b)圖比較可以明顯看出兩個分群,而且雜訊點NC顏色比FCM來的淺,
就點x12來說,x12對於其它點的關係都很低,表示資料點x12不屬於任何叢集,所以只要 是雜訊,在co-association矩陣裡,它對所有點的關係值都很小,我們可以根據這個資訊 來做雜訊的辨別,藉此將雜訊過濾掉。
另外,PFCM演算法會有兩個歸屬程度矩陣U和T,我們用T的歸屬程度來計算 co-association矩陣,S(q)
n
求得的co-association矩陣顯示於圖5(c)。 這兩個分群變得比較清晰。為了增加對比,所 以再做開根號求得 S(q)
由於FCM、NC、PFCM分群結果會依初始的叢集中心點的不同而使得分群結果不 同,所以我們針對各種演算法產生多個分群結果再將每個個別的co-association矩陣根據
(a) (b)
圖 4:表 1 範例資料的歸屬程度 U 經過 (19) 做 10 次取平均的 co-association 矩陣,(a)FCM(k=m=2),(b)NC(λ=0.8, k=m=2)
(17)將資料做一個整合。