第四章 混合性叢集演算法的分析
4.2 可能重複偵測的實驗
再來要探討的即是PCM所擁有的缺點,PCM演算法容易受叢集初始位置所影響,
造成偵測的重複或者是錯誤。因此本次實驗的目的,即是測量混合性叢集演算法對此問 題的改善效率。圖4-4(a)為三個大小不同的圓形資料叢集,實驗中套入樣板理論的FCM、
PCM、PFCM和IPCM演算法各執行100次,而演算法中的參數,a和b皆為0.5,m值設為 2,n值設為1.5,rη值取0.9,初始給予三個叢集。而本次實驗的叢集初始位置,將限制 放置於大圓處,如圖4-4(b),而叢集的初始大小仍為隨機,目的在於希望使得每個叢集 都先注意到大圓資料集,增加重複偵測的可能性。表4-2為此次實驗的實驗數據,數據 所代表的涵義分別為100次實驗中平均偵測到的大中小圓數量,而總和值即為每次執行 平均所偵測到的資料叢集個數。
(a) (b)
圖4-4:重複偵測的實驗 (a)原始影像 (b)初始叢集集中在大圓處
表4-2:重複偵測實驗數據
FCM PCM PFCM IPCM
大圓 0.98 1 0.99 0.98
中圓 0.6 0.06 0.32 0.48
小圓 0.33 0.01 0.12 0.29
總和 1.91 1.07 1.43 1.75
由數據中我們可以得知,因為初始化的關係,大圓幾乎每次都會被偵測到,所以有 無偵測到其他小圓,即為比較的依據。我們以圖4-5來做輔助說明,圖4-5(a)為一叢集初 始圖,四種方法都以此初始圖來做執行,分別顯示執行的途中和結果的情形。
FCM的偵測效率為四種方法中最好的,原因在於,FCM的membership總和一定會 等於1 (由(2)),因此如果某一叢集搜尋到正確的位置時,則該叢集對於所涵蓋資料點的 membership值將會趨近於1,而相對的其他叢集對於這些資料點的membership值將會很 小(因為相加要為1)。因此在實驗中,如果某一叢集偵測到了大圓,則其他的叢集會因 為membership值太小而不會再去注意大圓而會往小圓方向移動並偵測,如圖4-5(b)(c)。
這樣既不會偵測到重複的群而且叢集的中心位置也不容易受到初始位置所影響。
而PCM的效率就很差,幾乎每次都只能偵測到一個資料叢集(在這裡因為實驗條件 的設立,幾乎都是只偵測到大圓),如圖4-5(d)(e),原因在於membership總和不一定會等 於1,叢集與叢集間缺少了溝通性,無法知道這個資料是否已經被其他的叢集所找到,
因此可能會產生重疊偵測的事件發生。
PFCM由於混合了FCM和PCM兩種演算法特性,當PCM要產生重複的偵測時,FCM 能夠有效的將兩者分開。但實驗數據中,PFCM的偵測效率並不像FCM一樣好,原因在 於,雖然FCM能夠有效的將重複的叢集分開,但不代表他捨棄了typicality值,PCM仍有 二分之一的影響力,因此就算叢集有機會去搜尋其他圓,仍會因為大圓typicality值過 高,叢集沒辦法完全脫離大圓,使得小圓的偵測不精確,如圖4-5(f)(g)。
對於IPCM來說,它的membership求法是將個別求出FCM和PCM的membership和 typicality值做相乘,不同於PFCM是各取一個比率相加,再加上membership和typicality 的值都是介於0到1之間,這樣會使得只要其中一種演算法判斷為不是(membership值很 小),則IPCM演算法就會將其忽略,因為相乘後的membership值會變的更小。因此在此 實驗中,當某一叢集找到正確的位置時,對於FCM來說,其他兩群對於這些被找到的 資料點的membership值就會很小,就算PCM計算這些typicality值很大,兩者相乘仍會產 生很小的數,使得重複偵測的可能性大大降低,可以順利偵測到其他小圓,如圖 4-5(h)(i),這也是為甚麼數據中IPCM的偵測效率比PFCM來的高。
(a)
(b) (c)
(d) (e)
(f) (g)
(h) (i)
圖4-5:重複偵測實驗示意圖 (a)初始叢集位置 (b)(c)為FCM執行途中和結果 (d)(e)為 PCM執行途中和結果 (f)(g)為PFCM執行途中和結果 (h)(i)為IPCM執行途中和結果