第三章 叢集整合技術偵測主曲線
3.3 使用叢集整合技術得到第三階段的分群
在 3.2 節中所得到的是一個第二階段的分群,並由 3.2 節可以得知對於含有交叉性 質物件的資料集合,我們並無法從第二階段的分群得到正確的分群結果。所以在此章節 中我們將利用叢集整合技術來獲得正確的分群結果,也就是我們所提出的第三階段的分 群。
叢集整合演算法包含了三個主要的部份: 產生分群的方法、將數個個別的分群結果 使用一個資料結構來表示、利用此一整合的資料結構來得到最終的分群。在此我們產生 分群的方法為先由上一小節所得到輸入資料集合的第二階段分群,但為了確保在叢集整 合的過程中能夠有最佳的整合效果,所以在使用第二階段分群來當叢集整合中產生分群 的方法之前,我們將對第二階段分群做連結最佳化的動作。
這些第二階段分群中的每一個單一分群可能是數個從 GK 叢集化演算法所得到的 代表資料集合的雛型所組成。我們將針對每一個單一分群做連結最佳化的動作,主要有 兩個步驟: 一、去除掉大於兩個連結的雛型其多餘的連結,直到每一個雛型都只保有最 多兩個連結。二、對於由步驟一所得只保有兩個連結的雛型的此兩連結作判斷,當如果 此兩連結其夾角小於所設定的門檻值的話,則去除掉這兩連結讓此一雛型保持沒有連結
的狀態。當去除掉某一個連結時則這個單一分群將被分裂為二。
圖 10 是一個去除過程的例子,首先從圖 10(a)中每一個同一顏色的連線包含了數個 個數不一的雛型。一個同一顏色的連結中所包含的所有雛型,我們將它視為一個分群,
即是我們所稱的單一分群。而在(a)中所包含的雛型最多的黑色連結線段的單一分群,
經過連結最佳化的動作在(b)中已經被分為數個單一分群。而圖 10(a)是第二階段分群的 結果以連結的方式來表示。
(a)
(b)
圖 10: 第二階段分群其連結最佳化。(a)第二階段分群結果、(b)第二階段分群其連結最 佳化。
由上述的兩個動作後所得到的連結最佳化第二階段分群,被當作為叢集整合演算法 的產生分群的方法,並且在這裡我們所說的一個分群指的是連結最佳化第二階段分群中 的一個單一分群。
下圖 11 為數次連結最佳化第二階段分群的結果,我們將以單一分群為單位來整合 數次分群的結果。
(a) (b)
(c) (d)
圖 11: 數次連結最佳化第二階段分群的結果。(a)雛型個數為 50 個的分群狀態、(b) 雛 型個數為 25 個的分群狀態、(c) 雛型個數為 75 個的分群狀態、(d) 雛型個數為 40 個的 分群狀態。
而在叢集整合演算法的步驟二: 將數個個別的分群結果使用一個資料結構來表 示,所提出的方法如下: 由於每一個單一分群是由數個從 GK 叢集化演算法所得到的代
表資料集合的雛型所組成,我們將某一個資料點與單一分群之間的模糊相關係數定義為
(a) (b)
圖 12: 叢集整合演算法所得到的最終分群。(a)整合 10 次個別分群後所得到的第三階段 分群結果,(b)整合 5 次個別分群後所得到的第三階段分群結果。(a)、(b)中相同顏色表 示為同一分群。