第四章 分群模式構建
4.2 分群方式介紹
本小節主要在於介紹統計集群分析的方法與基因演算法的分群方式,並對於這兩種 分群的方式做一比較。研究中以較普遍的集群分析來凸顯基因演算法操作上的特點,並 且針對結果加以討論。
本小節內容主要分為兩個部份做探討。第一部份介紹統計學之統計學之集群分析
〈Cluster Analysis〉方法,第二部份為介紹利用基因演算法的分群方式。
4.2.1 統計集群分析理論
集群分析是一種用來將屬量的觀測點分群或分類的分析方式。在經過集群分析後,
資料會被分為若干群,而在同一群中,針對某些特性而言,每個觀測點會具有一致性;
而不同群之間,針對某些特性而言,則會有明顯的不同。集群分析的應用相當廣泛,基 本上,利用集群分析可以在大量資料中找出相類似屬性的資料,也可以清楚分辨不同集 群之間的差異為何,為一有效的分類方法。
在進行集群分析時通常會按照下列步驟進行:
(1) 選擇衡量相似性之方式。
(2) 選擇分群的原則。
(3) 選擇分群的方法。
(4) 決定分群的組數。
(5) 解釋分群的結果。
以下將逐項介紹各步驟的操作內容:
1. 選擇衡量相似性之方式
衡量相似性的方式大致分為三類:距離、關聯係數及相關係數。對於每一個觀測點 而言,使用距離來衡量相似性為最普遍的方式,本研究也以距離為主要衡量依據,在此 僅介紹距離相似性。
利用距離來衡量相似性意指依據任兩個觀測點或是兩群體間,在座標空間中的距離 來 判 斷 哪 些 觀 測 點 應 該 歸 屬 同 一 類 。 最 常 用 的 方 式 為 歐 幾 里 得 距 離 (Euclidean distance)。兩個點 i 與 j 在 K 維空間中的歐幾里得距離定義為:
( )
0.5K 1 k
2 jk ik
ij
X X
D ⎟
⎠
⎜ ⎞
⎝
⎛ −
= ∑
= ...(4-1)
式(4-1)中,Dij 為 i 與 j 之間的距離,Xik及Xjk分別為i 與 j 在 k 變數上的數值。
2. 選擇分群的原則與方法
在面臨到如何衡量『群與觀測點』或『群與群』之間相似性的問題。舉例而言,對 一組觀測點而言,我們先根據分群的變數計算兩兩觀測點的距離,然後將距離近的歸為 一類;但在此之後,我們仍需要額外分在同一群之觀側值,與其他未分群的每一觀測點 的距離。
通常處理這問題的方法,主要分為層級(hierarchical)與非層級(non- hierarchical)
兩種分群原則,以及將兩種原則合併使用的兩階段法。本研究欲採用層級分群原則來進 行集群分析,故僅介紹層級原則。所謂層級分群指的是在將觀測點分群時,群數不是從 最多逐步減少,就是從最少逐步增加。當然,使用不同的分群原則將會對應到不同的集 群方法。
3. 決定分群的組數
採用集群方法分群時,最重要的問題就是決定分群群數。通常電腦軟體如 SPSS 都 會產生樹狀圖,呈現分群狀況,如圖4-1 所示:
圖4-1 分群樹狀示意圖
圖4-1 中,虛線切過的部份,代表這三個觀測點被分為兩組,其中 1 與 2 一組,而 3 自己一組。若距離近,代表組內各觀測點距離近,但觀測點少;距離遠,代表組內各 觀測點距離遠,但包含之觀測點多。
4.2.2 基因演算法分群方法理論
由基因演算法發展的分群方法相當多,對於本研究而言,主要是利用逐步分群方 法,此模式為一次針對一集合進行最佳化之二元分組,直到所有的集合都無法再進行二 元分組則停止分組,並已提高目標值為前提。在運作上,先將所有觀測點當做同一組,
然後依目標值最大,進行二元分組。每進行一個階段之後,在對每一組再進行二元分組,
同樣以目標值最大為目標,待無法再進一步進行二元分組以改善目標值時,亦即已探測 到底(fathomed),就完成分組工作。運作流程可以圖 4-2 表示。
圖4-2 逐步分群示意圖
GAs
階段0
階段1
階段2
階段k
全部觀測值集合
無法再分組集合 仍可再分組集合
無法再分組集合 仍可再分組集合
無法再分組集合 無法再分組集合
距離
1 2 3 觀測點