• 沒有找到結果。

第四章 分群模式構建

4.2 分群方式介紹

本小節主要在於介紹統計集群分析的方法與基因演算法的分群方式,並對於這兩種 分群的方式做一比較。研究中以較普遍的集群分析來凸顯基因演算法操作上的特點,並 且針對結果加以討論。

本小節內容主要分為兩個部份做探討。第一部份介紹統計學之統計學之集群分析

〈Cluster Analysis〉方法,第二部份為介紹利用基因演算法的分群方式。

4.2.1 統計集群分析理論

集群分析是一種用來將屬量的觀測點分群或分類的分析方式。在經過集群分析後,

資料會被分為若干群,而在同一群中,針對某些特性而言,每個觀測點會具有一致性;

而不同群之間,針對某些特性而言,則會有明顯的不同。集群分析的應用相當廣泛,基 本上,利用集群分析可以在大量資料中找出相類似屬性的資料,也可以清楚分辨不同集 群之間的差異為何,為一有效的分類方法。

在進行集群分析時通常會按照下列步驟進行:

(1) 選擇衡量相似性之方式。

(2) 選擇分群的原則。

(3) 選擇分群的方法。

(4) 決定分群的組數。

(5) 解釋分群的結果。

以下將逐項介紹各步驟的操作內容:

1. 選擇衡量相似性之方式

衡量相似性的方式大致分為三類:距離、關聯係數及相關係數。對於每一個觀測點 而言,使用距離來衡量相似性為最普遍的方式,本研究也以距離為主要衡量依據,在此 僅介紹距離相似性。

利用距離來衡量相似性意指依據任兩個觀測點或是兩群體間,在座標空間中的距離 來 判 斷 哪 些 觀 測 點 應 該 歸 屬 同 一 類 。 最 常 用 的 方 式 為 歐 幾 里 得 距 離 (Euclidean distance)。兩個點 i 與 j 在 K 維空間中的歐幾里得距離定義為:

( )

0.5

K 1 k

2 jk ik

ij

X X

D ⎟

⎜ ⎞

⎛ −

= ∑

= ...(4-1)

式(4-1)中,Dij 為 i 與 j 之間的距離,Xik及Xjk分別為i 與 j 在 k 變數上的數值。

2. 選擇分群的原則與方法

在面臨到如何衡量『群與觀測點』或『群與群』之間相似性的問題。舉例而言,對 一組觀測點而言,我們先根據分群的變數計算兩兩觀測點的距離,然後將距離近的歸為 一類;但在此之後,我們仍需要額外分在同一群之觀側值,與其他未分群的每一觀測點 的距離。

通常處理這問題的方法,主要分為層級(hierarchical)與非層級(non- hierarchical)

兩種分群原則,以及將兩種原則合併使用的兩階段法。本研究欲採用層級分群原則來進 行集群分析,故僅介紹層級原則。所謂層級分群指的是在將觀測點分群時,群數不是從 最多逐步減少,就是從最少逐步增加。當然,使用不同的分群原則將會對應到不同的集 群方法。

3. 決定分群的組數

採用集群方法分群時,最重要的問題就是決定分群群數。通常電腦軟體如 SPSS 都 會產生樹狀圖,呈現分群狀況,如圖4-1 所示:

圖4-1 分群樹狀示意圖

圖4-1 中,虛線切過的部份,代表這三個觀測點被分為兩組,其中 1 與 2 一組,而 3 自己一組。若距離近,代表組內各觀測點距離近,但觀測點少;距離遠,代表組內各 觀測點距離遠,但包含之觀測點多。

4.2.2 基因演算法分群方法理論

由基因演算法發展的分群方法相當多,對於本研究而言,主要是利用逐步分群方 法,此模式為一次針對一集合進行最佳化之二元分組,直到所有的集合都無法再進行二 元分組則停止分組,並已提高目標值為前提。在運作上,先將所有觀測點當做同一組,

然後依目標值最大,進行二元分組。每進行一個階段之後,在對每一組再進行二元分組,

同樣以目標值最大為目標,待無法再進一步進行二元分組以改善目標值時,亦即已探測 到底(fathomed),就完成分組工作。運作流程可以圖 4-2 表示。

圖4-2 逐步分群示意圖

GAs

階段0

階段1

階段2

階段k

全部觀測值集合

無法再分組集合 仍可再分組集合

無法再分組集合 仍可再分組集合

無法再分組集合 無法再分組集合

距離

1 2 3 觀測點