分群方式介紹

第四章分群模式構建

4.2 分群方式介紹

本小節主要在於介紹統計集群分析的方法與基因演算法的分群方式，並對於這兩種分群的方式做一比較。研究中以較普遍的集群分析來凸顯基因演算法操作上的特點，並且針對結果加以討論。

本小節內容主要分為兩個部份做探討。第一部份介紹統計學之統計學之集群分析

〈Cluster Analysis〉方法，第二部份為介紹利用基因演算法的分群方式。

4.2.1 統計集群分析理論

集群分析是一種用來將屬量的觀測點分群或分類的分析方式。在經過集群分析後，

資料會被分為若干群，而在同一群中，針對某些特性而言，每個觀測點會具有一致性；

而不同群之間，針對某些特性而言，則會有明顯的不同。集群分析的應用相當廣泛，基本上，利用集群分析可以在大量資料中找出相類似屬性的資料，也可以清楚分辨不同集群之間的差異為何，為一有效的分類方法。

在進行集群分析時通常會按照下列步驟進行：

(1) 選擇衡量相似性之方式。

(2) 選擇分群的原則。

(3) 選擇分群的方法。

(4) 決定分群的組數。

(5) 解釋分群的結果。

以下將逐項介紹各步驟的操作內容：

1. 選擇衡量相似性之方式

衡量相似性的方式大致分為三類：距離、關聯係數及相關係數。對於每一個觀測點而言，使用距離來衡量相似性為最普遍的方式，本研究也以距離為主要衡量依據，在此僅介紹距離相似性。

利用距離來衡量相似性意指依據任兩個觀測點或是兩群體間，在座標空間中的距離來判斷哪些觀測點應該歸屬同一類。最常用的方式為歐幾里得距離（Euclidean distance）。兩個點 i 與 j 在 K 維空間中的歐幾里得距離定義為：

( )

^0.5

K 1 k

2 jk ik

X X

D ⎟

⎠

⎜ ⎞

⎝

⎛ −

= ∑

= ...（4-1）

式（4-1）中，Dij 為 i 與 j 之間的距離，Xik及Xjk分別為i 與 j 在 k 變數上的數值。

2. 選擇分群的原則與方法

在面臨到如何衡量『群與觀測點』或『群與群』之間相似性的問題。舉例而言，對一組觀測點而言，我們先根據分群的變數計算兩兩觀測點的距離，然後將距離近的歸為一類；但在此之後，我們仍需要額外分在同一群之觀側值，與其他未分群的每一觀測點的距離。

通常處理這問題的方法，主要分為層級（hierarchical）與非層級（non- hierarchical）

兩種分群原則，以及將兩種原則合併使用的兩階段法。本研究欲採用層級分群原則來進行集群分析，故僅介紹層級原則。所謂層級分群指的是在將觀測點分群時，群數不是從最多逐步減少，就是從最少逐步增加。當然，使用不同的分群原則將會對應到不同的集群方法。

3. 決定分群的組數

採用集群方法分群時，最重要的問題就是決定分群群數。通常電腦軟體如 SPSS 都會產生樹狀圖，呈現分群狀況，如圖4-1 所示：

圖4-1 分群樹狀示意圖

圖4-1 中，虛線切過的部份，代表這三個觀測點被分為兩組，其中 1 與 2 一組，而 3 自己一組。若距離近，代表組內各觀測點距離近，但觀測點少；距離遠，代表組內各觀測點距離遠，但包含之觀測點多。

4.2.2 基因演算法分群方法理論

由基因演算法發展的分群方法相當多，對於本研究而言，主要是利用逐步分群方法，此模式為一次針對一集合進行最佳化之二元分組，直到所有的集合都無法再進行二元分組則停止分組，並已提高目標值為前提。在運作上，先將所有觀測點當做同一組，

然後依目標值最大，進行二元分組。每進行一個階段之後，在對每一組再進行二元分組，

同樣以目標值最大為目標，待無法再進一步進行二元分組以改善目標值時，亦即已探測到底（fathomed），就完成分組工作。運作流程可以圖 4-2 表示。

圖4-2 逐步分群示意圖

GAs

階段0

階段1

階段2

階段k

全部觀測值集合

無法再分組集合仍可再分組集合

無法再分組集合無法再分組集合

距離

1 2 3 觀測點

在文檔中基因分群之經濟訂購量模式—多物料及多分公司存貨管理 (頁 70-73)

第四章 分群模式構建

4.2 分群方式介紹

( )

X X

D ⎟

⎠

⎜ ⎞

⎝

⎛ −

= ∑

第四章分群模式構建