集群分析(Cluster analysis)

第三章基本理論

3.4 集群分析(Cluster analysis)

群集分析法(Cluster analysis)的目的是將大量的觀測樣本資料，依資料中變數的共通性質進行分群的分析方法。經由集群分析後，在同一集群內的觀察樣本具有高度的同質性；反之，則具高度的異質性。

在前一章介紹主成分分析時，提到可以利用其分析結果，計算其對應各主成分的主成分分數(principal component scores)，可以用來將觀測資料進行分類。作法在本質上有所不同，但其分群結果不一定會有很大的差異，可進行分析結果的比對，確定統計結果之正確性。一般進行集群分析時，會按照以下的步驟來進行：

1. 選擇衡量觀察值間相似性(距離)的方式 2. 選擇集群的分類方法，並決定集群數 3. 繪製集群樹狀圖，解釋分群解果

以下將針對上述步驟做重點式的說明。

3.4.1 選擇衡量觀察值相似性(距離)的方式

集群分析根據變數的測量值將性質相近的觀察值歸為同一類，因此在進行分析時，首先要計算出觀察值之間的相似性，其方法包括：

1. 點間距離

測量兩觀察值間的相似性最常見的方法就是計算二者間的距離，而常用的方法包括：

(1) 歐氏距離(Euclidean distance)

(2) 歐氏距離平方(Squared Euclidean Distance)

由於歐幾里得距離必須計算平方根較麻煩，因此在集群分析上多採用歐氏平方距離(Square Euclidean distance)做為分群之依據。

(3) 馬氏距離(Mahalanhois distance)

當變數間測量單位有差異時會影響統計結果，馬氏距離法是另一種

2. 相關係數

除了以距離來表示變項之間的相似性外，也可直接利用相關係數來做為集群分析分類的依據。兩觀察值間的相似性越高，代表愈密切。

3.4.2 集群的分類方法

在選擇計算觀察值間相似性的方法後，距離最近的點已被歸為一群，如要進一步分群，則需額外計算以分在一群觀察點全體，與其他尚未分群的每一個觀察點的距離。各種集群分類的方法，依照分類過程的差異，可以分為階層 (Hierarchical)與非階層 (Non-hierarchical)兩種分群的原則。分別說明如下：

1. 階層式集群法

階層群集分析(Hierarchical Cluster Analysis, HCA)是廣泛被應用的一種方法，

基本算法是將每個樣本資料各自成一群集，再根據相似性計算原則，將相似性最高的兩個樣本合併成新的群集，並重複合併作業，直到所有樣本資料都被歸為同一群集為止。合併的過程可用樹狀圖(Dendrogram)的方式加以圖示。其分類的方法包含單一鏈鎖法(Single linkage)、完全鏈鎖法(Complete linkage)、平均鏈鎖法 (Average linkage)、中心法(Centroid linkage)及華德最小變異法(Ward’s method)，其中群間距離的計算以華德法(Ward’s method)之應用較為廣泛。華德法計算 A、

B 兩群距離是以 A 群中心點 到兩群合併中心點 距離平方乘 A 群個體數，與 B 群中心點 到兩群合併中心點的 距離平方乘以 B 群的個體數之和，即：

XA X

XB X

dAB _nA _XA_X ²_nB  _XB_X ²

2. 非階層式集群法

非階層式集群法以所謂 K 組平均法 (K-means) 為主。其在作法上要先確定欲分群的群數，將所有樣本觀察值隨機各自歸入其中的一群，接著根據各觀察值到各集群中心之距離遠近，重新將觀察值移動到距離最近的集群，再次重新計算各集群的中心及觀察值到各集群之心距離，再次移動觀察值，重複這樣的步驟，值到整個分類結果穩定為止，便完成分群的工作。其主要缺點在於要先主觀的決定所要分群的群數，造成統計的誤差。

在文檔中以多變量分析探討現行發布之生物毒性試驗 (頁 37-41)

第三章 基本理論

3.4 集群分析(Cluster analysis)

3.4.1 選擇衡量觀察值相似性(距離)的方式

3.4.2 集群的分類方法

第三章基本理論