• 沒有找到結果。

集群分析(Cluster analysis)

第三章 基本理論

3.4 集群分析(Cluster analysis)

群集分析法(Cluster analysis)的目的是將大量的觀測樣本資料,依資料中變數 的共通性質進行分群的分析方法。經由集群分析後,在同一集群內的觀察樣本具 有高度的同質性;反之,則具高度的異質性。

在前一章介紹主成分分析時,提到可以利用其分析結果,計算其對應各主成 分的主成分分數(principal component scores),可以用來將觀測資料進行分類。作 法在本質上有所不同,但其分群結果不一定會有很大的差異,可進行分析結果的 比對,確定統計結果之正確性。一般進行集群分析時,會按照以下的步驟來進行:

1. 選擇衡量觀察值間相似性(距離)的方式 2. 選擇集群的分類方法,並決定集群數 3. 繪製集群樹狀圖,解釋分群解果

以下將針對上述步驟做重點式的說明。

3.4.1 選擇衡量觀察值相似性(距離)的方式

集群分析根據變數的測量值將性質相近的觀察值歸為同一類,因此在進行 分析時,首先要計算出觀察值之間的相似性,其方法包括:

26

1. 點間距離

測量兩觀察值間的相似性最常見的方法就是計算二者間的距離,而 常用的方法包括:

(1) 歐氏距離(Euclidean distance)

=

(2) 歐氏距離平方(Squared Euclidean Distance)

=

由於歐幾里得距離必須計算平方根較麻煩,因此在集群分析上多採 用歐氏平方距離(Square Euclidean distance)做為分群之依據。

(3) 馬氏距離(Mahalanhois distance)

當變數間測量單位有差異時會影響統計結果,馬氏距離法是另一種

27

2. 相關係數

除了以距離來表示變項之間的相似性外,也可直接利用相關係數來做為集群 分析分類的依據。兩觀察值間的相似性越高,代表愈密切。

3.4.2 集群的分類方法

在選擇計算觀察值間相似性的方法後,距離最近的點已被歸為一群,如要進 一步分群,則需額外計算以分在一群觀察點全體,與其他尚未分群的每一個觀察 點 的 距 離 。 各 種 集 群 分 類 的 方 法 , 依 照 分 類 過 程 的 差 異 , 可 以 分 為 階 層 (Hierarchical)與非階層 (Non-hierarchical)兩種分群的原則。分別說明如下:

1. 階層式集群法

階層群集分析(Hierarchical Cluster Analysis, HCA)是廣泛被應用的一種方法,

基本算法是將每個樣本資料各自成一群集,再根據相似性計算原則,將相似性最 高的兩個樣本合併成新的群集,並重複合併作業,直到所有樣本資料都被歸為同 一群集為止。合併的過程可用樹狀圖(Dendrogram)的方式加以圖示。其分類的方 法包含單一鏈鎖法(Single linkage)、完全鏈鎖法(Complete linkage)、平均鏈鎖法 (Average linkage)、中心法(Centroid linkage)及華德最小變異法(Ward’s method), 其中群間距離的計算以華德法(Ward’s method)之應用較為廣泛。華德法計算 A、

B 兩群距離是以 A 群中心點 到兩群合併中心點 距離平方乘 A 群個體數,與 B 群中心點 到兩群合併中心點的 距離平方乘以 B 群的個體數之和,即:

=

XA X

XB X

dAB nAXAX 2nBXBX 2

28

2. 非階層式集群法

非階層式集群法以所謂 K 組平均法 (K-means) 為主。其在作法上要先確 定欲分群的群數,將所有樣本觀察值隨機各自歸入其中的一群,接著根據各觀 察值到各集群中心之距離遠近,重新將觀察值移動到距離最近的集群,再次重 新計算各集群的中心及觀察值到各集群之心距離,再次移動觀察值,重複這樣 的步驟,值到整個分類結果穩定為止,便完成分群的工作。其主要缺點在於要 先主觀的決定所要分群的群數,造成統計的誤差。

29

相關文件