1.4 統計方法
1.4.2 集群分析
集群分析(Cluster Analysis)的主要目的在於將不同觀察值分類成 不同集群(Cluster),得到每個集群內觀察值之間的相似性(Similarity)
高,每個集群間的相異性(Dissimilarity)高。一般集群分析的步驟為:
1. 選擇分群變數 2. 計算相異性/相似性 3. 進行集群
4. 決定集群數 5. 集群結果的解釋
步驟 1 的分群變數是指要以樣本作集群還是以變數作集群,樣本集 群(Sample Cluster)是將數據值相近的樣本分類在一起;變數集群
(Variable Cluster)則是將變數分類的方法。如下表,就可以了解樣本 集群和變數集群是在分析時切入角度的不同[39]。
表 1.6 集群分析數據表格範例
𝑥1 𝑥2 ⋯ 𝑥𝑝
1 𝑥11 𝑥21 ⋯ 𝑥𝑝1
2 𝑥12 𝑥22 ⋯ 𝑥𝑝2
⋮ ⋮ ⋮ ⋮
n 𝑥1𝑛 𝑥2𝑛 ⋯ 𝑥𝑝𝑛
樣本 變數
不管是樣本集群還是變數集群,分類的方法是計算觀察值之間的相 異性/相似性,即步驟 2,樣本集群一般以距離量數表示,距離越大表 示樣本之間的相異性越大;變數集群是以相關係數表示。計算距離的 方法有很多種,對於計量資料來說,最常用的方法為歐基里德距離
( Euclidean Distance ), 其 他 方 法 如 歐 基 里 德 距 離 平 方 ( Squared Euclidean Distance)、馬哈蘭諾距離(Mahalanobis Distance)、柴比雪夫 距離(Chebychev Distance)等等。看相似性係數的常用方法為皮爾森 積差相關係數(Pearson correlation),另外一個方法為餘弦函數(Cosine)。
次序性和二元性的資料有其計算相異性和相似性方法,在此不贅述。
步驟 3 的集群方法有分成階層式(Hierarchical Method)和非階層 式(Nonhierarchical Method)。階層集群法可分為凝聚法(Agglomerative Method)和分裂法(Divisive Method):凝聚法是將每個觀察值視為一 群,計算出各觀察值之間的距離之後按指定的分群方法聚集成一群,
重複這個步驟直到全部觀察值被分為同一集群為止;分裂法則是先將 所有觀察值視為一集群,再慢慢往下分類出不同集群。在階層集群法 的凝聚法中,分群方法最常用的是華德法(Ward’s Method),它是計算 群內的變數和,使同一群內觀察值的變異數最小,不同群之間觀察值 的變異數和最大,在所有可能的分群情況下找出最符合上述條件的分 群結果。其他分群方法是利用群體間的距離來作分類,有最短距離法
(Nearest Neighbor)、最遠距離法(Furthest Neighbor)、平均連結法
(Average Linkage)、重心法(Centroid Clustering)。非階層集群法要先 決定初始的集群中心和要分群的集群數,然後再計算每個觀察值到個 群重心的距離,接著把每個觀察值分類到距離重心最近的集群,重複 上述步驟,直到沒有觀察值需要再移動為止。除非可以確認樣本的集 群數,否則一般還是使用階層集群法來客觀地分類,非階層集群法比 較適用於大樣本的集群分析。
步驟 4 判斷集群數的方法可以用陡坡圖(Scree Plot)或者樹狀圖
(Dendrogram) 決定,以下舉樹狀圖為例,若選擇 10 為分群距離,
則得到 3 個集群。
圖 1.3 集群分析樹狀圖範例
在集群分析裡,可以嘗試用不同的分群方法分析,最後選出結果最 理想的方法,並針對得到的結果做出解釋。從階層集群法所得到的集 群數,可以代入非階層集群法看是否有同樣集群結果,此方法稱為兩 階段式的集群分析(Two-stage Cluster Analysis),是常用的驗證方式。