集群分析 - 統計方法 - 以雲端同步雙層析儀進行揮發性有機氣體污染之連續分析田野調查與數據統計方法研究

1.4 統計方法

1.4.2 集群分析

集群分析（Cluster Analysis）的主要目的在於將不同觀察值分類成不同集群（Cluster），得到每個集群內觀察值之間的相似性（Similarity）

高，每個集群間的相異性（Dissimilarity）高。一般集群分析的步驟為：

1. 選擇分群變數 2. 計算相異性/相似性 3. 進行集群

4. 決定集群數 5. 集群結果的解釋

步驟 1 的分群變數是指要以樣本作集群還是以變數作集群，樣本集群（Sample Cluster）是將數據值相近的樣本分類在一起；變數集群

（Variable Cluster）則是將變數分類的方法。如下表，就可以了解樣本集群和變數集群是在分析時切入角度的不同^[39]。

表 1.6 集群分析數據表格範例

𝑥₁ 𝑥₂ ⋯ 𝑥_𝑝

1 𝑥₁₁ 𝑥₂₁ ⋯ 𝑥_𝑝1

2 𝑥₁₂ 𝑥₂₂ ⋯ 𝑥_𝑝2

⋮ ⋮ ⋮ ⋮

n 𝑥_1𝑛 𝑥_2𝑛 ⋯ 𝑥_𝑝𝑛

樣本變數

不管是樣本集群還是變數集群，分類的方法是計算觀察值之間的相異性/相似性，即步驟 2，樣本集群一般以距離量數表示，距離越大表示樣本之間的相異性越大；變數集群是以相關係數表示。計算距離的方法有很多種，對於計量資料來說，最常用的方法為歐基里德距離

（ Euclidean Distance ），其他方法如歐基里德距離平方（ Squared Euclidean Distance）、馬哈蘭諾距離（Mahalanobis Distance）、柴比雪夫距離（Chebychev Distance）等等。看相似性係數的常用方法為皮爾森積差相關係數（Pearson correlation），另外一個方法為餘弦函數（Cosine）。

次序性和二元性的資料有其計算相異性和相似性方法，在此不贅述。

步驟 3 的集群方法有分成階層式（Hierarchical Method）和非階層式（Nonhierarchical Method）。階層集群法可分為凝聚法（Agglomerative Method）和分裂法（Divisive Method）：凝聚法是將每個觀察值視為一群，計算出各觀察值之間的距離之後按指定的分群方法聚集成一群，

重複這個步驟直到全部觀察值被分為同一集群為止；分裂法則是先將所有觀察值視為一集群，再慢慢往下分類出不同集群。在階層集群法的凝聚法中，分群方法最常用的是華德法（Ward’s Method），它是計算群內的變數和，使同一群內觀察值的變異數最小，不同群之間觀察值的變異數和最大，在所有可能的分群情況下找出最符合上述條件的分群結果。其他分群方法是利用群體間的距離來作分類，有最短距離法

（Nearest Neighbor）、最遠距離法（Furthest Neighbor）、平均連結法

（Average Linkage）、重心法（Centroid Clustering）。非階層集群法要先決定初始的集群中心和要分群的集群數，然後再計算每個觀察值到個群重心的距離，接著把每個觀察值分類到距離重心最近的集群，重複上述步驟，直到沒有觀察值需要再移動為止。除非可以確認樣本的集群數，否則一般還是使用階層集群法來客觀地分類，非階層集群法比較適用於大樣本的集群分析。

步驟 4 判斷集群數的方法可以用陡坡圖（Scree Plot）或者樹狀圖

（Dendrogram）決定，以下舉樹狀圖為例，若選擇 10 為分群距離，

則得到 3 個集群。

圖 1.3 集群分析樹狀圖範例

在集群分析裡，可以嘗試用不同的分群方法分析，最後選出結果最理想的方法，並針對得到的結果做出解釋。從階層集群法所得到的集群數，可以代入非階層集群法看是否有同樣集群結果，此方法稱為兩階段式的集群分析（Two-stage Cluster Analysis），是常用的驗證方式。

在文檔中以雲端同步雙層析儀進行揮發性有機氣體污染之連續分析田野調查與數據統計方法研究 (頁 25-28)