香港大學統計及精算系 關志威博士 引子
自二十世紀九十年代,統計學開始廣泛地應用在天文研究 上。如天文圖像處理,星系分類及貝葉斯宇宙學等。其中 一種應用的統計方法是群集分析。天文學家須要了解大量 恒星,星系及天文群體的特性。他們會把天體分類為獨立 的類別。每個類別所包含的天體都擁有相似的特質。 A.J.
Cannon 把上百萬張的低解像度的恒星光譜照片分類。E.
Hubble 將星系影像分類成楕圓,螺旋及棒旋型態的音叉 圖。星系分類有助限制基本宇宙參數及探究於不同質量的 暗物質暈中,星系形成的效率。在這文章,我們會介紹統 計學中的群集分析及其簡單應用於天文學上。
157
(http://imagine.gsfc.nasa.gov/docs/teachers/galaxies/transparenc ies/trans3.html)
群集分析
群集分析目的是把個體分成不同群集。根據預定的方法分 類後,每群集裡的個體都會很近似,而群集與群集之卻有 著很大的分別。如下圖示:
群集分析是需要依據個體的一些變量。這些變量既能代表 個體的特性,亦要可以用作個體與個體之間的比較。要形 成群集結構,需要採用一個量度”接近”或”近似”的測量值,
一般採用距離量度。一些常用距離為:
特性 2
特性 1 近似測量值
群集
個體
158
歐氏距離
x
1y
1
2 x
py
p
2d x, y
歐氏距離平方
x
1y
1
2 x
py
p
2d x, y
統計學距離
x, y
x
y
TA x
y
d
其中
A 一般為常數矩陣,如樣本共變異數矩陣的逆矩陣。
近似測量值容易被衡量所影響。數值變化大的變量比數值 變化小的變量會對近似測量值做成較大影響。所以一般會 把變量標準化。第 i 個數據的第 j 個變量標準化後是
ij j
jij x x s
z
當中 ̅ 是第 j 個變量的平均值,sj 是第 j 個變量的標準方 差。
159
其中一種群集分析是階層式分群法。階層式分群法不須要 觀察所有可行的分群而找出一些合理的結果。盡管現代的 電腦記憶容量大,運算快,也很少會檢視所有可能的分群 結果。階層式分群法是以一連串的合併或分拆進行分群。
這裡我們介紹合併式方法。
合併式方法首先把每一個個體各自成為一個群集。然後把 接近的群集合併成一個新群集,直至所有個體合併到一個 大群集裡。群集結果可以用一個二維的樹狀圖表示。階層 式分群法其中一種演算法是連結法。步驟如下:
(1) 首先,N 個群集各自包含一個個體。然後計算出一個 N
× N 的距離矩陣。
(2) 在矩陣中找出最接近的兩個群集。假設最接近的兩個群 集,U 跟 V,的距離為 dUV。
(3) 把群集 U 跟 V 合併成新群集 (UV)。更新距離矩陣。方 法是先刪除群集 U 及群集 V 的行和列,然後加入群集 (UV) 跟其他群集間的距離的行和列。
(4) 重複第二及第三步 N – 1 次至所有個體都包含在同一個 群集內。
個體間的距離之前已經定義,但如何定義群集間的距離?
不同的連結法有不同的定義。一些連結法舉例如下。單一 連結法中,群集的距離定義為兩個群集中最接近兩點間的 距離:
160
161
162
完整連結法中,群集間的距離定義為兩個群集中最遠兩點 間的距離,
U, V max
∈ , ∈ , 。
還有平均連結法,群集間的距離定義為兩個群集間各點與 各點間距離的平均值,
及中心連結法,群集間的距離定義為兩個群集中心點的距 離。
另一類演算是法沃德法。首先定義群集內平方和為
163
K i K p
j
jK ijK
x x ESS
1
2 .
其中 ̅. 是第 K 個群集中,第 j 個變量的平均值。合併 哪一對群集,基於其合併後是否可把群集內平方和減至最 少。其實沃德法也可視為一種連結法。
天文學上的應用
我們採用一個包含 1290 個星體的樣本(Feigelson & Babu, 2012)。星體的特性包括測光星表提供的五種測光波段:u (紫外線), g (綠), r (紅), i 和 z (甚近紅外線) 波段。由 於同一類的星體距離地球有著巨大差別,視星等並不是一 個可靠的星體類別的指標。所以,我們採用五種波段的光 度比例以消除距離的差別。由五種測光波段,我們得到四 個顏色指標。而我們的分類研究,便建基於這四維空間。
ESS
ESS
164
CL23 CL22 306 31 99 197 CL32 154 254 2635 CL25 246 34 89 110 109 2577 2812 221 2173 266 2869
165
Name of Observation or Cluster
166
167
參考資料:
1. Feigelson, E.D. & Babu, G.J. (2012) Modern Statistical
Methods for Astronomy. Cambridge UP.
2. Johnson, R.A. & Wichern, D.W. (2007) Applied
Multivariate Statistical Analysis, 6
thed. Pearson.
3. NASA. http://www.nasa.gov.
168