文獻回顧

第二章文獻回顧

許多研究者在收集資料時，常常為了要避免忽略掉任何可能相關的訊息而大量引入變數，但變數增加也就代表資料結構的維度(dimension)增加，且在高維度中，資料點在此空間中就相形疏散，導致許多統計技術就不太適合使用。例如：

假設資料點均勻分布在 10 維度的單位球體中，則包含 5%的資料點，其半徑約佔了原半徑的 74%；另外，如該半徑只佔了原半徑的 5%，則只幾乎是個空球體 (鄭天澤、甘貴華，1990)。

當我們拿到一筆資料時，會先對資料做初步的分析，以便對資料的特性能有初步的了解，例如最常見的是：叢聚特性(clustering)，以便我們對此資料做更進一步的分析。然而將高維度資料轉成低維度時，最簡單且有效的觀察方法就是畫圖，例如 1 或 2 維度可以畫直方圖(histogram)，2 或 3 維時可以畫散佈圖(scatter plot)，但當維度大於 3 時，就很難畫出我們肉眼可以了解辨識的圖形。

第一節分群分析

分群分析主要應用在多變量資料上，最主要目的是去發現或偵測資料中的分群現象，使得每一集群中資料有高度的同質性，而不同集群的資料之間有高度的異質性。分群分析是一種數值分類法，是將一組觀察值的結構特性給予數量化的一種客觀方法。

分群分析在高維度資料的分群，無法使用二維或三維的散佈圖畫出，且以肉眼分辨資料的分群可能會忽略潛在的群組。分群分析主要可分為兩大步驟：

1. 相似量度(proximity measure)的選擇

相似是一個相對的名詞，任何兩個事物，相對於其他事物而言，如果在各種變數上有相近的地方，或者有共同的特徵，則可將此事物視為相似。故此目

的是用來定義衡量任兩筆資料相似度的測量值，相似度越高表示資料越有可能屬於同一族群。

不同的相似量度會造成不同的分群結果，其常用的距離量度如下：假設每個資料點為 m 維度資料，則 X = x₁,x₂, … , x_m 、 Y = y₁,y₂, … , y_m 。

(1)Euclidean distance. d X, Y = (x_i _i − y_i)² 是最常用的歐式幾何空間的距離定義，但常受單位尺度的影響而有不同的分群結果。

(2)Pearson correlation. γ X, Y = (x_i _i − x )(y_i− y )

(x_i _i− x )² (y_i _i − y )²是一般常用的皮爾森相關係數，用以衡量兩資料點的線性關係。

(3)Manhattan distance. d X,Y = x_i _i − y_i 與歐式距離相似，但此量度可以減緩極端值的影響。

2. 分群分析演算法的選擇

根據相似量度，分群分析演算法會將資料做分群，使得各群內異質性小，但各群間異質性大。常用的分群分析演算法有分層式分群分析(hierarchical clustering)、非分層式分群分析(non-hierarchical clustering)以及同時應用兩者的二階段式分群分析(two-step clustering)。

分層式分群分析法又分為凝聚(agglomerative)和分離(divisive)。其中凝聚分層法是將個別資料點視為一群，找出最相近的群體兩兩合併，直到所有資料合為一群為止。其依照對群體之間「距離定義」的不同分為單一聯結法、完全聯結法、

帄均聯結法、中心法以及華德法；分離分層則是將所有資料視為一群，一次增加一群，直到所有資料點各被分為一群為止。

非分層式分群分析法最具代表性的是K組帄均法(K-means)。其先確定分群的數目，選擇若干個資料點當作初始聚心(集群中心點)，然後計算每個觀察值到

各群重心的距離，把每個觀察值歸入距重心最近的一群，再重新計算每一群的重心，反覆操作，直到沒有觀察值可以再調整為止。

兩階段式分群分析法是指在第一階段先以凝聚分層法分群，決定選取的群數，

第二階段再用此決定的群數，以K組帄均法進行分群。此種方法可以解決非分層式法主觀決定群數的問題，也可以改善分層式法無法將觀察點變換所屬群體的問題(陳正昌、程炳林、陳新豐、劉子鍵，2009)。

第二節投影追蹤法的由來

Kruskal (1969 、 1972) 的兩篇論文，試圖建立一個密集指數 (index of condensation)，去找出能表現資料結構中叢聚特性的線性轉換。這也開啟了投影追蹤法的發展。後來， Friedman 與 Tukey (1974)的論文中，使用 Kruskal (1969、

1972)論文的概念，建立一套演繹流程，找尋可以表現資料結構中叢聚特性的投影的演算法。因為使用效果不錯，所以將此一演算法正式命名為投影追蹤 (projection pursuit) (鄭天澤、甘貴華，1990)。

第三節傳統方法與投影追蹤法的介紹

維度縮減的方法可以協助我們解決肉眼在高維度空間無法辨識圖形的問題，

一些傳統方法與投影追蹤法皆是一種維度縮減的方法，但傳統方法與投影追蹤法也有不同的地方。以下的傳統方法較注重在變數間的距離。

(1)把 m 維變數用 n 種不同的線性組合方式呈現(n 遠小於 m)，且還能解釋原變數間的共變異數到某一滿意程度。例如主成份分析(principal component analysis)、因素分析(factor analysis) (鄭天澤、甘貴華，1990)。

(2)在原高維(m 維)變數中，選出一低維(n 維)子集，但資料點在這 n 維子集中仍能充分反映出原 m 維變數中的統計性質。例如分群分析(cluster analysis)

(鄭天澤、甘貴華，1990)。

(3)把 N 個資料點(樣本點)所屬的 m 維空間縮減到 n 維空間，去找出在 n 維空間中各資料點所構成的形相(configuration)，讓這 N 個資料點在該形相中各點間距離和原始 m 維空間中各資料點間的距離能相互配合。例如多元尺度分析(multidimensional scaling) (鄭天澤、甘貴華，1990)。

投影追蹤法與上述方法最大的不同就是投影追蹤法並不間接地計算變數間的距離，再以這些距離做分析，而是使用數值方法直接找尋讓我們感興趣的 1 或 2 維度的投影方向，在這方向上能有最好的探測效果以及讓我們感興趣的特性。

由 Fisherkeller 等人在1974年發展出一套PRIM-9交談式資料顯示系統，此系統是能將高維度資料(最高到9維)投影到2維度空間，然後透過電腦螢幕顯示出資料散佈的情形，這是一種由人為視覺控制的投影追蹤法(Friedman and Tukey，

1974)。其好處如下：

(1) 資料經過投影後還可以旋轉投影軸，以便觀察資料在不同投影方向上的變化情形。

(2) 有掩飾和孤立的功能，可指定顯示出原高維度空間的任一子空間資料，而其它未指明部份則被移除。

在多維度資料時，最廣泛使用維度縮減的方法就是線性投影，簡單來說，就是把多維度資料投影到 1 個或 2 個單位向量的方向上(Friedman and Tukey，1974)。

其優點如下

(1) 較容易解釋 (2) 節省計算的資源

(3) 相同的參數允許對非原始資料做相同的處理

許多傳統線性處理的方法，例如主成份分析、因素分析等，皆可利用線性代數的原理去求解，所求出的解卻只是個全域的解，而投影追蹤法是運用數值方法，

去找出多個有興趣的方向，對多維度資料結構的了解能更形透徹(鄭天澤、甘貴華，1990)。

第四節投影指標

所謂投影指標(projection index)就是將投影過後的資料，對於我們感興趣的特性，以函數形式呈現出來。決定出投影指標之後，利用數值方法求出最合適的解(此指投影方向)。故投影追蹤法的核心工作就是投影指標的設定，因為投影指標能顯示出使用者的目的與意圖(鄭天澤、甘貴華，1990)。

Friedman 與 Tukey (1974)所定義的投影指標，其目的就是要找出當資料整體分散程度不變時，能產生許多資料點之間的距離很小(即資料點密集)的投影方向，也就是說當資料投影後，能使分群的效果較好(鄭天澤、甘貴華，1990)。其投影指標定義如下：

假設 X ₁, … , X _N為原高維度資料點， k 為任意投影方向軸，則投影指標 P-index 為

𝛪(k ) = s(k ) × d(k )，

其中

s k = (X _i ∙ k − X _k)² [ 1 − 2p N]

[ 1−p N ]

i=[pN ]+1

為投影後且刪除極端值的標準差，[pN]表示比pN小的最大整數。此用來測量資

料的分散程度。 X _i 代表原始資料中第i筆資料點； X _k = _{i=[pN ]+1}^{[ 1−p N]} _{[ 1−2p N ]}^Xⁱ^∙k 代表資料投影後且刪除極端值的帄均數； N 代表資料點的總數目； p 為將資料投影後排序，前後各刪減的百分比，目的是為了去除極端值可能對資料造成的影響。

d k = f(r_ij) × l(R − r_ij)

j=1 N

i=1

為資料的局部密度。 r_ij = X _i ∙ k − X _j ∙ k ；R = 0.1 × (原始資料在 k 方向投影的標

準差)；f r = R − r 為 r 的單調遞減函數； l R − r_ij = 1 若r_ij < 𝑅 0 若r_ij ≥ R 。

決定出投影指標後，利用數值方法，開始於不同的起始方向，分別找出第一個投影方向使得 𝛪(k ) 為最大值的解，有助於我們去勘查資料的結構(Friedman and Tukey，1974)。

第五節投影追蹤法的演變與應用

上節所述的投影指標的設定，就是投影追蹤法的核心所在，所以其往後的演變，便著重於投影指標的改進，像是如何針對不同目的設定合適的投影指標、甚至如何去簡化投影指標的計算。

Friedman 與 Tukey (1974)定義的投影指標，以及 Kruskal (1969、1972)定義的密集指標，他們的共同點都是為了資料的叢聚特性而定。然而 Huber (1985) 敘述了投影追蹤法的理論和相關產物。他所定義的指標具有仿射不變(affine invariant)的特質，意思是說：當資料位置與尺度改變時，並不會影響投影指標所代表意義的強度。Jones 和 Sibson (1987)是利用核密度估計法(kernel density estimation)推導出熵指標(entropy index)，但其牽涉到窗寬大小的選取，所以熵指標在計算上是非常的麻煩；進而推導出動差指標(moment index)，計算第三累差

與第四累差(cumulant)，日後的資料則只需使用已計算出的累差值，大大降低了計算量，是較著重於投影追蹤法概念的應用。他們都認為需為整套投影追蹤法建立一個完善的體系，且在這體系中，投影追蹤法是個很有力的技術，遠超過 Friedman 與 Tukey (1974)所提到的，只對某特殊情況才能有效力。後來，

Friedman (1987)提出一篇「探測性投影追蹤法」(exploratory projection pursuit)。

探測性的工作是不摻揉任何模型在資料中，而能洞察並了解資料所呈現的整體特性。他先將資料做球形(sphering)處理，使每個變數的變異數為 1 而變數之間的相關係數為 0，即先把變數的線性關係消除，透過球形化後的資料出發，用投影追蹤法探測出資料的非線性結構。包括資料的叢聚性和資料點沿某曲線或曲面的趨勢(鄭天澤、甘貴華，1990)。

後來，有不少學者將投影追蹤法的技術推廣，應用於分類(classification)、迴歸(regression)，和密度估計(density estimation)上。這些概念與 Friedman 與 Tukey (1974)的原始概念及做法有所不同，卻對往後多變量分析技術的開發有啟蒙作用 (鄭天澤、甘貴華，1990)。

投影追蹤法是運用數值方法以及反覆求解去盡可能找出能顯露出資料結構特徵的方向。於是 Friedman 與 Stuetzle (1981)根據這個觀念，建立一個多維度資料結構模型的流程，進而完成投影追蹤迴歸法，後來， Friedman、Stuetzle 與 Schroeder (1984)完成投影追蹤密度估計法。 Li 與 Chen (1985)為了改進主成分分析的做法中極不穩建(robust)的缺失，用穩健尺度設定為投影追蹤法中的投影指標，則投影追蹤程序可求算穩健主成分，且可建立穩健離勢(dispersion)矩陣的

在文檔中以投影追蹤進行分群分析之探索 (頁 11-18)

第二章 文獻回顧

第一節 分群分析

第二節 投影追蹤法的由來

第三節 傳統方法與投影追蹤法的介紹

第四節 投影指標

第五節 投影追蹤法的演變與應用