以投影追蹤進行分群分析之探索

全文

(1)國立高雄大學統計學研究所碩士論文. A Study of Clustering Analysis Using Projection Pursuit 以投影追蹤進行分群分析之探索. 研究生：王柏凱撰指導教授：陳俞成博士. 中華民國 101 年 12 月.

(2) A Study of Clustering Analysis Using Projection Pursuit. by Po-Kai Wang Advisor Yu-Cheng Chen. Institute of Statistics National University of Kaohsiung Kaohsiung, Taiwan 811 R.O.C. December 2012.

(3) 目錄表目錄 ................................................ ⅱ 圖目錄 ................................................ ⅲ 中文摘要 ..............................................ⅳ 英文摘要 .............................................. ⅴ 第一章. 緒論 .......................................... 1. 第一節第二節. 研究背景與動機........................................ 1 研究目的.............................................. 2. 第三節. 論文架構.............................................. 2. 第二章. 文獻回顧 ...................................... 4. 第一節. 分群分析.............................................. 4. 第二節第三節. 投影追蹤法的由來...................................... 6 傳統方法與投影追蹤法的介紹............................ 6. 第四節. 投影指標.............................................. 8. 第五節. 投影追蹤法的演變與應用................................ 9. 第三章. 研究方法 ..................................... 11. 第一節. 投影追蹤演算法....................................... 11. 第二節. 如何找尋最終投影指標................................. 12. 第三節第四節. 投影指標大小之探索................................... 13 錯誤判斷率........................................... 13. 第四章. 模擬方法與結果 ............................... 14. 第一節. 資料介紹............................................. 14. 第二節第三節. 以 Iris 資料進行投影追蹤演算法........................ 15 投影指標值之探索..................................... 24. 第四節. 投影追蹤法與分群分析法之比較......................... 27. 第五章. 結論 ......................................... 31. 參考文獻 ............................................. 32 附錄 ................................................. 34. i.

(4) 表目錄表 1 一維度 Iris 資料-起始投影指標 ....................................................................... 15 表 2 一維度 Iris 資料-以固定起始方向找尋最終投影指標 ................................... 16 表 3 一維度 Iris 資料-以更新投影方向找尋最終投影指標 ................................... 18 表 4 二維度 Iris 資料-起始投影指標 ....................................................................... 20 表 5 二維度 Iris 資料-以固定起始方向找尋最終投影指標 ................................... 21 表 6 二維度 Iris 資料-以更新投影方向找尋最終投影指標 ................................... 23 表 7 比較不同投影指標下各分群的密集程度指標值............................................. 25 表 8 三種不同組合資料的投影指標值..................................................................... 26 表 9 錯誤判斷個數與 F 檢定值................................................................................. 28 表 10 事後檢定值........................................................................................................ 30 表 11 100 筆模擬資料之三種不同組合資料的投影指標值.................................... 45 表 12 100 筆模擬資料之錯誤判斷個數-單一連結法.............................................. 48 表 13 100 筆模擬資料之錯誤判斷個數-完全聯結法.............................................. 51 表 14 100 筆模擬資料之錯誤判斷個數-帄均聯結法.............................................. 54 表 15 100 筆模擬資料之錯誤判斷個數-中心法...................................................... 57 表 16 100 筆模擬資料之錯誤判斷個數-華德法........................... 60. ii.

(5) 圖目錄圖 1 固定起始方向以單位向量方向之最終投影方向與資料投影值的直方圖..... 17 圖 2 固定起始方向以主成份方向之最終投影方向與資料投影值的直方圖......... 17 圖 3 更新投影方向以單位向量方向之最終投影方向與資料投影值的直方圖..... 18 圖 4 更新投影方向以主成份方向之最終投影方向與資料投影值的直方圖......... 19 圖 5 固定起始方向以單位向量方向之最終投影方向與資料投影值的散佈圖..... 21 圖 6 固定起始方向以主成份方向之最終投影方向與資料投影值的散佈圖......... 22 圖 7 更新投影方向以單位向量方向之最終投影方向與資料投影值的散佈圖..... 23 圖 8 更新投影方向以主成份方向之最終投影方向與資料投影值的散佈圖 .... 23. iii.

(6) 以投影追蹤進行分群分析之探索. 指導教授：陳俞成副教授嘉南藥理科技大學醫務管理系. 學生：王柏凱國立高雄大學統計學研究所. 摘要. 資料分群分析為國內外眾多學者研究的重要課題，「投影追蹤(projection pursuit)」為資料分群的重要方法之一。根據美國學者 Friedman 與 Tukey (1974) 指出「投影追蹤」在多維度資料的資料探勘分析，是將多維度資料藉線性投影轉成一維度資料或二維度資料，再進一步找出有興趣的分群結果。本研究透過 Friedman 與 Tukey 所使用的投影指標(P- indexes)的演算法，探索出投影指標越大並非使投影後的資料點較密集以及經投影指標值愈大的投影方向投影後的分群愈明顯。此外，當原始資料透過投影追蹤，利用更新方法去找尋到的最終投影方向投影後的資料點與原始資料透過 SPSS 的分群分析的結果，計算其錯誤判斷率(資料原本屬於 A 群，卻判斷不是 A 群的機率)，發現透過投影追蹤再進行分群分析其錯誤判斷率較低。. 關鍵字：投影追蹤，投影指標，維度縮減，分群分析. iv.

(7) A Study of Clustering Analysis Using Projection Pursuit. Advisor: Yu-Cheng Chen Department of Hospital and Health Care Administration Chia Nan University of Pharmacy and Science. Student: Po-Kai Wang Institute of Statistics National University of Kaohsiung. ABSTRACT Clustering analysis is an important issue for many scholars. Projection pursuit is one of the important methods of clustering analysis. According to the American scholars, Friedman and Tukey(1974), "projection pursuit" in the exploratory data analysis of multi-dimensional data is to use multi-dimensional data converted to one dimension or two dimensions by the linear projection to find something interests in clustering results. In this study, through projection index algorithm by Friedman and Tukey, exploring the larger projection index is not more dense in projecting data and the greater projection index in projecting data can cluster more obvious. The projectional data using numerical method by the projection pursuit and the original data were used the clustering analysis in SPSS, to calculate the misjudgment rate (the probability of a datum is belonged to A, but to judge not A). Finding the data using the projection pursuit has lower misjudgment rate. Keywords：projection pursuit, projection index, dimensionality reduction, clustering analysis v.

(8) 第一章緒論分群可以說是人類最基本的概念化的行為，而對科學理論的發展而言，透過分群的動作，科學家得以將與理論發展相關之必要概念加以歸類整合。因此，生活上，對個體或者變數的分群，一直都是研究者進行研究的重要課題。. 第一節. 研究背景與動機. 多變量分析是一種用來分析和處理多變量資料的統計方法。其中，分群分析 (cluster analysis)是一種用來將屬量的觀察點分群的分析方法，透過分群分析，在同一群內的觀察點中，對於某些特性而言，會具有一致性；而不同群的觀察點，針對同樣的特性則會有顯著的不同。分群分析可以應用於財務、醫學、生物、基因、行銷等許多的領域。例如在財務方面，利用分群分析可以將具有類似財務狀況的公司歸為一群，以利投資標的之選取；在行銷方面，利用分群分析則可以將具有類似消費偏好的消費者區隔出來，以便於產品的定位與行銷。分群可以算是人類最基本的概念化行為，對於科學理論的發展，透過分群的基本行為，科學家可以將其理論發展的相關概念加以歸類整合(林師模、陳苑欽，2003)。 Friedman 與 Tukey (1974)在探測資料分析時，建立一種演算法，企圖去找尋能呈現資料結構叢聚特性的投影，此一投影方法便稱為投影追蹤(projection pursuit)。投影追蹤法也是一種維度縮減的方法，它與分群分析最大的不同就是投影追蹤法並不間接地計算變數之間的距離，再以這些距離做分析，而是使用數值方法直接找尋讓我們感興趣的1維度或2維度的投影方向，在這感興趣的方向上能有最好的探測效果或最具維度縮減能力的特性。將投影後的資料，以函數形式表示出來，此函數就稱為投影指標。藉由投影追蹤演算法，運用數值方法，由不同的起始方向開始，去找尋多個讓我們感興趣的投影方向，目的就是希望多維度資料透過這些投影方向的投影後，資料點能有較好的分群結果，這樣對勘察資料 1.

(9) 結構會有很大的幫助(鄭天澤、甘貴華，1990)。投影追蹤法的主要目的就是使資料能夠顯示較好的分群特性。故本文的研究動機是，去探索投影指標的大小對於分群結果的特性，最後再去比較當原始資料先使用投影追蹤的投影和直接使用原始資料透過分群分析法的結果。. 第二節. 研究目的. 將多維度資料由高維度投影到低維度必會損失一些訊息，而資料結構的特性在每一投影方向不一定都能顯現出來。投影追蹤法的主要目的就是去找尋一些方向，而這些方向是能呈現出讓我們感興趣的資料結構特性。本文將透過 Friedman 與 Tukey (1974)所提的投影指標(P- indexes)的演算法中，利用更新方法，盡可能找出較大的投影指標所對應的投影方向，並且將資料透過這些投影方向的投影後，去探索比較其結果。本文的研究目的如下：一、去驗證「投影方向所對應的投影指標值越大，表示資料點經此方向投影後的投影點較為密集」(鄭天澤、甘貴華，1990)。二、探索投影指標值愈大對應的投影方向投影後的分群愈明顯。三、比較當原始資料透過投影追蹤法的投影和直接使用原始資料，透過分群分析的方法，去求算其分群結果的錯誤判斷率(資料點原本屬於 A 群，結果卻判斷不是 A 群的機率)。. 第三節. 論文架構. 在本篇文章中，我們將介紹何謂投影追蹤法以及投影追蹤法的演變，接下來使用Iris資料和模擬生成的資料利用投影追蹤演算法去進行分析。本文主要架構敘述如下：第一章為緒論：介紹研究背景與動機及研究目的；第二章為文獻回顧：第一節為分群分析的簡介，第二節介紹投影追蹤法的由來，第三節介紹投影追蹤 2.

(10) 法的特色與傳統分析法做比較，第四節則介紹投影指標的意義，第五節則是投影追蹤法的演變；第三章為研究方法；而第四章包含說明資料來源及模擬結果；第五章為結論。. 3.

(11) 第二章文獻回顧許多研究者在收集資料時，常常為了要避免忽略掉任何可能相關的訊息而大量引入變數，但變數增加也就代表資料結構的維度(dimension)增加，且在高維度中，資料點在此空間中就相形疏散，導致許多統計技術就不太適合使用。例如：假設資料點均勻分布在 10 維度的單位球體中，則包含 5%的資料點，其半徑約佔了原半徑的 74%；另外，如該半徑只佔了原半徑的 5%，則只幾乎是個空球體 (鄭天澤、甘貴華，1990)。當我們拿到一筆資料時，會先對資料做初步的分析，以便對資料的特性能有初步的了解，例如最常見的是：叢聚特性(clustering)，以便我們對此資料做更進一步的分析。然而將高維度資料轉成低維度時，最簡單且有效的觀察方法就是畫圖，例如 1 或 2 維度可以畫直方圖(histogram)，2 或 3 維時可以畫散佈圖(scatter plot)，但當維度大於 3 時，就很難畫出我們肉眼可以了解辨識的圖形。. 第一節. 分群分析. 分群分析主要應用在多變量資料上，最主要目的是去發現或偵測資料中的分群現象，使得每一集群中資料有高度的同質性，而不同集群的資料之間有高度的異質性。分群分析是一種數值分類法，是將一組觀察值的結構特性給予數量化的一種客觀方法。分群分析在高維度資料的分群，無法使用二維或三維的散佈圖畫出，且以肉眼分辨資料的分群可能會忽略潛在的群組。分群分析主要可分為兩大步驟： 1.. 相似量度(proximity measure)的選擇相似是一個相對的名詞，任何兩個事物，相對於其他事物而言，如果在各種變數上有相近的地方，或者有共同的特徵，則可將此事物視為相似。故此目. 4.

(12) 的是用來定義衡量任兩筆資料相似度的測量值，相似度越高表示資料越有可能屬於同一族群。不同的相似量度會造成不同的分群結果，其常用的距離量度如下：假設每個資料點為 m 維度資料，則 X = x1 , x2 , … , xm 、 Y = y1 , y2 , … , ym 。 (1)Euclidean distance. d X, Y =. i(xi. − yi )2 是最常用的歐式幾何空間的距. 離定義，但常受單位尺度的影響而有不同的分群結果。 (2)Pearson correlation. γ X, Y =. i (xi. − x)(yi − y). i (xi. − x)2. i (yi. − y)2. 是. 一般常用的皮爾森相關係數，用以衡量兩資料點的線性關係。 (3)Manhattan distance. d X, Y =. i. xi − yi 與歐式距離相似，但此量度可以. 減緩極端值的影響。 2.. 分群分析演算法的選擇根據相似量度，分群分析演算法會將資料做分群，使得各群內異質性小，但各群間異質性大。常用的分群分析演算法有分層式分群分析(hierarchical clustering)、非分層式分群分析(non-hierarchical clustering)以及同時應用兩者的二階段式分群分析(two-step clustering)。分層式分群分析法又分為凝聚(agglomerative)和分離(divisive)。其中凝聚分. 層法是將個別資料點視為一群，找出最相近的群體兩兩合併，直到所有資料合為一群為止。其依照對群體之間「距離定義」的不同分為單一聯結法、完全聯結法、帄均聯結法、中心法以及華德法；分離分層則是將所有資料視為一群，一次增加一群，直到所有資料點各被分為一群為止。非分層式分群分析法最具代表性的是K組帄均法(K-means)。其先確定分群的數目，選擇若干個資料點當作初始聚心(集群中心點)，然後計算每個觀察值到 5.

(13) 各群重心的距離，把每個觀察值歸入距重心最近的一群，再重新計算每一群的重心，反覆操作，直到沒有觀察值可以再調整為止。兩階段式分群分析法是指在第一階段先以凝聚分層法分群，決定選取的群數，第二階段再用此決定的群數，以K組帄均法進行分群。此種方法可以解決非分層式法主觀決定群數的問題，也可以改善分層式法無法將觀察點變換所屬群體的問題(陳正昌、程炳林、陳新豐、劉子鍵，2009)。. 第二節. 投影追蹤法的由來. Kruskal (1969 、 1972) 的兩篇論文，試圖建立一個密集指數 (index of condensation)，去找出能表現資料結構中叢聚特性的線性轉換。這也開啟了投影追蹤法的發展。後來， Friedman 與 Tukey (1974)的論文中，使用 Kruskal (1969、 1972)論文的概念，建立一套演繹流程，找尋可以表現資料結構中叢聚特性的投影的演算法。因為使用效果不錯，所以將此一演算法正式命名為投影追蹤 (projection pursuit) (鄭天澤、甘貴華，1990)。. 第三節. 傳統方法與投影追蹤法的介紹. 維度縮減的方法可以協助我們解決肉眼在高維度空間無法辨識圖形的問題，一些傳統方法與投影追蹤法皆是一種維度縮減的方法，但傳統方法與投影追蹤法也有不同的地方。以下的傳統方法較注重在變數間的距離。 (1)把 m 維變數用 n 種不同的線性組合方式呈現(n 遠小於 m)，且還能解釋原變數間的共變異數到某一滿意程度。例如主成份分析(principal component analysis)、因素分析(factor analysis) (鄭天澤、甘貴華，1990)。 (2)在原高維(m 維)變數中，選出一低維(n 維)子集，但資料點在這 n 維子集中仍能充分反映出原 m 維變數中的統計性質。例如分群分析(cluster analysis) 6.

(14) (鄭天澤、甘貴華，1990)。 (3)把 N 個資料點(樣本點)所屬的 m 維空間縮減到 n 維空間，去找出在 n 維空間中各資料點所構成的形相(configuration)，讓這 N 個資料點在該形相中各點間距離和原始 m 維空間中各資料點間的距離能相互配合。例如多元尺度分析(multidimensional scaling) (鄭天澤、甘貴華，1990)。投影追蹤法與上述方法最大的不同就是投影追蹤法並不間接地計算變數間的距離，再以這些距離做分析，而是使用數值方法直接找尋讓我們感興趣的 1 或 2 維度的投影方向，在這方向上能有最好的探測效果以及讓我們感興趣的特性。由 Fisherkeller 等人在1974年發展出一套PRIM-9交談式資料顯示系統，此系統是能將高維度資料(最高到9維)投影到2維度空間，然後透過電腦螢幕顯示出資料散佈的情形，這是一種由人為視覺控制的投影追蹤法(Friedman and Tukey， 1974)。其好處如下： (1) 資料經過投影後還可以旋轉投影軸，以便觀察資料在不同投影方向上的變化情形。 (2) 有掩飾和孤立的功能，可指定顯示出原高維度空間的任一子空間資料，而其它未指明部份則被移除。在多維度資料時，最廣泛使用維度縮減的方法就是線性投影，簡單來說，就是把多維度資料投影到 1 個或 2 個單位向量的方向上(Friedman and Tukey，1974)。其優點如下 (1) 較容易解釋 (2) 節省計算的資源. 7.

(15) (3) 相同的參數允許對非原始資料做相同的處理許多傳統線性處理的方法，例如主成份分析、因素分析等，皆可利用線性代數的原理去求解，所求出的解卻只是個全域的解，而投影追蹤法是運用數值方法，去找出多個有興趣的方向，對多維度資料結構的了解能更形透徹(鄭天澤、甘貴華，1990)。. 第四節. 投影指標. 所謂投影指標(projection index)就是將投影過後的資料，對於我們感興趣的特性，以函數形式呈現出來。決定出投影指標之後，利用數值方法求出最合適的解(此指投影方向)。故投影追蹤法的核心工作就是投影指標的設定，因為投影指標能顯示出使用者的目的與意圖(鄭天澤、甘貴華，1990)。 Friedman 與 Tukey (1974)所定義的投影指標，其目的就是要找出當資料整體分散程度不變時，能產生許多資料點之間的距離很小(即資料點密集)的投影方向，也就是說當資料投影後，能使分群的效果較好(鄭天澤、甘貴華，1990)。其投影指標定義如下：假設 X1 , … , XN 為原高維度資料點， k 為任意投影方向軸，則投影指標 P-index 為 𝛪(k) = s(k) × d(k)，其中. [ 1−p N ]. s k = i=[pN ]+1. (Xi ∙ k − X k )2 [ 1 − 2p N]. 為投影後且刪除極端值的標準差，[pN]表示比pN小的最大整數。此用來測量資. 8.

(16) 料的分散程度。 Xi 代表原始資料中第i筆資料點； Xk =. [ 1−p N] X i ∙k i=[pN ]+1 [ 1−2p N ]. 代表資. 料投影後且刪除極端值的帄均數； N 代表資料點的總數目； p 為將資料投影後排序，前後各刪減的百分比，目的是為了去除極端值可能對資料造成的影響。 N. N. d k =. f(rij ) × l(R − rij ) i=1 j=1. 為資料的局部密度。 rij = Xi ∙ k − Xj ∙ k ；R = 0.1 × (原始資料在 k 方向投影的標準差)；f r = R − r 為 r 的單調遞減函數； l R − rij =. 1 若rij < 𝑅 0 若rij ≥ R. 。. 決定出投影指標後，利用數值方法，開始於不同的起始方向，分別找出第一個投影方向使得 𝛪(k) 為最大值的解，有助於我們去勘查資料的結構(Friedman and Tukey，1974)。. 第五節. 投影追蹤法的演變與應用. 上節所述的投影指標的設定，就是投影追蹤法的核心所在，所以其往後的演變，便著重於投影指標的改進，像是如何針對不同目的設定合適的投影指標、甚至如何去簡化投影指標的計算。 Friedman 與 Tukey (1974)定義的投影指標，以及 Kruskal (1969、1972)定義的密集指標，他們的共同點都是為了資料的叢聚特性而定。然而 Huber (1985) 敘述了投影追蹤法的理論和相關產物。他所定義的指標具有仿射不變(affine invariant)的特質，意思是說：當資料位置與尺度改變時，並不會影響投影指標所代表意義的強度。Jones 和 Sibson (1987)是利用核密度估計法(kernel density estimation)推導出熵指標(entropy index)，但其牽涉到窗寬大小的選取，所以熵指標在計算上是非常的麻煩；進而推導出動差指標(moment index)，計算第三累差 9.

(17) 與第四累差(cumulant)，日後的資料則只需使用已計算出的累差值，大大降低了計算量，是較著重於投影追蹤法概念的應用。他們都認為需為整套投影追蹤法建立一個完善的體系，且在這體系中，投影追蹤法是個很有力的技術，遠超過 Friedman 與 Tukey (1974)所提到的，只對某特殊情況才能有效力。後來， Friedman (1987)提出一篇「探測性投影追蹤法」(exploratory projection pursuit)。探測性的工作是不摻揉任何模型在資料中，而能洞察並了解資料所呈現的整體特性。他先將資料做球形(sphering)處理，使每個變數的變異數為 1 而變數之間的相關係數為 0，即先把變數的線性關係消除，透過球形化後的資料出發，用投影追蹤法探測出資料的非線性結構。包括資料的叢聚性和資料點沿某曲線或曲面的趨勢(鄭天澤、甘貴華，1990)。後來，有不少學者將投影追蹤法的技術推廣，應用於分類(classification)、迴歸(regression)，和密度估計(density estimation)上。這些概念與 Friedman 與 Tukey (1974)的原始概念及做法有所不同，卻對往後多變量分析技術的開發有啟蒙作用 (鄭天澤、甘貴華，1990)。投影追蹤法是運用數值方法以及反覆求解去盡可能找出能顯露出資料結構特徵的方向。於是 Friedman 與 Stuetzle (1981)根據這個觀念，建立一個多維度資料結構模型的流程，進而完成投影追蹤迴歸法，後來， Friedman、Stuetzle 與 Schroeder (1984)完成投影追蹤密度估計法。 Li 與 Chen (1985)為了改進主成分分析的做法中極不穩建(robust)的缺失，用穩健尺度設定為投影追蹤法中的投影指標，則投影追蹤程序可求算穩健主成分，且可建立穩健離勢(dispersion)矩陣的估計量。且 Chen (1989)利用投影追蹤法建立一個穩健線性判別程序。 Nason (1995)提出了在三維度下的投影追蹤法。 Zhu. (2004)應用向前、向後演算法在. 投影追蹤上。Touboul (2010)提出了利用最小 ∅ -分歧的投影追蹤法。近年來，仍有許多學者在投影追蹤方面，不斷地進行研究、創新與應用(鄭天澤、甘貴華， 1990)。 10.

(18) 第三章研究方法多維度資料由高維度投影到低維度通常會損失一些訊息，其結構的特性在每一投影方向不太可能都顯現出來。而投影追蹤法的主要目的是去找尋一些方向，而這些方向是能呈現出讓我們感興趣的資料結構特性。投影追蹤法的核心工作就是投影指標的設定，因為投影指標能顯示出使用者的目的與意圖。所謂投影指標就是將投影過後的資料，對於我們感興趣的特性，以函數形式呈現出來。決定出投影指標之後，利用數值方法求出最合適的解(此指投影方向)。. 第一節. 投影追蹤演算法. 本文的研究方法是，運用 Friedman 與 Tukey (1974)所提到的演算法，其一維度演算法在第二章第四節已經介紹，以下則介紹二維度演算法，如下：假設 X1 , … , XN 為原始高維度資料點， k 、 l 為任意投影方向軸，則二維度的投影指標定義如下： I k , l = s(k, l) × d(k, l )，其中. s k =. 2 [ 1−p N] (X i ∙k −X k ) ， i=[pN ]+1 [ 1−2p N]. s l =. 2 [ 1−p N ] (X i ∙l−X l ) 。 i=[pN ]+1 [ 1−2p N]. s k, l = s k × s l 為投影後且刪除極端值的標準差。 11.

(19) N. N. d k, l =. f rij × l R − rij i=1 j=1. 為資料的局部密度。 rij =. (Xi ∙ k − Xj ∙ k )2 + (Xi ∙ l − X j ∙ l)2 ；R = 0.1 × (原始資料在 k 方向投影的標. 準差)； l R − rij =. 第二節. 1 若rij < 𝑅 0 若rij ≥ R. ；f r = R2 − r 2。. 如何找尋最終投影指標. 因為需要一個起始方向當作基準點，本文採用兩種不同的起始方向，分別為「單位向量方向」和「主成份方向」為起始方向，另外嘗試使用兩種方法去找尋較大的投影指標所對應的最終投影方向，分別為「以固定起始方向去找尋最終投影方向」和「以更新投影方向去找尋最終投影方向」。其中限制式定義如下：一維度新投影方向的限制式定義： k new ∙ v1 = v， k new 代表新的投影方向；v 1 則為「單位向量方向」和「主成份方向」兩種方法中的最大投影指標方向為起始方向；v 代表一隨機變數。二維度新投影方向的限制式定義如下： k new ∙ v1 = v， lnew ∙ v2 = v′， k new 、l new 代表新的投影方向；v1、v2 則為「單位向量方向」和「主成份方向」兩種方法中的最大投影指標方向為起始方向；v、v ′ 代表一隨機變數。 12.

(20) 為了去找尋能夠使投影指標為較大的投影方向，運用更新方法，反覆求取新的投影指標，直到重複求得的投影指標連續1000次都比此投影指標小就停止，此時的投影指標所對應的投影方向就定為最終投影方向，並探索由「單位向量方向」和「主成份方向」為起始方向去找到最終投影方向的差異。. 第三節. 投影指標大小之探索. 為了要去探索「投影方向所對應的投影指標值越大，表示資料點經此方向投影後的投影點是否較為密集」，於是先利用更新方法去找尋投影指標後，再把原始資料投影到不同大小的投影指標所對應的投影方向之後，一維度投影追蹤法則繪出其經投影後的直方圖，計算其各群內資料點的變異數；二維度投影追蹤法則繪出其經投影後的散佈圖，並計算其各群內資料點的共變異數矩陣，再去比較它們的變異數與共變異數矩陣裡面的值，值越小代表資料投影後越密集。. 第四節. 錯誤判斷率. 期望資料先透過投影追蹤再進行分群分析的效果會比資料直接進行分群分析的能有較好的分群效果。於是先把原始資料經過投影追蹤法找尋到的最終投影方向投影後去做分群分析，並與未經過投影追蹤而直接使用原始資料去做分群分析，透過分群分析的結果去求算其錯誤判斷率，此錯誤判斷率是指資料點原屬於 A 群，但卻判斷不是 A 群的機率，探索比較資料經投影追蹤法分群與未經投影追蹤法分群的錯誤判斷率。. 13.

(21) 第四章模擬方法與結果本章先介紹資料來源，再以Iris資料來說明一維度和二維度投影追蹤演算法的流程。接著針對本文的研究目的中，所提到想探索的三個問題，使用以Iris資料的參數所模擬產生的模擬資料，透過一維和二維的投影追蹤演算法的結果，去進行探索分析與討論。. 第一節. 資料介紹. Iris 資料是一筆實際的資料，是由 R. A. Fisher 紀錄的，也許是最知名的資料庫，經常被引用於許多學術分析上，例如：多變量分析。其資料內容如下： 1.. 每一品種皆有 50 筆資料，一共 150 筆。. 2.. 有三個品種(三群)，分別是 Iris setosa (1~50)、Iris versicolor (51~100)、Iris virginica(101~150)。. 3.. 有四個變數(四維度)的資料，分別是花萼長、花萼寬、花瓣長以及花瓣寬。將以 Iris 資料的帄均數向量與共變異數矩陣去模擬生成資料。模擬內容分別. 如下：每一筆資料的前 50 個資料點由多變量常態分配 MN(𝜇1 , Σ1 ) 生成，中間 50 個資料點由 MN 𝜇2 , Σ2 生成，後 50 個資料點由 MN 𝜇3 , Σ3 生成。總共生成 100 筆模擬資料，每筆資料皆有 150 個資料點。 0.124 𝜇1 = 5.006,3.418,1.464,0.244 ，Σ1 = 0.100 0.016 0.011 0.266 𝜇2 = 5.936,2.770,4.260,1.326 ，Σ2 = 0.085 0.183 0.056. 14. 0.100 0.145 0.012 0.011 0.085 0.098 0.083 0.041. 0.016 0.012 0.030 0.006 0.183 0.083 0.221 0.073. 0.011 0.011 ， 0.006 0.011 0.056 0.041 ， 0.073 0.039.

(22) 0.404 𝜇3 = 6.588,2.974,5.552,2.026 ，Σ3 = 0.094 0.303 0.049. 0.094 0.104 0.071 0.048. 0.303 0.071 0.305 0.049. 0.049 0.048 ， 0.049 0.075. 其中 𝜇1 , Σ1 ；𝜇2 , Σ2 ；𝜇3 , Σ3 分別為 Iris setosa、Iris versicolor、Iris virginica 的帄均數向量與共變異數矩陣。. 第二節. 以Iris資料進行投影追蹤演算法. 使用Iris原始資料進行一維度投影追蹤演算法，分別以「單位向量方向」以及「主成份方向」兩種方式求算投影指標 I k ，其結果如表1。表 1 一維度 Iris 資料-起始投影指標單位向量 k. 投影指標. [1;0;0;0] [0;1;0;0]. 241.0676 237.9909. [0;0;1;0]. 503.4586. [0;0;0;1]. 376.6617. 主成份向量 k 第一主成分：[0.891;-0.449;0.992;0.965]. 467.7002. 第二主成分：[0.357;0.888;0.020;0.063]. 225.2341. 第三主成分：[-0.277;0.093;0.054;0.243]. 220.5051. 第四主成分：[-0.038;0.018;0.115;-0.075]. 376.4932. 為了找出新的投影方向，需先以起始方向當作基準點，再透過限制式，去找尋新的投影指標值。例如：選擇較大的投影指標當作基準點以「單位向量方向」的方法，則起始方向為 [0;0;1;0] ；以「主成份方向」的方法，則起始方向為 [0.891;-0.449;0.992;0.965]。有了起始方向當作基準點，就可以透過更新方法，去找尋新的投影方向，其找尋新投影方向的限制式定義如下： k new ∙ v1 = v， 15.

(23) 其中 k new 代表新的投影方向；v1 則為上述兩種方法中的最大投影指標方向的起始方向；v 代表一隨機變數。依找尋新投影方向的選取型態之不同可分為 (i). 以固定起始方向 v1 去找尋新投影方向其中起始方向 v1 是「單位向量方向」以及「主成份方向」方法中的最大投影指標的方向向量，如果找到的新投影方向 k new 使得投影指標比起始方向 v1 的投影指標來得大，還是以起始方向 v1，繼續找尋可能存在的另一新投影方向使得投影指標較大。直到新投影方向的投影指標比之後連續1000次找到的投影方向的投影指標皆來得大，則此新投影方向則定為最終投影方向。此方法稱為「以固定起始方向去找尋最終投影方向」。表 2 一維度 Iris 資料-以固定起始方向找尋最終投影指標. 起始方向 k. 投影指標. 停止方向 k new. 投影指標. [0;0;1;0]. 503.4586. [0.2788;-0.2881;0.8268;0.3947]. 523.5453. [0.891;-0.449;0.992;0.965]. 467.7002. [0.1724;-0.1812;0.9286;0.2742]. 523.4028. 16.

(24) 圖 1 固定起始方向以單位向量方向之最終投影方向與資料投影值的直方圖. 圖 2 固定起始方向以主成份方向之最終投影方向與資料投影值的直方圖. (ii). 以更新投影方向 v1new 去找尋另一新投影方向其中起始方向 v1 是「單位向量方向」以及「主成份方向」方法中的最大投影指標的方向向量，但如果找到的新投影方向 k new 使得投影指標比起始方向 v1 的投影指標來得大，則新投影方向取代了起始方向(令 k new = v1new )，繼續找尋可能存在的另一新投影方 17.

(25) 向使得投影指標較大。直到新投影方向的投影指標比之後連續 1000次找到的投影方向的投影指標皆來得大，則此新投影方向則定為最終投影方向。此方法稱為「以更新投影方向去找尋最終投影方向」。表 3 一維度 Iris 資料-以更新投影方向找尋最終投影指標起始方向 k. 投影指標. 停止方向 k new. 投影指標. [0;0;1;0]. 503.4586. [0.0209;-0.1175;0.8101;0.5740]. 530.5344. [0.891;-0.449;0.992;0.965]. 467.7002. [0.2545;-0.1891;0.7052;0.6342]. 522.3540. 圖 3 更新投影方向以單位向量方向之最終投影方向與資料投影值的直方圖. 18.

(26) 圖 4 更新投影方向以主成份方向之最終投影方向與資料投影值的直方圖由一維度投影追蹤法，由表 2、表 3 可以看出，無論起始方向是以「單位向量方向」或「主成份方向」分別以「以固定起始方向去找尋最終投影方向」和「以更新投影方向去找尋最終投影方向」，去求得的最終投影指標並沒有太大的差異。並且由圖 1、圖 2、圖 3、圖 4 可以看出，無論是「以固定起始方向去找尋最終投影方向」和「以更新投影方向去找尋最終投影方向」經兩種方法找尋到的最終投影方向投影後的直方圖，皆能明顯的將資料分為兩群。再來說明二維度投影追蹤演算法的流程。同樣使用Iris原始資料，分別以「單位向量方向」以及「主成份方向」兩種方式求算投影指標 I k, l ，此段考慮二維度空間，兩向量相同便不考慮，如k =[1;0;0;0]、l =[1;0;0;0]；而對稱性向量則選取一個，如 k =[1;0;0;0]、l =[0;1;0;0]和 k =[0;1;0;0]、l =[1;0;0;0]視為相同。其結果如表4。. 19.

(27) 表 4 二維度 Iris 資料-起始投影指標單位向量 k, l. 投影指標. [1;0;0;0]、[0;1;0;0]. 6.2330. [1;0;0;0]、[0;0;1;0]. 22.9106. [1;0;0;0]、[0;0;0;1] [0;1;0;0]、[0;0;1;0]. 13.1698 12.5755. [0;1;0;0]、[0;0;0;1]. 9.0340. [0;0;1;0]、[0;0;0;1]. 45.1582. 主成分向量 k, l [0.891;-0.449;0.992;0.965]、[0.357;0.888;0.020;0.063]. 13.5098. [0.891;-0.449;0.992;0.965]、[-0.277;0.093;0.054;0.243]. 14.3094. [0.891;-0.449;0.992;0.965]、[-0.038;0.018;0.115;-0.075]. 40.4937. [0.357;0.888;0.020;0.063]、[-0.277;0.093;0.054;0.243]. 4.2514. [0.357;0.888;0.020;0.063]、[-0.038;0.018;0.115;-0.075]. 8.6153. [-0.277;0.093;0.054;0.243]、[-0.038;0.018;0.115;-0.075]. 8.4842. 為了找出新的投影方向，需先以起始方向當作基準點，透過限制式，去找尋新的投影指標值。例如：選擇較大的投影指標當作基準點以「單位向量方向」的方法，則起始方向為[0;0;1;0]、[0;0;0;1]；以「主成份方向」的方法，則起始方向為 [0.891;-0.449;0.992;0.965]、[-0.038;0.018;0.115;-0.075]。有了起始方向當作基準點，就可以透過更新方法，去找尋新的投影方向，其找尋新投影方向的限制式定義如下： k new ∙ v1 = v， lnew ∙ v2 = v′，其中， k new 、l new 代表新的投影方向；v1 、v2 則為上述兩種方法中的最大投影指標方向的起始方向；v、v ′ 代表一隨機變數。依選取型態之不同可分為 20.

(28) (i). 以固定起始方向 v1、v 2 去找尋新投影方向其中起始方向 v1、v 2 是「單位向量方向」以及「主成份方向」方法中的最大投影指標的方向向量，如果找到的新投影方向 k new 、 lnew 使得投影指標比起始方向 v1、v2 的投影指標來得大，還是以起始方向 v1、v 2，繼續找尋可能存在的另一新投影方向使得投影指標較大。直到新投影方向的投影指標比之後連續1000次找到的投影方向的投影指標皆來得大，則此新投影方向定為最終投影方向。此方法稱為「以固定起始方向去找尋最終投影方向」。表 5 二維度 Iris 資料-以固定起始方向找尋最終投影指標. 起始方向 k、l. 投影指標. [0;0;1;0]、[0;0;0;1]. 45.1582. [0.891;-0.449;0.992;0.965]、 [-0.038;0.018;0.115;-0.075]. 40.4937. 停止方向 k new 、l new [0.5743;-0.5673;0.4213;0.4135]、 [0.3824;-0.4769;0.7602;0.2201] [0.4381;-0.4255;0.7103;-0.350]、 [0.3121;-0.1089;0.7598;-0.5599]. 投影指標 113.8985 76.5406. 圖 5 固定起始方向以單位向量方向之最終投影方向與資料投影值的散佈圖. 21.

(29) 圖 6 固定起始方向以主成份方向之最終投影方向與資料投影值的散佈圖 (ii). 以更新投影方向 v1new 、v2new 去找尋另一新投影方向其中起始方向 v1、v 2 是「單位向量方向」以及「主成份方向」方法中的最大投影指標的方向向量，但如果找到的新投影方向 k new 、 lnew 使得投影指標比起始方向 v1、v2 的投影指標來得大，則新投影方向取代了起始方向(令 k new = v1new 、lnew = v2new )，繼續找尋可能存在的另一新投影方向使得投影指標較大。直到新投影方向的投影指標比之後連續1000次找到的投影方向的投影指標皆來得大，則此新投影方向定為最終投影方向。此方法稱為「以更新投影方向去找尋最終投影方向」。. 22.

(30) 表 6 二維度 Iris 資料-以更新投影方向找尋最終投影指標起始方向 k、l. 投影指標. 停止方向 k new 、l new. 投影指標. [0;0;1;0]、[0;0;0;1]. 45.1582. [0.2271;-0.2662;0.5229;0.7773]、 [0.0947;-0.1864;0.4802;0.8519]. 142.1545. [0.891;-0.449;0.992;0.965]、 [-0.038;0.018;0.115;-0.075]. 40.4937. [0.2890;-0.3214;0.6608;0.6136]、 [0.2227;-0.0007;0.6709;0.7074]. 124.1694. 圖 7 更新投影方向以單位向量方向之最終投影方向與資料投影值的散佈圖. 圖 8 更新投影方向以主成份方向之最終投影方向與資料投影值的散佈圖 23.

(31) 依二維度投影追蹤演算法，由表 5、表 6 可以看出，雖然起始方向以「單位向量方向」比「主成份方向」分別以「以固定起始方向去找尋最終投影方向」和「以更新投影方向去找尋最終投影方向」，去求得的最終投影指標皆來的大些，但是由圖 5、圖 6、圖 7、圖 8 可以看出，無論是「以固定起始方向去找尋最終投影方向」和「以更新投影方向去找尋最終投影方向」經兩種方法找尋到的最終投影方向投影後的散佈圖，皆能明顯的將資料分為兩群。. 第三節. 投影指標值之探索. 由圖 1 到圖 8 中，都可以看出當資料點透過最終投影方向之投影後，皆明顯的分為兩群。以下就針對圖 1 到圖 8 各別所對應的投影指標，探索「投影方向所對應的投影指標值越大，表示資料點經此方向投影之後較為密集」這個問題。因為由肉眼並無法看出當資料投影後的密集程度，於是一維度則以變異數的大小來代表各群中資料點的密集程度；二維度則以共變異數矩陣來代表各群中資料點的密集程度。由表 7 來看，一維度中，當 P-index = 523.5453 時，其所對應之第一群與第二群的變異數的值中比當 P-index = 522.3540 時所對應之第一群與第二群的變異數的值皆來得大；二維度中，當 P-index = 142.1545 時，其所對應之第一群的共變異數矩陣值中的 0.0239 與 0.0200 比當 P-index = 76.5406 時所對應之第一群的共變異數矩陣值中的 0.0297 與 0.0266 來得小；但是，其所對應之第二群的共變異數矩陣值中的 0.6396 與 0.5450 比當 P-index = 76.5406 時所對應之第二群的共變異數矩陣值中的 0.4497 與 0.3829 來得大，且 P-index = 113.8985 時的第二群共變異數矩陣的行列式值比 P-index = 76.5406 時的第二群共變異數矩陣的行列式值來得大。故由表 7 可以知道，投影指標值越大，資料點經投影後並非越來越密集。. 24.

(32) 表 7 比較不同投影指標下各分群的密集程度指標值 P-index =. 第一群的變異數. 第二群的變異數. 530.5344. 0.0274 第一群的變異數. 0.7578 第二群的變異數. 0.0333 第一群的變異數. 0.8658 第二群的變異數. 0.0330. 0.8623. P-index = 522.3540. 第一群的變異數. 第二群的變異數. 0.0316. 0.8499. P-index =. 第一群的變異數. 第二群的變異數. 503.4586 P-index =. 0.0301 第一群的變異數. 0.6816 第二群的變異數. 467.7002. 0.1252. 2.5572. 第一群的共變異數矩陣. 第二群的共變異數矩陣. P-index = 523.5453. 一維度. P-index = 523.4028. P-index = 142.1545. P-index = 124.1694. 0.0239 0.0214. 0.0214 0.0200. 的行列式值=0.0025. 第一群的共變異數矩陣. 第二群的共變異數矩陣. 0.0293 0.0281. 0.0281 0.0390. 0.0335 0.0319. 0.0319 0.0348. 的行列式值=0.00014 第一群的共變異數矩陣. 二維度 P-index = 76.5406. P-index = 45.1582. P-index = 40.4937. 0.5883 0.5450. 的行列式值=0.00002. 的行列式值=0.0004 第一群的共變異數矩陣 P-index = 113.8985. 0.6396 0.5883. 0.0297 0.0240. 0.0240 0.0266. 0.7654 0.8164. 0.8164 0.8808. 的行列式值=0.0077 第二群的共變異數矩陣 0.5463 0.6212. 0.6212 0.7155. 的行列式值=0.0050 第二群的共變異數矩陣 0.4497 0.4118. 0.4118 0.3829. 的行列式值=0.00021. 的行列式值=0.0026. 第一群的共變異數矩陣. 第二群的共變異數矩陣. 0.0301 0.0057. 0.0057 0.0115. 0.6816 0.2887. 0.2887 0.1804. 的行列式值=0.00003. 的行列式值=0.0396. 第一群的共變異數矩陣. 第二群的共變異數矩陣. 0.1252 0.0009. 0.0009 0.0004. 的行列式值=0.01564 25. 2.5572 0.0749. 0.0749 0.0029. 的行列式值=0.0018.

(33) 另外投影指標值越大是否代表兩群資料能有明顯的分群。在此使用模擬資料，將每筆模擬資料分為三組，分別是第一族群與第二族群、第一族群與第三族群、第二族群與第三族群。利用上述投影追蹤演算法分別去求得投影指標值，目的是想探索投影指標值的大小，是否代表兩群資料較能顯示分群，其 100 次的模擬結果則在附錄的表 11，下表則為 100 次模擬結果的帄均數與標準差。表 8 三種不同組合資料的投影指標值一維度. 二維度. 1和2. 1和3. 2和3. 1和2. 1和3. 2和3. 帄均數. 244.5170. 674.3790. 41.2992. 32.6980. 185.7840. 1.8530. 標準差. 36.3411. 69.1974. 6.9175. 9.0384. 49.9621. 0.6610. 註：1、2、3 分別代表模擬資料之第一、二、三族群。. 由上表 8 看出，無論是第一族群與第二族群、第一族群與第三族群、第二族群與第三族群的資料在一維度的投影指標皆比二維度的投影指標來得大。雖然在二維度上，第一族群與第三族群在這些模擬中，找到的投影指標值變化較大，但是也都比第一族群與第二族群、第二族群與第三族群皆來得大。以一維度來看，第一族群與第三族群的帄均投影指標約為第一族群與第二族群的帄均投影指標的 2.8 倍；第一族群與第三族群的帄均投影指標約為第二族群與第三族群的帄均投影指標的 16.3 倍；二維度中，第一族群與第三族群的帄均投影指標約為第一族群與第二族群的帄均投影指標的 5.7 倍；第一族群與第三族群的帄均投影指標約為第二族群與第三族群的帄均投影指標的 100.3 倍；(由圖 5、圖 6、圖 7、圖 8 中，其中小黑點是第一族群的資料、正方形是第二族群的資料、圓圈是第三族群的資料)。由這四個圖可以看出，第一族群與第三族群最遠，第二族群與第三族群最近，由表 8 得知，無論在一維度或二維度，兩族群距離遠，則投影指標相對較大。. 26.

(34) 第四節. 投影追蹤法與分群分析法之比較. 以不同的起始方向當作基準點，用兩種不同的選取方式去找尋到的最終投影指標，並沒有明顯的差異，而且皆能使原始資料透過投影後，也能顯示分群的結果。然而，Iris 資料的 Iris versicolor、Iris virginica 這兩群中，有些資料點是較不容易明顯的區分，故很難使這兩群分群明顯。此節用 100 組不同的模擬資料進行投影追蹤演算法，其演算法中，一維則皆用[0;0;1;0]當作起始投影方向；二維則皆用[0;0;1;0]、[0;0;0;1]當作起始投影方向，有了這些起始方向當作基準點之後，以更新方法，去找尋最終投影方向，讓原始資料投影在最終投影方向上，再把這些投影後的資料點，利用 SPSS 的分群分析之分層集群去做分析，最後各別求算每組資料的錯誤判斷個數，並將原始資料一樣透過 SPSS 的分層集群法去做分析，其中群間距離測定方法，則分別使用五種最常見的方法，分別為最近鄰法 (Nearest neighbor)又稱單一聯結法、最遠鄰法(Furthest neighbor)又稱完全聯結法、帄均聯結法(Average linkage)、中心法(Centroid method)以及華德法(Ward’s method)，最後去探索比較此五種方法的結果，其五種方法的 100 次模擬結果分別在附錄的表 12 至表 16。下表 9 則為 100 次模擬結果的帄均數與標準差以及檢定值。. 27.

(35) 表 9 錯誤判斷個數與 F 檢定值. 單一聯結法. 完全聯結法. 帄均聯結法. 中心法. 華德法. 帄均數. 標準差. 原始資料. 48.74. 0.75. 一維投影追蹤法. 47.85. 2.83. 二維投影追蹤法. 47.5. 4.67. 原始資料. 21.56. 9.56. 一維投影追蹤法. 16.21. 7.86. 二維投影追蹤法. 16.97. 9.39. 原始資料. 27.30. 16.21. 一維投影追蹤法. 17.06. 13.05. 二維投影追蹤法. 20.33. 15.61. 原始資料. 30.06. 13.02. 一維投影追蹤法. 17.72. 9.37. 二維投影追蹤法. 19.66. 9.66. 原始資料. 17.44. 6.62. 一維投影追蹤法. 12.89. 5.85. 二維投影追蹤法. 13.31. 6.04. F值. P值. 4.03. 0.002. 10.42. <0.001. 12.13. <0.001. 37.68. <0.001. 16.54. <0.001. 由此表我們可以看出，在五種方法中，除了單一聯結法外，當原始資料透過投影追蹤法去找尋到的最終投影方向之投影點，再透過 SPSS 之分層集群分析去求算的錯誤判斷個數的帄均數，不管是在一維度投影追蹤法或二維度投影追蹤法，皆比未透過投影追蹤法明顯來得低，尤其是以中心法更為明顯。在標準差方面，因為單一聯結法，把第二群資料與第三群資料都幾乎判斷為同一群，所以其判斷錯誤個數的帄均數都比較高，其標準差就相對來得小；其他方法則是未透過投影追蹤法的標準差皆比透過一維或二維投影追蹤法來得高些。以變異數分析去做分析時，在虛無假設 Η0 ：原始資料的錯誤判斷個數的帄均數等於一維投影追蹤法的錯誤判斷個數的帄均數等於二維投影追蹤法的錯誤判斷個數的帄均數下，α = 0.05，則臨界值=3。在表 9 中，五種不同的群間距離測定方法，它們的 F. 2,99. 值皆都大於 3，且 P-value 也都小於 0.05，五種方法都. 拒絕了虛無假設，代表著其原始資料、一維投影追蹤法和二維投影追蹤法的錯誤判斷個數的帄均數至少有一個是與其它兩個帄均數不同。 28.

(36) 從變異數分析表知，原始資料、一維投影追蹤法和二維投影追蹤法的錯誤判斷個數的帄均數至少有一個是與其它兩組帄均數不同，於是則繼續做事後檢定，去看是哪一個或者是全部帄均數皆不相同，在事後檢定的方法中，首先要先檢定變異數有沒有相等，在顯著水準α = 0.05 下，如果顯著值大於 0.05 ，代表變異數是相等的，則使用 LSD 去做事後檢定；如果顯著值小於 0.05，則使用 Tamhane 檢定去做事後檢定。去驗證原始資料的錯誤判斷個數的帄均數比一維投影追蹤法的錯誤判斷個數的帄均數和二維投影追蹤法的錯誤判斷個數的帄均數是有明顯差異的，其檢定結果如表 10。發現五種不同的群間距離測定方法，在顯著水準 α = 0.05 下，原始資料的錯誤判斷個數的帄均數對於一維投影追蹤法的錯誤判斷個數的帄均數與二維投影追蹤法的錯誤判斷個數的帄均數都是有顯著的差異，代表著原始資料的錯誤判斷個數的帄均數明顯不同於一維投影追蹤法的錯誤判斷個數的帄均數和二維投影追蹤法的錯誤判斷個數的帄均數。而一維投影追蹤法與二維投影追蹤法之帄均錯誤判斷個數則無顯著的差異。. 29.

(37) 表 10 事後檢定值兩兩比對單一聯結法 (變異數同質性檢定值， P 值=0.000 < α = 0.05, Tamhane 檢定). 完全聯結法 (變異數同質性檢定值， P 值=0.272 > α = 0.05, LSD 檢定). 帄均聯結法 (變異數同質性檢定值， P 值=0.000 < α = 0.05, Tamhane 檢定). 中心法 (變異數同質性檢定值， P 值=0.000 < α = 0.05, Tamhane 檢定). 華德法 (變異數同質性檢定值， P 值=0.212 > α = 0.05, LSD 檢定). 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3. P值 2. 0.009. 3. 0.030. 1. 0.009. 3. 0.891. 1. 0.030. 2. 0.891. 2. <0.001. 3. <0.001. 1. <0.001. 3. 0.549. 1. <0.001. 2. 0.549. 2. <0.001. 3. 0.007. 1. <0.001. 3. 0.294. 1. 0.007. 2. 0.294. 2. <0.001. 3. <0.001. 1. <0.001. 3. 0.388. 1. <0.001. 2 2. 0.388 <0.001. 3. <0.001. 1 3. <0.001 0.631. 1. <0.001. 2. 0.631. 註：1 代表原始資料、2 代表一維度投影追蹤法投影資料、3 代表二維度投影追蹤法投影資料。. 30.

(38) 第五章結論投影追蹤法的核心工作就是投影指標的設定，投影指標的不同設定，可能會導致投影追蹤法有不同的結果(鄭天澤、甘貴華，1990)。由本文第四章的模擬方法與結果中，雖然驗證了投影指標值越大，並非使得投影後的資料點越密集，但是卻能由投影指標看出，投影指標越大，可能代表資料點越能明顯的分群，至於投影指標要多大才能使資料明顯分群，或者是投影指標要多小才能判斷出資料是不能分群的，這個問題還有待探索。探索當資料點先透過投影追蹤法，去找尋到的最終投影方向的投影點，再與未經過投影追蹤法的資料點，使用 SPSS 之分層集群法去做分析，分別去求算其錯誤判斷率，雖然並非每一筆的模擬資料，其一維度或二維度的錯誤判斷率比原始資料低，但是就全部模擬資料的錯誤判斷個數的帄均數而言，不管其群間距離測定方法為何，一維度或二維度的錯誤判斷個數皆比原始資料小。以變異數分析的角度來看，不同的群間距離測定方法對於三種不同的資料型態(原始資料、一維度投影追蹤法以及二維度投影追蹤法)的 F 值與 P-value 皆是顯著的，代表著這三種不同資料型態的錯誤判斷個數的帄均數至少有一個與其它是不相同的。由事後檢定值表格可以看出，原始資料的錯誤判斷個數的帄均數明顯不同於一維投影追蹤法的錯誤判斷個數的帄均數及二維投影追蹤法的錯誤判斷個數的帄均數，然而一維度投影追蹤法與二維度投影追蹤法之帄均錯誤判斷個數無顯著差異。這也說明對於 Iris 資料而言，因為二維度投影追蹤法的結果並沒有比一維度投影追蹤法的結果的好，所以使用一維度投影追蹤法去做分析即可。本文仍有許多未完善之處，像這次的研究探討，只著重在資料中只有兩、三個群數，但現實資料中可能是有多個群數，應以更多實際資料去做探討；然而當資料中有部分重疊時，要用什麼方式，才能夠使資料明顯的分群。這些是本研究未來要努力研究的方向。. 31.

(39) 參考文獻 1.. Chen, Z. Y. (1989). Robust linear discriminant procedures using projection pursuit methods. Ph.D. dissertation, University of Michigan.. 2.. Friedman, J. H. (1987).. Exploratory projection pursuit.. Journal of the. American Statistical Association, 82, 249-266. 3.. Friedman, J. H. and Tukey, J. W. (1974).. A projection pursuit algorithm for. exploratory data analysis. IEEE Transactions on Computers, 9, 881-890. 4.. Friedman, J. H. and Stuetzle, W. (1981).. Projection pursuit regression.. Journal of the American Statistical Association, 76, 817-823. 5.. Fisherkeller, M. A., Friedman, J. H. and Tukey, J. W. (1974). “PPRIM-9: An interactive. multidimensional. data. display. and. analysis. system ” .. SLACPUB-1408. 6.. Friedman, J. H., Stuetzle, W. and Schroeder, A. (1984). Projection pursuit density estimation. Journal of the American Statistical Association, 79, 599-608.. 7.. Huber, P. J. (1985).. Projection pursuit.. The Annals of Statistics, 13, 2,. 435-475. 8.. Jones, M. C. and Sibson, R. (1987).. What is projection pursuit.. Journal of the. Royal Statistical Society, 150, 1, 1-37. 9.. Kruskal, J. B. (1969). Toward a practical method which helps uncover the structure of a set of multivariate observations by finding the linear transformation which optimizes a new index of condensation. In statistical computation (Milton, R. C. and Nelder, J. A. Ed.), 427-440. New York: 32.

(40) Academic Press. 10. Kruskal, J. B. (1972). Linear transformation of multivariate data to reveal clustering, in multivariate scaling: theory and applications in the behavioral sciences. Volume 1, 179-191, New York and London: Seminar Press. 11. Li, G. and Chen, Z. (1985). Projection pursuit approach to robust dispesion matrices and principal components: primary theory and monte carlo. Journal of the American Statistical Association, 80, 759-766. 12. Nason, G. P. (1995). Three-dimensional projection pursuit. J. R. Statist. Soc. C, 44, 411-430. 13. Touboul J. (2010). Projection pursuit through ∅-divergence minimization. Entropy 12, no. 6: 1581-1611. 14. Zhu M. (2004). On the forward and backward algorithms of projection pursuit. The Annals of Statistics, 32(1), 233-244. 15. 林師模，陳苑欽 (2003)。多變量分析，雙葉書廊，台北市。 16. 陳正昌，程炳林，陳新豐，劉子鍵 (2009)。多變量分析方法-統計軟體應用第五版，五南，台北市。 17. 鄭天澤，甘貴華 (1990)。投影追蹤法近年研究之回顧。中國統計學報第 28 卷第 2 期，213-226。. 33.

(41) 附錄一維度演算法 close all clear all. periodBase = [1:100];. startPeriod = periodBase(1); % beginning period to test endPeriod = periodBase(length(periodBase)); % end period to test periodToDo = startPeriod:endPeriod; deVal = []; deVec1 = []; deVec2 = []; for dataInd = 1:length(periodToDo) period = periodToDo(dataInd) ind = period; [X text] = xlsread(['totalData\' num2str(ind) '.xlsx']);. N = 150; k = [0;0;1;0]; p = 0.01;. K2 = []; K5 = []; for i = 1:N K = (X(i,:)*k); K2 = [K2;K]; K3 = sort(K2); end for i = floor(p*N):floor((1-p)*N) K4 = K3(i); K5 = [K5;K4]; end Xk = sum(K5)/(floor((1-p)*N)-floor(p*N)); s = sqrt(sum(((K5-Xk).^2)./(floor((1-p)*N)-floor(p*N))));. 34.

(42) T5 = []; f = k/norm(k); for i = 1:N T4 = (X(i,:)*f); T5 = [T5;T4]; end Tk = sum(T5)/(N); Ts = sqrt(sum(((T5-Tk).^2)./(N-1)));. D5 = []; for i = 1:N i; D3 = []; for j = 1:N r(i,j) = abs(K2(i,1)-K2(j,1)); rr = ((0.1*Ts)-r(i,j)); if rr > 0 D3 = [D3;rr]; else D3 = [D3;0]; end end D4 = sum(D3); D5 = [D5;D4]; end d = sum(D5); I = s*d;. c = 0; count = 0; % save_I = []; % save_II = []; % recall = []; g = []; m = []; g = [g;k']; m = [m;I]; B = [0 0 1 0]; 35.

(43) while(count ~= 1000) c = c+1; e = count; k = as_2(B); K2 = []; K5 = []; for i = 1:N K = (X(i,:)*k); K2 = [K2;K]; K3 = sort(K2); end for i = floor(p*N):floor((1-p)*N) K4 = K3(i); K5 = [K5;K4]; end Xk = sum(K5)/(floor((1-p)*N)-floor(p*N)); s = sqrt(sum(((K5-Xk).^2)./(floor((1-p)*N)-floor(p*N))));. T5 = []; f = k/norm(k); for i = 1:N T4 = (X(i,:)*f); T5 = [T5;T4]; end Tk = sum(T5)/(N); Ts = sqrt(sum(((T5-Tk).^2)./(N-1)));. D5 = []; for i = 1:N D3 = []; for j = 1:N r(i,j) = abs(K2(i,1)-K2(j,1)); rr = ((0.1*Ts)-r(i,j)); if rr > 0 D3 = [D3;rr]; else D3 = [D3;0]; end 36.

(44) end D4 = sum(D3); D5 = [D5;D4]; end d = sum(D5); I_1 = s*d; %. recall = [recall; c I_1]; g = [g;k']; m = [m;I_1]; if I_1> I for i = 1:size(B,1)-1 BB(i+1,:) = B(i,:); end BB(1,:) = k'; B = BB;. %. save_I = [save_I;I];. %. save_II = [save_II;e]; I = I_1; count = 0; else count = count+1; end end. [V,I] = max(m); % ans1 = size(save_I,1) % ans2 = max(save_II) % ans3 = I ans4 = g(I,:); deVal = [deVal; V]; deVec1 = [deVec1; ans4];. k = (g(I,:))'/norm((g(I,:))'); K2 = []; I2 = []; MI = []; J2 = []; for i = 1:N 37.

(45) K = (X(i,:)*k); K2 = [K2;K]; end. for i = 1:150 jj = i; J2 = [J2;jj]; end. MI = [K2 J2]; file =['totalData1\' num2str(dataInd) '.xlsx']; delete(file); SUCCESS = xlswrite(file,MI); end. 38.

(46) 二維度演算法 close all clear all. periodBase = [1:100];. startPeriod = periodBase(1); % beginning period to test endPeriod = periodBase(length(periodBase)); % end period to test periodToDo = startPeriod:endPeriod; deVal = []; deVec1 = []; deVec2 = []; for dataInd = 1:length(periodToDo) period = periodToDo(dataInd) ind = period; [X text] = xlsread(['totalData\' num2str(ind) '.xlsx']);. N = 150;. k = [0;0;1;0]; h = [0;0;0;1];. p = 0.01;. K2 = []; K5 = []; for i = 1:N K = (X(i,:)*k); K2 = [K2;K]; K3 = sort(K2); end for i = floor(p*N):floor((1-p)*N) K4 = K3(i); K5 = [K5;K4]; end Xk = sum(K5)/(floor((1-p)*N)-floor(p*N)); sk = sqrt(sum(((K5-Xk).^2)./(floor((1-p)*N)-floor(p*N)))); 39.

(47) I2 = []; I5 = []; for i = 1:N I = (X(i,:)*h); I2 = [I2;I]; I3 = sort(I2); end for i = floor(p*N):floor((1-p)*N) I4 = I3(i); I5 = [I5;I4]; end Xh = sum(I5)/(floor((1-p)*N)-floor(p*N)); sh = sqrt(sum(((I5-Xh).^2)./(floor((1-p)*N)-floor(p*N))));. s = (sk)*(sh);. T5 = []; f = k/norm(k); for i = 1:N T4 = (X(i,:)*f); T5 = [T5;T4]; end Tk = sum(T5)/(N); Ts = sqrt(sum(((T5-Tk).^2)./(N-1)));. D5 = []; for i = 1:N i; D3 = []; for j = 1:N r(i,j) = sqrt((K2(i,1)-K2(j,1))^2+(I2(i,1)-I2(j,1))^2); rr = ((0.1*Ts)-r(i,j)); if rr > 0 z = 1; else z = 0; end 40.

(48) rr = ((0.1*Ts)^2-(r(i,j))^2)*z; D3 = [D3;rr]; end D4 = sum(D3); D5 = [D5;D4]; end d = sum(D5);. II = s*d;. c = 0; count = 0; % save_IB = []; % save_IIB = []; % save_IC = []; % save_IIC = []; % recall1 = []; % recall2 = []; % recall3 = []; g = []; t = []; m = []; g = [g;k']; t = [t;h']; m = [m;II]; B = [1 0 0 0]; C = [1 0 0 0]; while(count ~= 1000) c = c+1; e = count; [k h] = as_2(B,C); K2 = []; K5 = []; for i = 1:N K = (X(i,:)*k); K2 = [K2;K]; K3 = sort(K2); end 41.

(49) for i = floor(p*N):floor((1-p)*N) K4 = K3(i); K5 = [K5;K4]; end Xk = sum(K5)/(floor((1-p)*N)-floor(p*N)); sk = sqrt(sum(((K5-Xk).^2)./(floor((1-p)*N)-floor(p*N))));. I2 = []; I5 = []; for i = 1:N I = (X(i,:)*h); I2 = [I2;I]; I3 = sort(I2); end for i = floor(p*N):floor((1-p)*N) I4 = I3(i); I5 = [I5;I4]; end Xh = sum(I5)/(floor((1-p)*N)-floor(p*N)); sh = sqrt(sum(((I5-Xh).^2)./(floor((1-p)*N)-floor(p*N))));. s = (sk)*(sh);. T5 = []; f = k/norm(k); for i = 1:N T4 = (X(i,:)*f); T5 = [T5;T4]; end Tk = sum(T5)/(N); Ts = sqrt(sum(((T5-Tk).^2)./(N-1)));. D5 = []; for i = 1:N i; D3 = []; for j = 1:N r(i,j) = 42.

(50) sqrt((K2(i,1)-K2(j,1))^2+(I2(i,1)-I2(j,1))^2); rr = ((0.1*Ts)-r(i,j)); if rr > 0 z = 1; else z = 0; end rr = ((0.1*Ts)^2-(r(i,j))^2)*z; D3 = [D3;rr]; end D4 = sum(D3); D5 = [D5;D4]; end d = sum(D5);. I_1 = s*d;. g = [g;k']; t = [t;h']; m = [m;I_1]; if I_1> II for i = 1:size(B,1)-1 BB(i+1,:) = B(i,:); end BB(1,:) = k'; B = BB; for i = 1:size(C,1)-1 CC(i+1,:) = C(i,:); end CC(1,:) = h'; C = CC; II = I_1; count = 0; else count = count+1; end end. 43.

(51) [V,I] = max(m);. ans4 = g(I,:); ans5 = t(I,:); deVal = [deVal; V]; deVec1 = [deVec1; ans4]; deVec2 = [deVec2; ans5];. k = (g(I,:))'/norm((g(I,:))'); h = (t(I,:))'/norm((t(I,:))'); K2 = []; I2 = []; MI = []; J2 = []; for i = 1:N K = (X(i,:)*k); K2 = [K2;K]; end. for i = 1:N I = (X(i,:)*h); I2 = [I2;I]; end. for i = 1:150 jj = i; J2 = [J2;jj]; end MI = [K2 I2 J2]; file =['totalData1\' num2str(dataInd) '.xlsx']; delete(file); SUCCESS = xlswrite(file,MI); end. 44.

(52) 表11 100筆模擬資料之三種不同組合資料的投影指標值一維度. 二維度. 第 i筆資料. 1和2. 1和3. 2和3. 1和2. 1和3. 2和3. 1. 204.6705. 634.7896. 39.4352. 37.3249. 222.0880. 2.8787. 2. 260.4756. 722.8980. 54.6289. 21.8748. 288.4544. 2.9848. 3. 258.8196. 697.8316. 48.2691. 38.3750. 222.6529. 1.7135. 4. 317.7499. 647.1651. 32.7795. 29.0680. 190.8708. 1.0991. 5 6. 252.2114 333.6639. 638.7867 750.8638. 42.2056 34.8475. 44.4566 39.5817. 269.9520 175.1270. 1.4013 1.0607. 7. 255.4798. 703.0599. 32.4000. 25.3137. 92.7438. 1.0550. 8 9. 231.5792 245.4223. 661.3543 597.5457. 39.7064 35.2147. 11.3023 34.7152. 190.9268 116.6045. 1.1294 1.0875. 10. 218.0296. 674.9354. 36.8019. 13.8385. 297.6197. 1.5357. 11 12. 217.3599 262.1962. 715.3354 785.4279. 51.6632 38.4151. 23.9114 42.0964. 208.2757 78.6390. 1.7607 1.5140. 13. 290.3456. 711.0180. 30.1423. 41.1933. 249.5049. 0.9826. 14 15. 248.1908 207.7761. 685.6947 700.8858. 42.2329 42.7136. 22.0609 22.7852. 237.5259 204.5693. 2.7674 1.3684. 16. 262.3399. 732.8014. 44.7306. 33.0485. 160.4090. 2.4349. 17 18. 258.4454 288.8100. 733.9879 714.7157. 35.0897 40.2607. 28.8846 41.4834. 168.6060 119.3601. 1.2389 1.3761. 19. 319.0455. 781.2704. 38.1875. 41.1047. 142.3531. 2.7518. 20 21. 225.1368 236.8678. 683.9738 676.4506. 42.1159 51.1104. 46.3069 25.3684. 210.4028 176.7764. 1.7506 2.4179. 22. 230.7533. 642.2512. 46.8513. 31.1629. 268.7437. 2.1053. 23 24. 248.7742 227.7562. 712.3724 618.0585. 45.0409 40.9612. 31.0292 21.2417. 188.9700 208.0216. 3.1457 1.7693. 25. 264.3553. 715.5643. 42.5438. 17.1510. 242.8310. 1.5288. 26. 272.1117. 612.1788. 35.6826. 19.1681. 82.9686. 1.3135. 27. 256.3413. 666.9646. 44.5351. 48.5055. 199.4439. 1.6919. 28. 250.8970. 640.6547. 36.1361. 34.0232. 103.9145. 1.9858. 29. 249.9116. 711.9779. 44.2651. 17.1808. 205.2068. 2.2288. 30. 272.0182. 596.7416. 33.4898. 18.8143. 142.1418. 1.4003. 31. 222.3299. 742.8714. 45.7606. 23.2317. 207.0316. 1.6673. 32. 238.5454. 723.9579. 36.0797. 14.1710. 243.8610. 1.5348. 33. 278.7100. 724.7357. 41.2707. 17.1781. 84.9786. 1.3565. 45.

(53) 表11 100筆模擬資料之三種不同組合資料的投影指標值(續) 一維度. 二維度. 第 i筆資料. 1和2. 1和3. 2和3. 1和2. 1和3. 2和3. 34. 263.3334. 735.8024. 44.3456. 34.0345. 165.4340. 2.4350. 35. 259.4474. 735.9569. 37.0567. 29.8466. 167.6380. 1.2397. 36. 278.8240. 724.7347. 42.2347. 42.4764. 110.3231. 1.3734. 37. 322.0125. 778.2564. 33.1565. 43.1237. 145.3451. 2.9518. 38 39. 225.1368 254.3456. 683.9738 668.9236. 42.1159 47.5345. 46.3069 43.5235. 210.4028 195.4569. 1.7506 1.6129. 40. 257.8675. 645.6457. 32.1323. 35.0272. 102.9125. 1.9568. 41 42. 246.9317 275.0485. 717.9569 598.7346. 43.2645 39.4597. 18.5708 14.5643. 204.2568 143.1438. 2.2348 1.4763. 43. 252.1765. 772.4236. 37.4264. 41.0564. 75.6237. 1.7340. 44 45. 270.3256 238.1913. 723.0160 634.6945. 31.1312 41.2240. 40.1234 24.0123. 237.5254 240.5321. 0.3626 2.3464. 46. 222.7243. 702.8877. 42.7567. 25.7756. 213.5353. 1.1234. 47 48. 329.0345 245.1668. 741.2304 682.9438. 39.3855 42.1249. 31.1087 32.3045. 132.3439 220.4032. 2.6548 1.7236. 49. 237.8878. 636.4706. 52.1344. 26.3634. 174.7721. 2.4349. 50 51. 235.7783 249.1742. 622.2712 722.3524. 40.8763 35.0429. 38.1649 33.1232. 257.7432 190.9734. 2.1123 3.1187. 52. 125.1328. 583.9734. 41.1159. 46.3023. 214.4028. 1.7506. 53 54. 246.8618 120.7523. 676.4216 622.2342. 52.1254 56.8233. 22.3623 32.1239. 124.7764 234.3237. 2.4239 2.1233. 55. 238.122. 722.3684. 55.0899. 35.0223. 121.1200. 3.1457. 56 57. 297.7562 234.3233. 648.0215 765.5343. 42.9232 44.9778. 27.2547 14.2430. 222.1216 210.4410. 1.7213 1.5348. 58. 222.1217. 622.1128. 32.6226. 29.2341. 102.2386. 1.3235. 59. 236.3213. 646.9236. 34.5231. 38.1235. 134.2354. 1.6249. 60. 221.1422. 572.1382. 42.1224. 40.9745. 214.2342. 1.1232. 61. 223.8221. 526.4241. 52.2322. 36.3244. 162.2441. 2.1432. 62. 211.7452. 512.2243. 45.2235. 23.1459. 212.7342. 2.3343. 63. 223.2334. 743.3435. 31.1423. 31.1672. 139.9124. 3.2234. 64. 231.3412. 721.3363. 41.7132. 33.1293. 219.5232. 1.2124. 65. 212.1223. 721.2223. 43.7236. 42.0125. 161.4521. 2.5845. 66. 212.3405. 534.7896. 37.4232. 35.3239. 212.0880. 2.1237. 67. 260.4466. 624.8944. 52.6129. 20.8348. 148.4344. 2.8768. 46.

(54) 表11 100筆模擬資料之三種不同組合資料的投影指標值(續) 一維度. 二維度. 第 i筆資料. 1和2. 1和3. 2和3. 1和2. 1和3. 2和3. 68. 254.2126. 594.8321. 44.2451. 32.3230. 222.6359. 1.3215. 69. 312.7432. 542.1632. 30.7235. 23.0450. 170.8118. 1.1231. 70. 252.2114. 532.7823. 41.2236. 41.1266. 259.9290. 1.3203. 71. 282.3536. 710.0670. 33.1723. 31.1353. 250.5459. 0.8826. 72 73. 238.1758 217.7581. 682.6347 720.8568. 44.2729 43.7636. 32.0459 32.7762. 239.5359 212.5783. 2.9674 1.4584. 74. 232.3293. 712.8324. 47.7406. 43.0875. 165.4560. 2.6749. 75 76. 248.4455 221.1233. 723.9569 552.9342. 37.0497 43.3224. 38.8766 41.3134. 169.6340 212.4452. 1.7889 1.1232. 77. 212.8688. 533.4471. 57.1322. 34.3234. 165.7231. 2.3444. 78 79. 214.1268 228.1228. 521.2233 678.6127. 42.2235 32.3129. 32.1349 32.0239. 224.7322 223.5339. 2.6728 2.2644. 80. 223.7341. 771.8798. 53.7126. 34.7252. 200.5243. 1.1284. 81 82. 223.3113 243.4235. 725.8214 712.9459. 46.7426 36.0307. 42.0755 37.8236. 163.4650 166.6230. 2.4549 1.2389. 83. 222.8340. 714.2447. 32.2567. 40.2454. 114.3211. 1.3654. 84 85. 222.0345 315.3468. 768.4564 673.2338. 33.1215 32.1249. 42.1117 42.3239. 142.3231 215.4428. 2.9348 1.7216. 86. 124.1256. 628.2136. 57.5235. 41.5345. 165.4239. 1.6349. 87 88. 228.4255 225.0125. 715.9239 608.7123. 36.1297 37.9521. 33.2366 25.5233. 134.1240 123.1768. 1.1289 1.5061. 89. 212.1773. 752.4267. 33.9234. 48.0564. 185.6327. 1.2943. 90 91. 230.3566 268.1713. 723.0123 624.6234. 39.8345 31.7257. 43.1574 25.0783. 247.5674 260.5781. 0.4924 2.2563. 92. 225.7447. 703.8675. 32.4512. 35.7896. 223.5123. 1.7832. 93. 324.0325. 743.2512. 49.2815. 41.1907. 152.3349. 2.1246. 94. 243.1453. 582.9342. 43.3224. 42.3125. 210.4452. 1.5632. 95. 232.8238. 536.4231. 57.3322. 36.3234. 164.7121. 2.1244. 96. 234.7458. 522.2123. 47.2745. 33.1549. 227.7342. 2.3728. 97. 247.1234. 742.3235. 34.1489. 33.1672. 190.9984. 3.2389. 98. 227.7712. 710.3563. 41.7126. 33.7723. 223.5712. 1.2184. 99. 233.3123. 718.2323. 45.7236. 42.0825. 161.4521. 2.5849. 100. 241.4235. 721.1529. 35.0457. 37.8712. 162.6323. 1.2389. 註：1、2、3分別代表第一、二、三族群。 47.

(55) 表 12 100 筆模擬資料之錯誤判斷個數-單一連結法第 i筆資料. 第 2 群誤判第 3 群原始一維二維. 第 3 群誤判第 2 群原始一維二維. 總和原始. 一維. 二維. 1. 49. 0. 0. 0. 49. 49. 49. 49. 49. 2. 0. 46. 0. 45. 0. 46. 45. 46. 46. 3. 0. 0. 0. 49. 49. 49. 49. 49. 49. 4. 49. 49. 49. 0. 0. 0. 49. 49. 49. 5 6. 0 0. 0 47. 0 0. 49 49. 46 0. 46 49. 49 49. 46 47. 46 49. 7. 0. 39. 0. 48. 0. 46. 48. 39. 46. 8 9. 50 0. 49 0. 47 49. 0 49. 0 48. 0 0. 50 49. 49 48. 47 49. 10. 0. 0. 0. 49. 49. 49. 49. 49. 49. 11 12. 0 0. 48 48. 0 48. 49 49. 0 0. 49 0. 49 49. 48 48. 49 48. 13. 49. 48. 0. 0. 0. 47. 49. 48. 47. 14 15. 0 0. 0 49. 0 49. 48 49. 47 0. 47 0. 48 49. 47 49. 47 49. 16. 0. 49. 49. 49. 0. 0. 49. 49. 49. 17 18. 0 0. 0 45. 0 49. 48 49. 49 0. 49 0. 48 49. 49 45. 49 49. 19. 0. 28. 43. 49. 0. 0. 49. 28. 43. 20 21. 0 0. 0 49. 0 49. 49 49. 47 0. 44 0. 49 49. 47 49. 44 49. 22. 0. 0. 49. 45. 45. 0. 45. 45. 49. 23 24. 0 0. 49 0. 49 49. 49 49. 0 49. 0 0. 49 49. 49 49. 49 49. 25. 0. 0. 0. 48. 49. 49. 48. 49. 49. 26. 49. 49. 0. 0. 0. 46. 49. 49. 46. 27. 0. 0. 48. 49. 49. 0. 49. 49. 48. 28. 49. 49. 49. 0. 0. 0. 49. 49. 49. 29. 49. 0. 0. 0. 49. 49. 49. 49. 49. 30. 0. 49. 0. 49. 0. 48. 49. 49. 48. 31. 49. 0. 0. 0. 49. 49. 49. 49. 49. 32. 0. 0. 0. 49. 49. 49. 49. 49. 49. 33. 49. 49. 49. 0. 0. 0. 49. 49. 49. 48.

(56) 表 12 100 筆模擬資料之錯誤判斷個數-單一連結法(續) 第 i筆資料. 第 2 群誤判第 3 群原始一維二維. 第 3 群誤判第 2 群原始一維二維. 總和原始. 一維. 二維. 34. 49. 49. 49. 0. 0. 0. 49. 49. 49. 35. 0. 47. 47. 49. 0. 0. 49. 47. 47. 36. 0. 0. 48. 49. 49. 0. 49. 49. 48. 37. 0. 0. 0. 49. 49. 39. 49. 49. 39. 38 39. 0 0. 49 0. 49 0. 49 48. 0 48. 0 49. 49 48. 49 48. 49 49. 40. 0. 49. 49. 49. 0. 0. 49. 49. 49. 41 42. 0 0. 0 48. 0 48. 49 49. 49 0. 49 0. 49 49. 49 48. 49 48. 43. 49. 0. 0. 0. 49. 44. 49. 49. 44. 44 45. 0 0. 0 0. 0 0. 49 49. 49 49. 49 49. 49 49. 49 49. 49 49. 46. 0. 48. 48. 49. 0. 0. 49. 48. 48. 47 48. 0 0. 0 49. 0 49. 49 49. 49 0. 49 0. 49 49. 49 49. 49 49. 49. 0. 0. 0. 49. 49. 47. 49. 49. 47. 50 51. 0 0. 0 0. 0 0. 49 48. 49 49. 49 49. 49 48. 49 49. 49 49. 52. 0. 49. 49. 48. 0. 0. 48. 49. 49. 53 54. 49 0. 49 46. 0 0. 0 49. 0 0. 49 39. 49 49. 49 46. 49 39. 55. 0. 49. 49. 48. 0. 0. 48. 49. 49. 56 57. 0 0. 49 35. 49 0. 49 49. 0 0. 0 49. 49 49. 49 35. 49 49. 58. 0. 0. 0. 49. 49. 49. 49. 49. 49. 59. 0. 0. 0. 47. 47. 47. 47. 47. 47. 60. 0. 47. 47. 49. 0. 0. 49. 47. 47. 61. 0. 0. 0. 49. 49. 49. 49. 49. 49. 62. 0. 0. 0. 49. 43. 43. 49. 43. 43. 63. 0. 48. 0. 48. 0. 33. 48. 48. 33. 64. 0. 0. 0. 49. 49. 49. 49. 49. 49. 65. 49. 0. 0. 0. 48. 49. 49. 48. 49. 66. 49. 0. 49. 0. 49. 0. 49. 49. 49. 67. 0. 0. 0. 48. 48. 49. 48. 48. 49. 49.

(57) 表 12 100 筆模擬資料之錯誤判斷個數-單一連結法(續) 第 i筆資料. 第 2 群誤判第 3 群原始一維二維. 第 3 群誤判第 2 群原始一維二維. 總和原始. 一維. 二維. 68. 0. 0. 0. 49. 49. 49. 49. 49. 49. 69. 49. 49. 49. 0. 0. 0. 49. 49. 49. 70. 0. 0. 49. 49. 48. 0. 49. 48. 49. 71. 0. 0. 49. 49. 49. 0. 49. 49. 49. 72 73. 0 47. 0 47. 0 47. 49 0. 46 0. 46 0. 49 47. 46 47. 46 47. 74. 0. 0. 49. 49. 48. 0. 49. 48. 49. 75 76. 0 0. 0 0. 0 0. 49 49. 49 49. 49 49. 49 49. 49 49. 49 49. 77. 0. 44. 47. 49. 0. 0. 49. 44. 47. 78 79. 0 0. 0 48. 0 0. 49 46. 48 0. 49 46. 49 46. 48 48. 49 46. 80. 0. 0. 0. 49. 49. 49. 49. 49. 49. 81 82. 49 49. 49 49. 49 49. 0 0. 0 0. 0 0. 49 49. 49 49. 49 49. 83. 0. 0. 0. 48. 49. 48. 48. 49. 48. 84 85. 0 0. 0 0. 49 0. 49 49. 47 49. 0 49. 49 49. 47 49. 49 49. 86. 0. 49. 49. 49. 0. 0. 49. 49. 49. 87 88. 0 49. 49 49. 49 49. 49 0. 0 0. 0 0. 49 49. 49 49. 49 49. 89. 48. 49. 0. 0. 0. 44. 48. 49. 44. 90 91. 0 49. 0 0. 4 0. 49 0. 48 48. 4 49. 49 49. 48 48. 8 49. 92. 0. 0. 0. 49. 47. 49. 49. 47. 49. 93. 0. 0. 49. 49. 47. 0. 49. 47. 49. 94. 0. 0. 0. 49. 49. 49. 49. 49. 49. 95. 49. 49. 49. 0. 0. 0. 49. 49. 49. 96. 0. 0. 0. 49. 49. 47. 49. 49. 47. 97. 49. 48. 49. 0. 0. 0. 49. 48. 49. 98. 0. 0. 49. 49. 48. 0. 49. 48. 49. 99. 0. 0. 0. 49. 48. 48. 49. 48. 48. 100. 0. 49. 49. 49. 0. 0. 49. 49. 49. 50.

(58) 表 13 100 筆模擬資料之錯誤判斷個數-完全聯結法第 i筆資料. 第 2 群誤判第 3 群原始一維二維. 第 3 群誤判第 2 群原始一維二維. 總和原始. 一維. 二維. 1. 21. 2. 0. 0. 4. 10. 21. 6. 10. 2. 1. 1. 1. 5. 2. 11. 6. 3. 11. 3. 4. 1. 1. 10. 12. 15. 14. 13. 16. 4. 1. 0. 9. 26. 22. 13. 27. 22. 22. 5 6. 2 0. 6 22. 2 0. 9 22. 6 1. 9 15. 11 22. 12 23. 11 15. 7. 0. 11. 3. 27. 0. 2. 27. 11. 5. 8 9. 27 0. 30 1. 25 28. 0 36. 0 18. 0 0. 27 36. 30 19. 25 28. 10. 1. 1. 0. 11. 8. 29. 12. 9. 29. 11 12. 4 18. 0 0. 0 23. 7 4. 22 24. 22 0. 11 22. 22 24. 22 23. 13. 0. 9. 0. 14. 5. 27. 14. 14. 27. 14 15. 1 19. 0 23. 2 2. 15 3. 25 0. 10 8. 16 22. 25 23. 12 10. 16. 9. 11. 14. 7. 4. 4. 16. 15. 18. 17 18. 1 9. 1 2. 5 15. 18 16. 9 18. 1 1. 19 25. 10 20. 6 16. 19. 10. 5. 5. 7. 4. 4. 17. 9. 9. 20 21. 7 2. 8 11. 1 2. 10 16. 1 2. 23 4. 17 18. 9 13. 24 6. 22. 1. 10. 0. 16. 3. 20. 17. 13. 20. 23 24. 4 9. 17 8. 3 7. 2 15. 0 10. 1 4. 6 24. 17 18. 4 11. 25. 0. 0. 4. 42. 39. 14. 42. 39. 18. 26. 28. 6. 4. 2. 4. 8. 30. 10. 12. 27. 0. 4. 23. 22. 7. 0. 22. 11. 23. 28. 14. 25. 12. 1. 0. 2. 15. 25. 14. 29. 0. 0. 13. 15. 23. 0. 15. 23. 13. 30. 2. 2. 1. 19. 11. 27. 21. 13. 28. 31. 1. 3. 8. 31. 9. 39. 32. 12. 47. 32. 1. 13. 0. 29. 0. 31. 30. 13. 31. 33. 19. 0. 0. 5. 21. 8. 24. 21. 8. 51.

(59) 表 13 100 筆模擬資料之錯誤判斷個數-完全聯結法(續) 第 i筆資料. 第 2 群誤判第 3 群原始一維二維. 第 3 群誤判第 2 群原始一維二維. 總和原始. 一維. 二維. 34. 24. 1. 3. 2. 9. 11. 26. 10. 14. 35. 2. 0. 1. 19. 23. 16. 21. 23. 17. 36. 25. 22. 0. 0. 1. 11. 25. 23. 11. 37. 2. 0. 28. 6. 21. 0. 8. 21. 28. 38 39. 6 0. 26 1. 16 2. 1 17. 1 9. 1 2. 7 17. 27 10. 17 4. 40. 13. 4. 0. 21. 5. 12. 34. 9. 12. 41 42. 0 13. 0 17. 0 23. 13 31. 16 0. 13 0. 13 44. 16 17. 13 23. 43. 12. 5. 8. 16. 12. 10. 28. 17. 18. 44 45. 5 9. 5 8. 10 15. 6 4. 0 4. 5 0. 11 13. 5 12. 15 15. 46. 3. 2. 2. 19. 3. 3. 22. 5. 5. 47 48. 0 0. 0 2. 0 39. 36 24. 24 10. 26 0. 36 24. 24 12. 26 39. 49. 0. 1. 0. 21. 4. 37. 21. 5. 37. 50 51. 3 2. 6 19. 3 0. 8 19. 3 0. 4 9. 11 21. 9 19. 7 9. 52. 9. 2. 0. 7. 3. 13. 16. 5. 13. 53 54. 0 1. 5 1. 4 0. 30 34. 9 27. 11 38. 30 35. 14 28. 15 38. 55. 25. 18. 1. 0. 0. 22. 25. 18. 23. 56 57. 28 0. 7 9. 1 4. 1 10. 3 2. 20 4. 29 10. 10 11. 21 8. 58. 2. 1. 11. 12. 12. 0. 14. 13. 11. 59. 1. 1. 1. 28. 28. 39. 29. 29. 40. 60. 3. 4. 21. 20. 1. 0. 23. 5. 21. 61. 0. 1. 1. 11. 5. 12. 11. 6. 13. 62. 16. 5. 2. 8. 7. 8. 24. 12. 10. 63. 0. 0. 1. 33. 28. 11. 33. 28. 12. 64. 10. 1. 9. 14. 23. 1. 24. 24. 10. 65. 13. 1. 7. 6. 18. 3. 19. 19. 10. 66. 13. 29. 0. 3. 1. 15. 16. 30. 15. 67. 0. 6. 3. 7. 1. 1. 7. 7. 4. 52.

(60) 表 13 100 筆模擬資料之錯誤判斷個數-完全聯結法(續) 第 i筆資料. 第 2 群誤判第 3 群原始一維二維. 第 3 群誤判第 2 群原始一維二維. 總和原始. 一維. 二維. 68. 0. 7. 5. 38. 3. 4. 38. 10. 9. 69. 25. 7. 22. 0. 4. 0. 25. 11. 22. 70. 0. 0. 1. 17. 13. 0. 17. 13. 1. 71. 27. 3. 9. 1. 13. 13. 28. 16. 22. 72 73. 0 14. 9 0. 0 27. 29 13. 1 29. 24 0. 29 27. 10 29. 24 27. 74. 2. 6. 1. 13. 2. 3. 15. 8. 4. 75 76. 0 0. 1 2. 0 18. 30 38. 10 11. 7 7. 30 38. 11 13. 7 25. 77. 2. 12. 4. 13. 1. 1. 15. 13. 5. 78 79. 23 1. 10 0. 0 4. 42 21. 0 23. 38 6. 65 22. 10 23. 38 10. 80. 0. 0. 0. 28. 16. 30. 28. 16. 30. 81 82. 3 6. 2 0. 5 8. 20 4. 15 36. 4 5. 23 10. 17 36. 9 13. 83. 0. 0. 3. 32. 32. 13. 32. 32. 16. 84 85. 12 4. 6 2. 24 2. 9 18. 5 23. 4 9. 21 22. 11 25. 28 11. 86. 14. 1. 0. 4. 5. 21. 18. 6. 21. 87 88. 1 8. 0 7. 23 1. 11 7. 21 4. 2 20. 12 15. 21 11. 25 21. 89. 2. 1. 0. 12. 12. 23. 14. 13. 23. 90 91. 4 0. 3 12. 3 11. 13 33. 17 0. 4 3. 17 33. 20 12. 7 14. 92. 3. 9. 3. 27. 1. 16. 30. 10. 19. 93. 5. 3. 1. 6. 6. 26. 11. 9. 27. 94. 10. 0. 7. 2. 38. 5. 12. 38. 12. 95. 14. 6. 17. 6. 7. 3. 20. 13. 20. 96. 0. 0. 3. 27. 21. 8. 27. 21. 11. 97. 19. 1. 26. 4. 21. 0. 23. 22. 26. 98. 0. 0. 8. 14. 15. 2. 14. 15. 10. 99. 1. 0. 0. 4. 24. 4. 5. 24. 4. 100. 8. 10. 1. 7. 2. 7. 15. 12. 8. 53.