融入叢集分析之特徵萃取法在高維度資料辨識的應用

全文

(1)國立台中教育大學教育測驗統計研究所理學碩士論文指導教授：郭伯臣. 博士. 融入叢集分析之特徵萃取法在高維度資料辨識的應用. 研究生：詹正維. 撰. 中華民國九十五年七月.

(2) 摘要在高維度資料(high dimensional data)中常常會因為樣本數的不足，在分類時常會造成奇異性的問題，以造成辨識率下降的情形產生。因此在處理高維度資料時通常會先採用特徵萃取或特徵選取的分法，來解決訓練樣本數不足所造成的問題。高維度資料在經過特徵萃取的處理後往往還存在著兩個問題，第一點就是在屬於同一種類別的樣本點中往往還是存在著些許的差異性；第二點則是不同類別的樣本點往往會發生相互交疊的情形。以上的兩個問題往往是導致分類器在分類時會有困難，以至於會有辨識率下降的情形發生。本研究中提出以叢集分析的方法融入特徵萃取裡，先以叢集分析的方法將同類的樣本點分成數個叢集，以解決第一個問題。接下來使用特徵萃取的方法時，因為本研究所使用的線性區別分析以及無參數加權特徵萃取兩種特徵萃取法所考慮到的準則皆是最大化組間分散度矩陣和組內分散度矩陣之比率，因此也能解決第二個問題。. 關鍵字：高維度資料、特徵萃取、叢集分析、分類器. I.

(3) Abstract When classify high dimensional data, the sample size is too small cause the singularity and decreasing accuracy. For processing high dimensional data, feature extraction and selection are often using to solve the small sample size problems. There are two problems for high dimensional data. First, there do often exist some differences in samples with the same label. Second, samples with different label are often overlapped. The above two problems are account for the classifier accuracy decreasing in classifying. In this research, a cluster analysis method fuse to feature extraction is proposed. The samples with the same label divide into several clusters. Because the criterion of linear discriminant analysis and nonparametric weighted feature extraction is using the ratio of between and within scatter matrix. So, the proposed method can solve the above problems.. keywords：high dimensional data, feature extraction, cluster analysis, classifier. II.

(4) 目. 錄. 第一章緒論 ..........................................................................................................................1 第一節研究動機與目的..................................................................................................1 第二章文獻探討..................................................................................................................5 第一節特徵萃取..............................................................................................................5 壹、主成分分析..........................................................................................................6 貳、線性區別分析......................................................................................................7 參、無參數加權特徵萃取..........................................................................................8 第二節分類器................................................................................................................11 壹、最大概似分類器................................................................................................11 貳、最近鄰近法分類器............................................................................................12 第三節叢集分析............................................................................................................13 壹、 k-mean 演算法..................................................................................................13 貳、 fuzzy c-mean 演算法 ........................................................................................14 第三章研究設計及實施....................................................................................................16 第一節叢集分析特徵萃取法........................................................................................16 第二節研究工具............................................................................................................19 第三節資料描述............................................................................................................19 壹、 Washington DC Mall 資料................................................................................19 貳、 Indian Pine Site 資料 ........................................................................................20 參、教育測驗資料....................................................................................................21 第四章實驗結果................................................................................................................23 第五章結論與未來發展....................................................................................................44 參考文獻 ................................................................................................................................45. III.

(5) 表目錄表 3-1. 「扇形」單元的錯誤概念分類表........................................................................21. 表 3-2. 「擴分、約分」單元的錯誤概念分類表............................................................22. 表 4-1. Indian Pine Site 使用 ML 分類器的辨識率比較 .................................................29. 表 4-2. Indian Pine Site 使用 1NN 分類器的辨識率比較 ...............................................30. 表 4-3. Washington DC Mall 使用 ML 分類器的辨識率比較 ........................................31. 表 4-4. Washington DC Mall 使用 1NN 分類器的辨識率比較 ......................................32. 表 4-5. 教育測驗資料 I 使用 ML 分類器的辨識率比較 ................................................42. 表 4-6. 教育測驗資料 I 使用 1NN 分類器的辨識率比較...............................................42. 表 4-7. 教育測驗資料 II 使用 ML 分類器的辨識率比較 ...............................................43. 表 4-8. 教育測驗資料 II 使用 1NN 分類器的辨識率比較 .............................................43. IV.

(6) 圖目錄圖 1-1. 資料維度數與分散度的相關性..............................................................................1. 圖 1-2. 資料維度數與參數估計精確度相關性..................................................................2. 圖 1-3. 資料維度數與辨識率相關性..................................................................................2. 圖 1-4. Hughes phenomenon ................................................................................................3. 圖 1-5. 非常態分布樣本示意圖..........................................................................................4. 圖 2-1. 特徵萃取轉換過程示意圖......................................................................................5. 圖 2-2. NWFE 在非常態資料樣本點與其局部平均的關係圖 .......................................10. 圖 2-3. ML 分類器辨識示意圖.........................................................................................12. 圖 3-1. 同類別樣本中存在差異性問題............................................................................16. 圖 3-2. 以叢集分析處理同類別中存在差異性問題........................................................16. 圖 3-3. 不同類別交疊情形................................................................................................17. 圖 3-4. 以叢集分析處理不同類別交疊情形....................................................................17. 圖 3-5. 原來演算法流程圖................................................................................................18. 圖 3-6. 融入叢集分析特徵萃取演算法流程圖................................................................18. 圖 3-7. Washington DC Mall .............................................................................................20. 圖 3-8. Indian Pine Site ......................................................................................................20. 圖 4-1. 原始樣本點映射到 PCA 取 2 維的維度空間散布情形......................................24. V.

(7) 圖 4-2. 融入叢集分析後 PCA 取 2 維的維度空間散布情形..........................................24. 圖 4-3. 原始樣本點映射到 LDA 取 2 維的維度空間散布情形 .....................................26. 圖 4-4. 融入叢集分析後 LDA 取 2 維的維度空間散布情形 .........................................26. 圖 4-5. 原始樣本點映射到 NWFE 取 2 維的維度空間散布情形 ..................................28. 圖 4-6. 融入叢集分析後 NWFE 取 2 維的維度空間散布情形 ......................................28. 圖 4-7. 原始圖形真實類別................................................................................................33. 圖 4-8. 使用 ML 分類器利用 LDA 萃取後的圖形 .........................................................33. 圖 4-9. 使用 ML 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =2) ...........34. 圖 4-10 使用 ML 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =3) ...........34 圖 4-11 使用 ML 分類器利用 NWFE 萃取後的圖形 ......................................................35 圖 4-12 使用 ML 分類器利用融入 FCM 之 NWFE 萃取後圖形(# of clusters =2) ........35 圖 4-13 使用 ML 分類器利用融入 FCM 之 NWFE 萃取後圖形(# of clusters =3) ........35 圖 4-14 使用 1NN 分類器利用 LDA 萃取後的圖形........................................................36 圖 4-15 使用 1NN 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =2)..........36 圖 4-16 使用 1NN 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =3)..........36 圖 4-17 Indian Pine Site 資料使用 ML 分類器利用 PCA 萃取後辨識率 .......................37 圖 4-18 Indian Pine Site 資料使用 ML 分類器利用 LDA 萃取後辨識率.......................37 圖 4-19 Indian Pine Site 資料使用 ML 分類器利用 NWFE 萃取後辨識率....................38 圖 4-20 Indian Pine Site 資料使用 1NN 分類器利用 PCA 萃取後辨識率 .....................38. VI.

(8) 圖 4-21 Indian Pine Site 資料使用 1NN 分類器利用 LDA 萃取後辨識率 .....................38 圖 4-22 Indian Pine Site 資料使用 1NN 分類器利用 NWFE 萃取後辨識率 ..................39 圖 4-23 Washington DC Mall 資料使用 ML 分類器利用 PCA 萃取後辨識率 ..............39 圖 4-24 Washington DC Mall 資料使用 ML 分類器利用 LDA 萃取後辨識率 ..............40 圖 4-25 Washington DC Mall 資料使用 ML 分類器利用 NWFE 萃取後辨識率...........40 圖 4-26 Washington DC Mall 資料使用 1NN 分類器利用 PCA 萃取後辨識率.............40 圖 4-27 Washington DC Mall 資料使用 1NN 分類器利用 LDA 萃取後辨識率 ............41 圖 4-28 Washington DC Mall 資料使用 1NN 分類器利用 NWFE 萃取後辨識率 .........41. VII.

(9) 第一章緒論第一節研究動機與目的近年來，高維度資料(high dimensional data)如高光譜影像資料、基因微陣列 (microarray)、手寫辨識、人臉辨識等資訊，逐漸廣泛的被應用於日常生活中。而傳統的分類技術在統計樣式辨認時的假設大多是基於有足夠的訓練樣本可以供研究者使用。但是，高維度資料分類時所需要的訓練樣本數通常比傳統的資料要多出許多，所以更容易出現訓練樣本數不足的情況發生。高維度資料的主要問題就是當訓練樣本數過少時，傳統的分類器容易會出現 Hughes phenomenon(Hughes,1968)。也就是說當資料的維度增加時，在不增加訓練樣本的數量情況下，常會因為 Hughes phenomenon 而造成的辨識率下降。在現實中的情況，訓練樣本是較難以取得的，所以在處理高維度資料時，經常會遭遇到小樣本(small sample size)的問題。通常會利用到特徵萃取(feature extraction)或是特徵選取(feature selection)來降低原始資料訓練樣本數過少所造成的影響。在進行資料處理的時候，就如同圖1-1所表示，資料的維度數增加可以增加資料的分散度(separability)。資料的分散度增加相對於辨識率提升是有幫助的，但是在資料維度數增加時，分類器中所需估計的參數同時也會相對的增加。. 圖 1-1. 資料維度數與分散度的相關性. 1.

(10) 圖1-2中，分別表示不同大小的樣本點數，在資料維度數增加，而不改變訓練樣本點數的情況下，參數估計的精確度就會隨著維度 p 增加而下降。圖1-3顯示當資料的維度數變大時分散程度就會變大並且有助於辨識；可是當樣本的維度數過大時，參數估計精確度不良的效果就會大於分散程度所提供的幫助，最終造成辨識率不良的情況。所以，如何在資料的維度數較多，也就是分散程度較高的情況下，而不增加訓練樣本的數目，可以達到提升辨識率的目的，這是一個兩難的問題。. 圖 1-2. 資料維度數與參數估計精確度相關性. 圖 1-3. 資料維度數與辨識率相關性. 2.

(11) 接著由圖1-4中的圖形可以看出，平均辨識率會伴隨著測量複雜度增加而減少，只有在當訓練樣本點數 n 在無限大的時候，平均辨識率才不會因為測量複雜度的增加而受到影響。在現實的情況下，要得到“足夠“的訓練樣本，是件不容易的事情。因此在本研究中希望在有限的樣本下，減輕Hughes phenomenon對實驗所造成的影響，進而提升辨識率。. 圖 1-4. Hughes phenomenon (Hughes,1968). 高維度資料分類時，訓練樣本裡所有的類別是已知的，但是實際上在同一類別中有可能有些的樣本是非常態分布或是多峰混合分布(multi-modal mixture distribution)，這些樣本有可能直接或間接影響到分類的辨識率。在處理上述的這些資料已有學者提出針對分類器去改善，Mixture Classifier(Kuo & Landgrebe, 2002)就是其中一種能改善的方法。. 3.

(12) 圖 1-5 為非常態分布樣本的其中一種，在 Fisher(1936)的線性區別分析(linear discriminant analysis, LDA)以及 Kuo & Landgrebe(2002, 2004)的無參數加權特徵萃取 (nonparametric weighted feature extraction, NWFE)等兩種演算法都是需要計算到組內分散度矩陣以及組間分散度矩陣，因此，在這情形下特徵萃取對此樣本作處理時就會遇到共同平均值(common mean)的問題，這種情形對辨識率都會有相當程度的影響。於是本研究將針對特徵萃取的部份提出一個將叢集分析法融入的新演算法，以提升辨識率。. Class1. Class2. Class2. Class1. 圖 1-5. 非常態分布樣本示意圖. 4.

(13) 第二章文獻探討在本章中的第一節將簡單介紹本研究中會使用到的特徵萃取的方法，以及各方法的優缺點。本研究中所使用到的兩種分類器將在此章的第二節中簡單介紹。最後，提出本研究中用到兩種常見的叢集分析法在第三節中介紹。. 第一節特徵萃取在樣本數比較少的情況下處理資料，常常會遇到 Hughes phenomenon 或是奇異性的情況產生，而特徵萃取的方法就是可以解決方面的問題。特徵萃取的方法就是可以找到一個轉換矩陣(transformation matrix) A，使得原始空間的資料 X 被轉換到一個新的特徵空間 Y 。通常經過特徵萃取轉換過後的特徵向量空間的資料維度數 P ′ 會比原始空間下的資料維度數 P 還要來的小，而轉換過後的維度數 P ′ 會因為特徵萃取的方法或需要不同而會有所不同及改變。圖 2-1 顯示特徵萃取轉換的過程。接著將介紹平常所常見到幾種特徵萃取的方法，並且討論各方法的精髓以及其各自的優缺點。. Y = AT X. 原始資料 (維度數 P ). 圖 2-1. 特徵萃取轉換. 轉換過後資料 (維度數 P ′ ). 特徵萃取轉換過程示意圖. 5.

(14) 壹、主成分分析主成分分析(principal component analysis, PCA)是一種對高維度資料作處理中最常見的方法，最主要的目的也是降低資料維度，並且保持資料在空間中分布的特性。 PCA 最主要的想法與目的是減少高維度資料的維度數，並且盡可能的保留原始資料的變異以及原始資料在空間中分布的情形。 PCA 定義為下列的轉換： Y = AT X. (2-1). X ( x1 , x 2 ,..., x n ) 代表在原始空間中的樣本，Y 則為轉換過後的空間樣本， A 為根據以. 下特徵值 Λ 所對應之特徵向量 Φ 所成的轉換矩陣： ΛΦ = SΦ. (2-2). S 矩陣也就是所謂的共變異數矩陣， m0 為樣本的平均值，其定義如下：. S=. 1 n ( xi − m0 )( xi − m0 ) T n∑ i =1. (2-3). 1 n m0 = ∑ xi n i =1. (2-4). A 矩陣稱為 Karuhnen-Loeve 轉換。其可以利用較少的主要成分分量，來顯示出樣. 本最大的變異程度。 PCA 的演算法概述如下：步驟 1：計算出樣本的共變異數矩陣 S 。步驟 2：計算出特徵向量 Φ 。步驟 3：選擇特徵值 Λ 中所對應最大的 k 個特徵向量 Φ ，並將它們定為 A 。步驟 4：利用方程式(2-1)將樣本從原始空間進行轉換至新的空間。. PCA 最大的優點是可以保留原始資料的變異及分布的情形，而 PCA 仍然存在著一些缺點，簡單敘述如下：一、 PCA 著重於最大化變異程度與之後介紹的 LDA 所重視的是不相同的方向。因此，在樣式辨認時 PCA 的效果通常不如 LDA 來的好。. 6.

(15) 二、轉換矩陣是由共變異數矩陣 S 組合而來，而在小樣本的情況下共變異數矩陣 S 容易變的不穩定。. 貳、線性區別分析線性區別分析是一種常見參數型的特徵萃取方法。此種方法由於需要使用到樣本的平均數以及共變異數矩陣，所以被稱為一種參數估計型的特徵萃取方法。在此方法中，計算組間分散度矩陣( S b )以及組內分散度矩陣( S w )的比率是估計類別分散程度的準則，但由於組間分散度矩陣的自由度之限制，所以通常使用線性區別分析作特徵萃取過後的維度數上限為類別數減一。 LDA中的組內分散度矩陣的計算方法如下： L. S wLDA = ∑ Pi S i. (2-5). i =1. Pi 表示類別 i 的事前機率(Prior)， L 為此樣本中所擁有的樣本類別個數， S i 代表類. 別 i 的共變異數矩陣。而組間分散度矩陣的計算方式如下： L. S bLDA = ∑ Pi (mi − m0 )(mi − m0 ). T. (2-6). i =1. m i 代表類別 i 的平均數。LDA的用意在取得最大的分散量，所以要將組內的分散. 量拉到最小；組間的分散量則是越大越好。因此最佳化以下的準則：. ((. J LDA = trace S wLDA. ). −1. S bLDA. ). (2-7). 但是LDA存在著一些缺點：一、若樣本的分布型態為常態分布時能夠運作的相當不錯，但是在現實生活中樣本不一定都是常態的，所以當樣本為非常態分布時LDA的效果就會受到相當大的影響。二、因為受到組間分散度矩陣的自由度最大為 L − 1 之影響，所以LDA只能萃取. 7.

(16) 出類別數減一個維度數，在實際的情況下若只採用這些維度很有可能是不足夠的。三、在樣本數比較小的情況下，因為組內分散度矩陣容易會有奇異性的問題產生，所以此時若使用LDA所轉換過的資料計算出來的辨識率相當低。. 參、無參數加權特徵萃取在本研究中還使用了另一種無參數萃取方法，無參數加權特徵萃取，來與LDA進行比較。LDA和NWFE都是用來尋找最大化組內分散度矩陣的反函數乘上組間分散度矩陣的跡數(trace)之特徵空間。 Fukunaga(1990)提出的無參數特徵分析(nonparametric discriminant analysis, NDA) 提出是用來解決在LDA中所會發生的問題。在NDA中把組間分散度矩陣更改成為一種新的無參數的形式。而區域訊息(local information)是NDA中用來改進LDA的一項重點。 NWFE 的提出就是為了要補足 NDA 的不足，因為 NDA 在計算區域平均數(local mean)時，每一個樣本點的重要程度都是相同的。而在 NWFE 中主要的概念就是在計算區域平均數時，每一個樣本點可以給予其不同的權重，並且定義出新的無參數型組間以及組內分散矩陣，藉以萃取出更多的特徵以便處理資料。 NWFE 的組間分散度矩陣( SbNW )以及組內分散度矩陣( S wNW )類似 NDA，其定義如下： L. L. ni. S bNW = ∑ Pi ∑∑ i =1. S. NW w. λ(ki , j ). j =1 k =1 j ≠i. L. ni. λ(ki ,i ). i =1. k =1. ni. = ∑ Pi ∑. ni. ( xk(i ) − M j ( xk(i ) ))( xk(i ) − M j ( xk(i ) ))T. ( xk(i ) − M i ( xk(i ) ))( xk(i ) − M i ( xk(i ) ))T. (2-8). (2-9). 在上列式子中 xk(i ) 表示類別 i 的第 k 個樣本點， ni 表示類別 i 的樣本點數， Pi 表示類別 i 的事前機率。 λk(i,j) 為第 i 類的第 k 個樣本點對第 j 類分散矩陣的權重，是由 xk(i ) 以及 M j ( xk(i ) ) 所構成的方程式，其定義如下：. 8.

(17) λk(i,j) =. dist(xk(i) ,M j (xk(i) ))−1 ni. ∑ dist(x. (i) l. l =1. (i) l. ,M j (x )). (2-10). −1. 式子中 M j ( xk(i ) ) 代表樣本點 xk(i ) 在類別 j 中的權重，其定義如下： nj. M j ( xk(i ) ) = ∑ wkl(i , j ) xl( j ). (2-11). l =1. wkl(i,j) 則是用以計算加權平均數的權重，其定義如下： (i,j) kl. w. =. dist(xk(i) ,xl( j ) ) −1 ni. ∑ dist(x l =1. (i) k. ,x. (2-12). ( j ) −1 l. ). dist(xk(i) ,xl( j ) ) 代表第 i 類的第 k 個樣本點與第 j 類的第 l 個樣本點的距離。. 另外 Kuo & Landgrebe (2002)提出共變異數矩陣的對角線部分對組內分散度矩陣有改善的效果，於是基於這樣的觀點本研究也將組內分散度矩陣改成以下的形式： 1 1 S wR − NW = diag( S wNW ) + S wNW 2 2. (2-13). 最佳的特徵可以由最佳化以下的準則得到： J NWFE = trace(( S wR − NW ) −1 S bNW ). (2-14). 圖 2-2 是 NWFE 之組間分散度矩陣與組內分散度矩陣在樣本為非常態分布時的表示圖，此圖說明了靠近邊界的樣本點以及局部平均值是相當重要的。使用 NWFE 有以下兩個優點： 1.. 在實際的情況下通常只萃取類別數減 1 個維度數可能是不夠的。NWFE 的散布矩陣通常是滿秩的情況，這點說明了能萃取的維度數目能力和減少奇異性問題發生的效果。. 2.. 無參數型分散度矩陣的本質能夠降低離群值(outlier)對特徵萃取效果的影響，而且甚至當樣本的分布為非常態分布的情形下是有效的。. 9.

(18) xl( i ) − M j ( xl( i ) ). xl( i ) − M i ( xl( i ) ). M i ( x l( i ) ). class i. xl(i ). M j ( xl(i ) ). class j. ∗. xt(i ) − M j ( xt(i ) ). ⊗ ⊗. xt( i ). ⊗. ∗. 圖 2-2. M j ( xt(i ) ). NWFE 在非常態資料樣本點與其局部平均的關係圖. 10.

(19) 第二節分類器壹、最大概似分類器最大概似分類器(maximum likelihood classifier, ML classifier)在處理高維度資料中是一種非常常見的辨識方法，一個未知類別的測試樣本點 x 將會被指定至擁有最大概似(likelihood)的類別。 Li (x) 定義為一個未知類別的測試樣本點 x 屬於類別 i 的事後機率。在常態分布的情況下， x 屬於類別 i 的可能性定義如下： Li ( x) =. 1 (2π ). p/2. Si. 1/ 2. 1 −1 exp{− ( x − mi )T S i ( x − mi )} 2. (2-15). 其中 p 表示樣本的維度數， mi 表示類別 i 的平均數，而 S i 表示類別 i 的共變異數矩陣， Si 表示 S i 的行列式值。在得到 Li (x) 之後，可根據以下的準則來判斷樣本點 x 屬於哪一個類別 x ∈ class k , if k = arg max Li ( x). (2-16). i. ML 分類器是建立於機率論的觀點上，所以在此方面立足點是非常穩固的，但是此分類器必須要注意到以下幾點條件： 1、必須擁有足夠的訓練樣本，用以估計平均數以及共變異數矩陣。 2、當兩個不同維度出現高度相關的情況時，共變異數矩陣將會變的不穩定。 3、當樣本的分布為非常態時，最大概似分類器常常無法有較好的效果。圖 2-3 為 ML 分類器運作的示意圖，未知類別樣本 x 屬於類別 1 的概似程度為 L(1)，屬於類別 2 的概似程度為 L(2) ，由圖中可知 L(2) 大於 L(1) ，因此 ML 分類器會將未知類別樣本 x 判斷為類別 2。. 11.

(20) Likelihood. 類別 1. 類別 2. L(2) L(1) x. 圖 2-3. ML 分類器辨識示意圖. 貳、最近鄰近法分類器最近鄰近法分類器(k nearest neighbors classifier, KNN)在高維度資料處理中也是一種相當常見的一種分類器，其演算法的基本理論相當地直觀。若欲判別未知類別的測試樣本中的樣本點 x ，先找到距離樣本點 x 最近的 K 個訓練樣本點(本研究中使用歐式距離)，再利用這 K 個訓練樣本點來判定測試樣本點 x 隸屬的類別。通常用到的是 1NN 分類器本研究也同樣是使用 1NN 分類器，也就是說直接找到一個距離樣本點 x 最近的一個訓練樣本點 y ，而在 1NN 分類器中 x 的類別就是與 y 的類別相同。. 12.

(21) 第三節叢集分析叢集分析就是將不同的資料數據加以分類，然後提供使用者一個較佳的資料觀察點來分析資料。高維度資料中隸屬於同一個類別中的資料還是很可能會存在著些許的差異性，因此以叢集分析的方法來將這些資料區別，以增進訓練樣本之後分類時的可信度。而叢集分析的方法有許多種，本研究中所使用到兩種叢集分析的演算法，分別是 k-mean 叢集分析演算法以及 fuzzy c-mean 叢集分析演算法。. 壹、 k-mean 演算法 k-mean algorithm，又稱為 Forgy’s algorithm，概念就是反覆的迭代使得一個目標函數越來越小。使用叢集分析法的目的就是希望減小每個叢集中每一個點與叢集中心的距離平方差。假設一個類別裡共包含 C 個叢集，其中第 k 個叢集共包含 nc 個資料點 k ( x1k , x2k ,…, xn )，此叢集的中心點為 c0k ，所以此叢集的平方差即可寫成以下式子： c. nc. ek = ∑ ( xik − c0k ) 2. (2-17). i =1. 這些 k 個叢集的平方差總和即可寫成以下式子同時也定義成目標函數： C. e = ∑ej j =1. (2-18). 因此要找到一個叢集的分法使得總和平方差 e 的值為最小。以下為 k-mean 叢集分析演算法將樣本分成 C 個叢集的流程：步驟 1：隨機選取 C 個起始點，並且將這些樣本點分別視為各叢集的中心。步驟 2：對每一個資料點 x ，尋找距離 x 最近的叢集中心，並且將 x 加入其叢集。步驟 3：計算新叢集的叢集中心，並且計算目標函數。步驟 4：當目標函數小於一個值或是與前壹次的目標函數之差缺近於 0，則演算法停止；反之，跳回步驟 2。. 13.

(22) 貳、 fuzzy c-mean 演算法 fuzzy c-mean 叢集分析（fuzzy c-mean clustering method, FCM）是根據 Bezdek 在 1973 年所提出的 c-mean 演算法而衍生出來的，目的就是在於透過模糊邏輯的概念而使的叢集分析的效果能夠提升。 FCM 與 c-mean 最大的差異就是在於 FCM 有加入了模糊的概念，樣本點不在是絕對的隸屬於哪一個叢集，而是以一個介於 0 到 1 的數字來表示樣本點隸屬於該叢集的程度。假設樣本裡的樣本點共有 n 個( x1 , x2 ,..., xn )，欲將樣本分成 C 個叢集( c1 , c2 ,..., cC )，利用 FCM 就能夠得到一個 C × n 的矩陣 U 來代表每一個樣本點對於每一個叢集的隸屬程度，而樣本裡的任一樣本點隸屬於每個叢集的總和為 1，於是可以將此式子寫成： C. ∑u i =1. = 1, ∀j = 1,2,..., n. ij. (2-19). 接下來根據矩陣 U 即可定義出所需要的目標函數 J ： C. C. n. i =1. i =1 j =1. J (U , c1 , c 2 ,..., ck ) = ∑ J i = ∑∑ (u ij ) m dist (mi , x j ) 2. (2-20). 在這方程式之中 m 是一個介於 [1, ∞) 的權重係數，而 dist (mi , x j ) 則是 mi 與 x j 的距離函數( mi 代表叢集 i 的中心； x j 為樣本點 j )，本研究中所採用的為歐幾里得距離。為了要滿足方程式(2-19)，可以利用方程式(2-20)得到一個新的目標函數 J new ： C. n. n. C. j =1. i =1. J new (U , c1 , c2 ,..., cC , λ1 , λ2 ,..., λn ) = ∑ ∑ (u ij ) m dist (mi , x j ) 2 + ∑ λ j (∑ u ij − 1) (2-21) i =1 j =1. 方程式(2-21)之中的 λ j 是對應於方程式(2-19)的 n 組的 Lagrange multipliers 限制。接著為了要最佳化目標函數 J new ，所以針對所傳入的參數分別進行微分，得到以下兩個方程式： n. mi =. ∑ (u j =1 n. ij. ∑ (u j =1. )m x j. (2-22) ij. 14. ). m.

(23) u ij =. 1 ⎛ dist (mi , x j ) ⎞ ⎟⎟ k =1 ⎝ k,xj)⎠ k. ∑ ⎜⎜ dist (m. 2 m −1. (2-23). 整個模糊 c-mean 叢集分析法的演算流程如下：步驟 1：隨機填入矩陣 U 中所有數值但是需要滿足方程式(2-19)。步驟 2：利用方程式(2-22)來計算出所有叢集的中心點 mi 。 1 。步驟 3：計算目標函數 J new. 步驟 4：利用方程式(2-23)計算出新的矩陣 U ， n n +1 n 步驟 5：重複步驟 2 到步驟 4，直到 J new 小於一個臨界值或是當( J new - J new )已經相. 當趨近於 0 時，則停止演算法。. 15.

(24) 第三章研究設計及實施本章第一節中介紹處理高維度資料時融入叢集分析法之演算法以處理原本所存在的一些問題。本研究的主要研究工具以及高維度資料將在第二節與第三節介紹。. 第一節叢集分析特徵萃取法在高維度資料中常會遇到非常態分布或是多峰型態分部的情形，此時同個類別的樣本點存在些許差異性，如圖 3-1，這種情形容易造成分類器在分類時難以分類，因此若能將叢集分析演算法將 class1 與 class2 看成四個不同的類別如圖 3-2，再融入特徵萃取裡，這樣有助於特徵萃取所萃取出的空間以利分類器的運作。. Class1. Class2. Class1. Class2. Class1. Class3. Class4. ⊗. Class2. 圖 3-1. 圖 3-2. 同類別樣本中存在差異性問題. 以叢集分析處理同類別中存在差異性問題. 此外在樣式辨認中也常常會遇到兩個甚至多個類別有相互交疊的情形，如圖 3-3，在此圖中發現到 class 1 與 class 2 大部分是相互交疊的，這種情形往往在分類時是非常地難以處理，這也是造成辨識率下降的一個原因。因此，若能使用叢集分析的方法將兩個類別各自分成兩個叢集，如圖 3-4，這樣的處理有助於分類器的分類以便於提升辨識率。. 16.

(25) Class1. Class2 Class1. Class2. Class3. 圖 3-3. 圖 3-4. 不同類別交疊情形. Class4. 以叢集分析處理不同類別交疊情形. 下圖 3-5 是原本處理高維度資料時特徵萃取與分類器的演算法流程圖。接著將叢集分析的方法融入特徵萃取的部份，以建立出新演算法，新演算法依照以下的步驟運作，流程圖如 3-6：步驟一：將訓練樣本 L 類中第 i 類分成 Ci 個叢集，並且把這些所有叢集定義成新的類別，因此新的類別數共有 L′ 個類別。 L. L′ = ∑ Ci. (3-1). i =1. 每個新類別裡的樣本點數為 ωl , (l = 1,2,..., L ′) 步驟二：將融入叢集分析法後的組間以及組內分散度矩陣利用以下公式計算出，並且最佳化各特徵萃取的準則。 L′. S bC−LDA = ∑ Pl (ml − m0 )(ml − m0 ). T. (3-2). l =1. L′. S wC−LDA = ∑ Pl Sl. (3-3). l =1. S. C− NW b. λ(gl ,q ) (l ) = ∑ Pl ∑∑ ( xg − M q ( xg(l ) ))( xg(l ) − M q ( xg(l ) ))T l =1 q =1 g =1 ωl L′. L′. ωl. (3-4). l ≠i. S. C− NW w. λ(kl ,l ) (l ) = ∑ Pi ∑ ( xg − M l ( x g(l ) ))( xg(l ) − M l ( x g(l ) ))T l =1 g =1 ωl L′. ωl. 17. (3-5).

(26) 步驟三：將訓練樣本以及測試樣本轉換到以特徵萃取所萃取出的維度空間中。步驟四：將轉換過後的樣本利用分類器分類，並計算出辨識率。 Original training data. Original training data. Clustered training data Feature Extraction. Cluster-based Feature Extraction. Transformed data. Transformed data. classifier. Cluster-based classifier. 圖 3-5. 原來演算法流程圖. 圖 3-6. 18. 融入叢集分析特徵萃取演算法流程圖.

(27) 第二節研究工具本研究中主要的研究工具為 Mathworks 所出版的 MATLAB7.2 R2006a 版，用來撰寫之前所介紹的演算法程式模組以及其他的計算公式，並且搭配 Duin(2002)所出版的 MATLAB 樣式辨認工具箱(Pattern Recognition Toolbox) 3.17 版所使用，此外還有使用美國普渡大學(Purdue University)所發展出的 MultiSpec 這套軟體作為處理高光譜影像圖形的基本工具。. 第三節資料描述在本研究中共使用到 Washington DC Mall 和 Indian Pine Site 兩種高光譜影像資料，還有兩個教育測驗資料共四種不同的資料，對於這些資料共隨機產生 10 個資料集，並分別計算出每個資料集的辨識率，最後將 10 個資料集的辨識率取平均值來做比較。. 壹、 Washington DC Mall 資料 Washington DC Mall都市地區的高光譜影像資料是取自Landgrebe (2003)，如圖3-3 所呈現的是感測器從0.4 到 2.4 μm取210 個波段，包含可視光區域及內紅外線光譜，資料大小大概為150 Megabytes，因為去除水所造成的雜訊，故在本實驗只使用191 波段，本研究將圖共分為7個類別，分別是建築物(Roofs)、路面(Road)、小路(Trail)、草地(Grass)、樹林(Trees)、水(Water)及陰影(Shadow)。對於每個資料集隨機選取每個類別各100個訓練樣本點，以及100個測試樣本點。共選出10個資料集並且對於此10個資料集計算其各自的辨識率，最後將這些取平均為最後比較的數據。. 19.

(28) 貳、 Indian Pine Site 資料 Indian Pine Site為森林和農作物地區是1992年6月所收集的資料，取Indiana州西北 100平方公里區域如圖3-4，共9個類別，分別為玉米田己耕地(Corn-clean)、玉米田未耕地(Corn-notill)、玉米略耕地(Corn-min)、牧草地(Grass/Pasture)、林地(Woods)、乾草地 (Hay-windrowed)、大豆未耕地(Soybean-notill)、大豆略耕地(Soybean-min)和大豆己耕地(Soybean-clean)。同樣的也隨機選取出10個資料集，每個資料集包含每類分別各100個訓練樣本點以及各100個測試樣本點，並計算10個資料集的平均辨識率。. 圖 3-7. Washington DC Mall. 圖 3-8. 20. Indian Pine Site.

(29) 參、教育測驗資料利用樣式辨認技術建立針對測驗資料之分類系統，作為補救教學分類之用，有利補救教學的分群，可因材施教，縮短補救教學時間，而教學診斷的應用為小樣本高維度的問題。本研究使用兩個不同單元的教育測驗資料。教育測驗資料I採用教材康軒出版社所出版的國小數學第十一冊「扇形」單元，紙筆測驗共有21題，有效樣本點數共有748個，每個類別共有20個訓練樣本，其餘的皆為測試樣本，各錯誤類型以及人數參照表3-1。教育測驗資料II採用擴分、約分教材是九十二學年國小六年級數學教材使用的版本，依照民國82年新課程綱要編輯而成，配合施測學校使用的情形施測後，進行試卷批閱及成績登錄，將學生作答情形根據「擴分、約分」單元教材專家知識結構進行補救教學類型的分類。本研究「擴分、約分」單元紙筆測驗計有27題，有效樣本點數1192 個每個類別隨機取出20個訓練樣本其餘作為測試樣本，用以進行實驗，測試所得各錯誤類型組別的學生人數如表3-2。表 3-1. 「扇形」單元的錯誤概念分類表. 組別. 人數. 需要進行補教教學之概念. 1. 50. 加強練習(粗心犯錯). 2. 36. 「複合扇型面積」. 3. 47. 「複合扇型面積」、「基本扇型面積」. 4. 221. 「扇型定義」、「複合扇型面積計算」、「基本扇型面積」. 5. 53. 「圖形繪製」. 6. 30. 「複合扇型面積」、「圖形繪製」. 7. 25. 「複合扇型面積」、「圖形繪製」、「基本扇型面積」. 8. 286. 所有概念都需重新學習. 總計. 748. 21.

(30) 表 3-2. 「擴分、約分」單元的錯誤概念分類表. 組別. 人數. 需進行補救教學之概念. 1. 89. 「兩異分母比較大小」. 2. 31. 「兩異分母比較大小」、「通分」. 3. 186. 「最簡分數」. 4. 154. 「最簡分數」、「兩異分母比較大小」. 5. 62. 「最簡分數」、「兩異分母比較大小」、「通分」. 6. 41. 「約分」. 7. 80. 「最簡分數」、「約分」、「兩異分母比較大小」. 8. 59. 「最簡分數」、「約分」、「兩異分母比較大小」、「通分」. 9. 63. 10. 59. 11. 79. 12. 77. 13. 35. 14. 150. 所以概念都需重新學習. 15. 27. 加強練習（粗心犯錯）. 合計. 1192. 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分母比較」、「通分」需重新學習「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分母比較」、「兩同分母比較」、「公倍數」「最簡分數」、「約分」、「兩異分母比較」、「通分」、「兩同分母比較「最簡分數」、「約分」、「兩異分母比較」、「兩同分母比較」、「公倍數」、「擴分」「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分母比較」、「兩同分母比較」、「公倍數」、「擴分」. 22.

(31) 第四章實驗結果本章中的實驗結果分三個部份來看，第一個部份先以樣本點在 2 為空間中的散布圖來比較融入叢集分析法的特徵萃取對樣本點的散布情形是否有改善。第二部份則是比較本研究所提出的演算法與原始演算法各萃取 1 到 15 個維度數，並比較最高的辨識率。第三部份是將原始地圖當作測試樣本，利用不同演算法判別出類別，並將地圖真實情形與類別呈現出。第四部份則是將 1 到 15 個維度以折線圖的形式比較。圖 4-1 是使用 PCA 將 Indian Pine Site 資料從原始空間 220 維度空間萃取並且轉換到 2 個維度空間後所映射出的樣本點分布情形，從圖中可以很明顯的發現在這個維度空間中 class3 有比較明顯的差異存在。於是若將 class3 以叢集分析分成 2 個叢集並且將其各自視為新的類別融入 PCA 中，同樣轉換到 PCA 萃取 2 個維度空間中並把散布情形顯示出來，如圖 4-2。因為 PCA 的主要重點是要將原始樣本的最大分量萃取出來，所以從圖 4-1 與 4-2 的比較之中並沒有發現到有較大的不同，這說明了融入叢集分析後對 PCA 的轉換效能也許改變不大。. 23.

(32) 4. 5.2. x 10. 5. 4.8. 4.6. 4.4. 4.2. 4 1 2 3 4 5 6 7 8 9. 3.8. 3.6. 3.4. 3.2 -12000. -10000. 圖 4-1. -8000. -6000. -4000. -2000. 0. 2000. 4000. 6000. 8000. 原始樣本點映射到 PCA 取 2 維的維度空間散布情形. 4. 5.2. x 10. 5. 4.8. 4.6. 4.4. 4.2. 4. 3.8. 3.6. 3.4. 3.2 -12000. 1 2 3(cluster1) 3(cluster2) 4 5 6 7 8 9 -10000. 圖 4-2. -8000. -6000. -4000. -2000. 0. 2000. 4000. 6000. 融入叢集分析後 PCA 取 2 維的維度空間散布情形. 24. 8000.

(33) 圖 4-3 表示原始的 Indian Pine Site 資料使用 LDA 將原始的空間轉換到所萃取出的 2 個維度的空間下，樣本點的散布圖。從圖中可以很明顯的看出 class3 在這個維度空間中同樣是至少能在分成兩個以上的叢集，而且 class3 的一個部份和 class9 是相疊在一起的。因此，將 class3 使用叢集分析法分成兩個叢集後融入 LDA 接著同樣萃取 2 個維度並將樣本點轉換到此維度空間中，樣本點散布的情形如圖 4-4。從圖 4-4 中可以明顯的發現 class3 此時明顯的被分成兩個叢集，並且原本其中一個叢集在圖 4-3 中是與 class9 有相互交疊在一起的情形，使用融入叢集分析的 LDA 在這個維度空間中，能夠將此兩類相互交疊的情形改善，藉以也能夠提升辨識率。. 25.

(34) 150. 100. 50. 0. -50. -100. -150. -200. -250. -300. -350 3000. 1 2 3 4 5 6 7 8 9. Class 3. Class 9. 3100. 3200. 圖 4-3. 3300. 3400. 3500. 3600. 3700. 3800. 原始樣本點映射到 LDA 取 2 維的維度空間散布情形. -2900. Class 9. -2850. -2800. -2750. -2700. -2650. -2600. -2550. -2500. -2450 600. 1 2 3(cluster1) 3(cluster2) 4 5 6 7 8 9. 800. 圖 4-4. Class 3 (Cluster2) Class 3 (Cluster1) 1000. 1200. 1400. 1600. 1800. 融入叢集分析後 LDA 取 2 維的維度空間散布情形. 26. 2000.

(35) 圖 4-5 則是使用 NWFE 將 Indian Pine Site 資料同樣從原始空間 220 維度空間萃取並轉換到 2 個維度空間後所映射出的樣本點分布情形，在這圖中有與 LDA 相同的情形產生，就是 class3 與 class9 重疊在一起的情形。因此同樣將 class3 的樣本點以叢集分析法分成兩個叢集，這樣對於特徵萃取在計算組間分散度矩陣以及組內分散度矩陣時就能夠有相當地改善，而圖 4-6 則是將類別 3 的樣本點先以 fuzzy c-mean 叢集分析的方法分為兩個叢集並且將它們各自當成一個新的類別融入 NWFE 的方法將原始的空間轉換到 2 維空間中，並且把樣本點的散布情形展示出來。圖 4-6 發現到對於 class3(cluster2)與 class9 相互交疊的情形改善相當多，藉此提升辨識率。從以上的幾個圖來看，PCA 因為沒有計算組間分散度矩陣以及組內分散度矩陣，所以融入叢集分析之特徵萃取方法對 PCA 似乎是比較沒有效果的，但是對於 LDA 以及 NWFE 的改善就不同了，融入叢集分析法的特徵萃取更能將類別之間拉開，這對於之後分類器處理時會有相當大的改善。. 27.

(36) -1100. Class 9. -1000. -900. -800. -700. -600. 1 2 3. -500. 4. Class 3. 5 6 -400. 7 8 9. -300. -200 -200. -400. -600. 圖 4-5. -800. -1200. -1400. -1600. -1800. -2000. -2200. 原始樣本點映射到 NWFE 取 2 維的維度空間散布情形. 2100. Class 9. 2000. 1900. 1800. 1700. 1600. 1500. 1400. 1300. 1 2 3(cluster1) 3(cluster2) 4 5 6 7 8 9. 1200 -2000. Class 3 (Cluster2). -1500. 圖 4-6. Class 3 (Cluster1) -1000. -500. 0. 融入叢集分析後 NWFE 取 2 維的維度空間散布情形. 28. 500.

(37) 表 4-1 到表 4-4 代表兩種分類器在對兩種資料集所產生的辨識率，以特徵萃取法取 1 個維度到 15 個維度並比較各別辨識率，刮號內的數字表示該方法最高的辨識率的特徵數，叢集個數表示每個類別所分成固定幾個叢集個數。表 4-1 是使用 ML 分類器資料集則為 Indian Pine Site，從此表中可以看出使用 ML 分類器分類，特徵萃取法使用 LDA 時，辨識率會提升最多，可由原本的 0.8181 提升至 0.8747；若特徵萃取法是使用 NWFE 時也能提升一些效能由原本的 0.8763 提升至 0.8958；若使用 PCA 時則融入叢集分析法的效能也能相當接近原本的方法。. 表 4-1 特徵萃取. PCA. Indian Pine Site 使用 ML 分類器的辨識率比較叢集分析方法無. 叢集個數. 2 3. 最高辨識率(特徵數) 0.8725(14) 0.8708(13) 0.8640(13) 0.8723(14) 0.8668(13) 0.8181(7) 0.8729(9) 0.8746(8). 2. 0.8747(9). 3. 0.8732(9) 0.8763(10) 0.8941(9) 0.8965(9) 0.8958(9) 0.8954(9). 2 3 2 3. k-mean Fuzzy c-mean 無. LDA. k-means fuzzy c-mean 無. NWFE. 2 3 2 3. k-mean Fuzzy c-mean. 29.

(38) 表 4-2 是使用 1NN 資料集為 Indian Pine Site，表中顯示當特徵萃取法使用 LDA 時效能可提升許多由原本的 0.8445 提升至 0.8945，使用 NWFE 及 PCA 也能趨近至原本的辨識率。. 表 4-2 特徵萃取. PCA. Indian Pine Site 使用 1NN 分類器的辨識率比較叢集分析方法無. 叢集個數. 2 3. 最高辨識率(特徵數) 0.7920(15) 0.7920(15) 0.7919(15) 0.7919(15) 0.7919(15) 0.8445(7) 0.8908(10) 0.8940(15). 2. 0.8906(10). 3. 0.8945(12) 0.8993(14) 0.8797(12) 0.8848(12) 0.8810(9) 0.8861(11). 2 3 2 3. k-mean Fuzzy c-mean 無. LDA. k-means fuzzy c-mean 無. NWFE. 2 3 2 3. k-mean Fuzzy c-mean. 30.

(39) 表 4-3 是分類器使用 ML 分類器，資料集為 Washington DC Mall 的辨識率，由此表可看出在不加入叢集分析的情況下已經能有相當高的辨識率，而融入叢集分析的方法後的效能也能相當趨近於原本的辨識率甚至稍為高一點。. 表 4-3 特徵萃取. PCA. Washington DC Mall 使用 ML 分類器的辨識率比較叢集分析方法無. 叢集個數. 2 3. 最高辨識率(特徵數) 0.8440(15) 0.8491(15) 0.8412(13) 0.8528(15) 0.8510(15) 0.9380(5) 0.9341(10) 0.9372(9). 2. 0.9352(6). 3. 0.9340(6) 0.9410(15) 0.9375(13) 0.9414(9) 0.9412(12) 0.9410(14). 2 3 2 3. k-mean Fuzzy c-mean 無. LDA. k-means fuzzy c-mean 無. NWFE. 2 3 2 3. k-mean Fuzzy c-mean. 31.

(40) 表 4-4 代表分類器使用 1NN 分類器對 Washington DC Mall 資料集所產生的辨識率，由表中發現原本的方法也是同樣就能達到相當高的效能，使用 LDA 以及 NWFE 皆能提升一些效能，至於使用 PCA 時也能相當趨近原本的效果。. 表 4-4 特徵萃取. PCA. Washington DC Mall 使用 1NN 分類器的辨識率比較叢集分析方法無. 叢集個數. 2 3. 最高辨識率(特徵數) 0.8992(14) 0.8797(12) 0.8847(14) 0.8797(12) 0.8848(12) 0.9338(6) 0.9377(7) 0.9400(7). 2. 0.9374(7). 3. 0.9361(9) 0.9380(7) 0.9369(7) 0.9422(9) 0.9374(8) 0.9381(7). 2 3 2 3. k-mean Fuzzy c-mean 無. LDA. k-means fuzzy c-mean 無. NWFE. 2 3 2 3. k-mean Fuzzy c-mean. 32.

(41) 接下來這個部份是將原始的地圖當作測試樣本，並使用不同演算法將分類結果後地圖的類別以最直觀的方式呈現出，並比較新演算法與原始演算法的優劣。因為本研究在 Indian Pine Site 資料上的表現效果是比較顯著的，於是將 Indian Pine Site 的圖形呈現出，在此部份每個圖形皆為以特徵萃取法萃取類別數減一個維度數來判別，圖 4-7 為 Indian Pine Site 地形的 9 個類別的原始類別分別散布的位置；圖 4-8 是以 ML 分類器利用 LDA 萃取 8 個維度數後分類的情形；圖 4-9 與圖 4-10 則為以 ML 分類器利用融入 FCM 之 LDA 萃取出 8 個維度數後分類的效果。. 圖 4-7. 圖 4-8. 原始圖形真實類別. 使用 ML 分類器利用 LDA 萃取後的圖形. 33.

(42) 圖 4-9. 使用 ML 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =2). 圖 4-10 使用 ML 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =3). 從以上的圖 4-8 到圖 4-10 可以看出利用融入叢集分析後的特徵萃取法的效果在紅圈標記的部分都是有改善的，新演算法所分類出的圖形在這些地方都是比較清晰而且比較正確的。在後面的圖中同樣是在紅圈處皆有比較好的效果。圖 4-11 是 ML 分類器利用原始 NWFE 萃取出 8 個維度數後分類的結果；圖 4-12 及圖 4-13 則是以 ML 分類器利用融入 FCM 之 NWFE 萃取 8 個維度數後的分類結果。圖 4-14 到圖 4-16 則是以 1NN 分類器分類，特徵萃取法為 LDA，將 FCM 叢集分析法融入其中。. 34.

(43) 圖 4-11 使用 ML 分類器利用 NWFE 萃取後的圖形. 圖 4-12 使用 ML 分類器利用融入 FCM 之 NWFE 萃取後圖形(# of clusters =2). 圖 4-13 使用 ML 分類器利用融入 FCM 之 NWFE 萃取後圖形(# of clusters =3). 35.

(44) 圖 4-14 使用 1NN 分類器利用 LDA 萃取後的圖形. 圖 4-15 使用 1NN 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =2). 圖 4-16 使用 1NN 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =3). 36.

(45) 圖 4-17 至圖 4-22 是 Indian Pine Site 的資料同樣用三種特徵萃取法取 1 至 15 個維度數，接著利用 ML 分類器以及 1NN 分類器所計算出的辨識率，由這些圖中可發現當特徵萃取使用 LDA 的方法時，就非常的適合採用融入叢集分析的方法。而且在使用 ML 分類器時也比較適用於融入叢集分析的方法。. 0.9 0.85 0.8. acc. 0.75. baseline. 0.7. Kmeans_2. 0.65. Kmeans_3. 0.6. FCM_2. 0.55. FCM_3. 0.5 0.45 0.4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. 圖 4-17 Indian Pine Site 資料使用 ML 分類器利用 PCA 萃取後辨識率 0.9 0.85 0.8. acc. 0.75. baseline. 0.7. Kmean_2. 0.65. Kmean_3. 0.6. FCM_2. 0.55. FCM_3. 0.5 0.45 0.4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. 圖 4-18 Indian Pine Site 資料使用 ML 分類器利用 LDA 萃取後辨識率. 37.

(46) 1 baseline. 0.9. Kmean_2 Kmean_3. 0.8 acc. FCM_2 0.7. FCM_3. 0.6 0.5 0.4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. 圖 4-19 Indian Pine Site 資料使用 ML 分類器利用 NWFE 萃取後辨識率 0.8 0.75. acc. 0.7. baseline. 0.65. Kmean_2. 0.6. Kmean_3 FCM_2. 0.55. FCM_3. 0.5 0.45 0.4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. acc. 圖 4-20 Indian Pine Site 資料使用 1NN 分類器利用 PCA 萃取後辨識率 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4. baseline Kmean_2 Kmean_3 FCM_2 FCM_3. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. 圖 4-21 Indian Pine Site 資料使用 1NN 分類器利用 LDA 萃取後辨識率. 38.

(47) acc. 1 0.9. baseline. 0.8. Kmean_2 Kmean_3. 0.7. FCM_2. 0.6. FCM_3. 0.5 0.4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. 圖 4-22 Indian Pine Site 資料使用 1NN 分類器利用 NWFE 萃取後辨識率. 圖 4-23 至圖 4-28 為 Washington DC Mall 資料利用三種特徵萃取方法萃取 1 到 15 個維度再利用兩種分類器分別所計算出的辨識率比較圖，由這些圖形中可以發現到沒有融入叢集分析法的辨識率都與有融入叢集分析法的辨識率相當地接近，這表示在 Washington DC Mall 的地圖同一類別中的差異性比較小，所以即使有融入叢集分析的方法也沒辦反改善許多，但是也能有相當好的效果。. 0.9 0.85 baseline 0.8 acc. Kmean_2 Kmean_3. 0.75. FCM_2 FCM_3. 0.7 0.65 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. 圖 4-23 Washington DC Mall 資料使用 ML 分類器利用 PCA 萃取後辨識率. 39.

(48) 1 0.9. baseline. 0.8. acc. Kmean_2 Kmean_3. 0.7. FCM_2 0.6. FCM_3. 0.5 0.4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. 圖 4-24 Washington DC Mall 資料使用 ML 分類器利用 LDA 萃取後辨識率 0.95. acc. 0.93 0.91 0.89. baseline. 0.87 0.85. Kmean_2. 0.83. FCM_2. 0.81. FCM_3. Kmean_3. 0.79 0.77 0.75 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. 圖 4-25 Washington DC Mall 資料使用 ML 分類器利用 NWFE 萃取後辨識率 1 0.9 baseline. acc. 0.8. Kmean_2 Kmean_3. 0.7. FCM_2 FCM_3. 0.6 0.5 0.4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. 圖 4-26 Washington DC Mall 資料使用 1NN 分類器利用 PCA 萃取後辨識率. 40.

(49) 1 0.9 baseline. acc. 0.8. Kmean_2 Kmean_3. 0.7. FCM_2. 0.6. FCM_3. 0.5 0.4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. dim. 圖 4-27 Washington DC Mall 資料使用 1NN 分類器利用 LDA 萃取後辨識率 1 0.95. baseline. acc. 0.9. Kmean_2 Kmean_3. 0.85. FCM_2 FCM_3. 0.8 0.75 0.7 1. 2. 3. 4. 5. 6. 7. 8 dim. 9. 10. 11. 12. 13. 14. 15. 圖 4-28 Washington DC Mall 資料使用 1NN 分類器利用 NWFE 萃取後辨識率. 41.

(50) 因為教育測驗資料中的樣本數比較少，所以若同一個類別中分成較多個叢集時，常常會有一個叢集裡的個數不足以至於整體的辨識率降低許多，因此教育測驗資料裡只將每個類別的叢集分為兩個叢集並比較。表 4-5 以及 4-6 就是教育測驗資料「 I 扇形」單元使用三種特徵萃取及兩種分類器所計算出的辨識率、表 4-7 及 4-8 為教育測驗資料 II「擴分、約分」單元使用各種特徵萃取及分類器所計算出的辨識率並加以比較。. 表 4-5 特徵萃取 PCA. LDA. NWFE. 表 4-6 特徵萃取 PCA. LDA. NWFE. 教育測驗資料 I 使用 ML 分類器的辨識率比較叢集分析方法無 k-mean Fuzzy c-mean 無 k-means fuzzy c-mean 無 k-mean Fuzzy c-mean. 叢集個數 2 2 2 2 2 2. 最高辨識率(特徵數) 0.3234(2) 0.3412(2) 0.3467(2) 0.8219(2) 0.7913(2) 0.7829(2) 0.8088(2) 0.7501(2) 0.7370(2). 教育測驗資料 I 使用 1NN 分類器的辨識率比較叢集分析方法無 k-mean Fuzzy c-mean 無 k-means fuzzy c-mean 無 k-mean Fuzzy c-mean. 叢集個數 2 2 2 2 2 2. 42. 最高辨識率(特徵數) 0.5181(8) 0.5011(8) 0.5136(8) 0.8430(3) 0.8137(3) 0.8255(3) 0.8379(3) 0.8156(3) 0.8214(3).

(51) 表 4-7 特徵萃取 PCA. LDA. NWFE. 表 4-8 特徵萃取 PCA. LDA. NWFE. 教育測驗資料 II 使用 ML 分類器的辨識率比較叢集分析方法無 k-mean Fuzzy c-mean 無 k-means fuzzy c-mean 無 k-mean Fuzzy c-mean. 叢集個數 2 2 2 2 2 2. 最高辨識率(特徵數) 0.4960(5) 0.4520(4) 0.4128(3) 0.6956(6) 0.6007(4) 0.6001(4) 0.6965(6) 0.6834(6) 0.6933(5). 教育測驗資料 II 使用 1NN 分類器的辨識率比較叢集分析方法無 k-mean Fuzzy c-mean 無 k-means fuzzy c-mean 無 k-mean Fuzzy c-mean. 叢集個數 2 2 2 2 2 2. 43. 最高辨識率(特徵數) 0.5004(10) 0.4984(10) 0.5031(10) 0.7511(7) 0.7410(8) 0.7210(10) 0.7438(7) 0.7381(7) 0.7163(10).

(52) 第五章結論與未來發展本研究利用叢集分析的方法融入特徵萃取裡，以減低在高維度資料中存在著一些同類別差異性、非常態或多峰混合分布以及共同平均值等這些情況使得辨識率下降的問題，從數據上來看可以發現在 PCA 中因為沒有考慮到組間分散度矩陣以及組內分散度矩陣的問題，因此融入叢集分析的方法並無法獲得相當地改善。對於 LDA 以及 NWFE 兩種特徵萃取法，因為兩種方法都是要最佳化組間分散度矩陣及組內分散度矩陣的比率，所以採用融入叢集分析的方法通常能獲得效能上的增加以及辨識率的提升。單就特徵萃取的方法來比較，可由數據上明顯的看出只用 NWFE 本身的辨識率已經相當高了，即使是融入叢集分析之 LDA 所萃取過後的辨識率，也難以比單純使用 NWFE 萃取過後的辨識率高。此外在本研究中所使用了 k-mean 及 fuzzy c-mean 兩種叢集分析的方法，對於本研究中的效能兩種叢集分析方法就數據上來看並無太大的差異。另外，在 fuzzy c-mean 的演算法中還有提供一些對於使用叢集分析的資訊量在本研究中並無使用到，因此希望往後的研究能夠多加利用這些 fuzzy c-mean 所提供的訊息。高維度資料中同類別也許可以分成數個叢集，但是在本研究中採用每個類別固定分成數個叢集。在未來的研究中期望能找到一個準則，希望能夠有一個機制能自動的判斷該類別分成幾個叢集對整體分類的效果能夠達到最大的改善。. 44.

(53) 參考文獻中文部分郭伯臣、吳慧珉、楊晉民、柯立偉、白家豪（民 92）。樣式辨識技術於學生補救教學分組之應用－以國小數學領域「扇形」單元為例，九十二學年度師範學院教育學術論文發表會，台南師院，10 月 24-25 日。郭伯臣（民 95）統計樣式辨認於測驗資料之應用。測驗統計年刊，第十三輯下期， pp.146-170。. 英文部分 Chen, G-S., Ko, L-W., Kuo, B-C., and Shih, S-C. (2004). A Two-stage Feature Extraction for Hyperspectral Image Data Classification. Proceedings of International Geoscience and Remote Sensing Symposiums, Sep 20-24. Cover, T. M. and Hart, P. E. (1967). Nearest Neighbor Pattern Classification. IEEE Transactions on Information Theory, vol. 13, no. 1, pp.21-27. Earl Gose, Richard Johnsonbaugh, and Steve Jost, "Pattern recognition and Image Analysis", Prentice Hall Inc., New Jersey, 1996 Fisher, R. A. (1936). The use of multiple measures in taxonomic problems. Ann. Eugenics, vol. 7, pp. 179-188. Fukunaga, K. (1990). Introduction to Statistical Pattern Recognition. San Diego, CA:Academic Press. Hastie, T. and Tibshirani, R. (1996). Discriminant Adaptive Nearest Neighbor Classification. IEEE Transcation on Pattern Analysis and Machine Intelligence. vol. 18, no. 6, pp. 607-616. Hughes, G. F. (1968). On the mean accuracy of statistical pattern recognition. IEEE Trans.. 45.

(54) Inform. Theory, vol. 14, pp. 55 - 63, Jan. Hui-Chuan Lin, and J. S. Roger Jang, "Survey and Implementation of Clustering Algorithm", MS Thesis, Tsing Hua University, Taiwan, R.O.C., 1998. J. -S. R. Jang, C. –T. Sun, and E. Mizutani, "Neural-Fuzzy and soft Computing", Chap 15, 1997 J. T. Tou, and R. C. Gonzalez, "Pattern Recognition Principles", Addison-Wesley Publishing Company, Inc. Published simultaneously In Canada, 1974 Jim C. Bezdek, "Fuzzy mathematics In pattern classfication", PhD thesis, Applied Math. Center, Cornell University, Ithaca, 1973 Jolliffe, I. T. (1986). Principal Components Analysis. Springer-Verlag, New York. Kuo B.-C. and Landgrebe D. A. (2002). A covariance estimator for small sample size classification problems and its application to feature extraction. IEEE Trans. Geosci. Remote Sens., vol. 40, no. 4, pp. 814–819, Apr. Kuo, B-C. and Landgrebe, D. A. (2004). Nonparametric Weighted Feature Extraction for Classification. IEEE Trans. on Geoscience and Remote Sensing, vol. 42, no. 5, pp. 1096-1105, May. Kuo, B-C., Landgrebe, D.A., Ko, L-W., and Pai, C-H. (2003). Regularized Feature Extractions for Hyperspectral Data Classification. Proceedings of International Geoscience and Remote Sensing Symposium, Toulouse. France, July. Landgrebe, D. A. (2003). Signal Theory Methods in Multispectral Remote Sensing. John Wiley and Sons, Hoboken, NJ: Chichester. MacQueen, "Some method for classification and analysis of multivariant observations", Process of the Fifth Berkeley Symposium on Mathematical Statistical and Probability. University of California Press, 1967 S.T, and K.K., "Pattern Recognition", Chap2, Academic Press, 1999. 46.

(55) Shah, C. A., Watanachaturaporn, P., Arora, M. K., and Varshney, P. K. (2003). Some Recent Results on Hyperspectral Image Classification. In IEEE Workshop on Advances in Techniques for Analysis of Remotely Sensed Data, NASA Goddard Spaceflight center, Greenbelt, October 27-28. Tadjudin S. and Landgrebe D. A. (1998). Classification of High Dimensional data with Limited Training Samples, Purdue University, West Lafayetee, IN., TR-EE 98-8, April. Thomaz, C. E. and Gillies, D. F. (2004). A Maximum Uncertainty LDA-based approach for Limited Sample Size problems - with application to Face Recognition. Technical Report TR-2004-01, Department of Computing, Imperial College, London, UK, January. Yu, H. and Yang, J. (2001). A direct LDA algorithm for high dimensional data – with application to face recognition. Pattern Recognition, vol. 34, pp. 2067-2070.. 47.

(56)