• 沒有找到結果。

探討特徵萃取要素於小樣本分類問題

N/A
N/A
Protected

Academic year: 2021

Share "探討特徵萃取要素於小樣本分類問題"

Copied!
65
0
0

加載中.... (立即查看全文)

全文

(1)國立台中教育大學教育測驗統計研究所理學碩士論文. 指導教授:郭伯臣. 博士. 探討特徵萃取要素於小樣本分類問題. 研究生:張光佑. 中. 華. 民. 國. 九. 十. 撰. 五. 年. 一. 月.

(2) 摘要 在進行高維度資料辨識時,以統計為基礎之分類器常常會因為訓練樣本點 數不足的原因遭遇到 Hughes phenomena。傳統的特徵萃取或特徵選取技術被應 用於克服這個問題。但是在小樣本問題下,高維度資料進行特徵萃取的時候同 時又會遭遇到組內分散矩陣是奇異或者是接近奇異。本研究將探討在小樣本問 題下設計特徵萃取的關鍵。 許多研究者證明組內與組間分散矩陣的定義和正規化技巧是設計小樣本分 類問題特徵萃取的要點。在本研究中使用三種不同的特徵萃取,除了常見的主 成分分析和線性區別分析,還有無參數形式的無參數加權特徵萃取。一些常見 以及新的正規化技術被用來討論與比較。除了以上兩點,本文引入特徵值分解 這個要點,並且一同探討這三個因素的效果。 本研究使用高光譜影像資料 Washington DC Mall 以及教育測驗資料來進行 實驗。在高光譜影像資料的訓練樣本方面分成兩種情況,分別是 ill-posed 以及 poorly-posed,探討在不同的樣本點數下,各個因素所造成的不同影響。在教育 測驗資料的訓練樣本方面分成兩種情況,類別訓練樣本點數分別為 10 與 20 兩 種。在本文中除了使用傳統的最大概似分類器,又加入了最近相鄰法以及支撐 向量機兩種不同特性的分類器進行比較。 實驗結果證實,不同的正規化方法需要配合不同的特徵值分解,以達到最 佳的效能。其中以無參數形式的分散矩陣、RFE 正規化技術、EIG 特徵值分解 法,和 ML 分類器的組合,對處理小樣本影像辨識問題有最佳的效果。. 關鍵字:特徵萃取、正規化、高維度影像分類、特徵值分解. I.

(3) ABSTRACT For high dimensional data classification, statistics based classifier suffers from the Hughes phenomena because of limited training data. Feature Extraction prevents high dimensional data classification from this problem. It suffers from the singularity of the with class scatter matrix or nearly singular. In this thesis, the key points of designing a feature extraction will be explored in small sample size. Many researches show that the definitions of within-class and between-class scatter matrices, and regularization techniques are the key points of designing a feature extraction for small sample size classification problem. Three kinds of different feature extractions, PCA, LDA, and NWFE, are used in this thesis. Some popular and new regularization techniques are compared. Eigenvalue decomposition is introduced in this thesis and explored with feature extraction and regularization. Hypersectral image data and educational testing data are used in the experiment. In hypersectral image data there are two cases in training samples, ill-posed and poorly-posed. In educational testing data there are two cases in training samples. The training samples of each class are ten and twenty. Besides ML classifier, 1NN and SVM are compared. In the experiment result, different regularization techniques adapt to different eigenvalue decomposition. Nonparametric scatter matrices with RFE regularization and EIG decomposition in maximum likelihood classifier is the robust combination for small sample size classification. Keywords : feature extraction; regularization; hypersectral image classification; eigenvalue decomposition. II.

(4) 目 第一章. 錄. 緒論...............................................................1. 第一節 研究動機..........................................................................1 第二節 研究目的..........................................................................1 第三節 符號注釋..........................................................................3. 第二章. 文獻探討.......................................................4. 第一節 Hughes phenomena..........................................................4 第二節 特徵萃取..........................................................................6 壹、主成分分析.............................................................................7 貳、線性區別分析.........................................................................8 参、無參數加權特徵萃取............................................................9 第三節 正規化分散矩陣............................................................11 壹、虛擬反矩陣...........................................................................12 貳、正規化區別分析...................................................................12 參、Mixed-LOOC........................................................................13 肆、Maximum Entropy Covariance Selection.............................14 伍、New Linear Discriminant Analysis.......................................15 陸、Regularized Feature Extraction.............................................15. III.

(5) 目. 錄. 第四節 特徵值分解....................................................................16 第五節 分類器............................................................................18 壹、最大概似分類器...................................................................18 貳、最近相鄰法...........................................................................20 參、支撐向量機...........................................................................20. 第三章. 實驗設計.....................................................22. 第一節 資料描述........................................................................22 壹、高光譜影像資料...................................................................22 貳、教育測驗資料.......................................................................24 第二節 實驗描述........................................................................26 第三節 實驗流程........................................................................27. 第四章. 實驗結果.....................................................29. 第五章結論.................................................................38 參考文獻.....................................................................51 附錄. IV.

(6) 表目錄 表 3-1 擴分約分單元專家結構................................................................................24 表 3-2 擴分約分單元的錯誤概念分類表................................................................25 表 3-3 實驗設計資訊................................................................................................26 表 3-4 特徵萃取構成要素和分類器的組合............................................................28 表 4-1 Washington DC Mall 實驗一在 ill-posed 情況下的平均辨識正確率...........32 表 4-2 Washington DC Mall 實驗二在 poorly -posed 情況下的平均辨識正確率...33 表 4-3 實驗三中教育測驗資料的平均辨識正確率................................................36 表 4-4 實驗四中教育測驗資料的平均辨識正確率................................................37. V.

(7) 圖目錄 圖 2-1 資料維度數與分散度關係................................................................................4 圖 2-2 資料維度數與參數估計精確度關係................................................................5 圖 2-3 資料維度數與辨識精確度關係........................................................................5 圖 2-4 Hughes phenomena.............................................................................................6 圖 2-5 特徵萃取過程.....................................................................................................7 圖 2-6 NWFE 在非常態資料樣本點與其局部平均的關係圖..................................11 圖 2-7 ML 分類器辨識示意........................................................................................19 圖 3-1 Washington DC Mall 高光譜資料影像..........................................................23 圖 3-2 特徵萃取及分類流程......................................................................................27 圖 4-1 在 ill-posed 情況下 Washington DC Mall 實驗一以 LDA 為基礎特徵萃取的 效能.................................................................................................................34 圖 4-2 在 ill-posed 情況下 Washington DC Mall 實驗一以 NWFE 為基礎特徵萃取 的效能.............................................................................................................34 圖 4-3 在 poorly-posed 情況下 Washington DC Mall 實驗二以 LDA 為基礎特徵萃 取的效能.........................................................................................................35 圖 4-4 在 poorly-posed 情況下 Washington DC Mall 實驗二以 NWFE 為基礎特徵 萃取的效能.....................................................................................................35 圖 5-1 Washington DC Mall 資料部份的影像............................................................39 圖 5-2 PCA 分類結果..................................................................................................39 圖 5-3 LDAGSVD 分類結果.......................................................................................39 圖 5-4 LDA_PINV_EIG 分類結果..............................................................................40 圖 5-5 LDA_PINV_SVD 分類結果............................................................................40. VI.

(8) 圖目錄 圖 5-6 LDA_PINV_QZ 分類結果...............................................................................40 圖 5-7 LDA_RDA_EIG 分類結果..............................................................................41 圖 5-8 LDA_RDA_SVD 分類結果.............................................................................41 圖 5-9 LDA_RDA_QZ 分類結果................................................................................41 圖 5-10 LDA_ MECS_EIG 分類結果.........................................................................42 圖 5-11 LDA_ MECS_SVD 分類結果........................................................................42 圖 5-12 LDA_ MECS_QZ 分類結果...........................................................................42 圖 5-13 LDA_ NLDA_EIG 分類結果.........................................................................43 圖 5-14 LDA_ NLDA_SVD 分類結果........................................................................43 圖 5-15 LDA_ NLDA_QZ 分類結果..........................................................................43 圖 5-16 LDA_MixlOOC_EIG 分類結果.....................................................................44 圖 5-17 LDA_MixlOOC_SVD 分類結果....................................................................44 圖 5-18 LDA_MixlOOC_QZ 分類結果......................................................................44 圖 5-19 LDA_RFE_EIG 分類結果..............................................................................45 圖 5-20 LDA_RFE_SVD 分類結果............................................................................45 圖 5-21 LDA_RFE_QZ 分類結果...............................................................................45 圖 5-22 NWFE_PINV_EIG 分類結果.........................................................................46 圖 5-23 NWFE _PINV_SVD 分類結果......................................................................46 圖 5-24 NWFE _PINV_QZ 分類結果.........................................................................46 圖 5-25 NWFE _ MECS_EIG 分類結果.....................................................................47 圖 5-26 NWFE _ MECS_SVD 分類結果....................................................................47 圖 5-27 NWFE _ MECS_QZ 分類結果......................................................................47 圖 5-28 NWFE _NLDA_EIG 分類結果......................................................................48. VII.

(9) 圖目錄 圖 5-29 NWFE _NLDA_SVD 分類結果.....................................................................48 圖 5-30 NWFE _NLDA_QZ 分類結果.......................................................................48 圖 5-31 NWFE_RFE_EIG 分類結果...........................................................................49 圖 5-32 NWFE _RFE_SVD 分類結果........................................................................49 圖 5-33 NWFE _RFE_QZ 分類結果...........................................................................49 圖 5-34 KNN 分類結果...............................................................................................50 圖 5-35 SVM 分類結果...............................................................................................50. VIII.

(10) 第一章 第一節. 緒論. 研究動機. 高維度資料(high dimensional data)如高光譜影像資料、人臉辨識、手寫辨識 以及基因微陣列(microarray)等,使用逐漸廣泛。傳統分類技術在統計樣式辨認 中的假設大多都是基於有足夠的樣本可供使用,但是高維度資料所需要的訓練 樣本點數比傳統資料多,更容易出現資料不足的情況。高維度資料分類的主要 問 題 就 是 當 訓 練 樣 本 點 數 少 時 , 以 統 計 為 基 礎 之 分 類 器 會 出 現 Hughes phenomena (Hughes, 1968)。當資料的維度數提高時,在不增加資料的數量時, 常會因為 Hughes phenomena 而造成辨識正確率(classification accuracy)下降。本 研究所希望的就是能在有限的訓練樣本點數下減少 Hughes phenomena 的影響。 在現實的情況中大量的資料通常都難以獲得,或者是需要花費相當多的成 本,因此在現實的情況中常常遭遇到小樣本問題(small sample size)。Hughes phenomena 是小樣本問題中最常遭遇的難題,傳統的特徵萃取(Feature Extraction) 或特徵選取(Feature Selection)技術被用於克服這個問題。在我們先前及其他相關 的特徵萃取研究 (Lee & Landgrebe, 1993; Kuo & Landgrebe, 2003; Kuo & Landgrebe, 2004; Kuo, Chang, Chang & Hsieh, 2004; Thomaz, Gillies & Feitosa, 2004)證實組內分散矩陣和組間分散矩陣的定義和正規化(regularization)技巧是 用以設計一個小樣本特徵萃取的要點。在本研究中將討論到另一個可以用以改 善特徵萃取效能的關鍵,在研究中發現選擇三種要素的最佳組合方式將有助提 升特徵萃取在小樣本情況下的效能。. 第二節. 研究目的. 本文主要的目的是另外引入特徵值分解這個要點,並且一同探討組內和組 間分散矩陣的定義、正規化技巧和特徵值分解這三個因素的效果。許多研究者 證明組內與組間分散矩陣的定義和正規化技巧是設計小樣本分類問題特徵萃取. 1.

(11) 的要點。傳統以統計為基礎之最大概似分類器,會因為訓練樣本點數處於不良 的狀況(ill-posed) 以及不足的狀況(poorly-posed),而出現共變異數發生奇異的情 況。本研究也分別針對這兩種小樣本的狀況進行實驗。 傳統的特徵萃取或特徵選取被使用來解決小樣本分類問題。可是在進行特 徵萃取計算費氏準則(Fisher criterion) (Fisher, 1936)的時候,需要使用到分散矩陣 的反矩陣,由於樣本點數不足的問題,因而出現奇異(singular)或者是接近奇異 (nearly singular)的情況,造成辨識效果低落。正規化技巧因此被引入到計算反矩 陣之中。 在此,我們首先討論 ill-posed 以及 poorly-posed 發生的條件以及所造成的影 響。所謂的 ill-posed 是指訓練的樣本點數 n 小於訓練樣本的維度數 p ,即 n < p 。 在計算共變異數矩陣時會因為矩陣不是滿秩的情況,共變異數矩陣的反矩陣會 出現奇異的狀況,因此無法計算出共變異數矩陣的反矩陣。面對這樣反矩陣不 存在的問題,最常被使用的方式是使用正規化來修正這個缺陷。在第二章中除 了常見的正規化方式外,還討論到一些新的正規化方式。 另外一個小樣本情況是 poorly-posed,這種情況是指訓練的樣本點數 n 大於 訓練樣本的維度數 p ,即 n > p ,可是用以訓練的樣本卻不足以穩定的估計辨識 所需要的參數。在這樣的情況下共變異數矩陣雖然是滿秩的情況,雖然可以計 算出反矩陣,可是因為所估計的參數不穩定,在求反矩陣時所得到的結果也同 樣相當的不穩定,又稱之為接近奇異。當所使用的參數不穩定時,分類器的效 果就容易變的低落。面對這樣的問題,正規化同樣可以有助於參數矩陣的穩定。 除了以不同的組內與組間分散矩陣的定義和正規化技巧來設計特徵萃取, 還探討特徵值分解法這個影響特徵萃取辨識結果的另一個因素。在特徵萃取的 過程中,增加特徵值分解法以幫助設計一個良好的小樣本特徵萃取。特徵萃取 經常被使用在傳統分類技術,如最大概似分類器(maximum likelihood classifier, ML)。在此我們另外加入了最近相鄰法分類器(K Nearest Neighbors Classifier, KNN) (Cover & Hart, 1967)以及支撐向量機(Support Vector Machine, SVM). 2.

(12) (Vapnik, 1995)兩種分類器。這兩種分類器與 ML 分類器不同,當在樣本不足的 情況下同樣可以進行分類。在本文中將比較特徵萃取在這三個分類器上所造成 的結果。. 第三節. 符號注釋. p 表示訓練樣本的原始維度數 p ' 表示轉換後訓練樣本的維度數 ni 表示類別 i 訓練樣本的樣本點數. n 表示所有訓練樣本的樣本點數 Pi 表示類別 i 的事前機率. L 表示所有類別的數目 mi 表示類別 i 訓練樣本的平均數 m0 表示所有訓練樣本的混合平均數 S i 表示類別 i 訓練樣本的共變異數矩陣 S 表示所有訓練樣本的共變異數矩陣. xk(i ) 表示類別 i 的第 k 個樣本點. Φ 表示特徵向量矩陣. Λ 表示特徵值矩陣. 3.

(13) 第二章. 文獻探討. 在本章中將會首先討論到小樣本分類中最常遭遇到的難題,Hughes phenomena,以了解維度數、樣本點數以及辨識正確率之間相互的影響。第二節 中討論到幾種常見的特徵萃取方式,以及分散矩陣的計算方法。第三節所討論 的是當矩陣發生奇異的狀況時,可以使用何種方法來修正。第四節討論的是特 徵值的分解。最後一節則是簡介本研究中所使用到的三種不同的分類器。. 第一節. Hughes phenomena. 在進行資料處裡的時候,如同圖 2-1 所表示,資料的維度數增加可以增加資 料的分散程度(separability)。資料的分散程度增加對於辨識正確率是有幫助的。 但是在資料維度數增加時,分類器中所需估計的參數同時也增加。 圖 2-2 中 N 1 , N 2 分別表示不同大小的樣本點數( N1 < N 2 ),當資料維度數增 加,而不改變訓練樣本點數的情況下,參數估計的精確度就會隨著 p 增加而下 降。圖 2-3 顯示當資料的維度數變大時分散程度會變大有助於辨識;可是當樣本 維度數過大時,參數估計精確度不良的效果就會大於分散程度所提供的幫助, 最終造成辨識精確度不良的情況。如何在資料的維度數高,也就是分散程度高 的情況下,不增加訓練樣本的數目,可以達到提升辨識正確率的目的,這是一 個兩難的問題。. 分散度 資料維度數 p. 圖 2-1 資料維度數與分散度關係. 4.

(14) 參數估計精確度 資料維度數 p. 圖 2-2 資料維度數與參數估計精確度關係. 辨識正確率 資料維度數 p. 圖 2-3 資料維度數與辨識正確率關係. 由圖 2-4 中的圖形可以看出,平均辨識正確率會因為測量複雜度增加而減 少,只有在當訓練樣本點數 n 在無限大的時候,平均辨識正確率才不會因為測量 複雜度的增加而受到影響。在現實的情況下,要得到“足夠“的訓練樣本,是件不 容易的事情。因此在本研究中希望在有限的樣本下,減輕 Hughes phenomena 對 實驗所造成的影響,進而提升辨識正確率。. 5.

(15) 平均辨識正確率 測量複雜度 圖 2-4 Hughes phenomena (Hughes, 1968). 第二節. 特徵萃取. 在小樣本的情況下,常常遭遇到 Hughes phenomena 以及奇異的問題。特徵 萃取可以在小樣本的情況下,克服這樣的問題。特徵萃取可以找到一個轉換矩 陣(transformation matrix) A 使得原始空間的資料 X 可以被轉換到新的特徵空間 Y 。大部份經過特徵萃取轉換後的資料維度數 p ' 會比原始空間下的維度數 p 來的. 小,轉換後的維度數 p ' 會因為所使用的方法以及需要不同而有所改變。. 6.

(16) X. Y = AT X. 原始維度 資料 維度數 p. p > p'. Y. 特徵空間 資料 維度數 p '. 圖 2-5 特徵萃取過程 主成分分析(Principle Component Analysis, PCA) (Jolliffe, 1986)是最為常見 的方法,PCA 是藉由尋找原空間最大變異程度,來最佳化轉換矩陣。 線性區別分析(Linear Discriminant Analysis, LDA) (Fisher, 1936)是一種常見 參數型的特徵萃取方法。不同於 PCA 的方法,LDA 則是在尋找將原空間轉換到 新的特徵空間下,組間分散矩陣和組內分散矩陣最大的比率。 在此使用了另一種無參數萃取方法,無參數加權特徵萃取(Nonparametric Weighted Feature Extraction, NWFE) (Kuo & Landgrebe, 2004),來與 LDA 進行比 較。LDA 和 NWFE 都是用來尋找最大化組內分散矩陣( S w )的反函數乘上組內分 散矩陣( S b )的跡數(trace)之特徵空間。這兩個特徵萃取方法被應用在這個研究 中,用以探討不同分散矩陣所造成的影響。. 壹、主成分分析 主成分分析(Principle Component Analysis, PCA)主要的想法是減少資料集的 維度數,並且儘可能的保留原始資料的變異。 PCA 被定義為下列的轉換: Y = AT X. (2-1). A 為根據以下特徵值 Λ 所對應之特徵向量 Φ 所成的轉換矩陣: ΛΦ = SΦ S 為共變異數矩陣,定義如下:. 7. (2-2).

(17) S=. 1 1 n ( x − m0 )( x − m0 )T , m0 = ∑ xi n −1 n i =1. (2-3). A 矩陣稱為 Karuhnen-Loeve 轉換。可以利用較少的主要成分,來顯示出資. 料最大的變異程度。 PCA 的演算法概述如下: 1.. 計算共變異數矩陣 S. 2.. 計算出特徵向量 Φ. 3.. 選擇特徵值 Λ 中所對應最大的 k 個特徵向量 Φ ,並將它們定為 A. 4.. 利用方程式(2-1)進行轉換 PCA 最大的的優點是可以保留原始資料變異的情況,而 PCA 的一些缺點簡 單敘述如下:. 1.. PCA 著重於最大化變異程度與 LDA 所重視的最大化區別是不相同的方向。 因此,在用以辨識時並不像 LDA 有助於區別。. 2.. 轉換矩陣是由共變異數矩陣 S 而來,在小樣本的情況下共變異數矩陣 S 容易 變的不穩定。. 貳、線性區別分析 線性區別分析(Linear Discriminant Analysis, LDA)在 Fukunaga (1990)中由於 使用平均數以及共變異數,所以被稱為是一種參數型的特徵萃取方法。在 LDA 中,組間分散矩陣以及組內分散矩陣是用來估計類別分散程度的準則。在使用 LDA 時,需要訓練樣本點數大於訓練樣本維度數。但是當訓練樣本沒有達到這 樣的條件,也就是訓練樣本點數小於訓練樣本維度數,或是組間分散矩陣發生 奇異,或接近奇異時,就會造成 LDA 辨識效果低落。 組內分散矩陣代表各類別訓練樣本在其各自的期望向量周圍之分散程度, 可以被表示為下列方程式 L. S wLDA = ∑ Pi S i = S i =1. 8. (2.4).

(18) 其中 Pi 表示類別 i 的事前機率, L 是所有類別的數目, S i 是類別 i 的共變異數 矩陣。 組間分散矩陣代表期望向量在所有樣本的混合平均數之分散程度,可以被 表示為下列方程式: L. S bLDA = ∑ Pi (mi − m0 )(mi − m0 ) T i =1. L −1. =∑. (2.5). L. ∑ P P (m. i =1 j = i +1. i. j. i. − m j )(mi − m j ). T. mi 表示類別 i 的平均數。. 最佳的特徵可以由最佳化以下的準則而得: J LDA = trace (( S wLDA ) −1 S bLDA ). (2.6). 線性區別分析的幾項缺點: 1.. LDA 在類別分布為常態時可以運作的相當良好。可是在實際的情況類別分 布常是非常態形式,或者是多重混合分布(multi-model mixture distribution), LDA 的效果就會受到影響。. 2.. 由於組間分散矩陣 S bLDA 的秩為類別數減 1 ( L -1),因此只能萃取出類別數減 1 的特徵,在實際的情況下這樣數目的特徵通常是不足的。. 3.. 在小樣本的情況下,當組內分散矩陣出現奇異的時候,LDA 的辨識正確率 將會令人相當不滿意。. 参、無參數加權特徵萃取 無參數特徵萃取(Nonparametric Discriminant Analysis, NDA) (Fukunaga, 1990)是提出用以解決 LDA 的問題。在 NDA 中組間分散矩陣被更改為新的無參 數形式。區域訊息(Local Information)是 NDA 中用來改進 LDA 的一項重點。 NDA 在計算區域平均數(Local Mean)時,每一個樣本點的重要程度都相同。 NWFE 的主要概念是在計算區域平均數時,每個樣本點可以給予不同的權重, 並且定義新的無參數型組間以及組內分散矩陣,以萃取更多的特徵。. 9.

(19) NWFE 的組間分散矩陣類似 NDA,定義如下: L. ni. L. S bNW = ∑ Pi ∑∑ i =1. λ(ki , j ) ni. j =1 k =1 j ≠i. ( xk(i ) − M j ( xk(i ) ))( xk(i ) − M j ( xk(i ) ))T. (2.7). 其中 xk(i ) 表示類別 i 的第 k 個樣本點, ni 表示類別 i 的樣本點數, Pi 表示類別 i 的事前機率。 λk(i,j) 為分散矩陣的權重,是由 xk(i ) 以及 M j ( xk(i ) ) 所構成的方程式,定義如下:. =. (i,j) k. λ. dist(xk(i) ,M j(xk(i) ))−1 ni. ∑ dist(x. (i) l. l =1. (2.8) −1. (i) l. ,M j(x )). M j ( xk(i ) ) 代表 xk(i ) 在類別 j 中的權重,其定義如下: nj. M j ( xk(i ) ) = ∑ wkl(i , j ) xl( j ). (2.9). l =1. wkl(i,j) 是用以計算加權平均數,其定義如下: wkl(i,j) =. dist(xk(i) ,xl( j ) )−1 ni. ∑ dist(x. (i) k. l =1. (2.10). ( j ) −1 l. ,x. ). NWFE 的組內分散矩,定義如下: L. ni. λ(ki ,i ). i =1. k =1. ni. S wNW = ∑ Pi ∑. ( xk( i ) − M i ( xk( i ) ))( x k( i ) − M i ( x k( i ) )) T. (2.11). 最佳的特徵可以由最佳化以下的準則得到: J NWFE = trace (( S wNW ) −1 S bNW ). (2.12). 圖 2-6 是 NWFE 組間分散矩陣與組內分散矩陣在類別資料非分常態分佈時 的表示圖,說明了靠近邊界的點以及局部平均值是相當重要的。使用 NWFE 有 以下兩個優點: 1.. 在實際的情況下只萃取 L − 1 維(類別數減 1)可能是不夠的。NWFE 的矩陣通 常是滿秩,這樣說明所需萃取維度數目的能力和減少奇異問題的效果。. 2.. 無參數分散矩陣的本質降低離群值(outlier)的影響,且甚至在非常態分佈的 資料下是有效的。. 10.

(20) xl(i ) − M j ( xl( i ) ). xl(i ) − M i ( xl(i ) ). M i ( xl(i ) ). class i. ∗ ∗ ∗ ⊗∗ ∗. xt(i ) − M j ( xt( i ) ). (i ) t. x. M j ( xl(i ) ). xl(i ). ∗. class j. ∗ + + + ⊗ + + + + ⊗ + + +. M j ( xt(i ) ). 圖 2-6 NWFE 在非常態資料樣本點與其局部平均的關係圖. 第三節. 正規化分散矩陣. 當訓練樣本點數相對於維度數小的時候,樣本的估計量,特別是樣本的變 異數矩陣將會嚴重的不穩定,並且最終造成分類器辨識效果嚴重的惡化。特別 是當訓練樣本點數小於維度數,也就是 ill-posed 的時候,ML 分類器的辨識效果 惡化將會更加的嚴重。共變異數正規化技術通常是運用在改進分類器的效果, 在此主要是用來在小樣本的情況正規化特徵萃取的組內分散矩陣之估計。在本 節中,將討論到一些最近以及常被使用的正規化技術,這些方法的效果將會在 第四節中討論。 許多研究者如 Landgrebe (2003); Kuo et al. (2003); Kuo et al. (2004)證明特徵 萃取使用正規化可以有助於改進分類結果。在本研究中將討論使用虛擬反矩陣 (pseudo-inverse, Pinv) (Moore, 1920; Penrose, 1955), 正 規 化 區 別 分 析 (Regularized Discriminant Analysis, RDA) (Friedman, 1989), Mixed-LOOC (Kuo &. 11.

(21) Landgrebe, 2002), Maximum Entropy Covariance Selection (MECS) (Thomaz et al., 2004), NLDA (Thomaz et al., 2004), Regularized Feature Extraction (RFE) (Kuo, Landgrebe, Ko, and Pai, 2003)等數種正規化技術以減輕組內分散矩陣奇異的現 象。. 壹、 虛擬反矩陣 矩陣 A 的反矩陣 A −1 ,只有在矩陣 A 為方陣且是滿秩時才會存在。虛擬反 矩陣或稱為 Moore-Penrose pseudo-inverse,是種一般化反矩陣的方法,在滿足其 條件下,不一定需要方陣的條件才能計算。 假設 A 是一個 p × n 的矩陣,且 p > n , A 有 n 個秩,則我們定義虛擬反矩陣 A + 如下: A + = ( AT A) −1 AT. (2-13). Moore-Penrose pseudo-inverse 滿足: 1.. AA+ A = A. 2.. A + AA + = A +. 3.. ( AA+ ) T = AA +. 4.. ( A + A)T = A + A. 貳、 正規化區別分析 正規化區別分析(Regularized Discriminant Analysis, RDA)是一種二個維度的 最佳化方法,混合以下的四種估計量,樣本變異數( S i ),共變異數( S ),單位矩 陣乘上共變異數跡數的平均數( 數(. trace( S ) I ),單位矩陣乘上樣本變異數跡數的平均 p. trace( S i ) I )。 p. (. ⎛ trace Σˆ i (λ ) S iRDA (λ , γ ) = (1 − γ )Σˆ i (λ ) + γ ⎜⎜ p ⎝. 12. )⎞⎟I. ⎟ , 0 ≤ γ ≤1 ⎠. (2-14).

(22) 其中 p 表示所有訓練樣本的維度數 (1 − λ )(ni − 1) S i + λ (n − L) S Σˆ i (λ ) = , 0 < λ <1 (1 − λ )ni + λn S =. 1 L ∑ (ni − 1)Si ni − L i =1. (2-15) (2-16). 在方程式中的 γ 和 λ 是在所有訓練樣本使用交叉比對法(cross-validating)所 選取。這樣的過程有助於辨識的正確率,卻也花費了相當多的運算。. 參、Mixed-LOOC 為 了 減 少 RDA 的 運 算 , Leave-one-out covariance estimator (LOOC) (Hoffbeck & Landgrebe, 1996) , Bayesian leave-one-out covariance estimator (BLOOC) (Tadjudin & Landgrebe, 1999),以及 Mixed leave-one-out covariance estimator (Mixed-LOOC)分別被發展出來。當 Mixed-LOOC 被使用在單一模式的 高斯二次式分類器時,同時具有 LOOC 以及 BLOOC 的優點。線性區別分析在 使用 Mixed-LOOC 時,可以克服當訓練樣本小於維度數時參數矩陣無法穩定估 計的問題,並且在訓練樣本有限時可以達到更佳的辨識效果。類別 i 的 Mixed-LOOC,其定義如下: Σˆ i ( β i ) = β i A + (1 − β i )B. 其中 A =. (2-17). trace( S i ) trace( S ) I , diag ( S ), or S , B = S i , or diag ( S ) 並 I , diag ( S i ), S i , p p. 且 β i 接近於 1。 S i 是類別 i 的樣本共變異數矩陣, S 是所有樣本的共變異數矩陣。當類別的. 樣本點數較大時, B = S i , or diag ( S ) 會被選取,因為 S i 在此時會是一個較佳的選 擇。如果總訓練樣本點數小於維度數,則共變異數矩陣 S 將會發生奇異,否則 S 的估計誤差會比 S i 小。選取的準則定義如下:. 13.

(23) LOOLi ( β i ) =. 1 ni ∑ ln[ f ( xk | mi / k , Σˆ i / k (βi ))] ni k =1. (2-18). 其中 f 是每一個類別的機率密度函數,mi / k 表示類別 i 中去掉樣本點 k 的平均數, Σˆ i / k ( β i ) 表示類別 i 中去掉樣本點 k 的共變異數,下標符號 / k 代表的是去掉樣本點. k 的量。. 肆、Maximum Entropy Covariance Selection 大部分的共變異數估計量不是依靠花費大量運算時間的最佳化技術,不然 就是因為有限制狀況,不一定可以在所有的情況達到最佳的辨識正確率。 Maximum Entropy Covariance Selection (MECS)基於最大化亂度原則,考慮到結 合每個類別的樣本變異數,以及所有樣本共變異數的問題。由實驗結果顯示, 在影像辨識方面不論每個類別的樣本變異數是 ill-posed 或是 poorly-posed, MECS 都是相當快速的,並且在 FERET 人臉資料(Phillips, Wechsler, Huang, & Rauss, 1998)以及指紋的資料上(Wilson, Candela, Grother, Watson, & Wilkinson, 1992)通常都可以較 RDA 以及 LOOC 正確。 MECS 估計量可以由以下步驟求得: 1.. 找出共變異數 S i + S 的特徵向量 Φ ime. 2.. 計算 S i 和 S 在基底 Φ ime 下的變異貢獻,也就是. 3.. diag ( Z i ) = diag [(Φ ime ) T S i (Φ ime )] = [ξ1i , ξ 2i ,K , ξ ni ]. (2-19). diag ( Z ) = diag [(Φ ime ) T S (Φ ime )] = [ξ1 , ξ 2 ,K , ξ n ]. (2-20). 基於最大的值組成一個新的變異矩陣,也就是 Z ime = diag [max(ξ1i , ξ1 ),K , max(ξ ni , ξ n )]. 4.. (2-21). 組成 MECS 估計量 S imecs = Φ ime Z ime (Φ ime ) T. 14. (2-22).

(24) 伍、New Linear Discriminant Analysis New Linear Discriminant Analysis (NLDA)是一種基於最大化不確定趨近的 方法。對於 LDA 而言,一種可能的正規化方法是減小較大的特徵值,並且增加 較小的特徵值。NLDA 是為了擴大較小的共變異數矩陣 S ,並且保持大部分的較 大的特徵值不變。實驗結果顯示,NLDA 較 CLDA(Chen, Liao, Ko, Lin, & Yu, 2000) 和 DLDA(Yu & Yang, 2001)的辨識結果佳。CLDA 是一種當組內分散矩陣發生奇 異時,利用核空間(null space)的區別訊息來最大化組間分散矩陣的方法,由 Chen 等人所提出。DLDA 是一種在高維度資料中,不需要使用額外的正規化步驟, 直接使用 DLDA 的演算法可以達到同樣的效果,應用於人臉辨識。 NLDA 估計量可以由以下步驟求得: 1.. 找出 S p 的特徵值 Λ 以及特徵向量 Φ ,其中 S p = S /[ N − L]. 2.. 計算 S p 平均的特徵向量 λ ,使用 tr ( S p ) 1 p λ = ∑λj = p j =1 p. 3.. (2-24). 組成一個新的基於下列最大散佈值的特徵值矩陣 Λ* = diag[max(λ1 , λ ), max(λ 2 , λ ),K, max(λ n , λ )];. 4.. (2-23). (2-25). 組成更改過後的組內分散矩陣 S wNLDA = S *p ( N − L) = (ΦΛ*Φ T )( N − L). (2-26). 陸、Regularized Feature Extraction Kuo & Landgrebe (2002); Tadjudin & Landgrebe (1998)中顯示使用共變異數 矩陣的對角線部份( diag (S ) ),或是共變異數矩陣的跡數( trace(S ) ),是種有效的策 略。基於這樣的觀點,一種組內分散矩陣的正規化方法,Regularized Feature Extraction (RFE)如下。 正規化組內分散矩陣定義如下:. 15.

(25) S wR = αdiag ( S w ) + β. trace( S w ) I + γS w p. (2-27). 其中 p 表示資料的維度數。 α , β , γ 是混合參數,並且滿足 0 ≤ α , β , γ ≤ 1 以及 α + β + γ = 1 。. 經過 RFE 正規化後的 LDA 和 NWFE 的組內分散矩陣,以及 LDA 和 NWFE 的準則被重新定義如下: S. R − LDA w. = αdiag ( S. LDA w. tr ( S wLDA ) )+β I + γ S wLDA p. S wR − NW = αdiag ( S wNW ) + β. tr ( S wNW ) I + γ S wNW p. (2-28) (2-29). J R−LDA = trace[(S wR−LDA ) −1 SbLDA ]. (2-30). J R− NWFE = trace[(S wR− NW ) −1 SbNW ]. (2-31). 使 用 以 上 更 改 過 後 的 準 則 (2-30) 及 (2-31) 的 特 徵 萃 取 分 別 稱 為 regularized-LDA(R-LDA)及 regularized-NWFE(R-NWFE)。. 第四節. 特徵值分解. LDA 的目標是要找出最大化以下準則的最佳特徵: J LDA = trace[( S wLDA ) −1 S bLDA ]. (2-32). 在 Fukunaga (1990), 這個最佳化問題的解和以下一般化特徵問題相同,其 中 Φ 和 Λ 為特徵向量和特徵值矩陣,並且可以 QZ 演算法解決(Golub & Loan, 1996)。 S bLDA Φ = S wLDA ΦΛ. (2-33). 最常見用以解決一般化特徵值問題是 Moler 及 Stewart 於 1973 年所提出 QZ 演算法(Moler & Stewart, 1973)。這是一個 QR 分解的一般化,可以用以解決標準 特徵值問題。在小樣本的情況下, S wLDA 通常會發生奇異,而我們可能得到無限的 特徵值。Watkins (1999)強調 QZ 演算法的一個主要的特徵是演算法可以在無限. 16.

(26) 的特徵值前正常運作。 當組內矩陣為奇異時, Moler & Stewart (1973) 和 Hong & Yang (1991) 證明 增加奇異值擾亂(singular value perturbation)到裡面會有幫助。如果組內矩陣沒有 奇異,以上的一般化特徵值問題可以簡化成以下的簡易特徵值問題 ( S wLDA ) −1 S bLDA Φ = ΦΛ. (2-34). 在 Matlab 裡有兩種方法,使用”EIG”和”SVD”函數,來解決這個問題。為了 表示簡單化,以下設定 A = ( S wLDA ) −1 S bLDA 。 在”EIG”函數中,實數對稱矩陣 A 被簡化為實數三對角線型式 T 。如果 A 是 實數對稱,分解為 A = QTQ T , Q 為正交而且 T 是對稱三對角。這個過程由 Householder Tridiagonalization (Golub et al., 1996)完成。然後計算出實數對稱三角 化矩陣 T 的特徵值以及特徵向量。這樣的過程藉由 implicitly shifted QR algorithm 完成。 在”SVD” 函數中,矩陣 A 被簡化為雙對角線矩陣形式 A = U 1 BV1T 如果 A 是實 數在此 U 1 和 V1 是正交的,並且 B 是實數上雙對角線。這個過程由 Householder Bidiagonalization (Golub et al., 1996) 完 成 。 雙 對 角 線 矩 陣 B 的 SVD 為 : B = U 2 ΣV2T ,在此 U 2 和 V2 為正交的而且 Σ 為對角化。 A 的奇異向量為 U = U 1U 2 和 V = V1V2 。這樣的過程藉由 implicitly shifted QR algorithm 完成。. 本研究中將於訓練樣本點數不足的時候針對 QZ、EIG 和 SVD 這三種演算 法在不同的特徵萃取中比較其效能。 在 Howland and Park (2004)和 Ye, Janardan, Park, and Park (2004)中,一個用 以一般化線性區別分析的最佳準則被提出。這樣的準則可以被使用於小樣本問 題,克服了傳統線性區別分析的限制。一般化奇異值分解被應用到解決 LDA 的 最佳化問題。在 Ye et al. (2004)中證明了 LDA/GSVD 的演算法與虛擬費氏 LDA(Pseudo Fisher LDA)是等價的,因此也為使用虛擬反矩陣的 LDA 提供了一 個正當的理由。LDA/GSVD 可以由以下的程序所計算: 給定一群類別數為 L 的資料 X ∈ ℜ p×n , X i 和 ni 分別為類別 i 的樣本點以及類. 17.

(27) 別 i 樣本點數。 mi 和 m0 分別為表示類別 i 的平均數以及所有樣本點的平均數。 1. 由 X 計算 H B 和 H W ,根據以下的定義: H W = ( X 1 − m1e1 , X 2 − m2 e2 , L , X L − mL eL ). (2-35). H B = ( n1 (m1 − m0 ), n2 (m2 − m0 ), L , nL (mL − m0 )). (2-36). ⎛ H BT ⎞ ⎛ R 0⎞ T ⎟⎟Q1 的形式,其中 P1 和 Q1 是正交的,且 2. 計算 K = ⎜⎜ T ⎟⎟ 的 SVD,得到 K = P1 ⎜⎜ ⎝ 0 0⎠ ⎝ HW ⎠. R 是對角化的。 3. 設 t = rank ( K ) 以及 g = rank ( H B ) 。 4. 應用 SVD 在 P1 (1 : L, 1 : t ) ,得到 P1 (1 : L, 1 : t ) = P2 Σ A Q2T 的形式,其中 P2 和 Q2 是正交 的,且 Σ A 是對角化的。 ⎛ R -1Q2 0 ⎞ ⎟⎟ 的前 g 行,並將它們指定為 G 。 I 0 ⎠ ⎝. 5. 計算出 W = Q1 ⎜⎜. 將 G 轉置後乘上原始資料 X ,可得到轉換到特徵空間上的資料,即 Y = G T X 。. 第五節. 分類器. 壹、最大概似分類器 最大概似分類器(Maximum Likelihood Classifier)在遙測中是一種常見的辨 識方法,一個未知類別的測試樣本點 x 將會被辨識成擁有最大概似 (likelihood) 的類別。可能性 Li 被定義為一個未知類別的測試樣本點屬於類別 i 的事後機率。 在常態分佈的情況下, x 屬於類別 i 的可能性可以被定義如下: Li ( x) =. 1 (2π ). p/2. Si. 1/ 2. 1 −1 exp{− ( x − mi )T S i ( x − mi )} 2. (2-37). 其中 p 表示資料的維度數, mi 表示類別 i 的平均數, S i 表示類別 i 的共變異. 18.

(28) 數矩陣, Si 表示 S i 的行列式值。. 在得到 Li (x) 之後,可以根據以下來判斷 x 屬於哪一個類別 x ∈ class k , if k = arg max Li ( x). (2-38). i. 最大概似分類器擁有機率論觀點上的優點,但是必須要注意的以下幾點條 件: 1.. 必須擁有充分的訓練樣本點數,用以估計平均數及共變異數矩陣。. 2.. 當兩個不同維度數出現高度相關的情況時,共變異數矩陣將會變的不穩定。. 3.. 當母體的分布不是常態時,最大概似分類器無法被使用。 圖 2-7 為 ML 分類器運作的示意圖,未知類別樣本點 x 屬於類別 1 的概似程. 度為 L1,屬於類別 2 的概似程度為 L2,由圖形可知 L2 大於 L1,因次 ML 分類 器會將未知類別樣本點 x 判斷為類別 2。. Likelihood. 類別 1. 類別 2. L2 L1 x. 圖 2-7 ML 分類器辨識示意. 19.

(29) 貳、最近相鄰法分類器 最近相鄰法分類器(K Nearest Neighbors Classifier, KNN)在樣式辨認中是個 年代久遠,但卻簡潔的分類器。在使用 K 個最近相鄰法分類器來辨識未知類別 測試樣本點 x 時,KNN 分類器會將測試樣本點 x 根據其 K 個最近相鄰點所出現 之頻率來判斷,將 x 辨識為出現頻率最高之訓練樣本點的類別。與 ML 分類器不 同,KNN 分類器屬於一個無參數形式的分類器。 KNN 的主要想法是延伸測試樣本點 x 局部的區域,直到 K 個最近的最近相 鄰點被找到。值得一提的是,當 K 個最近相鄰法分類器的 K 數字增加的時候辨 識的效果不一定會更好。比較好的辨識正確率總是發生在 K 的數目較小的情況 (Hastie & Tibshirani, 1996)。因此,在本研究中所使用 KNN 中 K 的數目設定為 K=1,即 1NN。 最近相鄰法分類器的缺點是,必須記憶所有的訓練樣本,用以計算測試樣 本點與訓練樣本點的距離。特別是當訓練樣本點數龐大以及高維度情況下,記 憶所有訓練樣本的成本將會相當昂貴。. 参、支撐向量機 支撐向量機(Support Vector Machine, SVM)是一種融合 VC 理論(Vapnik– Chervonenkis theory) 觀 點 , 以 及 聯 結 邊 界 (margin) 和 VC 維 度 (Vapnik – Chervonenkis dimension)的一種實際應用。主要的想法是要找到一個向量 w 使得 用來區別兩群的邊界儘可能的拉大。 給定一有類別的訓練樣本集 ( xi , yi ), i = 1, K , n ,其中 xi ∈ R p 而且 y ∈ {1,−1}n 。 SVM 需要下列最佳化問題的解:. 20.

(30) min. n 1 T w ⋅ w + C ∑ ξi 2 i =1. subject to. (2-39). y i ( wT ⋅ φ ( xi ) + b ) ≥ 1 − ξ i ,. ξ i ≥ 0.. 其中 C > 0 是誤差項的懲罰參數(penalty parameter)。 訓練樣本點 xi 可能被方程式 φ 映射到更高維度的空間上(可能是無限的)。 接 著 SVM 找到一個在較高空間下最大 化邊界的線性可分超平面( Linear Separating Hyperplane)。此外, K ( xi , x j ) ≡ φ ( xi )T φ ( x j ) 被稱為核心函數(Kernel Function),而且下列的 RBF 核心函數被應用在本篇研究中。 2. K ( xi , x j ) = exp( −γ xi − x j ) , γ > 0. (2-40). 其中 γ 為核心參數(kernel paramater) 在本研究中使用 LIBSVM (Chang & Lin, 2004)中核心函數為 RBF 的支撐向 量機。在使用 RBF 核心函數的支撐向量機時會有兩個參數: C 以及 γ。因為事 先 並 不 知 道 C 以 及 γ 兩 個 參 數 的 最 佳 值 , 因 此 必 須 進 行 模 型 選 擇 (model selection)。為了找出最佳的 C 和 γ 在此使用交互驗證法(cross-validation)以及網格 搜索(grid-search)。在本研究中,使用 5 摺交互驗證法(5-fold. cross-validation). 以找出 C 和 γ 最佳的參數, C 和 γ 的網格(grid)則是設定為 C = 2 −5 ,2 −3 ,K,215 和 γ = 2 −15 ,2 −13 ,K ,2 3 。. 21.

(31) 第三章. 實驗設計. 在第一節中將介紹本研究中用來探討三種特徵萃取要素的兩種不同資料, 一種為高光譜影像資料,另一種為教育測驗資料。介紹完所使用的資料後,在 第二節當中將說明整個實驗的流程。. 第一節. 資料描述. 壹、高光譜影像資料 圖 3-1 是本研究中所使用的 Washington DC Mall 高光譜影像資料(Landgrebe, 2003),用來探討分散矩陣型式、正規化技術、特徵值分解方法等三種特徵萃取 要素,和 ML 分類器、KNN,以及 SVM 三種分類器組合的效果。 使用的 Washington DC Mall 資料集中有 191 個維度數,7 個類別,分別由 屋頂、道路、小徑、草地、樹木、水,以及陰影 (Roofs, Road, Trail, Grass, Tree, Water and Shadow)所構成。 為了探討訓練樣本點數對特徵萃取以及分類器所產生的影響,在本研究中 探討了以下兩種小樣本問題情況,分別是每個類別 20 和 40 個訓練樣本點,每 個類別各使用了 100 個測試樣本點來進行評估。 在 20 個訓練樣本點的情況下,也就是 ill-posed 分類問題,總訓練樣本點數 為 20*7=140 仍舊小於原始資料維度數 191,因此所計算出來的共變異數矩陣不 是滿秩的,而產生奇異的情形。 在 40 個訓練樣本點的情況下,也就是 poorly-posed ,總訓練樣本點數 40*7=280 大於維度數 191,而單一類別訓練樣本點數 40 還是小於原始資料維度 數 191,在計算組間分散矩陣時仍然不足;在計算組內分散矩陣時雖然為滿秩, 但是所使用的訓練樣本還是不足,所計算出的矩陣相當不穩定,所得的反矩陣 也相當不穩定,也就是所謂接近奇異的情形。. 分類問題在 ill-posed 以及 poorly-posed 兩個實驗中,各使用了 10 個不同. 22.

(32) 的訓練樣本集以及測試樣本集。這 10 個不同的訓練樣本集以及測試樣本集在 Washington DC Mall 資料的母體中隨機抽樣而得,表 4-1 與表 4-2 中為每個演算 法測試樣本的平均辨識正確率,以減少因為抽樣所造成的誤差。. 圖 3-1 Washington DC Mall 高光譜資料影像. 23.

(33) 貳、教育測驗資料 本研究所使用的教育測驗資料為「行政院國家委員會補助專題研究計畫-國 小數學科電腦適性化診斷測驗」第一年施測之紙筆測驗資料,施測單元為康軒 文教事業主編之國小科第十一冊第二單元「擴分、約分」 。 數學本身因具有樹狀組織結構,教材內容通常是依照各重點概念的層級而 建構,利用知識結構分析法,參考教育部編列之國民小學課程標準及相關官方 資料,並參考各家教科書出版社的教學指引及課本,最後交由學科專家開會分 析,匯編成一份紙筆診斷評量,表 3-2 是「擴分、約分」單元的專家結構。 施測時所使用的考卷記錄於附錄當中,根據紙筆測驗施測時所得資料,可 將學生的錯誤類型分成 15 種類型,表 3-3 是類別所對應需要進行補救教學之概 念。 所使用的教育測驗資料集中有 27 個維度數,15 個類別(組別 1 到組別 15), 在教育測驗的資料集中同樣探討小樣本問題,分別使用每個類別 10 和 20 個訓 練樣本點。表 3-3 中的人數扣除所需的訓練樣本點數外,其餘的資料全供測試之 用,每個類別 10 個訓練樣本點的資料集使用 1042 個測試樣本點;每個類別 20 個訓練樣本點的資料集使用 892 個測試樣本點。. 表 3-1 擴分約分單元專家結構 1. 最簡分數. 1-1. 約分. 1-1-1.等值分數. 1-1-1-1.圖示等值分數. 1-1-2.公因數 2. 二個異分母 2-1. 通分 分數比較大小. 2-1-1. 公倍數 2-1-2. 擴分. 2-2. 兩個同分母 分數比較大小. 24. 2-1-1-1. 倍數.

(34) 表 3-2 擴分約分單元的錯誤概念分類表 組別. 人數. 需進行補救教學之概念. 1. 89. 「兩異分母比較大小」. 2. 31. 「兩異分母比較大小」、「通分」. 3. 186. 「最簡分數」. 4. 154. 「最簡分數」、「兩異分母比較大小」. 5. 62. 「最簡分數」、「兩異分母比較大小」、「通分」. 6. 41. 「約分」. 7. 80. 「最簡分數」、「約分」、「兩異分母比較大小」. 8. 59. 「最簡分數」、「約分」、「兩異分母比較大小」、「通分」. 9. 63. 「最簡分數」 、 「約分」 、 「公因數」 、 「等值分數」 、 「兩異分母比較」、 「通分」. 10. 59. 需重新學習「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異 分母比較」、「兩同分母比較」、「公倍數」. 11. 79. 「最簡分數」、「約分」、「兩異分母比較」、「通分」、「兩同分母比較. 12. 77. 「最簡分數」、「約分」、「兩異分母比較」、「兩同分母比較」、「公倍 數」、「擴分」. 13. 35. 「最簡分數」 、 「約分」 、 「公因數」 、 「等值分數」 、 「兩異分母比較」、 「兩同分母比較」、「公倍數」、「擴分」. 14. 150. 所以概念都需重新學習. 15. 27. 加強練習(粗心犯錯). 合計. 1192. 25.

(35) 第二節. 實驗描述. 在本研究中使用兩種不同的資料,一種為高光譜影像資料,另一種為教育 測驗資料,再根據訓練樣本點數的不同,共分成四種實驗。在 Washington DC Mall 資料集中分成 ill-posed 以及 poorly-posed 兩種情況,也就是當每個類別各為 20 以及 40 個訓練樣本點時,分為實驗一和實驗二,兩個實驗中每個類別的測試樣 本點均為 100。 在教育測驗資料集中每個類別使用 10 和 20 個訓練樣本點,分別為實驗三 以及實驗四,兩個實驗中所使用的測試樣本分別為 1042 以及 892。. 表 3-3 實驗設計資訊 資料集 實驗一. Washington. 訓練樣本點數 (每個類別). 資料集. 實驗三 教育測驗 實驗四. 資料集. 類別數. 測試樣本點數. 191. 7. 700. 20. DC Mall 實驗二. 維度數. 40. 10. 1042 27. 20. 15 892. 26.

(36) 第三節. 實驗流程. 計算分散矩陣 Sb 和 Sw. 正規化 組內分散矩陣Sw. 訓練樣本. 特徵萃取. 轉換後的 訓練樣本. 特徵值分解. 測試樣本. 訓練後的 分類器. 轉換後的 測試樣本. 分類結果. 圖 3-2 特徵萃取及分類流程. 圖 3-2 是本文中特徵萃取以及辨識的流程。在本實驗中訓練的過程均採用 監督式的學習(supervised learning)。整個流程可大致分成兩個步驟,第一個步驟 是訓練,另一個是測試。 首先,在訓練的步驟中,先根據訓練樣本進行特徵萃取,根據本文的研究 將特徵萃取的過程分為以下三個主要的運作, 1.. 計算組內分散矩陣 S w ,以及組間分散矩陣 S b ,. 27.

(37) 2.. 正規化組內分散矩陣 S w ,. 3.. 使用特徵值分解法萃取特徵; 在經過特徵萃取之後可從訓練樣本中萃取出特徵,接著將原始的訓練樣本. 轉換到特徵萃取出來的特徵空間上,獲得轉換後的訓練樣本,將轉換後的訓練 樣本訓練用來訓練分類器,得到訓練完成的分類器。 下一個步驟是測試的步驟,利用訓練樣本所萃取的特徵,將測試樣本轉換 到特徵萃取出來的特徵空間上,獲得轉換後的測試樣本,將轉換後的測試樣本 放入訓練好的辨識器中進行辨識,獲得測試樣本的辨識結果。 表 3-2 是在本實驗中所使用三個不同特徵萃取的因素以及不同分類器的詳 細實驗設計列表。. 表 3-4 特徵萃取構成要素與分類器的組合 分散矩陣形式 None. PCA. 正規化. 特徵值分解. 分類器. None. ML, 1NN, SVM. None. ML, 1NN, SVM. None. None. ML, 1NN, SVM. GSVD LDA. NWFE. PINV, RDA, MECS, NLDA, Mixed-LOOC, RFE. EIG, SVD, QZ. ML, 1NN, SVM. PINV, MECS, NLDA, RFE. EIG, SVD, QZ. ML, 1NN, SVM. 28.

(38) 第四章. 實驗結果. 每個特徵萃取均萃取出 1 到 10 個特徵,並且計算出不同的特徵數辨識正確 率。在每個特徵萃取中,均以 10 個樣本集結果的平均作為該特徵萃取的結果, 以減輕抽樣的誤差。每個特徵萃取中,均有 1 到 10 不同特徵數的辨識結果,選 取其中最佳的平均辨識正確率作為該特徵萃取的代表。括號中的數字代表擁有 最佳辨識正確率所使用的特徵數。 在高光譜影像資料方面,表 4-1 與表 4-2 分別記錄 Washington DC Mall 資料 集實驗一和實驗二兩種實驗,不同的特徵萃取要素配合 ML 分類器、1NN,和 SVM 三種分類器組合的效能。 為了方便起見,符號 A_B_C 表示使用”A”分散矩陣形式,” B”正規化技術, 以及”C”特徵值分解方法。 由表 4-1 與表 4-2 可以發現以下幾點: 1.. 不同的正規化方法需要對應不同的特徵值分解方法,以達到最佳的效能。舉 例來說,在表 4-2 線性區別分析的情況下,PINV, RDA, MECS, NLDA 以及 RFE 最佳的特徵值分解方法分別是 SVD, QZ, SVD, EIG 以及 EIG。. 2.. 在沒有降維的情況下,1NN 和 SVM 分別擁有在 ill-posed 以及 poorly-posed 最佳的辨識正確率。這兩種方法勝過大部分在辨識過程中使用特徵萃取的方 式。在 ill-posed 下,只有 LDA_RDA_QZ, LDA_RFE_EIG, LDA_RFE_QZ, NWFE_RFE_EIG 和 NWFE_RFE_QZ 可以改進 1NN 分類器。在 poorly-posed 下 , 只 有. LDA_RFE_EIG,. LDA_RFE_QZ,. NWFE_RFE_EIG. 和. NWFE_RFE_QZ 可以改進 SVM。 3.. 在 LDA 以及 NWFE 兩種不同的分散矩陣計算方法下,RFE 均能勝過其他的 特徵萃取技術。. 4.. 在 ill-posed 下,NWFE_RFE_EIG 和 NWFE_RFE_ QZ 配合 ML 分類器可以 擁 有 最 佳 的 效 能 。 在 poorly-posed 下 , LDA_RFE_EIG, LDA_RFE_QZ NWFE_RFE_ EIG 和 NWFE_RFE_QZ 配合 ML 分類器擁有相似的效能,並. 29.

(39) 勝過其他的特徵萃取方法。這顯示了無參數加權特徵萃取型式的分散矩陣在 ill-posed 以及 poorly-posed 下更加的穩定。 為了評估方法的一致性和穩定性,圖 4-1 到圖 4-4 用以呈現當特徵數目增加 時分類的辨識正確率。圖 4-1 和圖 4-2 分別顯示以 LDA 和 NWFE 為基礎在 ill-posed 下 配 合 ML 分 類 器 的 特 徵 萃 取 辨 識 正 確 率 。 在 圖 形 中 顯 示 , LDA_RFE_QZ 擁 有 在 以 LDA 為 基 礎 的 特 徵 萃 取 下 最 佳 的 效 能 , 和 NWFE_RFE_EIG 擁有在以 NWFE 為基礎的特徵萃取下最佳的效能。 圖 4-3 和圖 4-4 分別顯示以 LDA 和 NWFE 為基礎在 poorly-posed 下的特徵 萃取配合 ML 分類器的辨識正確率。在圖 4-3 中顯示,LDA_RFE_QZ 仍然是在 以 LDA 為基礎的特徵萃取下最佳的選擇。在圖 4-4 中顯示,NWFE_RFE_EIG 和 NWFE_PINV_EIG 的組合擁有在以 NWFE 為基礎的特徵萃取下最佳的效能。 圖 5-1 是 Washington DC Mall 高光譜影像資料的一部分,被選取出來當成測 試樣本,用以估計所有特徵萃取的效能。一方面是為了了解真正辨識出來的情 況,另一方面是為了比較辨識結果是否與所抽取的 10 個資料集有差異。 基於以上所述,ML 分類器配合特徵萃取較其他分類器的效能佳,因此選擇 ML 分類器進行辨識。圖 5-2 到圖 5-33 為圖 5-1 在 ill-posed,也就是每個類別之 訓練樣本點數為 20 的情況下,使用不同的特徵萃取在 ML 分類器下的辨識結 果。圖 5-34 與圖 5-35 分別是 1NN 與 SVM 沒有經過特徵萃取步驟所辨識出來的 結果。由圖 5-2 到圖 5-33 可以發現圖 5-1 辨識出來的結果與測試資料集的辨識 正確率相符。圖 5-34 與圖 5-35 是用來與 ML 分類器做比較,可以發現與 ML 分 類器最佳的情況下相比,1NN 與 SVM 的分類結果顯然辨識正確率較低,也與表 4-1 與表 4-2 的結果相同。由表 4-1 和表 4-2 與圖 5-2 到圖 5-33 中所顯示的結果 是相符的。DA_RFE_EIG,LDA_RFE_QZ,NWFE_RFE_EIG 和 NWFE_RFE_QZ 擁有較佳的辨識正確率。. 30.

(40) 在教育測驗資料方面,表 4-3 與表 4-4 分別記錄「擴分、約分」資料集在類 別樣本點數分別為 10 和 20 兩種情況下,不同的特徵萃取要素配合 ML 分類器、 1NN,和 SVM 三種分類器組合的效能。 1.. 對 ML 以及 1NN 分類器而言使用特徵萃取能改進效能。. 2.. 與高光譜影像資料相似,不同的正規化方法需要對應不同的特徵值分解方 法,以達到最佳的效能。. 3.. 在正規化技術方面 RDA、Mixed-LOOC 以及 RFE 擁有較佳的效能。. 4.. 在分類器上 ML 分類器需要較低的特徵維度數以達到最佳的辨識正確率, 1NN 所需的特徵維度數較 ML 高,SVM 則需要較兩者更多的特徵維度數才 能達到最佳的效能。. 31.

(41) 表 4-1 Washington DC Mall 實驗一在 ill-posed 情況下的平均辨識正確率. 特徵萃取. 正規化. 特徵值分解. None PCA. None None. None None GSVD. PINV RDA MECS LDA NLDA Mixed-LOOC RFE PINV MECS NWFE NLDA RFE. EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ. 32. 分類器 ML 1NN SVM 0.143 0.838 0.830 0.729(10) 0.747(9) 0.713(9) 0.587(6) 0.562(6) 0.368(7) 0.465(3) 0.612(6) 0.545(10) 0.767(6) 0.775(6) 0.769(7) 0.347(5) 0.432(7) 0.386(10) 0.640(10) 0.786(10) 0.626(10) 0.640(10) 0.786(10) 0.626(10) 0.804(10) 0.868(10) 0.719(10) 0.767(6) 0.775(6) 0.758(10) 0.767(6) 0.775(9) 0.764(10) 0.578(10) 0.583(10) 0.573(10) 0.795(6) 0.808(6) 0.799(8) 0.767(6) 0.777(7) 0.776(10) 0.758(10) 0.758(9) 0.750(8) 0.875(4) 0.872(4) 0.854(10) 0.771 (5) 0.779(7) 0.763(10) 0.875(4) 0.860(4) 0.852(10) 0.901(4) 0.892(4) 0.864(6) 0.797(8) 0.771(6) 0.764(9) 0.901(4) 0.892(5) 0.864(9) 0.478(3) 0.620(8) 0.535(8) 0.768(6) 0.788(8) 0.772(10) 0.162(10) 0.166(2) 0.176(8) 0.758(8) 0.762(10) 0.744(8) 0.758(8) 0.762(10) 0.743(10) 0.452(8) 0.465(10) 0.420(8) 0.794(6) 0.810(10) 0.784(7) 0.764(6) 0.787(9) 0.760(9) 0.794(6) 0.805(8) 0.785(9) 0.916(6) 0.898(4) 0.875(8) 0.803(7) 0.778(10) 0.755(10) 0.916(6) 0.898(4) 0.866(10).

(42) 表 4-2 Washington DC Mall 實驗二在 poorly -posed 情況下的平均辨識正確率. 特徵萃取. 正規化. 特徵值分解. None PCA. None None. None None GSVD. PINV RDA MECS LDA NLDA Mixed-LOOC RFE PINV MECS NWFE NLDA RFE. EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ. 33. 分類器 ML 1NN SVM 0.143 0.880 0.873 0.782(10) 0.733(10) 0.751(10) 0.839(6) 0.646(6) 0.760(9) 0.839(6) 0.688(6) 0.822(10) 0.850(10) 0.737(10) 0.818(10) 0.839(6) 0.679(10) 0.824(8) 0.721(8) 0.688(10) 0.686(9) 0.721(8) 0.737(10) 0.686(9) 0.808(10) 0.684(10) 0.738(9) 0.815(6) 0.737(6) 0.808(10) 0.827(7) 0.737(6) 0.803(10) 0.839(10) 0.711(10) 0.802(9) 0.854(6) 0.821(6) 0.831(7) 0.818(7) 0.738(6) 0.801(9) 0.808(10) 0.734(10) 0.783(9) 0.900(6) 0.897(4) 0.899(7) 0.817(8) 0.813(8) 0.808(8) 0.917(10) 0.889(10) 0.897(8) 0.926(5) 0.824(5) 0.907(6) 0.840(8) 0.816(9) 0.814(9) 0.926(8) 0.824(5) 0.905(6) 0.833(6) 0.707(8) 0.825(7) 0.817(6) 0.742(8) 0.806(10) 0.833(6) 0.705(9) 0.839(9) 0.808(10) 0.734(10) 0.783(9) 0.808(10) 0.734(10) 0.775(9) 0.808(10) 0.709(10) 0.787(10) 0.846(6) 0.781(6) 0.817(8) 0.813(6) 0.733(10) 0.798(9) 0.846(6) 0.792(6) 0.813(7) 0.926(8) 0.842(7) 0.906(9) 0.857(6) 0.834(10) 0.824(10) 0.926(8) 0.842(7) 0.904(8).

(43) 辨識正確率. LDA_PINV_SVD. 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6. LDA_RDA_QZ LDA_MECS_SVD LDA_NLDA_EIG. 1. 2. 3. 4. 5. 6. 7. 8. 9 10. LDA_MixedLOOC_QZ LDA_RFE_QZ. 特徵數. 圖 4-1 在 ill-posed 情況下 Washington DC Mall 實驗一以 LDA 為基礎特徵萃取的. 辨識正確率. 效能. 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6. NWFE_Pinv_eig NWFE_MECS_eig NWFE_NLDA_eig NWFE_RFE_eig. 1. 2. 3. 4. 5. 6. 7. 8. 9 10. 特徵數 圖 4-2 在 ill-posed 情況下 Washington DC Mall 實驗一以 NWFE 為基礎特徵萃取 的效能. 34.

(44) 辨識正確率. LDA_PINV_SVD. 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6. LDA_RDA_QZ LDA_MECS_SVD LDA_NLDA_EIG. 1. 2. 3. 4. 5. 6. 7. 8. 9 10. LDA_MixedLOOC_QZ LDA_RFE_QZ. 特徵數. 圖 4-3 在 poorly-posed 情況下 Washington DC Mall 實驗二以 LDA 為基礎特徵萃. 辨識正確率. 取的效能. 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6. NWFE_Pinv_eig NWFE_MECS_eig NWFE_NLDA_eig NWFE_RFE_eig. 1. 2. 3. 4. 5. 6. 7. 8. 9 10. 特徵數 圖 4-4 在 poorly-posed 情況下 Washington DC Mall 實驗二以 NWFE 為基礎特徵 萃取的效能. 35.

(45) 表 4-3 實驗三中教育測驗資料的平均辨識正確率. 特徵萃取. 正規化. 特徵值分解. None PCA. None None. None None GSVD. PINV RDA MECS LDA NLDA Mixed-LOOC RFE PINV MECS NWFE NLDA RFE. EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ. 36. ML 0.076 0.429(4) 0.361(4) 0.567(4) 0.533(4) 0.525(4) 0.575(4) 0.535(4) 0.575(4) 0.499(4) 0.499(4) 0.499(4) 0.551(4) 0.525(4) 0.551(4) 0.542(4) 0.504(4) 0.542(4) 0.575(4) 0.510(4) 0.575(4) 0.536(4) 0.534(4) 0.497(4) 0.466(4) 0.466(4) 0.466(4) 0.520(4) 0.496(4) 0.520(4) 0.543(4) 0.497(4) 0.543(4). 分類器 1NN SVM 0.481 0.667 0.471(10) 0.488(10) 0.457(10) 0.477(10) 0.661(9) 0.665(10) 0.620(8) 0.600(9) 0.638(9) 0.658(10) 0.664(9) 0.652(9) 0.620(8) 0.614(10) 0.636(9) 0.648(10) 0.608(9) 0.587(10) 0.603(9) 0.589(10) 0.609(7) 0.581(10) 0.650(7) 0.591(8) 0.612(7) 0.588(9) 0.649(7) 0.596(9) 0.663(7) 0.629(9) 0.612(7) 0.573(8) 0.662(7) 0.623(9) 0.648(7) 0.638(10) 0.604(8) 0.588(10) 0.624(7) 0.614(9) 0.626(8) 0.618(8) 0.613(8) 0.574(10) 0.606(8) 0.606(10) 0.518(8) 0.532(10) 0.518(8) 0.524(10) 0.515(8) 0.513(10) 0.603(9) 0.570(9) 0.583(7) 0.571(10) 0.613(7) 0.551(9) 0.636(7) 0.601(10) 0.594(9) 0.573(8) 0.593(6) 0.581(10).

(46) 表 4-4 實驗四中教育測驗資料的平均辨識正確率. 特徵萃取. 正規化. 特徵值分解. None PCA. None None. None None GSVD. PINV RDA MECS LDA NLDA Mixed-LOOC RFE PINV MECS NWFE NLDA RFE. EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ EIG SVD QZ. 37. ML 0.077 0.505(6) 0.444(6) 0.751(6) 0.693(6) 0.751(6) 0.750(6) 0.693(6) 0.750(6) 0.671(6) 0.671(6) 0.671(6) 0.700(6) 0.677(6) 0.700(6) 0.731(6) 0.686(6) 0.731(6) 0.740(6) 0.678(6) 0.740(6) 0.719(6) 0.694(6) 0.719(6) 0.567(6) 0.567(6) 0.567(6) 0.651(6) 0.632(6) 0.651(6) 0.723(6) 0.671(6) 0.726(6). 分類器 1NN SVM 0.528 0.780 0.500(10) 0.524(10) 0.510(10) 0.556(10) 0.760(7) 0.768(10) 0.665(7) 0.686(10) 0.747(7) 0.747(10) 0.759(7) 0.754(10) 0.666(7) 0.683(10) 0.749(7) 0.740(10) 0.664(7) 0.674(10) 0.653(7) 0.664(10) 0.664(7) 0.674(10) 0.709(7) 0.707(10) 0.672(7) 0.664(9) 0.705(7) 0.682(10) 0.731(7) 0.718(10) 0.670(7) 0.672(10) 0.729(7) 0.713(10) 0.740(7) 0.746(10) 0.658(8) 0.667(10) 0.716(7) 0.729(10) 0.729(7) 0.735(10) 0.674(7) 0.668(10) 0.709(7) 0.712(10) 0.568(8) 0.596(10) 0.568(8) 0.591(10) 0.566(8) 0.587(10) 0.663(7) 0.645(10) 0.635(7) 0.620(10) 0.665(7) 0.624(10) 0.708(8) 0.727(10) 0.647(8) 0.654(10) 0.682(7) 0.685(8).

(47) 第五章. 結論. 許多的研究證實,組間分散矩陣和組內分散矩陣的定義以及正規化技術是 在設計一個小樣本問題的關鍵。在本研究中,闡明了特徵值分解是另一個重要 的關鍵。在高維度影像資料中,這三個特徵萃取的效果分別在 ill-posed 以及 poorly-posed 兩種小樣本情況下被探討。 由實驗結果可以得到以下: 1.. 加入特徵值分解對於特徵萃取是有所改善的,不同的正規化方法需要配合不 同的特徵值分解,以達到最佳的效能。. 2.. RFE 較其他的正規化技術更加有效果。. 3.. NWFE 形式的分散矩陣在 ill-posed 以及 poorly-posed 下均較 LDA 形式的分 散矩陣穩定。. 4.. 在小樣本辨識問題中最佳的特徵萃取組合為 RFE 正規化 NWFE 使用 EIG 或 QZ 分解。. 38.

(48) 圖 5-1 Washington DC Mall 資料部份的影像. 圖 5-2 PCA 分類結果. 圖 5-3 LDAGSVD 分類結果. 39.

(49) 圖 5-4 LDA_PINV_EIG 分類結果. 圖 5-5 LDA_PINV_SVD 分類結果. 圖 5-6 LDA_PINV_QZ 分類結果. 40.

(50) 圖 5-7 LDA_RDA_EIG 分類結果. 圖 5-8 LDA_RDA_SVD 分類結果. 圖 5-9 LDA_RDA_QZ 分類結果. 41.

(51) 圖 5-10 LDA_ MECS_EIG 分類結果. 圖 5-11 LDA_ MECS_SVD 分類結果. 圖 5-12 LDA_ MECS_QZ 分類結果. 42.

(52) 圖 5-13 LDA_ NLDA_EIG 分類結果. 圖 5-14 LDA_ NLDA_SVD 分類結果. 圖 5-15 LDA_ NLDA_QZ 分類結果. 43.

(53) 圖 5-16 LDA_MixLOOC_EIG 分類結果. 圖 5-17 LDA_MixLOOC_SVD 分類結果. 圖 5-18 LDA_MixLOOC_QZ 分類結果. 44.

(54) 圖 5-19 LDA_RFE_EIG 分類結果. 圖 5-20 LDA_RFE_SVD 分類結果. 圖 5-21 LDA_RFE_QZ 分類結果. 45.

(55) 圖 5-22 NWFE_PINV_EIG 分類結果. 圖 5-23 NWFE _PINV_SVD 分類結果. 圖 5-24 NWFE _PINV_QZ 分類結果. 46.

(56) 圖 5-25 NWFE _ MECS_EIG 分類結果. 圖 5-26 NWFE _ MECS_SVD 分類結果. 圖 5-27 NWFE _ MECS_QZ 分類結果. 47.

(57) 圖 5-28 NWFE _NLDA_EIG 分類結果. 圖 5-29 NWFE _NLDA_SVD 分類結果. 圖 5-30 NWFE _NLDA_QZ 分類結果. 48.

(58) 圖 5-31 NWFE_RFE_EIG 分類結果. 圖 5-32 NWFE _RFE_SVD 分類結果. 圖 5-33 NWFE _RFE_QZ 分類結果. 49.

(59) 圖 5-34 KNN 分類結果. 圖 5-35 SVM 分類結果. 50.

(60) 參考文獻 Chang, C.-C., and Lin, C.-J. (2004). LIBSVM: a library for support vector machines. Software available at http://www.csie.ntu.edu.tw/ ~cjlin/libsvm. Chen, G-S., Ko, L-W., Kuo, B-C., and Shih, S-C. (2004). A Two-stage Feature Extraction for Hyperspectral Image Data Classification. Proceedings of International Geoscience and Remote Sensing Symposiums, Sep 20-24. Cristianini, N. and Shave-Taylor, J. (2000). Support Vector Machines and other kernel-based learning methods, Cambridge University Press. Cover, T. M. and Hart, P. E. (1967). Nearest Neighbor Pattern Classification. IEEE Transactions on Information Theory, vol. 13, no. 1, pp.21-27. Fisher, R. A. (1936). The use of multiple measures in taxonomic problems. Ann. Eugenics, vol. 7, pp. 179-188. Friedman, J. H. (1989). Regularized discriminant analysis. Journal of the American Statistical Association, 84, 165–175. Fukunaga, K. (1990). Introduction to Statistical Pattern Recognition. San Diego, CA:Academic Press. Greenbaum, A. and Dongarra, J. J. (1989). Experiments with QL/QR methods for the symmetric tridiagonal eigenproblem, Computer Science Dept. Technical Report CS-89-92, University of Tennessee, Knoxville, TN. Golub, G. H. and Loan, C. F. V. (1996). Matrix Computations. Johns Hopkins University Press, Baltimore, 3rd edition. Hastie, T. and Tibshirani, R. (1996). Discriminant Adaptive Nearest Neighbor Classification. IEEE Transcation on Pattern Analysis and Machine Intelligence. vol. 18, no. 6, pp. 607-616.. 51.

(61) Hong, Z-Q., and Yang, J-Y. (1991). Optimal discriminant plane for a small number of samples. Pattern Recognition, vol. 24, no.4, pp. 317-324. Howland, P. and Park, H. (2004). An optimization criterion for generalized discriminant analysis on undersampled problems. IEEE Transactions on Pattern Analysis & Machine Intelligence, vol. 26, No. 8, pp. 982-994. Hsu, C.-W., Chang, C.-C., and Lin, C.-J. (2004). A Practical Guide to Support Vector Classification. Available at http://www.csie.ntu.edu.tw/ ~cjlin/libsvm Hughes, G. F. (1968). On the mean accuracy of statistical pattern recognition. IEEE Trans. Inform. Theory, vol. 14, pp. 55 - 63, Jan. Jolliffe, I. T. (1986). Principal Components Analysis. Springer-Verlag, New York. Kuo, B-C., Chang, K-Y., Chang, C-H., and Hsieh, Y-C. (2004). Hyperspectral Image Data Classification Using Feature Extractions and Support Vector Machines. CVGIP. Kuo, B-C. and Landgrebe, D. A. (2004). Nonparametric Weighted Feature Extraction for Classification. IEEE Trans. on Geoscience and Remote Sensing, vol. 42, no. 5, pp. 1096-1105, May. Kuo, B-C., Landgrebe, D.A., Ko, L-W., and Pai, C-H. (2003). Regularized Feature Extractions for Hyperspectral Data Classification. Proceedings of International Geoscience and Remote Sensing Symposium, Toulouse. France, July. Kuo B.-C. and Landgrebe D. A. (2002). A covariance estimator for small sample size classification problems and its application to feature extraction. IEEE Trans. Geosci. Remote Sens., vol. 40, no. 4, pp. 814–819, Apr. Landgrebe, D. A. (2003). Signal Theory Methods in Multispectral Remote Sensing. John Wiley and Sons, Hoboken, NJ: Chichester. Lee, C. and Landgrebe, D. A. (1993). Feature Extraction Based On Decision. 52.

(62) Boundaries. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 15, No. 4, April, pp 388-400. Moler, C. B. and Stewart, G. W. (1973). An algorithm for generalized matrix eigenvalue problems. SIAM Journal on Numerical Aanlysis, vol 10, pp.241–256. Moore, E. (1920). On the reciprocal of the general algebraic matrix, Bull. Amer. Math. Soc. 26, 394-395. Penrose, R. (1955). A generalized inverse for matrices, Proc. Camb. Philos. Soc. 51, 406-413. Shah, C. A., Watanachaturaporn, P., Arora, M. K., and Varshney, P. K. (2003). Some Recent Results on Hyperspectral Image Classification. In IEEE Workshop on Advances in Techniques for Analysis of Remotely Sensed Data, NASA Goddard Spaceflight center, Greenbelt, October 27-28. Tadjudin S. and Landgrebe D. A. (1998). Classification of High Dimensional data with Limited Training Samples, Purdue University, West Lafayetee, IN., TR-EE 98-8, April. Thomaz, C. E., Gillies, D. F., and Feitosa, R. Q. (2004). A New Covariance Estimate for Bayesian Classifiers in Biometric Recognition. IEEE Transactions on Circuits and Systems for Video Technology, Special Issue on Image- and Video-Based Biometrics, vol. 14, no. 2, pp. 214-223, February. Thomaz, C. E. and Gillies, D. F. (2004). A Maximum Uncertainty LDA-based approach for Limited Sample Size problems - with application to Face Recognition. Technical Report TR-2004-01, Department of Computing, Imperial College, London, UK, January. Vapnik, V. (1995). The Nature of Statistical Learning Theory. New York, NY: Springer-Verlag.. 53.

(63) Watkins, D. S. (1999). Infinite eigenvalues and the QZ algorithm. Technische Universitaet Chemnitz, SFB 393, SFB393-Preprint 99-23. Available on-line http://www.mathematik.tu-chemnitz.de/preprint/1999/SFB393_23.html Ye J., Janardan R., Park C. H., and Park H. (2004). Generalizing discriminant analysis using the generalized singular value decomposition. IEEE Transactions on Pattern Analysis & Machine Intelligence, vol 26, No. 8, pp. 995-1006. Yu, H. and Yang, J. (2001). A direct LDA algorithm for high dimensional data – with application to face recognition. Pattern Recognition, vol. 34, pp. 2067-2070.. 54.

(64) 附錄. 55.

(65) 56.

(66)

參考文獻

相關文件

The hashCode method for a given class can be used to test for object equality and object inequality for that class. The hashCode method is used by the java.util.SortedSet

For an important class of matrices the more qualitative assertions of Theorems 13 and 14 can be considerably sharpened. This is the class of consistly

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

For example, Liu, Zhang and Wang [5] extended a class of merit functions proposed in [6] to the SCCP, Kong, Tuncel and Xiu [7] studied the extension of the implicit Lagrangian

Numerical experiments are done for a class of quasi-convex optimization problems where the function f (x) is a composition of a quadratic convex function from IR n to IR and

Numerical results are reported for some convex second-order cone programs (SOCPs) by solving the unconstrained minimization reformulation of the KKT optimality conditions,

11 (1998) 227–251] for the nonnegative orthant complementarity problem to the general symmet- ric cone complementarity problem (SCCP). We show that the class of merit functions

By exploiting the Cartesian P -properties for a nonlinear transformation, we show that the class of regularized merit functions provides a global error bound for the solution of