緒論 - 半監督式線性區別分析應用於高維度資料分類

第一節研究動機

隨著科技的蓬勃發展，遙感探測(Remote Sensing)技術已普遍應用於日常生活中。所謂遙感探測技術是指藉由衛星拍攝含有物體光譜反射的地表影像，之後經由光譜的處理與分析則可辨別地表的地物種類與變化。因遙感探測技術一直朝向高空間與高光譜解析度發展，故所取得的影像中，每一個像元都包括完整且連續的光譜資訊，此影像具有數十至數百個較窄的波段資料，故稱之為高光譜影像 (Hyperspectral Image)(徐百輝, 2007)。雖然高光譜影像蘊含有更豐富且細緻的資訊，但卻容易因為初始訓練樣本取得成本及維度數過高的影響，而造成分類效能低落。在訓練樣本大小固定下，當維度增加，分類正確率會在某個維度達到極大值後開始下降，此稱之為Hughes phenomenon (Hughes, 1968)，如圖 1-1 所示。為了減緩此種 Hughes 現象的發生，必需設法增加樣本數或者降低維度數。而在降維的方式中，一般分為特徵選取及特徵萃取兩種，其中，特徵選取是配合適當的準則，從原始的維度中選出一個最適合的維度子空間。而所謂的特徵萃取則是使用所有的維度資訊去建構出一個投影矩陣，再將資料投影至擁有較低維度的空間中。特徵選取與特徵萃取最大的差別在於：特徵選取無論投影到任何原始空間的軸上，不同類別的資料可能會有重疊的情況；但若將資料投影至特徵萃取的軸上，則較容易將不同類別的資料分開。以此點為考量，故特徵萃取法用於分類上會有較好的效能，而最常被使用的特徵萃取方法為線性區別分析(Linear Discriminant Analysis, LDA)(Fukunaga, 1990)，但此方法在有限小樣本的情況下，

常會因為參數無法估計或者估計不精準，使得分類的正確率下降(Qian, 2007；

Bandos, Bruzzone & Camps, 2009)。研究顯示結合空間資訊之演算法皆能大幅提升高光譜影像辨識的結果(Jackson & Landgrebe, 2002；Kuo, Chuang, Huang & Hung, 2009)，所以在進行高光譜影像辨識時，不能只考慮光譜資訊而忽略空間資訊的重

要性。有鑑於此，故如何適當的結合空間資訊以增加樣本數的半監督式演算法則是本研究想要分析及探究的主題。

MEAS URE MENT COMPLEXITY: n (Total Discrete Values)

1 2 5 10 20 50 100 200 500 1000

0.50 0.55 0.60 0.65 0.70 0.75

N =2 5

10 20

50 100 200

1000

500 N = ∞

MEAN RECOGNITION ACCURACY

圖1-1 Hughes phenomenon

第二節研究目的

由於半監督式學習是以大量未標記樣本結合已標記樣本資料來訓練模型，

可用以解決資料量稀少與分離的問題(Seeger, 2001；Zhu, 2006；Chapelle, Scholkopf & Zien, 2006)，符合實務上的應用。而根據馬可夫隨機域(Markov Random Field, MRF)模型中顯示出資料點間具有相對應的空間關係(Jackson ＆ Landgrebe, 2002；Dell’Acqua, Gamba, Ferrari, Palmason & Benediktsson, 2004；Li

& Narayanan, 2004；Fauvel, Benediktsson, Chanussot & Sveinsson, 2008)，故可考量以空間資訊來增加未標記的樣本，嘗試將半監督學習模式導入線性區別分析中，藉由增加樣本數來修正特徵萃取的方向，如此可以提升分類效能及解決樣本數不足的問題。非監督式線性區別分析主要是以Fuzzy c-means 隸屬度的概念來修改線性區別分析中組間與組內分散矩陣的一種特徵萃取法。因此，本研究依據 MRF 中鄰居系統的概念來取得半監督式樣本，針對此未知的樣本分別以 MRF 的概念或依不同分類器的特性來定義非監督式線性區別分析的隸屬度，提

出一個結合線性區別分析與非監督式線性區別分析的方法，如此即形成以空間資訊來搭配光譜資訊的特徵萃取演算法，並將此方法命名為半監督式線性區別分析法，其方法主要是利用半監督式樣本來促進線性區別分析的效能，藉由增加樣本數來修正特徵萃取的方向，使辨識正確率能更為提升。運用所提及的方法實驗在高光譜影像資料集及教育測驗資料集上，使用傳統高斯分類器 (Gaussian Classifier, GC)、k 最近鄰分類器(k-Nearest-Neighbor classifier, kNN)與 支撐向量機(Support Vector Machine, SVM)三種不同的單一分類器來驗證其效能，並分別以半監督式區別分析(Semisupervised Discriminant Analysis, SDA)及半監督式局部費雪區別分析(SEmisupervised Local Fisher discriminant analysis, SELF)二個半監督式的特徵萃取法做比較。

第三節章節架構

在本研究的第一章首先描述研究的動機，由於實驗所使用的皆為高維度的資料集，而為了避免因維度數過高，而使分類的效能低落，故於第二章將探討相關的文獻，其中包含不同學習類型的特徵萃取法，以了解如何適當的降低維度數與保存有用的資訊，藉由馬可夫隨機域的概念可知樣本位置之間具有關聯性，故可依據空間資訊來取得半監督式的樣本點，之後針對不同分類器的性質加以整理。由於初始訓練樣本取得不易，故在線性區別分析中，會因為參數無法準確的估計而產生Hughes 現象，為了緩和因樣本數不足而導致分類不佳的情況，故在第三章提出改良的半監督式線性區別分析演算法，主要是利用半監督式樣本來促進線性區別分析的效能，藉由增加樣本數來修正萃取的方向，使辨識正確率能更為提升。在第四章實驗設計是將本研究改良的半監督式線性區別分析的方法，應用於高光譜影像及教育測驗資料集上，說明實驗資料集與流程，

並在第五章敘述實驗的結果，最後於第六章提出本研究的結論及建議。

在文檔中半監督式線性區別分析應用於高維度資料分類 (頁 19-22)

緒論

第一節 研究動機

第二節 研究目的

第三節 章節架構

第一節研究動機

第二節研究目的

第三節章節架構