分類器 - 文獻探討 - 適性半監督局部區別分析法

第二章文獻探討

第三節分類器

一般的分類器可以被分為參數型與非參數型這兩種，參數型分類器通常使用於樣本數足夠或者樣本是屬於常態分布的情形下，因為這些樣本可以使得參數被估計的很準確，使得此類別之分類器有較佳的分類效果，最常被使用的參數型分類器是高斯分類器。如果是樣本數量較少時，就應該使用非參數型的分類器，才能避免因無法準確估計參數，導致分類效果不佳的情形發生，常用的非參數型分 類器有 k 最近鄰分類器(Cover & Hart, 1967)、支撐向量機(Cortes & Vapnik, 1995；

Theodoridis & Koutroumbas, 2006；Wu, Yu & Yang, 2005)。本研究是使用 k 最近鄰 分類器與支撐向量機分別來驗證高光譜影像資料集以及教育測驗資料集之分類效能。

壹、k 最近鄰分類器

k 最近鄰分類器(k-Nearest-Neighbor classifier, kNN)在類別辨識中是一種年代 久遠，且非常簡潔的分類器。而它是依照同種類別的物件應該會聚集在一起，也就是「物以類聚」的概念所發展出來的分類器。若是以數學語言來說，就是同類別之物件是以高維度空間中的點來表示，那麼同類別的點之距離應該會比較靠近

(Fukunaga, 1990)。而在使用 k 最近鄰分類器來辨識未知類別的測試樣本點 x 時， 情況中(Hastie & Tibshirani, 1996)。k 最近鄰分類器是一種很直覺的分類器，所以 常被當成是最基礎的分類器，它是屬於一種無參數形式之分類器。

貳、支撐向量機

支撐向量機(Support Vector Machine, SVM) (Boser, Guyon, & Vapnik, 1992)是一種建構在結構風險最小化(Structural Risk Minimization)概念上而發展出來的機器學習法，目的是用來處理可分離的資料。近年來許多研究顯示出支撐向量機有良好的分類效果，使得支撐向量機開始受到重視(Camps & Bruzzone, 2005；Fauvel, Chanussot & Benediktsson, 2006)。在許多應用中，支撐向量機理論比傳統學習機制有更高的效能表現，特別是在解決分類問題上已經屬於一個強而有力的工具。

在此 w 是分離超平面之法向量，b 是常數且

b / w

代表了從原點到超平面的距離，



是一個非線性的映射函數，

ξ

_i是分類錯誤的容許量，C 則是代表錯誤的調節參

數，運用此參數能平衡邊界大小及允許分類錯誤量，且

_C _ _R

^，

x

_i是指第 i 個樣 本點，

y

_i 是指第 i 個樣本點所屬之類別，且

{ y

 {  1 ,  1 } }

^N_i_₁。然而要解一個最佳化問題並不是這麼簡單的，幸虧可利用 Lagrangian 法來將原問題轉換成對偶形式如公式(13)所示：問題改寫成下列形式(John & Nello, 2004)：



i j



Vapnik, 1995；Theodoridis & Koutroumbas, 2006；Wu, Yu & Yang, 2005；李政軒，

2012)。 (Linear Kernel Function)

 

(Polynomials Kernel Function)



^x^,^x

 ^ 

^

^xj

^



^m ^m

^

⁰

(Radial Basis Function, RBF)

    0

(Sigmoid Kernel Function)

   ^ ^ 

 x

, x

 tanh x

_i^T

 x



在多類的分類問題上，可依據分類原則歸納成一對多(One Against All)與一對 一(One Against One)兩種。所謂的一對多是指所需解決的 L 類別分類問題，分成 L 個兩類別的分類問題來處理，所以在訓練分類器的過程中，必須訓練 L 個分類 器，且在訓練任一個分類器時，該類別之資料樣本點屬於+1 類，非該類別之資料樣本點則屬於

 1

類，以此方式來進行兩類別分類問題之訓練，最後利用測試資料 分別進入訓練過後的 L 個分類器測試，選出最大輸出值的分類器，其所屬+1 類即 為最後的分類結果(Bottou, et al., 1994；朱慧珊，2011；李政軒，2012)。而一對一

的方式則是從 L 個類別中隨意選取兩個類別成為一個組合，故會有

L /  L  1  / 2

種組合，再依照這些組合去進行兩類別分類器之訓練，所以將有

L /  L  1  / 2

個分類器，

每個分類器都可分出兩個類別，而這些類別都是屬於 L 個類別之中，最後利用測 試資料分別進入這些分類器測試，會得出

L /  L  1  / 2

個分類結果，再將分類結果依照投票過程，將以獲得最多票數之類別當成是該測試資料之類別(Hsu & Lin, 2002；

Knerr, Personnaz & Dreyfus, 1990；朱慧珊，2011；李政軒，2012)。

在文檔中適性半監督局部區別分析法 (頁 29-35)

分類器

第二章 文獻探討

第三節 分類器

壹、k 最近鄰分類器

貳、支撐向量機

b / w



ξ

C  R

x

y

{ y

 {  1 ,  1 } }





 



  









    0

     

 x

, x

 tanh x

 x



 1

L /  L  1  / 2

L /  L  1  / 2

L /  L  1  / 2

第二章文獻探討

第三節分類器

_C _ _R

 ^ 

^

^

^

   ^ ^ 