特徵萃取 - 文獻探討 - 適性半監督局部區別分析法

第二章文獻探討

第一節特徵萃取

特徵萃取是用來解決在小樣本高維度的情況下，所遇到的 Hughes phenomenon，它之所以可以克服這樣的問題，是因為特徵萃取可以找到一個轉換矩陣(transformation matrix)

A  R

^d^^r，使得原始空間(

R

^d)的資料被轉換至一個維度較小的新特徵空間中(

R

^r) (Landgrebe, 2003)，如圖 2-1-1 所示(張光佑，2006)，此外特徵萃取又可分為監督式特徵萃取(Supervised Feature Extraction)、非監督式特徵萃取 (Unsupervised Feature Extraction) 與半監督式特徵萃取 (Semiupervised Feature Extraction)三大類。在監督式特徵萃取主要介紹線性區別分析法(Linear Discriminant Analysis)，非監督式特徵萃取則是介紹鄰域保持嵌入法(Neighborhood Preserving Embedding)，而半監督式特徵萃取會介紹的方法會是半監督式局部區別分析法(Semisupervised Local Discriminant Analysis)。

圖 2-1-1 特徵萃取之過程(張光佑，2006)

壹、線性區別分析法

藉由訓練樣本(標記樣本)來進行學習或建立一個模式，再依據模式去推測新實例的機器學習，我們稱之為監督式學習(Theodoridis & Koutroumbas, 2006)，它經常應用於迴歸分析與分類上，而線性區別分析法就是一種監督式特徵萃取法。

線性區別分析法由於需使用到樣本的平均數與共變異數，故又被稱為是一種使得線性區別分析法的辨識效果產生低落的情形(Fukunaga, 1990；張光佑，2006)。

組間分散矩陣之計算公式如公式(1)所示(Fukunaga, 1990；朱慧珊，2011)：

  

組內分散矩陣之計算公式如公式(2)所示(Fukunaga, 1990；朱慧珊，2011)：



 

 

^{ }



 

而線性區別分析法幾項缺點如下(Fukunaga, 1990；Kuo & Landgrebe, 2004；

張光佑，2006)：

貳、鄰域保持嵌入法

非監督式學習是一種不需要人力來輸入標籤，單純依照資料的分布情形，將性質類似的資料分在同一類，再針對不同群集資料加以分析並定義各群集之意義的機器學習法(Acition, Corsini & Diani, 2003；Theodoridis & Koutroumbas, 2006；

朱慧珊，2011)，而鄰於保持嵌入法就是一種非監督式特徵萃取法。

鄰域保持嵌入法也是一種將線性轉換矩陣的概念放於局部線性嵌入法 (Locally Linear Embedding)的特徵萃取法，故它也擁有鄰域保持的特性，所謂的鄰域保持是指將高維度空間的資料，映射至較低維度的空間時，保留了區域的幾何結構，整個鄰域保持的概念就如圖 2-1-2 所示。

圖 2-1-2 鄰域保持慨念圖(Roweis & Saul, 2000)

鄰域保持嵌入法之做法，首先會將每個點和鄰近點之間的幾何結構關係以線性組合的參數來表示，且利用這些權重參數

W

_ij來反映資料點鄰近的局部特性，

而鄰近點的決定方式則是依照歐氏距離之遠近來選取，每個資料點會選取最靠近

自己的 e 個點，並透過最小化重建誤差來確定權重參數

W

_ij的大小，其計算公式

參、半監督式局部區別分析法

在現實生活裡，標記資料是非常有限的，因為標記資料需要相當多的人力與時間，相對起來，未標記資料卻是隨手可得(Liao, Pizurica, Scheunders, Philips & Pi, 2013；Sindhwani, Niyogi & Belkin, 2005；朱慧珊，2011)。因此，在機器學習的領域上，有一種方法就是運用大量未標記的資料結合少許標記過的資料來當作訓練的模型，來解決資料量過少或是分離的問題，我們稱之為半監督式學習法 (Sindhwani, Niyogi & Belkin, 2005；Theodoridis & Koutroumbas, 2006；朱慧珊，

2011)。現今有許多優秀的半監督式特徵萃取法可以透過調整參數的方式，使得分類的效果達到很好，同時也可以保存資料的局部特性，例如：半監督式區別分析法(Cai, He & Han, 2007)與半監督式局部費雪區別分析法(Sugiyama, Ide, Nakajima

& Sese, 2010)，但是如何挑選參數就變得是個問題，為了避免這個問題許多無參數的半監督式特徵萃取法就被提出來了，而我們要介紹的半監督式局部區別分析法就是一種屬於無參數的半監督式特徵萃取法(Liao, Pizurica, Scheunders, Philips

& Pi, 2013)。

其中

S

^SELD之計算方法如公式(9)所示： (Liao, Pizurica, Scheunders, Philips & Pi, 2013)。而半監督式局部區別分析法最大的好處是可以使得局部的鄰域信息可以被完整的保存在新的投影方向上，同時可以 Tian, Zhai & Hampapur, 2008；Xu & Yang, 2009；Zhang, Berg, Maire & Malik, 2006；

Zhu, Hu & Yang, 2010)，可以提升分類的效果，所以我們發展了一個利用標記樣本來選取未標記樣本的方法，並提升分類的效果，此方法是建構在 Voronoi diagram 的概念之下。

在文檔中適性半監督局部區別分析法 (頁 21-28)

特徵萃取

第二章 文獻探討

第一節 特徵萃取