特徵萃取

第二章文獻探討

第一節特徵萃取

特徵萃取常用來減緩小樣本高維度所造成的Hughes 現象，常用的方法為找尋一個轉移矩陣(transformation matrix)AR^d^^p，將原始空間資料xR^d，轉換到維度較小的新特徵空間中，即y A^TxR^p，pd。通常經由特徵萃取轉換後的特徵向量空間，其資料維度數會比原始萃取的特徵向量空間的資料維度數小。以下將因機器學習模式的不同，而分別介紹線性區別分析、非監督式線性區別分析以及將與本研究的方法做比較的二種半監督式特徵萃取。

壹、線性區別分析

監督式學習為機器學習的一種類型，其主要的概念為經由訓練資料來進行學習或者建立一個模式，依據模式去預測可能會出現的輸入值，其中常應用於

分類與迴歸分析上。下面將簡述與此學習模式概念相同的特徵萃取技術以線性

並定義各群集的意義(Acition, Corsini & Diani, 2003)，下面將簡述與此學習模式概念相同的特徵萃取技術，其中以非監督式線性區別分析為主。

非監督式線性區別分析(Li, Kuo & Lin, 2011)，主要是將Fuzzy c-means隸屬度的概念應用在線性區別分析上的一種特徵萃取方法，並重新定義其組間分散矩陣

則Fisher Linear Discriminant Clustering(FLDC)一般化的目標函數表示法定義如下所示：

為了減少組內距離交乘項發生奇異，有一些正規化的技巧(Kuo & Landgrebe, 2003, 2004)，可以應用在群集組內分散矩陣。在 FLDC 群集組內分散矩陣其正規化表示法如下所示：

限制式為 ^Lu j N

i ij 1 , 1, ,

1   



 。因為最佳化問題為非線性且非凸組合，一些常

用最優化演算法(Waltz, Morales, Nocedal & Orban, 2006；Luenberger & Ye, 2008)：“interior-point”、“active-set” and “trust-region-reflective”可應用來解決此類問題。執行這些演算法，可發現“active-set”演算法的時間成本少於“interior-point”

和“trust-region-reflective” 二種演算法，但很容易受起始值的影響。因此，

“interior-point”演算法可以找到最佳的U_FLDC，然而相對的時間成本高於“active-set”

和 “trust-region-reflective”二種演算法。

UFLDA演算法描述如下所示：

參、半監督式特徵萃取

半監督式學習法(Sindhwani, Niyogi & Belkin, 2005)介於監督式學習與非監督式學習之間，利用大量未標記過的資料結合一些已經標記過的資料來做訓練

半監督式區別分析(Semisupervised Discriminant Analysis, SDA)(Cai, He, &

Han, 2007)，主要是以一組未標記樣本來建構正規化的項，避免矩陣發生奇異而無法求解，以下將簡述該方法。

線性區別分析若沒有足夠的訓練樣本，分散矩陣會發生奇異情況，一般為了避免分散矩陣產生奇異現象，將進行矩陣正規化(Hastie, Tibshirani & Friedman, 2001)，線性區別分析最佳化問題的正規化表示法如下所示：常見的正規化形式為Tikhonov正規化(Tikhonov, 1963)，表示法如下所示：

  ^v ^v

J 

線性區別分析模型結合Tikhonov正規化，稱之為正規化區別分析(Regularized Discriminant Analysis, RDA)(Friedman, 1989)。

在實務應用層面上，由於所獲得的資料大多為未標記樣本，故運用正規化區別分析的概念，將一組未標記樣本去建構正規化的項^J

 

^v ，並假設附近的樣本點具有相同的標籤(Zhou, Bousquet, Lal, Weston & Schölkopf, 2003)，其正規化的項表示法如下所示：

此概念想法來自降低維度(Belkin & Niyogi, 2001；He & Niyogi, 2003)、群集 (Ng, Jordan & Weiss, 2001)與圖論的半監督式學習演算法(Chapelle, Weston &

Schölkopf, 2003；Sindhwani, Niyogi & Belkin, 2005；Belkin, Niyogi & Sindhwani, 2006)。相較於Eigenface (PCA)、Laplacianface (Locality Preserving Projections, LPP)、

Consistency、Laplacian SVM及Laplacian (Recursive Least-Squares, RLS)的方法能有較高的分類效果。

二、半監督式局部費雪區別分析

半監督式局部費雪區別分析 (SEmisupervised Local Fisher discriminant analysis, SELF)(Sugiyama, Ide, Nakajima & Sese, 2010)，是結合 LFDA 和 PCA 二者的優點的一種半監督式特徵萃取方法，以下將簡述該方法。

局部費雪區別分析(Local Fisher Discriminant Analysis, LFDA)(Sugiyama, 2007)為一種監督式特徵萃取法，當標記樣本太少會產生模型過度擬合，即分散矩陣發生奇異的情況；而主成分分析(Principal Component Analysis, PCA) (Jolliffe, 1986)為一種最常見於處理高維度資料的方法，其最主要的目的是降低資料維度數，並盡可能的保留原始資料的變異以及原始資料在空間中分布的情形。

以下將舉例說明二者之差異。

圖2-1 說明 LFDA 和 PCA 的例子

在圖2-1(Sugiyama et al., 2010)圓圈和三角形分別表示類別為正與負，實心和空心分別表示有標記與無標記樣本，實線和虛線分別表示LFDA 與 PCA。由 (a)及(b)可知選擇有標記樣本不同，LFDA 因監督性質影響分類，而 PCA 不受影響。由(a)與(c)可知選擇具有同樣標記樣本，但垂直縮放的數據多了一倍，此時 LFDA 和 PCA 在分類上同時受影響，而 LFDA 變化不強烈，PCA 有明顯變化。

SELF 的廣義特徵值問題表示法如下所示：

SELF 最優化問題表示法如下所示： SELF 相較於 LFDA、PCA、inverted LPP (iLPP)的方法能有較高的分類效果。

在文檔中半監督式線性區別分析應用於高維度資料分類 (頁 22-30)

第二章 文獻探討

第一節 特徵萃取