第二章 文獻探討
第一節 特徵萃取
特徵萃取常用來減緩小樣本高維度所造成的Hughes 現象,常用的方法為找 尋一個轉移矩陣(transformation matrix)ARdp,將原始空間資料xRd,轉換到 維度較小的新特徵空間中,即y ATxRp,pd。通常經由特徵萃取轉換後 的特徵向量空間,其資料維度數會比原始萃取的特徵向量空間的資料維度數 小。以下將因機器學習模式的不同,而分別介紹線性區別分析、非監督式線性 區別分析以及將與本研究的方法做比較的二種半監督式特徵萃取。
壹、線性區別分析
監督式學習為機器學習的一種類型,其主要的概念為經由訓練資料來進行 學習或者建立一個模式,依據模式去預測可能會出現的輸入值,其中常應用於
分類與迴歸分析上。下面將簡述與此學習模式概念相同的特徵萃取技術以線性
並定義各群集的意義(Acition, Corsini & Diani, 2003),下面將簡述與此學習模式 概念相同的特徵萃取技術,其中以非監督式線性區別分析為主。
非監督式線性區別分析(Li, Kuo & Lin, 2011),主要是將Fuzzy c-means隸屬度 的概念應用在線性區別分析上的一種特徵萃取方法,並重新定義其組間分散矩陣
則Fisher Linear Discriminant Clustering(FLDC)一般化的目標函數表示法定義 如下所示:
為了減少組內距離交乘項發生奇異,有一些正規化的技巧(Kuo & Landgrebe, 2003, 2004),可以應用在群集組內分散矩陣。在 FLDC 群集組內分散矩陣其正 規化表示法如下所示:
限制式為 Lu j N
i ij 1 , 1, ,
1
。因為最佳化問題為非線性且非凸組合,一些常用最優化演算法(Waltz, Morales, Nocedal & Orban, 2006;Luenberger & Ye, 2008):“interior-point”、“active-set” and “trust-region-reflective”可應用來解決此類 問題。執行這些演算法,可發現“active-set”演算法的時間成本少於“interior-point”
和“trust-region-reflective” 二 種 演 算 法 , 但 很 容 易 受 起 始 值 的 影 響 。 因 此 ,
“interior-point”演算法可以找到最佳的UFLDC,然而相對的時間成本高於“active-set”
和 “trust-region-reflective”二種演算法。
UFLDA演算法描述如下所示:
參、半監督式特徵萃取
半監督式學習法(Sindhwani, Niyogi & Belkin, 2005)介於監督式學習與非監 督式學習之間,利用大量未標記過的資料結合一些已經標記過的資料來做訓練
半監督式區別分析(Semisupervised Discriminant Analysis, SDA)(Cai, He, &
Han, 2007),主要是以一組未標記樣本來建構正規化的項,避免矩陣發生奇異而 無法求解,以下將簡述該方法。
線性區別分析若沒有足夠的訓練樣本,分散矩陣會發生奇異情況,一般為 了避免分散矩陣產生奇異現象,將進行矩陣正規化(Hastie, Tibshirani & Friedman, 2001),線性區別分析最佳化問題的正規化表示法如下所示: 常見的正規化形式為Tikhonov正規化(Tikhonov, 1963),表示法如下所示:
v v
2J
線性區別分析模型結合Tikhonov正規化,稱之為正規化區別分析(Regularized Discriminant Analysis, RDA)(Friedman, 1989)。
在實務應用層面上,由於所獲得的資料大多為未標記樣本,故運用正規化區 別分析的概念,將一組未標記樣本去建構正規化的項J
v ,並假設附近的樣本點 具有相同的標籤(Zhou, Bousquet, Lal, Weston & Schölkopf, 2003),其正規化的項表 示法如下所示:此概念想法來自降低維度(Belkin & Niyogi, 2001;He & Niyogi, 2003)、群集 (Ng, Jordan & Weiss, 2001)與圖論的半監督式學習演算法(Chapelle, Weston &
Schölkopf, 2003;Sindhwani, Niyogi & Belkin, 2005;Belkin, Niyogi & Sindhwani, 2006)。 相較於Eigenface (PCA)、Laplacianface (Locality Preserving Projections, LPP)、
Consistency、Laplacian SVM及Laplacian (Recursive Least-Squares, RLS)的方法能有 較高的分類效果。
二、半監督式局部費雪區別分析
半 監 督 式 局 部 費 雪 區 別 分 析 (SEmisupervised Local Fisher discriminant analysis, SELF)(Sugiyama, Ide, Nakajima & Sese, 2010),是結合 LFDA 和 PCA 二 者的優點的一種半監督式特徵萃取方法,以下將簡述該方法。
局部費雪區別分析(Local Fisher Discriminant Analysis, LFDA)(Sugiyama, 2007)為一種監督式特徵萃取法,當標記樣本太少會產生模型過度擬合,即分散 矩 陣 發 生 奇 異 的 情 況 ; 而 主 成 分 分 析(Principal Component Analysis, PCA) (Jolliffe, 1986)為一種最常見於處理高維度資料的方法,其最主要的目的是降低 資料維度數,並盡可能的保留原始資料的變異以及原始資料在空間中分布的情 形。
以下將舉例說明二者之差異。
圖2-1 說明 LFDA 和 PCA 的例子
在圖2-1(Sugiyama et al., 2010)圓圈和三角形分別表示類別為正與負,實心 和空心分別表示有標記與無標記樣本,實線和虛線分別表示LFDA 與 PCA。由 (a)及(b)可知選擇有標記樣本不同,LFDA 因監督性質影響分類,而 PCA 不受影 響。由(a)與(c)可知選擇具有同樣標記樣本,但垂直縮放的數據多了一倍,此時 LFDA 和 PCA 在分類上同時受影響,而 LFDA 變化不強烈,PCA 有明顯變化。
SELF 的廣義特徵值問題表示法如下所示:
SELF 最優化問題表示法如下所示: SELF 相較於 LFDA、PCA、inverted LPP (iLPP)的方法能有較高的分類效果。