2.3 線性鑑別分析 (LDA)
2.3.2 幾何分離度的意義與分析
儘管LDA 目標函式之兩個形式(式(2.20)與式(2.21))均具有相同的解集合,
17 有些教科書和論文最多只提及了前兩個角度,見[56]。
18 『同方差性』和『異方差性』分別是統計學詞彙『homoscedasticity』和『heteroscedasticity』
的正式翻譯,而『同質性』和『異質性』則是在線性代數中分別對於『homogeneity』和
『heterogeneity』的常見中文翻譯。
19 其實,在分類上較佳的標準為最小貝氏風險(minimum Bayes risk, MBR),不過我們在此缺乏關 於分類花費(cost)的先備知識,因此只考慮 0/1 風險(0/1 risk)的情形。關於貝氏錯誤的定義與解 說,見[56]。
25
它們在幾何分離度上的物理意義卻不一樣20。但在本節,我們只討論式(2.20),它 的物理意義如下之命題2.2:
命題
2.2:假設所有類別母體均具有相同的共變異矩陣
SW,也就是對任一類別Ci來說,Si
SW(即同方差性假設),則最大化式(2.20)等同於最大化在投影空間 中之平均類別間的馬氏距離(Mahalanobis distance)平方。證明:經過
Θ 轉換,任兩類別
Ci和C 之間之馬氏距離平方可被定義為 j20 一個非奇異共變異矩陣的行列式被稱為普遍化變異度(generalized variance),可用來表示空間 中所有資料點展開的體積(volume),而式(2.21)即用此來描述資料的離散程度,相關的說明與 證明,見[52, 55]。
26
的算術平均SW21。
而在幾何分析方面,LDA 的求解可被視為一種兩階段的過程[58],如圖 2.7。
在第一階段,所有特徵向量會經過一次白化轉換(whitening transform)SW12,使得 原來每一類別的分佈等值線圖(distribution contour)幾近於單位圓22,以便於我們 合理的使用歐氏距離(Euclidean distance)作為類別間幾何分離度的量度標準。而 在第二階段,藉著 PCA23作用在每一個被白化(whitened)的類別期望值向量mi, 來決定一個使得所有類別期望值向量具有最大變異度(variation)的子空間(或投 影方向),如圖2.7 中的θ
1。
因為對任何非奇異線性轉換矩陣,均不會影響LDA 目標函式的求解,而SW12 正好就是非奇異矩陣24,且由第二階段(PCA 階段)求得的投影方向
Θ
[θ
1,...,θ
d] 均互為單範正交(orthonormal),也就是 T (d d) I
Θ Θ
,所以我們可將原始的 LDA
21 此同方差性假設亦可從貝氏決策理論以及最大相似度估測的角度來看,見 2.3.3 和 2.3.4 節。
22 此處亦有 LDA 的同方差性假設。
23 PCA 是一種正交(orthogonal)線性轉換,能將原始資料轉換到一個新的座標系統,使得投影到 第一座標軸(或第一主成分(the first principal component))的資料具有最大的變異度,投影到 第二座標軸的資料具有次大的變異度,以此類推。
24 理論上,任何共變異矩陣均為正半定(positive semi-definite),但在實務上,由於我們的資料數 遠大於特徵維度,所有共變異矩陣均可視為正定(positive definite),也就當然為非奇異矩陣。
圖2.7 線性鑑別分析的兩階段求解過程(幾何分析)
X1
X2
C1 C3
C2
Y1
Y2
C3
C1
C2
θ
1 21
SW
白化空間 白化階段
PCA 階段 原始空間
m2
m1
m3
m
1 m
3m
227 LDA_TR 1
trace
28
在類別內(within classes)和類別間(between classes)都具有特徵去相關的功能
25[59]。 例問題,意即,式(2.20)可改寫為具有限制條件(constraint)的目標函式26:
)
Θ 為對於SW 共軛正交(conjugate orthogonal)條件 [59],它使得
Θ 的縮放比例受到控制,這樣未來在與其它基於 LDA 之改進方法
25 但這不能保證對於個別(individual)的類別母體,LDA 也能達到完全特徵去相關的效果,也就 是Θ SΘ diag(ΘTSiΘ)
T i 未必成立。
26 式(2.34)也可以直接一維一維地以拉氏乘數(Lagrange multipliers)作最佳化,得到的轉換矩陣也 會同樣滿足傳統的LDA 目標函式。
27 許多研究者如 Sammon (1970)、Foley (1975)、Duchene (1988)試著求出在正交空間下的 LDA,
但就筆者所知,目前沒有研究可以證明,正交特徵空間對於語音辨識有明顯幫助。
29