目標函式 - 線性鑑別分析 (LDA) - 基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識

2.3 線性鑑別分析 (LDA)

2.3.1 目標函式

若我們將全部資料

{

 

ⁿ^¹

}

分為 C 個類別，ni為屬於類別Ci的資料總數，

N 為全部資料總數，則類別間散佈矩陣(between-class scatter matrix)SB

 

ⁿⁿ與類別內散佈矩陣(within-class scatter matrix)

S

W ⁿⁿ的定義分別如下[49]：







 ^C

i T i

B p

) )(

(

m m m m

S

(2.13)





 ^C

i i i

W p

S

(2.14)

其中，

m 為全部資料的期望值（平均）向量，

p 、i mi與Si分別為類別Ci的事前機率、期望值向量與共變異矩陣，三者的數學定義如下¹³：

13 注意，這裡對於所有資料母體或每一類別母體之統計量的估測(estimation)均是基於最大相似度估測法(maximum likelihood estimation, MLE)而得。其中，共變異矩陣的估測是有偏差的(biased)，

見[22]。但由於在語音處理的實務上，每一類別的資料數都不小，這種偏差(bias)便可忽略之。

並向量積(dyadic product)。由式(2.18)出發，我們可反推得式(2.13)：

  

多162 維），並不會遇到小資料量問題(small-sample-size problem, SSS problem)，因此不會發生共變異矩陣為奇異(singular)的情形。

由式(2.14)與式(2.18)可看出，類別內散佈矩陣SW其實就是所有類別之共變異矩陣的算術平均(arithmetic average)，而類別間散佈矩陣SB被表示成類別配對的形式，有助於我們將來針對每一類別配對對於 LDA 求取的貢獻作調整 (modification)。

LDA 也可被稱為典型變數分析(canonical variate analysis, CVA)，起初是被 Fisher 所引進，作為分離兩個類別母體的統計方法[50-51]，爾後由 Rao 將之延伸至多類別母體[52]。在資料降維上，它的基本精神在於尋求一個線性轉換矩陣

nd





Θ ，藉著最大化其類別間散佈矩陣SB與類別內散佈矩陣SW 的比率，能夠在n 維的原始訓練資料

{

 

ⁿ^¹

}

在經過轉換至d 維的子空間



^d^¹後（d  ），鑑n 別性資訊的損失降至最低¹⁴[49, 53]，如圖 2.5。LDA 目標函式主要有兩種形式，

分別以線性代數中跡數(trace)[54]與行列式(determinant)[55]來表示：

 



 





i C

T ij T W

T B T W

1 1

1 LDA_TR 1

) (

trace 2

) (

trace )

(

Θ S Θ Θ S Θ

Θ S Θ Θ S Θ Θ

(2.20)

| ) |

(

LDA_DET

Θ S Θ

Θ S Θ Θ

T W T B

J  (2.21)

式(2.20) 與式 (2.21) 可被證明具有相同的解集合 [49] ，

Θ 可經由處理輕省

(lightweight)的普遍化本徵值問題(generalized eigenvalue problem)而求得：

14 資料經過降維處理後，所含資訊量不是維持不變，就是減少。

類別內散佈矩陣類別間散佈矩陣

圖2.5 線性鑑別分析的幾何示意圖

i W i i

Bθ S θ



 (2.22)

其中， 為i SW^¹²SB之第i 大的非零本徵值(nonzero eigenvalue)，而θi則為其對應的本徵向量(eigenvector)。因此，

Θ 最後可被表示為

[

θ

2,...,

θ

d]。

值得注意的是，d 值大小是受限制的，除了一定不大於資料原始維度外，它也與相異類別的總數有關。以下的命題2.1 說明了資料中所有相關的距離資訊都包含在由類別期望值向量所展開(span)之最多C1維的子空間，這會影響到LDA 在解決多類別分類問題的能力，我們將在2.3.4 節討論之[56]。

命題

2.1：在 LDA 中，投影子空間之維度的限制為

 min(

,

 1 )

，其中，d 為非零本徵值（或投影子空間的最大維度），n 為原始維度，C 為類別總數。

證明：C 個向量形成向量組 M 如下：

} 1

| ) (

{

p i C



i mi



 

(2.23)

因為



ipimi



m，式(2.23)滿足了

0 m m m

m m

 )  (  )  ...  (  ) 

(

1 2 2

1 p pC C

p (2.24)

因此，任一向量pi

(



)

均可表示為其它C1個向量的線性組合，也就是說，

由向量組M 生成(span)的空間維度d C1。假設有一向量

g 與向量組 M 中任一

向量均正交，即pi

(



)

^Tg

 0

，則根據式(2.13)中SB的定義，

g 0 m m g

m m m m g

S

( )( ) ( )0 0

1 1











 



i i C

i T i

B p (2.25)

將式(2.25)中等號兩邊同乘

S ，可得

W^¹ SW^¹SBg

 0

g，說明了

S

W^¹

S

B具有n 個本徵d 值為0 的正交本徵向量(orthogonal eigenvectors)，這蘊含了

S

W^¹

S

B只具有d 個或比

d 更小的非零本徵值。又，d  C1，因此

S

W^¹

S

B的非零本徵值必須滿足

)

1 , min( 



n C

d 。

■

此外，值得一提的是，若我們對原始資料的做非奇異線性轉換(nonsingular linear transformation)¹⁵，也不會影響

Θ 的求取與 LDA 目標函式的輸出值。因此，

滿足於最大化LDA 目標函式的

Θ 並無唯一解

¹⁶，且它的縮放比例(scaling)可以是任意的(arbitrary)，這使得每一類別資料在線性轉換前後的機率相似度可能會差距太大而影響辨識器的處理[57]。為了解決此縮放比例問題(scaling problem)，我們必須在LDA 的求解過程中加上限制，使得

Θ 的縮放比例適中，相關的技術將

在2.3.2 節討論之。

為了說明LDA 目標函式的來源，我們可以從三個角度來看：使用貝氏決策法則(Bayes decision rule)來決定類別間最佳的決策邊界(decision boundary)、使用類別間幾何距離(geometrical distance)作為類別間分離度的量測(measurement)、使

15 換句話說，同構空間(isomorphic spaces)具有相同的 LDA 轉換。

16 Prieto (2003) 也因此提出了 LDA 轉換矩陣的一般解形式。在 ASR 實驗中，的確可以證明，不同縮放比例的LDA 轉換矩陣，會造成些微不同的辨識率。

圖2.6 LDA 目標函式產生的三種角度 LDA 的目標函式

幾何分離度模型參數估測貝氏決策法則

高斯機率分佈同方差性

三種角度

(Wilks, 1962) (Seber, 1984)

與分類較無關

(Campbell, 1984)

需於最大相似度估量的框架下進行

(Fisher, 1936) (Rao, 1948) 只能保證降至C-1 維子空間，會有最小貝氏錯誤

兩大假設特殊限制

用最大化相似度估計法(maximum likelihood estimation, MLE)對每一類別的統計模型和線性轉換作參數估計(parameter estimation)¹⁷。從這三個角度，加上其本身具有的假設，均可以推導出LDA 目標函式。許多論文與教科書也常常因著這三個角度，而對LDA 的限制和假設有所誤會，其中最有名的兩個問題為：

一、LDA 到底有沒有假設所有類別資料的機率分佈都遵循高斯分佈 (Gaussian distribution)或其它機率分佈？

二、LDA 的同方差性(homoscedasticity)¹⁸假設，也就是假設所有類別母體的共變異矩陣都相同，是在甚麼意義下說的？

事實上，LDA 所處理的問題就是對轉換矩陣

Θ 作參數估計。經過文獻整理，

我們可以歸納出圖 2.6，並發現，當我們使用貝氏決策法則或最大化相似度估計法，LDA 才有高斯機率分佈的假設。而至於同方差性假設，則是這三種角度都必要的假設，也因此是LDA 的重要限制，但它的假設時機與意義隨三種角度而各異，將在之後章節討論之。此外，我們也可以發現LDA 只有在貝氏決策法則的角度下才有分類(allocation)上的意義，且此分類是具有限制的。在同方差性和高斯機率分佈的假設下，LDA 只能決定出最佳的C1維子空間，也就是Θ

 

^k^d

（d C1k），在此空間內，類別間會有最小的貝氏錯誤(Bayes error)¹⁹。

在文檔中基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識 (頁 36-41)

目標函式

2.3 線性鑑別分析 (LDA)

2.3.1 目標函式

{

 

}

 

S



m m m m

S



S

S

m 為全部資料的期望值（平均）向量，

  





{

 

}



 

 



Θ S Θ Θ S Θ

Θ S Θ Θ S Θ Θ

Θ S Θ

Θ S Θ Θ

Θ 可 經 由 處 理 輕 省



Θ 最後可被表示為

θ

θ

θ

2.1：在 LDA 中，投影子空間之維度的限制為

 min(

,

 1 )

} 1

| ) (

{





 





 )  (  )  ...  (  ) 

(

(



)

g 與向量組 M 中任一

(



)

 0

g 0 m m g

m m m m g

S

 

S ，可得

 0

S

S

S

S

S

S

)

1 , min( 



■

Θ 的求取與 LDA 目標函式的輸出值。因此，

Θ 並無唯一解

Θ 的縮放比例適中，相關的技術將

Θ 作參數估計。經過文獻整理，

 

Θ 可經由處理輕省