限制與改進：異方差性(Heteroscedasticity)

2.3 線性鑑別分析 (LDA)

2.3.3 限制與改進：異方差性(Heteroscedasticity)

若我們單純地從 LDA 的形式（式(2.20)與(2.21)）或它所蘊涵的最大化類別間幾何分離度來看，會發現LDA 對資料並無任何機率分佈的假設，而只具有對資料統計資訊的要求（期望值與變異度）[56, 60]。但若我們假設每一類別的資料都遵循高斯分佈(Gaussian distribution)，則 Campbell 以一種普遍化的線性模型證明了LDA 轉換矩陣的求取，等同於將所有具同方差性的n 維資料置於最大化 相似度的框架下作參數估計，並『假設』所有類別鑑別性資訊僅存於所欲投影的 d 維的子空間，而剩下的n 維則不具任何鑑別性[61]。 d

為了除去此同方差性的假設，Kumar 等人提出了異方差線性鑑別分析 (heteroscedastic linear discriminant analysis, HLDA)²⁸[26, 62]，同樣是在線性模型下最大化所有資料的相似度，只是模型參數中的類別共變異矩陣不再視為相同。

HLDA 中每一類別母體的期望值μi與共變異矩陣Σi，以及經由最大化相似度估計法求出的估計子(estimators)可被表示如下：

 

28 Saon 等人認為 Kumar 等人的構想非原創，而是源於 Schukat-Talamazzini 等人於 ICASSP’95 提出的論文，但筆者不以為然。事實上，Schukat-Talamazzini 等人所做的是在最大相似度的框架下，基於模型空間的線性轉換，也就是將線性轉換置於聲學模型參數估測中同時進行。因此，

兩者的處理結構是不同的。Kumar 也在他博士論文的附錄中說明了他的方法如何聯於 LDA，

見[62]。本論文之後皆以 HLDA 來簡稱『異方差線性鑑別分析』。

其中，μi^d為投影後第i 個類別平均向量的前 d 維，μ⁽₀^n^d⁾為投影後第i 個類別平 均向量的後n 維，同樣地，d Σ^di 和Σ⁽₀^n^d⁾分別為前d 維與後n 維的共變異矩d 陣；換言之，所有類別的μ⁽₀^n^d⁾和Σ⁽₀^n^d⁾都是相同的。而ST為整體散佈矩陣(total scatter matrix)，其定義如下：

 ^ ^

式(close-form)，必須藉著梯度下降(gradient descent)等遞迴式(iterative)的最佳化技術來求解。

如2.3.2 節所述，從類別間幾何分離度的角度來看，LDA 本身的形式已隱含了同方差性的假設²⁹。Saon 等人據此提出了異方差鑑別分析(heteroscedastic discriminant analysis, HDA)[27]，試圖藉著考慮每一類別母體的共變異矩陣，變

29 LDA 的第二種目標函式（式(2.21)）亦含有類別間幾何分離度上的同方差性假設，見[55]。

我們也可將式(2.40)寫成對數(logarithm)形式的目標函數及其一階偏導數如下 [26]：證明了，HDA 所做的只是對類別內共變異矩陣SW作重新估計(re-estimate)而已，見[63]。筆者認為，嘗試從形式上或類別間幾何分離度來打破同方差性假設是很困難的，儘管HDA 在發明之初似乎有此動機。不過，若賦予HDA 在最大相似度估測法下的意義，則 HDA 的目標是成功的。本論文之後皆以HDA 來簡稱『異方差鑑別分析』。

的注意。他們發現，LDA 中的類別內散佈矩陣SW（式(2.21)中的分母）可被視為所有類別共變異矩陣的算術平均(arithmetic average)，而 HDA 中的改良式類別內散佈矩陣（式(2.40)中的分母）則可被視為所有類別共變異矩陣的幾何平均 (geometrical average)。基於這種『巧合』，他們提出了基於乘冪平均(power mean) 的線性鑑別分析(power linear discriminant analysis, PLDA)³¹[63-64]，其目標函式如下：

C m

i m i T

T B

p m

J ₁

1 PLDA

) (

| ) |

, (

 

 



 





Θ S Θ

Θ S

Θ Θ (2.44)

其中，m 為乘冪平均中可自由設定的參數，當m1時，PLDA 將還原成 LDA；

當m0時，PLDA 將還原成 HDA。雖然 PLDA 在一定程度下普遍化了類別內散佈矩陣，但筆者認為它仍有一些缺點：第一，即使乘冪平均又可稱為普遍化平均 (generalized mean)，意即它可以普遍化所有類型的平均，但其中最佳之m 值卻甚 難求取。第二，式(2.44)在非整數的m 值設定下，並沒有其一階偏導數或二階偏 導數的固定形式，這導致了最佳化技術的困難³²，求出的值也只能達到相對最佳值(local optimum)。Sakai 等人只提供了式(2.45)在 m 為整數時的一階偏導數如 下：

m B

B D

J ~ 2

) 2 ,

( ₁

PLDA  



S Θ S



Θ

(2.45)

31 本論文之後皆以 PLDA 來簡稱『基於乘冪平均的線性鑑別分析』。

32 即便使用單形法(simplex method)（如在 MATLAB 裡面的 fminsearch 函數），無須提供目標函式的一階偏導數，在維度過大（或變數過多）的情形還是難以處理。

在文檔中基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識 (頁 46-50)