2.3 線性鑑別分析 (LDA)
2.3.3 限制與改進:異方差性(Heteroscedasticity)
若我們單純地從 LDA 的形式(式(2.20)與(2.21))或它所蘊涵的最大化類別 間幾何分離度來看,會發現LDA 對資料並無任何機率分佈的假設,而只具有對 資料統計資訊的要求(期望值與變異度)[56, 60]。但若我們假設每一類別的資 料都遵循高斯分佈(Gaussian distribution),則 Campbell 以一種普遍化的線性模型 證明了LDA 轉換矩陣的求取,等同於將所有具同方差性的n 維資料置於最大化 相似度的框架下作參數估計,並『假設』所有類別鑑別性資訊僅存於所欲投影的 d 維的子空間,而剩下的n 維則不具任何鑑別性[61]。 d
為了除去此同方差性的假設,Kumar 等人提出了異方差線性鑑別分析 (heteroscedastic linear discriminant analysis, HLDA)28[26, 62],同樣是在線性模型 下最大化所有資料的相似度,只是模型參數中的類別共變異矩陣不再視為相同。
HLDA 中每一類別母體的期望值μi與共變異矩陣Σi,以及經由最大化相似度估 計法求出的估計子(estimators)可被表示如下:
28 Saon 等人認為 Kumar 等人的構想非原創,而是源於 Schukat-Talamazzini 等人於 ICASSP’95 提 出的論文,但筆者不以為然。事實上,Schukat-Talamazzini 等人所做的是在最大相似度的框架 下,基於模型空間的線性轉換,也就是將線性轉換置於聲學模型參數估測中同時進行。因此,
兩者的處理結構是不同的。Kumar 也在他博士論文的附錄中說明了他的方法如何聯於 LDA,
見[62]。本論文之後皆以 HLDA 來簡稱『異方差線性鑑別分析』。
30
其中,μid為投影後第i 個類別平均向量的前 d 維,μ(0nd)為投影後第i 個類別平 均向量的後n 維,同樣地,d Σdi 和Σ(0nd)分別為前d 維與後n 維的共變異矩d 陣;換言之,所有類別的μ(0nd)和Σ(0nd)都是相同的。而ST為整體散佈矩陣(total scatter matrix),其定義如下:
式(close-form),必須藉著梯度下降(gradient descent)等遞迴式(iterative)的最佳化 技術來求解。如2.3.2 節所述,從類別間幾何分離度的角度來看,LDA 本身的形式已隱含 了同方差性的假設29。Saon 等人據此提出了異方差鑑別分析(heteroscedastic discriminant analysis, HDA)[27],試圖藉著考慮每一類別母體的共變異矩陣,變
29 LDA 的第二種目標函式(式(2.21))亦含有類別間幾何分離度上的同方差性假設,見[55]。
31
我們也可將式(2.40)寫成對數(logarithm)形式的目標函數及其一階偏導數如下 [26]: 證明了,HDA 所做的只是對類別內共變異矩陣SW作重新估計(re-estimate)而已,見[63]。筆者 認為,嘗試從形式上或類別間幾何分離度來打破同方差性假設是很困難的,儘管HDA 在發明 之初似乎有此動機。不過,若賦予HDA 在最大相似度估測法下的意義,則 HDA 的目標是成 功的。本論文之後皆以HDA 來簡稱『異方差鑑別分析』。
32
的注意。他們發現,LDA 中的類別內散佈矩陣SW(式(2.21)中的分母)可被視 為所有類別共變異矩陣的算術平均(arithmetic average),而 HDA 中的改良式類別 內散佈矩陣(式(2.40)中的分母)則可被視為所有類別共變異矩陣的幾何平均 (geometrical average)。基於這種『巧合』,他們提出了基於乘冪平均(power mean) 的線性鑑別分析(power linear discriminant analysis, PLDA)31[63-64],其目標函式 如下:
C m
i
i m i T
T B
p m
J 1
1 PLDA
) (
| ) |
, (
Θ S Θ
Θ S
Θ Θ (2.44)
其中,m 為乘冪平均中可自由設定的參數,當m1時,PLDA 將還原成 LDA;
當m0時,PLDA 將還原成 HDA。雖然 PLDA 在一定程度下普遍化了類別內散 佈矩陣,但筆者認為它仍有一些缺點:第一,即使乘冪平均又可稱為普遍化平均 (generalized mean),意即它可以普遍化所有類型的平均,但其中最佳之m 值卻甚 難求取。第二,式(2.44)在非整數的m 值設定下,並沒有其一階偏導數或二階偏 導數的固定形式,這導致了最佳化技術的困難32,求出的值也只能達到相對最佳 值(local optimum)。Sakai 等人只提供了式(2.45)在 m 為整數時的一階偏導數如 下:
m B
B D
m
J ~ 2
) 2 ,
( 1
PLDA
S Θ S
Θ
Θ
(2.45)
31 本論文之後皆以 PLDA 來簡稱『基於乘冪平均的線性鑑別分析』。
32 即便使用單形法(simplex method)(如在 MATLAB 裡面的 fminsearch 函數),無須提供目標函 式的一階偏導數,在維度過大(或變數過多)的情形還是難以處理。
33