為了要解決LDA 的過度強調問題(over-emphasis problem),一個可能的簡單 做 法 是 在 原 始 的 LDA 目 標 函 式 , 針 對 每 一 類 別 配 對 的 並 向 量 積
j T i j
i
)( )
(
m
m m
m 加上適當的權重值(weight),使得原本距離較大的類別配對 不會被過度強調,而距離較小的類別配對也不會被忽略。於是,在白化空間中的 類別間共變異矩陣可表示為:
C
i C
j
ij j
i C
i C
j
j T i j i j
i B
j i p p
j i p p
1 1 1 1
) , 2 w(
1
) )(
)(
, 2 w(
1
S
m m m m S
(3.1)
其中,m
i
SW12mi,S
ij S
W12S
ijS
W12,
w( j
i, )
為類別Ci與類別C 之間的權重因子j(weighting factor),乃用來控制它們對於投影方向的貢獻。之後,這種權重式線 性鑑別分析(weighting-based LDA, WLDA)36的目標函式可被定義為:
36 本論文之後皆以 WLDA 來簡稱『權重式線性鑑別分析』。
40
C
i C
j
T ij j
ip i j
p J
1 1
WLDA w(, )trace( ) 2
) 1
(
Θ
Θ
S
Θ
(3.2)
很明顯地,若w( ji, )獨立於任何非奇異矩陣的線性轉換,例如SW12,則類似於 LDA,WLDA 的轉換矩陣Θ也可簡單地表示為
S
12Θ
W ,其中Θ
為矩陣
S
B之本徵 值前d 大之本徵向量[
θ
1,...,θ
d]所組成的矩陣。
在許多關於決定權重因子的研究中,許多研究者直接用類別間之馬氏距離的 乘冪作為形成權重的依據,在此我們稱之為基於乘冪之權重式線性鑑別分析 (power WLDA, PWLDA)37[68-70],其w( ji, )可普遍化如下:
0 , ) , (
w
PWLDA i j
ijk k
(3.3)其中,k 為可自由設定的調節常數,
ij為類別C 與類別i C 之間的馬氏距離,定j義為:
W
i j
T j i
ij
m
m S m
m
21 (3.4)
37 本論文之後皆以 PWLDA 來簡稱『基於乘冪之權重式線性鑑別分析』。
1 1.5 2 2.5 3 3.5 4 4.5 5
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
k =1 k =2 k =3 k =4 k =5 k =6
圖3.1 PWLDA 之距離與權重關係圖
(橫軸為 ,縱軸為ij wPWLDA(i,j))
41
由圖(3.1)可看出,在各種 k 值的設定下,馬氏距離愈大的類別配對,所配置的權 重愈低,反之,馬氏距離愈小的類別配對,所配置的權重愈高。這種治標的方式 似乎可解決LDA 的過度強調問題,但卻只能憑經驗地(empirically)設定 k 以降低 距離大的類別配對所造成的影響力,並不能連於分類實務本身。
因此,Loog 等人考慮任兩類別母體C 與i C ,二者皆為同方差性的高斯分佈,j
經過白化過程後,當投影到方向θ
m
i m
j m
i m
j
( )
時,其貝氏準確率(Bayes accuracy)為:
erf 2 2 2
1 2 ) 1
( ij
Aij
θ
(3.5)
其證明如以下之命題3.1:
命題
3.1:任兩白化後的類別母體
C 與i C ,二者皆為同方差性的高斯分佈,當投j影到方向θ
m
i m
j m
i m
j
( )
(θ
的長度已被正規化為1)時,其貝氏準確率 為Aij(
θ
)12(1 2)erf(ij 2 2)。
圖3.2 兩個單變量高斯分佈及其貝氏錯誤示意圖
R1 R2
C2
C1
12
2
12
m2
m1
2
12
E2 E1
42
43
式(3.8)即為所求之貝氏準確率。
■
根據式(3.5),Loog 等人找出了馬氏距離與貝氏正確率的關係。而回到 WLDA,
對於任兩類別母體C 與i C ,他們提出了如下的j w( ji, ),並稱這種方法為近似成 對理論正確標準(approximate pairwise theoretical accuracy criterion, aPTAC)38:
38 原本 Loog 等人稱之為近似成對正確標準(approximate pairwise accuracy criterion, aPAC),往後 許多的他人著作亦如此稱之。但為了與本論文提出『經驗』的方法有所區隔,我們在此加上
44
45
計考量了分類正確率,儘管是個近似的方法,也在一定程度上解決了LDA 的分 類正確率無關問題。但是,aPTAC 仍具有潛在的限制:它假設了所有類別母體 均遵循高斯分佈,且分類器的分類規則需嚴格遵照貝氏決策法則才會有較佳的分 類效果。若是分類器較複雜,如自動語音辨識系統,則 aPTAC 便無法保證有較 佳的辨識率。至於目標函式以類別兩兩配對(pairwise)的方式組成,亦有對正確率 高估的情形,這點將在3.2 節進一步解釋之。