3.2 基於混淆資訊之權重式線性鑑別分析
3.2.2 距離-錯誤耦合之權重式線性鑑別分析
EER-WLDA 的啟發性預設將在第二種方法中獲得解決。首先,我們發現在 ERR-WLDA 中,雖然
m
ijERR與m
ERRji 並不一定相同,但在其目標函式中,因為幾何48
矩陣
M
DEWLDA [ m
ijDE]
CC改寫成:
j i
j n i
n e
m i i
ij ij
if ,
0
if
DE
,
(3.18)式(3.18)的數學意義在於將類別配對C 與i C 視為一個整體,計算此整體內發生的j
錯誤率。當然,這裡的mijDE在某種程度上也可用來量度類別C 與類別i C 之間的j
混淆度大小。
在以隱藏式馬可夫模型中的狀態(state)作為分類基本單位的自動語音辨識實 圖3.4 經驗分類錯誤率與馬氏距離的關係圖(一)
(類別配對屬於不同的音素模型)
LDA MFCC
圖3.5 經驗分類錯誤率與馬氏距離的關係圖(二)
(類別配對屬於相同的音素模型)
LDA MFCC
49
驗中[31],我們可以針對 LDA 與 MFCC43兩種常見的特徵擷取方法分別繪出所有 類別配對之經驗分類錯誤率與馬氏距離的關係圖,如圖 3.4 與圖 3.5,二者的橫 軸為類別配對C 與i C 的馬氏距離j
ij,縱軸則為經驗分類錯誤率mijDE。圖 3.4 中 的每一點代表隸屬於不同音素模型(phone models)44的類別配對,而圖3.5 中的每 一點則代表隸屬於相同音素模型的類別配對。由圖3.4 我們可以觀察到一個明顯的現象:馬氏距離較短的類別配對(例如
4
ij ),易於產生較高的經驗分類錯誤率(例如mijDE 0 . 07
),而馬氏距離較長 的類別配對(例如
ij 4
),則可能擁有較低的經驗分類錯誤率(例如mijDE 0 . 07
)。 值得一提的是,這種現象似乎並不會因著特徵擷取的方式不同而改變,因此我們 可以合理地認為這等關係具有一致性。但在圖3.5 中,經驗分類錯誤率與馬氏距 離的關係並不那麼明確。不過幸運的是,我們真正關心的是後端分類器所產生的 音素錯誤率(phone error rate, PER),因為它會影響到真正決定語音辨識效果的字 錯誤率(word error rate, WER),而在同一個音素模型中的狀態分類錯誤,並不會 影響最終的音素錯誤率,所以在圖3.5 中難以捉摸的關係可以放心地被忽略,因 此在表3.1,關於 MATBN 訓練語料之音素辨識統計中,我們只需考慮約 26%的 分類錯誤音框,而在同一音素模型中約16%的分類錯誤音框是可以不考慮的,因
43 這兩種方法所產生的投影子空間在此均屬於391。
44 在本論文的中文大詞彙連續語音辨識實驗中,每個音素模型具有 3 至 5 個隱藏式馬可夫模型 狀態。
表3.1 LDA 與 MFCC 對於 MATBN 訓練語料之音素辨識統計
特徵擷取方法 LDA MFCC
總音框數 9,183,440
音素模型數 151
狀態模型數(基本類別) 455
所有分類錯誤數/錯誤率 3,896,185 / 42.43% 4,012,326 / 43.69%
不同音素分類錯誤數/錯誤率 2,400,806 / 26.14% 2,637,002 / 28.71%
50
為拉大這些音框所代表之狀態類別的距離並無助於最後的辨識率45。
為了能夠更方便地描述圖3.4 的現象,我們首先想到的是應用資料擬合(data fitting)的方法找出馬氏距離的函數
E(
ij)
,使我們藉著這個函數,不僅歸納出馬 氏距離與經驗分類錯誤率的關係,也能夠預測出特定馬氏距離所對應的經驗分類 錯誤率mijDE。資料擬合是一種數學最佳化方法,試著在給定一系列已有類別標記 之資料點{(
ui,
vi) |
i 1 ,...,
n}
的情況下,找出一個函數G(
ui)
,使得其輸出v~i近似 於v~。換句話說,資料擬合能夠最小化所有資料點(
ui, ~
vi)
與(
ui,
vi)
之間的平方錯 誤和(sum of squared error)。例 如 , 若
E(
ij)
的 形 式 是 2 階 多 項 式 (quadratic polynomial) , 例 如 cb a ij ij
ij
)
2E(
,則給定所有圖3.4 中的資料點{(
ij,
mijDE) |
i 1 ,...
n}
,我們 可以藉著最小化所有 E(
ij)
mijDE
的平方和,來估計E(
ij)
的參數 a、b、c,整 個估計方法可寫成下式:
1
1
DE 2 2
,
, ( )
min arg ˆ} ˆ, ˆ,
{ C
i C
i j
ij ij
c ij b
a a b c m
c b
a (3.19)
45 每一語句內的音素邊界(phone boundary)或音素內的狀態邊界(state boundary)是靠強迫對齊 (forced alignment)技術所決定,見[34]。
圖3.6 根據圖 3.5 所繪出不同階數的多項式回歸曲線
(橫軸為 ,縱軸為ij mijDE)
51
最後,Eˆ(ij)aˆ2ij bˆijcˆ即為我們所求的二階經驗分類錯誤率函數。我們將 第 1 階到第 5 階的多項式回歸(regression)函數繪於圖 2.6,也證明了馬氏距離和 經驗分類錯誤率在較高階的多項式回歸曲線上,具有某種程度的負相關性。
因此,我們便可以設計一種權重因子如下(以2 階多項式為例):
c b a j
i, ) Eˆ( ij) ˆ ij ˆ ij ˆ (
wDEWLDA 2 (3.20)
式(3.20)不僅滿足了第一權重法則:馬氏距離愈大的類別配對,獲得較小的權重,
也藉著實際上距離與錯誤率的關係,將混淆資訊適當的嵌入了權重因子。若將式 (3.20)代入 WLDA 的式(3.2)則可形成所謂的距離-錯誤耦合之權重式線性鑑別分 析(distance-error coupled WLDA, DE-WLDA)46[72]目標函式:
C
i C
j
T ij ij
ij j
ip a b c
p J
1 1 WLDA 2
DE (ˆ ˆ ˆ)trace( )
2 ) 1
(
Θ
Θ
S
Θ
(3.21)