距離－錯誤耦合之權重式線性鑑別分析 - 基於混淆資訊之權重式線性鑑別分析 - 基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識

3.2 基於混淆資訊之權重式線性鑑別分析

3.2.2 距離－錯誤耦合之權重式線性鑑別分析

EER-WLDA 的啟發性預設將在第二種方法中獲得解決。首先，我們發現在 ERR-WLDA 中，雖然

m

ij^ERR與

m

^ERRji 並不一定相同，但在其目標函式中，因為幾何

矩陣

M

DEWLDA

 [ m

ij^DE

]

CC改寫成：



 





 



j i

j n i

n e

m _i _i

ij ij

if ,

0 if

,

(3.18)

式(3.18)的數學意義在於將類別配對C 與i C 視為一個整體，計算此整體內發生的j

錯誤率。當然，這裡的mij^DE在某種程度上也可用來量度類別C 與類別i C 之間的j

混淆度大小。

在以隱藏式馬可夫模型中的狀態(state)作為分類基本單位的自動語音辨識實圖3.4 經驗分類錯誤率與馬氏距離的關係圖（一）

（類別配對屬於不同的音素模型）

LDA MFCC

圖3.5 經驗分類錯誤率與馬氏距離的關係圖（二）

（類別配對屬於相同的音素模型）

LDA MFCC

驗中[31]，我們可以針對 LDA 與 MFCC⁴³兩種常見的特徵擷取方法分別繪出所有類別配對之經驗分類錯誤率與馬氏距離的關係圖，如圖 3.4 與圖 3.5，二者的橫軸為類別配對C 與i C 的馬氏距離j



ij，縱軸則為經驗分類錯誤率mij^DE。圖 3.4 中的每一點代表隸屬於不同音素模型(phone models)⁴⁴的類別配對，而圖3.5 中的每一點則代表隸屬於相同音素模型的類別配對。

由圖3.4 我們可以觀察到一個明顯的現象：馬氏距離較短的類別配對（例如

 4



ij ），易於產生較高的經驗分類錯誤率（例如mij^DE

 0 . 07

），而馬氏距離較長的類別配對（例如



 4

），則可能擁有較低的經驗分類錯誤率（例如mij^DE

 0 . 07

）。值得一提的是，這種現象似乎並不會因著特徵擷取的方式不同而改變，因此我們可以合理地認為這等關係具有一致性。但在圖3.5 中，經驗分類錯誤率與馬氏距離的關係並不那麼明確。不過幸運的是，我們真正關心的是後端分類器所產生的音素錯誤率(phone error rate, PER)，因為它會影響到真正決定語音辨識效果的字錯誤率(word error rate, WER)，而在同一個音素模型中的狀態分類錯誤，並不會影響最終的音素錯誤率，所以在圖3.5 中難以捉摸的關係可以放心地被忽略，因此在表3.1，關於 MATBN 訓練語料之音素辨識統計中，我們只需考慮約 26%的分類錯誤音框，而在同一音素模型中約16%的分類錯誤音框是可以不考慮的，因

43 這兩種方法所產生的投影子空間在此均屬於^39¹。

44 在本論文的中文大詞彙連續語音辨識實驗中，每個音素模型具有 3 至 5 個隱藏式馬可夫模型狀態。

表3.1 LDA 與 MFCC 對於 MATBN 訓練語料之音素辨識統計

特徵擷取方法 LDA MFCC

總音框數 9,183,440

音素模型數 151

狀態模型數（基本類別） 455

所有分類錯誤數／錯誤率 3,896,185 / 42.43% 4,012,326 / 43.69%

不同音素分類錯誤數／錯誤率 2,400,806 / 26.14% 2,637,002 / 28.71%

為拉大這些音框所代表之狀態類別的距離並無助於最後的辨識率⁴⁵。

為了能夠更方便地描述圖3.4 的現象，我們首先想到的是應用資料擬合(data fitting)的方法找出馬氏距離的函數

E( 

)

，使我們藉著這個函數，不僅歸納出馬氏距離與經驗分類錯誤率的關係，也能夠預測出特定馬氏距離所對應的經驗分類錯誤率mij^DE。資料擬合是一種數學最佳化方法，試著在給定一系列已有類別標記之資料點

{(

,

) |

 1 ,...,

}

的情況下，找出一個函數

G(

)

，使得其輸出v~i近似於v~。換句話說，資料擬合能夠最小化所有資料點

(

, ~

)

與

(

,

)

之間的平方錯誤和(sum of squared error)。

例如，若

E( 

)

的形式是 2 階多項式 (quadratic polynomial) ，例如 c

b a ij ij

    

 )

E(

，則給定所有圖3.4 中的資料點

{( 

,

mij^DE

) |

 1 ,...

}

，我們可以藉著最小化所有

 ^E( 

⁾ 

mij^DE



的平方和，來估計

E( 

)

的參數 a、b、c，整 個估計方法可寫成下式：

 



^

 











 ¹

DE 2 2

, ( )

min arg ˆ} ˆ, ˆ,

{ ^C

i C

i j

ij ij

c ij b

a a b c m

c b

a (3.19)

45 每一語句內的音素邊界(phone boundary)或音素內的狀態邊界(state boundary)是靠強迫對齊 (forced alignment)技術所決定，見[34]。

圖3.6 根據圖 3.5 所繪出不同階數的多項式回歸曲線

（橫軸為 ，縱軸為ij mij^DE）

最後，Eˆ(ij)aˆ²ij bˆijcˆ即為我們所求的二階經驗分類錯誤率函數。我們將第 1 階到第 5 階的多項式回歸(regression)函數繪於圖 2.6，也證明了馬氏距離和經驗分類錯誤率在較高階的多項式回歸曲線上，具有某種程度的負相關性。

因此，我們便可以設計一種權重因子如下（以2 階多項式為例）：

c b a j

i, ) Eˆ( ij) ˆ ij ˆ ij ˆ (

wDEWLDA    ²    (3.20)

式(3.20)不僅滿足了第一權重法則：馬氏距離愈大的類別配對，獲得較小的權重，

也藉著實際上距離與錯誤率的關係，將混淆資訊適當的嵌入了權重因子。若將式 (3.20)代入 WLDA 的式(3.2)則可形成所謂的距離－錯誤耦合之權重式線性鑑別分析(distance-error coupled WLDA, DE-WLDA)⁴⁶[72]目標函式：



 

  ^C    

i C

T ij ij

ij j

ip a b c

p J

1 1 WLDA 2

DE (ˆ ˆ ˆ)trace( )

2 ) 1

(

Θ



Θ



S



Θ



(3.21)

在文檔中基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識 (頁 64-68)

距離－錯誤耦合之權重式線性鑑別分析

3.2 基於混淆資訊之權重式線性鑑別分析

3.2.2 距離－錯誤耦合之權重式線性鑑別分析

m

m

M

 [ m

]



 





 



if ,

0

if

,



 4



 0 . 07



 4

 0 . 07

E( 

)

{(

,

) |

 1 ,...,

}

G(

)

(

, ~

)

(

,

)

E( 

)

    

 )

E(

{( 

,

) |

 1 ,...

}

 E( 

) 



E( 

)

 





Θ

Θ

S

Θ

 ^E( 

⁾ 