• 沒有找到結果。

距離-錯誤耦合之權重式線性鑑別分析

3.2 基於混淆資訊之權重式線性鑑別分析

3.2.2 距離-錯誤耦合之權重式線性鑑別分析

EER-WLDA 的啟發性預設將在第二種方法中獲得解決。首先,我們發現在 ERR-WLDA 中,雖然

m

ijERR

m

ERRji 並不一定相同,但在其目標函式中,因為幾何

48

矩陣

M

DEWLDA

 [ m

ijDE

]

CC改寫成:



 

 

j i

j n i

n e

m i i

ij ij

if ,

0

if

DE

,

(3.18)

式(3.18)的數學意義在於將類別配對C 與i C 視為一個整體,計算此整體內發生的j

錯誤率。當然,這裡的mijDE在某種程度上也可用來量度類別C 與類別i C 之間的j

混淆度大小。

在以隱藏式馬可夫模型中的狀態(state)作為分類基本單位的自動語音辨識實   圖3.4 經驗分類錯誤率與馬氏距離的關係圖(一)

(類別配對屬於不同的音素模型)

LDA MFCC

  圖3.5 經驗分類錯誤率與馬氏距離的關係圖(二)

(類別配對屬於相同的音素模型)

LDA MFCC

49

驗中[31],我們可以針對 LDA 與 MFCC43兩種常見的特徵擷取方法分別繪出所有 類別配對之經驗分類錯誤率與馬氏距離的關係圖,如圖 3.4 與圖 3.5,二者的橫 軸為類別配對C 與i C 的馬氏距離j

ij,縱軸則為經驗分類錯誤率mijDE。圖 3.4 中 的每一點代表隸屬於不同音素模型(phone models)44的類別配對,而圖3.5 中的每 一點則代表隸屬於相同音素模型的類別配對。

由圖3.4 我們可以觀察到一個明顯的現象:馬氏距離較短的類別配對(例如

 4

ij ),易於產生較高的經驗分類錯誤率(例如mijDE

 0 . 07

),而馬氏距離較長 的類別配對(例如

ij

 4

),則可能擁有較低的經驗分類錯誤率(例如mijDE

 0 . 07

)。 值得一提的是,這種現象似乎並不會因著特徵擷取的方式不同而改變,因此我們 可以合理地認為這等關係具有一致性。但在圖3.5 中,經驗分類錯誤率與馬氏距 離的關係並不那麼明確。不過幸運的是,我們真正關心的是後端分類器所產生的 音素錯誤率(phone error rate, PER),因為它會影響到真正決定語音辨識效果的字 錯誤率(word error rate, WER),而在同一個音素模型中的狀態分類錯誤,並不會 影響最終的音素錯誤率,所以在圖3.5 中難以捉摸的關係可以放心地被忽略,因 此在表3.1,關於 MATBN 訓練語料之音素辨識統計中,我們只需考慮約 26%的 分類錯誤音框,而在同一音素模型中約16%的分類錯誤音框是可以不考慮的,因

       

43  這兩種方法所產生的投影子空間在此均屬於391。 

44 在本論文的中文大詞彙連續語音辨識實驗中,每個音素模型具有 3 至 5 個隱藏式馬可夫模型 狀態。

表3.1 LDA 與 MFCC 對於 MATBN 訓練語料之音素辨識統計

特徵擷取方法 LDA MFCC

總音框數 9,183,440

音素模型數 151

狀態模型數(基本類別) 455

所有分類錯誤數/錯誤率 3,896,185 / 42.43% 4,012,326 / 43.69%

不同音素分類錯誤數/錯誤率 2,400,806 / 26.14% 2,637,002 / 28.71%

50

為拉大這些音框所代表之狀態類別的距離並無助於最後的辨識率45

為了能夠更方便地描述圖3.4 的現象,我們首先想到的是應用資料擬合(data fitting)的方法找出馬氏距離的函數

E( 

ij

)

,使我們藉著這個函數,不僅歸納出馬 氏距離與經驗分類錯誤率的關係,也能夠預測出特定馬氏距離所對應的經驗分類 錯誤率mijDE。資料擬合是一種數學最佳化方法,試著在給定一系列已有類別標記 之資料點

{(

ui

,

vi

) |

i

 1 ,...,

n

}

的情況下,找出一個函數

G(

ui

)

,使得其輸出v~i近似 於v~。換句話說,資料擬合能夠最小化所有資料點

(

ui

, ~

vi

)

(

ui

,

vi

)

之間的平方錯 誤和(sum of squared error)。

例 如 , 若

E( 

ij

)

的 形 式 是 2 階 多 項 式 (quadratic polynomial) , 例 如 c

b a ij ij

ij

    

 )

2

E(

,則給定所有圖3.4 中的資料點

{( 

ij

,

mijDE

) |

i

 1 ,...

n

}

,我們 可以藉著最小化所有

E(

ij

)

mijDE

的平方和,來估計

E( 

ij

)

的參數 a、b、c,整 個估計方法可寫成下式:

 



1

1

DE 2 2

,

, ( )

min arg ˆ} ˆ, ˆ,

{ C

i C

i j

ij ij

c ij b

a a b c m

c b

a (3.19)

       

45  每一語句內的音素邊界(phone boundary)或音素內的狀態邊界(state boundary)是靠強迫對齊 (forced alignment)技術所決定,見[34]。 

  圖3.6 根據圖 3.5 所繪出不同階數的多項式回歸曲線

(橫軸為 ,縱軸為ij mijDE

51

最後,Eˆ(ij)aˆ2ijbˆijcˆ即為我們所求的二階經驗分類錯誤率函數。我們將 第 1 階到第 5 階的多項式回歸(regression)函數繪於圖 2.6,也證明了馬氏距離和 經驗分類錯誤率在較高階的多項式回歸曲線上,具有某種程度的負相關性。

因此,我們便可以設計一種權重因子如下(以2 階多項式為例):

c b a j

i, ) Eˆ( ij) ˆ ij ˆ ij ˆ (

wDEWLDA    2    (3.20)

式(3.20)不僅滿足了第一權重法則:馬氏距離愈大的類別配對,獲得較小的權重,

也藉著實際上距離與錯誤率的關係,將混淆資訊適當的嵌入了權重因子。若將式 (3.20)代入 WLDA 的式(3.2)則可形成所謂的距離-錯誤耦合之權重式線性鑑別分 析(distance-error coupled WLDA, DE-WLDA)46[72]目標函式:



C    

i C

j

T ij ij

ij j

ip a b c

p J

1 1 WLDA 2

DE (ˆ ˆ ˆ)trace( )

2 ) 1

(

Θ

Θ

S

Θ

(3.21)