背景知識

~ 6 ~

第2章背景知識

2.1 鑑別式訓練法則

鑑別式訓練法的主要概念，在於訓練模型時，不以訓練語料相似度的最大化為目標，而是以分類錯誤的最小化為目標，進而增進辨識率。傳統的聲學模型訓練，以最大相似度估測法為原則，在訓練時調整模型參數的目標是使得正確的語音聲學特徵在此聲學模型的相似度變大，但是這種訓練方式沒有考慮到模型間彼此的關係，所以在使正確的語音聲學特徵在對應的模型上的相似度增加時，可能同時使不正確的語音聲學特徵在此聲學模型的相似度也變大，造成辨識上的混淆，

舉例如圖 2.1，(a)表示一個正確轉寫為 u 的觀測語句 Ou，在模型M 上可以得到一 相似度 P(Ou|M)，在訓練時以相似度的最大化為目標的過程就如(b)所示，訓練時會調整模型A 使得正確轉寫為 A 的觀測語句 OA落在模型A 上的相似度 P(OA|A)增加，

P(O_u|M) Ou

正確轉寫為 u 的觀測語句 Ou，落在模型M 裡的相似度 P(Ou|M)

P(OA|A) OA

P(OB|B) OB

訓練時，調整模型A、B，使得 P(OA|A) > P(OB|A)且 P(OB|B) > P(OA|B)

P(OB|A)

O_B B

P(OA|B) O_A

辨識時，可能發生 P(OB|A) > P(OB|B)的情形而將 B 錯誤辨識為 A；

或是 P(OA|B) > P(OA|A)的情形而將 A 錯誤辨識為 B。

圖 2.1 最大相似度估測法造成混淆的情形 (a)

(b)

(c)

2.2 貝氏風險(Bayes Risk)

~ 7 ~

大於其它正確轉寫不為A 的觀測語句落在模型 A 上的相似度，同樣的也調整模型 B 使得 OB落在模型B 上的相似度 P(OA|B)增加，大於其它正確轉寫不為 B 的觀測語句落在模型B 上的相似度，這樣的訓練自然會有 P(OA|A) > P(OB|A)且 P(OB|B) >

P(OA|B)的結果，然而在(c)的辨識時，辨識的準則是測試觀測語句落在每個模型裡的相似度，再挑選出落在哪個模型裡的相似度最大，而採定為辨識結果，這與相似度最大化的訓練原則並不一致，在(b)中雖然訓練結果會使正確轉譯為 A 的觀測 語句 O_A落在模型 A 的相似度一定大於 OB落在模型 A 的相似度，卻無法確定確 O_A落在模型 B 的相似度是否會更大，意即發生 P(OB|B) > P(OA|B) > P(OA|A) >

鑑別式訓練法便是針對這個缺點改進，企圖在訓練模型時同時考慮正確與不正確的語音聲學特徵，使得正確的語音聲學特徵在其聲學模型上的相似度可以大於不正確的語音聲學特徵在此聲學模型上的相似度，意即在圖 2.1 中的(b)訓練目 標是 P(O_A|A) > P(OB|A)且 P(OB|B) > P(OA|B)。

以下幾節將從貝氏風險開始，以鑑別式訓練方法的演進，介紹數個廣泛研究過的模型訓練法，包括其目標函數(objective function)及物理意義。

2.2 貝氏風險(Bayes Risk)

如果將語音辨識視為一個分類的行為，即對一語句O 分類至一文句 s ，而辨_r 識所做的分類未必正確，因此存在一個分類錯誤的風險，用一個函數R s O

(

^| r

)

代表將語句O 分類至文句 s 的風險，這個風險函數可以定義如下： _r

(

) (

) ( )

r r

u W

R s O P u O L s u

∈

∑

^(2.1)

O 表示觀測語句的特徵向量，r W 表示所有可能文句之集合，_h P u O

(

^| r

)

表示給定觀測語句的特徵向量O 時，文句 u 的事後機率，_r ^{L s u}

( )

^, 為一減損函數(loss function)，

2.3 最大相似度(Maximum Likelihood, ML) (Maximum a posterior decoding, MAP decoding)【7】、最小貝氏風險(Minimum Bayesian Risk decoding, MBR decoding)【8】，以及最小詞錯誤解碼(word error minimization decoding)【9】，都是這個方法的應用。

至於將貝氏風險運用在模型訓練上，則是把風險函數作為目標函數：

2.3 最大相似度(Maximum Likelihood, ML)

最大相似度估測法的目標函數是將貝氏風險中的減損函數定義為零壹函數

2.3 最大相似度(Maximum Likelihood, ML)

(2.7)的結果就是所謂的最大事後機率(maximum a posterior, MAP)。

如果再將(2.6)的結果套用詹氏不等式(Jensen’s inequality)：

( ) ( )

之後再使用貝氏定理(Bayes' theorem)推導如下：

( ) ⁽ ⁾

由於假設所有的O 為均勻分布(uniform distribution)，因此在(2.10)中又可以省略此_r 項：

2.4 最大相互資訊(Maximum Mutual Information, MMI)

argmax argmax log |

ML ML r r

F P O s_λ

λ λ

λ

∑

^(2.13)

2.4 最大相互資訊(Maximum Mutual Information, MMI)

對於(2.10)的結果，如果對分母項P O

( )

r 使用貝氏定理展開：

log log log

2.5 全面風險法則估測(Overall Risk Criterion Estimation, ORCE)

~ 11 ~

將最大相互資訊用於聲學模型的訓練，最早是由IBM 在 1986 年提出【1】，在辨識2000 個獨立的詞的辨識實驗中，比最大相似度估測法降低了 18%的詞錯誤率。

布氏(Brown)在 1987 年時使用最大相互資訊估測法訓練連續隱藏式馬可夫模型

【10】，可以產生 18%的相對進步率，由於最佳化的過程十分複雜，所以使用了斜率遞減法(gradient descent)來求解。之後在 1995 年，諾氏(Normandin)更將延伸式波氏重估(extended Baum-Welch re-estimation, EBW)【11】演算法用於連續隱藏式馬可夫模型的參數最佳化上【12】。之後范氏(Valtchev)等人則將最大相互資訊估測法應用到大字彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)上【13】，在 64000 個詞彙的實驗中，可以產生約 5~10%的相對進步率，

此時的實驗已經使用語音辨識產生的詞圖作為可能的辨識結果((2.14)中的W )的近_h 似，進而利用(2.14)近似出觀測語句的事前機率P O

( )

r 。

2002 年由伍氏(Woodland)等人於劍橋大學提出 I 平滑(I-Smoothing)技術【14】，

由訓練語料中使用最大相似度估測之統計資訊，作為待測模型的事前機率分佈，

來加強最大相互資訊估測模型的強健性。

2.5 全面風險法則估測(Overall Risk Criterion Estimation, ORCE)

在上述的最大相似度及最大相互資訊中，皆使用零壹函數作為減損函數，零壹函數可以視為句錯誤率的計算，但在語音辨識結果的評量上，英文習慣使用詞錯誤率(word error rate, WER)，中文則使用字錯誤率(character error rate, CER)較為合理，兩種評量方式皆與零壹函數的錯誤率計算方式相左，因此，以零壹函數的減損函數為最小化的目標並不一定帶來較低的辨識錯誤率，為了克服這個問題，

在全面風險法則估測中便提出了使用編輯距離(Levenshtein distance)取代零壹函數為減損函數的作法，編輯距離的定義如圖 2.2 及(2.19)式所示【15】：

2.5 全面風險法則估測(Overall Risk Criterion Estimation, ORCE)

全面風險法則估測在 2002 由凱氏(Kaiser)等人提出以編輯距離取代零壹函數作為減損函數，以N 最佳路徑(N-best)作為所有辨識可能的近似，並使用延伸式波氏重估演算法來實行模型最佳化【16】，在 TIMIT 的音素辨識實驗中，約可降低 20.8%的詞錯誤率。

int LevenshteinDistance(char s_r[1..m], char u[1..n]) // d is a table with m+1 rows and n+1 columns

2.6 最小分類錯誤(Minimum Classification Error, MCE)

~ 13 ~

2.6 最小分類錯誤(Minimum Classification Error, MCE)

在(2.1)中，一般均使用零壹函數作為減損函數來計算貝氏風險，然而最小分類錯誤訓練法則重新定義風險函數，並套用至S 形函數(Sigmoid function)：

(

^r ^| ^r

)

^{1 exp}

{

¹^,

(

^r ^| ^r

) }

2.7 最小音素錯誤(Minimum Phone Error, MPE)

最小分類錯誤在 1992 年由莊氏(Juang)等人提出【17】【2】，使用一般化機率遞減法(generalized probability descent, GPD)來進行最佳化。有許多成果在小字彙訓練上提出，如周氏(Chou)在 TI Digit String 的實驗可以降低 25%的字串錯誤率【18】，

薛氏(Sual)等人在小型及中型詞彙辨識上也能產生 10%的相對進步率【19】。而在 2000 年，舒氏(Schlüter)則將最小分類錯誤訓練法應用到大字彙連續音辨識上【20】，

利用詞圖作為競爭文句的近似。

2.7 最小音素錯誤(Minimum Phone Error, MPE)

最小音素錯誤模型訓練法在2002 年由劍橋大學的波氏(Povey)等人提出，相較於最大相互資訊估測法是將正確轉寫的事後機率最大化，最小音素錯誤模型訓練法是將訓練語料的音素正確度(Raw Pone Accuracy)期望值最大化【3】，將(2.4)中的減損函數改為音素的正確率，將原本對減損函數的最小化改為對音素正確率的極

2.8 綜合各種訓練法之目標函數推導流程布(prior distribution)來增加模型的強健性。

而在實作上，最小音素錯誤模型訓練法類似於最大相互資訊估測法的一種變

2.9 本章結論

3.1 實驗語料 3.2 訓練與辨識系統

~ 17 ~

在文檔中最小音素錯誤訓練法及其改進方法在國語大字彙辨識上之評估與分析 (頁 20-31)

第2章 背景知識

2.1 鑑別式訓練法則

2.2 貝氏風險(Bayes Risk)

(

)

(

) (

) ( )

∑

(

)

( )

2.3 最大相似度(Maximum Likelihood, ML)

( ) ( )

( ) ( )

λ

λ

∑

2.4 最大相互資訊(Maximum Mutual Information, MMI)

( )

( )

2.5 全面風險法則估測(Overall Risk Criterion Estimation, ORCE)

2.6 最小分類錯誤(Minimum Classification Error, MCE)

(

)

{

(

) }

2.7 最小音素錯誤(Minimum Phone Error, MPE)

第2章背景知識

( ) ⁽ ⁾