緒論 - 最小音素錯誤訓練法及其改進方法在國語大字彙辨識上之評估與分析

~ 1 ~

第1章緒論

1.1 研究動機

在傳統的語音模型訓練中，模型參數的估測是由最大相似度估測法(Maximum Likelihood Estimation, MLE)求得，此方法的目標是讓正確轉寫(transcription)在訓練語料中產生最大的事後機率(posterior probability)，然而最大相似度估測法並未考慮到競爭字串(competing word sequence)，以致於在辨識的語料時，正確轉寫的聲學模型相似度(likelihood)未必高於競爭字串的聲學模型相似度，而造成辨識的錯誤。

鑑別式訓練(discriminative training)的目的在於訓練過程中，加入對於競爭字串的考慮，目標是使正確轉寫的聲學模型相似度高於競爭字串的聲學模型相似度，將混淆的模型有效地分開，以達成提高辨識率的效果。

鑑別式訓練法在約二十年前首先由 IBM 提出的最大相互資訊 (Maximum Mutual Information, MMI) 估測法【1】開始，之後亦有最小分類錯誤(Minimum Classification Error, MCE)估測法【2】提出，都表現出比最大相似度估測法更好的成效，到了2002 年劍橋大學又更進一步提出了最小音素錯誤(Minimum Phone Error, MPE)模型訓練法【3】，以降低音素錯誤率為目標，充份利用詞圖(word graph)資訊，

並且找到了更有效率的參數最佳化方法，讓鑑別式訓練法在大字彙辨識上也有顯著的成效，因而最小音素錯誤模型訓練法成為目前鑑別式聲學模型訓練法中最具代表性的方法之一。

在最小音素錯誤模型訓練法之後，又提出了許多根據此方法改進而來的鑑別式聲學模型訓練法，如最小音素音框錯誤(Minimum Phone Frame Error, MPFE)模型訓練法【4】，是在錯誤率的計算上，使用比音素(phone)更小的音框(frame)為單位。

以及最小歧異度(Minimum Divergence, MD)模型訓練法【5】，是在計算錯誤率時針對不同的比對錯誤給與不同的扣分因素(penalty)，這些方法都能讓鑑別式聲學模型訓練法的辨識率有更近一步的提升。

1.2 統計式語音辨識 1.2.1 聲學模型

~ 2 ~

1.2 統計式語音辨識

語音辨識的直覺上的做法可以理解成：「找出聽起來最像、最可能的句子」，

而相像、可能概念的量化，可以用機率來表示，這就是統計式語音辨識的基本概念。因此，「找出聽起來最像、最可能的句子」就可理解成「找出機率最高的句子」。若O是給定的觀測語句(observation)，要從所有文句W 中找出機率最大的文句 s 可_h 表示成：

( )

arg max |

u Wh

s P u O

= ∈ (1.1)

其中 u 為所有文句W_h中的某一句，P u O

(

)

代表在 O 發生時，文句 u 的事後機率。

進一步使用貝氏定理(Bayes’ Theorem)將^{P u O}

(

)

^{展開可以得到：}

( ) ( ) ( )

( )

| P O u P u| P u O

= P O (1.2)

(

)

P O u 表示給定文句 u 其聲音是語句 O 的相似度或機率，通常使用機率分佈

(probability distribution)來呈現，由於這個機率分佈主要用來決定聲學特徵的機率，

故稱為聲學模型(acoustic model)，而此機率分佈中的參數便稱為聲學模型參數；

( )

P u 則是文句 u 的事前機率，表示語言中出現 u 的機率，同樣使用機率分佈來呈 現，由於這個機率用來決定語言機率，故稱為語言模型(language model)。^{P O}

( )

^則

是指觀測語句 O 的出現機率，由於在(1.2)中^{P O}

( )

與 u 無關，因此拿掉此項對於尋 找機率最大的文句 u 並無影響，因此(1.1)可以簡化為：

( ) ( )

arg max |

u Wh

s P O u P u

= ∈ (1.3)

1.2.1 聲學模型

聲學模型的主要功能，便是對於觀測語句，能夠針對不同的發音可能，給與相對應的機率或相似度，即(1.3)中的^{P O u}

(

)

，一般使用機率密度函數(probability density function)來近似。而聲學模型訓練，就是在訓練語料中給定的觀測語句，以

1.2.1 聲學模型

~ 3 ~

及其對應的正確轉寫，在訓練過程中調整聲學模型參數，使得正確轉寫和其對應的發音產生最大的事後機率，簡易流程如圖 1.1。

本論文中，使用連續密度隱藏式馬可夫模型(Continuous Density Hidden Markov Models, CDHMM)【6】做為聲學模型，模型的結構如圖 1.2 所示，每一個模型都由連續的數個狀態(state)，以及狀態間的轉移(transition)構成，每一個轉移均有其轉移機率(transition probability)，一般語音的聲學模型，狀態轉移只允許停留在原狀態或跳至鄰接的下一狀態，而其中每一個狀態對一音框的聲學特徵觀測機率 (observation probability)，則使用連續的高斯混合模型(Gaussian Mixture Model, GMM)來決定。

S₁ S2 S3

圓圈代表狀態

箭號代表狀態的轉移狀態內為高斯混合模型

圖 1.2 連續密度隱藏式馬可夫模型示意圖

訓練語料聲學模型訓練聲學模型

特徵抽取正確轉寫

圖 1.1 聲學模型訓練流程

1.2.2 語言模型

階馬可夫假設(n-1 order Markov Assumption)來簡化，稱為 n 連(n-gram)語言模型，

可表示為：

1.4 論文架構

~ 5 ~

驗結果發現這些方法在詞正確率與字正確率會有不一致的變化，其中最小音素錯誤訓練法是偏好字正確率的方法，字正確率的表現較其它方法好；最小音素音框錯誤訓練法和狀態層級最小貝氏風險訓練法則是偏好詞正確率的方法，詞正確率的表現較其它方法好。而將詞弧正確度做進一步改進的方法實行在這兩種偏好詞正確率的方法上，會產生詞正確率下降而字正確率上升的變化，表示將詞弧正確度做進一步改進之後，這兩種原本偏好詞正確率的方法會轉變成偏好字正確率的方法。

另外，本論文也實驗詞弧篩選的資料選取方法在最小音素錯誤訓練和將詞弧正確度改進後的最小音素音框錯誤上，實驗結果顯示資料選取對於正確率的變化並沒有很大的影響，不過可以加快訓練的收斂速度。

1.4 論文架構

本論文第二章將介紹鑑別式訓練法則，從貝氏風險出發，回顧並介紹鑑別式訓練法的發展流程。

第三章將介紹本論文的實驗系統以及基礎實驗設定和實驗結果。

第四章將介紹最小音素錯誤訓練法的理論基礎以及實作的方法。

第五章將介紹最小音素音框錯誤訓練法、狀態層級最小貝氏風險訓練法、最小歧異度訓練法，以及這三種方法進一步的修改版本。

第六章將介紹基於詞弧期望正確度的資料選取方法，實驗在最小音素錯誤訓練法和第五章中最小音素音框錯誤訓練法的其中一種修改版本上。

第七章會提出總結以及未來展望。

第2 章背景知識

在文檔中最小音素錯誤訓練法及其改進方法在國語大字彙辨識上之評估與分析 (頁 15-20)

緒論

第1章 緒論

1.1 研究動機

1.2 統計式語音辨識

( )

(

)

(

)

( ) ( ) ( )

( )

(

)

( )

( )

( )

( ) ( )

1.2.1 聲學模型

(

)

1.4 論文架構

第1章緒論