• 沒有找到結果。

2.3 新近所提出之語言模型

2.3.1 鑑別式語言模型

不同於傳統統計式語言模型,鑑別式語言模型的目標為最小化語音辨識錯誤率,

由於傳統統計式語言模型所選出的辨識結果通常是發生機率最高的詞序列,而非 字錯誤率最低的詞序列。因此鑑別式語言模型希望藉由詞圖(Word Graph or Lattice) 來產生 M 條最佳辨識候選詞序列(M-best list),將其重新排序(Reranking)來找尋字 錯誤率最低的詞序列,而獲得更好的辨識率。由於鑑別式訓練(Discriminative Training)的產生,發展出許多相關研究,鑑別式語言模型初期則應用於機器翻譯 (Machine Translation, MT)、自然語言處理與聲學模型等研究。鑑別式語言模型主 要可分為兩種研究,其一是以模型訓練方式;其二則是特徵的選用。

 模型訓練方式

主要是針對目標函數的不同給予不同的學習機制或演算法,此部份常見的鑑 別式語言模型有感知器演算法(Perceptron)[Rosenblatt, 1958]、最小化錯誤率訓練 (Minimum Error Rate Training, MERT)[Och, 2003]、全域條件式對數線性模型 (Global Conditional Log-linear Model, GCLM)[Roark et al., 2007]及權重式全域條件 式對數線性模型(Weighted Global Conditional Log-linear Model, WGCLM)[Oba et al., 2010]等。

感知器演算法(Perceptron)的起源是從類神經網路開始發展,在 2002 年,美 國學者 Collins[Collins, 2002]將感知器演算法應用於自然語言處理中,並於 2005 年被應用在語言模型調適[Gao et al., 2005]上。感知器演算法是以最小平方誤差法 (Least Squared Error, LSE)來作為排序減損函數(Loss Function),其希望排序分數最 高的候選詞序列與最低錯誤率的詞序列之分數差平方後越小越好。然而感知器演 算法只考慮了目前排序分數最高的詞序列與最低錯誤率詞序列的關係,因此一般

16

化能力較差,且會有過度訓練(Over-Training)的問題及未必可找到全域最佳解。反 觀其好處則是演算法簡單易操作,並且因為不用考慮樣本權重而有較快的訓練速 度。

不同於感知器演算法,最小化錯誤率訓練(MERT)的目標是最小化語音辨識器 辨識錯誤率的期望值,也就是說,希望在經過重新排序後,整體的字錯誤率能夠 越小越好。其最小化錯誤率訓練中的錯誤率,可以視為一種樣本權重(Sample Weight)的資訊,用於區別每一個候選詞序列對於鑑別式語言模型訓練時的重要性。

最小化錯誤訓練是於 2003 年由 Och 所提出且應用在機器翻譯領域裡,而 2008 年 時,Kobayashi 等學者[Kobayashi et al., 2008]則將語音辨識領域和此方法做結合。

此方法不僅考慮了排序分數最高與擁有最低錯誤率的詞序列,也同時考慮了其他 候選詞序列的錯誤率,因此會有較佳的一般化能力,但也因為同時考慮了所有候 選詞序列,造成訓練速度較慢。

全域條件式對數線性模型(GCLM)的訓練目標則是希望最低錯誤率詞序列的 條件機率越高越好,其概念是於 2007 年 Roark 等學者以有限狀態機(Weighted Finite State Automata, WFSA)實作全域條件式對數線性模型,並且應用於語音辨識 結果的重新排序上。由於全域條件式對數線性模型考慮了最低錯誤率詞序列與其 它候選詞序列的關係,因此較不會出現過度訓練的問題,而一般化能力則是介於 感知器演算法與最小化錯誤率訓練之間。

權重式全域條件式對數線性模型(WGCLM)則是全域條件式對數線性模型的 延伸,在 2010 年由 Oba 等學者將樣本權重加入全域條件式對數線性模型進行改 進,將每個候選詞序列的分數加上一個不同的權重,以此來表示每一條候選詞序 列不同的重要程度,使每個候選詞序列對於訓練有不同的影響力。而錯誤率越高 或是排序越後面者,則重要程度就越重、影響力就越大。表 2-1 為各種鑑別式語

17 log exp

 log exp

,  2007][Arisoy et al., 2010][Sak et al., 2010]使用了詞性(Part-of-speech, POS)、句法結 構或韻律(Prosody)來作為特徵,期望能夠使用越詳細的資訊來表示候選詞序列。

18