調適模型之設計

第三章自發性語音辨識系統

3.2 語言模型

3.2.2 語言模型之調適

3.2.2.2 調適模型之設計

在本研究中，我們將 MCDC 的文字資料區分成三種資料類別：一般詞(Lexical Word - LWord)、particle(Par)以及 paralinguistic(Para)。首先，我們可以從 MCDC 文字資料中統計出此三種資料類別的出現機率，分別為： ( ( ) ) 0.763

TS i

P G w LWord  ； ( ( ) ) 0.110

TS i

P G w Par  ； ( ( ) ) 0.127

TS i

P G w Para  ，如圖 3.4(a)所示。本研究將計畫把 General-LM 中一般詞、particle 以及 paralinguistic 的機率比例根據由 MCDC 文字資料所估算出來的出現比例做加入及調整，如圖 3.4(b)所示。接下來我們將實驗分成三個階段，以不同的估算方法將「particle」及

「paralinguistic」加入到語言模型中，得到一個較佳的模型來幫助辨識。

圖 3.4(a)：由 MCDC 估出各類別機率

圖 3.4(b)：將 Gerneral-LM 依圖 3-4(a)估算的比例重新分配

 Stage 1：給予 particle 及 paralinguistic uni-gram 機率

在此階段我們將根據上述統計的各類別之出現機率來分配 General-LM 中 uni-gram 機率部分。首先我們先從 MCDC 文字資料中估出 particle 及 paralinguistic 的出現機率P w ，我_M( )_i 們可以發現所有 particle 之機率總和將等於其在 MCDC 中的 particle 類別之出現機率，

paralinguistic 亦是如此，如下式：

( ) ( ( )) , ,

P G w Para P w w paralinguistic

  

在此階段因為我們並無估算 particle 及 paralinguistic 的 bi-gram 機率，因此我們將 particle 及 paralinguistic 的 back-off 係數皆設為 1。

 Stage2: 估算 particle 及 paralinguistic 的 bi-gram 機率

由於現有的 Read-speech(General-LM)文字資料量與 Spontaneous-speech(MCDC)文字資料量差異懸殊，而且在 General-LM 文字資料中不會有 paralinguistic 出現，particle 也極少，

因此若直接將 General-LM 與 MCDC 文字資料合併訓練 bi-gram 語言模型則在估算一般詞與 particle 或 paralinguistic 的 bi-gram 機率時勢必會出現數量過少而導致機率極低的情形。然而，

在觀察 MCDC 文字資料後，我們可發現某些詞與 particle 或 paralinguistic 相接的機率甚高，

例如：假設我們直接將訓練 General-LM 的文字資料與 MCDC 的文字資料合併訓練則會因為

MCDC 中觀察出「A」比「一個」的機率要高許多。為了防止此情形發生，我們將使用 Deleted Interpolation Smoothing【14】方法，在估算一般詞與 particle 或 paralinguistic 相接時藉由加入 particle 和 paralinguistic 的 uni-gram 機率來提升其 bi-gram 機率。

首先，傳統的 Deleted Interpolation Smoothing 公式如下：

1 1

( _i _i ) ( _i _i )+(1- ) ( _i)

P w w^ _  



P w w_



P w (3-6) 其主要概念是：當原bi-gram機率P w w( _i _i_₁)較低時可能造成不可靠性增加，此時可利用與

uni-gram機率 (P w 做interploate以達到補強的效果。此方法適用於結合高階(higher-order) _i) n-gram 語言模型與低階(lower-order) n-gram語言模型，因為在一個高階n-gram語言模型中可能有些資料因為出現數量較低因此較不可靠，此時低階之n-gram語言模型將可能可以提供較

傳統的 Class-based bi-gram model 數學式定義如下：

1 1 1 1 1

表 3.8 為由 MCDC 訓練語料中所估算的機率。

Count 是 更是稀少，因此需要依賴 Smoothing 機率，然而在 Smoothing 時若直接使用

( ( ) ( 1))

M i i

P G w G w_ 則會因為P_M(OG Par( ))P_M(MHMG Par( ))而造成P(O是)< (MHMP 是) 的狀況發生，但是我們知道在「一般詞」的前提下，「O」的出現機率會比「MHM」高出許多。因此本研究將採用P w_M( _i G(w_i_₁))來做 Smoothing 動作。

(3-9)式是估算詞與 particle 及 paralinguistic 的相接機率，而要放入原本 General-LM 的 bi-gram 時，因為對於某個詞w_i_₁而言，其本身的 bi-gram 機率總和滿足 ( 1) 1

w w lexical word P w w

表 3.8：MCDC 中各類別之相接機率 G_M( )w _i

( 1)

M i

G w_

Lexical word Particle Paralinguistic

Lexical word 0.830 0.068 0.073

Particle 0.426 0.168 0.187

Paralinguistic 0.482 0.119 0.192



Stage3: 調適一般詞之機率

此本研究將利用最大事後機率(Maximum A Posteriori, MAP)估算法來建立一套 bi-gram 語言模型以達到較佳的辨識效益。

MAP 估算法可用來當作調適模型的一種方法，其定義是在擁有一個已知模型參數分布 (model parameter distribution)X 以及有限的觀察資料(observation)W的情況下：

MAP arg max ( )

在文檔中中文自發性語音辨認系統 (頁 35-41)

第三章 自發性語音辨識系統

3.2 語言模型

3.2.2 語言模型之調適

3.2.2.2 調適模型之設計

 Stage 1：給予 particle 及 paralinguistic uni-gram 機率

 Stage2: 估算 particle 及 paralinguistic 的 bi-gram 機率





Stage3: 調適一般詞之機率

第三章自發性語音辨識系統