第三章 自發性語音辨識系統
3.2 語言模型
3.2.2 語言模型之調適
3.2.2.2 調適模型之設計
在本研究中,我們將 MCDC 的文字資料區分成三種資料類別:一般詞(Lexical Word - LWord)、particle(Par)以及 paralinguistic(Para)。首先,我們可以從 MCDC 文字資料中統計出 此三種資料類別的出現機率,分別為: ( ( ) ) 0.763
TS i
P G w LWord ; ( ( ) ) 0.110
TS i
P G w Par ; ( ( ) ) 0.127
TS i
P G w Para ,如圖 3.4(a)所示。本研究將計畫把 General-LM 中一般詞、particle 以及 paralinguistic 的機率比例根據由 MCDC 文字資料所估算出來的出現比例做加入及調 整,如圖 3.4(b)所示。接下來我們將實驗分成三個階段,以不同的估算方法將「particle」及
「paralinguistic」加入到語言模型中,得到一個較佳的模型來幫助辨識。
圖 3.4(a):由 MCDC 估出各類別機率
圖 3.4(b):將 Gerneral-LM 依圖 3-4(a)估算的比例重新分配
Stage 1:給予 particle 及 paralinguistic uni-gram 機率
在此階段我們將根據上述統計的各類別之出現機率來分配 General-LM 中 uni-gram 機率 部分。首先我們先從 MCDC 文字資料中估出 particle 及 paralinguistic 的出現機率P w ,我M( )i 們可以發現所有 particle 之機率總和將等於其在 MCDC 中的 particle 類別之出現機率,
paralinguistic 亦是如此,如下式:
( ) ( ( )) , ,
P G w Para P w w paralinguistic
在此階段因為我們並無估算 particle 及 paralinguistic 的 bi-gram 機率,因此我們將 particle 及 paralinguistic 的 back-off 係數皆設為 1。
Stage2: 估算 particle 及 paralinguistic 的 bi-gram 機率
由於現有的 Read-speech(General-LM)文字資料量與 Spontaneous-speech(MCDC)文字資 料量差異懸殊,而且在 General-LM 文字資料中不會有 paralinguistic 出現,particle 也極少,
因此若直接將 General-LM 與 MCDC 文字資料合併訓練 bi-gram 語言模型則在估算一般詞與 particle 或 paralinguistic 的 bi-gram 機率時勢必會出現數量過少而導致機率極低的情形。然而,
在觀察 MCDC 文字資料後,我們可發現某些詞與 particle 或 paralinguistic 相接的機率甚高,
例如:假設我們直接將訓練 General-LM 的文字資料與 MCDC 的文字資料合併訓練則會因為
MCDC 中觀察出「A」比「一個」的機率要高許多。為了防止此情形發生,我們將使用 Deleted Interpolation Smoothing【14】方法,在估算一般詞與 particle 或 paralinguistic 相接時藉由加入 particle 和 paralinguistic 的 uni-gram 機率來提升其 bi-gram 機率。
首先,傳統的 Deleted Interpolation Smoothing 公式如下:
1 1
( i i ) ( i i )+(1- ) ( i)
P w w
P w w
P w (3-6) 其主要概念是:當原bi-gram機率P w w( i i1)較低時可能造成不可靠性增加,此時可利用與uni-gram機率 (P w 做interploate以達到補強的效果。此方法適用於結合高階(higher-order) i) n-gram 語言模型與低階(lower-order) n-gram語言模型,因為在一個高階n-gram語言模型中可 能有些資料因為出現數量較低因此較不可靠,此時低階之n-gram語言模型將可能可以提供較
傳統的 Class-based bi-gram model 數學式定義如下:
1 1 1 1 1
表 3.8 為由 MCDC 訓練語料中所估算的機率。
Count 是 更是稀少,因此需要依賴 Smoothing 機率,然而在 Smoothing 時若直接使用
( ( ) ( 1))
M i i
P G w G w 則會因為PM(OG Par( ))PM(MHMG Par( ))而造成P(O是)< (MHMP 是) 的狀況發生,但是我們知道在「一般詞」的前提下,「O」的出現機率會比「MHM」高出許 多。因此本研究將採用P wM( i G(wi1))來做 Smoothing 動作。
(3-9)式是估算詞與 particle 及 paralinguistic 的相接機率,而要放入原本 General-LM 的 bi-gram 時,因為對於某個詞wi1而言,其本身的 bi-gram 機率總和滿足 ( 1) 1
w w lexical word P w w
表 3.8:MCDC 中各類別之相接機率 GM( )w i
( 1)
M i
G w
Lexical word Particle Paralinguistic
Lexical word 0.830 0.068 0.073
Particle 0.426 0.168 0.187
Paralinguistic 0.482 0.119 0.192
Stage3: 調適一般詞之機率
此本研究將利用最大事後機率(Maximum A Posteriori, MAP)估算法來建立一套 bi-gram 語言 模型以達到較佳的辨識效益。MAP 估算法可用來當作調適模型的一種方法,其定義是在擁有一個已知模型參數分布 (model parameter distribution)X 以及有限的觀察資料(observation)W的情況下:
MAP arg max ( )