第三章 基本系統架構
3.2 初始聲學模型的建立
MCDC 語料庫在一開始是沒有切割資訊的,若要建立其初始的聲學模型,
可使用 Uniform segmentation 來做粗略的切割,但是此方法用在較長的句子時容 易產生錯誤蔓延,在語料庫中有許多超過百字的長句,可知此法並不適用。因此 為了得到較好的切割資訊,我們的作法為參考其他已有模型之語料庫,利用其模 型來做已知字串切割,如此可得到較好的切割資訊,然後再利用此建立本身語料
3.2.1 Force alignment
下圖 3.1 為我們做已知字串切割的流程圖
圖 3.1:已知字串切割之流程圖
要做已知字串的切割,必須要有聲學模型及待切割音檔之標示內容,在此我 們使用朗讀式語料( TCC-300 )所訓練之聲學模型,由於模型是由朗讀式語料所訓 練的,因此僅可處理 411 音節,由上一章可知道,MCDC 音檔之標示內容中有 我們所留下之許多代表自發性語料中特殊現象的標註,包含 Uncertain、Particle、
Paralinguistic phenomena 三大類,下面將介紹本論文對於這些非 411 音的處理方 法。
1、Uncertain
對於 Uncertain,可找到與其相近的 411 音,因此先用相近的 411 音取代之,
以相近音的聲學模型來切割出其位置,待得到較精準的切割位置後,再建立自己 的聲學模型。
2、Particle
與 Uncertain 的處理方式相同,以相近的 411 音當作其參考答案做切割。
3、Paralinguistic Phenomena
由於此種類之標註無法找到與其相近之 411 音,因此若句中含有此類標註,
則無法用任何聲學模型來訓練其切割位置,造成整個 sub-turn 無法使用,如此做 會造成可得到的切割資訊量非常的少,因此我們的作法是對語料庫中大量出現的 Paralinguitic Phenomena 現象,以人工切割方式得到少量切割位置,每個約切出 50 個音,並進而訓練出其初始模型,如此即可增加不少語料可用於作已知字串 切割,表 3.1 列出人工切割之 Paralinguistic Phenomena
表 3.1:使用人工切割位置之 Paralinguistic Phenomena
標註 實際發音
@BREATHE 呼吸音
@INHALE 吸氣音
@EXHALE 呼氣音
根據以上對於非 411 音於標示內容所做的處理,我們統計可用於做已知字串 切割的資料,表示於下表 3.2
表 3.2:用於訓練初始模型之資料統計
比較表 2.3 及表 3.2,可以清楚了解到可用於訓練初始模型的資料量是非常 少的,這代表著在語料中完全都是 411 音的 sub-turn 的數量是少之又少的,同時 也說明了為什麼自發性語料比朗讀式語料難以處理的原因。
411 syllable Particle Paralinguistic phenomena Uncertain
字數 18046 3206 64 862
百分比 80.24% 7.3% 6.12% 2.64%
總字數 22178
Sub-turn 數 2655
3.2.2 初始模型的建立
在我們求得 411 音、Particle、Uncertain 的端點切割資訊之後,我們會進行 已知位置的初始模型訓練,HTK 中建立之方法為固定音節端點,對音節中之狀 態做 Baum-Welch 參數估計,然後在放開音節切割位置,對整句話做 Baum-Welch 參數重估,下圖 3.2 為初始模型建立方法之方塊流程圖
Particle 3 Uncertain 3
根據表 3.2 中的
其中 NS : State Mixture no.
411 syllable Paralinguistic Phenomena Particles Uncertain 可建出初始模
型的數量
64 RCD initial
34 final 3 27 3
由上面的介紹我們可建立出具足夠資料之 411 音、Uncertain、Particle 的模 型,但在 MCDC 語料庫中,還有許多的現象我們無法以上述之方式建立出初始 模型,對於在語料庫中極少出現之語言現象,我們會共同建立一個特殊共用模型 來描述尚未建立模型之語言現象【3】,稱為「Filler Model」,下一節將介紹此種模 型的建立方法。
3.2.3 Filler Model 的建立
Filler Model 初始模型的訓練是利用我們在 3.2.1 中產生的切割資訊,將所有 non-silence 的資料一起去訓練而得,即可得到一個 Variance 非常大的 Gaussian distribution,模型的設定列於下表 3.5,而之後訓練 Filler model 之語料為那些極 少出現的音,而不是初始模型之訓練方式
表 3.5:Filler Model 的設定
模型類別 狀態數量 Mixture 數量
Filler 3 32
當我們在進行語音切割或辨識時,正常的語音在 Filler Model 跟其他的語音
等這些在語料庫中極少出現的語音現象時,使用正常語音模型所得到的分數會較 小,但會被分佈較廣的 Filler Model 所切割出來。下圖 3.3 為一個我們在做已知 字串切割時利用 Filler Model 來取代一個極少見的 Uncertain 的實例
音檔下面那排文字為音檔之文字標註 圖 3.3:已知字串切割實例
由圖中我們可看出 filler 的位置在 wen 及 d_4 的中間,此 filler 代表的是一極 少出現的 Uncertain,其切割位置是相當不錯的,由此可知利用 Filler Model 來取 代那些少數音,使之不去影響其他模型的訓練,這個方法是可行的。