初始聲學模型的建立

第三章基本系統架構

3.2 初始聲學模型的建立

MCDC 語料庫在一開始是沒有切割資訊的，若要建立其初始的聲學模型，

可使用 Uniform segmentation 來做粗略的切割，但是此方法用在較長的句子時容易產生錯誤蔓延，在語料庫中有許多超過百字的長句，可知此法並不適用。因此為了得到較好的切割資訊，我們的作法為參考其他已有模型之語料庫，利用其模型來做已知字串切割，如此可得到較好的切割資訊，然後再利用此建立本身語料

3.2.1 Force alignment

下圖 3.1 為我們做已知字串切割的流程圖

圖 3.1：已知字串切割之流程圖

要做已知字串的切割，必須要有聲學模型及待切割音檔之標示內容，在此我們使用朗讀式語料( TCC-300 )所訓練之聲學模型，由於模型是由朗讀式語料所訓練的，因此僅可處理 411 音節，由上一章可知道，MCDC 音檔之標示內容中有我們所留下之許多代表自發性語料中特殊現象的標註，包含 Uncertain、Particle、

Paralinguistic phenomena 三大類，下面將介紹本論文對於這些非 411 音的處理方法。

1、Uncertain

對於 Uncertain，可找到與其相近的 411 音，因此先用相近的 411 音取代之，

以相近音的聲學模型來切割出其位置，待得到較精準的切割位置後，再建立自己的聲學模型。

2、Particle

與 Uncertain 的處理方式相同，以相近的 411 音當作其參考答案做切割。

3、Paralinguistic Phenomena

由於此種類之標註無法找到與其相近之 411 音，因此若句中含有此類標註，

則無法用任何聲學模型來訓練其切割位置，造成整個 sub-turn 無法使用，如此做會造成可得到的切割資訊量非常的少，因此我們的作法是對語料庫中大量出現的 Paralinguitic Phenomena 現象，以人工切割方式得到少量切割位置，每個約切出 50 個音，並進而訓練出其初始模型，如此即可增加不少語料可用於作已知字串切割，表 3.1 列出人工切割之 Paralinguistic Phenomena

表 3.1：使用人工切割位置之 Paralinguistic Phenomena

標註 實際發音

@BREATHE 呼吸音

@INHALE 吸氣音

@EXHALE 呼氣音

根據以上對於非 411 音於標示內容所做的處理，我們統計可用於做已知字串切割的資料，表示於下表 3.2

表 3.2：用於訓練初始模型之資料統計

比較表 2.3 及表 3.2，可以清楚了解到可用於訓練初始模型的資料量是非常少的，這代表著在語料中完全都是 411 音的 sub-turn 的數量是少之又少的，同時也說明了為什麼自發性語料比朗讀式語料難以處理的原因。

411 syllable Particle Paralinguistic phenomena Uncertain

字數 18046 3206 64 862

百分比 80.24% 7.3% 6.12% 2.64%

總字數 22178

Sub-turn 數 2655

3.2.2 初始模型的建立

在我們求得 411 音、Particle、Uncertain 的端點切割資訊之後，我們會進行已知位置的初始模型訓練，HTK 中建立之方法為固定音節端點，對音節中之狀態做 Baum-Welch 參數估計，然後在放開音節切割位置，對整句話做 Baum-Welch 參數重估，下圖 3.2 為初始模型建立方法之方塊流程圖

Particle 3 Uncertain 3

根據表 3.2 中的

其中 _N_S ： State Mixture no.

411 syllable Paralinguistic Phenomena Particles Uncertain 可建出初始模

型的數量

64 RCD initial

34 final 3 27 3

由上面的介紹我們可建立出具足夠資料之 411 音、Uncertain、Particle 的模型，但在 MCDC 語料庫中，還有許多的現象我們無法以上述之方式建立出初始模型，對於在語料庫中極少出現之語言現象，我們會共同建立一個特殊共用模型來描述尚未建立模型之語言現象【3】，稱為｢Filler Model｣，下一節將介紹此種模型的建立方法。

3.2.3 Filler Model 的建立

Filler Model 初始模型的訓練是利用我們在 3.2.1 中產生的切割資訊，將所有 non-silence 的資料一起去訓練而得，即可得到一個 Variance 非常大的 Gaussian distribution，模型的設定列於下表 3.5，而之後訓練 Filler model 之語料為那些極少出現的音，而不是初始模型之訓練方式

表 3.5：Filler Model 的設定

模型類別 狀態數量 Mixture 數量

Filler 3 32

當我們在進行語音切割或辨識時，正常的語音在 Filler Model 跟其他的語音

等這些在語料庫中極少出現的語音現象時，使用正常語音模型所得到的分數會較小，但會被分佈較廣的 Filler Model 所切割出來。下圖 3.3 為一個我們在做已知字串切割時利用 Filler Model 來取代一個極少見的 Uncertain 的實例

音檔下面那排文字為音檔之文字標註圖 3.3：已知字串切割實例

由圖中我們可看出 filler 的位置在 wen 及 d_4 的中間，此 filler 代表的是一極少出現的 Uncertain，其切割位置是相當不錯的，由此可知利用 Filler Model 來取代那些少數音，使之不去影響其他模型的訓練，這個方法是可行的。

在文檔中自發性對話語音辨識之初步研究 (頁 22-27)

第三章 基本系統架構

3.2 初始聲學模型的建立

第三章基本系統架構