國語語音 Phone-Based HMM 以及 TIMIT GMM 語音屬性偵測器進行音素

因為現有之國語語料庫都沒有人工音素切割資訊，而在 NG-ASR 架構中之語音屬性偵測性又是 frame-based 的偵測性，與傳統的 HMM 語音辨認器以音素單元作辨認結果有很大的差異。所以傳統的 HMM force-alignment 所獲得的切割位置的精確性將首先在此被檢驗。在此我們將探討使用人工切割位置所訓練之英文語音屬性偵測器架構的辨識效能與傳統以 HMM-Based 的辨識效能作比較，觀察其差異。

而本節主要重點放在發音方法上的比較，因此僅考慮發音方法。

一、 國語語音資料庫之預處理

我們對國語語料庫 TCC-300 [TCC, 2008]作以下之預處理：

(1). 使用中文語料庫 TCC300，訓練以 Phone-Based 為架構的 HMMs ,，而其每個 phone model 皆設為 3 state 的 HMM，且取 38 維 MFCC 參數，window size 為 32ms ， frame shift 為 10ms，以 flat start 開始訓練 HMMs， HMMs 的 mixture 數時，會依照該 model 在語料庫的資料量作調整，而在此我們利用此一功能藉由 iteration 12 次將每一個 model 的每一個 state 平均升至 mixture 128 個。接著我們將訓練好的 HMMs 拿來對 TCC300 的訓練語料作 Forced Alignment，因此我們可以得到一個有粗略位置資訊的 phone-level 的 labeling file，最後我們可以利用中文發音方法的分類表，

將 phone-level 的 labeling file 轉為 manner-level 的 TCC300 的訓練語料的 labeling file。

(2). 在這個實驗中，我們將利用前一節所作的以英文(TIMIT)語料庫所作的英文發音方法偵測器，在此我們將其已訓練到 mixture256 的七種 Target models 拿來對中文語料庫 TCC300 的訓練語料作 Forced Alignment ，因此可得到另一種切割方式的 manner-level 的 TCC300 訓練語料的 labeling file。

(3). 用 TIMIT 的每一個發音方法偵測器去對 TCC300 的訓練語料作偵測，

將每個偵測器所得到的結果依照其每個 frame 的機率值去作辨識，也就是說在每一個 frame 其若在某一個偵測器的機率值為最高，便決定該 frame 屬於該偵測器的屬性。因此最後會得到一個 TCC300 的訓練語料的 manner-level 的 labeling file。

二、 切割位置的差距

下表為以 TIMIT 的 manner models 對 TCC300 測詴語料作 forced alignment 的統計資料

表 3.1: 以 TIMIT 的 manner models 對 TCC300 測詴語料作 forced alignment 的統計資料。

manners times Frame amount min_frame Average_frame max_frame

Vowel 418337 3661466 1 8.75 127

表 3-2: 由 Phone-Based HMM 對 TCC300 測詴語料作 forced alignment 後轉為 manner-level 的統計資料。

manners times Frame amount min_frame Average_frame max_frame

Vowel 418337 4088079 3 9.77 60

Fricative 74276 829482 3 11.17 45

Stop 76291 632948 3 8.30 31

Nasal 119535 692825 3 5.80 55

Liquid 14653 100047 3 6.83 35

manners front_min front_avg front_max back_mix back_avg back_max

Vowel -190 -3.52 241 -206 -2.50 249

下表為這兩種切割的 Confusion Matrix

表 3-4: 以 TIMIT Manner GMMs 作 forced alignment 當參考答案與以 HMM 作切割的 Confusion Matrix。

recognize

ref vowel fricative stop nasal liquid silence affricate vowel 89.10 % 3.69 % 1.19 % 2.62 % 1.31 % 0.22 % 1.87 %

三、英文發音方法偵測器辨識效能與英文發音方法高斯混合模型對 TCC300 作切割的效能比較

在此我們一樣取以 TIMIT Manner GMMs 作 forced alignment 的 labeling file 當參考答案，來看看與英文發音方法偵測器對 TCC300 所作的辨識兩者間的誤差，

也就是看第 2 項與第 3 項的誤差。

下表為以 TIMIT Manner GMMs 作 forced alignment 當參考答案與以英文發音方法偵測器所作的辨識的統計資料。

表 3-5:以 TIMIT Manner GMMs 作 forced alignment 之結果當參考答案與以英文發音方法偵測器所作的辨識的統計資料。

TCC300 Training Data Total frame error rate = 32.062%

manners FA rate % FR rate % error_rate %

下表為這兩種切割的 Confusion Matrix。

表 3-5: 以 TIMIT Manner GMMs 作 forced alignment 當參考答案與以英文發音方法偵測器所作的辨識的 Confusion Matrix。

recognize ref

vowel fricative stop nasal liquid silence affricate

vowel 71.11 % 2.04 % 4.86 % 4.34 % 15.33 % 1.63 % 0.69 %

affricate 1.83 % 39.33 % 19.48 % 0.99 % 1.61 % 3.46 % 33.29 %

尤以上結果可以知道傳統 HMM 所獲得之切割位置的精確度對用來標示 frame-based 語音屬性偵測器的訓練語料而言仍然不足。

附錄 1、Phone-Based HMM 以及 TIMIT GMM 語音屬性偵測器進行音素切割之效能比較範例

表 3-3 資訊之分佈圖，也就是使用語音屬性偵測器進行音素切割之位置當參考的 labeling 檔，其相對的 HMM 切割位置差異量的統計圖。

四、中文音節標記檔的訂正、自動切割與語音屬性偵

在文檔中新世代自動語音辨識技術之研究---子計畫二：語音、韻律之屬性與事件偵測之研究(III) (頁 16-23)