• 沒有找到結果。

國語語音 Phone-Based HMM 以及 TIMIT GMM 語音屬性偵測器進行音素

因為現有之國語語料庫都沒有人工音素切割資訊,而在 NG-ASR 架構中之 語音屬性偵測性又是 frame-based 的偵測性,與傳統的 HMM 語音辨認器以音素 單元作辨認結果有很大的差異。所以傳統的 HMM force-alignment 所獲得的切割 位置的精確性將首先在此被檢驗。在此我們將探討使用人工切割位置所訓練之英 文語音屬性偵測器架構的辨識效能與傳統以 HMM-Based 的辨識效能作比較,觀 察其差異。

而本節主要重點放在發音方法上的比較,因此僅考慮發音方法。

一、 國語語音資料庫之預處理

我們對國語語料庫 TCC-300 [TCC, 2008]作以下之預處理:

(1). 使用中文語料庫 TCC300,訓練以 Phone-Based 為架構的 HMMs ,,而其 每個 phone model 皆設為 3 state 的 HMM,且取 38 維 MFCC 參數,window size 為 32ms , frame shift 為 10ms,以 flat start 開始訓練 HMMs, HMMs 的 mixture 數時,會依照該 model 在語料庫的資料量作調整,而在此我 們利用此一功能藉由 iteration 12 次將每一個 model 的每一個 state 平均 升至 mixture 128 個。接著我們將訓練好的 HMMs 拿來對 TCC300 的訓 練語料作 Forced Alignment,因此我們可以得到一個有粗略位置資訊的 phone-level 的 labeling file,最後我們可以利用中文發音方法的分類表,

將 phone-level 的 labeling file 轉為 manner-level 的 TCC300 的訓練語料 的 labeling file。

(2). 在這個實驗中,我們將利用前一節所作的以英文(TIMIT)語料庫所作的 英文發音方法偵測器,在此我們將其已訓練到 mixture256 的七種 Target models 拿來對中文語料庫 TCC300 的訓練語料作 Forced Alignment , 因此可得到另一種切割方式的 manner-level 的 TCC300 訓練語料的 labeling file。

17

(3). 用 TIMIT 的每一個發音方法偵測器去對 TCC300 的訓練語料作偵測,

將每個偵測器所得到的結果依照其每個 frame 的機率值去作辨識,也就 是說在每一個 frame 其若在某一個偵測器的機率值為最高,便決定該 frame 屬於該偵測器的屬性。因此最後會得到一個 TCC300 的訓練語料 的 manner-level 的 labeling file。

二、 切割位置的差距

下表為以 TIMIT 的 manner models 對 TCC300 測詴語料作 forced alignment 的統計資料

表 3.1: 以 TIMIT 的 manner models 對 TCC300 測詴語料作 forced alignment 的統 計資料。

manners times Frame amount min_frame Average_frame max_frame

Vowel 418337 3661466 1 8.75 127

表 3-2: 由 Phone-Based HMM 對 TCC300 測詴語料作 forced alignment 後轉為 manner-level 的統計資料。

manners times Frame amount min_frame Average_frame max_frame

Vowel 418337 4088079 3 9.77 60

Fricative 74276 829482 3 11.17 45

Stop 76291 632948 3 8.30 31

Nasal 119535 692825 3 5.80 55

Liquid 14653 100047 3 6.83 35

18

manners front_min front_avg front_max back_mix back_avg back_max

Vowel -190 -3.52 241 -206 -2.50 249

下表為這兩種切割的 Confusion Matrix

表 3-4: 以 TIMIT Manner GMMs 作 forced alignment 當參考答案與以 HMM 作切 割的 Confusion Matrix。

recognize

ref vowel fricative stop nasal liquid silence affricate vowel 89.10 % 3.69 % 1.19 % 2.62 % 1.31 % 0.22 % 1.87 %

19

三、 英文發音方法偵測器辨識效能與英文發音方法高斯混合模型對 TCC300 作切割的效能比較

在此我們一樣取以 TIMIT Manner GMMs 作 forced alignment 的 labeling file 當參考答案,來看看與英文發音方法偵測器對 TCC300 所作的辨識兩者間的誤差,

也就是看第 2 項與第 3 項的誤差。

下表為以 TIMIT Manner GMMs 作 forced alignment 當參考答案與以英文發 音方法偵測器所作的辨識的統計資料。

表 3-5:以 TIMIT Manner GMMs 作 forced alignment 之結果當參考答案與以 英文發音方法偵測器所作的辨識的統計資料。

TCC300 Training Data Total frame error rate = 32.062%

manners FA rate % FR rate % error_rate %

下表為這兩種切割的 Confusion Matrix。

表 3-5: 以 TIMIT Manner GMMs 作 forced alignment 當參考答案與以英文發音方 法偵測器所作的辨識的 Confusion Matrix。

recognize ref

vowel fricative stop nasal liquid silence affricate

vowel 71.11 % 2.04 % 4.86 % 4.34 % 15.33 % 1.63 % 0.69 %

20

affricate 1.83 % 39.33 % 19.48 % 0.99 % 1.61 % 3.46 % 33.29 %

尤以上結果可以知道傳統 HMM 所獲得之切割位置的精確度對用來標示 frame-based 語音屬性偵測器的訓練語料而言仍然不足。

附錄 1、Phone-Based HMM 以及 TIMIT GMM 語音屬性偵測器進行音素切割之效能比較範例

表 3-3 資訊之分佈圖,也就是使用語音屬性偵測器進行音素切割之位置當參 考的 labeling 檔,其相對的 HMM 切割位置差異量的統計圖。

21

22

23

四、 中文音節標記檔的訂正、自動切割與語音屬性偵