以高斯混合模型為架構的語音屬性偵測器 - 新世代自動語音辨識技術之研究---子計畫二：語音、韻律之屬性與事件偵測之研究(III)

二、以高斯混合模型為架構的語音屬性偵測器

因為製作 NG-ASR 的語音屬性偵測器必須要有一個語料庫具有 phone-level transcription 資料。在國語語料中缺乏這樣的語料庫，所以計畫中先從英文語料庫進行研究。本節內容為介紹使用英文語料庫 TIMIT Corpus ，以及使用 HTK(Hidden Markov Model Toolkit)，建立 GMM-Based 的英文語音屬性之偵測器，其中語音屬性包含發音方法（Articulation manner）與發音位置(Articulation position)。且這兩類偵測器輸出將會有每個音框(frame)是屬於何種類別(class)的機率值，以提供 NG-ASR 的第二級作事件的整合。

1. 語音資料庫

首先由於我們要製作英文語音屬性的偵測器，因此我們採用的語料庫為 TIMIT Corpus，語料內容為 2342 句平衡語料，由分佈在美國八個不同方言的地區共 630 位語者，每人錄製 10 句，共有 6300 句語音，其中 438 位男性、192 位女性。並以其中 4620 句、語料長度總和約為 3 小時 49 分 10 秒的語音訊號作為訓練語料，另外 1680 句、語料長度總和約為 1 小時 23 分 51 秒的語音，作為測詴語料。語料的音訊格式為 PCM，取樣頻率為 16 kHz，位元解析度為 16 bits，

檔頭為 1024 bytes (original : 12 bytes)。

TIMIT Corpus [Garofolo, 1993]已經有 manual phonetic transcription，所以可以由 transcription 取得 phone 及語音屬性的參考答案。而其 transcription 的起始以及終止時間的單位為取樣的點數，因此在下面的實驗中會將 manual transcription 轉換成以 100ns 為單位的時間資訊的 labeling 資訊。

Dental Alveolar Velar Glottal Rhotic Front Central back

Stop b, p d, t, dx g, k q

Nasal m, em n, en, nx ng, eng

Fricative f, v th, dh s, z sh, zh

7 子(2.1)為 N 個基本高斯機率分佈加權和(weighted summation)之高斯混合模型:

1 矩陣(Covariance Matrix)，C 為混合加權值(Weight)，且須滿足_i

下來的實驗中，我們假設共變異矩陣為一對角矩陣(Diagonal Matrix)。

4. 高斯混合模型的發音方法、發音位置偵測器之效能

由於我們已把每一個發音方法、發音位置偵測器的兩種 model 的 mixture 數均升至 256，與 128，因此我們將看看對於測詴語料，各種偵測器的偵測效果。

在此每一個發音方法、發音位置偵測器皆將利用最大事後機率法則 (Maximum a Posteriori, Criterion)，去對測詴語料每一個 frame 偵測是否為所要偵測的種類。下式為 MAP Criterion：

p( | ) p( )ˆ threshold 這個值的選定，我們利用 TIMIT 訓練語料中，每個 class 的 target 與 anti-target 的出現音框總數當作其事先機率，兩者相除便得到一個 threshold 的值，

再利用其值，對 TIMIT 的測詴語料作偵測，可以得到 False Alarm 以及 False Reject 的值，而後再行調整 Theshold，使其可以得到 False Alarm 以及 False Reject 的其它值，最後可將所有值畫出一個 FA-FR 的曲線圖。並且可以得到 FA Rate 等於 FR Rate 時的 EER(Equal Error Rate)。

以下為 FA、FR、Frame Error Rate 的定義：

FA Rate = # of FAs / total # of non-target (2.8) FR Rate = # of FRs / total # of targets (2.9) Frame Error Rate = ( # of FAs + # of FRs )/ total # of labels (2.10) 其中 FA=False Alarm，FR=False Reject

下兩表為 TIMIT Corpus 相關統計資料：

表 2-2: TIMIT Corpus 發音方法出現次數，與平均 frame 數等的統計資料。

TIMIT Traning Data TIMIT Testing Data

total files : 4620 total frames : 1416713

total files : 1680 total frames : 513526 Manner Times Frame

TIMIT Traning Data TIMIT Testing Data

total files : 4620 total frames : 1416713

total files : 1680 total frames : 513526 Position Times Frame

amount

5. 高斯混合模型的發音方法之效能

下表為 GMM-Based 發音方法偵測器國外學者用不同偵測器架構所做出來的性能[Lee, 2005]作比較。

表 2-4: GMM-Based mixture256 與其它偵測架構的發音方法偵測效能比較。

Equal ErrorRate(%) Baseline(GMM) ANN* HMM SEG_MCE

Vowel 12.3 9.0 1.7 1.8

Fricative 10.0 11.3 6.4 3.6

Stop 16.7 14.5 9.9 5.4

Nasal 8.7 12.2 11.2 5.4

Glide (Approximant) 16.3 15.9 8.0 6.1

Sil 9.7 3.7 2.1 0.8

Affricate 7.2

在表 2-4 的 ANN 部份的作法，各個偵測器其網路輸入部分有 9 個 frame，每個 frame 有 13 維的特徵向量(12MFCCs+energy)，因此共有 117 個輸入節點(input nodes)，而 frame rate 為 10ms。且有一個隱藏層其中有 100 個節點。輸出部份僅有一個節點。偵測器輸出的 threshold 值為 0.5。

由表 2-4 可以看出，以 GMM-Based 的 Fricative 與 Nasal 偵測器，其效能較佳於 ANN，尤其是 Nasal 偵測器改善了約 3%，其他的偵測器均較 ANN 差，

尤其是 silence 偵測器差了 6%。另外由表 2-4 可以看出，以 HMM Segment-Based 做發音方法偵測器普遍比 GMM 以及 ANN 架構好，這提供了我們未來在做其他偵測器一個參考的依據。

6. 高斯混合模型的發音位置偵測器之效能

在發音位置的效能部分，由於我們將 target model 與 anti-model 的 mixture 數目皆訓練至 128，在此我們隨便挑一個發音位置偵測器來觀察其在 mixture 64 與 mixture128 的 FA-FR chart 的差異。

圖 2.1: 發音位置偵測器 “bilabial” 之 FA-FR 圖。

由圖 2.1 可看出在 mixture 64 與 mixture 128 時，bilabial 偵測器的 FA-FR 曲線圖相當接近，且其兩者的 EER 差距不到 0.5%，因此在發音位置偵測器的部份我們取 mixture 數為 64。下表為 GMM-Based 發音位置偵測器的 EER。

表 2-5: GMM-Based mixture64 的發音位置偵測效能比較。

Equal ErrorRate(%) Baseline(GMM)

Bilabial 12.2

Lab-dent 11.0

Dental 12.7

Alveolar 12.0

Velar 12.4

Glottal 18.3

Rhotic 9.4

Front 13.5

Central 17.7

Back 17.8

由表 2-5 可以看出幾乎全部的發音位置偵測器的 EER 均大於 10%以上、除了 Rhotic 偵測器、但也很接近 10%。其中以 Glottal、Central、Back 偵測器錯誤率皆大於 17%以上為最差。 Velar、Nasal+ Bilabial、Fricative+ Alveolar、Fricative + Velar、Glide + Central、

Glide + Back 共六種的發音方法與發音位置的組合，其 EER 比其原先結合的兩種較佳，而 Stop + Glottal、Fricative + Lab-dental、Fricative + Dental、Glide + Glottal、

Vowel + Rhotic、Vowel + Front、Vowel +Central、Vowel +Back 共八種的發音方法與發音位置的組合其 EER 比其原先結合的兩種較差，而其餘的七種組合則其結合的 EER 則介於其原先結合的兩種之間。

TIMIT Testing Data Total frame error rate = 24.533%

manners FA rate FR rate error_rate

下表為發音方法偵測器所作的發音方法辨識，其 confusion matrix。

表 2-7: 發音方法偵測器所作的發音方法辨識，其 confusion matrix。

recognize ref

vowel fricative stop nasal glide silence affricate

vowel 75.67 % 2.20 % 3.70 % 4.12 % 12.03 % 1.93 % 0.35 %

affricate 0.87 % 32.15 % 9.96 % 0.22 % 0.89 % 3.89 % 52.01 %

由表 2-6 可知以發音方法偵測器對 TIMIT 測詴語料所作的辨識，其 frame error rate 為 24.533%，另外可以看出除了 Affricate 辨識錯誤率最低以外，nasal 的辨識錯誤率是次低，因為可由先前的偵測器的效能看出，而辨識錯誤率最高的是 vowel 與 glide，vowel 錯誤率高的其中一個原因可能是由於其資料量龐大所造成。另外由 confusion matrix 可以看出 vowel 與 glide 互為容易辨識錯誤的一對。

9. 高斯混合模型的發音位置偵測器之辨認

下表為發音方法偵測器對 TIMIT 測詴語料所做的發音方法辨識,，其各別發音方法的統計資料。

表 2-8: 發音位置偵測器所做的發音方法辨識，其各別發音方法的統計資料。

TIMIT Testing Data Total frame error rate = 35.779%

positions FA rate FR rate error_rate

bilabial 65.01 % 40.29 % 4.56 %

由表 2-8 可以看出 front、central、back 的辨識錯誤率相當的高，而這三個發音位置的 phonemes 大部分亦是屬於發音方法 vowel，且 vowel 偵測器的錯誤率與辨識錯誤率亦是相當的高。

下表列出 front，central，back 的 confusion matrix。

表 2-9: 發音位置偵測器所作的發音方法辨識，發音位置 front、central、back 的 confusion matrix。

Recognize ref

front central back

Front 69.27 % 6.45 % 6.28 %

Central 11.00 % 48.53 % 20.32 %

Back 13.65 % 19.88 % 50.98 %

由表 2-9 可以看出 front、central、back 這三種彼此相互辨認錯誤率相當高，

因此這些與 front、central、back 和 vowel 相交集的 phonemes 之辨識較不易，需要有更好的作法解決。

三、國語語音 Phone-Based HMM 以及 TIMIT GMM 語

在文檔中新世代自動語音辨識技術之研究---子計畫二：語音、韻律之屬性與事件偵測之研究(III) (頁 6-16)