中文語音屬性偵測器之初步建立

第二章以音框為基礎的中文發音方法貝氏偵測器之初步建立

2.3 中文語音屬性偵測器之初步建立

在前一節當中我們已經自動的調整 HMM 強迫切割的結果得到可靠的音素切割位置，接著將利用中文音素的發音方法分類表(表 2.7)[5]，將訓練語料以及測試語料的音素切割位置轉為發音方法的切割位置，在發音方法分類當中直得注意的是，原本在參考資料[5]當中ㄖ這個音的分類是屬於摩擦音，但是參考資料當中同樣有統計ㄖ這個音被 Liquid 偵測器偵測為 Liquid 的比例高達 76%，這是因為如果單獨念ㄖ這個音聲學特徵確實是屬於摩擦音，但是在中文連續語音當中語者往往因為連音的現象因此只有唸出ㄖ這個音的前半捲舌音(類似於 r 系音)因此也符合於參考文獻[4]當中對於 Liquid 這類音素的定義，因此在本論文中我們將ㄖ這個音素由摩擦音移至 Liquid 音的分類當中。

p.s.：括弧中為 IPA 表示表 2.7：中文發音方法分類表 1 爆破音（Stop）ㄅ (p) ㄆ

(p□)

ㄉ (t) ㄊ (t□) ㄍ(k) ㄎ (k□) 2 鼻音（Nasal）ㄇ (m) ㄋ (n) n_n , ng

3 摩擦音（Fricative）ㄈ (f) ㄙ (s) ㄒ (□) ㄏ (x) ㄕ (□) 4 塞擦音（Affricate）ㄓ (t) ㄔ

(t□□) ㄑ (t□□)

ㄐ (t□) ㄘ

（t□s）

ㄗ（ts）

5 流音（Liquid）ㄌ (l) ㄖ (□)

6 母音（Vowel） others

P.S. n_n , ng 為ㄤㄣㄢㄥ的鼻音韻尾

而此訓練語料的發音方法切割位置便作為我們在製作中文發音方法高斯混參數包含平均值向量（mean vector）、變異數向量（variance vector）以及混合數權重（mixture weight）。

下列式子為 n 個基本高斯機率分佈加權和(weighted summation)之高斯混合模型。 (Covariance Matrix)，C 為混合權重，且須滿足_i

N i i=1

∑

C =1。而在此實驗，我們假設共變異矩陣為一對角矩陣(Diagonal Matrix)。

在高斯混合模型的訓練中，可以利用最大似然度法則(Maximum Likelihood Criterion)來求得最佳模型，假設θ 為更新之模型、θ 為初始模型，使用預估最大值演算法（EM algorithm）去重新估算模型參數，使其滿足 p(X| ) p(X| )θ ≥ θ 之條件。亦即根據所有資料來估計統計特性，因此我們可以估算所有的平均向量，共變異矩陣，及各混合高斯模型之混合加權值，並將該統計出來的資料結果，根據

最大似然度方法達到最大化 p(X| )θ 的要求，如此即可找到模型參數，重估公式

GMM of Anti-model

p( | ) x θ

p( | ) x θ ˆ p( ) θ

p( | ) θ x

x

圖 2.9：貝氏偵測器架構圖

其中

x

語料庫中每一個音框的特徵參數向量，θ 為 target model、θ 為 anti-model，^ˆ

p( | )xθ 為每一個音框在 target model 的近似度(likelihood)，p( | )xθˆ 為每一個音框在 anti-model 的近似度， p( )θ 為 target model 的事前機率， p( | )θ x 為每一音框屬於 target model 的事後機率(a posterior probability)。

接著藉著微調臨界值（threshold），可以得到偵測器對測試語料的錯誤警戒率（false alarm rate，FA）以及錯誤拒絕率（false reject rate，FR）的值，以下為錯誤警戒率、錯誤拒絕率、音框錯誤率的定義：

FA Rate = # of FAs / total # of non-target (2.10) FR Rate = # of FRs / total # of targets (2.11) Frame Error Rate = ( # of FAs + # of FRs )/ total # of labels (2.12)

最後將所有錯誤警戒率與錯誤拒絕率的值畫出一個 FA-FR 的曲線圖。將可得到當錯誤警戒率等於錯誤拒絕率時的等錯誤率(Equal Error Rate，EER)。

2.3.3 中文發音方法偵測器之偵測效能

由 2.2 節當中，我們從音節切割位置起始著手訓練音素的馬可夫模型後，對語料庫作切割的方法，同時切出非語音的呼吸聲，接著再半自動的調整音素切割位置，而我們也將以此較可靠的切割位置當作是中文 TCC300 訓練語料的切割位置，訓練各個發音方法的高斯混合模型偵測器，以下將用此結果與使用音素 HMM 對語料進行強迫切割的切割位置所訓練的高斯模型製作的偵測器偵測效能做比較。

1. 以 HMM 強迫切割的音素切割位置訓練的高斯模型製作偵測器。

2. 以 HMM 強迫切割之後的音素切割位置再經過自動調整的切割位置訓練

的高斯模型偵測器。

表 2.8：以調整前後的切割位置訓練高斯混合模型偵測器偵測實驗訓練語料切割

位置發音方法偵測

HMM 強迫切割位置 (EER%)

HMM 強迫切割經過調整後的切割位置

(EER%) Stop 12.17 11.12

Nasal 11.90 11.57

Vowel 12.33 11.05

Affricate 11.91 10.98

Fricative 12.47 11.38

Liquid 9.73 9.16

Silence 11.98 7.25

上表顯示出經過調整切割位置之後的切割位置訓練偵測器，各種發音方法的偵測錯誤率都有明顯的下降，除了 Nasal 與 Liquid 之外，其餘發音方法偵測器的等錯誤率都有約 1%以上的下降，特別是 Silence 偵測器等錯誤率大幅的降低了 4%以上，這主要也是因為經過自動調整之後還原了許多音節間的 sp 的緣故，所以對於發音方法屬性偵測而言，經過調整之後的切割位置確實是比 HMM 強迫切割的切割位置要好，因此往後的章節當中將以不同方法訓練發音方法偵側器以及偵測實驗都將以此調整後的音素切割位置來當作訓練各個發音方法模型後製作偵測器以及測試語料的依據。

在文檔中基於類神經網路之中文語音屬性偵測器 (頁 25-30)

第二章 以音框為基礎的中文發音方法貝氏偵測器之初步建立

2.3 中文語音屬性偵測器之初步建立

∑

p( | ) x θ

p( | ) x θ ˆ p( ) θ

p( | ) θ x

x

x

第二章以音框為基礎的中文發音方法貝氏偵測器之初步建立