語者調適之 HMM 自動切割與使用 CRF 之語音屬性整合 - 新世代自動語音辨識技術之研究---子計畫二：語音、韻律之屬性與事件偵測之研究(III)

1. 語者調適之 HMM 自動切割

傳統 HMM 的 training criterion 本來就不是 optimal segmentation position，我們檢視傳統的 HMM 語音辨認架構在做音節切割時的精確度，根據文獻記載，在

±20 msec (也就是視傳統的 HMM 的 2 個 frame)的誤差下，精確度也僅能達到 90%

上下[Grande, 2003] [Kotropoulos, 2008]。。雖然，王新明博士提出了 minimum segmentation error 的 HMM 訓練方法[Kuo, 2006]，但是是一個 supervised training algorithm，也就是需要有人工正確切割語料庫來訓練模型。在計畫中我們使用了一套以語者調適訓練的 HMM 模型來對不特定語者作切割的機制，根據言厭結果發現可獲得精確度較高之切割資訊。如圖 6.1 所示，在不特定語者 HMM phone-like unit model training 後，我們再使用做 speaker adaptation training(SAT) [Makhoul, 1996]；SAT 就是使用 constraint MLLR(CMLLR)對不同語者做做語音參數的轉換；使用經語者轉換(CMLLR)後之語音參數再重新訓練新的 HMM 模型將可獲得較佳之 speaker-dependent HMM 模型。做完 SAT 後，我們再做 HMM 做 model adaptation，使用 MLLR 技術來調適 HMM 模型[Gales, 1996] [Gales, 1998]，

它和 SAT 會又加成性的效果。如此就可以獲得較佳的 HMM 模型來做 force alignment，作為語料庫 syllable boundaries 的啟始切割位置。

53 HMM

model Training

Speech Data

Speaker-independent HMM model

HMM model Training CMMLR feature

adaptation

Speaker-dependent Training (SAT)

HMM model MLLR Model

Adaptation

方法偵測器，其效能如圖 6.2 所示。

圖 6.2：使用語者調適 HMM 模型後之自動標示資訊，重新訓練之 MLP 為基礎的發音方法偵測器之效能(EER in %)。

偵測器之效能明顯較先前的結果好。因為使用語者調適 HMM 模型做自動標示及語音屬性偵測器是以音框為單位；所以切割位置誤差在一個音框以下可認為是容許誤差，所以在圖 6.2 也標示出考慮切割位置正負一個音框之容許誤差後之發音位置偵測器之效能。最後因 TCC 語料中有一些背景雜訊存在，若將自動切割時標示為非語音或靜音信號之音框其偵測結果後，偵測器之效能會進一步提升；由途中也可以看出非語音信號常會被偵測為 stop。

重新訓練之 MLP 為基礎的發音位置偵測器之效能則如圖 6.3 所示。由圖 6.2、

6.3 所示，以自動標示之語料及音框為單位的語音屬性偵測器而言，這樣的效能可以說是相當的好了。

0.00 2.00 4.00 6.00 8.00 10.00

original remove [B-1,B]

remove non-speech

圖 6.3：使用語者調適 HMM 模型後之自動標示資訊，重新訓練之 MLP 為基礎的發音位置偵測器之效能(EER in %)。

3. 附加信任度量測的語音屬性辨認器

接著我們使用前面 5.3 節所提出之觀念為 frame-based MLP 偵測器之辨認結果加上信任度量測。我們對重新訓練的 MLP 發音方法偵測器之輸出做信任度量測，在圖 6.4 中可以看到對不同的 confidence threshold 時，以 frame-based MLP 偵測器輸出所製作之辨認器之含概率及其辨認率。由圖 6.4 可以看見若將 frame-based MLP 偵測器的信任率 threshold 設為 0.4，則有 72%的音框可辦認出發音方法而其辦認率可達 90%，可以看出結果較前面 5.3 節為佳。一般若在發音方法改變之邊界位置正負兩個音框範圍外的音框總數大概是佔總音框數的 70-80%。

0 2 4 6 8 10 12

original remove [B-1,B]

remove non-speech

圖 6.4：frame-based MLP 發音方法偵測器之辨認結果之信任度量測。

4. 語音屬性偵測器之錯誤分析

我們將本章所製作之利用 MLP-based 發音方法偵測器之錯誤列於表 6.2。例 如第一行第二列是說 54%的/h/音素會使得 stop 發音方法偵測器有輸出，第二行 第四列是說 17%的/e-ng/音素會使得 nasal 發音方法偵測器 miss detected。

我們將表 6.2 所得到的結果與語言學知識做比對可以發現一些在語言學家看到的現象( linguistics knowledge) [謝國平, 1998]，如：

 Backward nasal assimilation – 國語語音中鼻音韻尾的同化現象；

 Vowel unvoicing –韻母的非韻母化現象；

 denasalization – 去鼻音化現象，通常是因為進入鼻腔的空氣量減少所造成；

所以由圖 6.5 可以發現鼻音發生整個 phone missing detection 的比例事實上還算較高的。

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Inclusion rate 0.2708 0.3972 0.5094 0.5903 0.6594 0.7265 0.8023 0.8751 0.9504 1 Recogniton rate 0.9933 0.9775 0.9493 0.9325 0.9183 0.9043 0.8843 0.865 0.8429 0.8234

0.0

表 6.2：最常見的發音方法偵測錯誤。

STOP /h/ 0.54 /f/ 0.41 /ch/ 0.22 /e/ 0.22 /er/ 0.20 /c/ 0.19 NASAL /l/ 0.27 /FNULL2/ 0.17 /e_ng/ 0.17 /r/ 0.15 /e_n/ 0.14 /wu/ 0.14 FRICTIVE /q/ 0.54 /c/ 0.42 /z/ 0.42 /k/ 0.41 /ch/ 0.38 /p/ 0.37 AFFRICATE /s/ 0.55 /x/ 0.54 /sh/ 0.46 /t/ 0.32 /f/ 0.17 /d/ 0.10

LIQUID /n/ 0.52 /m/ 0.41 /er/ 0.27 /yu/ 0.25 /d/ 0.21 /FNULL1/ 0.20 VOWEL /r/ 0.35 /n/ 0.25 /d/ 0.19 /l/ 0.16 /g/ 0.14 /h/ 0.13

SIL /f/ 0.40 /p/ 0.18 /t/ 0.16 /c/ 0.14 /b/ 0.12 /k/ 0.12

圖 6.5：frame-based MLP 發音方法偵測器中整個 phone missing detection 之統計。

接著，我們將利用 MLP-based 發音位置偵測器之錯誤列於表 6.3。 Alveolar-palatal /ng/ 0.65 /m/ 0.59 /r/ 0.37 /sh/ 0.35 /zh/ 0.27 /c/ 0.24 Velar /n_n/ 0.78 /m/ 0.39 /p/ 0.35 /n/ 0.32 /t/ 0.31 /wu/ 0.16 retroflex /s/ 0.85 /z/ 0.81 /c/ 0.78 /x/ 0.58 /q/ 0.41 /j/ 0.36 front /e_n/ 0.31 /r/ 0.23 /e_ng/ 0.23 /er/ 0.21 /FNULL1/ 0.18 /n/ 0.17 mid /ou/ 0.36 /an/ 0.33 /ei/ 0.29 /d/ 0.26 /n/ 0.24 /eh/ 0.23

我們將表 6.3 所得到的結果與語言學知識做比對可以發現下列現象 ( linguistics knowledge)，如：

 Confusion set in Mandarin : 如國語語音中捲舌與不捲舌聲母之混淆現象；

 Confusion set in Mandarin : ㄥ、ㄣ韻尾鼻音的混淆現象；

 Labial Assimilation : 唇音同化現象 n_n -> m /_{labial, labial-dental}；

由上述錯誤觀察可以發現一些 linguistics knowledge 可以解釋語音與性在連續語音中有一些現象是過去的語音辨認器中尚未或因系統架構複雜而難以考慮的。而在 NG-ASR 的架構中則因將這些 linguistics knowledge 加入。

5. 使用 CRF 之語音屬性整合

我們將 frame-based 發音方法偵測器之輸出當作一個 CRF (Conditional Random Field，其示意圖如圖 6.5)的輸入X ，而 CRF detector 之輸出為某個發音_i 方法之 detection 輸出，在 CRF 中我們可以將 conditional probability 表示為

( _v| , _W, ) ( _v| , _W, )

P Y X Y wv P Y X Y wv (6.1) 其中，v 是 CRF graph 中與 w 相鄰的 vertices。

圖 6.5：CRF 示意圖。

我們可將 conditional probability 寫成

( | ) exp _{j j}( _i 1, _i, , ) _{k k}( , , )_i

j k

P Y X  ^ t y_ y x i   s y x i ^



 

 ^(6.2)

所以我們將 MLP-based 發音方法偵測器之輸出 uniform quantized 成十等分來獲得 CRF 的 discrete 輸入資料。

在實驗中，我們使用[n-2, …, n+2]時間的 MLP-based 發音方法偵測器輸出來當 CRF classifier 的輸入，所獲得的發音方法 classifier 效能見表 6.4；表 6.4 為 CRF classifier 的 confusion table，由表中可以看到其中以 liquid 辨認率最低，最容易變成 vowel。

其中 p-plosive, a-affricate, f-fricative, n-nasal, l-liquid, v-vowel, s-silence

在文檔中新世代自動語音辨識技術之研究---子計畫二：語音、韻律之屬性與事件偵測之研究(III) (頁 52-60)