1. 語者調適之 HMM 自動切割
傳統 HMM 的 training criterion 本來就不是 optimal segmentation position,我 們檢視傳統的 HMM 語音辨認架構在做音節切割時的精確度,根據文獻記載,在
±20 msec (也就是視傳統的 HMM 的 2 個 frame)的誤差下,精確度也僅能達到 90%
上下[Grande, 2003] [Kotropoulos, 2008]。。雖然,王新明博士提出了 minimum segmentation error 的 HMM 訓練方法[Kuo, 2006],但是是一個 supervised training algorithm,也就是需要有人工正確切割語料庫來訓練模型。在計畫中我們使用了 一套以語者調適訓練的 HMM 模型來對不特定語者作切割的機制,根據言厭結果 發現可獲得精確度較高之切割資訊。如圖 6.1 所示,在不特定語者 HMM phone-like unit model training 後,我們再使用做 speaker adaptation training(SAT) [Makhoul, 1996];SAT 就是使用 constraint MLLR(CMLLR)對不同語者做做語音 參數的轉換;使用經語者轉換(CMLLR)後之語音參數再重新訓練新的 HMM 模型 將可獲得較佳之 speaker-dependent HMM 模型。做完 SAT 後,我們再做 HMM 做 model adaptation,使用 MLLR 技術來調適 HMM 模型[Gales, 1996] [Gales, 1998],
它和 SAT 會又加成性的效果。如此就可以獲得較佳的 HMM 模型來做 force alignment,作為語料庫 syllable boundaries 的啟始切割位置。
53 HMM
model Training
Speech Data
Speaker-independent HMM model
HMM model Training CMMLR feature
adaptation
Speaker-dependent Training (SAT)
HMM model MLLR Model
Adaptation
54
方法偵測器,其效能如圖 6.2 所示。
圖 6.2:使用語者調適 HMM 模型後之自動標示資訊,重新訓練之 MLP 為 基礎的發音方法偵測器之效能(EER in %)。
偵測器之效能明顯較先前的結果好。因為使用語者調適 HMM 模型做自動 標示及語音屬性偵測器是以音框為單位;所以切割位置誤差在一個音框以下可認 為是容許誤差,所以在圖 6.2 也標示出考慮切割位置正負一個音框之容許誤差後 之發音位置偵測器之效能。最後因 TCC 語料中有一些背景雜訊存在,若將自動 切割時標示為非語音或靜音信號之音框其偵測結果後,偵測器之效能會進一步提 升;由途中也可以看出非語音信號常會被偵測為 stop。
重新訓練之 MLP 為基礎的發音位置偵測器之效能則如圖 6.3 所示。由圖 6.2、
6.3 所示,以自動標示之語料及音框為單位的語音屬性偵測器而言,這樣的效能 可以說是相當的好了。
0.00 2.00 4.00 6.00 8.00 10.00
original remove [B-1,B]
remove non-speech
55
圖 6.3:使用語者調適 HMM 模型後之自動標示資訊,重新訓練之 MLP 為基礎的 發音位置偵測器之效能(EER in %)。
3. 附加信任度量測的語音屬性辨認器
接著我們使用前面 5.3 節所提出之觀念為 frame-based MLP 偵測器之辨認結 果加上信任度量測。我們對重新訓練的 MLP 發音方法偵測器之輸出做信任度量 測,在圖 6.4 中可以看到對不同的 confidence threshold 時,以 frame-based MLP 偵測器輸出所製作之辨認器之含概率及其辨認率。由圖 6.4 可以看見若將 frame-based MLP 偵測器的信任率 threshold 設為 0.4,則有 72%的音框可辦認出 發音方法而其辦認率可達 90%,可以看出結果較前面 5.3 節為佳。一般若在發音 方法改變之邊界位置正負兩個音框範圍外的音框總數大概是佔總音框數的 70-80%。
0 2 4 6 8 10 12
original remove [B-1,B]
remove non-speech
56
圖 6.4:frame-based MLP 發音方法偵測器之辨認結果之信任度量測。
4. 語音屬性偵測器之錯誤分析
我們將本章所製作之利用 MLP-based 發音方法偵測器之錯誤列於表 6.2。例 如第一行第二列是說 54%的/h/音素會使得 stop 發音方法偵測器有輸出,第二行 第四列是說 17%的/e-ng/音素會使得 nasal 發音方法偵測器 miss detected。
我們將表 6.2 所得到的結果與語言學知識做比對可以發現一些在語言學家看 到的現象( linguistics knowledge) [謝國平, 1998],如:
Backward nasal assimilation – 國語語音中鼻音韻尾的同化現象;
Vowel unvoicing –韻母的非韻母化現象;
denasalization – 去鼻音化現象,通常是因為進入鼻腔的空氣量減少 所造成;
所以由圖 6.5 可以發現鼻音發生整個 phone missing detection 的比例 事實上還算較高的。
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Inclusion rate 0.2708 0.3972 0.5094 0.5903 0.6594 0.7265 0.8023 0.8751 0.9504 1 Recogniton rate 0.9933 0.9775 0.9493 0.9325 0.9183 0.9043 0.8843 0.865 0.8429 0.8234
0.0
57
表 6.2:最常見的發音方法偵測錯誤。
STOP /h/ 0.54 /f/ 0.41 /ch/ 0.22 /e/ 0.22 /er/ 0.20 /c/ 0.19 NASAL /l/ 0.27 /FNULL2/ 0.17 /e_ng/ 0.17 /r/ 0.15 /e_n/ 0.14 /wu/ 0.14 FRICTIVE /q/ 0.54 /c/ 0.42 /z/ 0.42 /k/ 0.41 /ch/ 0.38 /p/ 0.37 AFFRICATE /s/ 0.55 /x/ 0.54 /sh/ 0.46 /t/ 0.32 /f/ 0.17 /d/ 0.10
LIQUID /n/ 0.52 /m/ 0.41 /er/ 0.27 /yu/ 0.25 /d/ 0.21 /FNULL1/ 0.20 VOWEL /r/ 0.35 /n/ 0.25 /d/ 0.19 /l/ 0.16 /g/ 0.14 /h/ 0.13
SIL /f/ 0.40 /p/ 0.18 /t/ 0.16 /c/ 0.14 /b/ 0.12 /k/ 0.12
圖 6.5:frame-based MLP 發音方法偵測器中整個 phone missing detection 之統計。
接著,我們將利用 MLP-based 發音位置偵測器之錯誤列於表 6.3。 Alveolar-palatal /ng/ 0.65 /m/ 0.59 /r/ 0.37 /sh/ 0.35 /zh/ 0.27 /c/ 0.24 Velar /n_n/ 0.78 /m/ 0.39 /p/ 0.35 /n/ 0.32 /t/ 0.31 /wu/ 0.16 retroflex /s/ 0.85 /z/ 0.81 /c/ 0.78 /x/ 0.58 /q/ 0.41 /j/ 0.36 front /e_n/ 0.31 /r/ 0.23 /e_ng/ 0.23 /er/ 0.21 /FNULL1/ 0.18 /n/ 0.17 mid /ou/ 0.36 /an/ 0.33 /ei/ 0.29 /d/ 0.26 /n/ 0.24 /eh/ 0.23
58
我 們 將 表 6.3 所 得 到 的 結 果 與 語 言 學 知 識 做 比 對 可 以 發 現 下 列 現 象 ( linguistics knowledge),如:
Confusion set in Mandarin : 如國語語音中捲舌與不捲舌聲母之混 淆現象;
Confusion set in Mandarin : ㄥ、ㄣ韻尾鼻音的混淆現象;
Labial Assimilation : 唇 音 同 化 現 象 n_n -> m /_{labial, labial-dental};
由上述錯誤觀察可以發現一些 linguistics knowledge 可以解釋語音與性在連 續語音中有一些現象是過去的語音辨認器中尚未或因系統架構複雜而難以考慮 的。而在 NG-ASR 的架構中則因將這些 linguistics knowledge 加入。
5. 使用 CRF 之語音屬性整合
我們將 frame-based 發音方法偵測器之輸出當作一個 CRF (Conditional Random Field,其示意圖如圖 6.5)的輸入X ,而 CRF detector 之輸出為某個發音i 方法之 detection 輸出,在 CRF 中我們可以將 conditional probability 表示為
( v| , W, ) ( v| , W, )
P Y X Y wv P Y X Y wv (6.1) 其中,v 是 CRF graph 中與 w 相鄰的 vertices。
圖 6.5:CRF 示意圖。
我們可將 conditional probability 寫成
( | ) exp j j( i 1, i, , ) k k( , , )i
j k
P Y X t y y x i s y x i
(6.2)59
所以我們將 MLP-based 發音方法偵測器之輸出 uniform quantized 成十等分 來獲得 CRF 的 discrete 輸入資料。
在實驗中,我們使用[n-2, …, n+2]時間的 MLP-based 發音方法偵測器輸出來 當 CRF classifier 的輸入,所獲得的發音方法 classifier 效能見表 6.4;表 6.4 為 CRF classifier 的 confusion table,由表中可以看到其中以 liquid 辨認率最低,最容易變 成 vowel。
其中 p-plosive, a-affricate, f-fricative, n-nasal, l-liquid, v-vowel, s-silence
60