使用類神經網路的國語語音屬性偵測器 - 新世代自動語音辨識技術之研究---子計畫二：語音、韻律之屬性與事件偵測之研究(III)

我們取得了相當可靠的 TCC300 國語語料庫的音素切割位置之後，接著建立最基礎的 frame-based 高斯模型中文發音方法偵測器。由於非線性的類神經網路架構已經證明在資料類別分類上有優於線性高斯混合模型的效能，因此在本節當中首先建立屬於類神經網路的多層感知機 (Multi-layer perceptrons, MLP)模型為基礎的中文發音方法偵測器。然而在連續語音的語音屬性偵測當中單純的只考慮每個音框本身的資訊其實是不大合理的，因為即使是以音框為偵測的基本單元，

每個音框仍舊會受到前後音框以及一些語言特性的影響，因此本章接著會加入類似以音段為基礎(segment-based)的概念，在原本的 MLP 模型為基礎的偵測器上加入 target 與 anti-model 這兩個狀態轉換的機率(transition probability)分數改善偵測器的效能，最後我們將由 MLP 發音方法偵測器為基礎建立階層式的語音屬性數設定為 38，而隱藏層點數設定為 50，而輸出層由於我們同樣要訓練 target model 以及 anti model 因此設定點數為 2。

MLP 網路是一種正向饋入(feed-forward)網路，每一個第 i 層神經元的輸出

( )i

35 類偵測器，error reduction 都有超過 20%的下降，而這三類的發音方法資料量約佔語料庫總資料量的 70%，因此這三類偵測器錯誤率明顯的下降對於整體偵測器

的效能有顯著的提升。

在得到了 frame-based MLP 中文發音方法偵測器的結果之後，我們將以 segment 的角度來觀察 frame-based 的 MLP 偵測器的偵測錯誤情形類別做分析，

首先是錯誤拒絕的部份:

圖 5.2：偵測的結果稍微向內縮。

這類型的錯誤多半是因為邊界附近的聲學特徵還不是很穩定因此發生錯誤拒絕的偵測錯誤，但是以 segment 的角度來看這類型偵測錯誤的情形並不算嚴重，

而這類型的錯誤對於 frame-based 偵測器的偵測錯誤影響我們將在後面的章節再作較深入的分析。

圖 5.3：偵測的結果有一個 false-reject 的 jitter。

這類型的錯誤非常常見但是實際上這些短暫的 jitter 是造成偵測錯誤的主要來源之一，並且也不能提供後級的辨識器可靠的資訊，如果能夠加入一些 segment 概念的資訊應該就能夠有效抑制這類型的錯誤，因此在下一節當中我們將會加入 target 與 anti-model 這兩種狀態轉移的機率分數來詴圖克服此類型的偵測錯誤。

參考答案偵測結果

參考答案

偵測結果

圖 5.4：偵測結果一個 segment 偵測為兩個 segment。

這類型的錯誤時常出現於各種發音方法中能量相對比較小的摩擦音段當中音頭以及音尾部分以及 Silence 段中可能夾雜些微背景雜訊時。

圖 5.5：偵測結果一個 segment 偵測為數個 segment。

這類型的偵測錯誤通常發生在聲學特徵較不穩定的音素當中，比如說摩擦音當中的ㄈ這個音，在隨機抽樣觀察的幾個句子當中發現到ㄈ這個音常常有錯誤拒絕很嚴重的情形，因此我們特別針對這個音去對摩擦音偵測器作偵測，同樣發現到ㄈ這個音雖然屬於摩擦音但是對於摩擦音偵測器的錯誤拒絕率卻高達 32%，

並且對於 Silence 偵測器的錯誤警戒率(也就是被偵測為 Silence)將近有 50%，這是因為ㄈ這個音的聲學特徵其實有些類似於語者呼吸聲，因此也許此音素在發音方法屬性偵測的分類上因其特殊的聲學特性而有需要獨立出來自成一類。在分析完了錯誤拒絕類型的錯誤之後我們接著對於錯誤警戒類型的偵測錯誤同樣用 segment 的角度來做各種偵測警戒錯誤的類型分析:

參考答案偵測結果參考答案偵測結果

圖 3.6：false-alarm jitter。

同偵測錯誤拒絕當中的第 b 類型錯誤，事實上除了一部分 Stop 音以及 Silence 以外其他類發音方法幾乎不可能單獨出現這麼短的 target segment(1~2 個音框)，因此這類十分明類的錯誤便是我們下一節當中提出狀態轉移機率概念最主要要解決的偵測錯誤類型。

圖 5.7：一長段連續 false-alarm。

這類型的錯誤通常發生在該種發音方法與某種聲學特徵相近的發音方法之間互相混淆情形非常嚴重時，最明顯的情形就是如上圖當中的例子，該音素ㄘ(c) 是屬於 Affricate，但是由於 Affricate 與 Fricative 混淆的情形十分嚴重因此整段被 Fricative 偵測為錯誤警戒的錯誤，同樣的錯誤類型也常見於聲學特徵類似的 Nasal 與 Liquid 之間以及 Nasal 與 Vowel 之間。

參考答案偵測結果

圖 5.8：segment 邊緣向外稍微延伸。

此類型的錯誤類似於錯誤拒絕當中的 a 類型錯誤，因此同樣以 segment 的角度來看這類型的錯誤時這類型並不算是嚴重的偵測錯誤。

以上是對於 frame-based MLP 屬性偵測的錯誤類型的分析，之後的章節我們將針對考量 frame-based MLP 屬性偵測器偵測錯誤的缺失為基礎，提出加入提供偵測器更多資訊的方式，期望能夠降低偵測器一部分的偵測錯誤。數來判定是 target 還是 anti-model，接下來我們取出偵測器的分數，加入 duration model 限制的概念，在每一句當中考慮 target，anti-model 這兩類狀態轉換的機率，

讓句子當中的每一個音框進行 Viterbi Search，找到最佳的偵測結果。假定經過 Viterbi Search 後的最佳化 utterance score 為Q ，其數學表示式如下: ^*

40 的平均長度求得，假設 target-segment 平均長度為 L2,anti_segment 平均長度為 L1 則狀態轉移機率為:

以下我們將加入狀態轉移機率分數之後的偵測結果與之前 frame-based 的 MLP 偵測器之偵測結果比較:

Nasal 9.25 7.03 9.67 7.30

Liquid 9.16 6.91 9.26 6.95

Silence 5.72 3.59 8.21 4.52

雖然這裡求得的錯誤率並不是等錯誤率，但是我們仍舊可以從統計的結果看出偵測錯誤率下降的現象，如上表當中用紅色數字標記錯誤率的 Fricative 以及 Affricate，其偵測的結果無論是錯誤警戒率(FA rate)或者是錯誤拒絕率(FR rate) 都較原本的等錯誤率(錯誤警誡律=錯誤拒絕率)低的多，因此很明顯的這兩類的偵測器效能獲得很明顯的提升，至於 Vowel，Stop，Nasal，Liquid 這四類發音方法的偵測結果，其中一種錯誤率大幅的下降但是同一時間另外錯誤率卻小幅的上

frame-based + transition probability

從上面的例子可以看到，雖然一整個音段聲學特徵都非常類似 Nasal 而造成的整段偵測錯誤警戒(如紅色虛線所示)這類型的偵測錯誤沒有明顯改善，但是在 frame-based 偵測錯誤當中十分常見的 jitter 偵測錯誤類型(綠色虛線標示)的偵測錯誤幾乎都被排除了，代表說加入狀態轉移機率分數確實能夠有效的排除不合理的 jitter 類型偵測錯誤。

接著圖 5.11~5.17 我們統計出原本各發音方法音長段落的分布、frame-based MLP 偵測結果段落長度分布以及加入狀態轉移機率的偵測結果段落長度分布:

圖 5.11：Vowel 段落音長分佈比較(藍色為參考答案音長分布，綠色為 frame-based 偵測結果，紅色為加上轉移機率的偵測結果) 。

圖 5.12：Stop 段落音長分佈比較(藍色為參考答案音長分布，綠色為 frame-based 偵測結果，紅色為加上轉移機率的偵測結果) 。

圖 5.13：Fricative 段落音長分佈比較(藍色為參考答案音長分布，綠色為 frame-based 偵測結果，紅色為加上轉移機率的偵測結果) 。

圖 5.14：Affricate 段落音長分佈比較(藍色為參考答案音長分布，綠色為 frame-based 偵測結果，紅色為加上轉移機率的偵測結果) 。

圖 5.15：Nasal 段落音長分佈比較(藍色為參考答案音長分布，綠色為 frame-based 偵測結果，紅色為加上轉移機率的偵測結果) 。

圖 5.16：Liquid 段落音長分佈比較(藍色為參考答案音長分布，綠色為 frame-based 偵測結果，紅色為加上轉移機率的偵測結果) 。

圖 5.17：Silence 段落音長分佈比較(藍色為參考答案音長分布，綠色為 frame-based 偵測結果，紅色為加上轉移機率的偵測結果) 。

由各種發音方法偵測結果音長分布的統計我們可以清楚的看到，原始的 MLP 偵測結果偵測出太多 jitter 型態的段落，造成了音長分布大多偏向音長很短的段落，而加入狀態轉移機率之後的偵測結果，等於說是加入各種發音方法在 segment 音段長度的資訊，使得偵測的結果 segment 長度分佈明顯較趨近於實際上的音長分佈。

不過一般來說偵測器的效能仍舊是以求得等錯誤率來評斷，因為等錯誤率考量到 target 資料量與 anti 資料量不一定相當的問題，因此接下來我們將導入以下的數學式加入一個可以調整的權重值，取得偵測器錯誤拒絕率與錯誤警戒率相等的等錯誤率。

frame-based MLP+

transition probability

Vowel 8.29 7.93

46 frame-based +

transition probability frame-based +

transition

frame-based + transition probability

frame-based + transition probability 等錯誤率的情況下偵測結果

誤率，不過加入轉移機率最主要優點是抑制 jitter 這一點仍然保留了下來，在附錄當中有統計等錯誤率狀況下偵測結果的 segment 長度分布與原本未調至等錯誤率的分布差不多同樣證明了這一點，因此我們還是可以肯定偵測器加入 segment 的資訊能夠有效提升偵測器效能。

3. 以 frame-based MLP 偵測器為基礎之階層式信任度量測

在第一小節當中我們已經得到 frame-based MLP 發音方法的等錯誤率偵測結果，但是屬性偵測的目的是當作自動語音辨識系統的前端，提供可靠的語音資訊提供給後端的辨識器使用，因此得到偵測器的結果之後我們必須對於偵測的結果進行信任度的量測(Confidence Measure)，信任度較高的偵測結果才能提供有效的語音資訊給後級辨識器。

我們提出階層式(hierarchical)的信任度量測架構，最底層為七種發音方法加上呼吸聲(Breath)共八類偵測器的偵測結果進行信任度量測，而第二層將聲學特徵極為類似的 Fricative 與 Affricate 以及 Vowel 與 Nasal 分別合併，再上一層便將非響音(non-sonorant)包含 Vowel、Nasal、Liquid 以及響音(sonorant)的 Fricative、

Stop、Affricate 合併在一起，而最上層便是將語音(speech)的部份包括 Vowel、

Nasal、Liquid、Fricative、Affricate、Stop 合併以及非語音(non-speech)的部份包括 Silence、Breath 合併。架構運作的方式為欲確認偵測結果可靠程度之音框假使

在文檔中新世代自動語音辨識技術之研究---子計畫二：語音、韻律之屬性與事件偵測之研究(III) (頁 34-52)