MLP 偵測器容易偵測錯誤的發音方法類別

第四章中文發音方法偵測器的效能的分析與討論

4.1 中文發音方法偵測器對於各發音方法之偵測錯誤分析

4.1.1 MLP 偵測器容易偵測錯誤的發音方法類別

在 3.1 節當中統計完了 frame-based MLP 偵測器各種發音方法本身的偵測等錯誤率之後，我們接著對於造成各發音方法偵測錯誤的原因作分析,首先是觀察各種發音方法偵測器是否容易對特定某幾類發音方法發生偵測錯誤，下表 4.1 為各種發音方法之間彼此互相偵測的混淆矩陣。

說明: 表 4.1 中每一個比率數值為橫軸的發音方法類型音框(測試語料)全部拿來對於縱軸對齊的發音方法屬性偵測器作偵測而又被偵測為 target 的偵測錯誤比例 (以表 4.1 中加了底線的數值 6.72 為例，這代表說所有 Fricative 音框當中有 6.72%

的音框會被 Vowel 偵測器偵測為 target):

detect "fricative" as "vowel"

error rate =

total "fricative" frame

表 4.1：各發音方法之間互相偵測的混淆矩陣 Desired

(%)

Detector detected as target

vowel fricative Stop nasal liquid affricate silence

Vowel 91.71 6.72 11.71 20.10 36.34 4.83 1.63 Fricative 3.59 89.94 21.28 4.70 3.63 48.19 12.24

Stop 6.46 15.35 90.02 10.73 33.96 10.20 13.57 Nasal 12.92 4.31 7.14 90.75 28.94 1.84 4.08 Liquid 12.60 2.06 14.53 18.12 90.84 1.96 0.96 Affricate 2.68 50.80 16.46 2.11 3.40 90.84 9.03

Silence 1.85 12.74 22.02 4.81 1.45 15.65 94.28

由表 4.1 可以看出，Fricative 偵測器以及 Affricate 偵測器在互相偵測對方時，所造成的偵測錯誤率均在 50%左右，這是因為 Affricate 與 Fricative 這兩種發音方法之間聲學特徵非常的近似，這點我們可以如下圖畫出這兩類發音方法在 MFCC 參數當中 C1，C2 的分布[5]看出來:

圖 4.1：Fricative 與 Affricate C1,C2 平均值分佈

從上圖中我們可以看到這兩類發音方法的特徵參數分佈幾乎是重疊在一起，因此有如此高的混淆偵測錯誤率，另外 Liquid 也有不小的比例會被 Nasal 或者 Vowel 偵測器偵測為 target，這可能是受到 Liquid 與 Nasal 之間有時會因為語者將ㄋㄌ這兩個音唸的含混不清[5]而造成的混淆，另外 Liquid 又容易與其所接的 Vowel 發生連音現象的影響，因此也造成了混淆的現象。

4.1.2 MLP 偵測器加入狀態轉移機率容易偵測錯誤的發音方法類別得到 frame-based MLP 中文發音方法偵測器的結果以及各種發音方法之間互相混淆偵測的情形之後，另一方面同樣統計加上狀態轉移機率的發音方法偵測器與各個發音方法資料之間的偵測混淆情況:

表 4.2：各發音方法之間互相偵測的混淆矩陣 Desired

(%)

Detector detected as target

Vowel Fricative Stop Nasal Liquid Affricate Silence

Vowel 92.07 7.38 11.86 17.84 39.99 5.97 1.14 Fricative 2.51 91.68 16.21 3.46 2.15 45.20 8.96 Stop 5.02 15.14 91.42 8.84 28.75 8.56 14.93 Nasal 12.21 3.84 6.30 91.70 26.44 1.65 2.86 Liquid 11.11 1.38 12.38 16.70 91.99 1.43 0.57 Affricate 1.89 51.46 9.83 1.74 1.45 91.93 7.76

Silence 2.18 11.15 18.46 5.79 0.61 12.42 94.61

由上表 4.1 與表 4.2 做比較，上圖中錯誤率明顯下降的以藍色及底線顯示，

而錯誤率上升的較明顯的以斜體紅字顯示，其餘錯誤率變動不大的以黑體字顯示，我們可以清楚看到加上轉移機率之後偵測器大部分混淆的情況都獲得改善而

僅有四類的混淆情形稍微變差，因此整體而言偵測器的效能是向上提升的，不過最容易混淆的 Affricate 與 Fricative 之間混淆的程度依然非常嚴重，均有超過 45%

以上的混淆錯誤率。

4.2 中文發音方法偵測器各音素偵測之錯誤分析

4.2.1 MLP 偵測器偵測各個中文音素的錯誤警戒分析

前一節 frame-based MLP 偵測器架構中各個發音方法偵測器對語料庫中的各個發音方法作偵測後，分析各個發音方法偵測器對何種發音方法容易偵測錯誤，

在本節中，我們將細分為各個發音方法偵測器對各個中文音素作偵測，觀察發音方法偵測器是否對某一發音方法的偵測錯誤是來自於所偵測的發音方法其所屬的某一或某群音素所造成。下表為各個中文發音方法 MLP 偵測器偵測各個中文音素的錯誤率排序。

說明：

下頁表 4.3 當中的每一個數值為對測試語料中為橫軸的音素類型音框全部拿來對於縱軸對齊的發音方法屬性偵測器作偵測而又被偵測為 target 的偵測錯誤比例(以表中加了底線的數值64.97為例，這代表所有的ㄑ /q/ 作偵測，Fricative 偵測器將其偵測為 target 的比例為 64.97%)。

detect " /q/ " as "fricative"

error rate =

total " /q/" frame ㄑ

ㄑ

表 4.3：中文發音方法 MLP 偵測器容易偵測錯誤的音素類別統計

對於 Stop 偵測器而言，偵測錯誤率最高的是對屬於舌葉不上提的 Fricative：

ㄏ/h/與ㄈ/f/音素，錯誤率為 57.18%及 48.32%。而對於屬於 Nasal 的子音ㄋ/n/，

ㄇ/m/以及 Liquid 的ㄖ/r/與ㄌ/l/，偵測錯誤率為 31~37%，偵測效果亦差。

至於 Liquid 的部份，Nasal 的ㄋ/n/與ㄇ/m/的偵測錯誤率都超過 60%，推測可能是因為語者往往唸的不清楚的原因所致，另外對於 Silence 偵測結果而言，

Fricative 當中的ㄈ/f/偵測錯誤率最高的原因在之前的第三章的觀察當中已經提過因此不再贅述，另外無聲的 Stop 音ㄊ/t/、ㄆ/p/、ㄎ/k/偵測錯誤率也有 20~30%。

4.2.2 MLP + transition probability 偵測器偵測各中文音素的錯誤分析底下我們將對於偵測器加上狀態轉移機率之後的偵測結果，同樣去分析觀

由表 4.3，4.4 的統計結果相比較，我們觀察到幾個現象，基本上兩種架構的偵測結果對於非常容易混淆的音素偵測錯誤率差異不大(如表中紅色數值)，但是對於加上狀態轉移矩陣的的偵測結果而言，錯誤率是有些微的上昇，這個原因是因為在容易混淆的音素類別音框在 MLP 偵測器 target model 上的分數大多呈現一整個區段的分數平均甚高，因此加上狀態轉移機率之後反而有些許錯誤擴大的現象，以下是一個實際的例子:

圖 4.2：加上轉移機率之後錯誤擴大的例子

上圖中用粉紅色框起來的區域就是 Fricative 音段容易造成 Affricate 偵測器偵測錯誤擴大的例子，我們可以看到由於整段區塊當中的平均分數甚高，因此再加上類似於 segment 概念的狀態轉移機率分數之後會造成整段都被偵測為 Affricate 的結果，造成容易混淆的音素偵測錯誤率稍有上升。

waveform

label

參考答案 frame-based Affricate 偵測

器偵測結果 target model

上的分數 frame-basedM

LP 偵測器+

transition probability

偵測結果

不過同時由於之前提到過的 MLP 偵測器加上轉移機率分數之後能夠移除大

MLP + transition probability

由上表可以看到，以 Affricate 偵測器為例子，原本偵測錯誤率還有 10%以上的ㄆ/p/與ㄉ/d/ 這兩種音素的 error reduction 超過 50%，而ㄏ/h/與ㄅ/b/的錯誤率更是從原本的 6%左右降到剩下不到 2%比 Affricate 之後常接的母音一/yi/跟ㄩ /yu/還低，因此整體而言 Affricate 偵測器的效能是向上提升的。其餘偵測器的效能除了ㄢ/a_n/對於鼻音偵測器以及ㄗ/z/對於 Silence 偵測器這兩種音素的偵測錯誤率稍有上升(如表中紅色數值標示)之外，除了一部分的音素偵測錯誤率變動不大(如表中黑色數值標示)之外，大部分的音素偵測錯誤率都有明顯的下降(如表中藍色數值標示)，由於偵測錯誤率降低的音素資料量明顯超過偵測錯誤率升高的音素資料量，因此整體而言加入狀態轉移機率後發音方法偵測器的混淆錯誤率可以說有顯著的下降。

4.3 中文連續語音當中連音現象造成屬性偵測錯誤的分析

前一小節當中我們已經對於容易偵測錯誤的音素作了統計以及分析，其中我們注意到了其實某一部份偵測的錯誤是由於鼻音化的母音與其後的鼻音韻尾之間由於在連續語音當中語者時常沒將鼻音韻尾唸出來造成偵測錯誤，此類錯誤直接造成 Vowel 的錯誤警戒率以及 Nasal 錯誤拒絕率上升，以下是個實際的例子:

圖 4.3：連續語音當中鼻音韻尾沒被念出來的實例

由上圖的例子可以看出，在紅色虛線所示的位置標記檔標記是 Nasal，但是實際上語者並沒有完整的將鼻音韻尾唸出來，因此這段音框在 Vowel 的 target model 分數很高，而從頻譜上來看也極為相似 Vowel，如此一來，這個段落造成了對 Vowel 而言是錯誤警戒的偵測錯誤，而對於 Nasal 而言則是錯誤拒絕的偵測錯誤，底下將統計測試語料中整段鼻音都沒有被偵測出來的資料量:

spectrogram

waveform

phone label

Vowel 參考答案

frame-based Vowel 偵測分數

frame-based + transition probability Vowel

偵測結果 frame-based +

transition probability Nasal

偵測結果

表 4.6：測試語料整段鼻音韻尾 missing detection 的統計 Nasal events(counts) 9914 Nasal missing detecttion count(count) 642(6.48%) Nasal frame(frames) 65639 Nasal missing detection rate(frame) 2563(3.90%)

由上面的統計資料可以看出，整段 Nasal 都沒偵測出來的音框數佔了所有 Nasal 音框的 3.90%，直接大大影響了 Nasal 的偵測錯誤拒絕率，底下我們將抽樣整段 miss detection 的 Nasal 音段約十分之ㄧ的資料量來檢查是否確實因為語者沒有完整的唸出鼻音韻尾而造成偵測器偵測錯誤:

Nasal 整段 missing detection events count:59

表 4.7：抽樣觀察整段鼻音韻尾 missing detection 的分佈統計

counts 備註

Tatal events 59

鼻音韻尾有唸出來 12(20%)

鼻音韻尾沒唸出來 47(80%) ㄢ(a_n+n_n):28 ㄥ(e_ng+ng):6 ㄣ(e_n+n_n):4 ㄤ(a_ng+ng):9

由上表統計中可以看出，未被偵測出來的鼻音韻尾取樣數當中約有 80%是確實語者未將鼻音韻尾清楚的唸出來，其中又以ㄢ/a_n+n_n/這類的鼻音化母音其後的鼻音韻尾在連續語音當中沒唸出來的情形最為常見，因此如果從切割一開始便考量到對於連音現象部份音素標記而做修正，對於屬性偵測結果必定能夠再進一步的提升。

4.4 音素邊界附近屬性偵測錯誤對整體偵測錯誤率的影響

transition probability Vowel FA：33.78%

Fricative FA：24.31%

FR：21.85%

FA：27.06%

FR：19.95%

Affricate FA：31.70%

FR：14.53%

Liquid FA：51.51%

FR：13.51%

FA：55.40%

FR：12.54%

Silence FA：18.45%

FR：23.95%

FA：20.35%

FR：20.41%

由上表的統計可以看到，邊界前後音框的錯誤警戒率或是錯誤拒絕率均明顯

transition probability Vowel FA：4.44%

Fricative FA：9.35%

FR：5.95%

FA：7.52%

FR：4.26%

Affricate FA：8.41%

FR：5.86%

Silence FA：3.32%

FR：1.80%

FA：2.58%

FR：2.16%

由表 4.9 統計的結果可以看出音素邊界以外的音框偵測錯誤警戒率及錯誤拒絕率均明顯低於等錯誤率，因此搭配上表 4.8 的統計結果比較之後我們可以得知，事實上發音方法偵測器在音素邊界的偵測效能非常不穩定，很容易發生偵測錯誤，而在音素邊界以外音框的偵測情形除了部分聲學特徵類似的發音方法之間容易混淆而造成偵測效能較差之外，大致上而言偵測的結果相對比較可靠，而此一分析的結果呼應了 3.3 節屬性偵測器信任度量測的分析當中，音素邊界附近的信任度普遍較低代表該區段偵測結果較不可靠，而大多數能夠提供給後級辨識器的有效偵測結果多半分佈在音素邊界以外的區域。

4.5 信任度量測錯誤的統計與分析

Layer-1 Layer-2 Layer-3 Layer-4 Class Error

Sonorant 2.20

Fricative 4.20 Affricate 5.73

Fricative

Silence 7.67 Silence 9.38 Silence 10.29 Breath 3.99 Breath 7.38 Breath 4.86

圖 4.4：一整段偵測錯誤的實例

由上圖我們可以看到藍色區塊標示一整段的信任度都很高，同時 Liquid 偵測器的分數也很高，但是觀察波形以及頻譜上來看，事實上ㄖ/r/與其後的空母音的聲學特性非常的類似沒有明顯的分界，造成了切割位置不理想，因此造成了偵

在文檔中基於類神經網路之中文語音屬性偵測器 (頁 50-0)

第四章 中文發音方法偵測器的效能的分析與討論

4.1 中文發音方法偵測器對於各發音方法之偵測錯誤分析

4.1.1 MLP 偵測器容易偵測錯誤的發音方法類別

detect "fricative" as "vowel"

error rate =

total "fricative" frame

4.2 中文發音方法偵測器各音素偵測之錯誤分析

detect " /q/ " as "fricative"

error rate =

total " /q/" frame ㄑ

ㄑ

4.3 中文連續語音當中連音現象造成屬性偵測錯誤的分析

4.4 音素邊界附近屬性偵測錯誤對整體偵測錯誤率的影響

4.5 信任度量測錯誤的統計與分析

第四章中文發音方法偵測器的效能的分析與討論