• 沒有找到結果。

中文發音方法偵測器容易偵測錯誤的音素類別

在文檔中 中文語音屬性偵測之研究 (頁 50-54)

第四章 中文語音屬性偵測器的效能分析與討論

4.1 中文發音方法偵測器之錯誤分析

4.1.2 中文發音方法偵測器容易偵測錯誤的音素類別

detect " /r/ " as "vowel"

error rate =

total " /r/" frame

P.S. ng、n_n 為鼻音韻尾、FNULL2 為空韻母

表 4.2 列出偵測器對中文音素作偵測的錯誤率排序,而由於在表 4.1 中已經有列 出各個發音方法偵測器對 liquid 的偵測,而 liquid 只包含一個ㄌ/ l /音,因此在表 4.2 中我們略掉對音素ㄌ/ l /的偵測項目。

從表 4.2 可以看出,以 vowel 偵測器偵測中文音素錯誤率排序中,除了已知 在表 4.1 所列出的對 liquid 的/ l /音具有高偵測錯誤率外,其餘前六項中有四項音 素是屬於 nasal,符合在表 4.1 所得到結果,且對於 nasal 的高偵測錯誤率分佈在 /n_n/、/ng/ 此兩鼻音韻尾的音素,這兩類鼻音韻尾的音框數佔測試語料中 nasal 的音框數的 87.14%,因此可知 vowel 偵測器偵測 nasal 語料發生偵測錯誤的地方 在於 vowel 與鼻音韻尾的交接處,而從 nasal 偵測器來看也是如此,其偵測錯誤 率排序的前幾項中有三項是屬於有鼻音韻尾的 vowel。

圖 4.4 vowel 與 nasal 相互偵測混淆實例

前 往 電 魚 電 蝦

silence

stop vowel

nasal

43

除此之外 vowel 偵測器偵測到最高錯誤率的音素是ㄖ/r/,而這個音素是屬於 fricative,由圖 4.1 可以得知,ㄖ/r/音是唯一一個有聲(voiced)的 fricative,而 vowel 與 nasal 偵測器均對ㄖ/r/這個音素有高的錯誤偵測率,應該是因為均同屬 有聲的音。

對於 fricative 偵測器而言,對 affricative 的音素偵測的效果均較差,對不送 氣的ㄐ/j/音作偵測的錯誤率為 21.36%是裡面最低的,而錯誤率為最高的 51.3%為 對送氣的ㄑ/q/音作偵測,其餘皆在 36~44%之間。而 affricate 偵測器偵測屬於無 聲的且舌葉上提的 fricative 音素,其偵測效能明顯很差,錯誤率在 46%~57%之 間,但對於偵測唯一一個屬於有聲的 fricative ㄖ/r/音,錯誤率僅僅只有 5.92%。

而這兩個偵測器互相偵測對方效能不好的原因在前面有敘述過,是因為 fricative 與 affricate 的聲學特性近似所導致,但 fricative 的偵測器的偵測效能似乎還比 affricate 偵測器來的差。另外 fricative 偵測器對 stop 的音素偵測,以不送氣的ㄅ /b/錯誤率為最高,達到 32.82%,其餘皆在 22~26%之間。而 affricate 偵測器偵測 屬於送氣的 stop 的ㄊ/t/音,其錯誤率高達 53.11%,但對於偵測不送氣的 stop 的 ㄅ/b/與ㄍ/g/,錯誤率僅有 15.02%及 12.21%。

對於 stop 偵測器而言,偵測錯誤率最高的是對屬於舌葉不上提的 fricative:

ㄈ/f/與ㄏ/h/音素,錯誤率為 64.66%及 47.73%。而對於屬於舌尖前的ㄗ/z/及ㄘ/c/

與屬於舌尖後的ㄔ/ch/及之ㄓ/zh/的 affricate 的音素,偵測錯誤率為 21~31%,效 果亦較差。

前面曾提及過的在表 4.1 中以 vowel、fricative、stop、nasal 這四類發音方法 偵測器,對測試語料中屬於 liquid 的語料作偵測,除了 stop 偵測器錯誤率為 23.66%,其餘三類的錯誤率均高達 36%以上。而從表 4.2 中可以看出偵測錯誤率 最高的 76.61%的ㄖ/r/是屬於 fricative,其次為 68.13%的ㄋ/n/與 64.30%的ㄇ/m/,

再來為ㄉ/d/,而最後為ㄩ/yu/及一/yi /,而後面三個的錯誤率約在 20%上下。從 圖 4.1 可以得知 liquid 的ㄌ/l/與 fricative 的ㄖ/r/、nasal 的ㄋ/n/及ㄇ/m/同屬於有聲 音,liquid 的ㄌ/l/與 vowel 的ㄩ/yu/及一/yi /同屬於接近音(approximate)。然而 liquid 偵測器為何對ㄖ/r/及ㄋ/n/的偵測錯誤率高達 68%以上?在此我們認為可能的原 因是錄製者在發這三類音時,容易因為發音的不精確導致混淆而發出其他的音,

例如中文字中的“熱”與“樂”,ㄖ與ㄌ容易發音混淆、或者在發“難”或者“能”的音,

ㄌ與ㄋ亦容易發音混淆。這些發音混淆的情況均有可能導致這三類發音方法偵測 器的偵測錯誤。

圖 4.5 發音誤差(ㄌ與ㄋ)所導致的偵測錯誤實例

最後對於 silence 偵測器而言,從表 4.1 可以看出其偵測錯誤最高的音素類別 為 stop,又由於 stop 後面一定是接 vowel,而在前面的討論中亦提到 silence 偵測 器對 vowel 語料偵測的錯誤率相當的低,僅有 0.63%,因此 silence 偵測器偵測 stop 語料所發生的錯誤,應是發生在 stop 音的起始點。這也符合在第三章所作的 以 HMM 對中文語料庫作強迫切割的初始切割位置,stop 的平均長度為 6.74 個 音框,而人工切割英文的 stop 平均長度為 4.12 個音框,兩者仍存著 2 個音框長 度的差異。

無 能 為 力 另 外

silence

vowel

liquid nasal

此處的能所發的“ㄋ”音與“ㄌ”相當相近

45 detected as target

vowel fricative stop nasal glide affricate silence

vowel 87.70 4.78 15.88 17.79 39.92 3.38 3.76 況嚴重的原因。而 affricate、fricative 與 stop,vowel 與 nasal 亦有混淆偵測的情 況,此情況與中文偵測器的錯誤為相似的地方。而 affricate 與 nasal 以及 affricate 與 glide 的互相偵測錯誤率為最低,顯示出此種情況,偵測器能夠有效的區分此 兩類的分別,這與分析中文偵測器所觀察到的錯誤有相同的情形。

在文檔中 中文語音屬性偵測之研究 (頁 50-54)

相關文件