音素端點偵測實驗結果分析

第三章語音音素端點偵測器

3.4 音素端點偵測實驗結果分析



(3-6)

表 3.2：TIMIT 語料庫的統計資料結果

TIMIT corpus Sample Candidate Phone boundary Training part 226727341 534189 172461

Test part 82786737 194201 62466

在測試語料中所挑選出的候選音素端點，可藉由加上不同的臨限值來控制音素端點偵測器所偵測的音素端點個數，因此實驗中對應不同的的臨限值描繪出誤報率與偵測漏失率的對應曲線圖為圖 3.6 所表示，圖中點為 Rabiner 在數據中近乎 EER 的數值點，而本計畫測試語料使用 MLP 及 RNN 的實驗結果分別以黑色線實線及虛線表示，而傳統 HMM 所辨認出之音節結果則為●點。然而，誤報率與偵測漏失率為成反比的，在本計畫音素端點偵測的觀點中，誤報率的增加代表著有更多音素候選端點被誤認為音素邊界端點的可能性被提高，但音素候選端點是以評量相鄰語音取樣點頻譜差異的頻譜 KL 距離所挑選出來，有些音素的連音現象造成不明顯的頻譜變化，這些部分為較難偵測的音素端點，藉著調降臨限值使誤報率增高，造成對應較難偵測的音素邊界端點也可一併偵測出來，進而減低音素端點偵測的漏失。

音素端點偵測的目標為減低人為標記語料庫的繁複過程，過大的偵測漏失率即為音素偵測實驗最不想見的結果。在此，找出誤報率與偵測漏失率之間的取捨平衡點亦即當誤報率與偵測漏失率相同，作為實驗結果的比較方式。

圖 3.6：音素端點偵測器於 TIMIT 語料庫誤報率與偵測漏失率之對應曲線圖

接著，為了能與傳統音框式方法比較實驗的結果，我們統計每 5 毫秒所包含到偵測音素

0 0.05 0.1 0.15 0.2 0.25

0 0.05 0.1 0.15 0.2 0.25

F A rate

MD rate

MLP RNN

Rabiner's work

邊界的比例，並計算被偵測到音素端點落在相同或是相鄰音框之內的包含比例，以評量本計畫之音素端點偵測器之效能好壞。其中表 3.3 顯示在 EER 的情形下，偵測到的音素邊界端點在不同絕對偏差值內（5、10、15 毫秒）的包含比率，而在相同音框內為 41.72%，相鄰音框範圍內為 87.32%，兩種評量之實驗結果皆優於 Rabiner（27%/ 10ms, 70%/ 20ms），可易見時間解析度較細的取樣點式的音素端點偵測方法有較高的效能。圖 3.7 顯示了音素端點偵測器之實驗結果與人為標記之間的差異在不同絕對偏差值的差異的區間內，佔有總音素端點個數的比例。絕對偏差值越小代表著與人為標記位置越相近，亦表示偵測出之音素候選端點越準確。

表 3.3：使用音框式計算音素邊界偵測結果的方式的統計結果，音框平移為 10ms

Methods In the same frame within 1 frame

HMM 27.5% 67.3%

Rabiner’s [17] 22.8% 59.2%

MLP 36.0% 73.9%

RNN 37.3% 77.0%

圖 3.7：音素端點偵測器實驗結果與人為標記之絕對偏差值直方圖

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

< 5 ms < 10 ms < 15 ms < 20 ms < 25 ms < 30 ms < 35 ms < 40 ms < 45 ms < 50 ms

In clu sion r at e

Absolute Boundary Error

HMM MLP(EER) RNN(EER)

Affricate Fricative Stop Glide Vowel Nasal Silence

Affricate - 6.4/6.5* 10.1/6.9^* 7.3/10.0 6.8/13.7 4.9/15.3^* 6.1/12.8 (The two values in table are RMSEs of RNN and HMM in ms,^*means sample counts less than

100.)

Affricate Fricative Stop Glide Vowel Nasal Silence

Affricate - 7.4/8.0^* 13.1/11.3^* 8.8/13.1^* 10.8/18.2 6.4/17.7^* 7.8/15.6

(1) 前後相鄰音素為摩擦音

摩擦音發音時會由於發音器官彼此靠攏而形成狹窄的氣流通道，使得氣流通過通道時造成摩擦產生出聲音，如發出 s 的音必須讓氣流通過閉合牙齒之間的縫隙來產生。摩擦音在頻 譜上的分佈多集中在高頻部分。圖 3.8 舉出前後音素為（/k/、/s/）皆屬於摩擦音的分類，由 音素端點偵測器輸出概似度的觀察中，在（/k/、/s/）音素的區間中所有的音素候選端點之概 似度皆非常地低，亦即偵測器不認為這些候選端點是音素的端點。

圖 3.8：音素端點偵測前後音素為摩擦音之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、音素端點偵測器輸出之概似度

(2) 前後相鄰音素為鼻音

鼻音發音時口腔中的軟顎下垂，造成氣流無法通往口腔而轉往通過鼻腔發音，如發出/m/

的音時，須雙唇緊閉來讓氣流通過鼻腔產生，也因為如此使得鼻音在頻譜上的分佈多集中在 聲譜圖之低頻部分。圖 3.9 舉出前後音素為（/m/、/n/）皆屬於鼻音的分類，在（/m/、/n/）

音素的區間中，相鄰音素頻譜間平滑的變化造成音素候選端點的個數較少；僅觀察語音波形也亦難標記正確的音素端點位置，這也就是前後音素為鼻音時偵測漏失率較高的原因之一。

即便音素端點偵測器輸出概似度藉由調整臨限值後，增加偵測出候選端點之個數，其音素候選端點仍與人為標記位置有一段誤差存在。

圖 3.9：音素端點偵測前後音素為鼻音之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、音素端點偵測器輸出之概似度

(3) 前後相鄰音素為母音

母音是氣流由肺通過聲帶時，使聲帶產生週期性的震動且讓氣流不受阻礙地通過口腔通道，再以舌頭或是雙唇的調整而發出聲音。不同口腔通道、舌頭位置等所發出的母音在頻譜上亦有不同的分佈，但在時域上的語音波形中皆可明顯觀察出週期性的訊號。圖 3.10 舉出前 後音素為（/er/、/axr/）皆屬於母音的分類，相鄰音素頻譜間平滑的變化產生的音素候選端 點個數不多，就算偵測器輸出概似度藉由調整臨限值後，增加偵測出候選端點之個數，其音素候選端點仍與人為標記位置有一段誤差存在；同樣觀察語音波形也亦難標記正確的音素端點位置。

圖 3.10：音素端點偵測前後音素為母音之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、音素端點偵測器輸出之概似度

(4) 前後相鄰音素為靜音

靜音通常表示無任何語音信號的區段，但在 TIMIT 語料庫語句內的某一字詞音素與音 素間的短停頓則以/epi/表示。圖 3.11 舉出前後音素為（/tcl/-/h#/）皆屬於靜音的分類，同前 後音素為鼻音的情形相似，僅觀察語音波形也亦難標記正確的音素端點位置，為造成前後音 素為靜音時偵測漏失率較高的原因。由音素端點偵測器輸出概似度的觀察中，在（/tcl/-/h#/）

音素的區間中音素候選端點之概似度同樣非常地低，顯示出偵測器偵測不出這些候選端點是音素的端點，藉由調整臨限值也亦難偵測出音素端點。

圖 3.11：音素端點偵測前後音素為靜音之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、音素端點偵測器輸出之概似度

 誤報率分析

由先前所述前後音素為不同發音方法的偵測漏失率較低，但誤報率與偵測漏失率是成反

比的，亦即在不同的發音方式的轉換期間語音信號頻譜的劇烈變化容易產生誤報的情形，然而本計畫以取樣點式聲學參數挑選音素候選端點的方式與傳統音框解析度對照之下，在此情況卻是更加容易產生較多的音素候選端點，可能造成誤報率增高的情形。故以下分析在前後音素為不同發音方法時誤報率的差異並作討論。塞擦音、摩擦音以及母音等發音方式之邊界。

第四章使用取樣點式聲學參數之語音類

在文檔中新世代自動語音辨識技術–第二階段 (頁 25-32)

第三章 語音音素端點偵測器