TCC300 語料庫實驗結果分析

第四章使用取樣點式聲學參數之語音類音素端點自動分段

4.3 TCC300 語料庫實驗結果分析

實驗結果以音框式抽取參數的 HMM 架構，作強迫切割所獲得的類音素層級初始自動分段位置來比較，並觀察本計畫自動分段位置之精準度是否有進一步地提升。由第四章所述，

在得到對應類音素層級之音素端點偵測器後，將 HMM 的類音素自動分段結果以端點偵測器所產生的概似度經正規化後作為分數，進行維特比搜尋並限制搜尋範圍在初始位置前後 100 毫秒之內，最後得到本計畫之類音素層級自動語音分段結果。

首先，以下列舉兩個語音波形比較音素端點與 HMM 的自動分段位置。由下列圖 4.11、

4.12 之中，可由方圈之圈選處的音素端點位置觀察到，無論是音節與音節之間的短停頓或是聲母與韻母之間的端點位置都非常準確，尤其是母音和塞擦音、摩擦音之間的邊界端點與 HMM 之分段位置相比確實精準許多，而在聲譜上觀察這些端點位置可看出頻譜分佈差異極大，亦是正確的端點位置。圖 4.12 所示之方圈圈選處，我們亦可發現在母音轉變至鼻音韻尾的情形，其音素端點位置之準確度仍能保持良好的水準；而在爆破音前的短停頓亦能調整至適當的端點位置。由上述實驗結果在語音波形的觀察下，顯示了取樣點式聲學參數對 HMM 之自動分段位置做修正後，其自動分段之效能確有提升。

圖 4.11：國語語句自動語音分段之範例一，由上至下的圖形分別表示 HMM 分段位置及音素端點偵測之分段位置、語音波形、聲譜圖

圖 4.12：國語語句自動語音分段之範例二，由上至下的圖形分別表示 HMM 分段位置及音素端點偵測之分段位置、語音波形、聲譜圖

接著，分別在成功大學與交通大學各隨機選取 7 句，共 1698 個音節，作人為標記的標準答案。統計 HMM 自動分段位置和實驗結果對人為標記的端點位置的誤差並以不同絕對偏差值之包含比率來表示，如圖 4.13。圖中以每 5 毫秒為一單位，本計畫所提出之方法在 15 毫秒內之邊界包含比率中，可明顯看出與 HMM 自動分段結果的差距，在 5 毫秒內即可達到 46%的包含比率。此數據顯示本研究方法能有效地的改正原本 HMM 的自動分段結果，提升自動語音分段的精確度。在另一方面，隨著與人為標記位置的誤差增大，兩者方法之間的差距慢慢地縮小，在絕對偏差值 30 毫秒的範圍之後仍還有約 10%的邊界誤差極大，以致於無法涵蓋其中，而本研究方法在其範圍之後效能與 HMM 相比甚至較差，其原因歸類於下列：

1. 連音現象

連音現象易使得兩者實驗方法皆難以判斷端點位置。例如「第（/d/-/e/）一（/yi/）」中（/e/-/yi/）

的端點位置，發音方法與口型上的變化都相似而頻譜亦趨於平滑變化，造成端點位置判定上的困難。

2. 語料庫錄音的背景雜訊

語料庫中不穩定之錄音品質，造成有部分音檔的背景雜訊過大，在取樣點式聲學參數之子頻帶信號波封反映出劇烈變動的情形，因此造成端點位置標記產生偏差。

3. HMM 自動分段結果與人為標記之間誤差過大

由第四章所述，本研究之自動語音分段方法是基於 HMM 之自動分段結果再使用端點偵

Absolute deviation (ms)

在文檔中新世代自動語音辨識技術–第二階段 (頁 41-44)

第四章 使用取樣點式聲學參數之語音類音素端點自動分段

4.3 TCC300 語料庫實驗結果分析

第四章使用取樣點式聲學參數之語音類音素端點自動分段