TCC300 語料庫實驗結果分析語料庫實驗結果分析語料庫實驗結果分析語料庫實驗結果分析

5.2 使用國語使用國語使用國語語料庫使用國語語料庫語料庫語料庫之實驗結果之實驗結果之實驗結果之實驗結果

5.2.1 TCC300 語料庫實驗結果分析語料庫實驗結果分析語料庫實驗結果分析語料庫實驗結果分析

實驗結果以音框式抽取參數的 HMM 架構，作強迫切割所獲得的類音素層級初始自動分段位置來比較，並觀察本論文自動分段位置之精準度是否有進一步地提升。由第四章所述，

在得到對應類音素層級之音素端點偵測器後，將 HMM 的類音素自動分段結果以端點偵測器所產生的概似度經正規化後作為分數，進行維特比搜尋並限制搜尋範圍在初始位置前後 100 毫秒之內，最後得到本論文之類音素層級自動語音分段結果。

首先，以下列舉兩個語音波形比較音素端點與 HMM 的自動分段位置。由下列圖 5.8、

5.9 之中，可由方圈之圈選處的音素端點位置觀察到，無論是音節與音節之間的短停頓或是聲母與韻母之間的端點位置都非常準確，尤其是母音和塞擦音、摩擦音之間的邊界端點與 HMM 之分段位置相比確實精準許多，而在聲譜上觀察這些端點位置可看出頻譜分佈差異極大，亦是正確的端點位置。圖 5.8 所示之方圈圈選處，我們亦可發現在母音轉變至鼻音韻尾的情形，其音素端點位置之準確度仍能保持良好的水準；而在爆破音前的短停頓亦能調整至適當的端點位置。由上述實驗結果在語音波形的觀察下，顯示了取樣點式聲學參數對 HMM 之自動分段位置做修正後，其自動分段之效能確有提升。

圖 5.8：國語語句自動語音分段之範例一，由上至下的圖形分別表示 HMM 分段位置及音素端點偵測之分段位置、語音波形、聲譜圖

圖 5.9：國語語句自動語音分段之範例二，由上至下的圖形分別表示 HMM 分段位置及音素端點偵測之分段位置、語音波形、聲譜圖

接著，分別在成功大學與交通大學各隨機選取 7 段，共 1698 個音節，作人為標記的標準答案。統計 HMM 自動分段位置和實驗結果對人為標記的端點位置的誤差並以不同絕對偏差值之包含比率來表示，如圖 5.10。圖中以每 5 毫秒為一單位，本論文所提出之方法在 15 毫秒內之邊界包含比率中，可明顯看出與 HMM 自動分段結果的差距，在 5 毫秒內即可達到 46%的包含比率。此數據顯示本研究方法能有效地的改正原本 HMM 的自動分段結果，提升自動語音分段的精確度。在另一方面，隨著與人為標記位置的誤差增大，兩者方法之間的差距慢慢地縮小，在絕對偏差值 30 毫秒的範圍之後仍還有約 10%的邊界誤差極大，以致於無法涵蓋其中，而本研究方法在其範圍之後效能與 HMM 相比甚至較差，其原因歸類於下列：

1. 連續語音所產生的一些連續語音所產生的一些連續語音所產生的一些連續語音所產生的一些現象現象現象現象

首先，連音現象易使得兩者實驗方法皆難以判斷端點位置。例如「第（d-e）一（yi）」

中（e-yi）的端點位置，發音方法與口型上的變化都相似而頻譜亦趨於平滑變化，造成端點位置判定上的困難。接著，聲調語言是以音節為發音基礎，但實際上對應於語音信號的音素層級文字轉寫仍會有所差異，如發音位置同化的現象。

2. 語料庫錄音的背景雜訊語料庫錄音的背景雜訊語料庫錄音的背景雜訊語料庫錄音的背景雜訊

語料庫中不穩定之錄音品質，造成有部分音檔的背景雜訊過大，在取樣點式聲學參數之子頻帶信號波封反映出劇烈變動的情形，因此造成端點位置標記產生偏差。

3. HMM 自動分段結果自動分段結果自動分段結果自動分段結果與人為標記之間與人為標記之間與人為標記之間與人為標記之間誤差誤差誤差過誤差過過大過大大大

由第四章所述，本研究之自動語音分段方法是基於 HMM 之自動分段結果再使用端點偵

測器所提供之分數進行維特比搜尋。因此，起始分段位置之誤差過大亦難在搜尋空間找到最佳的候選端點，使得端點位置產生偏差。

4. 類音素音節結構類音素音節結構類音素音節結構類音素音節結構與候選端點個數在該音段過少與候選端點個數在該音段過少與候選端點個數在該音段過少與候選端點個數在該音段過少所所所所引起引起引起引起端點位置端點位置端點位置端點位置標記標記標記誤差偏大標記誤差偏大誤差偏大的情形誤差偏大的情形的情形 的情形由於本論文是將韻母定義為介音以及韻腳除去鼻音韻尾後所組成，但是在韻母音中雙母音中的音素的變化卻是容易造成本研究方法的端點位置標記誤差增大，例如「作（zuo）

為（wei）」，韻母（wei）中即可分為介音 wu、主元音 ei 和韻腹 eh 以及韻尾 yi，其中在聲譜圖內介音至主元音的變化卻是較（o-wu）變化明顯。然而候選端點在這些變化較為明顯的地方容易挑選出來，進而使標記位置錯誤。

圖 5.10：實驗方法與人為標記位置之誤差在不同絕對偏差值的包含比率直方圖，藍色線(左側)為本論文所提出之方法，紅色線(右側)為使用 HMM 之初始自動分段位置

然而圖 5.10 為實驗結果所有邊界端點與人為標記位置的統計，以下本論文依續 5.1 節音素端點偵測應之誤報率與偵測漏失率的分析結果，將實驗結果依不同發音方法所對應的包含比率做比較，觀察自動語音分段之效能好壞。首先由圖 5.11 中在絕對偏差值為 15 毫秒的範圍內，圖(a)的整體曲線一開始便急遽拉升至近 80%以上的包含比率，但在圖(b)包含比率之整體曲線則是呈現相較緩慢速度的提高。在圖(a)中，由摩擦音與塞擦音的包含比率相較於圖 (b)之結果差距逾 40%，代表著本研究方法確實有助於對此類發音方法之邊界端點來提升自動分段的準確度。然而圖(a)、(b)的結果中發音方法為靜音之曲線趨勢差異為最大，其中隱含

現出本研究方法對於音節間短停頓的修正，有大幅度地改進。

圖 5.11：實驗方法與人為標記位置之誤差以發音方法對應不同絕對偏差值的包含比率直方圖，(a) 本論文所提出之方法，(b) HMM 之初始自動分段位置

在文檔中使用取樣點式聲學參數之音素分段 (頁 63-66)

TCC300 語料庫實驗結果分析 語料庫實驗結果分析 語料庫實驗結果分析 語料庫實驗結果分析

5.2 使用國語 使用國語 使用國語語料庫 使用國語 語料庫 語料庫 語料庫之實驗結果 之實驗結果 之實驗結果 之實驗結果

5.2.1 TCC300 語料庫實驗結果分析 語料庫實驗結果分析 語料庫實驗結果分析 語料庫實驗結果分析

TCC300 語料庫實驗結果分析語料庫實驗結果分析語料庫實驗結果分析語料庫實驗結果分析

5.2 使用國語使用國語使用國語語料庫使用國語語料庫語料庫語料庫之實驗結果之實驗結果之實驗結果之實驗結果

5.2.1 TCC300 語料庫實驗結果分析語料庫實驗結果分析語料庫實驗結果分析語料庫實驗結果分析