首先,利用 SAT(Speaker Adaptation Transform,feature MLLR )及 SA(Speaker Adaptation, MLLR)後的出語者調適 HMM 模型來做 TCC-300 的類音素單元之初始自動語 音分段位置,接著利用此初始位置依照發音方法的不同做分類,如表 3.1。並由初始位置當
以觀察到短停頓中各個頻段之信號波封與其它有語音信號的地方相比其數值幾乎非常地低 且根據語音屬性不同而有不同的頻譜分佈情形。在此,簡單以信號波封與各頻段之信號波封 來標記短停頓的端點。短停頓標記修正之演算法如下:
(1) 前端點:在原端點位置之前後 30 毫秒的範圍內,判斷語音波形之波封是否小於小於小於小於波
封之臨限值而得到一個交集點,再經由交集點附近距離 10 毫秒內來判斷各個頻段 之信號波封是否小於小於小於小於頻段波封之臨限值的條件作聯集來決定是否有短停頓的狀態。
(2) 後端點:在原端點位置之前後 30 毫秒的範圍內,判斷語音波形之波封是否大於大於大於大於波
封之臨限值而得到一個交集點,再經由交集點附近距離 10 毫秒內來判斷各個頻段 之信號波封是否大於大於大於大於頻段波封之臨限值的條件作聯集來決定是否有短停頓的狀態。
圖 3.8:國語語句端點位置自動調整(短停頓)演算法則之範例,最上方兩列標音位置分別表示 是 HMM 自動語音分段及修正後之語音標記位置;接著由上至下的圖形分別表示語音波形、
聲譜圖、第六個至第一個頻段的信號波封
接下來觀察摩擦音、塞擦音等發音方法之音素,其在於頻譜中與相鄰母音與短停頓有極 大的頻譜差異。在此,使用頻譜 KL 距離、頻譜熵及頻譜熵的上升率來調整音素的端點。圖 3.9 所示,由摩擦音與塞擦音頻譜中可觀察到頻譜 KL 距離在母音轉換至摩擦音、塞擦音之 間有較高的峰值,且摩擦音、塞擦音相鄰母音的端點,其頻譜熵值上升與下降速度很快,分 別在頻譜熵的上升率中造成極大、極小的峰值。頻譜熵的上升率之峰值位置與人所期望的正 確端點位置差距不遠,由先前研究可以了解頻譜熵、 頻譜 KL 距離等已知在音框式量測信 號變化量方法中是非常有用的聲學參數,同樣在取樣式聲學參數量測信號變化量的效果一樣 明顯,且語音之分段位置更精準。
摩擦音、塞擦音程式修正演算法如下式:
(1) 後端點:找到此一區段頻譜熵上升率的相對極小值,在小範圍的搜尋 KL distance 相對極大值。
(2) 前端點:利用後端點的位置當做參考位置,判斷前面是否有短停頓,有則利用短停 頓的方式偵測前端點,若無短停頓則搜尋一段範圍找到此一區段頻譜熵上升率的相 對極大值。
圖 3.9:國語語句端點位置自動調整(摩擦音、塞擦音)演算法則之範例,最上方兩列標音位置 分別表示是 HMM 自動語音分段及修正後之語音標記位置;接著由上至下的圖形分別表示語
音波形、聲譜圖、頻譜 KL 距離、頻譜熵、頻譜熵上升率
爆破音切割位置的修正時,由波形與頻譜觀察中發現通常在爆破音開始的時候會有短停 頓出現,接著波封會有急遽上升的現象,故本論文使用波封之上升率來描述其現象。如圖 3.10 中(a)、(b)小圖所示,在爆破音結束的地方,也是音素轉換的端點。
爆破音程式修正演算法如下式:
(1) 後端點:找到此一區段波封上升率的相對極大值,並在該極大值之位置找到頻譜 KL 距離的相對極大值。
(2) 前端點:利用後端點的位置當做參考位置,判斷前面是否有短停頓,有則利用短停 頓的方式偵測前端點,若無短停頓則搜尋此一區段之頻譜 KL 距離的相對極大值。
圖 3.10:國語語句端點位置自動調整(爆破音)演算法則之範例:(a) d 和(b) g 最上方兩列標 音位置分別表示是 HMM 自動語音分段及修正後之語音標記位置;接著由上至下的圖形分別
表示語音波形、聲譜圖、語音波封上升率、頻譜 KL 距離
另外,鼻音部分可由其語音信號之頻譜分佈多集中在 0.0 – 0.4 kHz 與 0.8 – 1.5 kHz 的低 頻頻段的現象,且與相鄰的音素皆有頻譜上的差異,在此我們也使用頻譜 KL 距離來判斷。
鼻音部分程式修正演算法如下式:
(1) 後端點:由原端點位置搜尋頻譜 KL 距離大於臨限值的位置。
(2) 前端點:利用後端點的位置當做參考位置,判斷前面是否有短停頓,有則利用短停 頓的方式偵測前端點,若無短停頓則搜尋此一區段之頻譜 KL 距離的相對極大值。
最後,母音端點的偵測是利用相鄰母音、子音及短停頓之端點位置,當作母音的端點位 置。由實驗觀察 3.1 節所述之聲學參數特性用於自動分段位置的準確度,並與原本 HMM 初 始語音分段位置作為比較對象,以下列舉 2 個實驗結果之範例,圖 3.11 與圖 3.12。首先由圖 3.11 與 3.12 中,將實驗修正後的語音標記位置對應至語音波形及聲譜圖觀察,實驗結果在音 素之端點位置皆能調整到適當的地方。以方形圈圈選處之聲譜圖中,以紅色線條為分界點,
其前後兩段之語音信號分佈可明顯看出實驗結果能夠將端點位置近乎正確地標示出來,而其 他標記位置之準確度也同樣有好的自動標記效能。另外,有些標記位置是與 HMM 的分段位 置為相同標記位置,原因在於進行實驗的過程當中,若不符合自動調整演算法之條件,其標 記位置則維持不變。
自動調整端點演算法之實驗結果顯示了使用取樣點式聲學參數之特性確實有助於尋找 更佳的端點位置,但演算法所使用之規則是基於聲學參數對應語音信號的觀察與語言學知識 相互組合而成。然而語音信號的變化並非有一定的規則可循,故本論文將利用類神經網路之 特性將各聲學參數之特性作統計分析的彙整,來找出最佳音素端點位置。
圖 3.11:自動調整國語語句端點位置實驗結果之範例一,最上方兩列標音位置分別表示 HMM 自動語音分段及修正後之語音標記位置、語音波形、聲譜圖
圖 3.12:自動調整國語語句端點位置實驗結果之範例二,最上方兩列標音位置分別表示 HMM