第四章 自發性語音韻律模型
4.3 韻律模型之分析
本研究在訓練韻律模型時採逐項最佳化程序重覆疊代共 55 次收斂。本節中將會簡單分 析訓練之音節韻律模型、停頓標記聲學模型以及韻律標記結果之觀察結果。
4.3.1 音節韻律模型
音節韻律模型中包含音節基頻軌跡模型p sp B p t( | , , )、音節長度模型p sd B q t s( | , , , )以及音 節能量模型p se B r t f( | , , , )三個子模型,主要用來描述音節中各個影響因子對音節基頻軌跡、
長度以及能量之貢獻。表 4.4 及表 4.5 中列出在基本音節及特殊音節中,扣除不同影響因子 之下,各韻律參數之總殘餘誤差值(Total Residual Error, TRE),即為扣掉各種組合 AP 後殘存 值之變異數與原始資料之變異數的比值,藉此觀察各個影響因子對音節中韻律參數變化之貢 獻大小。
表 4.4:基本音節中,不同組合之 AP 下音節韻律模型參數之 TRE
Pitch Duration Energy
APs TRE APs TRE APs TRE
+Tone with
Coarticulation 91.21% +Tone with
Coarticulation 95.88% +Tone with
Coarticulation 95.98%
+Base Syllable 86.51% +Final 89.16%
+Prsodic State 14.18% +Prsodic State 1.92% +Prsodic State 2.76%
表 4.5:特殊音節中,不同組合之 AP 下音節韻律模型參數之 TRE
Pitch Duration Energy
APs TRE APs TRE APs TRE
+Particular
Syllable Class 86.23% +Particular
Syllable Class 94.03% +Particular
Syllable Class 88.41%
+Prsodic State 40.21% +Prsodic State 13.82% +Prsodic State 38.20%
基本音節中基頻軌跡、長度及能量的變化將受到包含連音現象之聲調所影響,其中音節 長度又會受到音節型態的影響,而音節能量則是受韻母形態所影響,由表 4.4 可以得知在扣 除這些影響因子後,總殘餘誤差值確實是有降低,且在加入韻律狀態影響因子後都會有較大 的變化貢獻。
接著觀察考慮連音現象之聲調影響因子,如圖 4.7 所示。由此圖 4.7 與朗讀式語音之聲 調【16】相比,我們發現在自發性語音中聲調之 AP 之動態範圍(dynamic range)及其基頻軌 跡之曲度都較小,在此我們推測其原因可能為自發性語音之語速較快,造成音節會產生緊密 連接的狀況較多,因此音節基頻軌跡會受鄰近音節的嚴重干擾,以及自發性語音中發音經常 不完全而使聲調之基頻軌跡相當凌亂;另外,由於本語料庫尚有切割位置不準確之處,此狀 況將影響音節中基頻軌跡之求取。
圖 4.7:五個中文聲調之 AP
4.3.2 停頓標記聲學模型
停頓標記聲學模型描述了音節邊界之停頓標記 B 、語言參數 l 與音節間韻律參數 Y 及相 鄰兩音節差異之韻律參數 Z 之間的關係,主要可分為四個子模型 ( ; , , , )
n n n n
n B B
g pd l l 、
2
, ,
( ; , )
n n n n
n B B
N ed l l 、 ( ; , , 2, )
n n n n
n B B
N pj l l 以及 ( ; , , 2, )
n n n n
n B B
N dl l l 。圖 4.8 顯示不考慮語言參數 l 下,
B0~B4 停頓標記決策樹根節點中各個參數之分布圖。觀察圖 4.8(a),B0 與 B1 的停頓長度相 當短,此表示 B0 與 B1 通常出現在相鄰兩音節為緊密連接時,而 B3、B4 會有較長的停頓長 度,因為其主要用來隔離上層韻律單元 PG/BG 以及 PPh 之停頓標記。在觀察圖 4.8(b)音節間 能量低點分布圖亦是如此,B0 因為表示相鄰兩音節為緊密連接而有較大的能量低點,B3/B4 則因為相鄰兩音節停頓大而有較低的音節間能量低點。接著觀察圖 4.8(c)與(d)可發現 B2-1 擁有較大之基頻跳躍值及 B2-3 有較大之正規化音節延長因子,由此可知人類不但使用明顯 的停頓來表示韻律詞的邊界,另外也使用基頻的跳躍以及音節的拉長來表示之。
(b)
(c) (d)
(a)
圖 4.8:(a)音節停頓長度 (b)音節間能量低點 (c)正規化音節延長因子與 (d)正規化基頻跳躍 值之分布圖
4.3.3 停頓標記結果之分析
圖 4.9 為所有音節邊界之停頓標記的分布圖,由圖中可發現 B0 和 B1 所佔的比率很高,
此表示人類在自發性語音中因為說話速度較快因此有音節較常有緊密相連的情況;而 B2-1、
B2-2 以及 B2-3 與朗讀式語音【16】相比出現的比率差不多,但 B2-1 所佔之比率上升且 B2-2 所佔之比率下降,表示人類在語速較快的自發性語音中,在一韻律詞邊界時較少產生音節間 的停頓,而是較常使用基頻的跳躍。最後與【11】相比,BPI、BPO 以及 BP 數量少了許多,
而 B0 和 B1 數量增加,這表示人類在聊天時常出現的「particle」通常都是與前後詞緊連,流 暢性就如同一般基本音節,因此我們還是可以用 B0~ B4 來標記其韻律停頓。
圖 4.9:韻律停頓標記分佈圖
接著觀察實際的韻律停頓標記結果,以下將列出兩個範例及圖 4.10 和圖 4.11 為其相對 應之音檔信號圖。由範例一對照圖 4.10 可看出 B2-1 和 B2-2 確實能反映出基頻跳躍及音節間 短停頓的現象。而範例二對照圖 4.11 中顯示 B2-3 之處會有音節拖長音的現象發生,值得注 意的是 B2-3 也可能因為前一音節長度太短而造成相較此音節有較長的音節長度,如範例二 中的「一些」,「一」的音節數明顯比「些」要來的短,造成在訓練模型時「些」會被判斷為 有拖長音的現象發生。此外,在「particle」部分,範例一中的「O」及範例二中的「LA」與
【11】相比,本研究訓練之模型已將他們歸類為順暢語流中的音節,因此不會出現特殊韻律 現象停頓標記。
範例一:O(Par) 我(Nh) {B2-1} 在(P) 一家(DM) {B2-2} 公關(Na) 公司(Nc) 上班(VA)
圖 4.10:韻律停頓標記範例一之音檔信號圖
範例二: 在(P) 一些(Neqa) {B2-2} 飯{B2-2} 店(Nc) LA(Par) {B2-3} 或是(Caa) 說(VE) {B2-3}
一些(Neqa) {B2-3} 大型(Na) 的(DE) {B2-2} 購物(VA) 中心(Nc) 辦(VC) 活動(Na)
圖 4.11:韻律停頓標記範例二之音檔信號圖