音節基頻軌跡之語速正規化

第二章語速相依之階層式韻律模型建立

2.3 韻律聲學特徵參數之語速正規化

2.3.3 音節基頻軌跡之語速正規化

本研究將音節基頻軌跡進行正交展開(orthogonal expansion) [21]，投影到四個 Legendre 多項式基底，以所得之四維正交參數表示基頻軌跡，即spn= a a a an⁰ ¹n n² n³^T，四維正交參數分別代表

其中

2.3 語速語速語速語速韻律模型之設計韻律模型之設計韻律模型之設計韻律模型之設計

律狀態標記有很大相關性，與音節邊界停頓標記相關性非常小，本論文稱 X 為音節韻律參數 (syllable prosodic feature)；第二類為音節邊界的聲學參數{Y, Z}={pd, ed, pj, dl, df}，分別為音 節邊界的停頓時長(pause duration, pd)、能量低點位階(energy-dip level, ed)、正規化基頻差 (normalized pitch jump, pj)及兩種正規化長度拉長因子(normalized duration lengthening factor, dl and df)等，假設此類型的聲學參數與停頓標記有很大相關性，與韻律狀態標記的相關性很小，

本論文稱 Y={pd, ed}為音節內韻律參數(inter-syllabic prosodic feature)、Z={pj, dl, df}為差分韻 律參數(differential prosodic feature)；最後 SR 為本論文所定義的語速測量值，即語句的平均音 節長度。

在語言參數方面，用 L 表示所有的語言參數集合。其中特別將音節聲調、基本音節類型 與韻母類型從 L 中獨立出來，用意在於這三個語言參數對音節基頻軌跡、音節長度及音節能 量位階有顯著的影響，把剩餘的語言參數統一定義為 l(reduced linguistic feature set)。完整的符 號定義整理於表 2.1。

表 2.1：韻律標記、聲學參數及語言參數之表示符號 T: prosodic tag B: break type={B0, B1 ,B2-1, B2-2, B2-3, B3, B4}

PS: prosodic state p: pitch prosodic state q: duration prosodic state r: energy prosodic state A: prosodic feature X: syllable prosodic feature sp: syllable pitch contour

sd: syllable duration se: syllable energy level Y: inter-syllabic prosodic feature pd: pause duration

ed: energy-dip level

Z: differential prosodic features pj: normalized pitch jump

dl: normalized duration lengthening factor 1

df:normalized duration lengthening factor 2

SR: speaking rate

L: linguistic feature l: reduced linguistic feature set

t: syllable tone sequence

s: base-syllable type sequence

f: final type sequence

綜合上述之討論，可將P T A L SR( , | , )改寫成以下形式：是將音節基頻軌跡進行正交展開(orthogonal expansion)，投影到四個Legendre多項式基底所得到的四維正交參數[21]，依以上描述可將sp_n表示成

狀態p_n的APs，其中韻律狀態的影響只限制對目前音節的LogF0 level，故將βp_n 的四維正交係

2.3.2 停頓聲學模型停頓聲學模型停頓聲學模型停頓聲學模型

似函數增益(maximum likelihood gain)搭配一個事先設計好的問題集去實施CART演算法，依據不同的韻律邊界停頓將所有音節邊界的pd_n、ed_n、pj_n、dl_n、df_n做好分類，並於決策樹的每

2.3.3 修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型

節韻律狀態之轉移機率(transition probability)；bin(.)為索引函數(index function)。

2.3.4 修正修正修正修正型停頓語法型停頓語法型停頓語法型停頓語法模型模型模型模型

節點之七種停頓標記，使用一階多項式曲線來模擬停頓標記出現頻率對SR的關係，其數學式如下：

, ,

all break types all break type

( | , ) 是基於最大概似度法則(Maximum Likelihood, ML)，對所有語句找出最佳的韻律標記，並估計模型參數。首先，我們依2.3節所設計之8個模型定義一目標函數(objective function)如下：

(a) 標記所有音節邊界的初始停頓標記

至於音節韻律模型則是用一個漸進式的估測程序，首先估測總體平均值(global mean)的 APs{µ,µ ,_d µ }_e ^{，接下來依序估測聲調}APs{β_t,γ_t,α_t}、基本音節類型與韻母類型APs{γ_s,α_f}、

連音效應APs{β_{B tp}^f_, ,β^b_{B tp}_, }和韻律狀態APs{β_p,γ_q,α_r}。其中初始的韻律狀態則是將音節基頻軌跡、長度及能量位階各別扣除其它APs的殘餘值做向量量化(vector quantization, VQ)，將量化之後的碼字(codeword)當作初始韻律狀態。最後，修正型韻律狀態模型P p B SR( | , )、P q B SR( | , ) 和P r B SR( | , )則是利用已初始化停頓標記及韻律狀態估計而成。

2.4.2 疊代訓練疊代訓練疊代訓練疊代訓練

經初始化後，我們使用一疊代過程來訓練模型，其步驟如下：

步驟1：固定其它APs，更新聲調的APs{β ,_t γ_t,α_t}。

步驟2：固定其它APs，更新連音效應的APs{β_{B tp}^f_, ,β^b_{B tp}_, }，接著更新共變數矩陣R。

步驟3：固定其它APs，更新基本音節類型及韻母類型的APs{γ_s,α_f }，接著更新變異數R_d和R_e。

步驟4：利用維特比(Viterbi)演算法重新標記所有語句之韻律狀態序列，使得目標函數Q 達到最大值，然後更新韻律狀態的ARs{β_p,γ ,_q α }_r ，最後更新修正型韻律狀態模型P p B SR( | , )、P q B SR( | , )和P r B SR( | , )以及共變數矩陣 R 、變異數R 和_d R 。_e 步驟5：利用維特比(Viterbi)演算法重新標記所有語句之停頓標記序列，使得目標函數Q 達到最大值，接著更新修正型韻律狀態模型P p B SR( | , )、P q B SR( | , )與P r B SR( | , ) 以及共變數矩陣R、變異數R 和_d R 。_e

步驟6：利用CART演算法和 Θ 重新建構決策樹，分別更新停頓聲學模型 p pd ed pj dl df B l( _n, _n, _n, _n, _n| _n, )_n 及修正型停頓語法模型P B( _n| ,l_n SR_n)。步驟7：重複步驟1到7的過程直到收斂為止。

第三章第三章

71次達到收斂，其對應的目標總概似度(total likelihood of objective function)如圖3.1所示。接下來的章節將對模型訓練結果及韻律標記結果進行分析。

圖3.1：疊代次數與目標總概似度

3.1 韻律模型參數之分析韻律模型參數之分析韻律模型參數之分析韻律模型參數之分析

此節針對四個韻律子模型的訓練結果進行探討與分析，並與語料庫為基礎之 HPM[3]

(Corpus-based HPM)做比較。

3.1.1 音節韻律模型音節韻律模型音節韻律模型音節韻律模型

音節韻律模型可分成三個子模型，分別用以模擬音節基頻軌跡、音節時長及音節能量位階，本節將探討各種APs對於音節韻律所造成的影響，以及模型參數與語速間的關係變化。

首先，由音節基頻軌跡韻律模型開始，影響因子包含聲調、連音效應和韻律狀態。圖 3.2 顯示基頻軌跡的聲調APs，此結果與過去研究[15]所得之基頻軌跡相符合。

圖3.2：基頻軌跡聲調APs

圖3.3顯示基頻軌跡在停頓標記B0、B1和B4時的前音節連音效應APs，橫軸i表示目前的聲調，縱軸j表示前一音節之聲調。在此選擇 B0、B1 和B4為連音效應最極端的例子，由圖可清礎發現B0的連音效應最嚴重、B1次之，B4影響最小，對於聲調組合為(1, 2)、(1, 3)、 (2, 2)、(2, 3)、(1, 5)等有hight-low mismatch現象，β_{B tp}^f_, 會產生向下彎曲的基頻軌跡來補償其連音效應；另外聲調組合為(3, 1)、(3, 4)、(5, 1)、(5, 4)、(4, 1)、(4, 4)等有low-hight mismatch現象，β_{B tp}^f_, 則會產生向上彎曲的基頻軌跡來補償。

圖3.3：基頻軌跡在停頓標記B0、B1和B4時前音節連音效應APs，在此tp = (i, j)

圖3.4顯示基頻軌跡在停頓標記B0、B1和B4時的前音節連音效應APs，橫軸i表示目前的聲調，縱軸j表示下一音節聲調。由圖觀察到，比較於前音節連音效應β_{B tp}^f_, ，後音節連音效

應β^b_{B tp}_, 變化範圍明顯小了很多，表示後音節連音效應的影響程度不如前音節，此結果與先前研

究[24]符合。其中，特別注意到聲調組合為(3, 3)時，β^b_{B tp}_, 產生劇烈上揚的曲線，這是因為此聲調組合的第一個三聲會被發音為二聲，即變調規則(tone sandhi rule)。

圖3.4：基頻軌跡在停頓標記B0、B1和B4時後音節連音效應APs，在此tp = (i, j)

接下來為音節長度韻律模型分析，影響因子包含聲調、基本音節類型和韻律狀態。圖3.5(a) 顯示音節長度的聲調APs，其中漢語一、二聲的音節長度都較長，五聲特別短，圖3.5(b)顯示音節長度的基本音節類型APs，此基本音節類型是把漢語411基本音節類型依發音特性分成82 類，其中第19類的音節發音最長，此類對應到411音節類型包括” qu”、 ” du” 和” bu”；第59 類的音節發音為最短，對應到411音節類型包括” quan”、 ” qun” 和” qiong”。

(a) (b) 圖3.5：音節長度之(a)聲調APs，(b)基本音節類型APs

最後是音節能量位階韻律模型，影響因子包含聲調、韻母類型及韻律狀態。圖3.6(a)顯示音節能量位階的聲調APs，其中漢語以一、四聲音節能量位階最大，二、三和五聲則較小，圖

3.6(b)顯示音節能量位階的韻母類型APs，在此韻母類型有40類，其中第19類的”wu”音節能量

位階最小，此韻母類型對應到411音節類型如”su”、 ”tu”等；第26類的”wa”音節能量位階最大，

此韻母類型對應到411音節類型如”zhua”、 ”gua” 等。

(a) (b) 圖3.6：音節能量位階之(a)聲調APs，(b)韻母類型APs

利用修正型PLM演算法所標記出來的{B, PS}，搭配其所對應之語言參數{t, s, f}，可以圖 3.7的方式重建不同語速的韻律聲學參數。藉由音節韻律模型模擬韻律聲學特徵參數sp, sd, se^{^} ^{^} ^{^} ^，

再利用語速正規化參數將sp, sd, se^{^} ^{^} ^{^} 還原回各自原本的語速，得到最後的sp , sd , se 。 ^' ^' ^'

Log-F0 Duration Energy level

APs TRE APs TRE APs TRE

+Tone 66.9% +Tone 70.2% +Tone 61.2%

+Coarticulation 60.1% +Base-syllable 51.1% +Final 47.7%

+Prosodic state 0.7% +Prosodic state 1.1% +Prosodic state 1.4%

圖3.8利用β_t和γ_t來模疑快語速與慢語速之五種聲調的音節基頻軌跡。從圖可發現不管快

輕聲的基頻軌跡在快速時較為平坦，在慢速時像低階的三聲。此模擬結果與[3]一致。

圖3.8：快語速與慢語速之五種聲調基頻軌跡模擬圖

3.1.2 停頓聲學模型停頓聲學模型停頓聲學模型停頓聲學模型

停頓聲學模型由CART演算法建構而成，用以描述七種停頓標記B、語言參數l以及音節間

韻律參數{Y}={pd, ed}和音節差韻律參數{Z}={pj, dl, df}之間的關係。圖3.9顯示在不同停頓標記

下，決策樹根節點(root node)五種韻律參數的機率分佈。由圖可發現越上層韻律架構的停頓標記如B3、B4，擁有較長的停頓時長、較低的能量低點、較明顯的基頻跳躍及音節拉長因子；

而B0、B1的停頓時長都非常的短，但B0的能量低點較大，表示B0為兩音節緊密連接的邊界；

B2-2則有中等的停頓時長；B2-1和B2-3的能量低點與停頓時長分佈與B1相似，但B2-1擁有較明顯的基頻跳躍，B2-3則是音節拉長因子較為明顯。這些韻律參數的特性分佈符合本研究最初所定義之停頓標記特性。

(a) (b)

(e)

圖3.9：(a)停頓音節長度，(b)音節能量低點，(c)正規化基頻跳躍值，(d)正規化音節拉長因子1， (e)正規化音節拉長因子2之決策樹根節點機率分佈，其中括號中數值為分佈平均值

停頓時長為停頓標記中最重要的聲學參數，圖3.10顯示了七種停頓標記的平均停頓時長 vs. SR，圖上標出的值，為corpus-based HPM訓練結果[3]。此結果符合預期，B0、B1、B2-1和 B2-1等不具明顯停頓時長的停頓類別幾乎不受SR影響；而B2-2、B3和B4等具明顯停頓時長的

類別，其停頓時長隨著SR呈非線性增加，尤其B3、B4更是如此；另外，由圖得出此結果與

corpus-based HPM訓練結果一致。

圖3.10：平均停頓時長vs. SR；標出值為四個語速corpus-HPM訓練結果

表3.3列出七種停頓類別之重建停頓時長的根均方差(Root Mean Square Errors, RMSEs)。其中只有B2-2、B3和B4誤差較大，因為這些停頓類別都為major break或minor break，故此結果尚可接受。

表3.3：重建停頓時長之RMSEs

Break Type B0 B1 B2-1 B2-2 B2-3 B3 B4

RMSE 2.4 ms 18.5 ms 24.9 ms 86.3 ms 30.8 ms 100.6 ms 147.8 ms

3.1.3 修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型

韻律狀態模型描述了韻律狀態於各停頓邊界的轉移情形，本論文所提出之修正型韻律態模型對語速分bin估計轉移機率值，藉此區分不同語速的狀態轉移情形。

圖3.11顯示音節基頻韻律狀態轉移情形，(a)為第一個bin(即最快語速)韻律狀態轉移情形，

(b)為最後一個bin(即最慢語速)韻律狀態轉移情形，圖上顏色越深的線表示其轉移情形越為重要。由圖發現無論語速快慢，B0與B1都以下降一或二階情形居多，表示在一個韻律詞之內，

基頻韻律變化是由高緩慢至低的；B2-1、B3及B4的韻律狀態都有明顯low-to-high情形，顯示這些韻律邊界容易產生音高重置現象；而B2-3的轉移情形相似於B0/B1，表示B2-3並不以音高重置現象來代表韻律詞邊界。接著比較快語速及慢語速的韻律狀態轉移情形可發現，慢語速在 B4的轉移變動較大，快語速在B4的轉移模式較為集中，B4的基頻韻律狀態轉移為不同語速差

在文檔中考慮語速影響之漢語韻律模型建立與語音合成之應用 (頁 21-0)

第二章 語速相依之階層式韻律模型建立

2.3 韻律聲學特徵參數之語速正規化

2.3.3 音節基頻軌跡之語速正規化

2.3 語速 語速 語速 語速韻律模型之設計 韻律模型之設計 韻律模型之設計 韻律模型之設計

2.3.2 停頓聲學模型 停頓聲學模型 停頓聲學模型 停頓聲學模型

2.3.3 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型

2.3.4 修正 修正 修正 修正型停頓語法 型停頓語法 型停頓語法 型停頓語法模型 模型 模型 模型

2.4.2 疊代訓練 疊代訓練 疊代訓練 疊代訓練

第三章 第三章

3.1 韻律模型參數之分析 韻律模型參數之分析 韻律模型參數之分析 韻律模型參數之分析

3.1.1 音節韻律模型 音節韻律模型 音節韻律模型 音節韻律模型

3.1.2 停頓聲學模型 停頓聲學模型 停頓聲學模型 停頓聲學模型

3.1.3 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型