修正型韻律狀態模型

第二章語速相依之階層式韻律模型建立

2.3 語速韻律模型之設計

2.3.3 修正型韻律狀態模型

節韻律狀態之轉移機率(transition probability)；bin(.)為索引函數(index function)。

2.3.4 修正修正修正修正型停頓語法型停頓語法型停頓語法型停頓語法模型模型模型模型

節點之七種停頓標記，使用一階多項式曲線來模擬停頓標記出現頻率對SR的關係，其數學式如下：

, ,

all break types all break type

( | , ) 是基於最大概似度法則(Maximum Likelihood, ML)，對所有語句找出最佳的韻律標記，並估計模型參數。首先，我們依2.3節所設計之8個模型定義一目標函數(objective function)如下：

(a) 標記所有音節邊界的初始停頓標記

至於音節韻律模型則是用一個漸進式的估測程序，首先估測總體平均值(global mean)的 APs{µ,µ ,_d µ }_e ^{，接下來依序估測聲調}APs{β_t,γ_t,α_t}、基本音節類型與韻母類型APs{γ_s,α_f}、

連音效應APs{β_{B tp}^f_, ,β^b_{B tp}_, }和韻律狀態APs{β_p,γ_q,α_r}。其中初始的韻律狀態則是將音節基頻軌跡、長度及能量位階各別扣除其它APs的殘餘值做向量量化(vector quantization, VQ)，將量化之後的碼字(codeword)當作初始韻律狀態。最後，修正型韻律狀態模型P p B SR( | , )、P q B SR( | , ) 和P r B SR( | , )則是利用已初始化停頓標記及韻律狀態估計而成。

2.4.2 疊代訓練疊代訓練疊代訓練疊代訓練

經初始化後，我們使用一疊代過程來訓練模型，其步驟如下：

步驟1：固定其它APs，更新聲調的APs{β ,_t γ_t,α_t}。

步驟2：固定其它APs，更新連音效應的APs{β_{B tp}^f_, ,β^b_{B tp}_, }，接著更新共變數矩陣R。

步驟3：固定其它APs，更新基本音節類型及韻母類型的APs{γ_s,α_f }，接著更新變異數R_d和R_e。

步驟4：利用維特比(Viterbi)演算法重新標記所有語句之韻律狀態序列，使得目標函數Q 達到最大值，然後更新韻律狀態的ARs{β_p,γ ,_q α }_r ，最後更新修正型韻律狀態模型P p B SR( | , )、P q B SR( | , )和P r B SR( | , )以及共變數矩陣 R 、變異數R 和_d R 。_e 步驟5：利用維特比(Viterbi)演算法重新標記所有語句之停頓標記序列，使得目標函數Q 達到最大值，接著更新修正型韻律狀態模型P p B SR( | , )、P q B SR( | , )與P r B SR( | , ) 以及共變數矩陣R、變異數R 和_d R 。_e

步驟6：利用CART演算法和 Θ 重新建構決策樹，分別更新停頓聲學模型 p pd ed pj dl df B l( _n, _n, _n, _n, _n| _n, )_n 及修正型停頓語法模型P B( _n| ,l_n SR_n)。步驟7：重複步驟1到7的過程直到收斂為止。

第三章第三章

71次達到收斂，其對應的目標總概似度(total likelihood of objective function)如圖3.1所示。接下來的章節將對模型訓練結果及韻律標記結果進行分析。

圖3.1：疊代次數與目標總概似度

3.1 韻律模型參數之分析韻律模型參數之分析韻律模型參數之分析韻律模型參數之分析

此節針對四個韻律子模型的訓練結果進行探討與分析，並與語料庫為基礎之 HPM[3]

(Corpus-based HPM)做比較。

3.1.1 音節韻律模型音節韻律模型音節韻律模型音節韻律模型

音節韻律模型可分成三個子模型，分別用以模擬音節基頻軌跡、音節時長及音節能量位階，本節將探討各種APs對於音節韻律所造成的影響，以及模型參數與語速間的關係變化。

首先，由音節基頻軌跡韻律模型開始，影響因子包含聲調、連音效應和韻律狀態。圖 3.2 顯示基頻軌跡的聲調APs，此結果與過去研究[15]所得之基頻軌跡相符合。

圖3.2：基頻軌跡聲調APs

圖3.3顯示基頻軌跡在停頓標記B0、B1和B4時的前音節連音效應APs，橫軸i表示目前的聲調，縱軸j表示前一音節之聲調。在此選擇 B0、B1 和B4為連音效應最極端的例子，由圖可清礎發現B0的連音效應最嚴重、B1次之，B4影響最小，對於聲調組合為(1, 2)、(1, 3)、 (2, 2)、(2, 3)、(1, 5)等有hight-low mismatch現象，β_{B tp}^f_, 會產生向下彎曲的基頻軌跡來補償其連音效應；另外聲調組合為(3, 1)、(3, 4)、(5, 1)、(5, 4)、(4, 1)、(4, 4)等有low-hight mismatch現象，β_{B tp}^f_, 則會產生向上彎曲的基頻軌跡來補償。

圖3.3：基頻軌跡在停頓標記B0、B1和B4時前音節連音效應APs，在此tp = (i, j)

圖3.4顯示基頻軌跡在停頓標記B0、B1和B4時的前音節連音效應APs，橫軸i表示目前的聲調，縱軸j表示下一音節聲調。由圖觀察到，比較於前音節連音效應β_{B tp}^f_, ，後音節連音效

應β^b_{B tp}_, 變化範圍明顯小了很多，表示後音節連音效應的影響程度不如前音節，此結果與先前研

究[24]符合。其中，特別注意到聲調組合為(3, 3)時，β^b_{B tp}_, 產生劇烈上揚的曲線，這是因為此聲調組合的第一個三聲會被發音為二聲，即變調規則(tone sandhi rule)。

圖3.4：基頻軌跡在停頓標記B0、B1和B4時後音節連音效應APs，在此tp = (i, j)

接下來為音節長度韻律模型分析，影響因子包含聲調、基本音節類型和韻律狀態。圖3.5(a) 顯示音節長度的聲調APs，其中漢語一、二聲的音節長度都較長，五聲特別短，圖3.5(b)顯示音節長度的基本音節類型APs，此基本音節類型是把漢語411基本音節類型依發音特性分成82 類，其中第19類的音節發音最長，此類對應到411音節類型包括” qu”、 ” du” 和” bu”；第59 類的音節發音為最短，對應到411音節類型包括” quan”、 ” qun” 和” qiong”。

(a) (b) 圖3.5：音節長度之(a)聲調APs，(b)基本音節類型APs

最後是音節能量位階韻律模型，影響因子包含聲調、韻母類型及韻律狀態。圖3.6(a)顯示音節能量位階的聲調APs，其中漢語以一、四聲音節能量位階最大，二、三和五聲則較小，圖

3.6(b)顯示音節能量位階的韻母類型APs，在此韻母類型有40類，其中第19類的”wu”音節能量

位階最小，此韻母類型對應到411音節類型如”su”、 ”tu”等；第26類的”wa”音節能量位階最大，

此韻母類型對應到411音節類型如”zhua”、 ”gua” 等。

(a) (b) 圖3.6：音節能量位階之(a)聲調APs，(b)韻母類型APs

利用修正型PLM演算法所標記出來的{B, PS}，搭配其所對應之語言參數{t, s, f}，可以圖 3.7的方式重建不同語速的韻律聲學參數。藉由音節韻律模型模擬韻律聲學特徵參數sp, sd, se^{^} ^{^} ^{^} ^，

再利用語速正規化參數將sp, sd, se^{^} ^{^} ^{^} 還原回各自原本的語速，得到最後的sp , sd , se 。 ^' ^' ^'

Log-F0 Duration Energy level

APs TRE APs TRE APs TRE

+Tone 66.9% +Tone 70.2% +Tone 61.2%

+Coarticulation 60.1% +Base-syllable 51.1% +Final 47.7%

+Prosodic state 0.7% +Prosodic state 1.1% +Prosodic state 1.4%

圖3.8利用β_t和γ_t來模疑快語速與慢語速之五種聲調的音節基頻軌跡。從圖可發現不管快

輕聲的基頻軌跡在快速時較為平坦，在慢速時像低階的三聲。此模擬結果與[3]一致。

圖3.8：快語速與慢語速之五種聲調基頻軌跡模擬圖

3.1.2 停頓聲學模型停頓聲學模型停頓聲學模型停頓聲學模型

停頓聲學模型由CART演算法建構而成，用以描述七種停頓標記B、語言參數l以及音節間

韻律參數{Y}={pd, ed}和音節差韻律參數{Z}={pj, dl, df}之間的關係。圖3.9顯示在不同停頓標記

下，決策樹根節點(root node)五種韻律參數的機率分佈。由圖可發現越上層韻律架構的停頓標記如B3、B4，擁有較長的停頓時長、較低的能量低點、較明顯的基頻跳躍及音節拉長因子；

而B0、B1的停頓時長都非常的短，但B0的能量低點較大，表示B0為兩音節緊密連接的邊界；

B2-2則有中等的停頓時長；B2-1和B2-3的能量低點與停頓時長分佈與B1相似，但B2-1擁有較明顯的基頻跳躍，B2-3則是音節拉長因子較為明顯。這些韻律參數的特性分佈符合本研究最初所定義之停頓標記特性。

(a) (b)

(e)

圖3.9：(a)停頓音節長度，(b)音節能量低點，(c)正規化基頻跳躍值，(d)正規化音節拉長因子1， (e)正規化音節拉長因子2之決策樹根節點機率分佈，其中括號中數值為分佈平均值

停頓時長為停頓標記中最重要的聲學參數，圖3.10顯示了七種停頓標記的平均停頓時長 vs. SR，圖上標出的值，為corpus-based HPM訓練結果[3]。此結果符合預期，B0、B1、B2-1和 B2-1等不具明顯停頓時長的停頓類別幾乎不受SR影響；而B2-2、B3和B4等具明顯停頓時長的

類別，其停頓時長隨著SR呈非線性增加，尤其B3、B4更是如此；另外，由圖得出此結果與

corpus-based HPM訓練結果一致。

圖3.10：平均停頓時長vs. SR；標出值為四個語速corpus-HPM訓練結果

表3.3列出七種停頓類別之重建停頓時長的根均方差(Root Mean Square Errors, RMSEs)。其中只有B2-2、B3和B4誤差較大，因為這些停頓類別都為major break或minor break，故此結果尚可接受。

表3.3：重建停頓時長之RMSEs

Break Type B0 B1 B2-1 B2-2 B2-3 B3 B4

RMSE 2.4 ms 18.5 ms 24.9 ms 86.3 ms 30.8 ms 100.6 ms 147.8 ms

3.1.3 修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型

韻律狀態模型描述了韻律狀態於各停頓邊界的轉移情形，本論文所提出之修正型韻律態模型對語速分bin估計轉移機率值，藉此區分不同語速的狀態轉移情形。

圖3.11顯示音節基頻韻律狀態轉移情形，(a)為第一個bin(即最快語速)韻律狀態轉移情形，

(b)為最後一個bin(即最慢語速)韻律狀態轉移情形，圖上顏色越深的線表示其轉移情形越為重要。由圖發現無論語速快慢，B0與B1都以下降一或二階情形居多，表示在一個韻律詞之內，

基頻韻律變化是由高緩慢至低的；B2-1、B3及B4的韻律狀態都有明顯low-to-high情形，顯示這些韻律邊界容易產生音高重置現象；而B2-3的轉移情形相似於B0/B1，表示B2-3並不以音高重置現象來代表韻律詞邊界。接著比較快語速及慢語速的韻律狀態轉移情形可發現，慢語速在 B4的轉移變動較大，快語速在B4的轉移模式較為集中，B4的基頻韻律狀態轉移為不同語速差異最大的地方。

(a)

(b)

圖3.11：(a)快語速，(b)慢語速於不同停頓標記下基頻韻律狀態的轉移情形。顏色越深表示轉移情形越重要

圖3.12是以條件熵(conditional entropy) H p( _n|p_n₋₁,B_n =b)量化基頻韻律狀態轉移對SR的關係，在此僅顯示B0和B4等最極端的韻律邊界。由圖發現無論B0或B4，entropy皆隨著SR增加

而有升高的趨勢，又以B0邊界尤其明顯。這代表語速越慢，基頻韻律狀態轉移越不一致，此結果更確定了韻律狀態轉移和語速相關聯。另外圖亦標上corpus-based HPM訓練結果，其結果僅中速語料較為不一致。

(a) (b)

圖3.12：韻律標記為(a)B0，(b)B4時基頻韻律狀態轉移entropy vs. SR

圖3.13顯示音節長度韻律狀態轉移情形，B3、B4擁有最大範圍的high-to-low狀態轉移變遷，代表在PPh和BG/PG等大韻律單元邊界容易產生final lengthening effect；B2-2則為較小的 high-to-low狀態轉移變遷，final lengthening effect不如B3、B4強烈，B2-3亦是如此，表示即使無明顯停頓時長，仍可以音節拉長現象來反應此為一韻律詞邊界。在不同語速比較中，可發現快語速在B3、B4擁有大範圍的high-to-low狀態轉移變遷，且其轉移模式較固定，而慢速則轉移範圍較小，轉移模式為散亂不固定；另外B0、B1部份，慢語速有較快語速更明顯的low-to-high 狀態轉移變遷，表示一個韻律詞內慢語速的韻律變化是由低至高的。

(a)

(b)

圖3.13：(a)快語速，(b)慢語速於不同停頓標記下音長韻律狀態的轉移情形。顏色越深表示轉移情形越重要

圖3.14顯示音節長度韻律狀態轉移的conditional entropy H q( _n|q_n₋₁,B_n=b)對SR的關係；此結果與基頻韻律狀態的類似，都是SR越大時entropy越大。在corpus-based HPM只有快速語料較

為一致，正常語速和慢速語料的entropy皆偏高，可能是其語料有極端語速的語句所造成之結果。

(a) (b) 圖3.14：韻律標記為(a)B0，(b)B4時音長韻律狀態轉移entropy vs. SR

圖3.15顯示了音節能量韻律狀態的轉移情形，在B3、B4有大範圍low-to-high轉移情形，表

在文檔中考慮語速影響之漢語韻律模型建立與語音合成之應用 (頁 28-0)

第二章 語速相依之階層式韻律模型建立

2.3 語速韻律模型之設計

2.3.3 修正型韻律狀態模型

2.3.4 修正 修正 修正 修正型停頓語法 型停頓語法 型停頓語法 型停頓語法模型 模型 模型 模型

2.4.2 疊代訓練 疊代訓練 疊代訓練 疊代訓練

第三章 第三章

3.1 韻律模型參數之分析 韻律模型參數之分析 韻律模型參數之分析 韻律模型參數之分析

3.1.1 音節韻律模型 音節韻律模型 音節韻律模型 音節韻律模型

3.1.2 停頓聲學模型 停頓聲學模型 停頓聲學模型 停頓聲學模型

3.1.3 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型