韻律模型參數之分析

第三章語速韻律模型訓練結果與分析

3.1 韻律模型參數之分析

此節針對四個韻律子模型的訓練結果進行探討與分析，並與語料庫為基礎之 HPM[3]

(Corpus-based HPM)做比較。

3.1.1 音節韻律模型音節韻律模型音節韻律模型音節韻律模型

音節韻律模型可分成三個子模型，分別用以模擬音節基頻軌跡、音節時長及音節能量位階，本節將探討各種APs對於音節韻律所造成的影響，以及模型參數與語速間的關係變化。

首先，由音節基頻軌跡韻律模型開始，影響因子包含聲調、連音效應和韻律狀態。圖 3.2 顯示基頻軌跡的聲調APs，此結果與過去研究[15]所得之基頻軌跡相符合。

圖3.2：基頻軌跡聲調APs

圖3.3顯示基頻軌跡在停頓標記B0、B1和B4時的前音節連音效應APs，橫軸i表示目前的聲調，縱軸j表示前一音節之聲調。在此選擇 B0、B1 和B4為連音效應最極端的例子，由圖可清礎發現B0的連音效應最嚴重、B1次之，B4影響最小，對於聲調組合為(1, 2)、(1, 3)、 (2, 2)、(2, 3)、(1, 5)等有hight-low mismatch現象，β_{B tp}^f_, 會產生向下彎曲的基頻軌跡來補償其連音效應；另外聲調組合為(3, 1)、(3, 4)、(5, 1)、(5, 4)、(4, 1)、(4, 4)等有low-hight mismatch現象，β_{B tp}^f_, 則會產生向上彎曲的基頻軌跡來補償。

圖3.3：基頻軌跡在停頓標記B0、B1和B4時前音節連音效應APs，在此tp = (i, j)

圖3.4顯示基頻軌跡在停頓標記B0、B1和B4時的前音節連音效應APs，橫軸i表示目前的聲調，縱軸j表示下一音節聲調。由圖觀察到，比較於前音節連音效應β_{B tp}^f_, ，後音節連音效

應β^b_{B tp}_, 變化範圍明顯小了很多，表示後音節連音效應的影響程度不如前音節，此結果與先前研

究[24]符合。其中，特別注意到聲調組合為(3, 3)時，β^b_{B tp}_, 產生劇烈上揚的曲線，這是因為此聲調組合的第一個三聲會被發音為二聲，即變調規則(tone sandhi rule)。

圖3.4：基頻軌跡在停頓標記B0、B1和B4時後音節連音效應APs，在此tp = (i, j)

接下來為音節長度韻律模型分析，影響因子包含聲調、基本音節類型和韻律狀態。圖3.5(a) 顯示音節長度的聲調APs，其中漢語一、二聲的音節長度都較長，五聲特別短，圖3.5(b)顯示音節長度的基本音節類型APs，此基本音節類型是把漢語411基本音節類型依發音特性分成82 類，其中第19類的音節發音最長，此類對應到411音節類型包括” qu”、 ” du” 和” bu”；第59 類的音節發音為最短，對應到411音節類型包括” quan”、 ” qun” 和” qiong”。

(a) (b) 圖3.5：音節長度之(a)聲調APs，(b)基本音節類型APs

最後是音節能量位階韻律模型，影響因子包含聲調、韻母類型及韻律狀態。圖3.6(a)顯示音節能量位階的聲調APs，其中漢語以一、四聲音節能量位階最大，二、三和五聲則較小，圖

3.6(b)顯示音節能量位階的韻母類型APs，在此韻母類型有40類，其中第19類的”wu”音節能量

位階最小，此韻母類型對應到411音節類型如”su”、 ”tu”等；第26類的”wa”音節能量位階最大，

此韻母類型對應到411音節類型如”zhua”、 ”gua” 等。

(a) (b) 圖3.6：音節能量位階之(a)聲調APs，(b)韻母類型APs

利用修正型PLM演算法所標記出來的{B, PS}，搭配其所對應之語言參數{t, s, f}，可以圖 3.7的方式重建不同語速的韻律聲學參數。藉由音節韻律模型模擬韻律聲學特徵參數sp, sd, se^{^} ^{^} ^{^} ^，

再利用語速正規化參數將sp, sd, se^{^} ^{^} ^{^} 還原回各自原本的語速，得到最後的sp , sd , se 。 ^' ^' ^'

Log-F0 Duration Energy level

APs TRE APs TRE APs TRE

+Tone 66.9% +Tone 70.2% +Tone 61.2%

+Coarticulation 60.1% +Base-syllable 51.1% +Final 47.7%

+Prosodic state 0.7% +Prosodic state 1.1% +Prosodic state 1.4%

圖3.8利用β_t和γ_t來模疑快語速與慢語速之五種聲調的音節基頻軌跡。從圖可發現不管快

輕聲的基頻軌跡在快速時較為平坦，在慢速時像低階的三聲。此模擬結果與[3]一致。

圖3.8：快語速與慢語速之五種聲調基頻軌跡模擬圖

3.1.2 停頓聲學模型停頓聲學模型停頓聲學模型停頓聲學模型

停頓聲學模型由CART演算法建構而成，用以描述七種停頓標記B、語言參數l以及音節間

韻律參數{Y}={pd, ed}和音節差韻律參數{Z}={pj, dl, df}之間的關係。圖3.9顯示在不同停頓標記

下，決策樹根節點(root node)五種韻律參數的機率分佈。由圖可發現越上層韻律架構的停頓標記如B3、B4，擁有較長的停頓時長、較低的能量低點、較明顯的基頻跳躍及音節拉長因子；

而B0、B1的停頓時長都非常的短，但B0的能量低點較大，表示B0為兩音節緊密連接的邊界；

B2-2則有中等的停頓時長；B2-1和B2-3的能量低點與停頓時長分佈與B1相似，但B2-1擁有較明顯的基頻跳躍，B2-3則是音節拉長因子較為明顯。這些韻律參數的特性分佈符合本研究最初所定義之停頓標記特性。

(a) (b)

(e)

圖3.9：(a)停頓音節長度，(b)音節能量低點，(c)正規化基頻跳躍值，(d)正規化音節拉長因子1， (e)正規化音節拉長因子2之決策樹根節點機率分佈，其中括號中數值為分佈平均值

停頓時長為停頓標記中最重要的聲學參數，圖3.10顯示了七種停頓標記的平均停頓時長 vs. SR，圖上標出的值，為corpus-based HPM訓練結果[3]。此結果符合預期，B0、B1、B2-1和 B2-1等不具明顯停頓時長的停頓類別幾乎不受SR影響；而B2-2、B3和B4等具明顯停頓時長的

類別，其停頓時長隨著SR呈非線性增加，尤其B3、B4更是如此；另外，由圖得出此結果與

corpus-based HPM訓練結果一致。

圖3.10：平均停頓時長vs. SR；標出值為四個語速corpus-HPM訓練結果

表3.3列出七種停頓類別之重建停頓時長的根均方差(Root Mean Square Errors, RMSEs)。其中只有B2-2、B3和B4誤差較大，因為這些停頓類別都為major break或minor break，故此結果尚可接受。

表3.3：重建停頓時長之RMSEs

Break Type B0 B1 B2-1 B2-2 B2-3 B3 B4

RMSE 2.4 ms 18.5 ms 24.9 ms 86.3 ms 30.8 ms 100.6 ms 147.8 ms

3.1.3 修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型

韻律狀態模型描述了韻律狀態於各停頓邊界的轉移情形，本論文所提出之修正型韻律態模型對語速分bin估計轉移機率值，藉此區分不同語速的狀態轉移情形。

圖3.11顯示音節基頻韻律狀態轉移情形，(a)為第一個bin(即最快語速)韻律狀態轉移情形，

(b)為最後一個bin(即最慢語速)韻律狀態轉移情形，圖上顏色越深的線表示其轉移情形越為重要。由圖發現無論語速快慢，B0與B1都以下降一或二階情形居多，表示在一個韻律詞之內，

基頻韻律變化是由高緩慢至低的；B2-1、B3及B4的韻律狀態都有明顯low-to-high情形，顯示這些韻律邊界容易產生音高重置現象；而B2-3的轉移情形相似於B0/B1，表示B2-3並不以音高重置現象來代表韻律詞邊界。接著比較快語速及慢語速的韻律狀態轉移情形可發現，慢語速在 B4的轉移變動較大，快語速在B4的轉移模式較為集中，B4的基頻韻律狀態轉移為不同語速差異最大的地方。

(a)

(b)

圖3.11：(a)快語速，(b)慢語速於不同停頓標記下基頻韻律狀態的轉移情形。顏色越深表示轉移情形越重要

圖3.12是以條件熵(conditional entropy) H p( _n|p_n₋₁,B_n =b)量化基頻韻律狀態轉移對SR的關係，在此僅顯示B0和B4等最極端的韻律邊界。由圖發現無論B0或B4，entropy皆隨著SR增加

而有升高的趨勢，又以B0邊界尤其明顯。這代表語速越慢，基頻韻律狀態轉移越不一致，此結果更確定了韻律狀態轉移和語速相關聯。另外圖亦標上corpus-based HPM訓練結果，其結果僅中速語料較為不一致。

(a) (b)

圖3.12：韻律標記為(a)B0，(b)B4時基頻韻律狀態轉移entropy vs. SR

圖3.13顯示音節長度韻律狀態轉移情形，B3、B4擁有最大範圍的high-to-low狀態轉移變遷，代表在PPh和BG/PG等大韻律單元邊界容易產生final lengthening effect；B2-2則為較小的 high-to-low狀態轉移變遷，final lengthening effect不如B3、B4強烈，B2-3亦是如此，表示即使無明顯停頓時長，仍可以音節拉長現象來反應此為一韻律詞邊界。在不同語速比較中，可發現快語速在B3、B4擁有大範圍的high-to-low狀態轉移變遷，且其轉移模式較固定，而慢速則轉移範圍較小，轉移模式為散亂不固定；另外B0、B1部份，慢語速有較快語速更明顯的low-to-high 狀態轉移變遷，表示一個韻律詞內慢語速的韻律變化是由低至高的。

(a)

(b)

圖3.13：(a)快語速，(b)慢語速於不同停頓標記下音長韻律狀態的轉移情形。顏色越深表示轉移情形越重要

圖3.14顯示音節長度韻律狀態轉移的conditional entropy H q( _n|q_n₋₁,B_n=b)對SR的關係；此結果與基頻韻律狀態的類似，都是SR越大時entropy越大。在corpus-based HPM只有快速語料較

為一致，正常語速和慢速語料的entropy皆偏高，可能是其語料有極端語速的語句所造成之結果。

(a) (b) 圖3.14：韻律標記為(a)B0，(b)B4時音長韻律狀態轉移entropy vs. SR

圖3.15顯示了音節能量韻律狀態的轉移情形，在B3、B4有大範圍low-to-high轉移情形，表

示PPh和BG/PG等後邊界的音節能量會降至很低，再由新的韻律單元起始將能量重新提高，此

結果驗證了在PPh和BG/PG裡，音節能量的趨勢是由高衰減至低的，接著再進行能量重置。而不同語速能量韻律狀態的轉移情形差異不大，表示人說話的能量變化和SR相關性是很小的，

如2.3.4所討論。

(a)

(b)

圖3.15：(a)快語速，(b)慢語速於不同停頓標記下能量韻律狀態的轉移情形。顏色越深表示轉移情形越重要

3.1.4 修正型停頓語法模型修正型停頓語法模型修正型停頓語法模型修正型停頓語法模型

圖3.16：停頓語法模型決策樹，節點中直方圖為各停頓標記的發生機率，由左至右分別是B0, B1, B2-1, B2-2, B2-3, B3, B4，數值為該節點的總樣本數

接下來進行建構修正型語法模型第二步，在決策樹每一終止節點考慮語速的影響，藉由線性迴歸的方式得到p B( _n|l_n,SR_n)。圖3.17顯示了三個例子，分別為：(a)屬於major break的B4在 PM node(即節點2)，(b) minor break中擁有短停頓的B2-2在non-PM inter-word node(即節點6)，以及(c)屬於non-break的B1在intra-word node(即節點7)。由圖可觀察到例子(b)B2-2在快語速的發生頻率很低，隨著SR增加其頻率呈線性增加；例子(a)B4擁有和例子(b)B2-2類似的趨勢，但斜率較不明顯；例子(c)B0在的情形則是和上述兩例相反，發生頻率在低SR時較高而高SR時較高。

綜合以上觀察總結：在non-PM, interword的韻律邊界minor break受語速影響最嚴重的地方；而在標點符號的韻律邊界，無論語速快慢都容易出現major break，SR在此的影響不大；在

intra-word韻律邊界亦是如此，non-break出現的頻率並不因SR而有明顯變化。

(a) (b)

(c)

圖3.17：(a) B4於PM節點，(b) B2-2於non-PM, inter-word節點，(c) B0於intra-word節點之發生頻率vs. SR

接下來由圖3.18觀察語速對於整個語法決策樹的影響，圖中節點的直方圖表示七種停頓類別發生機率對SR之斜率。在此分三個部份來討論，(1) intra-word node往下長的部份之停頓類別大多為B0或B1，大部份的斜率值都很低，表示停頓機率與SR相關性很小，除了type 2 intra-word node屬於較不緊密的intra-word邊界，其受SR的影響類似於non-PM, inter-word。(2)

non-PM, inter-word node往下長的部份為SR影響最明顯之處，B2-2的斜率都為明顯正值，B0和

在文檔中考慮語速影響之漢語韻律模型建立與語音合成之應用 (頁 33-51)

第三章 語速韻律模型訓練結果與分析

3.1 韻律模型參數之分析

3.1.1 音節韻律模型 音節韻律模型 音節韻律模型 音節韻律模型

3.1.2 停頓聲學模型 停頓聲學模型 停頓聲學模型 停頓聲學模型

3.1.3 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型

3.1.4 修正型停頓語法模型 修正型停頓語法模型 修正型停頓語法模型 修正型停頓語法模型

第三章語速韻律模型訓練結果與分析

3.1.1 音節韻律模型音節韻律模型音節韻律模型音節韻律模型

3.1.2 停頓聲學模型停頓聲學模型停頓聲學模型停頓聲學模型

3.1.3 修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型

3.1.4 修正型停頓語法模型修正型停頓語法模型修正型停頓語法模型修正型停頓語法模型