• 沒有找到結果。

第二章 語速相依之階層式韻律模型建立

2.3 語速韻律模型之設計

2.3.3 修正型韻律狀態模型

節韻律狀態之轉移機率(transition probability);bin(.)為索引函數(index function)。

2.3.4 修正 修正 修正 修正型停頓語法 型停頓語法 型停頓語法 型停頓語法模型 模型 模型 模型

節點之七種停頓標記,使用一階多項式曲線來模擬停頓標記出現頻率對SR的關係,其數學式 如下:

, ,

, ,

all break types all break type

( | , ) 是基於最大概似度法則(Maximum Likelihood, ML),對所有語句找出最佳的韻律標記,並估計 模型參數。首先,我們依2.3節所設計之8個模型定義一目標函數(objective function)如下:

(a) 標記所有音節邊界的初始停頓標記

至於 音節韻律模 型則是用一個漸進式的估測程序,首先估 測總體平均 值(global mean)的 APs{µ,µ ,d µ }e ,接下來依序估測聲調APs{βttt}、基本音節類型與韻母類型APs{γsf}、

連音效應APs{βB tpf, ,βbB tp, }和韻律狀態APs{βpqr}。其中初始的韻律狀態則是將音節基頻軌 跡、長度及能量位階各別扣除其它APs的殘餘值做向量量化(vector quantization, VQ),將量化 之後的碼字(codeword)當作初始韻律狀態。最後,修正型韻律狀態模型P p B SR( | , )、P q B SR( | , ) 和P r B SR( | , )則是利用已初始化停頓標記及韻律狀態估計而成。

2.4.2 疊代訓練 疊代訓練 疊代訓練 疊代訓練

經初始化後,我們使用一疊代過程來訓練模型,其步驟如下:

步驟1:固定其它APs,更新聲調的APs{β ,t γtt}。

步驟2:固定其它APs,更新連音效應的APs{βB tpf, ,βbB tp, },接著更新共變數矩陣R

步驟3:固定其它APs,更新基本音節類型及韻母類型的APs{γsf },接著更新變異 數RdRe

步驟4:利用維特比(Viterbi)演算法重新標記所有語句之韻律狀態序列,使得目標函數Q 達到最大值,然後更新韻律狀態的ARs{βp,γ ,q α }r ,最後更新修正型韻律狀態 模型P p B SR( | , )、P q B SR( | , )和P r B SR( | , )以及共變數矩陣 R 、變異數R 和d R 。e 步驟5:利用維特比(Viterbi)演算法重新標記所有語句之停頓標記序列,使得目標函數Q 達到最大值,接著更新修正型韻律狀態模型P p B SR( | , )、P q B SR( | , )與P r B SR( | , ) 以及共變數矩陣R、變異數R 和d R 。e

步驟6:利用CART演算法和 Θ 重新建構決策樹,分別更新停頓聲學模型 p pd ed pj dl df B l( n, n, n, n, n| n, )n 及修正型停頓語法模型P B( n| ,ln SRn)。 步驟7:重複步驟1到7的過程直到收斂為止。

第三章 第三章

71次達到收斂,其對應的目標總概似度(total likelihood of objective function)如圖3.1所示。接 下來的章節將對模型訓練結果及韻律標記結果進行分析。

圖3.1:疊代次數與目標總概似度

3.1 韻律模型參數之分析 韻律模型參數之分析 韻律模型參數之分析 韻律模型參數之分析

此節針對四個韻律子模型的訓練結果進行探討與分析,並與語料庫為基礎之 HPM[3]

(Corpus-based HPM)做比較。

3.1.1 音節韻律模型 音節韻律模型 音節韻律模型 音節韻律模型

音節韻律模型可分成三個子模型,分別用以模擬音節基頻軌跡、音節時長及音節能量位 階,本節將探討各種APs對於音節韻律所造成的影響,以及模型參數與語速間的關係變化。

首先,由音節基頻軌跡韻律模型開始,影響因子包含聲調、連音效應和韻律狀態。圖 3.2 顯示基頻軌跡的聲調APs,此結果與過去研究[15]所得之基頻軌跡相符合。

圖3.2:基頻軌跡聲調APs

圖3.3顯示基頻軌跡在停頓標記B0B1B4時的前音節連音效應APs,橫軸i表示目前 的聲調,縱軸j表示前一音節之聲調。在此選擇 B0、B1 和B4為連音效應最極端的例子,由 圖可清礎發現B0的連音效應最嚴重、B1次之,B4影響最小,對於聲調組合為(1, 2)、(1, 3)、 (2, 2)、(2, 3)、(1, 5)等有hight-low mismatch現象,βB tpf, 會產生向下彎曲的基頻軌跡來補償其連 音效應;另外聲調組合為(3, 1)、(3, 4)、(5, 1)、(5, 4)、(4, 1)、(4, 4)等有low-hight mismatch現 象,βB tpf, 則會產生向上彎曲的基頻軌跡來補償。

圖3.3:基頻軌跡在停頓標記B0B1B4時前音節連音效應APs,在此tp = (i, j)

圖3.4顯示基頻軌跡在停頓標記B0B1B4時的前音節連音效應APs,橫軸i表示目前 的聲調,縱軸j表示下一音節聲調。由圖觀察到,比較於前音節連音效應βB tpf, ,後音節連音效

βbB tp, 變化範圍明顯小了很多,表示後音節連音效應的影響程度不如前音節,此結果與先前研

究[24]符合。其中,特別注意到聲調組合為(3, 3)時,βbB tp, 產生劇烈上揚的曲線,這是因為此聲 調組合的第一個三聲會被發音為二聲,即變調規則(tone sandhi rule)。

圖3.4:基頻軌跡在停頓標記B0B1B4時後音節連音效應APs,在此tp = (i, j)

接下來為音節長度韻律模型分析,影響因子包含聲調、基本音節類型和韻律狀態。圖3.5(a) 顯示音節長度的聲調APs,其中漢語一、二聲的音節長度都較長,五聲特別短,圖3.5(b)顯示音 節長度的基本音節類型APs,此基本音節類型是把漢語411基本音節類型依發音特性分成82 類,其中第19類的音節發音最長,此類對應到411音節類型包括” qu”、 ” du” 和” bu”;第59 類的音節發音為最短,對應到411音節類型包括” quan”、 ” qun” 和” qiong”。

(a) (b) 圖3.5:音節長度之(a)聲調APs,(b)基本音節類型APs

最後是音節能量位階韻律模型,影響因子包含聲調、韻母類型及韻律狀態。圖3.6(a)顯示 音節能量位階的聲調APs,其中漢語以一、四聲音節能量位階最大,二、三和五聲則較小,圖

3.6(b)顯示音節能量位階的韻母類型APs,在此韻母類型有40類,其中第19類的”wu”音節能量

位階最小,此韻母類型對應到411音節類型如”su”、 ”tu”等;第26類的”wa”音節能量位階最大,

此韻母類型對應到411音節類型如”zhua”、 ”gua” 等。

(a) (b) 圖3.6:音節能量位階之(a)聲調APs,(b)韻母類型APs

利用修正型PLM演算法所標記出來的{B, PS},搭配其所對應之語言參數{t, s, f},可以圖 3.7的方式重建不同語速的韻律聲學參數。藉由音節韻律模型模擬韻律聲學特徵參數sp, sd, se^ ^ ^

再利用語速正規化參數將sp, sd, se^ ^ ^ 還原回各自原本的語速,得到最後的sp , sd , se 。 ' ' '

Log-F0 Duration Energy level

APs TRE APs TRE APs TRE

+Tone 66.9% +Tone 70.2% +Tone 61.2%

+Coarticulation 60.1% +Base-syllable 51.1% +Final 47.7%

+Prosodic state 0.7% +Prosodic state 1.1% +Prosodic state 1.4%

圖3.8利用βt和γt來模疑快語速與慢語速之五種聲調的音節基頻軌跡。從圖可發現不管快

輕聲的基頻軌跡在快速時較為平坦,在慢速時像低階的三聲。此模擬結果與[3]一致。

圖3.8:快語速與慢語速之五種聲調基頻軌跡模擬圖

3.1.2 停頓聲學模型 停頓聲學模型 停頓聲學模型 停頓聲學模型

停頓聲學模型由CART演算法建構而成,用以描述七種停頓標記B、語言參數l以及音節間

韻律參數{Y}={pd, ed}和音節差韻律參數{Z}={pj, dl, df}之間的關係。圖3.9顯示在不同停頓標記

下,決策樹根節點(root node)五種韻律參數的機率分佈。由圖可發現越上層韻律架構的停頓標 記如B3B4,擁有較長的停頓時長、較低的能量低點、較明顯的基頻跳躍及音節拉長因子;

B0B1的停頓時長都非常的短,但B0的能量低點較大,表示B0為兩音節緊密連接的邊界;

B2-2則有中等的停頓時長;B2-1B2-3的能量低點與停頓時長分佈與B1相似,但B2-1擁有較明 顯的基頻跳躍,B2-3則是音節拉長因子較為明顯。這些韻律參數的特性分佈符合本研究最初所 定義之停頓標記特性。

(a) (b)

(c) (d)

(e)

圖3.9:(a)停頓音節長度,(b)音節能量低點,(c)正規化基頻跳躍值,(d)正規化音節拉長因子1, (e)正規化音節拉長因子2之決策樹根節點機率分佈,其中括號中數值為分佈平均值

停頓時長為停頓標記中最重要的聲學參數,圖3.10顯示了七種停頓標記的平均停頓時長 vs. SR,圖上標出的值,為corpus-based HPM訓練結果[3]。此結果符合預期,B0B1B2-1B2-1等不具明顯停頓時長的停頓類別幾乎不受SR影響;而B2-2B3B4等具明顯停頓時長的

類別,其停頓時長隨著SR呈非線性增加,尤其B3B4更是如此;另外,由圖得出此結果與

corpus-based HPM訓練結果一致。

圖3.10:平均停頓時長vs. SR;標出值為四個語速corpus-HPM訓練結果

表3.3列出七種停頓類別之重建停頓時長的根均方差(Root Mean Square Errors, RMSEs)。其 中只有B2-2B3B4誤差較大,因為這些停頓類別都為major break或minor break,故此結果尚 可接受。

表3.3:重建停頓時長之RMSEs

Break Type B0 B1 B2-1 B2-2 B2-3 B3 B4

RMSE 2.4 ms 18.5 ms 24.9 ms 86.3 ms 30.8 ms 100.6 ms 147.8 ms

3.1.3 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型

韻律狀態模型描述了韻律狀態於各停頓邊界的轉移情形,本論文所提出之修正型韻律態模 型對語速分bin估計轉移機率值,藉此區分不同語速的狀態轉移情形。

圖3.11顯示音節基頻韻律狀態轉移情形,(a)為第一個bin(即最快語速)韻律狀態轉移情形,

(b)為最後一個bin(即最慢語速)韻律狀態轉移情形,圖上顏色越深的線表示其轉移情形越為重 要。由圖發現無論語速快慢,B0B1都以下降一或二階情形居多,表示在一個韻律詞之內,

基頻韻律變化是由高緩慢至低的;B2-1B3B4的韻律狀態都有明顯low-to-high情形,顯示這 些韻律邊界容易產生音高重置現象;而B2-3的轉移情形相似於B0/B1,表示B2-3並不以音高重 置現象來代表韻律詞邊界。接著比較快語速及慢語速的韻律狀態轉移情形可發現,慢語速在 B4的轉移變動較大,快語速在B4的轉移模式較為集中,B4的基頻韻律狀態轉移為不同語速差 異最大的地方。

(a)

(b)

圖3.11:(a)快語速,(b)慢語速於不同停頓標記下基頻韻律狀態的轉移情形。顏色越深表示轉 移情形越重要

圖3.12是以條件熵(conditional entropy) H p( n|pn1,Bn =b)量化基頻韻律狀態轉移對SR的 關係,在此僅顯示B0B4等最極端的韻律邊界。由圖發現無論B0B4,entropy皆隨著SR增加

而有升高的趨勢,又以B0邊界尤其明顯。這代表語速越慢,基頻韻律狀態轉移越不一致,此 結果更確定了韻律狀態轉移和語速相關聯。另外圖亦標上corpus-based HPM訓練結果,其結果 僅中速語料較為不一致。

(a) (b)

圖3.12:韻律標記為(a)B0,(b)B4時基頻韻律狀態轉移entropy vs. SR

圖3.13顯示音節長度韻律狀態轉移情形,B3B4擁有最大範圍的high-to-low狀態轉移變 遷,代表在PPh和BG/PG等大韻律單元邊界容易產生final lengthening effect;B2-2則為較小的 high-to-low狀態轉移變遷,final lengthening effect不如B3B4強烈,B2-3亦是如此,表示即使 無明顯停頓時長,仍可以音節拉長現象來反應此為一韻律詞邊界。在不同語速比較中,可發現 快語速在B3B4擁有大範圍的high-to-low狀態轉移變遷,且其轉移模式較固定,而慢速則轉移 範圍較小,轉移模式為散亂不固定;另外B0B1部份,慢語速有較快語速更明顯的low-to-high 狀態轉移變遷,表示一個韻律詞內慢語速的韻律變化是由低至高的。

(a)

(b)

圖3.13:(a)快語速,(b)慢語速於不同停頓標記下音長韻律狀態的轉移情形。顏色越深表示轉 移情形越重要

圖3.14顯示音節長度韻律狀態轉移的conditional entropy H q( n|qn1,Bn=b)對SR的關係;此 結果與基頻韻律狀態的類似,都是SR越大時entropy越大。在corpus-based HPM只有快速語料較

為一致,正常語速和慢速語料的entropy皆偏高,可能是其語料有極端語速的語句所造成之結果。

(a) (b) 圖3.14:韻律標記為(a)B0,(b)B4時音長韻律狀態轉移entropy vs. SR

圖3.15顯示了音節能量韻律狀態的轉移情形,在B3B4有大範圍low-to-high轉移情形,表

圖3.15顯示了音節能量韻律狀態的轉移情形,在B3B4有大範圍low-to-high轉移情形,表

相關文件