• 沒有找到結果。

第三章 語速韻律模型訓練結果與分析

3.1 韻律模型參數之分析

此節針對四個韻律子模型的訓練結果進行探討與分析,並與語料庫為基礎之 HPM[3]

(Corpus-based HPM)做比較。

3.1.1 音節韻律模型 音節韻律模型 音節韻律模型 音節韻律模型

音節韻律模型可分成三個子模型,分別用以模擬音節基頻軌跡、音節時長及音節能量位 階,本節將探討各種APs對於音節韻律所造成的影響,以及模型參數與語速間的關係變化。

首先,由音節基頻軌跡韻律模型開始,影響因子包含聲調、連音效應和韻律狀態。圖 3.2 顯示基頻軌跡的聲調APs,此結果與過去研究[15]所得之基頻軌跡相符合。

圖3.2:基頻軌跡聲調APs

圖3.3顯示基頻軌跡在停頓標記B0B1B4時的前音節連音效應APs,橫軸i表示目前 的聲調,縱軸j表示前一音節之聲調。在此選擇 B0、B1 和B4為連音效應最極端的例子,由 圖可清礎發現B0的連音效應最嚴重、B1次之,B4影響最小,對於聲調組合為(1, 2)、(1, 3)、 (2, 2)、(2, 3)、(1, 5)等有hight-low mismatch現象,βB tpf, 會產生向下彎曲的基頻軌跡來補償其連 音效應;另外聲調組合為(3, 1)、(3, 4)、(5, 1)、(5, 4)、(4, 1)、(4, 4)等有low-hight mismatch現 象,βB tpf, 則會產生向上彎曲的基頻軌跡來補償。

圖3.3:基頻軌跡在停頓標記B0B1B4時前音節連音效應APs,在此tp = (i, j)

圖3.4顯示基頻軌跡在停頓標記B0B1B4時的前音節連音效應APs,橫軸i表示目前 的聲調,縱軸j表示下一音節聲調。由圖觀察到,比較於前音節連音效應βB tpf, ,後音節連音效

βbB tp, 變化範圍明顯小了很多,表示後音節連音效應的影響程度不如前音節,此結果與先前研

究[24]符合。其中,特別注意到聲調組合為(3, 3)時,βbB tp, 產生劇烈上揚的曲線,這是因為此聲 調組合的第一個三聲會被發音為二聲,即變調規則(tone sandhi rule)。

圖3.4:基頻軌跡在停頓標記B0B1B4時後音節連音效應APs,在此tp = (i, j)

接下來為音節長度韻律模型分析,影響因子包含聲調、基本音節類型和韻律狀態。圖3.5(a) 顯示音節長度的聲調APs,其中漢語一、二聲的音節長度都較長,五聲特別短,圖3.5(b)顯示音 節長度的基本音節類型APs,此基本音節類型是把漢語411基本音節類型依發音特性分成82 類,其中第19類的音節發音最長,此類對應到411音節類型包括” qu”、 ” du” 和” bu”;第59 類的音節發音為最短,對應到411音節類型包括” quan”、 ” qun” 和” qiong”。

(a) (b) 圖3.5:音節長度之(a)聲調APs,(b)基本音節類型APs

最後是音節能量位階韻律模型,影響因子包含聲調、韻母類型及韻律狀態。圖3.6(a)顯示 音節能量位階的聲調APs,其中漢語以一、四聲音節能量位階最大,二、三和五聲則較小,圖

3.6(b)顯示音節能量位階的韻母類型APs,在此韻母類型有40類,其中第19類的”wu”音節能量

位階最小,此韻母類型對應到411音節類型如”su”、 ”tu”等;第26類的”wa”音節能量位階最大,

此韻母類型對應到411音節類型如”zhua”、 ”gua” 等。

(a) (b) 圖3.6:音節能量位階之(a)聲調APs,(b)韻母類型APs

利用修正型PLM演算法所標記出來的{B, PS},搭配其所對應之語言參數{t, s, f},可以圖 3.7的方式重建不同語速的韻律聲學參數。藉由音節韻律模型模擬韻律聲學特徵參數sp, sd, se^ ^ ^

再利用語速正規化參數將sp, sd, se^ ^ ^ 還原回各自原本的語速,得到最後的sp , sd , se 。 ' ' '

Log-F0 Duration Energy level

APs TRE APs TRE APs TRE

+Tone 66.9% +Tone 70.2% +Tone 61.2%

+Coarticulation 60.1% +Base-syllable 51.1% +Final 47.7%

+Prosodic state 0.7% +Prosodic state 1.1% +Prosodic state 1.4%

圖3.8利用βt和γt來模疑快語速與慢語速之五種聲調的音節基頻軌跡。從圖可發現不管快

輕聲的基頻軌跡在快速時較為平坦,在慢速時像低階的三聲。此模擬結果與[3]一致。

圖3.8:快語速與慢語速之五種聲調基頻軌跡模擬圖

3.1.2 停頓聲學模型 停頓聲學模型 停頓聲學模型 停頓聲學模型

停頓聲學模型由CART演算法建構而成,用以描述七種停頓標記B、語言參數l以及音節間

韻律參數{Y}={pd, ed}和音節差韻律參數{Z}={pj, dl, df}之間的關係。圖3.9顯示在不同停頓標記

下,決策樹根節點(root node)五種韻律參數的機率分佈。由圖可發現越上層韻律架構的停頓標 記如B3B4,擁有較長的停頓時長、較低的能量低點、較明顯的基頻跳躍及音節拉長因子;

B0B1的停頓時長都非常的短,但B0的能量低點較大,表示B0為兩音節緊密連接的邊界;

B2-2則有中等的停頓時長;B2-1B2-3的能量低點與停頓時長分佈與B1相似,但B2-1擁有較明 顯的基頻跳躍,B2-3則是音節拉長因子較為明顯。這些韻律參數的特性分佈符合本研究最初所 定義之停頓標記特性。

(a) (b)

(c) (d)

(e)

圖3.9:(a)停頓音節長度,(b)音節能量低點,(c)正規化基頻跳躍值,(d)正規化音節拉長因子1, (e)正規化音節拉長因子2之決策樹根節點機率分佈,其中括號中數值為分佈平均值

停頓時長為停頓標記中最重要的聲學參數,圖3.10顯示了七種停頓標記的平均停頓時長 vs. SR,圖上標出的值,為corpus-based HPM訓練結果[3]。此結果符合預期,B0B1B2-1B2-1等不具明顯停頓時長的停頓類別幾乎不受SR影響;而B2-2B3B4等具明顯停頓時長的

類別,其停頓時長隨著SR呈非線性增加,尤其B3B4更是如此;另外,由圖得出此結果與

corpus-based HPM訓練結果一致。

圖3.10:平均停頓時長vs. SR;標出值為四個語速corpus-HPM訓練結果

表3.3列出七種停頓類別之重建停頓時長的根均方差(Root Mean Square Errors, RMSEs)。其 中只有B2-2B3B4誤差較大,因為這些停頓類別都為major break或minor break,故此結果尚 可接受。

表3.3:重建停頓時長之RMSEs

Break Type B0 B1 B2-1 B2-2 B2-3 B3 B4

RMSE 2.4 ms 18.5 ms 24.9 ms 86.3 ms 30.8 ms 100.6 ms 147.8 ms

3.1.3 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型

韻律狀態模型描述了韻律狀態於各停頓邊界的轉移情形,本論文所提出之修正型韻律態模 型對語速分bin估計轉移機率值,藉此區分不同語速的狀態轉移情形。

圖3.11顯示音節基頻韻律狀態轉移情形,(a)為第一個bin(即最快語速)韻律狀態轉移情形,

(b)為最後一個bin(即最慢語速)韻律狀態轉移情形,圖上顏色越深的線表示其轉移情形越為重 要。由圖發現無論語速快慢,B0B1都以下降一或二階情形居多,表示在一個韻律詞之內,

基頻韻律變化是由高緩慢至低的;B2-1B3B4的韻律狀態都有明顯low-to-high情形,顯示這 些韻律邊界容易產生音高重置現象;而B2-3的轉移情形相似於B0/B1,表示B2-3並不以音高重 置現象來代表韻律詞邊界。接著比較快語速及慢語速的韻律狀態轉移情形可發現,慢語速在 B4的轉移變動較大,快語速在B4的轉移模式較為集中,B4的基頻韻律狀態轉移為不同語速差 異最大的地方。

(a)

(b)

圖3.11:(a)快語速,(b)慢語速於不同停頓標記下基頻韻律狀態的轉移情形。顏色越深表示轉 移情形越重要

圖3.12是以條件熵(conditional entropy) H p( n|pn1,Bn =b)量化基頻韻律狀態轉移對SR的 關係,在此僅顯示B0B4等最極端的韻律邊界。由圖發現無論B0B4,entropy皆隨著SR增加

而有升高的趨勢,又以B0邊界尤其明顯。這代表語速越慢,基頻韻律狀態轉移越不一致,此 結果更確定了韻律狀態轉移和語速相關聯。另外圖亦標上corpus-based HPM訓練結果,其結果 僅中速語料較為不一致。

(a) (b)

圖3.12:韻律標記為(a)B0,(b)B4時基頻韻律狀態轉移entropy vs. SR

圖3.13顯示音節長度韻律狀態轉移情形,B3B4擁有最大範圍的high-to-low狀態轉移變 遷,代表在PPh和BG/PG等大韻律單元邊界容易產生final lengthening effect;B2-2則為較小的 high-to-low狀態轉移變遷,final lengthening effect不如B3B4強烈,B2-3亦是如此,表示即使 無明顯停頓時長,仍可以音節拉長現象來反應此為一韻律詞邊界。在不同語速比較中,可發現 快語速在B3B4擁有大範圍的high-to-low狀態轉移變遷,且其轉移模式較固定,而慢速則轉移 範圍較小,轉移模式為散亂不固定;另外B0B1部份,慢語速有較快語速更明顯的low-to-high 狀態轉移變遷,表示一個韻律詞內慢語速的韻律變化是由低至高的。

(a)

(b)

圖3.13:(a)快語速,(b)慢語速於不同停頓標記下音長韻律狀態的轉移情形。顏色越深表示轉 移情形越重要

圖3.14顯示音節長度韻律狀態轉移的conditional entropy H q( n|qn1,Bn=b)對SR的關係;此 結果與基頻韻律狀態的類似,都是SR越大時entropy越大。在corpus-based HPM只有快速語料較

為一致,正常語速和慢速語料的entropy皆偏高,可能是其語料有極端語速的語句所造成之結果。

(a) (b) 圖3.14:韻律標記為(a)B0,(b)B4時音長韻律狀態轉移entropy vs. SR

圖3.15顯示了音節能量韻律狀態的轉移情形,在B3B4有大範圍low-to-high轉移情形,表

示PPh和BG/PG等後邊界的音節能量會降至很低,再由新的韻律單元起始將能量重新提高,此

結果驗證了在PPh和BG/PG裡,音節能量的趨勢是由高衰減至低的,接著再進行能量重置。而 不同語速能量韻律狀態的轉移情形差異不大,表示人說話的能量變化和SR相關性是很小的,

如2.3.4所討論。

(a)

(b)

圖3.15:(a)快語速,(b)慢語速於不同停頓標記下能量韻律狀態的轉移情形。顏色越深表示轉 移情形越重要

3.1.4 修正型停頓語法模型 修正型停頓語法模型 修正型停頓語法模型 修正型停頓語法模型

圖3.16:停頓語法模型決策樹,節點中直方圖為各停頓標記的發生機率,由左至右分別是B0, B1, B2-1, B2-2, B2-3, B3, B4,數值為該節點的總樣本數

接下來進行建構修正型語法模型第二步,在決策樹每一終止節點考慮語速的影響,藉由線 性迴歸的方式得到p B( n|ln,SRn)。圖3.17顯示了三個例子,分別為:(a)屬於major break的B4在 PM node(即節點2),(b) minor break中擁有短停頓的B2-2在non-PM inter-word node(即節點6), 以及(c)屬於non-break的B1在intra-word node(即節點7)。由圖可觀察到例子(b)B2-2在快語速的發 生頻率很低,隨著SR增加其頻率呈線性增加;例子(a)B4擁有和例子(b)B2-2類似的趨勢,但斜 率較不明顯;例子(c)B0在的情形則是和上述兩例相反,發生頻率在低SR時較高而高SR時較高。

綜合以上觀察總結:在non-PM, interword的韻律邊界minor break受語速影響最嚴重的地方;而 在標點符號的韻律邊界,無論語速快慢都容易出現major break,SR在此的影響不大;在

intra-word韻律邊界亦是如此,non-break出現的頻率並不因SR而有明顯變化。

(a) (b)

(c)

圖3.17:(a) B4於PM節點,(b) B2-2於non-PM, inter-word節點,(c) B0於intra-word節點之 發生頻率vs. SR

接下來由圖3.18觀察語速對於整個語法決策樹的影響,圖中節點的直方圖表示七種停頓 類別發生機率對SR之斜率。在此分三個部份來討論,(1) intra-word node往下長的部份之停頓類 別大多為B0B1,大部份的斜率值都很低,表示停頓機率與SR相關性很小,除了type 2 intra-word node屬於較不緊密的intra-word邊界,其受SR的影響類似於non-PM, inter-word。(2)

non-PM, inter-word node往下長的部份為SR影響最明顯之處,B2-2的斜率都為明顯正值,B0

non-PM, inter-word node往下長的部份為SR影響最明顯之處,B2-2的斜率都為明顯正值,B0

相關文件