• 沒有找到結果。

音節基頻軌跡之語速正規化

第二章 語速相依之階層式韻律模型建立

2.3 韻律聲學特徵參數之語速正規化

2.3.3 音節基頻軌跡之語速正規化

本研究將音節基頻軌跡進行正交展開(orthogonal expansion) [21],投影到四個 Legendre 多 項式基底,以所得之四維正交參數表示基頻軌跡,即spn= a a a an0 1n n2 n3T,四維正交參數分別代表

其中

2.3 語速 語速 語速 語速韻律模型之設計 韻律模型之設計 韻律模型之設計 韻律模型之設計

律狀態標記有很大相關性,與音節邊界停頓標記相關性非常小,本論文稱 X 為音節韻律參數 (syllable prosodic feature);第二類為音節邊界的聲學參數{Y, Z}={pd, ed, pj, dl, df},分別為音 節邊界的停頓時長(pause duration, pd)、能量低點位階(energy-dip level, ed)、正規化基頻差 (normalized pitch jump, pj)及兩種正規化長度拉長因子(normalized duration lengthening factor, dl and df)等,假設此類型的聲學參數與停頓標記有很大相關性,與韻律狀態標記的相關性很小,

本論文稱 Y={pd, ed}為音節內韻律參數(inter-syllabic prosodic feature)、Z={pj, dl, df}為差分韻 律參數(differential prosodic feature);最後 SR 為本論文所定義的語速測量值,即語句的平均音 節長度。

在語言參數方面,用 L 表示所有的語言參數集合。其中特別將音節聲調、基本音節類型 與韻母類型從 L 中獨立出來,用意在於這三個語言參數對音節基頻軌跡、音節長度及音節能 量位階有顯著的影響,把剩餘的語言參數統一定義為 l(reduced linguistic feature set)。完整的符 號定義整理於表 2.1。

表 2.1:韻律標記、聲學參數及語言參數之表示符號 T: prosodic tag B: break type={B0, B1 ,B2-1, B2-2, B2-3, B3, B4}

PS: prosodic state p: pitch prosodic state q: duration prosodic state r: energy prosodic state A: prosodic feature X: syllable prosodic feature sp: syllable pitch contour

sd: syllable duration se: syllable energy level Y: inter-syllabic prosodic feature pd: pause duration

ed: energy-dip level

Z: differential prosodic features pj: normalized pitch jump

dl: normalized duration lengthening factor 1

df:normalized duration lengthening factor 2

SR: speaking rate

L: linguistic feature l: reduced linguistic feature set

t: syllable tone sequence

s: base-syllable type sequence

f: final type sequence

綜合上述之討論,可將P T A L SR( , | , )改寫成以下形式: 是將音節基頻軌跡進行正交展開(orthogonal expansion),投影到四個Legendre多項式基底所得 到的四維正交參數[21],依以上描述可將spn表示成

狀態pn的APs,其中韻律狀態的影響只限制對目前音節的LogF0 level,故將βpn 的四維正交係

2.3.2 停頓聲學模型 停頓聲學模型 停頓聲學模型 停頓聲學模型

似函數增益(maximum likelihood gain)搭配一個事先設計好的問題集去實施CART演算法,依據 不同的韻律邊界停頓將所有音節邊界的pdnednpjndlndfn做好分類,並於決策樹的每

2.3.3 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型

節韻律狀態之轉移機率(transition probability);bin(.)為索引函數(index function)。

2.3.4 修正 修正 修正 修正型停頓語法 型停頓語法 型停頓語法 型停頓語法模型 模型 模型 模型

節點之七種停頓標記,使用一階多項式曲線來模擬停頓標記出現頻率對SR的關係,其數學式 如下:

, ,

, ,

all break types all break type

( | , ) 是基於最大概似度法則(Maximum Likelihood, ML),對所有語句找出最佳的韻律標記,並估計 模型參數。首先,我們依2.3節所設計之8個模型定義一目標函數(objective function)如下:

(a) 標記所有音節邊界的初始停頓標記

至於 音節韻律模 型則是用一個漸進式的估測程序,首先估 測總體平均 值(global mean)的 APs{µ,µ ,d µ }e ,接下來依序估測聲調APs{βttt}、基本音節類型與韻母類型APs{γsf}、

連音效應APs{βB tpf, ,βbB tp, }和韻律狀態APs{βpqr}。其中初始的韻律狀態則是將音節基頻軌 跡、長度及能量位階各別扣除其它APs的殘餘值做向量量化(vector quantization, VQ),將量化 之後的碼字(codeword)當作初始韻律狀態。最後,修正型韻律狀態模型P p B SR( | , )、P q B SR( | , ) 和P r B SR( | , )則是利用已初始化停頓標記及韻律狀態估計而成。

2.4.2 疊代訓練 疊代訓練 疊代訓練 疊代訓練

經初始化後,我們使用一疊代過程來訓練模型,其步驟如下:

步驟1:固定其它APs,更新聲調的APs{β ,t γtt}。

步驟2:固定其它APs,更新連音效應的APs{βB tpf, ,βbB tp, },接著更新共變數矩陣R

步驟3:固定其它APs,更新基本音節類型及韻母類型的APs{γsf },接著更新變異 數RdRe

步驟4:利用維特比(Viterbi)演算法重新標記所有語句之韻律狀態序列,使得目標函數Q 達到最大值,然後更新韻律狀態的ARs{βp,γ ,q α }r ,最後更新修正型韻律狀態 模型P p B SR( | , )、P q B SR( | , )和P r B SR( | , )以及共變數矩陣 R 、變異數R 和d R 。e 步驟5:利用維特比(Viterbi)演算法重新標記所有語句之停頓標記序列,使得目標函數Q 達到最大值,接著更新修正型韻律狀態模型P p B SR( | , )、P q B SR( | , )與P r B SR( | , ) 以及共變數矩陣R、變異數R 和d R 。e

步驟6:利用CART演算法和 Θ 重新建構決策樹,分別更新停頓聲學模型 p pd ed pj dl df B l( n, n, n, n, n| n, )n 及修正型停頓語法模型P B( n| ,ln SRn)。 步驟7:重複步驟1到7的過程直到收斂為止。

第三章 第三章

71次達到收斂,其對應的目標總概似度(total likelihood of objective function)如圖3.1所示。接 下來的章節將對模型訓練結果及韻律標記結果進行分析。

圖3.1:疊代次數與目標總概似度

3.1 韻律模型參數之分析 韻律模型參數之分析 韻律模型參數之分析 韻律模型參數之分析

此節針對四個韻律子模型的訓練結果進行探討與分析,並與語料庫為基礎之 HPM[3]

(Corpus-based HPM)做比較。

3.1.1 音節韻律模型 音節韻律模型 音節韻律模型 音節韻律模型

音節韻律模型可分成三個子模型,分別用以模擬音節基頻軌跡、音節時長及音節能量位 階,本節將探討各種APs對於音節韻律所造成的影響,以及模型參數與語速間的關係變化。

首先,由音節基頻軌跡韻律模型開始,影響因子包含聲調、連音效應和韻律狀態。圖 3.2 顯示基頻軌跡的聲調APs,此結果與過去研究[15]所得之基頻軌跡相符合。

圖3.2:基頻軌跡聲調APs

圖3.3顯示基頻軌跡在停頓標記B0B1B4時的前音節連音效應APs,橫軸i表示目前 的聲調,縱軸j表示前一音節之聲調。在此選擇 B0、B1 和B4為連音效應最極端的例子,由 圖可清礎發現B0的連音效應最嚴重、B1次之,B4影響最小,對於聲調組合為(1, 2)、(1, 3)、 (2, 2)、(2, 3)、(1, 5)等有hight-low mismatch現象,βB tpf, 會產生向下彎曲的基頻軌跡來補償其連 音效應;另外聲調組合為(3, 1)、(3, 4)、(5, 1)、(5, 4)、(4, 1)、(4, 4)等有low-hight mismatch現 象,βB tpf, 則會產生向上彎曲的基頻軌跡來補償。

圖3.3:基頻軌跡在停頓標記B0B1B4時前音節連音效應APs,在此tp = (i, j)

圖3.4顯示基頻軌跡在停頓標記B0B1B4時的前音節連音效應APs,橫軸i表示目前 的聲調,縱軸j表示下一音節聲調。由圖觀察到,比較於前音節連音效應βB tpf, ,後音節連音效

βbB tp, 變化範圍明顯小了很多,表示後音節連音效應的影響程度不如前音節,此結果與先前研

究[24]符合。其中,特別注意到聲調組合為(3, 3)時,βbB tp, 產生劇烈上揚的曲線,這是因為此聲 調組合的第一個三聲會被發音為二聲,即變調規則(tone sandhi rule)。

圖3.4:基頻軌跡在停頓標記B0B1B4時後音節連音效應APs,在此tp = (i, j)

接下來為音節長度韻律模型分析,影響因子包含聲調、基本音節類型和韻律狀態。圖3.5(a) 顯示音節長度的聲調APs,其中漢語一、二聲的音節長度都較長,五聲特別短,圖3.5(b)顯示音 節長度的基本音節類型APs,此基本音節類型是把漢語411基本音節類型依發音特性分成82 類,其中第19類的音節發音最長,此類對應到411音節類型包括” qu”、 ” du” 和” bu”;第59 類的音節發音為最短,對應到411音節類型包括” quan”、 ” qun” 和” qiong”。

(a) (b) 圖3.5:音節長度之(a)聲調APs,(b)基本音節類型APs

最後是音節能量位階韻律模型,影響因子包含聲調、韻母類型及韻律狀態。圖3.6(a)顯示 音節能量位階的聲調APs,其中漢語以一、四聲音節能量位階最大,二、三和五聲則較小,圖

3.6(b)顯示音節能量位階的韻母類型APs,在此韻母類型有40類,其中第19類的”wu”音節能量

位階最小,此韻母類型對應到411音節類型如”su”、 ”tu”等;第26類的”wa”音節能量位階最大,

此韻母類型對應到411音節類型如”zhua”、 ”gua” 等。

(a) (b) 圖3.6:音節能量位階之(a)聲調APs,(b)韻母類型APs

利用修正型PLM演算法所標記出來的{B, PS},搭配其所對應之語言參數{t, s, f},可以圖 3.7的方式重建不同語速的韻律聲學參數。藉由音節韻律模型模擬韻律聲學特徵參數sp, sd, se^ ^ ^

再利用語速正規化參數將sp, sd, se^ ^ ^ 還原回各自原本的語速,得到最後的sp , sd , se 。 ' ' '

Log-F0 Duration Energy level

APs TRE APs TRE APs TRE

+Tone 66.9% +Tone 70.2% +Tone 61.2%

+Coarticulation 60.1% +Base-syllable 51.1% +Final 47.7%

+Prosodic state 0.7% +Prosodic state 1.1% +Prosodic state 1.4%

圖3.8利用βt和γt來模疑快語速與慢語速之五種聲調的音節基頻軌跡。從圖可發現不管快

輕聲的基頻軌跡在快速時較為平坦,在慢速時像低階的三聲。此模擬結果與[3]一致。

圖3.8:快語速與慢語速之五種聲調基頻軌跡模擬圖

3.1.2 停頓聲學模型 停頓聲學模型 停頓聲學模型 停頓聲學模型

停頓聲學模型由CART演算法建構而成,用以描述七種停頓標記B、語言參數l以及音節間

韻律參數{Y}={pd, ed}和音節差韻律參數{Z}={pj, dl, df}之間的關係。圖3.9顯示在不同停頓標記

下,決策樹根節點(root node)五種韻律參數的機率分佈。由圖可發現越上層韻律架構的停頓標 記如B3B4,擁有較長的停頓時長、較低的能量低點、較明顯的基頻跳躍及音節拉長因子;

B0B1的停頓時長都非常的短,但B0的能量低點較大,表示B0為兩音節緊密連接的邊界;

B2-2則有中等的停頓時長;B2-1B2-3的能量低點與停頓時長分佈與B1相似,但B2-1擁有較明 顯的基頻跳躍,B2-3則是音節拉長因子較為明顯。這些韻律參數的特性分佈符合本研究最初所 定義之停頓標記特性。

(a) (b)

(c) (d)

(e)

圖3.9:(a)停頓音節長度,(b)音節能量低點,(c)正規化基頻跳躍值,(d)正規化音節拉長因子1, (e)正規化音節拉長因子2之決策樹根節點機率分佈,其中括號中數值為分佈平均值

停頓時長為停頓標記中最重要的聲學參數,圖3.10顯示了七種停頓標記的平均停頓時長 vs. SR,圖上標出的值,為corpus-based HPM訓練結果[3]。此結果符合預期,B0B1B2-1B2-1等不具明顯停頓時長的停頓類別幾乎不受SR影響;而B2-2B3B4等具明顯停頓時長的

類別,其停頓時長隨著SR呈非線性增加,尤其B3B4更是如此;另外,由圖得出此結果與

corpus-based HPM訓練結果一致。

圖3.10:平均停頓時長vs. SR;標出值為四個語速corpus-HPM訓練結果

表3.3列出七種停頓類別之重建停頓時長的根均方差(Root Mean Square Errors, RMSEs)。其 中只有B2-2B3B4誤差較大,因為這些停頓類別都為major break或minor break,故此結果尚 可接受。

表3.3:重建停頓時長之RMSEs

Break Type B0 B1 B2-1 B2-2 B2-3 B3 B4

RMSE 2.4 ms 18.5 ms 24.9 ms 86.3 ms 30.8 ms 100.6 ms 147.8 ms

3.1.3 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型

韻律狀態模型描述了韻律狀態於各停頓邊界的轉移情形,本論文所提出之修正型韻律態模 型對語速分bin估計轉移機率值,藉此區分不同語速的狀態轉移情形。

圖3.11顯示音節基頻韻律狀態轉移情形,(a)為第一個bin(即最快語速)韻律狀態轉移情形,

(b)為最後一個bin(即最慢語速)韻律狀態轉移情形,圖上顏色越深的線表示其轉移情形越為重 要。由圖發現無論語速快慢,B0B1都以下降一或二階情形居多,表示在一個韻律詞之內,

基頻韻律變化是由高緩慢至低的;B2-1B3B4的韻律狀態都有明顯low-to-high情形,顯示這 些韻律邊界容易產生音高重置現象;而B2-3的轉移情形相似於B0/B1,表示B2-3並不以音高重 置現象來代表韻律詞邊界。接著比較快語速及慢語速的韻律狀態轉移情形可發現,慢語速在 B4的轉移變動較大,快語速在B4的轉移模式較為集中,B4的基頻韻律狀態轉移為不同語速差

基頻韻律變化是由高緩慢至低的;B2-1B3B4的韻律狀態都有明顯low-to-high情形,顯示這 些韻律邊界容易產生音高重置現象;而B2-3的轉移情形相似於B0/B1,表示B2-3並不以音高重 置現象來代表韻律詞邊界。接著比較快語速及慢語速的韻律狀態轉移情形可發現,慢語速在 B4的轉移變動較大,快語速在B4的轉移模式較為集中,B4的基頻韻律狀態轉移為不同語速差

相關文件