漢語語音階層式韻律架構

第二章語速相依之階層式韻律模型建立

2.1 漢語語音階層式韻律架構

依據語言學家的研究[18]，語音的韻律結構是呈階層式架構。[19]提出韻律標記的概念並定義了階層式多短語韻律句群(Hierarchical Prosodic Phrase Grouping, HPG)架構，如圖 2.1 所示，最底層為音節層次(SYLlable layer, SYL)，為漢語最基本的字義，其中聲調為最強烈的影響因素，不只影響音節基頻軌跡之走向，也影響了音節長度及能量位階；往上發展依序為韻律詞層次(Prosodic Word layer, PW)，由雙音節或多音節所構成的詞組，通常在句法和語意上關係緊密；韻律短語層次(Prosodic Phrase layer, PPh)，由一或多個韻律詞所組成，結尾常會帶有不明顯但可察覺之停頓；呼吸組層次(Breath Group, BG)，由單一或數個韻律短語組成的句子，其結尾通常帶有明顯停頓；最上層為韻律組句(Prosodic phrase Group, PG)，由一個或數個呼吸組構成。

停頓標記是用來區分韻律組成份子的邊界，B0 和 B1 區分了 SYL 的邊界，其中 B0 表示 reduced syllabic boundary，而 B1 表示 normal syllabic boundary，這兩種停頓類別通常都不具明 顯停頓；B2 和 B3 分別是韻律詞和韻律短語的邊界；B4 則代表了呼吸組的邊界，和 B2、B3 比較起來會有較明顯的停頓；至於 B5 定義了韻律句組邊界，代表一個完整的段落結束，通常 句尾會有音節長度拉長(final lengthening)及能量減弱等現象。

圖 2.1：中文語音韻律階層式架構概念 [19]

本研究使用之語料庫為大段落的語音，因此就以 HPG 架構為基礎，經過進一步的修改後，

利用此韻律階層架構來建立本論文所提出之韻律模型。首先將 B2 再細分為 B2-1、B2-2、B2-3，

分別代表明顯音高重置 (pitch reset) 、短停頓 (short pause) 及含有音節拉長效應 (duration lengthening)之韻律詞邊界等不同現象。接著將 BG 和 PG 合併為同一層，因為這兩層所描述的 韻律特性相近，B4 則和 B5 合成為 B4。整個架構從 5 層變成 4 層，如圖 2.2 所示。最後採用的 7 種韻律邊界停頓(break type)為 B={ B0, B1, B2-1, B2-2, B2-3, B3, B4}，以此來標記四種韻律單 元：音節(SYL)、韻律詞(PW)、韻律短語(PPh)、呼吸組/韻律句組(BG/PG)。

圖 2.2：本研究所採用之階層式韻律架構

2.2 語速語速語速語速韻律韻律韻律韻律模型模型模型之建立方法模型之建立方法之建立方法之建立方法

圖 2.3 為本研究所提出之語速韻律模型建立流程圖。首先，對語句 k 求得平均音節長度 µ (不包含停頓時長)，以此當作該語句的語速量測 SR(k)；接著利用此量測值與語速正規化函sd

數，對該語句之韻律聲學特徵參數進行語速正規化，目的為補償語速對於韻律聲學特徵參數造成的影響；最後提出一修正型 PLM 演算法來訓練語速韻律模型，同時產生韻律標記。在此修正型 PLM 演算法中，將語速影響加入到 HPM 的兩個子模型，分別為停頓語法模型和韻律狀態模型，目的是補償語速對於韻律架構上層(PW、PPh、BG/PG)所造成的影響。

圖 2.3：本研究所提出之語速韻律模型設計流程圖

2.3 韻律聲學韻律聲學韻律聲學韻律聲學特徵特徵特徵參數之語速正規化特徵參數之語速正規化參數之語速正規化參數之語速正規化

此節中，本研究提出語速正規化方法來消除語速對於韻律特徵聲學參數的影響，其中待正規化的聲學參數包括音節長度、停頓時長、音節基頻軌跡及音節能量位階，將在以下四個小節分別介紹其正規化方法。在先前的研究當中[20]，韻律聲學特徵參數被依每個語句去做正規化，以音節長度為例[20]，先對該語句估計音節長度的平均值和標準差，接著做高斯正規化。

雖然此種方法簡易有效率，但亦可能造成過度正規化(over-normalization)，例如圖 2.4(b)，有些 語句 SR 相近但標準差卻相異甚遠，若以語句為單位做正規化，可能將導致部份除語速外的影 響因子被壓制，以本論文所採用語料為例，文章組成架構不同會使讀者閱讀方式有所差異。因此，本論文採取較為保守的方法，使用平滑的曲線來模擬每個語句正規化參數(例如音節長度 的標準差)與語料庫中 SR 影響因素的關係；最後估算出平滑曲線參數來形成語速正規化函數 (SR-specific normalization functions)，並用以補償韻律聲學特徵參數中的語速效應。

2.3.1 音節長度之語速正規化音節長度之語速正規化音節長度之語速正規化音節長度之語速正規化

經由觀察停頓時長pd 的分佈，我們發現伽瑪分佈(Gamma distribution)比高斯更適於模擬

pd的分佈，它的表示式如下：

圖 2.6 比較了原始pd和正規後的pd ′，在此分三種音節邊界觀察：詞內邊界(intra-word)、 vs. SR。(y-axis: pause duration(sec), x-axis: SR(sec/syllable))

2.3.3 音節基頻軌跡之語速正規化音節基頻軌跡之語速正規化音節基頻軌跡之語速正規化音節基頻軌跡之語速正規化

本研究將音節基頻軌跡進行正交展開(orthogonal expansion) [21]，投影到四個 Legendre 多項式基底，以所得之四維正交參數表示基頻軌跡，即spn= a a a an⁰ ¹n n² n³^T，四維正交參數分別代表

其中

2.3 語速語速語速語速韻律模型之設計韻律模型之設計韻律模型之設計韻律模型之設計

律狀態標記有很大相關性，與音節邊界停頓標記相關性非常小，本論文稱 X 為音節韻律參數 (syllable prosodic feature)；第二類為音節邊界的聲學參數{Y, Z}={pd, ed, pj, dl, df}，分別為音 節邊界的停頓時長(pause duration, pd)、能量低點位階(energy-dip level, ed)、正規化基頻差 (normalized pitch jump, pj)及兩種正規化長度拉長因子(normalized duration lengthening factor, dl and df)等，假設此類型的聲學參數與停頓標記有很大相關性，與韻律狀態標記的相關性很小，

本論文稱 Y={pd, ed}為音節內韻律參數(inter-syllabic prosodic feature)、Z={pj, dl, df}為差分韻 律參數(differential prosodic feature)；最後 SR 為本論文所定義的語速測量值，即語句的平均音 節長度。

在語言參數方面，用 L 表示所有的語言參數集合。其中特別將音節聲調、基本音節類型 與韻母類型從 L 中獨立出來，用意在於這三個語言參數對音節基頻軌跡、音節長度及音節能 量位階有顯著的影響，把剩餘的語言參數統一定義為 l(reduced linguistic feature set)。完整的符 號定義整理於表 2.1。

表 2.1：韻律標記、聲學參數及語言參數之表示符號 T: prosodic tag B: break type={B0, B1 ,B2-1, B2-2, B2-3, B3, B4}

PS: prosodic state p: pitch prosodic state q: duration prosodic state r: energy prosodic state A: prosodic feature X: syllable prosodic feature sp: syllable pitch contour

sd: syllable duration se: syllable energy level Y: inter-syllabic prosodic feature pd: pause duration

ed: energy-dip level

Z: differential prosodic features pj: normalized pitch jump

dl: normalized duration lengthening factor 1

df:normalized duration lengthening factor 2

SR: speaking rate

L: linguistic feature l: reduced linguistic feature set

t: syllable tone sequence

s: base-syllable type sequence

f: final type sequence

綜合上述之討論，可將P T A L SR( , | , )改寫成以下形式：是將音節基頻軌跡進行正交展開(orthogonal expansion)，投影到四個Legendre多項式基底所得到的四維正交參數[21]，依以上描述可將sp_n表示成

狀態p_n的APs，其中韻律狀態的影響只限制對目前音節的LogF0 level，故將βp_n 的四維正交係

2.3.2 停頓聲學模型停頓聲學模型停頓聲學模型停頓聲學模型

似函數增益(maximum likelihood gain)搭配一個事先設計好的問題集去實施CART演算法，依據不同的韻律邊界停頓將所有音節邊界的pd_n、ed_n、pj_n、dl_n、df_n做好分類，並於決策樹的每

2.3.3 修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型修正型韻律狀態模型

節韻律狀態之轉移機率(transition probability)；bin(.)為索引函數(index function)。

2.3.4 修正修正修正修正型停頓語法型停頓語法型停頓語法型停頓語法模型模型模型模型

節點之七種停頓標記，使用一階多項式曲線來模擬停頓標記出現頻率對SR的關係，其數學式如下：

, ,

all break types all break type

( | , ) 是基於最大概似度法則(Maximum Likelihood, ML)，對所有語句找出最佳的韻律標記，並估計模型參數。首先，我們依2.3節所設計之8個模型定義一目標函數(objective function)如下：

(a) 標記所有音節邊界的初始停頓標記

至於音節韻律模型則是用一個漸進式的估測程序，首先估測總體平均值(global mean)的 APs{µ,µ ,_d µ }_e ^{，接下來依序估測聲調}APs{β_t,γ_t,α_t}、基本音節類型與韻母類型APs{γ_s,α_f}、

連音效應APs{β_{B tp}^f_, ,β^b_{B tp}_, }和韻律狀態APs{β_p,γ_q,α_r}。其中初始的韻律狀態則是將音節基頻軌跡、長度及能量位階各別扣除其它APs的殘餘值做向量量化(vector quantization, VQ)，將量化之後的碼字(codeword)當作初始韻律狀態。最後，修正型韻律狀態模型P p B SR( | , )、P q B SR( | , ) 和P r B SR( | , )則是利用已初始化停頓標記及韻律狀態估計而成。

2.4.2 疊代訓練疊代訓練疊代訓練疊代訓練

經初始化後，我們使用一疊代過程來訓練模型，其步驟如下：

步驟1：固定其它APs，更新聲調的APs{β ,_t γ_t,α_t}。

步驟2：固定其它APs，更新連音效應的APs{β_{B tp}^f_, ,β^b_{B tp}_, }，接著更新共變數矩陣R。

步驟3：固定其它APs，更新基本音節類型及韻母類型的APs{γ_s,α_f }，接著更新變異數R_d和R_e。

步驟4：利用維特比(Viterbi)演算法重新標記所有語句之韻律狀態序列，使得目標函數Q 達到最大值，然後更新韻律狀態的ARs{β_p,γ ,_q α }_r ，最後更新修正型韻律狀態模型P p B SR( | , )、P q B SR( | , )和P r B SR( | , )以及共變數矩陣 R 、變異數R 和_d R 。_e 步驟5：利用維特比(Viterbi)演算法重新標記所有語句之停頓標記序列，使得目標函數Q 達到最大值，接著更新修正型韻律狀態模型P p B SR( | , )、P q B SR( | , )與P r B SR( | , ) 以及共變數矩陣R、變異數R 和_d R 。_e

步驟6：利用CART演算法和 Θ 重新建構決策樹，分別更新停頓聲學模型 p pd ed pj dl df B l( _n, _n, _n, _n, _n| _n, )_n 及修正型停頓語法模型P B( _n| ,l_n SR_n)。步驟7：重複步驟1到7的過程直到收斂為止。

第三章第三章

71次達到收斂，其對應的目標總概似度(total likelihood of objective function)如圖3.1所示。接下來的章節將對模型訓練結果及韻律標記結果進行分析。

圖3.1：疊代次數與目標總概似度

3.1 韻律模型參數之分析韻律模型參數之分析韻律模型參數之分析韻律模型參數之分析

此節針對四個韻律子模型的訓練結果進行探討與分析，並與語料庫為基礎之 HPM[3]

(Corpus-based HPM)做比較。

3.1.1 音節韻律模型音節韻律模型音節韻律模型音節韻律模型

音節韻律模型可分成三個子模型，分別用以模擬音節基頻軌跡、音節時長及音節能量位階，本節將探討各種APs對於音節韻律所造成的影響，以及模型參數與語速間的關係變化。

首先，由音節基頻軌跡韻律模型開始，影響因子包含聲調、連音效應和韻律狀態。圖 3.2 顯示基頻軌跡的聲調APs，此結果與過去研究[15]所得之基頻軌跡相符合。

圖3.2：基頻軌跡聲調APs

圖3.3顯示基頻軌跡在停頓標記B0、B1和B4時的前音節連音效應APs，橫軸i表示目前的聲調，縱軸j表示前一音節之聲調。在此選擇 B0、B1 和B4為連音效應最極端的例子，由圖可清礎發現B0的連音效應最嚴重、B1次之，B4影響最小，對於聲調組合為(1, 2)、(1, 3)、 (2, 2)、(2, 3)、(1, 5)等有hight-low mismatch現象，β_{B tp}^f_, 會產生向下彎曲的基頻軌跡來補償其連音效應；另外聲調組合為(3, 1)、(3, 4)、(5, 1)、(5, 4)、(4, 1)、(4, 4)等有low-hight mismatch現象，β_{B tp}^f_, 則會產生向上彎曲的基頻軌跡來補償。

圖3.3：基頻軌跡在停頓標記B0、B1和B4時前音節連音效應APs，在此tp = (i, j)

圖3.4顯示基頻軌跡在停頓標記B0、B1和B4時的前音節連音效應APs，橫軸i表示目前的聲調，縱軸j表示下一音節聲調。由圖觀察到，比較於前音節連音效應β_{B tp}^f_, ，後音節連音效

應β^b_{B tp}_, 變化範圍明顯小了很多，表示後音節連音效應的影響程度不如前音節，此結果與先前研

究[24]符合。其中，特別注意到聲調組合為(3, 3)時，β^b_{B tp}_, 產生劇烈上揚的曲線，這是因為此聲調組合的第一個三聲會被發音為二聲，即變調規則(tone sandhi rule)。

圖3.4：基頻軌跡在停頓標記B0、B1和B4時後音節連音效應APs，在此tp = (i, j)

接下來為音節長度韻律模型分析，影響因子包含聲調、基本音節類型和韻律狀態。圖3.5(a) 顯示音節長度的聲調APs，其中漢語一、二聲的音節長度都較長，五聲特別短，圖3.5(b)顯示音節長度的基本音節類型APs，此基本音節類型是把漢語411基本音節類型依發音特性分成82 類，其中第19類的音節發音最長，此類對應到411音節類型包括” qu”、 ” du” 和” bu”；第59 類的音節發音為最短，對應到411音節類型包括” quan”、 ” qun” 和” qiong”。

在文檔中考慮語速影響之漢語韻律模型建立與語音合成之應用 (頁 16-0)

第二章 語速相依之階層式韻律模型建立

2.1 漢語語音階層式韻律架構

2.2 語速 語速 語速 語速韻律 韻律 韻律 韻律模型 模型 模型之建立方法 模型 之建立方法 之建立方法 之建立方法

2.3 韻律聲學 韻律聲學 韻律聲學 韻律聲學特徵 特徵 特徵參數之語速正規化 特徵 參數之語速正規化 參數之語速正規化 參數之語速正規化

2.3.1 音節長度之語速正規化 音節長度之語速正規化 音節長度之語速正規化 音節長度之語速正規化

2.3.3 音節基頻軌跡之語速正規化 音節基頻軌跡之語速正規化 音節基頻軌跡之語速正規化 音節基頻軌跡之語速正規化

2.3 語速 語速 語速 語速韻律模型之設計 韻律模型之設計 韻律模型之設計 韻律模型之設計

2.3.2 停頓聲學模型 停頓聲學模型 停頓聲學模型 停頓聲學模型

2.3.3 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型 修正型韻律狀態模型

2.3.4 修正 修正 修正 修正型停頓語法 型停頓語法 型停頓語法 型停頓語法模型 模型 模型 模型

2.4.2 疊代訓練 疊代訓練 疊代訓練 疊代訓練

第三章 第三章

3.1 韻律模型參數之分析 韻律模型參數之分析 韻律模型參數之分析 韻律模型參數之分析

3.1.1 音節韻律模型 音節韻律模型 音節韻律模型 音節韻律模型