階層式韻律架構

第三章中英文夾雜韻律模型

3.2 階層式韻律架構

根據許多研究中文韻律的文獻【19】顯示，中文的韻律結構呈現階層式韻律架構(hierarchy structure)，一般來說分成四層結構，如圖 3.6 所示，由底層至上層分別為音節層次(Syllable, SYL)、韻律詞層次(Prosodic Word, PW)、韻律短語層次(Prosodic Phrase, PPh)以及語調短語層次(Intonation Phrase, IP)。由於一個中文字為一個音節的特性，因此最底層的韻律單元為音節層次，而不同聲調所帶來的不同語義，也使得聲調成為音節層次中最重要的韻律影響因素，

聲調不只影響音節音高甚深，也進而影響音節長度與音節能量。第二層的韻律詞層次則是由雙音節或多音節的詞組所組成，這些詞組通常在句法或是語意上緊密相關，因此往往會將這些詞組發音成一個單元。第三層的韻律短語層次則是由一個或多個韻律詞所組成，其結尾通常有帶有可察覺但不明顯的停頓。第四層的語調層次則是中文韻律架構的最上層，通常限制了一個句子或是數個韻律短語所組成的句子音高，其結尾則會有明顯的停頓。基本上，四層的韻律架構詮釋了一個句子中每個音節的音高和音長變化。

PW PW PW PW PW PW PW

PP PP

SYL 汙染造成了霧的形成並加重了大氣環境的變化

圖 3.6：中文常見的階層式韻律架構，本圖摘錄自【19】

此外鄭秓豫博士【20】提出另一個韻律架構並提出韻律標記的概念，如圖 3.7 所示。此架構將中文韻律結構分成五層，前三層和第一種韻律架構一樣，分別為音節層次(Syllable, SYL)、韻律詞層次(Prosodic Word, PW)以及韻律短語層次(Prosodic Phrase, PPh)。第四層則是將連續的 PPh 組合成一個呼吸群(Breath Group, BG)來代表大範圍且有基頻及音長變化的篇

章或是段落，藉此表示韻律更上層的貢獻，同理定義了第五層為連續的 BG 所組成的韻律群 (Prosody Group, PG)。而上述所說的五層架構則採用六種標記來區分，B0 和 B1 代表 SYL 的邊界，差別在於 B0 表示 reduced syllable boundary，B1 則是 normal syllable boundary，且通常在 B0 及 B1 的邊界聽不出停頓。B2 及 B3 分別區分 PW 和 PPh 的邊界，B4 和 B5 則是區分 BG 和 PG 的邊界，B4 代表一個呼吸的停頓，B5 則為一個完整語音段落的結束，並且可以明顯感受到句尾的音節長度拉長(final lengthening)以及能量的減弱。

圖 3.7：階層式多短語韻律句群(Hierarchical Prosodic Phrase Gruoping，HPG)架構。【20】

本研究主題雖然為中英文夾雜的語句，但文句還是以中文為主體，英文字母少量穿插在中文句子中，且英文字母大多數都為單音節結構，和中文字結構相仿，因此我們假設在正常語流的情況下，英文字母本身的上層韻律變化(High-Level Prosodic information)與韻律斷點會受到中文整體韻律變化的限制與影響。此觀點也可與 3.1 節中所提到的 Tone Borrowing 之現象呼應，因為當前後中文字都屬於聲調語言的情況下，英文字母的發音也很容易變成帶有聲調的發音，如 A 類似中文一聲。基於上述理由，本研究仍以 HPG 的中文韻律架構為基礎，

進一步對其做修改，利用修改後的架構作為中英文夾雜文句的韻律模型架構。

詞邊界。接著我們將 B4、B5 合併為 B4，整個韻律架構由 5 層變回 4 層，如圖 3.8 所示。綜 合上述，本研究採用了 7 種停頓標記(Break Type) B ={B0,B1,B2-1,B2-2,B2-3,B3,B4}，來標記 這四種韻律單元：音節(SYL)、韻律詞(PW)、韻律短語(PPh)及呼吸群/韻律群(BG/PG)。值得注意的是由於上述中英文夾雜語句的特性，本研究並不會因為是英文字母所對應到的停頓標記而給定特別不同於中文的標記。

圖 3.8：本研究所用之階層式韻律架構

在此將 B2 分成 3 類是因為雖然同屬於韻律詞的邊界，但其對應的聲學特性仍然有所不同，原先的單一類別不足以將其差異性描述出來；而將 B3 及 B4 合併則是因為它們所對應到的聲學特性相近，故不需要再用額外的韻律邊界停頓來表示之。

為了要更進一步描述這四層的階層式韻律架構，除了描述韻律單元邊界的停頓標記外，

還需要描述韻律單元變化的韻律標記或參數。而本研究利用一些帶有韻律組成份子資訊的標記來間接的表示這些韻律組成份子，此標記即為韻律狀態，其意義代表圖 3.8 架構中最上面三層之韻律組成份子個別的貢獻。在本研究中會採用三種不同的韻律狀態，分別量化正規化後的音高、音長和音節能量。正規化後的音高為扣除掉音節層次對音高的貢獻，此時音高的韻律狀態代表的是韻律詞、韻律短語、呼吸群/韻律群對音高的貢獻。至於音長或音節能量則同理扣除音節層次影響因素，使其分別表示最上面三層之韻律詞、韻律短語、呼吸群/韻律群對音長和音節能量的貢獻。簡而言之，音高、音長和音節能量的韻律狀態分別表示每個音節在韻律詞層次以上貢獻的音節音高平均、音節音長和音節能量。這樣做的好處在於，我們能將音高、音長和音節能量在低層次和高層次的影響因素分開，將複雜的高層次影響因素通通由韻律狀態來表示。此外韻律狀態標記一樣不會因為英文字母而給予特定標記，原因如

上述中英文夾雜語句特性，其上層韻律變化會受到中文整體韻律變化的限制與影響，因此韻

B ={B0,B1,B2-1,B2-2,B2-3,B3,B4}，其意義如 3.2 節所述，主要區分每一層韻律架構的邊界。

另一類的韻律標記為音節的韻律狀態，此演算法定義三種韻律狀態，分別代表經過量化和正

聲學參數則用來說明音節邊界停頓標記，我們假設這兩類的聲學參數和音節邊界停頓標記有很高的關聯性，但與韻律狀態標記的相關性很低或是獨立，第二類聲學參數為音節間韻律參數(inter-syllable prosodic feature)，包含音節邊界的停頓時長、音節邊界的 energy-dip level。

第三類聲學參數為音節差韻律參數(differential prosodic feature)，包含正規化基頻跳躍值 (normalized pitch jump)和正規化的音節長度延長因子(normalized duration lengthening factor)。

綜合上述討論，定義聲學參數 A 包含了音節音高軌跡序列 sp 、音節長度序列 sd 、音節 能量序列 se、停頓時長序列 pd、音節能量低點(energy-dip level)序列 ed 、正規化的音節內基 頻跳躍值 pj 及正規化的音節長度延長因子序列 dl df、。

affecting patterns (APs) 。



_n _n

 

-1 _n-1 _n-1



節邊界型態(Intra-word、Inter-word)、詞長及 POS 和對應到的標點符號類型等。將整個語言 參數集合以 L 表示，由於聲調、基本音節類型及韻母類型分別對音節音高、音長及音節能量 有顯著影響，因此將這些語言參數獨立出來表示，最後因考慮到不同語句時，說話速度上的變動會造成音長變化及說話音量變動會造成能量的變化，因此再將語句層次的正規化因子獨

立出來，而剩下之語言參數則定義為 reduced linguistic feature l 。 為了清楚了解這些符號定義，將上述說明列在表 3.2。

表 3.2：韻律標記、韻律特徵和語言特徵的表示法

T

: prosodic tag

B

: break type

PS

: prosodic state

p

: pitch prosodic state

q

: duration prosodic state

r

: energy prosodic state

A

: prosodic feature

X

: syllable prosodic feature

sp

: syllable pitch contour

sd

: syllable duration

se

: syllable energy level

Y

: inter-syllabic prosodic feature

pd

: pause duration

ed

: energy-dip level

Z

: differential prosodic features

pj

: normalized pitch jump

dl

: normalized duration lengthening factor 1

df

:normalized duration lengthening factor 2

L

: linguistic feature

l

: reduced linguistic feature set

t

: syllable tone sequence

s

: base-syllable type sequence

f

: final type sequence

u:

utterance sequence

綜合上述討論，可將(3.1)改寫為：

 

開(Orthogonal expansion)，投影到四個 Legendre 多項式基底得到四維正交化參數。(3.7)式中的β_x，表示音節音高軌跡影響因素 x 時的 AP，tp_n是 tone pair t_nⁿ^¹( ,t t_n _n₊₁)，

1 -1 推導出來，其節點的分類準則是採用最大概似函數增益(Maximum Likelihood Gain)，將音節

種停頓標記建立一顆決策樹，將每個節點裡的不同參數分別用不同 pdfs 來模擬，用一個 而每個子模型，可用雙連文模型(bigram models)分別表示為：

1 1 1

3.4 中英夾雜 PLM 演算法

(Maximum Sum Square Error Reduction)，詳細實作流程將在 3.6 節中介紹。

其中

γ 表示



sd 之 APs 。同上述所說，我們將每個英文字母視為一種特定聲調，及

_n 數學式同(3.11)式與(3.12)式，一樣採取 CART 演算法，使用分類準則為最大概似函數增益，

將音節間停頓長度(pd_n)、音節間能量低點(

ed )、相鄰兩音節之正規化基頻跳躍值(

_n pj_n)、相下，該如何設計語言參數，如 code-switch 處音節停頓會比一般 Non-code switch 處來的長一點，因此英文語言參數的考量將會大大影響此停頓標記聲學模型的效果。

第三個模型：韻律狀態轉移模型^{P PS B}





，同中文 PLM，將此模型拆解成三個 bigram models，分別描述三種韻律狀態與停頓標記之轉移關係，數學式同(3.14)~(3.16)。

第四個模型：停頓標記語言模型^{P B L}

 

^| ，同中文 PLM，採用 CART 演算法，以最大概

似函數增益為分裂準則，統計在不同語言參數下，所蒐集到的停頓標記分佈狀況，其問題集 (₃)同停頓標記聲學模型。而所使用之語言參數一樣需要多考量英文字母，如 code-switch 處因為有比較長的音節停頓長度，因此產生停頓標記 B2-2 的機率尌相對較高。而停頓標記也會受到下一個音節的聲母型態而有所影響，因此將英文字母依據貣頭發音方式，分類成如同中文聲母型態的分類，如表 3.3 所示：

表 3.3：英文字母分類表

INULL A、E、M、N、I、O、R、U、V、Y、

F、H、S、X、L b(ㄅ)、d(ㄉ)、g(ㄍ) B、D、W

sh(ㄕ) 、x(ㄒ) C

zh(ㄓ)、z(ㄗ)、j(ㄐ) G、J、Z p(ㄆ)、t(ㄊ)、k(ㄎ) P、T、K、Q

其中 F、H、S、X、L 因貣始發音也是濁音(voiced)，因此歸類在 INULL。

在文檔中中英夾雜語音之階層式韻律架構建立與語音合成之應用 (頁 30-42)

第三章 中英文夾雜韻律模型