以韻律模型為基礎之中文韻律轉換研究

(1)

國立交通大學

電信工程學系

碩士論文

以韻律模型為基礎之中文韻律轉換研究

A Study on Model-based Prosody Conversion for

Mandarin Chinese

研究生：宋柏毅

指導教授：陳信宏

博士

(2)

以韻律模型為基礎之中文韻律轉換研究

A Study on Model-based Prosody Conversion for

Mandarin Chinese

研究生：宋柏毅 Student：Po-Yi Sung

指導教授：陳信宏博士 Advisor：Dr. Sin-Horng Chen

國立交通大學

電信工程學系

碩士論文

A Thesis

Submitted to Departmant of Communication Engineering

College of Electrical and Computer Engineering

National Chiao Tung University

in Partial Fulfillment of the Requirements

for the Degree of

Master of Science

in Communication Engineering

July 2009

Hsinchu, Taiwan, Republic of China

(3)

以韻律模型為基礎之中文韻律轉換研究

研究生：宋柏毅指導教授：陳信宏

博士

國立交通大學電信工程學系碩士班

中文摘要

本研究提出以韻律模型為基礎的中文韻律轉換方法，其系統架構可分為訓練以及轉換部份。在訓練部份，先以 A-PLM 演算法分別對來源以及目標語料標示韻律標記並建立韻律模型，接著建立彼此韻律標記上的轉換關係。本論文提出兩種轉換方法，在方法一中以線性轉換的方式預估目標韻律狀態，此方法不需特別用到平行語料；而在方法二中，以

MMSE(Minimum Mean Square Error)原則，建立來源與目標韻律標記的轉換關係，它需使用

平行語料。在轉換部份，首先以 A-PLM 演算法標記欲轉換的語句，即可將得到的標記資訊透過轉換函式，預估目標語者的韻律標記；最後，藉由預估得到的目標語者標記資訊以及目標韻律模型還原音節基頻軌跡、音節長度以及音節能量位階，並利用目標語音原始之頻譜參數，以 STRAIGHT 合成器合成轉換之聲音。實驗結果證實，本論文所提出之方法在中央研究院 COSPRO 語料庫上轉換效果優於傳統轉換方法。以平行語料為基礎的方法中，方法二之轉換效果在不同轉換組別皆優於以高斯混合模型為基礎之轉換，而以非平行語料為基礎所推導的方法中，方法一則優於高斯正規化轉換。

(4)

A Study on Model-based Prosody Conversion for

Mandarin Chinese

Student：Po-Yi Sung Advisor：Dr. Sin-Horng Chen

Department of Communication Engineering

National Chiao Tung University

Abstract

In this thesis, a novel model-based prosody conversion method for Mandarin speech is

presented. In the training phase, the source and target speech datasets are first analyzed by the

A-PLM method to label all utterances with prosody tags and to construct their own prosodic

models; then, a mapping function is built to relate the prosodic phrase structure of the two speakers.

Two schemes of building mapping function are proposed. Scheme 1 builds a linear mapping

function to relate the source and target prosodic states. No parallel training datasets are needed.

Scheme 2 builds a probabilistic mapping function to relate the source and target prosody tags. A

set of parallel data is required to train the mapping function. In the conversion phase, the source

utterance is first analyzed by the A-PLM method. The labeled prosody tags are then converted to

the target prosody tags by the mapping function. The transformed syllable pitch contour, duration

and energy level is lastly generated by the target prosodic model. Experimental results on the

Sinica COSPRO corpus confirmed that the proposed method performed very well. The two

proposed schemes outperformed the conventional methods of mean/variance transformation and

(5)

致謝

首先，要感謝研究所這兩年來指導我，對我諄諄教誨的陳信宏老師以及王逸如老師。謝謝陳老師，因為您在研究上的指點以及提醒，使我的研究進度一直都很順利；感謝王老師，跟我們 meeting 時能不厭其煩的幫我們找錯誤，使我能用不同的角度分析思考事情。接著要感謝的是一起為畢業打拼的痞子德，還好你每次在抽菸跟洗澡時都能想出不錯的研究方向，不然我們現在不知道會在幹麻；也感謝性獸，提供我許多的協助，使我在研究上能夠很順利的解決許多問題；謝謝楊智合、希群、巴金叔叔，在我們學弟對研究感到迷惘時給我們鼓勵；還有常常嚇我的輝哥，因為你的不斷提醒，讓我知道畢業沒那麼容易；博學多聞又很會打官腔的 Q 哥，總是能提供我許多不同的意見，雖然有時候很敷衍；常常帶我們去吃好料的普烏，讓我知道了很多好玩的景點；最佳新好男人小帥哥，你真的是好男人的代表，刻苦耐勞對女朋友又體貼，我真是該多跟你學習學習；常常陪我們熬夜的宥余，很少看到像你這麼認真的人了，有時候真搞不清楚到底你是碩二還是我是碩二；感謝帥哥承燁，在口試前還幫我合成聲音；常常陪我丟球的皓翔，記得要練強一點，不然都說我欺負你；天天都在跟妹聊天的撲馬，快點介紹給我認識吧！希臘人小卡，你程式那麼強，研究一定沒問題的；還有實驗室唯二的女生，jolin 跟雲舒，實驗室真的很久沒女生了，希望你們能成為典範，讓老師以後還會收女生。在這裡也要特別感謝一下的是胖胖，不厭其煩的幫我跑實驗數據，接下來就交給你啦，相信你一定可以做的比我更好的。最後，要感謝的是我的爸媽還有我哥，謝謝你們對我的信任，以及在我失意時，不斷的鼓勵我，如果沒有這份信任以及背後的支持，我可能沒辦法這樣無後顧之憂的完成我的學業。

(6)

目錄

中文摘要... I Abstract ...II 致謝... III 目錄... IV 表目錄... VI 圖目錄... VII 第一章緒論...1 1.1 研究動機...1 1.2 文獻回顧...1 1.3 研究方向...5 1.4 章節概要說明...5 第二章系統架構簡介...6 2.1 韻律轉換系統架構...6 2.2 A-PLM演算法 ...8 2.2.1 設計韻律模型...8 2.2.2 A-PLM法標記及訓練韻律模型 ...13 第三章以音節為基礎之韻律轉換...15 3.1 基頻軌跡量化...15 3.2 傳統韻律轉換方法簡介...16 3.2.1 高斯正規化轉換...16 3.2.2 聯合高斯混合模型轉換...17 3.3 以韻律模型為基礎之基頻轉換...19 3.3.1 基頻轉換方法一...19

(7)

3.3.2 基頻轉換方法二...22 3.4 以韻律模型為基礎之音長與能量轉換...25 3.4.1 音長與能量轉換方法一...25 3.4.2 音長與能量轉換方法二...28 第四章實驗結果與分析...30 4.1 實驗環境設定...30 4.2 基頻轉換之客觀性評估...31 4.3 說話特性對基頻轉換影響之分析...34 4.4 音節長度與能量轉換之客觀性評估...38 4.5 主觀性評估...40 第五章結論與未來展望...41 參考文獻...42

(8)

表目錄

表 2-1：韻律標記、韻律參數和語言參數的表示法 ...10 表 4-1：五種轉換方法對四組轉換組別的客觀評估(NMSE)結果 ...32 表 4-2：五種轉換方法對音節基頻軌跡形狀之NMSE ...33 表 4-3：四組語者轉換組合之停頓標記不一致性統計結果(%) ...35 表 4-4：四組語者轉換組合之相關係數 ...35 表 4-5：五種轉換方法對四組轉換組合的音節長度客觀評估結果 ...39 表 4-6：五種轉換方法對四組轉換組合的音節能量位階客觀評估結果 ...39 表 4-7：M2ÆF2 主觀性評估結果 ...40

(9)

圖目錄

圖 1-1：聲音轉換基本架構圖 ...2 圖 2-1：訓練階段之系統架構圖 ...6 圖 2-2：轉換階段之系統架構圖 ...7 圖 2-3：A-PLM演算法所採用之韻律階層架構...8 圖 2-4 觀察到的音節基頻軌跡與其影響因素的關係圖 ...12 圖 3-1：GMM轉換之概念圖 ...19 圖 4-1：F2ÆF1 之基頻軌跡轉換圖，內容為「著重於兼顧人文社會學科，各領域的完整性」 ...32 圖 4-2：F2ÆF1 基頻軌跡轉換圖，內容為「次日中午快下班時，他打電話說下午打牌打到七點」...33 圖 4-3：說話特性差異示意圖 ...36

圖 4-4：四組語者轉換組合在三種Type情況下之 95% confidence interval ...36

圖 4-5：基頻轉換誤差定義示意圖 ...37

(10)

第一章

緒論

1.1 研究動機

人與人之間的溝通交流都是透過語言以及文字來進行，而在人與機器之間，卻還是必須要透過鍵盤以及滑鼠來進行操作。因此，若能夠使機器像人一般可以理解人類的語言，以及能夠發出像人類的聲音、說話的韻律，並以此與人溝通，則能夠使得操作機器時更人性化。語音合成系統即是為了能讓機器發出如同人類說話的聲音進而發展出的技術。雖然目前已經可以合成出品質頗佳的聲音，但是要表現出完全像是人類說話的韻律，以及抑揚頓挫等特性，卻仍處於積極研究的階段。若能在語音合成系統上，運用聲音轉換的技術，並透過目標語者的語料，使電腦能任意地轉換成不同語者說話韻律之特性，將能夠使合成的聲音更富有多樣性。語言學家發現，語音的韻律結構是呈階層式的架構，同樣一段文字會隨著語者說話方式的不同，而有不同的斷句時機跟停頓時間長短等，尤其在唸愈長的語句中，語者之間說話方式的差異會愈明顯。因此本論文之研究動機即是以過去所提出的韻律模型，將來源語者

(source speaker)與目標語者(target speaker)的韻律表現拆解成若干個影響因素，建立影響因素

之間的對應關係，進而達到不同語者之間說話韻律以及特性之轉換。

1.2 文獻回顧

聲音轉換的技術最常用在語者聲音轉換上[1]，期望能將來源語者的聲音經由轉換後聽起

來像是目標語者，為了達成此目的，過去的做法主要從頻譜轉換以及韻律轉換兩方面著手；

除了上述的應用外，近年來，聲音轉換的技術也應用於以資料庫為基礎的文字轉語音系統

(corpus-based text-to-speech system)之後端，以便於將合成的語音轉換成目標語者之語音

[2,3]，藉由此項技術，當需要合成不同語者的聲音，則不用重新錄製大量新語者之語料，僅

(11)

技術也應用在其它方面，例如將中性情緒的語音轉換成目標情緒語音[4, 5]，歌唱聲音的轉換

[6]，以及以窄頻訊號預估寬頻訊號[7]。

聲音轉換技術主要可以分為頻譜轉換以及韻律轉換，圖 1-1 為聲音轉換之基本架構圖。

如圖所示，主要分成訓練階段(training phase)與轉換階段(conversion phase)兩部份；在訓練階

段，傳統上是先由來源語者與目標語者錄製平行語料，亦即來源與目標語者錄製相同的文

本；接著，求取韻律以及頻譜有關的特徵向量。由於來源與目標語者所錄製的語句長度不同，

必須透過演算法，如動態時軸校準(Dynamic Time Wrapping, DTW)來建立來源與目標語者特

徵向量的對應關係，依據此對應關係訓練轉換函式(conversion function)以進行轉換。在轉換階段，則是先將輸入的來源語音信號抽取出特徵向量，並將此特徵向量經由轉換函式進行轉換得到估測之目標特徵向量，最後將估測之目標特徵向量藉由語音合成器合成聲音。圖 1-1：聲音轉換基本架構圖對聲音轉換而言，最重要的核心技術就是建立來源與目標語者之間的轉換函式，過去已有許多的方法被提出，主要的做法可以分為以下幾種： ¾ 以向量量化(Vector Quantization)為基礎之轉換

(12)

此方法最早由 M. Abe 等人[8]所提出，作法為先利用 DTW 演算法對來源與目標語者之訓練語料做校準，同時也分別對來源訓練語料與目標訓練語料做向量量化並建立碼本(codebook)，如此則可利用校準之結果找出來源碼字(codeword)與目標碼字之對應關係，並統計每個碼字對應所佔之權重；在轉換部分，先查詢來源碼本中哪個碼字與來源聲音之特徵參數最相近，即可利用查詢到之碼字以及其與目標碼字之對應權重，以線性組合建立轉換。此方法雖然簡單，但轉換之結果僅為碼字之線性組合，故為一不連續之轉換，聲音品質也不佳。

¾ 以高斯混合模型(Gaussian Mixture Model, GMM)為基礎之轉換

以 GMM 為基礎之轉換是由 Y. Stylianou 等人[1]所提出，之後有許多研究[9]都是以此方法為基礎對其做進一步的改進。其中，又以 A. Kain 等人[10]所提出的改進方式為目前聲音轉換最常被引用。其基本想法為利用高斯混合模型描繪來源與目標語者之特徵參數，並以此建立轉換函式。因為高斯混合模型為連續機率密度函數，故此方法解決了以向量量化為基礎之轉換不連續性問題。此一做法將於第三章做詳細之介紹。

¾ 以隱藏式馬可夫模型(Hidden Markov Model, HMM)為基礎之轉換

高斯混合模型雖然解決了轉換上不連續的問題，但是並沒有考慮到語音信號在時間

上之相關性，因此 H. Duxans 等人[3]以及 C. H. Wu 等人[11]提出了以 HMM 為基礎

之轉換，藉由聲音信號在 HMM 狀態上之變換，而以不同轉換函式進行轉換，以解

決 GMM 對於時間獨立(time independent)之假設。

¾ 以分類迴歸樹(Classification and Regression Tree, CART)為基礎之轉換

除了最基本的語音特徵參數之外，語音學上的資訊(phonetic information)也為聲音的

重要特性，例如聲母(initial)、韻母(final)以及聲調(tone)等。因此 H. Duxans[3]提出

(13)

每一葉節點建立轉換函式，形成多轉換函式之轉換方法。韻律轉換之目標是將來源語者之韻律參數，例如基頻值(pitch value)或基頻軌跡(pitch contour)、音長(duration)、停頓(pause)，以及能量位階(energy level)轉換成目標語者之韻律參數。在早期聲音轉換之研究上，主要以探討頻譜為主，對於韻律的轉換，則是以簡單的方法，如線性轉換來呈現之；而在探討韻律轉換之研究上，絕大多數仍是以基頻為主；其中，最普遍的是以高斯正規化的方式，找出線性對應的函式對來源語者之基頻值做轉換，此方法的優點在於簡單易於實現且不需要用到平行語料。近年來，開始有學者們嘗試用不同的方法於韻律轉換之研究，例如以高斯混合模型為基礎於基頻轉換[5]。對於基頻轉換，過去的作法[12, 13]主要是以音框為單位，亦即對基頻值做轉換。此作法的缺點在於並未考量音框與音框之間時間上之關聯性，尤其影響以聲調語系為主的語言如中文。由於中文是有聲調的語言，而聲調帶有語意上之資訊。聲調主要特徵來自於音節中的基頻軌跡，因此基頻軌跡在轉換時若發生錯誤，則可能導致最後語意方面的誤解。故在一些文獻中，開始有以音段(segmental)或超音段(suprasegmental)為轉換單元[5, 14-17]，而不是單一

基頻值。在[18]中，就先以time normalization以及moving average filter對音節基頻軌跡作量

化，轉換方式則是基於音調碼本方法(tone codebook mapping method)做轉換。此外，[5]則是

以pitch target model[19]對音節基頻軌跡作量化，再以GMM與CART為基礎的轉換方式對此特

徵向量作轉換。本研究則是以正交化展開之三階係數描述音節的基頻軌跡，再對此係數作轉換。據韻律研究的文獻，語音的韻律結構是由階層式的架構(hierarchical structure)所組成[20, 21]，因此近年來學者開始運用韻律以及語言學上的知識於基頻轉換。吳宗憲等人首先提出一簡化的階層式架構，將來源與目標語者的基頻軌跡由上層至下層拆解為句子(sentence)、詞 (word)與次音節(sub-syllable)三個階層，對各階層間建立轉換函式，轉換時則以此不同階層的轉換函式進行轉換[14]。

(14)

1.3 研究方向

本論文以江振宇的韻律模型[22]為基礎，提出中文韻律轉換的方法。首先在訓練部份，

利用A-PLM(Advanced unsupervised joint Prosody Labeling and Modeling)演算法分別對來源與

目標語者之所有訓練語料做標記並建立其韻律模型，此韻律模型建立了語者的音節基頻軌

跡、音長、能量位階之統計模型，而韻律標記資訊則描述了上層的韻律階層架構。

接著建立來源與目標語者在韻律標記上的對應函式；在轉換時，藉由韻律標記轉換函式

以及目標語者的部份影響因素(Affecting Factor)，完成韻律轉換。最後，聲音的合成部份則

是使用STRAIGHT(Speech Transformation and Representation using Adaptive Interpolation of

weiGHTed Spectrum)[23]合成器進行合成；本研究主要是針對韻律轉換，因此在頻譜部份，則保有目標語音語句之頻譜參數進行合成。

1.4 章節概要說明

本論文共分為五章：第一章緒論：介紹本論文之研究動機與方向。第二章系統架構簡介：介紹本論文提出之轉換方法系統架構以及所採用之韻律模型。第三章以音節為基礎之韻律轉換：介紹兩種傳統的韻律轉換方法，以及本論文所提出兩種以韻律模型為基礎之轉換法。第四章實驗結果與分析：以客觀與主觀評估方式驗證轉換方法，並分析實驗結果。第五章結論與未來展望。

(15)

第二章系統架構簡介

此章節首先介紹本論文所提出以韻律模型為基礎的轉換方法系統架構，接著介紹採用的韻律模型。

2.1 韻律轉換系統架構

圖 2-1 與圖 2-2 分別為本研究提出之韻律轉換系統架構圖之訓練階段(training phase)與轉換階段(conversion phase)。首先在訓練階段，分別對來源以及目標語料以音節為單位做切割，並藉由切割資訊抽取出韻律參數(prosodic features)，包括音節基頻軌跡、音節邊界的停頓時

長(pause duration)、音節長度、能量位階以及音節邊界的 energy-dip level 等資訊；同時以文

字處理器抽取出語言參數(linguistic features)，包括聲調、詞長、詞類之資訊。接著以 A-PLM

演算法，結合韻律參數以及語言參數分別訓練來源語者與目標語者各自之韻律模型，並標記

韻律狀態(prosodic state)以及停頓標記(break type)。

圖 2-1：訓練階段之系統架構圖

為了要使來源語者之說話韻律特性經由轉換之後能與目標語者之說話韻律特性相近，本

(16)

律標記之轉換函式(prosody mapping function)。在建立韻律轉換函式，本研究提出兩種方法，分別為轉換方法一與方法二。首先在方法一中，運用了高斯正規化的概念對來源與目標的韻律參數以及韻律狀態建立對應關係，因此，此方法並不需要特別用到平行語料，即可建立轉換函式；其次，在方法二則是以 MMSE 法則，建立來源以及目標韻律標記資訊之間的轉換關係，此該方法必需要使用平行語料。在轉換階段，先將來源語音以音節為單位做切割，藉由切割位置抽取出韻律參數，同時將語料文字抽取出語言參數；接著利用來源語者之韻律模型對輸入語音標記其韻律狀態及停

頓標記(source prosody tags)，之後即可將得到的標記資訊，透過轉換函式，得到預估的目標

語者韻律標記(target prosody tags)；最後，藉由預估得到的目標語者標記資訊以及目標韻律

模型還原音節基頻軌跡、音節長度以及音節能量位階，並利用目標語音原始之頻譜參數，以

STRAIGHT 合成器合成轉換之聲音。

(17)

2.2 A-PLM 演算法

本論文所採用之 A-PLM 演算法可以針對一個未經人工事先標記好的語料庫，經由一連串參數最佳化的過程，同時做好韻律標記以及模型參數估測。圖 2-3 為在 A-PLM 演算法中所採用之中文韻律階層架構；此架構由四層所構成：音節(SYL)、韻律詞(PW)、韻律短語 (PPh)、以及呼吸組/韻律句組(BG/PG)。圖 2-3：A-PLM 演算法所採用之韻律階層架構

2.2.1 設計韻律模型

韻律標記問題可以視為，在給定語料庫之語音聲學參數集合A，和相對應的語言參數集 合L 之下，要求取輸出的韻律標記集合之最佳解，因此整個過程可以看成一個求取最佳參 數解的過程，即 T argmax ( | , )=argmax ( , | )P P ∗₌ T T T T A L T A L (2-1) 韻律標記集合包含了兩類很重要的漢語語音韻律資訊，第一類是階層韻律架構的音節邊界停頓標記(Break Type)，在本論文定義韻律邊界音節停頓標記集合 {B0, B1, B2-1, B2-2, B2-3, B3, B4}，其中 B2-1、B2-2 及 B2-3 分別代表明顯音高重置(pitch reset)之韻律詞邊界、

短停頓(short pause)之韻律詞邊界以及含有音節拉長效應(duration lengthening)之後的韻律詞

邊界。另一類的韻律標記是音節的韻律狀態，在本方法中韻律狀態有 3 種，代表的意義分別是經過量化和正規化音節基頻韻律狀態 = B p 、音長韻律狀態 q 和音節能量韻律狀態 r 。正規化 後的基頻會扣除掉音節層次對基頻的貢獻，即聲調和連音的影響因素會被扣掉，此時音節基頻的韻律狀態代表的是韻律詞、韻律短語、呼吸組/韻律句組對基頻的貢獻。至於音長或能

(18)

量強度則要分別扣除語句、聲調、基本音節類型或韻母類型的影響因素，使其分別表示最上面三層之韻律詞、韻律短語、呼吸組/韻律句組(PW,PPh,BG/PG)對音長和能量強度的貢獻。綜合以上，韻律標記集合T B PS={ , }，其中PS={ , , }p q r 為韻律狀態標記集合。 聲學參數可分為兩類，其中一類的聲學參數和韻律狀態標記有很大的相關性，與音節邊界停頓標記的相關性很低或是獨立，屬於這類的聲學參數有音節基頻軌跡、音長和音節能量；另一類的聲學參數則用來說明音節邊界停頓標記，這類型的聲學參數和音節邊界停頓標記有很大的相關性，與韻律狀態標記的相關性很低或是獨立，屬於這類的聲學參數有音節邊

界的停頓時長(pause duration)、音節邊界的 energy-dip level、正規化的能量差、正規化的基

頻差(normalized pitch jump)以及正規化的音節長度拉長因子(normalized duration lengthening

factor)等。根據上面的討論定義 A 包含音節基頻軌跡序列 sp、停頓時長序列 pd、energy-dip

level 序列 ed、音節長度序列 sd、音節能量序列 se、正規化的音節內基頻差序列 pj，定義為：

(

+1(1) n+1(1)

) (

(1) (1) n n t n t pj = sp −β −sp −β

)

n n , (2-2) 在此定義為向量 x 的第一維度，下標 n 表示為第 n 個音節， 為聲調影響因素的 affecting patterns(APs)，而正規化的音節長度拉長因子序列 dl 和 df 定義為： (1) x β_t t_n

(

n n

) (

-1 n-1 n-1

)

n n t s n t s dl = sd − −γ γ − sd −γ −γ (2-3) 和

(

n n

) (

1 n1 n1

)

n n t s n t s df = sd − −γ γ − sd₊ −γ ₊ −γ ₊ (2-4) t γ γ_s分別表示聲調與基本音節類型影響因素在音長的 APs，因此聲學參數集合成為其中和 { , , , , , , , } = A sp sd se pd ed pj dl df 。為了能夠更清楚的說明這些聲學參數，將 細分三個類別：音節韻律參數 A

(Syllable Prosodic Feature)X={sp sd se ，音節內韻律參數, , } 以及音節差韻律參數

(Inter-syllabic Prosodic

(19)

至於語言參數方面，首先用L 來表示所有的語言參數集合。接下來將音節聲調、基本音

節類型與韻母類型從L 中獨立出來，這樣做的用意在於音節聲調、基本音節類型與韻母類型

分別對音節基頻軌跡、音長與音節能量有顯著的影響。其次考慮到不同語句時，說話速度上

的變動會造成音長的變化以及說話音量變動會造成能量的變化，再把兩個語句層次的正規化

因子獨立出來。最後將上述這些從L 中拿掉和獨立出來後剩餘的語言參數，定義為 reduced

linguistic feature set 格 2-1。

1：韻律標記、韻律參數和語言參數的表示法 brea

l，為了能清楚的了解這些符號定義，將其列在表

表

2-B: k type

p: pitch prosodic state

q: duration prosodic state prosodic tag

prosodic state

: energy prosodic state our

T:

PS:

r

sp: syllable pitch cont

sd: syllable duration syllable prosodic feature

: syllab el

X:

se le energy lev

pd: pause duration

Y: inter-syllabic prosodic feature

: energy-dip level

ed

pj: normalized pitch jump

dl: no duration lengthening prosodic feature

: differential prosodic features

:n duration lengthening factor 2 A: Z rmalized factor 1 ormalized df

l: reduced linguistic feature set

t: syllable tone sequence

s: base-syllable type se

f: fi

quence nal type sequence

linguistic feature L: u: utterance sequence 綜合上述之討論，可將 2-1 式改寫為 P P P P P P = = ≈ T A L A T L T L X Y Z B PS L B PS L (2-5) 律模型狀態模型(P ( , | ) ( | , ) ( | ) ( , , | , , ) ( , | ) ( | ,X B PS L, ) ( , | , ) (P Y Z B L P PS B| ) ( | )P B L

其中 ( | ,P X B PS L 稱為音節韻, ) (Syllable Prosodic Model)， ( , | , )P Y Z B L 稱為停頓聲學模

(20)

break-syntax model。進一步將音節韻律模型 ( | ,P X B PS L 分解成三個模型，分別模擬音節基, ) 頻軌跡序列sp、音長序列 sd 和音節能量序列 se，並且假設 sp、sd 和 se 的變化在此只受到 響因素控制：音節聲調t 、基本 以下幾個影、韻母類型、語句 u、韻律狀態 和韻律邊界停頓B ( | , , ) ( | , , ) ( | , , , ) ( | , , , ) ( | , , ) ( | , , , ) ( | , ) N N N n n n n n n n n n n n n n n n 音節類型s f { , , } = PS p q r ，因此得到 p p p p 1 -1 -1 1 1 n n p 1 , , n n B p t + p sd q t s u p se r t f u = ≈ ≈

∏

X B PS L sp B p t sd q t s u se r t f u sp (2-6) 先從 2-6 式的第一個模型看起， ( | , , ) N n n = = -1 -1 1 1 n n n n n p B p t + = n

∏

sp 是在模擬每個基頻軌跡時，假設所觀察到 第 n 個音節之基頻軌跡 sp 會受到目前基頻韻律狀態p 、目前聲調以及在給定韻律邊界停_n 頓 n t -1 n B 和B_n 時，前後各一個音節聲調t_n₋₁和t_n₊₁ 造成的連音影響，因此 B_nn_-1=(B_n_-1,B_n) ， 1 -1 ( -1, , 1) n n n n n t+ = t t t₊ 。而sp 則為第 n 個音節基頻軌跡，是將音節基頻軌跡進行正交展 (orthog_n 開 onal ，投影到四個 Legendre 多項式基底所得到的四維正交參數，在此將sp 寫成 _n expansion) 1, -1 , for 1 n n n n n n r f b n= n+ t + p + B− tp + B tp + ≤n N sp p β β β β μ 的 ≤ s (2-7)

2-7 式 β 表示音節基頻軌跡影響因素為_x x時的 AP，tp 是 tone pair n

1 +1 ( , ) n n tn + ₌ _， 1, -1 n n f B₋ tp β 和 , b p

β 分別是第 n-1 個和第 n+1 個音節所貢獻的前後音節影響效應的 APs， μ global mean

n t t B t 是的 AP。個語句的韻律邊界都有兩個特例，分別以 n n b B B 表示之_e 每，即為語句的開始與結束和，因此 0 B t B tp β β ， _{B t} _B _tp 為兩個特例的連音效應 APs 制在目前音節的 log-F0 level，我們把 設定成在四維正交係數的第一維都是非零值。 1 0 , , b f = f _βb =_βb r_是正規化後的，另外為了將韻律狀態的影響限 , , e N N N n sp n p β n sp ，亦可稱為spn扣除、、 f β 、_βb _{μ 的殘餘值(residual)，圖 2-4} 顯示出 n t β n p β 1, -1 n n B₋ tp B tp_n, _n和 n sp 與這些影響因素之間的關係圖，藉由假設 是一 zero-mean normal distribution，即 )，則可以得到 r n sp 的 ( r; , N sp 0 R

(21)

1 -1 1 -1 , , | , ) ( ; , n n n n n n n f b n n -1 n n t p B tp B tp ( n , ) for 1 n p B t + =N + + ₋ + + sp sp β β β β μ R P ≤ ≤n N (2-8) 其中R定義為 r的共變數矩陣(covariance matrix)。 n sp 1 n− sp B_n₋₁ sp_n B_n sp_n₊₁ 1, 1 n n f B ₋ tp ₋ β , n n b B tp β n t β n p β 圖 2-4 觀察到的音節基頻軌跡與其影響因素的關係圖 2-6 式第二個模型： ; n s N ( | , , ) ( , ) n n n n n n n n n t q s u d d P sd q t ,u = sd γ +γ +γ +γ +μ R (2-9) 模擬了音節長度sd_n， μ_d 與R_d分別表示 global mean 與音長殘餘值的共變異數矩陣；而 2-6 式第三個模型 ; n n n n n n n n un N n t r f u e e ( | , , ) ( , ) P se r t f , = se α +α +α +α +μ R (2-10) 模擬了音節能量se_n， μ_e與R_e分別表示 global mean 與音節能量殘餘值的共變異數矩陣。停頓聲學模型進一步化簡如下： P Y Z B L ≈P Y Z B l ≈

∏

P pd ed pj dl df B l (2-11)

CART)推導出來，其節點的分類標準是依據最大概似函數增益(Maximum Likelihood Gain)， ( , | , )

P Y Z B L

1

n=

其中 (P pd ed pj dl df B l, , , , | , ) 是經由分類樹與決策樹(Classification and Regression Tree, ( , | , ) ( , | , ) ( , , , , | , )

N

n n n n n n n

(22)

CART 演算法可以利用一個已經設計好的問題集，依據不同的韻律邊界停頓同時將所有音節的 pd 、_n ed 、_n pj 、_n dl 和_n df 做好分類。在此將_n pd 以 gamma distribution 建構，而_n ed_n、pj 、_n 和以建 distribution 和四個 al distribution 的乘積。韻律狀態模型可以進一步針對三種韻律狀態分解成三個子模型，表示為 (2-12) 而、和可以用雙連文模型(Bigram Models)分別表示為 1 (2-13) 1 (2-14) 和 1 (2-15) 至於 break-syntax 模型，若能將每個音節邊界分開模擬，還可以再化簡為 n n n B = l (2-16)

2.2.2 A-PLM 法標記及訓練韻律模型

A-PLM 法在同時估測 8 個韻律模型的參數及對所有語句做韻律標記的過程中，是根據 ML 法則做一連串的最佳化程序直到收斂為止，整個演算過程分為兩部份：初始化和疊代。初始化過程會對所有語句做初始的韻律標記，以及對 2.2.1 節所討論的 8 個子模型做初始的韻律參數估測；而在疊代的過程中會先對所有語句定義一概似函數(Likelihood Function) 構，因此 (p pd ed pj dl df B l_n, _n, _n, _n, _n| _n, )_n 會是一個 gamma n dl df_n normal distribution norm ( | ) ( | ) ( | ) ( | ) P PS B ≈P p B P q B P r B ( | ) P p B P q B( | ) P r B( | ) 1 1 2 ( | ) ( ) ( | , ) N n n n n P P p P p p₋ B₋ = ⎡ ⎤ ≈ _⎢ _⎥ ⎣

∏

⎦ p B 1 1 2 ( | ) ( ) ( | , ) N n n n n P P q P q q₋ B₋ = ⎡ ⎤ ≈ _⎢ _⎥ ⎣

∏

⎦ q B 1 1 2 ( | ) ( ) ( | , ) N n n n n P P r P r r₋ B₋ = ⎡ ⎤ ≈ _⎢ _⎥ ⎣

∏

⎦ r B ( | ) P B l 1 N P P −

∏

B l 1 ( | )= ( | ) 其中 ( | )P B l 可以經由 CART 演算法得到。 _n _n

(23)

1 -1 1 1 1 1 1 1 1 1 1 1 1 2 ( | , , ) ( | , , , ) ( | , , , ) ( ) ( ) ( ) ( | , ) ( | , ) ( | , ) ( , , N n n n n n n n n n n n n n n n n n N n n n n n n n n n n n n Q P p B t p sd q t s u p se r t f u P p P q P r P p p B P q q B P r r B p pd ed + − = − − − − − − = ⎛ ⎞ = ⎜ ⎟ ⎝ ⎠ ⎛ ⎞ ⎜ ⎟ ⎝ ⎠

∏

sp

(

)

1 1 , , | , ) ( | ) N n n n n n n n n pj dl df B P B − = ⎛ ⎞ ⎜ ⎟ ⎝

∏

l l ⎠ (2-17) 接著利用一個多重步驟的疊代程序，反覆更新所有的韻律標記和 8 個韻律子模型的參數，細節可參考[22]。

(24)

第三章以音節為基礎之韻律轉換

本論文將會對音節之基頻軌跡、長度以及能量作轉換，故在本章中，首先將會介紹對音節基頻軌跡量化之演算法，接著詳細介紹兩種以音節為基礎的韻律轉換方法，並以此作為與本論文提出方法的比較基準，最後提出以 A-PLM 產生之韻律模型為基礎的兩種韻律轉換方法。

3.1 基頻軌跡量化

為了呈現以音節為基本單元之基頻轉換，也就是對音節的基頻軌跡做轉換，在本論文以正交化展開之三階係數[24]，來描述音節之基頻軌跡變化曲線。之所以選用正交化係數作為韻律轉換的參數主要是因為以下兩點原因：首先，在過去的研究中[21, 24]，正交化係數已經成功的用來描述音節的基頻軌跡；此外，在本研究，實驗也證實了正交化係數的確適合做為音節基頻軌跡的轉換。正交化係數展開的數學式如下： 0 1 ( ) ( ) 1 N j i i a f i N = N = ⋅ Φ +

∑

j (3-1) ( ) f i 代表第 j 階的四維正交化參數； j a ，0≤ ≤i N 其中，，表示以音框為單位之原始基頻軌跡，為音節基頻軌跡的長度； _j( i ) N Φ 0≤ ≤j 3 1 N+ ，，為四個勒讓德多項式(Legendre polynomial)的基底，定義如下： 0 1 2 1 1 2 3 ₂ 2 1 5 ₂ 3 3 ( ) 1, 12 1 ( ) , 2 2 180 1 ( ) , ( 1)( 2)( 3) 6 2800 ( ) ( 1)( 2)( 2)( 3)( 4) 3 2 i N i N i N N N i N i i N N N N N N N N i N N N N N N N i i N Φ = ⋅ ⎡ ⎤ ⎡ ⎤ ⎛ ⎞ Φ =_⎢ _⎥ ⋅_⎢_{⎜ ⎟}− _⎥ + ⎣ ⎦ ⎣⎝ ⎠ ⎦ ⎡ ⎤ ⎡ ⋅ ⎤ ⎛ ⎞ ⎛ ⎞ − Φ =⎢ ₋ ₊ ₊ ⎥ ⋅⎢_{⎝ ⎠}⎜ ⎟ −⎜ ⎟_{⎝ ⎠}+ _⋅ ⎥ ⎢ ⎥ ⎣ ⎦ ⎣ ⎦ ⎡ ⋅ ⎤ Φ =_⎢ _⎥ × − − + + + ⎣ ⎦ ⎛ ⎞ − ⎜ ⎟ ⎝ ⎠ 2 ₂ 2 2 6 3 2 ( 1)( 2) . 10 20 N N i N N N N N N ⎡ _{⎛ ⎞} _⋅ _{− ⋅ +} _{⎛ ⎞} ₋ ₋ ⎤ + − ⎢ ⎜ ⎟ _⋅ ⎜ ⎟ _⋅ ⎥ ⎝ ⎠ ⎝ ⎠ ⎢ ⎥ ⎣ ⎦ (3-2)

(25)

藉由正交化展開，可利用四維參數表示一個音節基頻軌跡；在基頻轉換所使用的向量，即為此四維參數。轉換後的四維參數可使用下列數學式還原音節基頻軌跡： 3 0 '( ) _j _j( ) j i f i a N = =

∑

⋅Φ 。 (3-3)

3.2 傳統韻律轉換方法簡介

在本節將會介紹兩種傳統的韻律轉換方法，並以此作為與本論文提出方法的比較基準。

3.2.1 高斯正規化轉換

韻律轉換的方法中，最常使用的轉換方法為高斯正規化(Gaussian Normalization)的方式，也就是對平均值與變異數做一線性轉換，此方法亦稱為(Mean/Variance Transformation)。此方法的優點在於簡單易於實作，且訓練語料可以是非平行語料，常做為韻律轉換的基本方法與比較的對象。令xn與y 分別表示來源語者與目標語者在第 n 個音節的韻律參數；接著n 假設來源與目標語者每個音節的韻律參數分別服從高斯分佈如下：其中， ( _n) ( _n; , ) and ( _n) ( _n; , ) P x =N x μ Σ_x _xx P y =N y μ Σ_y _yy (3-4) x μ 與 分別為來源和目標語者的期望值向量；與分別為來源與目標語者的共變異數矩陣，此共變異數矩陣通常假設為對角化矩陣。因此，以高斯正規化的方式對轉換，轉換函式如下： xx Σ y μ Σyy n x ₍ _{) (}12 _{) (}21 ₎ n n − = _yy _xx − _x + _y y Σ Σ x μ μ (3-5) 其中， y 為轉換後第 n 個音節的韻律參數。然而此方法的缺點在於，當來源語料與目標語料_n 為平行語料時，並無法有效的利用平行語料之間的相關性來做轉換，使得轉換後的效果無法進一步提升。

(26)

3.2.2 聯合高斯混合模型轉換

為了能建立來源語者與目標語者之間的關聯性，提升轉換的效果，以高斯混合模型為基礎的轉換方法[10]，可以有效的利用平行語料，建立來源語者與目標語者的相關特性。此方法在頻譜轉換的研究上，已被驗證有相當不錯的效果；過去也有學者將此方法應用於基頻轉換[5, 14]。

{

, , ,

}

= ₁ ₂ _n X x x " x 與Y=

{

y y₁, ₂,",y_n

}

分別為來源以及目標語者的韻律參數序列，而 為一組韻律參數向量對，“T＂為矩陣轉置符號， x 與 令 T T T [ , ] = Z X Y y 之向量維度皆為 d。值得 注意的是，此方法所使用的語料為平行語料，因此來源與目標語者的音節數必定相同，故不需要做額外的校準(Align)步驟。以下先以單一高斯分佈來說明與推導此方法。首先，此方法假設 T T T的聯合機率分布符合高斯分佈，其機率密度函數為： [X Y, ] 1 1 1 ( ) ( , ) exp( ( ) ( ) ( 2 (2 ) T d P P π − = = − − Σ − Σ z zz z zz z x y z μ z μ )) (3-6) ⎡ ⎤ = ⎢ ⎣ ⎦ xx x ⎥ y zz yx yy Σ Σ Σ Σ Σ 其中，μz =[(μx T) , (μy T T) ] ，，在此希望找到轉換函式，使得目標韻律

向量序列與轉換後之值，能夠有最小的均方差 (mean square error) ，也就是使 ( )

F x

2

( )

mse E F

ε = ⎡_{⎣ y}− _{x ⎤⎦ 為最小。根據最小均方差(Minimum Mean Square Error, MMSE)之法則，}

當εmse有最小值時，轉換函式F( )x =E

[

y x|

]

，而其條件機率密度函式為： / 2 1 ( , ) 1 1 ( | ) exp( ) ( ) _{(2 )}d ₍ ₎ 2 P P P _π − = = − Σ − ΣYY YX ΣXX ΣXY x y y x U x (3-7) 其中， 1 1 1 ( ( ( ) (− ))) (T ( )− ) (− ( ( ) ( )) = − y + ΣYX ΣXX − x Σ − ΣYY YX ΣXX ΣXY − y + ΣYX ΣXX − x U y μ x μ y μ 1 x μ ) − _，因此

(27)

[

]

1 ( ) | ( ( ) ( )) F x =E y x = μy+ ΣYX ΣXX − x μ− x 。 (3-8) y 上式是以單一 mixture 描述與x 之聯合機率分佈，以此為基礎，進一步以多個 mixture 之高斯混合模型建構的機率分佈： Z 1 ( ) ( , ) ( ; , ) M n i n i P P α N = = =

∑

z x y z μ Σi i ⎥ (3-9) 其中， N z μ Σ( _n; _i, _i) 為第 i 個 mixture 的高斯機率分佈； i =[( i) , ( i ) ] 以及 x T y T T μ μ μ i i i i i ⎡ ⎤ = ⎢ ⎣ ⎦ xx xy yx yy Σ Σ Σ Σ Σ 則分別為第 i 個 mixture 之期望值向量與共變異數矩陣；αi為每個 mixture 的權重，且 ；M 為總共的 mixture 數；利用 EM(Expectation-Maximization)演算法，可 以估計出高斯混合模型的參數。 1 1 M i i α = =

∑

而基於高斯混合模型的轉換函式，可以推導如下：

[

]

[

]

-1 ( , ) ( , ) ( ) | ( | ) ( ) ( ) ( ) = ( | ) ( | ) ( | ) ( ) ( | ) ( | ) ( | ) | , ( | ) ( ) ( M i i i M i i i M M i i i i i i i i i M i i i i n i i i N P F E P d d d P N N N d P i N d N P i N d P i E i P i α α α α = = = = ⎡ ⎤ ⎢ ⎥ ₌ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ ⎡ ⎤ = ⎢ ⎥= ⎢ ⎥ ⎣ ⎦ = +

∑

∫

∑

∫

_∑

∫

∑

∫

∑

y y y y y y y xy xx x y x y x y x y y x y y y y y x _x x y y x y y x y x y x x y y x y x y x x μ Σ Σ 1 ) M n i i= ⎡ − ⎤ ⎣ ⎦

∑

_x _μx (3-10) 1 ( ; , ) ( | ) ( ; , ) i n i i n M i n i i i N P i N α α = =

∑

x xx x xx x μ Σ x x μ Σ 表示x_n屬於第 i 個 mixture 之機率。其中，

(28)

Sentence

Syllable1 Syllable2 SyllableN

Prosodic Features GMM Estimate Prosodic Features Estimate Prosodic Features Estimate Prosodic Features 圖 3-1：GMM 轉換之概念圖此轉換方法之概念如圖 3-1 所示。在此轉換函式中，每個來源韻律參數都可獨自代入轉換，得到預估之目標韻律參數，這也意謂著每個參數之間是互為獨立的；然而，此方法缺點在於沒有考慮音節與音節之間的關聯性，且無法有效利用語言參數於韻律轉換中。

3.3 以韻律模型為基礎之基頻轉換

音節基頻軌跡反應語者說話音調的高低起伏變化，尤其在中文裡，音節之聲調表現在基頻軌跡中，因此基頻軌跡在所有韻律參數中扮演著重要的角色。本節將介紹提出的兩種基頻轉換方法。

3.3.1 基頻轉換方法一

在第二章介紹了音節基頻軌跡模型(如 2-8 式)，可將來源與目標語者的音節基頻軌跡特徵向量分別表示成一個高斯分佈，如下數學式： 1 1 , 1 -1 -1 , , , , ( | , , ) ( ; , ) n _n _n _n _n _n n n n n n n f b n t _p _B _tp _{B tp} P p B t N − − + = + x + x + x + x x x x x x x x x x β β β β μ R (3-11) 及

(29)

1 1 , 1 -1 -1 , , , , ( | , , ) ( ; , ) n _n _n _n _n _n n n n n n n f b n t p B tp B tp P p B t N − − + = + y + y + y + y y y y y y y y y y β β β β μ R (3-12) 其中，x_n及y 分別表示來源語者及目標語者第 n 個音節基頻軌跡正交化參數；上標與下標_n x y 符號“ ＂與“ ＂分別表示來源語者與目標語者。藉由以上兩式，並運用高斯正規化轉換的概念，可以得到轉換函式：

{

}

1 1 1 1 1 1 , , 2 2 , , , , , , ( ) ( ) ( ) ( ) n _n _n _n _n _n n n n n n n f b n t n p B tp B tp f b t p B tp B tp − − − − − = − + + + + + + + + x x x y y y x x x x y x x y y y y y y R R x β β β β + μ β β β β μ (3-13) x μ 與高斯正規化轉換方式相比較，此式子若僅考量語者說話的影響因素，即與，則該式可化簡成式。由此可知，方法一可以視為高斯正規化轉換方式的廣義表示方式。接著進一步化簡上式；首先，在此轉換函式中，值得注意的是，這一項已變成為基頻的殘存值；因為在基頻上有意義的影所以殘存值的機率分布傾向於ㄧ個變異數極小的白雜訊；除此之外，來，因此不適合將來源基頻殘存值用來估計目標基頻殘項從轉換函式中移除，並將式簡化成如下： n p 。基本上，在式所表示的就是目標基頻軌跡模型的期望值，但在轉換時，為了要估計 y μ 3-5 (General Form) 1 1 , , , , ( ) n n n n n n f b n− t + _px + _Bx₋ _tp₋ + _{B tp}x + x x x x x x β β β β μ 響因素都已被扣除，源基頻與目標基頻的殘存值相關性極小存值。基於以上兩個原因，在此將 1 1 , , , , ( ) n n n n n n f b n− t + _px + _Bx₋ _tp₋ + _{B tp}x + x x x x x x β β β β μ 3-13 1 1 , , , , n _n _n _n _n f b t n = + py + By− tp− + B ty + y y y y y y β β β β μ (3-14) n y 3-14 ，仍然需要知道語言參數，以及韻律標記資訊 y，而這些資訊需要經由來源語者的韻律標記來預估；其中，轉換聲音之聲調以及聲調組合，必定與來源語者一致，因此可以直接以來源語者之 1 , , n n n py By₋ B 1 1 n n t ₋+

(tone) (tone pair)

1 1

n n

(30)

話風格(speaking style)，也就是假設： 1 n n 1 By₋ =Bx₋ 以及 B_ny =B_nx n x (3-15) 對於韻律狀態(Prosodic State)的轉換，目的是建立來源語者的韻律狀態與目標語者的韻律狀態之間的關係。同樣的因為假設目標與來源語者有相同的說話風格，因此假設： n px n py n py = p (3-16) 但是同時考慮到來源與目標語者之韻律狀態並非固定為一對一之對應關係，因此更進一步以高斯正規化的方式，對來源語者的韻律狀態做線性轉換，再去尋找轉換後的狀態值，最接近哪一個目標韻律狀態碼字，如下數學式所示： 2 (1) ˆ arg min n (1) n p n _i p σ σ = ⎛ ⎞ ⎜ = − ⎜ ⎝ ⎠ x x y y x β β_p _i ⎟ ⎟ y (3-17) 其中， (1)代表的第一維數值； n px x β n px x β σ_x與σ_y分別表示訓練語料中音節基頻軌跡參數扣除了韻律狀態以外的影響因素(Affecting Factor)的標準差，如下數學式所述： 1 1 , , , , ( (1) (1) (1) (1) (1)) n _n _n _n _n f b n t B tp B tp Std σ − − = − − x − x − x x x x x β β β μx (3-18) 以及 1 1 , , , , ( (1) (1) (1) (1) (1)) n n n n n f b n t _B _tp _B _tp Std σ − − = − − y − y − y y y y y β β β μy (3-19) 值得注意的是，在此假設韻律狀態的影響因素向量只有在第一維有值，這是因為韻律狀態所代表的是韻律上層的資訊，因此它只會對音節基頻軌跡的層級(level)有影響。最後，可以將 3-14 式改寫成 1 1 , , ˆ , , n n n n n n f b t n = + _py + _Bx₋ _tp₋ + _{B tp}x + y y y y y y β β β β μ (3-20)

(31)

此方法繼承了高斯正規化轉換方式的優點，即不需要特別準備平行的訓練語料;此外，在更精細的考量各影響因素後，可以預期轉換後的效果能有所提升。

3.3.2 基頻轉換方法二

在上小節提出的方法一中，有兩個缺點。首先，方法一強烈的假設了來源與目標語者有相同的韻律片語結構，即假設彼此的說話方式相似，因此方法一令轉換聲音與來源語料有相同的停頓標記(如 3-15 式)；第二，在轉換語音時，給定韻律狀態的方式是以簡單的線性轉換，即 hard decision 的方式決定(如 3-17 式)。當轉換的句子長度較短時，這些假設是合理的，因為較短的句子相對而言有較簡單的韻律片語結構，亦即唸短句時，來源與目標語者的說話方式應該相似；相反的，當轉換的句子長度較長時，來源語者與目標語者的說話特性則會呈現出來，例如相同的語句，但兩者在不同的位置發生停頓，使得來源與目標語者該句話的韻律片語結構差異變大，進而造成轉換上的效果不好。此影響尤其對來源與目標語者有不同說話方式。為了克服這兩項缺點，在此提出了方法二的轉換。首先，採用 MMSE 為準則以x_n預估y ： _n _[ _| _] ₍ _| ₎ n n n n n n n =E =

∫

P y y x y y x dy 其中， ) (3-21) * * ( n| n) ( n, , | n, , , P =

∑∑

P y y y y x x B p y x y p B x p B L (3-22) y p _以及_By_{分別為目標語句之韻律狀態與停頓標記序列；}_px*_以及 _{分別為來源語句之韻律} 狀態與停頓標記序列；L={ , } 為與來源語句相關的語言參數集合。接著將簡化如下： * x B n l 1 1 n n t−+ * * ( _n, , | _n, , , ) P y p B x p B Ly y x x

(32)

* * , 1 * * ( , ) ( | , , ) ( , | , , ) n n n n n P P p B t + P ≈ x y y y y x x L y p B p B L * * * * -1 -1 , , | , , ( | , , , , , ) ( , | , , , ) n n n n n n P P = y y x y y x x y y x x y p B x p B y p B x p B L p B x p B L (3-23) 其中，P(y | p By, _nyn,t_nn+ )為目標音節基頻軌跡模型；P(p B p B Ly, y| x*, x*, ) n , 1 -1 -1 n n 為韻律標記對應模

型(prosody-tag mapping model)。前者之簡化是為了只考慮對於 y 有最重要的影響因素，而後

者是為了只對韻律標記做轉換。將 3-22 及 3-23 式代入 3-21 式中，可進一步推導為： , -1 * * , 1 -1 -1 , , 1 , 2 * * , 1 n n n n n + − − + y y x x y y p B y y y y (3-24) 3-24 式的化簡，是為了以從語句開始到時間點 n 為止的資訊，預估出 _n -1 1 1 -1 -1 ( , | , , ) ( | , , ) ( , | , , , , ) [ | , , ] n n n n n n n n n n n n n n n n n n p B P P p B t d P p B p B E p B t = ≈

∑∑

_∫

∑∑

y y y y x x y y y p B p B L y y y p B L y y 。其物理意義可以解 × y y p B 個轉換函式 _n _n, _n 1] -1 -1 [ | , n, n 釋為：總共有 E y_n p By y t + ，每個轉換函式分別給予不同的權重 * * ( , | , , ) P p B p B L 後作相加(weighted summation)，進而得到預估的基頻軌跡；此權重則表y y x x 示利用來源語句的韻律標記資訊( * * , x x p B )以及語言參數 L，預估目標語者的韻律標記資訊 (p B )所得到的機率值即為該權重。方法二與方法一主要的差異在於，前者是用機率統計y, y 式的方式，亦即以軟式決策(soft decision)的方式式決策(hard decision)的概念。 n n n n 一個高斯分佈，因此 3-24 式可改寫成 B L (3-25) 去預估目標韻律標記，不同於後者是採用硬由於在 2.2 節中假設 , 1 ( | , n, n ) P y p By y-1 t -1+ 為 , -1 1 1 , , 1 , 2 * * -1 1 1 , , , , ( , | , , , , ) ( ) n n n n _n _n _n _n _n n n n n n n p B f b t p B tp B tp P p B p B − − − − = ⋅ + + + +

∑∑

y y y y y y y y y x x y y y y y y p β β β β μ

(33)

, , 1 , 2 * * -1 1 1 *,2 * * 1 1 1 1 1 1 1 *,2 * * 1 1 1 1 1 1 1 ,2 *,3 * * 2 1 1 1 2 2 2 2 ( , | , , , , ) ( | , , ) ( | , ) 1 ( | , , ) ( | , ) ( | , , , ) ( | , ) n n n n n P p B p B P p B p B P B B n P p B p B P B B P p p B p B P B B − − = ⎧ × ⎫ ⎪ ⎪ ⎨ = _⎪⎩ _⎭ y y y y x x y y x x y x y y x x y x y y y x x y x p B L l l l 1 1 -2 , 1 , 2 , 3 * * 1 -2 1 1 , *, 1 * * 1 -1 1 2 ( , | , , , , ) 3 ( | , , , ) ( | , ) n n n p n n n n n n n p B _n _n _n _n _n _n _n _n n P p B p B n N P p p B p B P B B − − − − − − + − − ⎧ ⎪ ⎪ ⎪⎪ _⎬ ⎪ = ⎨ ⎪ ⎪ ⎧_⎪ × ⎫_⎪ ⎪ _⎨ _⎬ ≤ ⎪ ⎪_⎩ ⎪_⎭ ⎩

∑

∑∑

y y y y y y y x x y y y x x y x p B L l (3-26) ≤

其中，為韻律狀態對應函式(prosodic state mapping function)，藉由前

一個轉換的韻律狀態 , *, 1 * 1 -1 1 ( n| n , nn, n n , n ) P p py y₋ By px₋ + Bx 1 n py₋ -1, n n By 、對應音節其相鄰的停頓標記，以及來源音節相鄰的韻律標記與 *, 1 1 n n px₋ + Bn* x _{，預估現在轉換音節的韻律狀態} _；而 _{為停頓標記對應函式(break} mapping function)，藉由來源音節的停頓標記 n py P B B( n| n*, )n y x _l * n Bx ，以及前後文的語言參數，預估現在轉換音節的停頓標記 n l n By。在實作上，因為{ }以及{ }的空間集合太大，可能會造成某些空間組合的資料量過少，因此在本研究中採用 CART 演算法，分別藉由問題集對兩個空間，依據最大概似函數增益的判定原則分裂節點；最後每個葉節點分類成以及。因此 3-26 式中的兩個對應函式可以改寫成： , *, 1 1, -1 , 1 , n n n n n n py₋ By px₋ + Bx* )

)

+

)

* _l * , n n Bx l , *, 1 * 1 -1 1 ( n , nn, n n , n C py₋ By px₋ + Bx * ( n , )n C Bx l

(

, *, 1 * , *, 1 * 1 -1 1 1 -1 1 ( _n| _n , _nn, _n n , _n ) _n| ( _n , _nn, _n n , _n ) P p py y₋ By px₋ + Bx ≈P p C py y₋ By px₋ Bx (3-27) 以及。 (3-28)

(

* ( _n| _n , )_n _n| ( _n , )_n P B By x l ≈P B C By x

(34)

3.4 以韻律模型為基礎之音長與能量轉換

前一小節探討了音節基頻軌跡之轉換，我們也可以將前文所提及基頻軌跡轉換方法的想法套用於音節長度與能量之轉換。音節的長度反應出說話速度的快慢，而音節之能量則代表聲音的大小聲，二者都影響聽者的感覺，因此若能將此二種韻律參數藉由韻律模型做轉換，則轉換後之聲音更能突顯目標語者的說話特性。本節介紹以韻律模型為基礎之音節長度及能量轉換方法。

3.4.1 音長與能量轉換方法一

如同 2-8 式之音節基頻軌跡模型，2-9 與 2-10 式描繪了音節長度與能量，能將來源語者與目標語者之音長以及能量分別以高斯分佈表示： ( | , , , ) ( ; , n _n n _n n n n n n n t q s u d d P sd q t s u N sd γ γ γ γ μ R = + x + + x+ x x x x x x x x x x ) ) ) ) 表示來源語者與目標語者，其餘之符號表示可參照表由與式，以高斯正規化轉換方式，可以得到音長轉換函式： (3-29) ( | , , , ) ( ; , n n n n n n n n n n t r f u e e P se r t f u N se α α α α μ R = + x+ + x + x x x x x x x x x x (3-30) 及 ( | , , , ) ( ; , n _n n _n n n n n n n t q s u d d P sd q t s u N sd γ γ γ γ μ R = + y + + y + y y y y y y y y y y (3-31) ( | , , , ) ( ; , n n n n n n n n n n t r f u e e P se r t f u N se α α α α μ R = + y + + y + y y y y y y y y y y (3-32) 其中，及 分別表示語者第 n 個音節之音長與能量；上標與下標符號“x＂與“y＂分別 2-1。藉 3-29 3-31 n sd se_n

(35)

{

}

1 1 2 2 ˆ ₍ _{) (} ₎ ₍ ₎ ( ) n n n n n n n d d n t _q s _u d t q s u d sd R R sd n n γ γ γ γ μ

γ

μ

− = − + + + + + + + + x x y y y y x x x x x x x y y y y y + (3-33) 利用 3-30 與 3-32 式，可得到能量轉換函式：

{

}

1 1 2 2 ˆ ( ) ( ) ( ) ( ) n _n n _n n n n n n e e n t _r f _u e t r f u e se R R se α α α α μ

α

μ

− = − + + + + + + + + x x y y y y x x x x x x x y y y y y + (3-34) ( ) n _n n _n n t q s u d sd − γ +γ x +γ +γ x+μ x x x x x x 基於與 3.3.1 節相同之想法，分別從 3-33 以及 3-34 式中將 ( n _n n _n n t r f u e se − α +α x +α +α x +μ ) x x x x x x 與項移除，並將轉換函式簡化如下： ˆ n n n n n t q s u d sdy =

γ

+

γ

y +

γ

+

γ

y +

μ

y y y y y e (3-35) ˆ n n n n n t r f u sey =

α

y +

α

yy +

α

y +

α

yy +

μ

y (3-36) 在轉換時，為了要估計sdˆ_ny與seˆ_ny，仍需要知道語言參數、、t_n s_n f ，以及韻律狀態標記_n 與，而這些資訊需要經由來源語者預估；其中，所有轉換聲音之語言參數，必定與來源語者一致，因此直接以來源語者之、、 n qy n ry n t s_n f 取代；對於韻律狀態的轉換，在此直接假設： _n n n qy =qx, x 同樣考慮到來源及目標語者之音長與能量韻律狀態並非固定為一對一之對應關係，因此以高斯正規化的方式，對來源韻律狀態做線性轉換，並尋找轉換後的狀態值，最接近哪一個目標韻律狀態碼字，如下數學式所示： n n ry =r (3-37) 2 ˆ arg min n n q n _i q q q γ σ γ σ = ⎛ ⎜ = − ⎜ ⎟ ⎝ ⎠ x x y y x q i ⎞ ⎟ y (3-38)

以韻律模型為基礎之中文韻律轉換研究

國 立 交 通 大 學

電信工程學系

碩士論文

以韻律模型為基礎之中文韻律轉換研究

A Study on Model-based Prosody Conversion for

Mandarin Chinese

研 究 生：宋柏毅

指導教授：陳信宏

博士

以韻律模型為基礎之中文韻律轉換研究

A Study on Model-based Prosody Conversion for

Mandarin Chinese

研 究 生：宋柏毅 Student：Po-Yi Sung

指導教授：陳信宏 博士 Advisor：Dr. Sin-Horng Chen

以韻律模型為基礎之中文韻律轉換研究

研 究 生：宋柏毅 指導教授：陳信宏

博士

國立交通大學電信工程學系碩士班

中文摘要

A Study on Model-based Prosody Conversion for

Mandarin Chinese

Student：Po-Yi Sung Advisor：Dr. Sin-Horng Chen

Department of Communication Engineering

National Chiao Tung University

Abstract

致謝

目錄

表目錄

圖目錄

第一章

緒論

1.1 研究動機

1.2 文獻回顧

1.3 研究方向

1.4 章節概要說明

第二章 系統架構簡介

2.1 韻律轉換系統架構

2.2 A-PLM 演算法

2.2.1 設計韻律模型

(

) (

)

(

) (

)

(

) (

)

∏

∏

∏

∏

∏

2.2.2 A-PLM 法標記及訓練韻律模型

∏

∏

∏

∏

∏

∏

(

)

∏

第三章 以音節為基礎之韻律轉換

3.1 基頻軌跡量化

∑

∑

3.2 傳統韻律轉換方法簡介

3.2.1 高斯正規化轉換

3.2.2 聯合高斯混合模型轉換

{

}

{

}

[

]

[

]

∑

國立交通大學

研究生：宋柏毅

研究生：宋柏毅 Student：Po-Yi Sung

指導教授：陳信宏博士 Advisor：Dr. Sin-Horng Chen

研究生：宋柏毅指導教授：陳信宏

第二章系統架構簡介

第三章以音節為基礎之韻律轉換

_∑

_∫