第二章 漢語語音特性和漢語 TTS 系統概述
2.2 漢語 TTS 系統概述
2.2.3 韻律模型
在目前的語音合成技術領域裡,對於韻律模型的建立方式可以分為兩種:規則法 (Rule-Based Approach)和資料驅動法(Data-Driven Approach),我們將在以下兩個小節中分別 對其做概略性的說明。
2.2.3.1 規則法 規則法 規則法 規則法
規則法是利用一些已經觀察到的韻律現象再輔以一些統計結果而設計出的一套韻律規 則,這些規則通常和語言層面的訊息有很大的關聯性,必須先對所要發音的文句做詳盡的分 析而後才套用適當的規則。一般常見的規則我們可以舉出數個例子,首先是在各個音節的音 高軌跡決定上使用變調規則(Tone-Sandhi Rule);再來是在考慮不同的音節、聲母、韻母以及 聲調的情形之下音節音長的分佈狀況;再者是觀察文句中的標點符號類型以決定整體句子的 抑揚頓挫(其也就是語調);最後是分析各個詞的詞類、語法結構和語意等。在特定文句的語 法結構下套用特定的韻律規則,這種韻律模型的建構動輒需要數十個甚至上百個韻律規則,
並且需要大量的語言學知識和龐大的人工處理才能得到,因此這種方法並不適用於龐大的語 料庫,且其所得到的韻律模型在調適性上有很大的限制,亦即無法依據不同的語料特性做適 度的調整。
2.2.3.2 資料驅動法 資料驅動法 資料驅動法 資料驅動法
資料驅動法是利用語料本身的韻律參數以一些數學模型來自動建立韻律模型,且由語料 本身的韻律特性自動地學習出韻律規則,以建立語音和文字之間韻律參數的關聯性。此種方 法最大的好處是我們不需要定義太多的語言行為,也不必瞭解太深入的語言學知識,只需要 藉由適當的參數選取以及套用適合的數學模型,就可以由大量的語料自動地產生出效能不錯 的韻律模型。
資料驅動法所使用到的數學模型最主要是一些圖像識別(Pattern Recognition)用途的數學 工具,如決策樹(Decision Tree)和類神經網路(Artificial Neural Network, ANN),另外還有使用 於統計學上的線性迴歸法(Linear Regression)。我們將在下一個小節中對於以類神經網路為數 學模型的方式做進一步的介紹,此為本實驗室所發展出來的韻律模型“遞迴式類神經網路 (Recurrent Neural Network, RNN)韻律模型”。
2.2.3.2.1 RNN 韻律模型 韻律模型 韻律模型 韻律模型
RNN 模型的概念是以一組複雜的網路模型來模擬人腦的學習與記憶功能,其學習是採
用漸進式的修正錯誤與更新記憶方式,模型經過長時間且大量的資料學習訓練可以獲得不錯 的效能。這個方法可以避免規則法所需的人工分析歸納龐大的韻律規則,且亦能夠兼顧到文 句整體的韻律訊息。
圖二.3為本實驗室所開發出來的 RNN 韻律模型的基本架構圖。RNN 為 ANN 架構型態
的一種用以模擬人類韻律訊息產生的方式,其輸入的參數分為兩個部份,一為音節層次語言 參 數 (Syllable-Level Linguistic Feature) , 另 一 為 詞 層 次 語 言 參 數 (Word-Level Linguistic Feature)。
圖二.3:RNN 韻律模型的基本架構圖。
我們將圖中的音節層次語言參數符號條列說明如下:
˙I(S ) 和j I(Sj+1) 為現在之音節S 和下一個音節j Sj+1的聲母類型;
˙F(S ) 為現在之音節j S 的韻母類型; j
˙T(S ) 和j T(S ) 為現在之音節j+1 S 和下一個音節j Sj+1的聲調類型;
˙L(S W )j i 為現在之音節S 在現在的詞j Wi裡面的位置。
我們亦將圖中的詞層次語言參數符號條列說明如下:
˙POS(W )i 和POS(W )i+1 為現在的詞Wi和下一個詞Wi+1的詞類;
˙Len(W )i 和Len(W )i+1 為現在的詞Wi和下一個詞Wi+1的詞長;
˙PM(W ,W )i i+1 和為現在的詞Wi和下一個詞Wi+1中間的標點符號。
i i+1 i i+1 i i+1
POS(W ),POS(W ),Len(W ),Len(W ),PM(W ,W )
每一個詞的韻律狀態參數 韻律模型
韻律參數產生器
每一個音節的韻律訊息
j j+1 j j j+1 j i
I(S ),I(S ),F(S ),T(S ),T(S ),L(S W )
輸出的參數包含了音節的四個音高軌跡參數、一個聲母音長參數、一個韻母音長參數、一個 音節間停頓長度參數和一個能量位準(Energy Level)參數,其中四個音高軌跡參數為以四個正 交函數對每一個音節的音高軌跡做正交化展開的係數,詳細敘述請參閱參考文獻[1]。
此 RNN 韻律模型可分為兩個部份,一為韻律模型(Prosodic Model),另一為韻律參數產 生器(Prosodic Parameter Generator)。韻律模型藉由輸入詞層次語言參數以分析與探索隱藏於 文句中的韻律片語(Prosodic Phrase)結構,並且以詞為單位輸出每個詞的韻律狀態(Prosodic State)參數;韻律參數產生器藉由輸入音節層次語言參數以及韻律模型所產生的韻律狀態參 數,來產生以音節為單位的韻律訊息。