結論與未來展望

表 1.1 Sinica Treebank 語料庫內容

File name Content

news.check, travel.check News papers, books, or internet articles ko.check, ev.check Elementary school text books

oral.check Text from phonetic balanced speech corpus sino.check Text from Taiwan Panorama

1.5 章節概要說明

本論文的內容共分為六章：

第一章：緒論，介紹本論文之研究動機、研究方向、及語料庫說明。

第二章：HSMM-based 中文語音合成器，簡介傳統 HTS 系統與本研究提出之系統架構。

第三章：以韻律模型為基礎之 HSMM，介紹本研究頻譜訓練方法，並分析模型訓練結果。

第四章：韻律產生器：介紹本研究所提出之韻律預估與產生方法。

第五章：合成系統實作與評估：整體合成系統比較與結果分析。

第六章：結論與未來展望。

第二章 HSMM-based 語音合成器

本章描述本論文之所使用之 HSMM-based 語音合成系統。2.1 節先介紹基於隱藏式馬可夫模型的語音合成系統(HMM-based Speech Synthesis System, HTS)，2.2 節介紹基於半隱藏式馬可夫模型的語音合成系統(HSMM-based Speech Synthesis System)，2.3 節介紹本論文所提出之合成系統架構。

2.1 HMM-based 語音合成系統

過去隱藏式馬可夫模型被大量應用在語音辨識系統中，利用機率模型來描述口腔的各種發音現象。近年來，此技術開始被廣泛應用到語音合成上，在目前眾多語音合成系統中，因合成品質可達到不錯水帄被大眾廣為使用，並在 2005 年的語音合成比賽 Blizzard challenge

【10】中，獲得相當好的成績，且因統計式參數語音合成法易於進一步延伸應用的特性，一躍成為當今語音研究中最受矚目的合成方法。

本研究使用的 HTS 為日本名古屋大學資工研究所開發出來的 HTS 2.1【11】，此系統為基於 HTK 技術開發出的一套合成系統，專為使用隱藏式馬可夫模型語音合成系統建構。HTS 語音合成系統架構圖如圖 2.1 所示：

Training of HMM

Text analysis

Excitation

generation Synthesis filter

Parameter generation from

HMM

Excitation parameter Spectral Parameter

Speech signal 義梅爾倒頻譜參數(Mel-generalized Cepstrum, MGC)與激發訊號參數(log F0)，另一方面，根據文字分析器的文字分析結果產生對應的文脈相關之文本標示，搭配適當的文脈相關問題集，

訓練狀態(state)合併分裂樹，如圖 2.2 所示，首先收集所有屬於同一狀態的資料，由根節點根據文脈相關問題集進行分裂，頻譜與音高模型的決策樹為獨立分開訓練，如圖 2.2 的 HMM 有三個狀態，便會針對每個狀態的頻譜與音高參數個別產生一顆決策樹，共六棵樹，而音長

模型則定義僅有一個狀態，參數維度同於頻譜與音長模型的狀態數，這邊即為三維，因為只有一個狀態所以只訓練一顆決策樹，HTS 即透過決策樹之分群產生文脈相關 HMM，包含音高模型、頻譜模型及音長模型。

合成部分，輸入文字後，透過文字分析器產生文脈相關的文本標示，利用分類與回歸樹 (CART)演算法，挑選對應的 HMM 模型序列，並藉由參數產生演算法，產生頻譜參數與激發訊號參數，最後以 MLSA 濾波器(Mel Log Spectrum Approximation filter))產生語音信號。

圖 2.2 HTS 系統之決策樹【12】

2.2 HSMM-based 語音合成系統

HSMM-based 的語音合成系統，基本架構與上一節中介紹的 HMM-based 語音合成系統相同，差別僅在模型訓練階段，HMM-based 使用的 HMM 如圖 2.3 所示，而 HSMM-based 使用的 HMM 如圖 2.4 所示，比較兩圖可發現，圖 2.3 中標準 HMM 的狀態轉移機率，在圖 2.4 中被一機率分佈模型給取代，簡言之，HSMM 即以狀態持續時間模型取代 HMM 的轉移

State Duration Model

S1 S2 S3

Decision Tree for Spectrum

HMM for Spectrum & F0

Decision Tree for F0

Decision Tree for

State Duration Model

本論文即以 HSMM-based 語音合成系統為基礎做延伸應用，因此比較的對象為使用 HSMM 架構的傳統 HTS 系統，詳細的模型訓練流程將在第三章中介紹，而因合成系統是利

的狀態分裂合併結果。本論文所採用的語言參數，可粗分為五大類：音節層次(Syllable level)、

詞層次(Word level)、片語層次(Phrase level)、句子層次(Sentence level)，詳細使用之文脈相關語言參數，如表 2.1 所示：

表 2.1 文脈相關資訊 level ID Description

Syllable level

Pr_Phn Previous phone(Initial/Final) -Cur_Phn Current phone(Initial/Final) +Fol_Phn Following phone(Initial/Final)

^Phn_in_Syl Phone position in a syllable

=Pr_Tone Lexical tone of previous syllable

@Cur_Tone Lexical tone of current syllable

#Fol_Tone Lexical tone of following syllable

&F_Syl_in_SubWrd Syllable position in a sub-lexical word (SLW) (forward)

|B_Syl_in_SubWrd Syllable position in a SLW (backward)

/p:F_Syl_in_Wrd Syllable position in a lexical word (LW) (forward) /q:B_Syl_in_Wrd Syllable position in a LW (backward)

Word level

/a:Pre3POS_SWL 47-type POS/word length (WL) of previous-previous-previous SLW

/b:Pre2POS_SWL 47-type POS/WL of previous-previous SLW /c:Pre1POS_SWL 47-type POS/WL of previous SLW

/d:CurPOS_SWL 47-type POS/WL of current SLW /e:Fol1POS_SWL 47-type POS/WL of following SLW

/f:Fol2POS_SWL 47-type POS/WL of following-following SLW

/g:Fol3POS_SWL 47-type POS/WL of following-following-following SLW /A:Pre3POS_WL 47-type POS/word length (WL) of previous-previous-previous

/B:Pre2POS_WL 47-type POS/WL of previous-previous LW /C:Pre1POS_WL 47-type POS/WL of previous LW

/D:CurPOS_WL 47-type POS/WL of current LW /E:Fol1POS_WL 47-type POS/WL of following LW

/F:Fol2POS_WL 47-type POS/WL of following-following LW

/G:Fol3POS_WL 47-type POS/WL of following-following- following LW Phrase

level

/H:F_Syl_in_Ph Syllable position in a syntactic phrase (forward) /I:B_Syl_in_Ph Syllable position in a syntactic phrase (backward) /J:CurPhType_PhL Syntactic phrase type/length of current phrase /K:FolPhType_PhL Syntactic phrase type/length of the following phrase

Sentence level

/L:Pr_PM PM type preceding current syllable /M:Fol_PM PM type following current syllable /N:F_Syl_in_Snt Syllable position in a sentence (forward) /O:B_Syl_in_Snt Syllable position in a sentence (backward)

/P:CurSntL Current sentence length in syllable

/Q :FolSntL Following sentence length in syllable

建立好文脈標示後，接著根據表 2.1 之參數設計相關問題集，可分為下列五大類問題集：

1. 音節層次(Syllable level)：

i. 考慮當前音素與前、後音素:

 聲母發音類別：爆破音、摩擦音、鼻音、邊音、塞擦音等等。

 韻母發音類別：單元音韻母、複合元音韻母、鼻尾音韻母等等。

ii. 考慮當前音節聲調與前、後音節聲調。

iii. 考慮音節在詞中位置：由前面數來第幾個字，由後面數來第幾個字，詞中不同位置都可能影響最後聲音的韻律特性，此處將詞彙詞 (Lexical word) 與次詞彙詞 (Sub-lexical word)分開考慮。

2. 詞層次(Word level)：

i. 考慮當前詞(0)與前後三個詞(1、2、3)的詞類，依中研院 46 類詞類依實詞、

虛詞、八大詞類及特殊詞類集合合併，產生問題集。

ii. 考慮當前詞(0)與前後三個詞(1、2、3)的詞長。

以上同樣分詞彙詞與次詞彙詞兩類考慮。

3. 片語層次(Phrase level)：

i. 考慮當前音節在片語中位置：由前面數來第幾個字，由後面數來第幾個字。

ii. 考慮當前片語與後一個片語的類別。

iii. 考慮當前片語與後一個片語的長度。

4. 句子層次(Sentence level)：

i. 考慮當前音節的前、後音節邊界是否存在標點符號

ii. 考慮當前音節位在句子中第幾個字：由前面數來，由後面數來。

iii. 考慮當前句子與後一個句子的長度。

訂定好問題集與文本標記後，只需對訓練與欲合成的文本做好文脈相關文本標記，即可利用 HTS 系統，如圖 2.1 之系統架構圖訓練模型並合成聲音。

2.3 結合韻律模型之 HSMM-based 語音合成系統

本研究的模型訓練階段，與傳統 HTS 系統使用相似的訓練流程，但因合成階段架構不同的緣故，將原本合併訓練的頻譜與音高參數(mgc+lf0)修改成單純訓練頻譜參數，並根據客觀實驜結果，對模型結構做調整，取代傳統的狀態模型結構(State-based)根節點結合相同狀態的所有音素模型，進行決策樹分裂 (Tree splitting) ，訓練本研究之文脈相關模型 (Context-dependent model)。另一方面，以江振孙博士所提出之非監督式中文語音韻律標記及韻律模型演算法訓練韻律模型，並使用此韻律模型所定義之兩類韻律標記幫助頻譜模型訓練。

合成階段可參考下方之語音合成系統架構圖，當一段文字進來，首先透過文字分析器產生所需的各項語言資訊，並利用此資訊預測兩類韻律標記，預測完成後即可透過韻律產生器，

利用聲調、音節類型與韻律標記，直接從訓練的韻律模型產生音節音高與音節音長序列；另一方面，當具備語言資訊與韻律標記，即可從文脈相關 HSMM 中挑選合成單元串接成頻譜與音長 HMM 序列；另一方面，韻律產生器產生之音節音長，配合音長 HMM 序列，預估每個音素的狀態持續時間(State duration)，有了頻譜 HMM 序列與狀態持續時間即可運用參數產生演算法生成頻譜參數序列，音節音高根據有聲部分長度還原音節基頻軌跡(Syllable pitch contour, F0)，經簡單轉換後可得激發訊號(Excitation)，結合頻譜參數與激發訊號便可使用 MLSA 合成器合成語音。

Prosody & Context dependent

Syllable pitch contour reconstruction

Excitation

generation MLSA filter

Spectral prarmeter

Excitation parameter Synthesized

speech

第三章以韻律模型為基礎之 HSMM

本論文以江振孙博士所提出之中文韻律模型【7】為基礎，引入其所定義之兩類韻律標記，幫助訓練 HSMM。3.1 節將介紹中文語音之階層式韻律架構；3.2 節簡介中文韻律模型；

3.3 節介紹本論文的 HSMM 訓練過程；3.4 節則對引入韻律標記所建立之模型做簡單分析。

3.1 中文語音階層式韻律架構

據韻律相關研究結果【13】，中文語音的韻律結構由階層式韻律架構(Hierarchical structure) 組成，傳統定義韻律架構由底層至上層分別為音節(Syllable, SYL)、韻律詞(Prosodic Word, PW)、韻律短語(Prosodic Phrase, PPh)及語調短語(Intonation Phrase, IP)。因中文一個音節一個字的特性，故最底層的韻律單元為音節，而相同音節不同聲調語義多不相同，且聲調強烈影響音節基頻軌跡走向(音高)，也影響音節長度與音節能量，可視為音節層次最重要的韻律影響因素；韻律詞則是由雙音節或多音節構成的詞組，通常在句法或語意上緊密相關，因此易將其視為一個發音單元；韻律短語則是由一或多個韻律詞所組成，結尾通常有可察覺但不明顯的停頓；語調短語則是中文韻律架構的最上層，結尾會有明顯的停頓，由數個韻律短語組成的句子，音高變化亦受此層影響。基本上，一個句子中每個音節的音高和音長變化，皆可由此四層韻律架構詮釋。

鄭秓豫博士【14】提出韻律標記的概念並定義了一個韻律架構，如圖 3.1 所示。其將中文韻律結構分成五層，前三層(由下至上)和前述韻律架構相同，同樣為音節、韻律詞以及韻律短語。第四層則是將連續的韻律短語組合成呼吸群(Breath Group, BG)，代表一個有音高及音長變化的篇章或段落，藉此表示上層對韻律的貢獻，同時定義了第五層，由連續 BG 組成的韻律群(Prosody Group, PG)。此處的五層韻律架構共定義六種標記區分，其中 B0 和 B1 代表 SYL 的邊界，B0 表示 reduced syllable boundary，B1 則是 normal syllable boundary，通常 B0 及 B1 的位置聽不出停頓；B2 及 B3 分別代表 PW 和 PPh 的邊界；B4 和 B5 則是區分 BG 和 PG 的邊界，B4 代表呼吸停頓，而 B5 為一完整語音段落的結束，並有句尾音節長度拉長

(final lengthening)以及能量減弱的現象。

PG

BG BG

PPh PPh PPh

PW PW PW PW

SYL SYL B1/B0 SYL SYL SYL

B2

B3

B4 B5 B5

DM/PF

PW

SYL

圖 3.1 階層式多短語韻律句群(Hierarchical Prosodic Phrase Grouping)架構。【14】

3.2 中文韻律模型

本節將介紹本研究使用之韻律模型定義的韻律架構，模型使用參數，與訓練方法。

在文檔中以階層式韻律模型為基礎之中文半隱藏式馬可夫模型語音合成器 (頁 16-88)