改善豐富文脈模型於中文語音合成之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳. 博士. 改善豐富文脈模型於中文語音合成之研究 A Study of Enhanced Rich Context Modeling Techniques for Mandarin Speech Synthesis. 研究生：陳黃威中華民國. 一百 O 三. 撰年七月.

(2) 摘要本論文中，我們首先回顧三種不同的合成技術：串接式語音合成(Concantenative Speech Synthesis)、統計模型式語音合成(Statistical Model-Based Speech Synthesis) 以及混和式語音合成(Hybrid-Based Speech Synthesis)。本論文以統計模型式語音合成做為主要研究方向，並介紹兩種技術：基於隱藏式馬可夫模型之語音合成 (Hidden Markov Model-Based Speech Synthesis, HMM-Based Speech Synthesis)與使用豐富文脈模型(Rich Context Model-Based)之隱藏式馬可夫模型語音合成。本論文將上述兩種技術應用至中文語音合成當中，並將針對豐富文脈模型之語音合成進行改良，提出使用潛藏語意分析(Latent Semantic Analysis, LSA)分析出文脈 (Context)的潛藏韻律，希望藉由其潛藏的韻律從訓練語料庫當中選擇韻律上相似的模型，以便獲得較為優良起始語音參數向量序列 (Initial Speech Parameter Vectors Sequence) 並使用語音參數產生演算法 (Speech Parameter Generation Algorithm)來產生目標語句之語音參數向量序列，並用於實際合成。本論文實驗將使用新釋出的台北科技大學中文電子書語音資料庫(NTUT-AB01-CH)作為語音合成之訓練資料，實驗結果將以一系列的主觀與客觀測驗來評斷統計式語音合成架構本論文所提出之方法與既有方法之長處。. 關鍵字：基於隱藏式馬可夫模型之語音合成、豐富文脈模型之語音合成、起始語音參數序列、潛藏語意分析、向量空間模型 i.

(3) Abstract In this thesis, we first provide a brief review of three mainstream frameworks for speech synthesis, namely, concatenative speech synthesis, statistical model-based speech synthesis and hybrid-based speech synthesis. Then, we focus our attention exclusively on comparing two important instantiations of the statistical model-based framework and their applications to Mandarin Chinese speech synthesis, which are the hidden Markov model-based method and the rich context model-based method respectively. In addition, we also explore the use of latent semantic analysis (LSA) to discover both lexical and prosodic cues inherent in the contextual descriptions of training speech utterances, with the hope that they can subsequently be used to obtain a good initialization for estimating the observation vector sequence of an utterance to be synthesized. A series of subjective and objective evaluations are conducted, using the newly released NTUT-AB01-CH corpus, to validate the performance merits of the aforementioned various methods stemming from the statistical model-based framework.. Index Terms: Hidden Markov Model-Based Speech Synthesis, Rich Context ModelBased Speech Synthesis, Initial Speech Parameter Sequence, Latent Semantic Analysis, Vector Space Model ii.

(4) 目錄第一章 1.1 1.2 1.2.1 1.2.2 1.3 1.4. 緒論............................................................................................................ 1 研究動機.................................................................................................... 1 研究現況.................................................................................................... 1 文句分析................................................................................................ 2 合成方法................................................................................................ 4 研究貢獻.................................................................................................... 6 研究內容架構............................................................................................ 6. 第二章 2.1 2.1.1 2.1.2 2.1.3. 文獻回顧.................................................................................................... 8 單元選取式語音合成................................................................................ 8 串接式語音合成與單元選取................................................................ 8 杭特布萊克演算法(The Hunt and Black Algorithm) ......................... 10 單元特徵之設計與選取...................................................................... 12. 2.1.4 2.2 2.2.1 2.2.2. 成本函數之設計.................................................................................. 13 基於隱藏式馬可夫模型之語音合成...................................................... 17 系統架構.............................................................................................. 17 語音訊號之分析與合成...................................................................... 19. 2.2.3 隱藏式馬可夫模型於語音參數之建模.............................................. 21 2.2.3.1 隱藏式馬可夫模型與頻譜參數建模.............................................. 21 2.2.3.2 基頻參數建模.................................................................................. 27 2.2.3.3 文脈關聯模型.................................................................................. 34 2.2.4 語音參數產生演算法.......................................................................... 40 2.3 使用豐富文脈模型之隱藏式馬可夫模型語音合成.............................. 46 第三章語料庫簡介、實驗環境設定.................................................................. 56 3.1 語料庫簡介.............................................................................................. 56 3.2 實驗環境設定.......................................................................................... 56 第四章基礎實驗結果與討論.............................................................................. 62 第五章結合向量空間模型之豐富文脈模型語音合成...................................... 66 5.1 提出之方法描述...................................................................................... 66 5.2 實驗設定.................................................................................................. 68 第六章實驗與討論.............................................................................................. 70 第七章結論與未來展望...................................................................................... 74 參考文獻 ..................................................................................................................... i 附錄一：分群問題集.................................................................................................... I 附錄二：分群決策樹............................................................................................ XXIII. iii.

(5) 附表目錄：表格(一)：語言特徵範例 ............................................................................. 9 表格(二)：單元之基礎特徵 ....................................................................... 12 表格(三)：訓練語料庫斷詞詞性表 ........................................................... 57 表格(四)：標點符號一覽表 ....................................................................... 58 表格(五)：文脈標記一覽表 ....................................................................... 58 表格(六)：分群問題集範例 ....................................................................... 59 表格(七)：模型數量表 ............................................................................... 60 表格(八)：相似度平均主觀分數等第表 ................................................... 61 表格(九)：流暢度平均主觀分數等第表 ................................................... 62 表格(十)：基於隱藏式馬可夫模型之語音合成與豐富文脈模型之語音合成之客觀實驗結果.............................................................................. 65 表格(十一)：不同維度之律韻向量所產生的合成語音之客觀實驗數據 .............................................................................................................. 69 表格(十二)：提出之方法與傳統豐富文脈模型之語音合成之客觀實驗結果.......................................................................................................... 71 表格(十三)：本論文提出之方法之實際檢索結果 ................................... 72 表格(十四)：訓練語句之客觀實驗結果 ................................................... 73. iv.

(6) 附圖目錄：圖(一)：不同詞性之轉移機率表示圖 ......................................................... 3 圖(二)：杭特布萊克演算法之單元合成架構圖 ....................................... 11 圖(三)：基於隱藏式馬可夫模型語音合成流程圖 ................................... 18 圖(四)：濾波器模型 ................................................................................... 20 圖(五)：隱藏式馬可夫模型圖示 ............................................................... 22 圖(六)：基頻圖示 ....................................................................................... 27 圖(七)：多空間機率分布 ........................................................................... 29 圖(八)：多空間機率分布之隱藏式馬可夫模型架構圖 ........................... 30 圖(九)：狀態分群之決策樹 ....................................................................... 36 圖(十)：決策樹當中的節點集合 ............................................................... 37 圖(十一)：以聲學模型λ繪製之語音參數向量示意圖 ............................. 40 圖(十二)：候選豐富文脈模型連接圖 ....................................................... 49 圖(十三)：豐富文脈模型之訓練與合成方法 ........................................... 50 圖(十四)：整合豐富文脈模型之高斯混和模型 ....................................... 52 圖(十五)：結合過度適應決策樹分群模型與豐富文脈模型之語音合成 .............................................................................................................. 54 圖(十六)：分群決策樹範例 ....................................................................... 60 圖(十七)：相似度平均主觀分數圖 ........................................................... 63 圖(十八)：流暢度平均主觀分數圖 ........................................................... 63 圖(十九)：AB 喜好測試結果 .................................................................... 64 圖(二十)：使用向量空間模型於挑選豐富文脈模型之起始語音參數序列 .............................................................................................................. 68 圖(二十一)：提出之方法與傳統豐富文脈模型之語音合成之相似度平均主觀分數.............................................................................................. 70 圖(二十二)：提出之方法與傳統豐富文脈模型之語音合成之之流暢度平均主觀分數.......................................................................................... 70 圖(二十三)：提出之方法與傳統豐富文脈模型之語音合成之 AB 喜好測試.......................................................................................................... 71. v.

(7) 第一章. 緒論. 本章節將介紹本論文之研究動機、語音合成之研究現況、本論文之研究貢獻以及其研究架構。. 1.1. 研究動機近年來電腦科技有了嶄新的面貌，智慧型手持裝置崛起，在人們的日常生活. 中逐漸取代了傳統的電腦。在人與電腦的溝通的過程中，語音科技的進步使得傳統使用鍵盤的方式也逐漸由語音輸入所取代；同時，人們也逐漸期望電腦與人的互動不再侷限於人對電腦單方面的互動，希望電腦也能夠與人類一樣說話，減少與電腦互動的隔閡感，而語音合成(Speech Synthesis)正是提供電腦輸出語音給使用者的技術。一般而言，語音合成技術泛指將文字以語音輸出的技術，目前已有許多人機互動介面使用語音合成技術，如：語音助理、道路導航、虛擬導覽人(Avatar)與語音電子書等。如此眾多的運用顯示出語音合成技術已成為日常生活當中不可或缺的重要技術。為了讓使人與機器之間的隔閡縮小，因此科學家便開始追求語音合成之品質，希望語音合成能夠提供機器更加順暢且高音質的語音。在本論文中，吾人將探討目前主流之語音合成相關技術，並提出改善方法。. 1.2. 研究現況語音合成技術，亦有人稱其為文字轉語音(Text-to-Speech, TTS)技術。此技術. 係指使用者輸入一段文字後，經分析後，電腦會依其輸入的文字發出對應的語音。 1.

(8) 因此語音合成技術相關的研究大多著重於文句的分析以及合成方法兩大區塊上。在語音合成當中，首先會進行文字及語意的分析，以擷取隱含在文字當中的資訊，而將其分析的結果轉譯至聲音訊號即為語音合成當中產生合成聲音的方法。在本小節當中，吾人將介紹目前在文句分析與合成方法兩大方面的研究現況。. 1.2.1 文句分析在語音合成中，一般以文字作為輸入，因此首要的任務即為對文字進行處理。為了從文字擷取供合成技術所需格式，文字的必須要經過以下幾個步驟進行處理 [1]： 1.. 文字分析： (1.) 符號分類(Semiotic Classification)：將文字進行符號之判別，並依其屬性進行分類，如：日期、金錢…等。 (2.) 解譯(Decoding)：針對分入不同的屬性的符號進行轉換至一般文字格式。 (3.) 語言化(Verbalization)：將非自然語言之符號轉換為一般文字格式。. 2.. 同型異義字之處理(Homograph Resolution)：將混淆的文字進行判別後將其轉換至正確的文字格式。. 3.. 語法分析(Parsing)：針對句子進行語法分析。. 4.. 韻律預測(Prosody Prediction)：預測句子的韻律。. 進行以上四個步驟前，首先以斷詞(Text Segmentation)技術對文字進行符號 2.

(9) 化的判別以及句子的區分。目前斷詞已有許多不同的方法可以達成，如決策列表 (Decision Lists)[2]、詞性標記(Part-of-Speech Tagging, POS)[3,4]；其中詞性標記為目前主流的斷詞技術。詞性標記指的是藉由統計不同詞性之間的轉移機率，藉由以知當前詞性的情況下，以預測與其串連之詞性種類，如圖(一)所示：. 圖(一)：不同詞性之轉移機率表示圖而隱藏式馬可夫模型(Hidden Markov Models)是最常用於詞性標記的統計式模型[5]，亦有使用決策樹(Decision Tree)作為詞性標記的統計式模型[6]。以隱藏式馬可夫模型之詞性標記斷詞為例，令原語句為 T，而斷詞後的結果為 L，則其詞性標記斷詞以下式表示： 𝐿̂ = argmax{𝑃(𝐿|𝑇)} 𝑙. (1). 式(1)即為最大化給予一原始語句，產生詞性標記斷詞的機率值；其機率值可藉由貝氏定理(Bayes Theorem)進行轉換後得到：. 3.

(10) 𝑃(𝐿|𝑇) =. 𝑃(𝐿)𝑃(𝑇|𝐿) 𝑃(𝑇). (2). 其中，P(L)為斷詞序列之機率值，可藉由建立 N 連語言模型(N-gram Language Model)[7]來獲得；P(T)為原有語句之機率；而 P(T|L)為斷詞序列 L 產生原有語句 T 之機率值。從詞性標記斷詞法中，除了可以藉由斷詞結果來獲得同型異義字的發音外，亦能獲得語句結構資訊，而藉由詞彙的詞性與其語句結構資訊更能推測出語句的韻律。目前語音合成的研究中，已有學者針對從斷詞結果所獲得的語句結構資訊來推測合成語句之韻律[8–10]。. 1.2.2 合成方法近代語音合成器的發展可以幾個不同世代之語音合成做為區分。在 1980 年代之前，語音合成的主流技術是基於聲道模型(Vocal-Tract)的合成 [11]。由於該合成技術屬於模仿真人在說話時的聲道模型，故在合成階段需要相當仔細的模型描述才能達成。此世代較為著名的合成技術為共振峰合成(Formant Synthesis)、線性預測合成 (Linear-Prediction Synthesis)[12,13] 、頻譜參數合成 (Articulatory Synthesis)[14]。後來語音合成器的主流逐漸轉往串接式語音合成與訊號處理[15]的方向發展。串接式語音合成是一種串接真實語音的片段的合成技術，為了弭平串接所導致的不自然，以及賦予聲音片段不同的韻律，通常會使用訊號處理的方式對聲音 4.

(11) 片段進行處理後才串接。其主流技術分別為基週同步疊加 (pitch-synchronous overlap and add, PSOLA)[16]、餘數訊號激發之線性預測(residual-excited linear prediction, RELP)[17]。而從 1990 年代中期開始，統計模型式的語音合成與單元選取式語音合成[18] 成為目前語音合成技術的兩大主流。統計模型式的語音合成指的是將語音訊號以統計模型進行建模，並使用其模型來進行語音合成，因此可視為聲道模型語音合成的後繼技術；目前較為知名的統計模型式語音合成為基於隱藏式馬可夫模型之語音合成[19]。單元選取式語音合成則為此世代的串接式語音合成，該技術偏向蒐集更大量的語音資料庫以增加音訊片段的多樣性，並希望藉由音訊片段的多樣性來降低對於訊號處理的依賴。一般而言，統計模型式語音合成與串接式語音合成所產生的合成語音各有優劣。以串接音訊片段的單元選取語音合成能夠產生高音質的合成語音，但其流暢度會因語音片段的不連續而下降；在統計模型式語音合成當中，其合成語音受到統計模型的影響，因此合成語音的音質較低，但藉由統計模型的幫助，其合成語音的流暢度較高。而亦有學者結合統計模型式語音合成與單元選取語音合成，提出混和式語音合成[20–26]。近兩年來，由於深層類神經網路(Deep Neural Network)的蓬勃發展，此一技術也被使用於基於隱藏式馬可夫模型之語音合成當中[27,28]，用其改善其聲學特 5.

(12) 徵的建模。. 1.3. 研究貢獻本論文中，吾人將以統計式語音合成之技術作為主要研究之出發點，探討目. 前主流之基於隱藏式馬可夫模型之語音合成，與混和式語音合成之技術：使用豐富文脈模型之隱藏式馬可夫模型語音合成。本論文將從比較兩技術之語音合成結果，並分別從起始語音參數向量序列與模型更新的角度分析其優劣；並從合成語句的文脈描述(Context Description)作為出發點，引入潛藏語意分析來分析文脈描述之潛藏韻律向量[29]，並搭配資訊檢索中常用的向量空間模型[30]來檢索出文脈描述相似度最高的豐富文脈模型分別作為產生起始語音參數向量序列之模型，並分別與基於隱藏式馬可夫模型之語音合成做結合，探討其語音合成的結果。論文的最後詳細比較經檢索後的豐富文脈模型產生的起始語音參數序列，與過度適應化模型(Over-Fitting Model)所產生的參數序列互相比較，找出本論文所提出方法的優缺點。. 1.4. 研究內容架構. 本論文章節安排大綱如下：第二章：回顧並探討近年來統計式語音合成的主要技術，主要包含三個主軸：(一)單元選取式語音合成；(二)基於隱藏式馬可夫模型之語音合成；(三)使用豐富文脈模型之隱藏式馬可夫模型語音合成。 6.

(13) 第三章：介紹本論文所使用的實驗語料庫與實驗設定。第四章：基礎實驗之結果呈現與討論。第五章：提出結合向量空間模型於豐富文脈模型語音合成之架構與其實驗設定。第六章：提出方法之實驗結果與討論。第七章：本論文之結論與未來展望。最後為參考文獻與附錄。. 7.

(14) 第二章. 文獻回顧. 本章節當中，吾人將語音合成技術區分成三大類：單元選取式語音合成、基於隱藏式馬可夫模型之語音合成與結合上述兩者優點之語音合成技術作為主要的文獻回顧與探討。. 2.1. 單元選取式語音合成本小節將回顧單元選取式語音合成之研究面向與優缺點。. 2.1.1 串接式語音合成與單元選取串接式語音合成顧名思義即為一種將音訊串接在一起進行語音合成的技術，因為其相當直覺的做法，故本技術也是目前主流的技術與研究方向的其中之一。串接式語音合成在合成時大多使用數位訊號處理來修改合成音訊的共振峰 (Formant)、基頻(Fundamental Frequency, f0)或其長度，如在 1990 年代早期的雙音節串接語音合成(Concatenative Di-phone System)[16]。而這類藉由修改音訊進行合成的做法具有兩個假設[31]： 1.. 所有音訊的變異皆可藉由修改其基頻與時間長度獲得。. 2.. 訊號處理演算法能在不影響其自然度的情況下修改基頻與其時間長度。. 雖然數位訊號處理的演算法至今仍不斷地在演進，但還是無法滿足第一點假設，因為第一點假設是不正確的，舉例來說：一個音節以較低的腔調(Intonation) 來發音與此音節在句子結尾的發音，兩者的基頻可能是一樣的，但是其背後發音 8.

(15) 的原理卻是不同的。因此單單只倚靠數位訊號處理就能獲得音訊所有變異的可能性在現今也是很難實現的。從上述我們得知倚靠數位訊號處理的串接式語音合成的缺點，使得有別於此類的串接式語音合成方式產生，即為單元選取。單元選取的出發點是收集不同的發音成為一個龐大的資料庫，在資料庫當中經過分析過後的資料即為單元(Unit)，在合成階段時選取(Selection)這些單元進行語音合成，故以單元選取命名。而單元選取藉由收集大量不同變異的語音，並使用這些語音進行合成，目的是為了讓使用數位訊號處理的情況降低，以提高其合成品質。為了區別各個單元的不同，我們使用語言特徵(Linguistic Feature)來代表不同的單元，如表格(一)所示：. 單元. 1. 發音ㄢ. 發音ㄢ. 基頻 110 長度 60. 基頻 90 長度 40. 單元. 重音 False 句尾 True. 2. 重音 True 句尾 False. 表格(一)：語言特徵範例在單元選取當中，為了使每個音節具有更豐富的變異，增加新單元到我們的資料庫當中是無法避免的，因此進行語音合成所需花費的成本也隨之提高。隨著單元數量的增多，單元選取在最佳情況下是不會運用到任何的訊號處理技術，可以僅藉由組合不同單元來獲得合成語音，因此有學者便認為單元選取其實是一個裁切音訊再重新組合的重新排列問題(Re-sequencing Problem)。 9.

(16) 接下來的小節當中，我們將會描述單元選取於合成階段的演算法與其單元之特徵。. 2.1.2 杭特布萊克演算法(The Hunt and Black Algorithm) 過去已有許多學者相繼提出解決管理龐大單元資料庫、與從其資料庫選擇適當單元進行語音合成之演算法[32–35]。在 1996 年，杭特與布萊克兩位外國學者提出了對於單元選取在合成所遇到問題之通解：杭特布萊克演算法[18]。他們提出了一個單元選取的共通架構，並透過該架構之演算法來計算並找出最合適用於目標語音的單元以進行語音合成，而該演算法也成為日後單元選取相關研究的經典方法。一般而言，語音合成的輸入通常會是一段文字，而在這段文字當中隱含著一些結構上與論述上的資訊，故在語音合成的第一階段會找出這些隱含的資訊，並將這些資訊作為合成的目標規格(Target Specification)；這些目標規格明確定義了合成語句的資訊序列，包括音素(Phoneme)序列、發音長度序列、韻律相關的序列等，因此杭特布萊特演算法將單元與目標規格之間的差異定義成目標成本 (Target Cost)；同時，該演算法亦認為單元與單元之間存在著語言特徵差異，並將其差異定義為聯結成本(Join Cost)，其架構如下圖(二)所示：. 10.

(17) 圖(二)：杭特布萊克演算法之單元合成架構圖令 U 為一單元序列，而 S 為合成之目標序列，𝑢𝑡 為時間點 t 所對應的單元， 𝑠𝑡 為時間點 t 所對應的規格，其中其序列長度皆為 N，則𝑈 = {𝑢1 , 𝑢2 , ⋯ , 𝑈𝑁 }、𝑆 = {𝑠1 , 𝑠2 , ⋯ , 𝑠𝑁 }。因此我們定義𝑇(𝑢𝑡 , 𝑠𝑡 )即為在時間點 t 下，單元與合成目標之目標成本，𝐽(𝑢𝑡 , 𝑢𝑡+1 )則為在 t 與 t+1 時間點下，其單元之聯結成本。因此圖(二)當中的整體成本便為目標成本與聯結成本總和，即式(3)： 𝑁. 𝑁−1. 𝐶(𝑈, 𝑆) = ∑ 𝑇(𝑢𝑡 , 𝑠𝑡 ) + ∑ 𝐽(𝑢𝑡 , 𝑢𝑡+1 ) 𝑡=1. (3). 𝑡=1. 藉由估算不同單元所組合而成之整體成本，單元選取演算法便可簡化成求取整體成本之最小值，如下式所示： 𝑁. 𝑁−1. ̂ = 𝑎𝑟𝑔𝑚𝑖𝑛{∑ 𝑇(𝑢𝑡 , 𝑠𝑡 ) + ∑ 𝐽(𝑢𝑡 , 𝑢𝑡+1 )} 𝑈 𝑢. 𝑡=1. (4). 𝑡=1. 合成目標由𝑁個單元所組成，且在相同時間點𝑡皆有𝑀個單元可以選擇，則藉由搜尋全部序列的方式來獲得最佳單元序列的時間複雜度為O(𝑀𝑁 )，因此若使用該方法會使得單元選取花費過多時間在搜尋最佳序列上，對此，杭特布萊克演算 11.

(18) 法觀察到單元選取之搜尋網路與自動語音辨識當中搜尋最佳狀態序列 (State Sequence)之網路一致，故在自動語音辨識當中所使用到的動態規劃(Dynamic Programming)演算法：維特比演算法(Viterbi Algorithm)[36]亦可用於本問題當中以求取最佳解。. 2.1.3 單元特徵之設計與選取從杭特布萊克演算法所提出的架構當中，我們得知單元選取語音合成是藉由計算單元與目標規格之間的差異以及單元之間的差異總和來找出最合適之單元序列。本章節將就其特徵之設計作探討。首先，我們將先檢視用於串接式語音合成的基礎型態(Base Type)作為最基礎的特徵，而這些特徵如表格(二)所示：特徵. 說明. 音框數(frame count). 描述該音訊之長度[37]. HMM 狀態(HMM. 描述該音素之組成(part of phones)數量[38,39]. state) 半音素(half-phones). 將該音素以其音訊中心對半區分成前半音與後半音[40]. 音素. 定義音訊之音素[41]. 雙音素(diphones). 表示本音素之中點至下一音素中點之音段[42]. 音節(syllable). 定義音訊之音節[20]. 字(word). 定義音訊之字內容[43]. 詞(phrase). 定義音訊之詞內容[44] 表格(二)：單元之基礎特徵. 除了上述常見之基礎特徵外，半音節 (Demi-syllable) 1 [45] 與雙音節 (Disyllable)2[46]也是常用於單元合成之基礎特徵。. 1 2. 半音節為以音訊的中心點對半切分成前音節與後音節兩段音節作為特徵。雙音節為本音節之中心點至下一音節中心點所組成之音段作為特徵。 12.

(19) 從表格(二)當中我們得知基礎特徵的分布廣泛，從音素至詞彙層面的特徵皆涵蓋在內，如此廣泛的特徵分布使得單元的基礎特徵描述過於複雜，因此特徵的選取通常會依照開發者本身的需求與喜好進行挑選；而多數的單元選取語音合成系統選用了與前後音素關聯之基礎特徵(如：半音素、雙音素及半音節等)作為其基礎特徵，但也有系統是依照其語言特性進行特徵的挑選，如：歐洲語系之系統通常使用與音素相關的特徵，而中文語系則是以音節相關特徵為主要基礎特徵之組成[47,48]。除了考慮基礎特徵之外，在語言學以及在聲學上的特徵也同樣能納入描述單元的特徵當中。以語言學為例，我們使用單元在詞彙或語句中的位置、錄音所使用之語料格式(如：對話、短文、廣告文宣)及分析語料所獲得之語言資訊(如：文法、詞性、語氣)等特徵來描述該單元。這些語言學的特徵可以藉由讓錄音者按照特定格式與內容之錄音腳本所獲得，也可以由人工標記(Hand Labeling)的方式獲得。在聲學上的特徵則是泛指使用數位訊號處理後獲得之特徵，如：倒頻譜 (Cepstral)、基頻等。. 2.1.4 成本函數之設計當我們決定好單位特徵之後，接下來的目標就是定義成本函數(Cost Function) 以求取整體成本之最小值。本章節當中，我們將分別介紹目標成本與聯結成本之成本函數的設計與種類。 . 目標成本函數之設計： 13.

(20) 過去研究指出，目標特徵與單元皆是分布在感知空間(Perceptual Space)當中的一點，目前有兩種方式用於估測目標特徵與單元在感知空間中差異，一為由杭特布萊克演算法所提出之獨立特徵公式(Independent Feature Formulation)，另一為聲學空間公式(Acoustic-space Formulation)。在獨立特徵公式當中，目標特徵與單元之間的成本可以藉由估算對於每一個特徵之間的距離總和來求得其成本，又因其假設特徵之間皆是獨立且具有不同之權重之特性，因此，原本的目標成本函數便可以改寫如下： 𝑃. 𝑇(𝑠𝑡 , 𝑢𝑡 ) = ∑ 𝑤𝑝 (𝑇𝑝 (𝑠𝑡 [𝑝], 𝑢𝑗 [𝑝])). (5). 𝑝=1. 其中： P 為用於描述單元與目標規格的特徵數量。 𝑠𝑡 為第𝑡個由 P 個特徵所組成之目標規格。 𝑢𝑡 為第𝑡個由 P 個特徵所組成之單元規格。 𝑠𝑡 [𝑝]為第𝑡個目標規格當中第𝑝個特徵值，𝑢𝑡 [𝑝]同理可推。 𝑇𝑝 (𝑥, 𝑦)即為特徵𝑝在𝑥、𝑦之間的距離函數。 𝑤𝑝 即為函數𝑇𝑝 之權重，𝑇(𝑠𝑡 , 𝑢𝑡 )則為目標規格與單元之間的總和成本。特徵之間的距離函數可藉由曼哈頓距離(Manhattan Distance)[49]來總和𝑃個特徵成本獲得；此外，也有學者提出使用歐氏距離(Euclidean Distance)[50]來求取目標成本，其公式如下：. 14.

(21) 𝑃. 𝑇(𝑠𝑡 , 𝑢𝑡 ) = √∑ 𝑤𝑝 (𝑇𝑝 (𝑠𝑡 [𝑝], 𝑢𝑗 [𝑝]))2. (6). 𝑝=1. 在獨立特徵公式中，由於不同特徵所給予的權重影響了目標特徵與單元之間的成本，因此如何設定其權重是相當重要的。目前權重的設定除了使用人工的方式進行權重的調整之外，藉由聲學之間的距離做權重比例的調整或是收集人類發音決策，以機器學習的方式來調整特徵的權重也是主流的方法之一。聲學空間公式則是認為感知空間上目標特徵或是單元的分布與語音辨識當中頻譜分布類似，於是以樹狀分群(Tree-clustering)的方式，將類似的單元分在相同一群[52]。藉由分群的方式，目標特徵便依照樹狀分群所設計之規則分至特定群體當中，而同樣在該群體中的單元即為差異較小之單元。 . 聯結成本函數之設計：聯結成本函數為單元與單元之間的聯結成本，由於單元與單元之間的聲學. 特徵(如頻譜或是基頻)差異過大，會直接導致合成聲音不順暢有中斷感，因此在聯結成本函數的設計上，我們主要考慮的出發點皆為聲學的特徵。聯結成本函數的設計主要分成音素分類(Phone-class)之聯結成本、聲學距離 (Acoustic Distance)之聯結成本及序列機率(Sequencing Probability)聯結成本三種類。音素分類聯結成本考慮的是前後單元的音素(音節)是否一致，通常用於單元為雙音素或雙音節作為特徵之與單元選取當中[53, 54]。藉由選取前後音素(音節) 15.

(22) 一致，讓其在聲學上的差異減小，但此一作法仍容易選取到在聲學特徵上差異較大之單元，故顯少單獨使用，較常與聲學距離聯結成本一同結合使用。聲學距離聯結成本則是將單元之間聲學特徵距離作為其成本函數的方式。聲學特徵意旨藉由數位訊號處理技術所獲得之特徵向量值，如：倒頻譜、線性預測倒頻譜(Linear-Prediction Cepstral Coefficients)[55]、共振峰或是梅爾倒頻譜 (Mel-Scale Cepstral Coefficients)[56]。目前已有四種用於估測聲學特徵距離的公式，分別為曼哈頓距離[50]、歐氏距離[51]、馬氏距離(Mahalanobis Distance)[57] 以及庫爾貝克萊柏爾距離(Kullback Leibler Distance)[56]。假設 N 為頻譜之維度，有兩個不同的頻譜 x 與 y，兩頻譜之間的距離公式定義如下：曼哈頓距離： 𝑁. 𝐷 = ∑ abs(𝑥𝑖 − 𝑦𝑖 ). (7). 𝑖=1. 歐氏距離： 𝑁. 𝐷 = √∑(𝑥𝑖 − 𝑦𝑖 )2. (8). 𝑖=1. 馬氏距離： 𝑁. 𝐷 = √∑( 𝑖=1. 𝑥𝑖 − 𝑦𝑖 2 ) 𝜎𝑖. 庫爾貝克萊柏爾距離[56]：. 16. (9).

(23) 𝑁. 𝑥𝑖 𝐷 = ∑(𝑥𝑖 − 𝑦𝑖 ) log( ) 𝑦𝑖. (10). 𝑖=1. 機率與序列聯結成本則是引入了自動語音辨識當中語言模型的 N 連模型來改善聯結成本的預測結果[58]。藉由 N 連模型的幫助，單元之間的連結便可考慮到前 N 個單元序列的資訊，這弭平了使用聲學距離聯結成本的缺點：容易選到零成本(Zero Cost)的單元(即單元之間的聲學特徵毫無變化)。在實際語音當中，語音會不斷的變化，即音框與音框之間皆有差異，因此零成本的聯結成本並不代表是最佳選擇。. 2.2. 基於隱藏式馬可夫模型之語音合成. 2.2.1 系統架構基於隱藏式馬可夫模型之語音合成是由日本學者 Tokuda 於 1990 年代中期提出的統計模型式語音合成[19]。此方法使用隱藏式馬可夫模型對聲學特徵進行建模，與自動語音辨識當中對聲學特徵進行建模的模型雷同，因此在自動語音辨識領域上與隱藏式馬可夫模型相關的聲學模型理論皆能運用至此方法當中，故此方法已成為世界主流之語音合成方法之一。基於隱藏式馬可夫模型之語音合成架構如圖(三)所示：. 17.

(24) 圖(三)：基於隱藏式馬可夫模型語音合成流程圖從圖(三)當中，我們可以簡單將基於隱藏式馬可夫模型之語音合成區分成訓練以及合成兩大區塊。在訓練區塊當中，我們分別對語音資料庫之語音訊號以及文句進行處理；我們藉由頻譜參數與激發參數兩種特徵(Features)的擷取來分析語音資料庫的語音訊號；而在語音資料庫當中的文句我們也需對其進行韻律的分析，如：斷詞、詞性分析、音素標記等，分析完成後便將這些資訊用於標記語音資料庫。語音特徵的擷取以及文句的標記完成後，我們便將其用於訓練聲學模型。於合成階段，我們將文字作為輸入，同樣對其進行文句分析以及標記後，利用其標記來對應至其聲學模型，利用將聲學模型串聯的方式獲得一起始語音參 18.

(25) 數序列，爾後以語音參數產生演算法[59]將此語音參數序列進行最佳化後，產生合成所使用的語音參數序列。經過演算法所產生的語音參數序列最後會導入特殊的濾波器，分別產生激發與頻譜值，最後以完整的合成語音輸出。在接下來的章節當中，我們將針對語音訊號之分析與合成、隱藏式馬可模型於語音參數之建模及語音參數產生演算法進行探討。. 2.2.2 語音訊號之分析與合成一般的語音訊號輸入至電腦後，聲波圖(Waveform)是最容易獲得的資訊，但是聲波圖僅能表示語音訊號能量(Energy)之強弱，並無法用於區分聲音訊號的差異；為了能夠表達區分語音訊號的差異性，我們通常會將語音訊號進行傅立葉轉換(Fourier Transform)，使語音訊號以頻譜(Spectrum)的方式表現。同時為了能夠將語音訊號以數學的方式呈現，我們使用濾波器模型(SourceFilter Model)[59]來表達一段經過採樣(Sampled)的語音訊號。在濾波器模型當中，一段語音訊號𝑥(𝑛)可以由激發訊號𝑒(𝑛)與聲道參數之脈衝響應(Impulse Response)ℎ(𝑛)進行摺積(Convolution)表達，如式(11)，而其流程如圖(四)所示： 𝑥(𝑛) = ℎ(𝑛) ∗ 𝑒(𝑛) 其中，符號∗代表離散摺積。. 19. (11).

(26) 圖(四)：濾波器模型. 圖(四)當中的聲道參數即為表示語音訊號的頻譜係數。於自動語音辨識中，梅爾頻率倒頻譜係數是最常用於描述頻譜的係數；而於語音合成當中，我們則使用廣義梅爾倒頻譜分析(Mel-Generalized Cepstral Analysis)[61]來估測頻譜的係數。由於人耳對於聲音訊號的低頻具有較高的解析度，廣義梅爾倒頻譜分析則保留了此一特性，因此能以更加具有效率的方式描述頻譜[62]。若廣義梅爾倒頻譜之維度為 M，其係數為𝑐̃ (𝑚) ，又𝑧̃ −1 為 Z 轉換(ZTransform)[63]，𝛼、𝛾為廣義梅爾倒頻譜的調整參數，因此語音訊號之頻譜可以式(12)表示： 1⁄𝛾. 𝑀. (1 + 𝛾 ∑ 𝑐̃ (𝑚)𝑧̃ −𝑚 ). , 0 < |𝛾| ≤ 1. 𝑚=0. 𝐻(𝑧) =. (12). 𝑀. exp ∑ 𝑐̃ (𝑚)𝑧̃ −𝑚 , 𝛾 = 0 {. 𝑚=0. 而𝑧̃ −1 的表示如式(13)： 𝑧̃ −1 =. 𝑧 −1 − 𝛼 , 1 − 𝛼𝑧 −1. |𝛼| < 1. (13). 當式(12)、(13)之(𝛼, 𝛾)為(0,-1)時，目標之頻譜以全極點(All-Pole)的格式表達，即線性預測(Linear-Prediction)；當(α, γ)為(0,0)時，則為一般之倒頻譜。當|𝛼| < 20.

(27) 1時，𝛾 = −1的情況則為全極點偏差(Warped All-Pole)格式，而當𝛾 = 0時則為梅爾倒頻譜。為了將既有頻譜轉換回語音訊號，我們必須將轉換函數𝐻(𝑧)具體化。假設轉換函數之𝛾為 0，我們可將式(12)改寫如下： 𝐻(𝑧) = exp 𝐹(𝑧). (14). 其中𝐹(𝑧)的表示如式(15)： 𝑀. 𝐹(𝑧) = ∑ 𝑐̃ (𝑚)𝑧̃ −𝑚. (15). 𝑚=0. 雖然式(15)當中的梅爾倒頻譜係數可以藉由數位濾波器獲得，但是因為式(14)之 𝐻(𝑧)並非一個有理函數(Rational Function)，故無法直接使用數位濾波器進行實作，因此我們使用培德近似法(Pade Approximation)將𝐻(𝑧)進行轉換[64]，藉由可實作之有理函數來逼近𝐻(𝑧)，如式(16)。 1 + ∑𝐿𝑙=1 𝐴𝐿,𝑙 {𝐹(𝑧)}𝑙 𝐻(𝑧) = exp 𝐹(𝑧) ≅ 1 + ∑𝐿𝑙=1 𝐴𝐿,𝑙 {−𝐹(𝑧)}𝑙. (16). 其中式(16) 𝐴𝐿,𝑙 為𝐹(𝑧)之對應係數。. 2.2.3 隱藏式馬可夫模型於語音參數之建模隱藏式馬可夫模型為近年來最成功同時也是最廣泛運用在聲學模型的模型，本小節將描述該模型對聲學頻譜參數及基頻參數建模之方法，並討論用於增加模型訓練量的決策樹分群法(Decision Tree Clustering)。. 2.2.3.1 隱藏式馬可夫模型與頻譜參數建模隱藏式馬可夫模型對於語音頻譜的建模可以視為一個有限狀態機(Finite 21.

(28) State Machine)在時間單位(如：音框(Frame))上的狀態轉移。在每次的狀態轉移，皆有一個決策會決定狀態的轉移目標(其目標狀態包含自己)，轉移後會根據目前狀態之機率密度函數(Probability Density Function, pdf)產生一個向量，如圖(五)所表示：. 圖(五)：隱藏式馬可夫模型圖示. 其中，q 為目前之狀態，t 為目前之時間點，則每個狀態 q 在時間點 t 下的觀察點𝑜𝑡 ，其機率𝑏𝑞 (𝑜𝑡 )通常以多變量高斯密度函數(Multivariate Gaussian Density Function)表達，如式(17)： 𝑀. 𝑏𝑞 (𝑜𝑡 ) = ∑ 𝑐𝑞𝑚 𝒩(𝑜𝑡 , 𝜇𝑞𝑚 , Σ𝑞𝑚 ) 𝑚=1 𝑀. = ∑ 𝑐𝑞𝑚 𝑚=1. (17) 1 𝐷. (2𝜋) 2 |Σ𝑞. 1. 1 exp{− 2 (𝑜𝑡 |2. ′. −1 − 𝜇𝑞𝑚 ) Σ𝑞𝑚 (𝑜𝑡 − 𝜇𝑞𝑚 )}. 其中𝑐𝑞𝑚、𝜇𝑞𝑚、Σ𝑞𝑚 分別為第𝑞個狀態之第 m 個混和權重、𝐷-維度的平均值向量以及𝐷 × 𝐷維的共變異(Covariance)矩陣。同時為了方便表示完整的參數集合，我們通常會使用較為簡潔的方式來表 22.

(29) 達隱藏式馬可夫模型之參數： 𝜆 = (𝐴, 𝐵, 𝜋). (18). 其中𝜆為一隱藏式馬可夫模型，𝐴, 𝐵, 𝜋分別為狀態轉移機率A = {𝑎𝑖𝑗 }𝑁 𝑖,𝑗=1、狀態之 𝑁 機率分布B = {𝑏𝑖 (∙)}𝑁 𝑖=1 以及起始狀態機率π = {𝜋𝑗 }𝑗=1，且𝜋在左至右(left-to-right). 模型中具有下式之特性： 0, 𝜋={ 1,. 𝑖≠1 𝑖=1. (19). 在隱藏式馬可夫模型當中我們使用前向後向演算法 (Forward-Backward Algorithm)[65]來計算𝑃(𝑂|𝜆)，即求取給予隱藏式馬可夫模型𝜆，其觀察序列𝑂 = (𝑜1 , 𝑜2 , ⋯ , 𝑜𝑇 )之機率。 . 前向演算法(Forward Algorithm) 我們首先定義一個前向變數(Forward Variable)𝛼𝑡 (𝑖)為給予一個隱藏式馬可. 夫模型𝜆，從時間 1 至時間 t 之觀察序列，且時間在 t 的狀態 i 的機率 𝛼𝑡 (𝑖) = 𝑃(𝑜1 , 𝑜2 , ⋯ , 𝑜𝑡 , 𝑞𝑡 = 𝑖|𝜆). (20). 我們可依下面幾步驟求得其解： (1.) 起始 𝛼1 (𝑖) = 𝜋𝑖 𝑏𝑖 (𝑜1 ), 1 ≤ 𝑖 ≤ 𝑁. (21). (2.) 疊代 𝑁. 𝛼𝑡+1 (𝑗) = [∑ 𝛼𝑡 (𝑖)𝑎𝑖𝑗 ] 𝑏𝑗 (𝑜𝑡+1 ), 𝑖=1. (3.) 結束 23. 1≤𝑡 ≤𝑇−1 1≤𝑗≤𝑁. (22).

(30) 𝑁. 𝑃(𝑂|𝜆) = ∑ 𝛼 𝑇 (𝑖). (23). 𝑖=1. 其中𝑎𝑖𝑗 代表由狀態 i 轉移至狀態 j 的轉移機率。 . 後向演算法(Backward Algorithm) 與前向演算法相同，我們首先定義一個後向變數(Backward Variable) 𝛽𝑡 (𝑖)為. 給予一個隱藏式馬可夫模型𝜆與時間在 t 的狀態 i，從時間 t 至時間 T 之觀察序列之機率為 𝛽𝑡 (𝑖) = 𝑃(𝑜𝑡+1 , 𝑜𝑡+2 , ⋯ , 𝑜𝑇 |𝑞𝑡 = 𝑖, 𝜆). (24). 與前向演算法相同，我們可依下面步驟求解： (1.) 起始 𝛽𝑇 (𝑖) = 1, 1 ≤ 𝑖 ≤ 𝑁. (25). (2.) 疊代 𝑁. 𝛽𝑡 (𝑗) = ∑ 𝑎𝑖𝑗 𝑏𝑗 (𝑜𝑡+1 )𝛽𝑡+1 (𝑗) , 𝑖=1. 𝑡 = 𝑇 − 1, 𝑇 − 2, ⋯ ,1 1≤𝑖≤𝑁. (26). (3.) 結束 𝑁. 𝑃(𝑂|𝜆) = ∑ 𝛽1 (𝑖). (27). 𝑖=1. 從上述之前向後向演算法，我們可以求得給予一個隱藏式馬可夫模型λ，產生其觀察序列 O 之機率，而我們現在則面臨了一個問題，要如何調整模型參數集合(𝐴, 𝐵, 𝜋)使其產生的觀察序列集合機率值最大，即最大化下式：. 24.

(31) log 𝑃(𝑂1 , 𝑂2 , ⋯ , 𝑂𝐿 |𝜆). (28). 其中我們假設共有 L 句資訓練資來訓練模型，而 S 為模型所有可能的狀態序列。因為我們無法獲得其聯合機率 (Joint Probability) 的封閉型態解 (Closed-Form Solution)，如式(29)： 𝐿. log 𝑃(𝑂1 , 𝑂2 , ⋯ , 𝑂𝐿 |𝜆) = log ∏ 𝑃(𝑂𝑙 |𝜆) 𝑙=1. (29) 𝐿. 𝐿. = ∑ log 𝑃(𝑂𝑙 |𝜆) = ∑ log ∑ 𝑃(𝑆|𝜆)𝑃(𝑂𝑙 |𝑆, 𝜆) 𝑙=1. 𝑙=1. 𝑎𝑙𝑙 𝑆. 但是我們仍可以使用最大期望(Expectation-maximization, EM)算法[66,67]來獲得其區間最大值(Local Maximum)。首先，我們先定義一個變數𝜉𝑡 (𝑖, 𝑗)為給定一個模型λ與觀察序列 O，其狀態 i 在時間 t 與狀態 j 在時間 t+1 之轉移機率，即 𝜉𝑡 (𝑖, 𝑗) = 𝑃(𝑞𝑡 = 𝑖, 𝑞𝑡+1 = 𝑗|𝑂, 𝜆). (30). 藉由計算前向後向演算法所得之變數𝛼𝑡 , 𝛽𝑡+1，我們可將式(28)改寫成： 𝑃(𝑞𝑡 = 𝑖, 𝑞𝑡+1 = 𝑗, 𝑂|𝜆) 𝑃(𝑂|𝜆) 𝛼𝑡 (𝑖)𝑎𝑖𝑗 𝑏𝑗 (𝑜𝑡+1 )𝛽𝑡+1 (𝑗) = 𝑁 ∑𝑚=1 ∑𝑁 𝑛=1 𝛼𝑡 (𝑚)𝑎𝑚𝑛 𝑏𝑛 (𝑜𝑡+1 )𝛽𝑡+1 (𝑛) 𝜉𝑡 (𝑖, 𝑗) =. (31). 因此我們便可以改寫給定一個模型λ與觀察序列 O，其狀態 i 在時間點 t 之機率便可以如下式表示：. 25.

(32) 𝛾𝑡 (𝑖) = 𝑃(𝑞𝑡 = 𝑖|𝑂, 𝜆) 𝑁. = ∑ 𝑃(𝑞𝑡 = 𝑖, 𝑞𝑡+1 = 𝑗|𝑂, 𝜆) 𝑗=1. (32). 𝑁. = ∑ 𝜉𝑡 (𝑖, 𝑗) 𝑗=1. 因此，若我們加總時間點 1 至 T-1 之𝜉𝑡 (𝑖, 𝑗)，即同等於計算在觀察序列 O 中，從狀態 i 到狀態 j 之轉移次數期望值。同理，若我們加總時間點 1 至 T-1 之𝛾𝑡 (𝑖, 𝑗)，即獲得在觀察序列 O 中，從狀態 i 轉移出去之轉移次數期望值。從上述兩點，我們可以合理的推算出模型參數(𝜋, 𝐴)之更新公式應為： 𝜋̅𝑖 即為狀態 i 在時間點 t 為 1 的期望值，如式(33)。 𝑎̅𝑖𝑗 即為狀態 i 轉移至狀態 j 之期望值與從狀態 i 轉移出去之期望值的比值，如式(34)。 𝜋̅𝑖 = 𝛾1 (𝑖) 𝑎̅𝑖𝑗 =. ∑𝑇−1 𝑡=1 𝜉𝑡 (𝑖, 𝑗) ∑𝑇−1 𝑡=1 𝛾𝑡 (𝑖). (33) (34). 從式(17)中我們得知，每個狀態在不同時間點的觀察機率為一多變量高斯密度函數，又模型參數 B 相同狀態下在不同時間之觀察機率，即𝐵 = 𝑏𝑖 (∙)，故將 B 以混和權重𝑐𝑗𝑚 、平均值𝜇𝑗𝑚 以及共變異矩陣Σ𝑗𝑚 表示。首先，我們先定義一個新的變數𝛾𝑡 (𝑗, 𝑘)，用其代表狀態 j 為第 k 個混和模型在時間點 t 在表示為觀察點𝑜𝑡 機率，即式(35)： 26.

(33) 𝛾𝑡 (𝑗, 𝑘) = 𝑃(𝑞𝑡 = 𝑗, 𝑚𝑡 = 𝑘|𝑂, 𝜆) = 𝑃(𝑞𝑡 = 𝑗|𝑂, 𝜆)𝑃(𝑚𝑡 = 𝑘|𝑞𝑡 = 𝑗, 𝑂, 𝜆) (35) = 𝛾𝑡 (𝑗)𝑃(𝑚𝑡 = 𝑘|𝑞𝑡 = 𝑗, 𝑂, 𝜆) =[. 𝑐𝑗𝑘 𝒩(𝑜𝑡 ; 𝜇𝑗𝑘 , Σ𝑗𝑘 ) 𝛼𝑡 (𝑗)𝛽𝑡 (𝑗) ][ 𝑀 ] 𝑁 ∑𝑠=1 𝛼𝑡 (𝑠)𝛽𝑡 (𝑠) ∑𝑚=1 𝑐𝑗𝑚 𝒩(𝑜𝑡 ; 𝜇𝑗𝑚 , Σ𝑗𝑚 ). 因此，混和權重𝑐𝑗𝑚 、平均值𝜇𝑗𝑚 以及共變異數Σ𝑗𝑚 便可以下列三式表示： ∑𝑇𝑡=1 𝛾𝑡 (𝑗, 𝑘) ∑𝑇𝑡=1 ∑𝑀 𝑚=1 𝛾𝑡 (𝑗, 𝑚). (36). ∑𝑇𝑡=1 𝛾𝑡 (𝑗, 𝑘) ∙ 𝑜𝑡 ∑𝑇𝑡=1 𝛾𝑡 (𝑗, 𝑘). (37). ∑𝑇𝑡=1 𝛾𝑡 (𝑗, 𝑘) ∙ (𝑜𝑡 − 𝜇̅𝑗𝑘 ) ∙ (𝑜𝑡 − 𝜇̅𝑗𝑘 )′ ∑𝑇𝑡=1 𝛾𝑡 (𝑗, 𝑘). (38). 𝑐̅𝑗𝑘 =. 𝜇̅𝑗𝑘 = Σ̅𝑗𝑘 =. 2.2.3.2 基頻參數建模在日常生活中，人們說話時因為聲帶振動使得空氣壓縮，因而產生了頻譜。但是除了頻譜之外，也會產生另外一個資訊：基頻。由於在正常情況下，聲帶並非持續的振動，故基頻並非一個連續不中斷的數值，如圖(六)所示：. 圖(六)：基頻圖示圖(六)當中藍色線條即為基頻的數值，而在圖中每段基頻之間皆有一段不具 27.

(34) 有數值的空缺便是聲帶沒有振動的情況，因此我們依基頻數值的有無將其區分成具有數值的有聲區域(Voiced Region)與無數值的無聲區域(Unvoiced Region)。因為基頻擁有上述之特性，使得一般離散(Discrete)或是連續之隱藏式馬可夫模型難以應用至此一問題上。過去已有許多學者提出如何克服無聲區域的方法[68]：(i)使用隨機產生的機率密度函數來替代無聲區域使其具有基頻之值，並產生一數值較大的平方差使連續隱藏式馬可夫模型可適用於此一問題中[69]；(ii) 將無聲區域的值以 0 替代，並代表無聲區域之 pdf 以混和模型加入原模型當中； (iii)利用兩個基頻段落之間的結尾與開頭，將其延伸以補齊無聲區域的數值後便可使用連續隱藏式馬可夫模型進行建模[70]。在本章節中，我們將探討日本學者在 1999 年提出之基頻建模方法：多空間機率分布之隱藏式馬可夫模型(Multi-Space Probability Distributions HMM, MSDHMM)[71]。 . 多空間機率分布在語音辨識當中，我們常用高斯混合模型(Gaussian Mixture Model, GMM)來. 模擬一個密度函數的分布，而多空間機率分布也使用了類似的概念。我們假設有一空間分布Ω是由 G 個空間所組成，如式(39)： 𝐺. Ω = ⋃ Ω𝑔. (39). 𝑔=1. 其中Ω𝑔 為一個𝑛𝑔 維度的實域(real space)𝑅 𝑛𝑔，且每個空間Ω𝑔 皆有其出現之機率值，即𝑃(Ω𝑔 ) = 𝑤𝑔 ，且∑𝐺𝑔=1 𝑤𝑔 = 1。 28.

(35) 如果維度𝑛𝑔 > 0，其空間皆存在一個機率分布函式𝑁𝑔 (𝑥), 𝑥 ∈ 𝑅 𝑛𝑔 ，且滿足 ∫𝑅𝑛𝑔 𝑁𝑔 (𝑥) 𝑑𝑥 = 1 。此時我們假設一個維度 𝑛𝑔 = 0 之空間僅有一個採樣點 (Sampling Point)，因此，若𝑃(Ω)為 G 個空間Ω𝑔 的機率總合，我們得到 𝐺. 𝐺. 𝑃(Ω) = ∑ 𝑃(Ω𝑔 ) = ∑ 𝑤𝑔 ∫ 𝑔=1. 𝑅 𝑛𝑔. 𝑔=1. 𝑁𝑔 (𝑥) 𝑑𝑥 = 1. (40). 此外，由於維度𝑛𝑔 = 0之空間僅有一個採樣點，故其𝑁𝑔 (𝑥)並不存在，因此我們定義在維度𝑛𝑔 = 0時，𝑁𝑔 (𝑥) ≡ 1。從上述內容，多空間機率分布便可以圖(七)所示。. 圖(七)：多空間機率分布現在我們定義事件 E 為一個由連續隨機變數𝑥 ∈ 𝑅 𝑛 以及空間標記集合 X 所組成的隨機變數 o，即 𝑜 = (𝑥, 𝑋). (41). 其中空間標記集合 X 內皆為 n 維度之空間。隨機變數 o 的觀察機率便可以 29.

(36) 定義成式(42)： 𝑏(𝑜) = ∑ 𝑤𝑔 𝑁𝑔 (𝑉(𝑜)). (42). 𝑔∈𝑆(𝑜). 其中𝑉(𝑜)與𝑆(𝑜)定義如下： 𝑉(𝑜) = 𝑥, 𝑆(𝑜) = 𝑋. (43). 從上述定義的機率分布當中，我們得知在多空間機率分布下，𝑛𝑔 ≡ 0以及 𝑛𝑔 ≡ 𝑚 > 0代表了離散分布與連續分布。此外，如果𝑆(𝑜) ≡ {1,2, ⋯ , 𝐺}，其連續分布將以一個 G 維的混和機率密度函數表示。因此，多空間機率分布便比離散分布與連續分布來得更要具有彈性。 . 多空間機率分布之隱藏式馬可夫模型本小節將探討多空間機率分布架構下的隱藏式馬可夫模型，其架構圖如圖. (八)所示。. 圖(八)：多空間機率分布之隱藏式馬可夫模型架構圖假設目前我們有一個隱藏式馬可夫模型λ，其起始狀態機率𝜋 = {𝜋𝑗 }𝑁 𝑗=1、狀 30.

(37) 𝑁 態轉移機率A = {𝑎𝑖𝑗 }𝑁 𝑖,𝑗=1 以及狀態之機率分布B = {𝑏𝑖 (∙)}𝑖=1，其中狀態機率分布. 即為前式(42)，因此狀態轉移機率便可以下式(44)表示 𝑏𝑖 (𝑜) = ∑ 𝑤𝑖𝑔 𝑁𝑖𝑔 (𝑉(𝑜)) , 𝑖 = 1,2, ⋯ , 𝑁. (44). 𝑔∈𝑆(𝑜). 在圖(八)中，每一個狀態 i 下有 G 個機率密度函數𝑁𝑖1 (∙), 𝑁𝑖2 (∙), ⋯ , 𝑁𝑖𝐺 (∙)，其權重分別為𝑤𝑖1 , 𝑤𝑖2 , ⋯ , 𝑤𝑖𝐺，因此隱藏式馬可夫模型𝜆之觀察序列 O 之機率為： 𝑇. 𝑃(𝑂|𝜆) = ∑ ∏ 𝑎𝑞𝑡−1 𝑞𝑡 𝑏𝑞𝑡 (𝑜𝑡 ) 𝑎𝑙𝑙 𝑞 𝑡=1. (45). 𝑇. = ∑ ∏ 𝑎𝑞𝑡−1 𝑞𝑡 𝑤𝑞𝑡𝑙𝑡 𝑁𝑞𝑡𝑙𝑡 (𝑉(𝑜𝑡 )) 𝑎𝑙𝑙 𝑞,𝑙 𝑡=1. 其中𝑞 = {𝑞1 , 𝑞2 , ⋯ , 𝑞𝑇 }為可能的狀態序列，𝑙 = {𝑙1 , 𝑙2 , ⋯ , 𝑙 𝑇 } ∈ {𝑆(𝑜1 ) × 𝑆(𝑜2 ) × ⋯ × 𝑆(𝑜𝑇 )}為觀察序列 O 之可能的空間標記(space indices)序列。其前向後向變數為與式(20)與(24)一致，故前向後向演算法(The ForwardBackward Algorithm)可直接套用至此問題當中。 . 模型參數最佳化與隱藏式馬可夫模型相同，本方法也會遇到模型參數最佳化之問題，在此，. 我們定義一個輔助之函數𝑄(𝜆′ , 𝜆)，其中𝜆′、𝜆分別代表目前的參數與更新後的參數。 𝑄(𝜆′ , 𝜆) = ∑ 𝑃(𝑂, 𝑞, 𝑙|𝜆′ ) log 𝑃(𝑂, 𝑞, 𝑙|𝜆) 𝑎𝑙𝑙 𝑞,𝑙. 31. (46).

(38) 而輔助函數 Q 滿足了以下三項定理：定理 1： 𝑄(𝜆′ , 𝜆) ≥ 𝑄(𝜆′ , 𝜆′ ) → 𝑃(𝑂, 𝜆) ≥ 𝑃(𝑂, 𝜆′ ) 定理 2：若對於每個空間Ω𝑔 ，在𝑉(𝑜1 ), 𝑉(𝑜2 ), ⋯ , 𝑉(𝑜𝑇 )當中共有𝑛𝑔 + 1個觀察項(observations)3，其任意維度𝑛𝑔 皆為互相線性獨立(linearly independent)時，則參數集合λ之輔助函數𝑄(𝜆′ , 𝜆)有一獨特的全域最大值(global maximum)，且此最大值即為該函數之極值。定理 3：當參數集合λ為輔助函數𝑄(𝜆′ , 𝜆)之極值時，其亦為機率式𝑃(𝑂|𝜆)之極值。利用上述之定理，參數更新問題即轉變成給予一個觀察序列 O 與模型𝜆′ ，我們要找到一個模型λ使函數𝑄(𝜆′ , 𝜆)有最大值。因此我們可將式(46)當中的 log 𝑃(𝑂, 𝑞, 𝑙|𝜆)改寫為 𝑇. log 𝑃(𝑂, 𝑞, 𝑙|𝜆) = ∑(log 𝑎𝑞𝑡−1 𝑞𝑡 + log 𝑤𝑞𝑡𝑙𝑡 + log 𝑁𝑞𝑡𝑙𝑡 (𝑉(𝑜𝑡 ))) 𝑡=1. 所以式(46)可進一步改寫成式(48). 3. 因為包含維度為 0 之情況，故有𝑛𝑔 + 1種觀察項。 32. (47).

(39) 𝑁 ′. 𝑄(𝜆 , 𝜆) = ∑ 𝑃(𝑂, 𝑞1 = 𝑖|𝜆′ ) log 𝜋𝑖 𝑖=1 𝑁. 𝑇. + ∑ ∑ 𝑃(𝑂, 𝑞𝑡 = 𝑖, 𝑞𝑡+1 = 𝑗|𝜆′ ) log 𝑎𝑖𝑗 𝑖,𝑗=1 𝑡=1 𝑁. (48). 𝐺. +∑∑. ∑ 𝑃(𝑂, 𝑞𝑡 = 𝑖, 𝑞𝑡+1 = 𝑗|𝜆′ ) log 𝑤𝑖𝑔. 𝑖=1 𝑔=1 𝑡∈𝑇(𝑂,𝑔) 𝑁. 𝐺. +∑∑. ∑ 𝑃(𝑂, 𝑞𝑡 = 𝑖, 𝑞𝑡+1 = 𝑗|𝜆′ ) log 𝑁𝑖𝑔 (𝑉(𝑜𝑡 )). 𝑖=1 𝑔=1 𝑡∈𝑇(𝑂,𝑔). 而𝑇(𝑂, 𝑔) = {𝑡|𝑔 ∈ 𝑆(𝑜𝑡 )}。使式(46)產生最大值之參數集合𝜆 = (𝐴, 𝐵, 𝜋)需受於三項限制，分別為 𝑁 𝐺 ∑𝑁 𝑖=1 𝜋𝑖 = 1, ∑𝑗=1 𝑎𝑖𝑗 = 1, ∑𝑔=1 𝑤𝑔 = 1，在該限制下，其參數集合便可以如下列. 式子推導： 𝜋𝑖 = ∑ 𝛾1 (𝑖, 𝑔) 𝑎𝑖𝑗 = 𝑤𝑖𝑔 = 𝜇𝑖𝑔 =. (49). 𝑔∈𝑆(𝑜1 ) ∑𝑇−1 𝑡=1 𝜉𝑡 (𝑖, 𝑗) 𝑇−1 ∑𝑡=1 ∑𝑔∈𝑆(𝑜𝑡 ) 𝛾𝑡 (𝑖, 𝑔). (50). ∑𝑡∈𝑇(𝑂,𝑔) 𝛾𝑡 (𝑖, 𝑔). (51). ∑𝐺ℎ=1 ∑𝑡∈𝑇(𝑂,ℎ) 𝛾𝑡 (𝑖, ℎ). ∑𝑡∈𝑇(𝑂,𝑔) 𝛾𝑡 (𝑖, 𝑔)𝑉(𝑜𝑡 ) , 𝑛𝑔 > 1 ∑𝑡∈𝑇(𝑂,𝑔) 𝛾𝑡 (𝑖, 𝑔). (52) T. Σ𝑖𝑔. ∑𝑡∈𝑇(𝑂,𝑔) 𝛾𝑡 (𝑖, 𝑔)(𝑉(𝑜𝑡 ) − 𝜇𝑖𝑔 )(𝑉(𝑜𝑡 ) − 𝜇𝑖𝑔 ) = , 𝑛𝑔 > 0 ∑𝑡∈𝑇(𝑂,𝑔) 𝛾𝑡 (𝑖, 𝑔). (53). 其中𝛾𝑡 (𝑖, ℎ)與𝜉𝑡 (𝑖, 𝑗)分別由前向變數𝛼𝑡 (𝑖)以及後向變數𝛽𝑡 (𝑖)計算，公式如下： 𝛾𝑡 (𝑖, ℎ) = 𝑃(𝑞𝑡 = 𝑖, 𝑙𝑡 = ℎ|𝑂, 𝜆) 𝛼𝑡 (𝑗)𝛽𝑡 (𝑗) 𝑤𝑖ℎ 𝑁𝑖ℎ (𝑉(𝑜𝑡 )) =[ 𝑁 ]∙[ ] ∑𝑠=1 𝛼𝑡 (𝑠)𝛽𝑡 (𝑠) ∑𝑔∈𝑆(𝑜𝑡) 𝑤𝑖𝑔 𝑁𝑖ℎ (𝑉(𝑜𝑡 ). 33. (54).

(40) 𝜉𝑡 (𝑖, 𝑗) = 𝑃(𝑞𝑡 = 𝑖, 𝑞𝑡+1 = 𝑗|𝑂, 𝜆) 𝛼𝑡 (𝑖)𝑎𝑖𝑗 𝑏𝑗 (𝑜𝑡+1 )𝛽𝑡+1 (𝑗) = 𝑁 ∑𝑚=1 ∑𝑁 𝑛=1 𝛼𝑡 (𝑚)𝑎𝑚𝑛 𝑏𝑛 (𝑜𝑡+1 )𝛽𝑡+1 (𝑛). . (55). 使用 MSDHMM 之基頻建模在 MSDHMM 當中，其狀態 i 下有 G 個機率密度函數，其權重𝑤𝑖𝑔 可視為一. 時間音框下，其基頻為有聲區段或是無聲區段之機率；以物理上的角度來看，即為該時間點下聲帶是否有振動的機率。對於有聲區段，通常我們使用維度為 1 的高斯分布來描述其基頻分布，而無聲區段則是 MSDHMM 當中提到維度為 0 的情況。因此空間標記集合𝑆(𝑜𝑡 )便由 G−1 個維度為 1 之有聲區間以及一個維度為 0 之無聲區間組成共 G 個空間之集合。. 2.2.3.3 文脈關聯模型近年來，文脈關聯模型較單音模型(Mono-phone Models)在自然語音辨識當中取得了相當成功的成果[72–74]。由於自動語音辨識與統計式語音合成所使用的隱藏式馬可夫模型一致，因此文脈關聯模型也運用於語音合成當中。一般在自動語音辨識當中，我們常用三音素模型(Tri-phone Models)來進行聲學模型的訓練與辨識；但在語音合成當中，三音素模型對於語音的文字描述仍過於簡略，因此我們便會引入更多文脈(Context)用於描述特定語句音素的韻律。但不論是以三個音素串聯在一起的文脈關聯模型，或是以眾多文脈組合而 34.

(41) 成的文脈關聯模型，其模型數量遠較單音模型還要來得許多，因此語音資料庫不見得能夠提供單一文脈關聯模型足夠的訓練資料，也無法涵蓋到所有可能的文脈關聯模型，此一缺點使得文脈關聯模型的訓練會產生資料稀疏 (Data Sparseness)的問題。在過去，許多學者使用了決策樹分群法來解決訓練文脈關聯模型會遇到的資料稀疏問題[75–77]。在基於隱藏式馬可夫模型之語音合成當中，我們使用最小描述長度準則 (Minimum Description Length Criterion, MDL Criterion)[78]來做為決策樹分群法挑選模型的方法[79–81]。 . 最小描述長度準則：顧名思義，最小描述長度準則即是從機率模型群當中挑選具有最小描述長. 度的模型作為最佳模型來代表已知的資料，此一準則也已被證明在挑選最佳模型的方法上是十分具有效率的。為了以數學式定義描述長度，我們假設有一機率模型集合{1, ⋯ , 𝑖, ⋯ , 𝐼}，其中 i 為代表資料𝑥 𝑁 = {𝑥1 , ⋯ , 𝑥𝑁 }之機率模型，此機率模型 i 的描述長度𝑙(𝑖)定義如式(54)： 𝑙(𝑖) = − log 𝑃𝜃̂(𝑖) (𝑥 𝑁 ) +. 𝛼𝑖 log 𝑁 + log 𝐼 2. (56) (𝑖). (𝑖). 其中，𝛼𝑖 為機率模型 i 的調整參數，而𝜃̂ (𝑖) 為機率模型 i 的參數𝜃 (𝑖) = (𝜃1 , ⋯ , 𝜃𝛼𝑖 ) 所估計出來的最大機率值(Maximum Likelihood)；又式(54)當中的第一項為資料的負對數機率(Negative Log Likelihood)，第二項為模型的複雜度，第三項為選擇 35.

(42) 模型 i 所需的描述長度，在此處為一常數。在描述長度準則當中，當一模型越趨複雜，其第一項之機率值越小，而第二項的複雜度則隨之提高；當該模型達到適當的複雜度，其描述長度 l 便會是最小值。此外，從式(56)當中，我們可以發現最小描述長度準則無需外部參數來進行調整，因此用於代表資料的最佳模型會在決定機率模型集合的時候自動產生。 . 決策樹分群法在基於隱藏式馬可夫模型之自動語音辨識與語音合成，我們將決策樹分群. 法運用在狀態的模型分群上，如圖(九)：. 圖(九)：狀態分群之決策樹以三音素模型(Tri-phone)為例，每顆決策樹的根節點(root node)皆為對應至某一單音模型之狀態的三音素模型集合，而其餘的節點則為此一根節點之子集合。從上層到底部，每一個節點皆可以使用一個問題來將該節點分群成兩個節點，以圖(九)為例，根節點的問題為「右側文脈是否為靜音標記」，此問題將模 36.

(43) 型區分成兩個子集合；其中，每一個節點的問題皆是從事先準備好的問題集當中挑選其中一個來進行分群。由於分群的效果受到每個節點所挑選的問題及停止分群的時機所影響，因此正確的挑選分群問題以及停止分群的時機便顯得相當重要。在過去有學者提出使用最大機率化的方式來進行問題的選取以及停止分群的門檻值 (Threshold)[77]；而在此論文中，最小描述長度準則則被運用來解決上述的兩個問題。以下我們將探討使用最小描述長度準則之決策樹分群法。 . 使用最小描述長度準則之決策樹分群法：要使用最小描述長度準則來挑選每個節點的最佳問題，我們必須要先定義. 隱藏式馬可夫模型的描述長度。假設某一狀態𝑆0 的音素隱藏式馬可夫模型可以分群成 M 個節點𝑆1 , 𝑆2 , ⋯ , 𝑆𝑀，其中我們使用一模型 U 來表示𝑆0 所分群的節點集合，如圖(十)所示：. 圖(十)：決策樹當中的節點集合其中，L 為節點𝑆𝑚 之對數機率，該值可從產生訓練音框𝑜1 , 𝑜2 , ⋯ , 𝑜𝑇 來獲得，如 37.

(44) 式(57)： 𝑇. 𝐿(𝑆𝑚 ) ≈ ∑ log (𝑁(𝑜𝑡 , 𝜇𝑆𝑚 , Σ𝑆𝑚 )) 𝛾𝑡 (𝑆𝑚 ) 𝑡=1. (57). 1 = − (log((2𝜋)𝐾 |Σ𝑆𝑚 |) + 𝐾)Φ(𝑆𝑚 ) 2 𝛾𝑡 (𝑆𝑚 )與Φ(𝑆𝑚 )的定義如式(58)與式(59)： 𝛾𝑡 (𝑆𝑚 ) =. 𝛼𝑡 (𝑆𝑚 )𝛽𝑡 (𝑆𝑚 ) ∑𝑆 𝛼𝑡 (𝑆𝑚 )𝛽𝑡 (𝑆𝑚 ) 𝑇. (58) (59). Φ(𝑆𝑚 ) = ∑ 𝛾𝑡 (𝑆𝑚 ) 𝑡=1. 其中，K 為資料向量𝑜𝑡 之維度，𝛾𝑡 (𝑆𝑚 )則為狀態節點𝑆𝑚 產生觀察音框𝑜𝑡 的事後機率(posterior probability)，Φ(𝑆𝑚 )則為狀態節點𝑆𝑚 在全部音框的事後機率總和。此外，𝛼𝑡 , 𝛽𝑡 ,𝜇,Σ分別代表其前向變數、後向變數、平均值向量及共變異矩陣。我們便可改寫式(56)，分群節點集合 U 之描述長度為： 𝑀. 𝑀. 𝑚=1. 𝑚=1. 1 𝑙(𝑈) ≈ − ∑ 𝐿(𝑆𝑚 ) + 𝑐𝐾𝑀 log ∑ Φ(𝑆𝑚 ) 2 (60) 𝑀. =. 1 ∑ Φ(𝑆𝑚 ) log(|Σ(𝑆𝑚 )|) + 𝑐𝐾𝑀 log 𝑉 2 𝑚=1. 其中 c 為式(56)當中的調整參數，V 為根節點𝑆0 在全部音框的事後機率總和，即式(61)： 𝑀. 𝑉 = ∑ Φ(𝑆𝑚 ) = Φ(𝑆0 ). (61). 𝑚=1. 此外，在節點分群時，我們省略了式(56)當中的常數項，而模型 U 的維度則為2𝐾𝑀(M 個平均值向量與 M 個對角共變異矩陣)。 38.

(45) 為了要得到最佳的模型𝑈 ′ ，我們必須要計算所有模型之描述長度來得到最佳解，但是此一作法會帶來龐大的計算量，因此我們採用一個會獲得次佳解但較少計算量的演算法。現在我們令Δ𝑞 (𝑆)為節點 S 使用問題 q 分群前後之描述長度的差異，即為式 (62)： 1 Δ𝑞 (𝑆) = (Φ(𝑆𝑞𝑌 ) log|Σ𝑞𝑌 | + Φ(𝑆𝑞𝑁 ) log|Σ𝑞𝑁 | 2. (62). −Φ(𝑆) log|Σ𝑆 |) + 𝑐𝐾 log 𝑉 其中𝑆𝑞𝑌 , 𝑆𝑞𝑁 分別代表分群後的節點。我們利用求取Δ𝑞 (𝑆)的最小值來進行該節點的分群，因此模型選取演算法如下列步驟： 1.. 將一狀態下全部的隱藏式馬可夫模型作為起始根節點𝑆0 之模型集合。. 2.. 對於問題集合𝑄 = {𝑞1 , ⋯ , 𝑞𝑖 , ⋯ , 𝑞𝐼 }當中所有的問題𝑞𝑖 求取其Δ𝑞𝑖 (𝑆0 )。. 3.. 選取產生最小的Δ𝑞𝑖 (𝑆0 )之問題𝑞𝑖 作為此一節點分群的決策問題。. 4.. 若Δ𝑞𝑖 (𝑆0 ) > 0，則停止分群。. 5.. 若Δ𝑞𝑖 (𝑆0 ) < 0，則將根節點𝑆0 分群成𝑆𝑞𝑖 ,𝑌 與𝑆𝑞𝑖 ,𝑁，並將問題𝑞𝑖 從問題集合 Q 當中剔除。. 6.. 分別將根節點𝑆0 分別替換成分群後所產生的節點𝑆𝑞𝑖 ,𝑌 與𝑆𝑞𝑖 ,𝑁，回到步驟 2.重新執行。. 利用上述的演算法，我們便可以對文脈關聯模型群以其狀態為單位進行分 39.

(46) 群，避免文脈關聯模型所產生的資料稀疏問題。. 2.2.4 語音參數產生演算法在本章節中，我們將探討語音參數產生之演算法。由上述章節我們得知語音參數向量可以由聲學模型λ來描述，假設其聲學模型λ之平均值為 M，其平方差為 U，且狀態序列為已知，故語音參數向量會以圖(十一)表示：. 圖(十一)：以聲學模型λ繪製之語音參數向量示意圖從圖(十一)當中我們觀察到如果直接以聲學模型之平均值與平方差作為其語音參數向量的話，不同狀態之間會因為其平均值與平方差的不同而有了數值上的落差，而當不同的聲學模型相連接時，可能會導致極大的落差產生，這違反語音訊號為一段連續不中斷的訊號的認知。由於聲音訊號的特性，我們推測與聲音訊號直接相關的頻譜(即為語音參數向量)亦有此一連續不中斷的特性，故我們無法直接使用聲學模型來產生聲音訊號的頻譜。在 2000 年時，日本學者提出了語音參數產生演算法[59]，該演算法能夠在給與聲學模型λ的情況下，找出一 40.

(47) 條平緩(Smooth)的聲音參數曲線。在該演算法當中，我們將聲音參數產生問題分成三種情況討論：情況一：給定聲學模型λ與狀態序列 Q，最大化其觀察序列 O 之機率，即最大化 𝑃(𝑂|𝑄, 𝜆)。情況二：給定聲學模型λ，最大化其觀察序列 O 與狀態序列 Q 之機率，即最大化𝑃(𝑂, 𝑄|𝜆)。情況三：給定聲學模型λ，最大化其觀察序列 O 之機率，即最大化𝑃(𝑂|𝜆)。在我們進入探討之前，我們假設一個觀察值𝑜𝑡 是由其特徵向量𝑐𝑡 之靜態與一階動差、二階動差所組成，即 𝑜𝑡 = {𝑐𝑡 , Δ𝑐𝑡 , Δ2 𝑐𝑡 }. (63). 而一階動差與二階動差的計算方式為： (1). 𝐿+. Δ𝑐𝑡 = ∑ 𝑤 (1) (𝜏)𝑐𝑡+𝜏. (64). (1). 𝜏=−𝐿− (2). 𝐿+. Δ2 𝑐𝑡 = ∑ 𝑤 (2) (𝜏)𝑐𝑡+𝜏. (65). (2). 𝜏=−𝐿−. . 情況一之探討：在情況一當中，我們已知其聲學模型λ與狀態序列 Q，故𝑃(𝑂|𝑄, 𝜆)可以寫為 𝑇. log 𝑃(𝑂|𝑄, 𝜆) = ∑ log 𝑏𝑞𝑡 (𝑜𝑡 ) 𝑡=1. 又𝑏𝑞𝑡 (𝑜𝑡 )可定義成：. 41. (66).

(48) 𝑏𝑗 (𝑜𝑡 ) = 𝒩(𝑐𝑡 ; 𝜇𝑗 , 𝑈𝑗 ) ∙ 𝒩(Δ𝑐𝑡 ; Δ𝜇𝑗 , Δ𝑈𝑗 ) ∙ 𝒩(Δ2 𝑐𝑡 ; Δ2 𝜇𝑗 , Δ2 𝑈𝑗 ). (67). 從式(63)至(65)中，我們可以推得 𝑂 = 𝑊𝐶. (68) (0). (1). (2). 其中 C 表示特徵向量𝑐𝑡 之序列，而 W 為權重𝑤𝑡 = {𝑤𝑡 , 𝑤𝑡 , 𝑤𝑡 }所組成之序列。因此式(66)可重寫成 1 log 𝑃(𝑂|𝑄, 𝜆) = − 𝑂T 𝑈 −1 𝑂 + 𝑂T 𝑈 −1 𝑀 + 𝐾 2. (69). 其中𝑈為平方差矩陣，𝑀為平均值矩陣。由於本問題之目標為尋找一條最佳特徵序列 C 使得式(69)產生最大值，故我們可藉由對式(69)進行微分並令其為 0 來獲得其最大值，即 ∂ log 𝑃(𝑂|𝑄, 𝜆) =0 ∂C. (70). 將式(70)進行化簡後便可得到式(71) 𝑊 T 𝑈 −1 𝑊𝐶 = 𝑊 T 𝑈 −1 𝑀T. (71). 式(71)當中的 C 可以藉由喬萊斯基分解(Cholesky Decomposition)獲得。 . 情況二之探討：在情況二當中，我們更進一步只使用聲學模型λ來最大化其觀察序列 O 與狀. 態序列 Q 之機率，此時我們利用貝式定理來轉換我們的問題： 𝑃(𝑂, 𝑄|𝜆) = 𝑃(𝑞|𝜆)𝑃(𝑂|𝑞, 𝜆) 其中 q 為 Q 當中的一條狀態子序列。 42. (72).

(49) 從式(72)當中我們得知，若我們能使用聲學模型𝜆產生一條狀態序列 q，則情況二之問題便可以簡化為情況一。在語音合成當中，我們藉由合成語句可以得到音素之組合，此時我們假設每個狀態的機率分布皆為一維的高斯機率分布，因此𝑃(𝑞|𝜆)可當作給予一個聲學模型𝜆產生其狀態長度序列 D 之機率，即𝑃(𝐷|𝜆)。現在我們假設每個狀態之間的長度皆為獨立，因此將𝑃(𝐷|𝜆)取對數後，便得到式(73) 𝑁. log 𝑃(𝐷|𝜆) = ∑ log 𝑝𝑛 (𝑑𝑛 ). (73). 𝑛=1. 其中，𝑝𝑛 (𝑑𝑛 )為其第 n 個狀態為長度𝑑𝑛 之機率。現在我們假設狀態 n 會進行 d 次之自循環(Self-Loop)，因此𝑝𝑛 (𝑑)之分布為 𝑑 log 𝑃(𝑞|𝜆) = 𝑎𝑛𝑛 ∙ (1 − 𝑎𝑛𝑛 ). (74). 因此，我們使用式(74)來最大化式(73)會得到 ̅ = arg max log 𝑃(𝐷|𝜆) = {1,1, ⋯ ,1} 𝐷 𝐷. (75). 式(75)表示每個狀態皆只會重複一次即進入下一個狀態，而這情況與明顯與我們說話時的習慣不同；在自然語流當中，每個音素應該皆有不同的發音長度。為了避免此情況的產生，我們使用一維的高斯機率分布來額外對時間長度進行建模，而我們將第 j 個狀態的平均值𝜉𝑗 與平方差𝜎𝑗 定義為： 𝜉𝑗 = 𝜎𝑗 =. ∑𝑇𝑡0 =1 ∑𝑇𝑡1 =𝑡0 𝜒𝑡0 ,𝑡1 (𝑗) ∙ (𝑡1 − 𝑡0 + 1) ∑𝑇𝑡0 =1 ∑𝑇𝑡1 =𝑡0 𝜒𝑡0 ,𝑡1 (𝑗). ∑𝑇𝑡0 =1 ∑𝑇𝑡1 =𝑡0 𝜒𝑡0 ,𝑡1 (𝑗) ∙ (𝑡1 − 𝑡0 + 1)2 ∑𝑇𝑡0 =1 ∑𝑇𝑡1 =𝑡0 𝜒𝑡0 ,𝑡1 (𝑗). − 𝜉𝑗 2. 其中𝜒𝑡0 ,𝑡1 (𝑗)為第 j 個狀態在時間𝑡0 到時間𝑡1 之佔有機率，即式(78) 43. (76) (77).

(50) {∑ 𝑖≠𝑗. 𝜒𝑡0 ,𝑡1 (𝑗) =. 𝛼𝑡0 −1 (𝑖)𝑎𝑖𝑗 } ∙ ∏. ∙ {∑. [. 𝑘≠𝑗. 𝑡1 𝑠=𝑡0. 𝑡 −𝑡0. 𝑏𝑗 (𝑜𝑠 ) ∙ 𝑎𝑗𝑗1. 𝑎𝑗𝑘 𝑏𝑘 (𝑜𝑡1 +1 )𝛽𝑡1 +1 (𝑘)}. ⁄𝑃(𝑜|𝜆). (78). ]. 因為我們使用一維的高斯機率分布將每個狀態之時間長度進行建模，故式 (73)當中的機率最大值便會發生在每個高斯分布之平均值，即 ̅ = arg max log 𝑃(𝐷|𝜆) = {𝜉1 , 𝜉2 , ⋯ , 𝜉𝑁 } 𝐷 𝐷. (79). 由上述之方法，我們便可以獲得狀態序列 q，故情況二即簡化為情況一。 . 情況三之探討：在情況二當中，我們假設每個狀態的機率分布皆為一維的高斯機率分布，. 因此問題得以簡化；現在我們將此一假設消除，故情況三即為情況二的進階版本。在情況三當中，每個狀態皆以高斯混和模型進行建模，故無法以一般的做法求取最佳解。因此我們使用最大期望算法來求取最大值。現在我們定義一個參數向量之附屬函數 Q 𝑄(𝑂, 𝑂′ ) = ∑ 𝑃(𝑂, 𝑄|𝜆) log 𝑃(𝑂′ , 𝑄|𝜆). (80). 𝑎𝑙𝑙 𝑄. 其中𝑂′ 為現在的語音參數向量，而𝑂為更新後的語音向量。因此藉由不斷的更新 𝑂′ 使其機率值提高直到其為最大值。由於狀態之時間長度並不受其狀態的建模方式影響，故log 𝑃(𝑂′ , 𝑄|𝜆)可簡化為情況一，即log 𝑃(𝑂′ |𝑄, 𝜆)，因此式(81)可改寫成 1 T ̅̅̅̅̅ −1 𝑂 ′ + 𝑂 ′ T ̅̅̅̅̅̅̅̅ ̅) 𝑄(𝑂, 𝑂′ ) = ∑ 𝑃(𝑂, 𝑄|𝜆) (− 𝑂′ 𝑈 𝑈 −1 𝑀 + 𝐾 2 𝑎𝑙𝑙 𝑄. 44. (81).

(51) 其中 U 為變異數矩陣，M 為平均值矩陣。 −1 ̅̅̅̅̅ −1 −1 ̅̅̅̅̅ ̅̅̅̅̅ −1 = diag[𝑈 ̅̅̅̅̅ 𝑈 1 , 𝑈2 , ⋯ , 𝑈𝑇 ]. (82). −1 −1 ̅̅̅̅̅ 𝑈 𝑡 = ∑ 𝛾𝑡 (𝑞, 𝑖)𝑈𝑞,𝑖. (83). 𝑞,𝑖 −1 −1 −1 T ̅̅̅̅̅̅̅̅ ̅̅̅̅̅̅̅̅ ̅̅̅̅̅̅̅̅̅ ̅̅̅̅̅̅̅̅ 𝑈 −1 𝑀 = [𝑈 1 𝜇1 , 𝑈2 𝜇2 , ⋯ , 𝑈𝑇 𝜇 𝑇 ]. (84). −1 −1 ̅̅̅̅̅̅̅̅ 𝑈 𝑡 𝜇𝑡 = ∑ 𝛾𝑡 (𝑞, 𝑖)𝑈𝑞,𝑖 𝜇𝑞,𝑖. (85). 𝑞,𝑖. 而𝛾𝑡 (𝑞, 𝑖)可由前向後向演算法求得其值。由於式(58)的定義，因此𝑂′ = 𝑊𝐶′一樣會成立，故將式(71)改寫如下 −1 𝑊𝐶 ′ = 𝑊 T ̅̅̅̅̅̅̅̅̅ ̅̅̅̅̅ 𝑊 T𝑈 𝑈 −1 𝑀T. (86). 利用上式(86)，我們便可找到一特徵向量𝐶 ′ 使 Q 函數具有機率區域最大值。因此求取𝑃(𝑂|𝜆)之演算法流程如下： 1.. 選取一個起始特徵向量 C。. 2.. 使用前向後向演算法求取𝛾𝑡 (𝑞, 𝑖)之值。. 3.. −1 與𝑈 −1 𝑀後，將其帶入式(84)求得𝐶 ′ 。 ̅̅̅̅̅ ̅̅̅̅̅̅̅̅ 求得𝑈. 4.. 令𝐶 = 𝐶 ′ ，若滿足設定之目標即停止；不然則回到步驟 2.繼續更新。. 從此一演算法流程當中我們可以發現其演算法式依其起始特徵向量 C 進行更新，故本演算法求得之解僅為區域最大值，非全域最大值。. 45.

(52) 2.3. 使用豐富文脈模型之隱藏式馬可夫模型語音合成基於隱藏式馬可夫模型之語音合成如同統計式語音合成一般，皆有合成語. 音頻譜過於平緩以及聲音沉悶(Muffled Sound)的缺點，此缺點的原因多歸咎於決策樹分群法將關聯度較高的文脈關聯模型分群在同一葉節點並進行訓練後，導致其聲學模型過於平緩(Over-Smoothed)。此種模型訓練的方式，會嚴重影響模型之平均值，而對於統計模型式語音合成來說，模型的平均值遠比其平方差來得重要，這是因為靜態平均值(Static Mean)代表了頻譜當中的峰值(Snap-Shot)，而動態平均值(Dynamic Mean)則表示了頻譜當中的趨勢[22]。在過去有相當多學者提出了許多改善合成語音過於平緩且沉悶的方法，如：增加決策樹之葉節點之高斯混和模型之數量[59]、提出最小產生誤差(Minimum Generation Error, MGE) 準則至聲學模型訓練當中 [82] 、將語者轉換 (Voice Conversion)當中所使用的全域平方差(Global Variance, GV)運用至語音合成來改善其缺點[83]，亦有在後處理(Post-Processing)階段使用共振峰尖銳化(FormantSharping)[84]等方法。在此，我們將介紹另一種改善基於隱藏式馬可夫模型之語音合成缺點的方法：使用豐富文脈模型之隱藏式馬可夫模型語音合成[22], [24–26]。在此我們統稱為豐富文脈模型之語音合成。豐富文脈模型之語音合成在 2009 年時由中國大陸學者 Yan 所提出[22]，於 2012 起，日本學者 Takamichi 對其進行改良，並改良語音參數產生演算法來估 46.