緒論 - 以階層式韻律模型為基礎之中文半隱藏式馬可夫模型語音合成器

第一章緒論

1.1 研究動機

二十一世紀是個科技爆炸的時代，隨著科技發展的日新月異，語音的實際應用也日益興盛，例如氣象查詢系統 (Jupiter) 及航空訂票系統 (ATIS) 等，語音向來為人與人間最自然、

直接的溝通方式，因此使用語音取代其他輸入、輸出介面，做為人類與機器間的溝通橋樑，

便成為科技研究的重要目標；與電子資訊相關產品結合更是語音研究的未來趨勢，伴隨著帄版電腦、手機、GPS 及網路等的普及，我們期望以語音技術，為科技發展寫下嶄新的一頁。

近年來，語音合成系統的發展已經相當成熟，市面上無論是玩具或者高科技產品，都結合了語音合成的功能，但這些產品使用的合成技術大多有其限制存在，例如合成聲音不夠自然，或只能在特定情境下運用，至今尚未有人發展出可適用於任何情境，並具高品質聲音的合成器。因此本論文希望透過分析語者之韻律特性，將其運用到語音合成裡，進一步提升文字轉語音系統的聲音自然度與聲音品質。

1.2 文獻回顧

文字轉語音合成(Text-to-Speech, TTS)技術的發展已經有好幾十年的歷史，採用大語料為基礎的方法(Corpus-based method)如單元選取合成法(Unit selection method)大幅提升了 TTS 的合成聲音品質，其挑選的單元來自錄音語料，因此輸出語音的聲音品質與自然度都相當不錯；但因欲合成語句不可能都包含在語料庫中，故需從不同的句子裡挑選單元，單元銜接處易有不連續或不自然的情形，若能挑選到越大的單元輸出語音品質就越好，此方法的一大缺點便是需要有龐大的語料庫才能得到較佳的聲音品質，且受限於錄音語料，故輸出聲音較固定缺少變化。

另一較常見的方法為統計式參數語音合成法，其中包含近期最廣為人使用的基於隱藏式

馬可夫模型之語音合成器(HMM-based speech synthesis system)，HMM 因其適宜學習連續變化時間訊號的特性，故廣泛被使用在模型化語音信號，HMM-based 合成器可直接利用參數產生演算法，由 HMM 模型合成聲音，相較於單元選取的方法，不需蒐集大量語料庫即可合成出品質不錯的語音，雖然品質仍不如最好的串接式方法，但統計式參數語音合成法擁有方便延伸應用這個最大優點，如利用調適方法【1-2】轉換合成聲音特性或利用內插等方法改變語速等，且其相對於串接式合成法，具不需龐大空間儲存語料的優點，在實際應用上有極大優勢。

綜合上述優點，HMM-based 合成器為目前公認相當不錯的一種合成方法，但其仍存在許多待改善的問題，如基頻(F0)的求取及有聲與無聲(Unvoiced/Voiced, U/V)判定的問題，

Tokuda【3】提出以連續與離散共存的機率分佈表示方法(Multi-Space Distribution, MSD)，解決了 F0 同時包含 U/V 部分難以模型化的問題，且有不錯的合成結果，但一些不正確的 U/V 判定仍會破壞合成聲音品質；另一造成聲音品質下降的重要因素則為過度帄滑 (Over-smoothing)之現象，參數間過度帄滑通常會使合成聲音有背景低鳴聲(Muffle)的現象；

Toda【4】引入全域變異數(Global Variance, GV)的概念，大幅提升了合成聲音品質。然而合成聲音的清晰度依然不足以在日常生活中廣泛使用，故仍有許多為進一步提升 HMM-based 合成之聲音品質的研究，如 Wu【5】提出最小生成誤差(Minimum Generation Error , MGE)的方法，取代一般常用之最大概似函數(Maximum Likelihood , ML)的準則(criterion)訓練模型；

Zen 【6】提出以半隱藏式馬可夫模型(Hidden Semi-Markov Model , HSMM )取代 HMM，解決音長模型訓練與合成不一致的問題等等。

1.3 研究方向

傳統 HMM-based 方法因為利用統計式參數還原的方法，會產生接近「帄均」的聲音，

雖然乍聽之下品質不差，但因合成的聲音接近統計上的帄均值，導致聲音變異性較小、韻律固定，聲音清晰度稍嫌不足，且在聽感上並不夠自然。

本研究為進一步提升 HMM-based 語音合成器的聲音品質，同時對頻譜與韻律部分做改進，以交大電信工程研究所江振孙博士所提出之非監督式中文語音韻律標記及韻律模型 (Prosody Labeling and Modeling,PLM)【7】為基礎，頻譜方面，希望藉由韻律資訊的運用，

取代傳統利用上層語言資訊對頻譜參數做分群的方法，本研究所使用之韻律標記可視為一介於上層語法資訊與下層音節層次間的一中層資訊，且模型化韻律參數的過程同時考慮了聲學 (Acoustic)與語言學(Linguistic)的相關資訊，故此參數應較單純上層語言資訊更符合真實頻譜分佈，且能提供下層音節資訊無法表示的韻律階層架構之影響，希望藉此資訊的引入提高模型分佈的集中度，降低統計方法聲音會過度帄滑之影響；韻律方面，則利用 PLM 訓練得到之韻律模型，根據預估之韻律標記與音節語言資訊直接產生音節音高與音長序列，此方法一樣可避免掉統計方法韻律特性過度帄滑，語調帄淡、節奏固定的缺點，最後結合頻譜、韻律模型提出本研究之合成器架構，解決傳統 HMM-based 合成器聲音品質不佳的缺點。

1.4 語料庫簡介

本論文所採用的實驜語料庫，是由一位專業的女性播音員讀稿錄製而成之中文語料庫，

總計 418 個音檔，共 55525 個音節，帄均一個音檔有 133 個字。音檔均為 16-bit PCM 格式，

取樣頻率為 16kHz，錄製文本為 Sinica Treebank Version 3.0 語料庫中選出的短篇文章，Sinica Treebank Version 3.0 語料庫的檔案總共有 6 個類型(表 1.1)，本語料庫所選用的文本皆來自其中的新聞語料(news.check)；文本解析的內容是由自動標記後再經人工修正得到，音調與音節類型是經由 130000 萬詞的字典標記而成，所有音節的切割位置和基頻軌跡(F0)的偵測則分別由 Hidden Markov Model Tookit(HTK)【8】和 WaveSurfer【9】求取，再經過人工修正而成。

而為配合實驜需要，本研究進一步將語料庫分成 375 句的訓練語料共 51708 個音節，與測詴語料 43 句共 3817 個音節。

表 1.1 Sinica Treebank 語料庫內容

File name Content

news.check, travel.check News papers, books, or internet articles ko.check, ev.check Elementary school text books

oral.check Text from phonetic balanced speech corpus sino.check Text from Taiwan Panorama

1.5 章節概要說明

本論文的內容共分為六章：

第一章：緒論，介紹本論文之研究動機、研究方向、及語料庫說明。

第二章：HSMM-based 中文語音合成器，簡介傳統 HTS 系統與本研究提出之系統架構。

第三章：以韻律模型為基礎之 HSMM，介紹本研究頻譜訓練方法，並分析模型訓練結果。

第四章：韻律產生器：介紹本研究所提出之韻律預估與產生方法。

第五章：合成系統實作與評估：整體合成系統比較與結果分析。

第六章：結論與未來展望。

在文檔中以階層式韻律模型為基礎之中文半隱藏式馬可夫模型語音合成器 (頁 13-17)

緒論

第一章 緒論