漢語語音合成之信號清晰度與流暢度的改進研究

(1)

行政院國家科學委員會專題研究計畫成果報告

漢語語音合成之信號清晰度與流暢度的改進研究

Improving of Signal Clarity and Fluency for Chinese Speech Synthesis 計畫編號：NSC 96-2221-E-011-163

執行期限：96 年 8 月 1 日至 97 年 7 月 31 日主持人：古鴻炎國立台灣科技大學資訊工程系計畫參與人員：吳昌益、朱楠群

e-mail: [email protected]

一、中文摘要

雖然採取 corpus-based 的作法可以避免信號清晰度和流暢度的衰退，但是這樣也會失去一些功能，如失去說話速度快慢、及音調高低等因素的調整的彈性。因此本計畫在說話速度、音調可變換的前提下，去研究信號清晰度與流暢度改進的語音合成方法。我們改進了諧波加雜音模型，用以改善信號的清晰度；研究以類神經網路模型來對音節內的頻譜演進路徑作學習和產生。目前，我們可以只用一個人的錄音，來合成出多種說話速度和音調、

且音質清晰的語音信號。

關鍵詞：語音合成、信號清晰度、流暢度、

諧波加雜音模型、頻譜演進

ABSTRACT

In speech synthesis, a corpus-based approach is usually adopted to prevent the degradation of signal clarity and fluency. The adoption of such approach also implies that some functions must be given up, including the flexibilities in adjusting speaking rate and pitch-heights. In this project, we hence studied speech synthesis methods to improve signal clarity and fluency while keeping the capabilities of adjusting speaking rate and pitch-height. In fact, we have improved harmonic-plus-noise model (HNM) to promote signal clarity, and constructed an artificial neural network (ANN) based model

to learn and generate spectrum-progression path for a syllable. Now, recorded speech signals of a person can used to synthesize speech signals of multiple speaking rates and different pitch heights.

Keywords: speech synthesis, signal clarity, fluency level, harmonic-plus-noise model, spectrum progression

二、緣由與目的

在國語、閩南語、客家語等語言的語音合成之研究領域，過去被研究過的語音信號合成技術，包括了線性預測(linear prediction) 合成，幅峰 (formant) 合成， PSOLA (pitch synchronous overlap and add) ，及錄大量發音以作單元選取之 re-sequencing 合成方法。

線性預測合成之方法，一個常被提及的缺憾是，鼻音的 zero 特性以 all pole model 來模擬會有明顯的誤差存在，而讓合成的信號變得模糊而不清晰。幅峰合成之方法，一般來說可以合成出非常清晰的語音信號，但是幅峰合成器裡，需去控制的參數非常多，並且這些參數的數值不是經過formant tracking 之分析就能夠確定。

PSOLA 是目前較常被採用的語音信號合成方法，因為它的控制參數(pitch peak) 數值容易決定，且信號合成的處理程序也是容易製作。然而PSOLA 有一嚴重的缺點是，當合成單元音長(duration)或音調(pitch) 改變太大時，合成出的語音信號會明顯地

(2)

變得不清晰，甚至於會出現合唱(chorus)、

迴音(reverberation)等副作用。

若採取純粹的單元選取之 corpus- based 的合成方法，則必須錄製非常大量的語音，且合成單元的切割與標示，也需花費人力來作程式處理後的校對、更正。所以，實作上大多是採取混合式的作法，亦即仍然會對一些合成單元作韻律特性的調整處理，而一般選取的處理方法多是 PSOLA，此時就會面臨清晰度和流暢度的抉擇的兩難問題，例如想要保持清晰度，

就不對音長差異(原始值、目標值之間)較大者作處理，結果可能造成合成語音的說話速度忽快忽慢地改變，而降低了流暢性。

三、清晰度改進之研究

在此我們以HNM (harmonic plus noise model)為基礎，對它作改進，以便用來合成出清晰的國語語音信號。HNM 是由 Y.

Stylianou 所提出的一種語音信號的模型，

希望在作語音處理(編碼，合成)時，仍能保持信號的清晰度與自然度。HNM 可看成是弦波模型的改進，它對於語音高頻部分的雜音(noise)信號成分，建立了較好的模型。HNM 的模型參數分析程序裡，提供了最大有聲頻率 MVF (maximum voiced frequency) 的一個偵測方法，依 MVF 值可將一個語音音框(frame)的頻譜分割成低頻、高頻之兩個部分，對於低頻部分的信號成分，採取以諧波成分(harmonic partials) 的加總來塑模(modeling)，而對於高頻部分的信號成分，則採取以平滑的頻譜包絡 (spectral envelope)來塑模，實際上是以少數的倒頻譜(cepstrum)係數來代表此頻譜包絡。

3.1 音色一致性及音長調整

當應用 HNM 來合成國語語音時，我們發現有幾個議題，其解決方法並未能在 HNM 的文獻上找到，第一個議題是，如何讓合成的音節信號保持音色(timbre)的一致性(consistency)? 由於我們只希望對各種國語音節錄製一次發音，然後透過修改一個音節的基週軌跡的高度及形狀，來合

成出其它聲調的音節信號，因此當一個欲合成音節的基週軌跡被指定時，我們必需使用一種適當的方法來調整 HNM 各諧波成分的參數值，以同時滿足基週軌跡及音色一致性的要求。

第二個議題是，對於一個放置於欲合成音節之時間軸上的一個控制點(control point)，如何決定此控制點上的 HNM 參數的數值? 在合成一個音節的信號時，我們需要調整該音節原始錄音的音長以滿足韻律單元所指派的合成音節之音長，因此在合成音節時間軸上的一個控制點，當它被對映(mapping)至一個位於原始音節兩分析音框之間的時間點時，我們必需使用一種適當的內差方法來計算此控制點上的 HNM 參數值。

我們研究了前述二項議題的解決方法，當要合成一個音節的信號時，程序上先作控制點的佈放、對映(mapping)，對映是指對映至原始音節之音框；再去內差出音高(pitch)未變之控制點上的 HNM 參數；

然後，進行可保持音色之另一種內差處理，以求取音調改變後之 HNM 參數數值。

前述步驟的作法細節，可參考我們已發表之研討會論文: 古鴻炎、周彥佐，「基於 HNM 之國語音節信號的合成方法」，第十九屆自然語言與語音處理研討會 (ROCLING 2007)，台北，第 233-243 頁，

2007。

3.2 信號合成之主流程

此外，我們也依據前述的解決方法建造出了一個由 HNM 作改進的國語音節信號合成系統，此系統的主要處理流程如圖 1 所示。當要合成一個音節的信號時，很明顯地此音節的各個韻律參數值已經由韻律單元訂定、指派好了，因此圖 1 裡的第一個方塊首先作的是，將合成音節的音長規劃、分割成此音節的組成音素(phoneme) 的時長(duration)，接著依據相連音素的時長來建造一個片斷線性(piece-wise linear) 的時間校正函數，以便將合成音時間軸上的時間點對映至原始音的時間軸上；在圖 1 裡的第二個方塊，先均勻地在合成音的

(3)

時間軸上佈放控制點，然後對各個控制點求取該點上的 HNM 參數值；接著在圖 1 裡的後面三個方塊，將信號分類成三種形態分別去作合成處理，對於短時間的無聲 (unvoiced)聲母(syllable initial)，其信號片斷直接由原始音裡複製到合成音裡，對於長時間的無聲聲母，其信號則當作是 HNM 的雜音信號成分來作合成，至於音節的有聲(voiced)部分，包括有聲子音及母音，則先分別合成出諧波和雜音成分，再作相加。

3.3 測試與聽測評估

首先以觀察聲紋圖(spectrogram)的方式，來比較我們研究的 HNM 合成法和一般常用的PSOLA 合成法。兩方法分別去合成出國語短句〝旋轉力〞/syuen-2 zhuan-3 li-4/ 的語音信號，然後以聲紋分析軟體 (wavesurfer)作分析來得到聲紋圖，圖 2 的聲紋是對 HNM 法所合成的信號作分析而得到，圖3 的則是對 PSOLA 法合成的信號作分析而得到。從圖2 和 3 我們可觀察倒，

圖3 裡的諧波紋路顯得比圖 2 裡的較為零碎、較多斷裂的地方，並且圖 2 裡的諧波條紋較為平滑，而不像圖 3 裡的顯得有一些毛燥、扭曲，因此 HNM 法合成出的信號應會比PSOLA 的清晰。

/syuen-2/ /zhuan-3/ /li-4/

圖2 HNM 法所合成信號的聲紋圖

/syuen-2/ /zhuan-3/ /li-4/

圖3 PSOLA 法所合成信號的聲紋圖此外，我們選了一篇短文來讓這兩種方法去合成出語音信號，並且存成波形檔案，短文是一篇小學生的作文，有 132 個音節。接著我們將這兩個波形檔以隨機次序播放給15 位參加聽覺測試者聆聽，然後請他們對前、後播放的檔案作清晰度的比較，評分的規則是，兩者無法區分時給 0 分，如果後者(前者)比前者(後者)稍好一些，則給 1 分(-1 分)，而如果是明顯地好或好很多則給 2 分(-2 分)，結果我們得到的平均分數是1.2 分，也就是 HNM 法會合成出比較清晰的語音。另外，為了讓有興趣者能夠試聽這兩種方法所合成出的語音信號，我們設定了一個網頁以供人瀏覽，

其網址是 http://guhy.csie.ntust.edu.tw/trhnm/

sentence.html。

四、流暢度改進之研究

最近回顧一些文獻後發現，我們所關心的流暢性不足的問題，其實已經有其他研究者注意到了，他們提出的一種作法是，以HMM (hidden Markov Model)模型的數個狀態，來切割一個音節的時長成為數個時間片斷，再分別去掌握各片段上的頻圖1、基於 HNM 之音節信號合成的主流程

SyllableSignal Synthesis

DetermineHNMparametersfor eachcontrol point

Determinephonemelengthsand construct time-warpingfunction functionmeters

Theinitial is short unvoiced?

Voicedpart:

SynthesizeHNMharmonicsignal SynthesizeHNMnoisesignal

stop

Directlycopy signal samples of theunvoiced Y

N Synthesizethe longunvoicedas HNMnoisesignal

(4)

譜特性(例如頻譜包絡, spectrum envelope, 的形狀) ，並且以特定的狀態駐留(state staying)機率分佈來掌握在各個狀態上所應停留的時間長度。這樣的作法，以我們的觀點來看，就是在於作更細緻的規劃，把一個音節的時長以某一種非均勻的方法作切割，而讓不同的狀態(也就是頻譜包絡) 分配到不等的時間長度，以便更細緻地模仿真人發音(articulation)時的頻譜隨著時間變化的關係。

4.1 頻譜演進

前述頻譜(包絡形狀)隨著時間演變的關係，在本文裡簡稱之為頻譜演進 (spectrum progression)，而頻譜演進路徑(簡稱為頻演路徑)指的是，當把欲合成的音節放在橫軸上，而把相同拼音的原始錄音音節放在縱軸上，此時橫軸上各時間點所應對應的縱軸時間點，需要一條曲線來描述此對映(mapping)關係，一個例子如圖 4 所示，這樣的對映曲線就是本文所謂的頻演路徑。過去很多的國語語音合成系統，其合成出的語音的流暢性不佳的一個主要原因，我們認為是因為它們直接把頻演路徑設定為直線，而沒有特別考慮頻演路徑的

塑模(modeling)，再據以產生出逼近真人講話方式的頻演路徑。

圖4 頻譜對映曲線之例子

因此，我們便開始研究頻演路徑塑模及產生的問題，在此我們不追隨前人採取 HMM 來建立頻演路徑的模型，原因是 HMM 未去掌握時間上相鄰的觀測

(observation)向量之間的依存(dependency) 性，這相當於假設時刻t 的觀測向量 Ot 和 Ot+1 (或 Ot-1)之間沒有依存關係，而只有去掌握 Ot 和它所停留的狀態之間的關連性，這樣的modeling 方式令我們懷疑其是否可以滿足語音合成上的需求；此外，一個合成音節的頻演路徑並不會是只有固定的一條而已，而是會隨著左右鄰接音節的不同，去行走不同的路徑(也就是 context dependent)，在此情形下，一個 HMM 的各個狀態如果只是各自去考慮 state duration 的機率分佈，而沒有考慮鄰接狀態和鄰接音節之間的相關性，則不免讓我們懷疑其完善性。

4.2 頻演模型

基於前述的考量，我們逐決定以ANN (artificial neural network)來建立頻演路徑的模型，而模型的訓練步驟是: (a)錄製單獨發音的參考音節和句子發音的語句，然後把語句裡的音節切割成各別的目標音節檔案；(b)逐一將整句發音裡的音節信號放在橫軸，而把相同拼音的單獨發音音節信號放在縱軸，再以DTW(dynamic time warping) 來匹配出一條頻演路徑；(c)將橫、縱軸上的音節信號的時間範圍各自正規化成 0 至 1 之間，然後在橫軸音節上均勻放 32 個正規化的時間點，各點再依頻演路徑對映至縱軸而得到介於 0~1 之間且隨著橫軸作非線性漸增的32 的數值；(d)將各個句子發音裡的音節對映出的 32 個正規化的時間值 (稱為頻演參數)作為 ANN 模型學習的目標，並且把該音節及其前、後鄰接音節的資訊(也就是語境資料)作為 ANN 的輸入資料，去訓練頻演參數的ANN 模型。

目前我們只錄了 375 個訓練語句，共 2,926 個音節，來訓練頻演模型。頻演模型建立後，就可用它來產生出一個欲合成音節的32 個頻演參數，再依這些頻演參數去作片段線性內差而得到如圖 4 所示的對映函數。然後，這個對映函數就可帶入第三節的 HNM 合成法裡，去對映合成音節的一個控制點至原始音節上的分析音框，來取得控制點上所需的HNM 參數。

欲合成音節/yao/

原始音節 /yao/

(5)

將前述的頻演模型和 HNM 合成法作整合後，拿來合成一篇短文的文字成為語音檔，另外也把對映曲線以直接設定為直線的方式，去合成出第二個音檔。然後，

依據這2 個合成的音檔，請了 9 個試聽者，

來作聽測評估，初步結果顯示，我們提出的頻演模型，的確可明顯地提升合成語音的流暢性。

五、成果與討論

經由本計畫的執行，我們對 HNM 信號模型作了研究、改進，解決它的(a)音色一致性、(b)控制點上 HNM 參數訂定之問題。再者，我們以改進的 HNM 為基礎，

提出一個合成國語音節信號的作法 (scheme)，將它實作成程式後，用以合成出語音檔，並且我們也使用PSOLA 的作法去合成出語音檔，然後拿兩者的語音檔去作聽測評估，結果顯示我們的HNM 合成法，

的確可以獲得較高的語音清晰度。

此外，我們也研究、提出了一個以 DTW 加上 ANN 來建立頻演參數模型的方法。當建立頻演模型之後，將它和 HNM 合成模組作整合，用以合成出國語語音信號，再拿合成出的語音去作聽測實驗，初步結果顯示，我們的頻演參數模型的確可用以提升合成語音的流暢度。

原先本計畫是規劃為多年期的，預備第二年作漢語中閩南語、客家語的語音信號合成的研究，但後來被砍成為一年，所以就只能研究國語語音信號的合成而已。

六、參考文獻

[1] Chiou, H. B., H. C. Wang, and Y. C. Chang,

“Synthesis of Mandarin Speech Based on Hybrid Concatenation”, Computer Proc- essing of Chinese and Oriental Languages, Vol. 5, pp. 217-231, 1991.

[2] 盧鵬任, 中文文句翻語音系統之改進, 碩士論文, 國立交通大學電信研究所, 1996.

[3] 林顯易, 一套基於類神經網路與模糊邏輯之中文語音合成系統, 碩士論文, 國立交通大學電機與控制工程系, 1998.

[4] Chou, Fu-chiang, Corpus-based Technologies for Chinese text-to-Speech

Synthesis, Ph.D. Dissertation, Department of Electrical Engineering, National Taiwan University, Taipei, Taiwan, 1999.

[5] 張唐瑜, 以大量詞彙作為合成單元的中文文轉音系統, 碩士論文, 國立中興大學資訊科學研究所, 2004.

[6] 吳佩穎, 以語料庫為基礎之中文文句翻語音系統中合成單元之選取, 碩士論文, 國立交通大學電信工程系所, 2004.

[7] O`Shaughnessy, D., Speech Communi- cation: Human and Machine, 2’nd ed., IEEE Press, 2000.

[8] Klatt, D. H., "Software for a Cascade / Parallel Formant Synthesizer", J. Acoust.

Soc. Am., Vol. 67, pp. 971-995, 1980.

[9] Modulines, E. and F. Charpentier, "Pitch- Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones", Speech Communication, pp. 453-467, 1990.

[10] Yannis Stylianou, Harmonic plus Noise Models for Speech, combined with Statistical Methods, for Speech and Speaker Modification, Ph.D. Dissertation, Ecole Nationale Sup e rieure des T e l e communications, Paris, France, 1996.

[11]Chollet, G., A. Esposito, M. Faundez-Zanuy, and M. Marinaro (Eds.), Nonlinear Speech Modeling and Applications, Springer- Verlag, 2005.

[12] Tokuda, K., Zen, H. and Black,A.W.,“An HMM-based speech synthesis system applied to English”, 2002 IEEE Speech Synthesis Workshop, Santa Monica, California, Sep. 11-13, 2002.

[13] Qian, Y., F. Soong, Y. Chen, and M. Chu,

“An HMM-Based Mandarin Chinese Text-to-Speech System”, International Symposium on Chinese Spoken Language Processing 2006, Singapore, Vol. I, pp.

223-232, 2006.

[14] Yeh, Cheng-Yu, A Study on Acoustic Module for Mandarin Text-to-Speech, Ph.D.

Dissertation, Graduate Institute of Mechanical and Electrical Engineering, National Taipei University of Technology, Taipei, Taiwan, 2006.

漢語語音合成之信號清晰度與流暢度的改進研究

行政院國家科學委員會專題研究計畫成果報告