聲母合成方式的改進

第三章語音合成技術實作與改進

3.2 基頻同步疊加合成法

3.3.3 聲母合成方式的改進

在舊有合成器中，聲母合成方式分為三大類：

同處理。此類的聲母包括已緩慢下降，而（a）圖顯示在音節相接時不連續的現象已改善。

(a) (b)

圖三-7：改進後合成器合成語音波形、聲譜、基頻軌跡圖

本音節換為經 3.1 節介紹的方式所選取出的音節後，除了以上所描述的狀況外，我們發現合成出來的音檔在某些聲母的部分有較尖銳的發音，使得合成句子聽起來像是機器人發出的，因此我們必須重新檢視聲母合成的方式，以改善此狀況。

1. 若聲母含有韻律性，則與其韻母視為一體，一ㄇ、ㄋ、ㄌ、ㄖ及空聲母。

3. 其它類的聲母，合成時對聲母做「re-sampling」的處理。

針對之前描述的問題，經由觀察可發現其原因來自於對聲母做 re-sampling 時，合

個 pitch mark 間距為寬度，由第一個 pitch mark 位

2. 母的作法【13】，合成聲母，最後合成的結果可由圖三-8 成聲母的能量在高頻時會變大，如圖三-8，（a）為原始樣本音節聲母，（b）

為經過 re-sampling 後的聲母；為此，我們提出一個新的合成方式，能降低上述的效應，其作法如下：

1. 以韻母第一及第二

置開始，朝聲母部分做等寬度的標示 mark 動作，直至音節開頭。如圖三-9 所示。

以類似合成韻

（c）的聲譜圖看出，新作法的聲母能量分怖較接近原始能量分怖。

圖三-8：摩擦音類聲母波形、聲譜圖

(b) (c) (a)

圖三-9：聲母標示標記動作之示意圖

以新選出的音節作為樣本音節，加上改進過的語音合成器所合成出的句子，

主觀上，我們認為聲音的品質有明顯的提升。

第四章結論與未來展望

4.1 結論

本論文可分為二個部分：在第一部份裡我們建立了一套處理大量語料庫的標準流程，包含語音的自動切割、修正和基頻軌跡的求取與調整；第二部分則為針對過去發展之文句轉語音系統合成器和樣本音節資料庫作改進。經由實作後，我們可以得到下面幾點結論：

1. 我們所提出調整切割位置的方法，可將由 HMM 辨識器自動切割出音的位置，修正至較佳的切割位置，這樣的方法應用於切割大量語料庫上是可行且有效率的，並在利用正確切割位置的資訊下，基頻軌跡的錯誤偵測，也可達到一定的效果。

2. 在合成器以 TD-PSOLA 為架構的前提下，我們修正了以往影響合成品質的幾個要素：摩擦類子音合成時高頻能量過大、音節連接時語音不連續及音節尾音能量遽降等現象，使合成出的聲音品質更為流利。

3. 對於每個中文音節，我們建立了一組具有長、中、短三種不同長度的女性樣本音節，同時這樣的音節來自自然語音中，可使合成出的聲音，在品質上有明顯的提升。

4.2 未來展望

1. 我們已能對大量的語料庫做切割處理動作，並且求得語料的正確基頻軌跡，這是建立一個以大量語料庫為基礎的文句轉語音系統前所須完成的前處理動作，下一步，我們將以建立這樣的系統為目標，著手努力。

2. 在以較少語音資料量的前提下，選取長度上具有長、中、短特性的三個樣本音節的方法，已可合成出相當流利的語音，未來可對幾個較常用的字，

加入更多的樣本音節，或是加入常用且易耦合的詞組於樣本中，可以減少因合成器不當的調整所帶來合成語音不順暢的現象。

3. 在挑選樣本音節的過程中，發現大多數以摩擦類起頭的音節，子音能量太強，使得合成時的句子有吵雜的現象。在實驗中，我們是以壓縮子音能量的方式改善這樣的問題，但這樣的調整，多少會改變原始音檔的結構；所以最根本的解決辦法，是在錄製語料庫時，要求音檔的品質；當有品質較佳的語料庫時，合成的聲音會更自然流暢。

4. 將新的斷詞器【11】和由本論文提出新的合成器及樣本音節，加上原始的韻律產生器，依照 Windows Speech API 的標準，包裝成一完整的 TTS 系統，可供視窗環境下使用。

參考文獻

[1] Dutoit, T., An Introduction to Text-to-Speech Synthesis, 1997, Kluswer Academic Publishers.

[2] E. Moulines, and F. Charpentier, "Pitch-synchronous Waveform Processing Technique for Text-to-Speech Synthesis Using Diphones," Speech Communication 9, pp.453-467, 1990.

[3] F. Charpentier and Moulines, "Pitch-synchronous Waveform Processing Technique for Text-to-Speech Synthesis Using Diphones," European Conf. On Speech Communication and Technology, pp.13-19, Paris, 1989.

[4] J. D. Markel, "The SIFT Algorithm for Fundamental Frequency Estimation,"

IEEE Trans. On Audio and Electroacoustics. Vol.20, pp.367-377, Dec.1972

[5] Kåre Sjölander and Jonas Beskow, "Wavesurfer –An open source speech tool,"

ICSLP 2000.

[6] L.R. Rabiner, "On the use of Autocorrelation Analysis for Pitch Detection,"

IEEE Trans. on Acoustic, Speech and Signal Processing, Vol.Assp-25, pp.24-33,

Feb. 1977

[7] S.H. Hwang, S.H. Chen, and Y.R. Wang, "A Mandarin Text-to-Speech system,"

in Proc. ICSLP-96, pp.1421-1424, Oct.1996.

[8] Stylianou, Y. "Removing linear phase mismatches in concatenative speech synthesis" IEEE Trans. on Speech and Audio Processing, Volume9 , Issue 3 , March 2001 Pages:232 – 239

[9] V. Kraft, "Does the Resulting Speech Quality Improvement Make a Sophisticated Concatenation of Time-Domain Synthesis Units Worthewhile?"

Proceedings of the Second ESCA/IEEE Workshop on Speech Synthesis, New

Paltz, NY, pp65-68.

[10] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing, Prentice-Hall, Inc.

[11] 江振宇， "中文斷詞器之改進"，國立交通大學碩士論文，民國九十三年六月。

[12] 魯弘茂，"中文語音合成技術之實作與分析"，國立交通大學碩士論文，民國九十一年六月。

[13] 盧鵬任，"中文文句翻語音系統之改進"，國立交通大學碩士論文，民國八十六年六月。

[14] 陳鳳儀,蔡碧芳,陳克健, 黃居仁，"中文句結構樹資料庫 (Sinica Treebank) 的構建"，中央研究院資訊所、中央研究院語言所。

附錄一

音節注音聲母韻母

音節注音聲母韻母 400 ㄑㄩㄣ 14 36 401 ㄒㄩㄣ 15 36 402 ㄌㄩㄣ 9 36 403 ㄩㄥ 1 37 404 ㄐㄩㄥ 13 37 405 ㄑㄩㄥ 14 37 406 ㄒㄩㄥ 15 37 407 ㄦ 1 38 408 ㄧㄛ 1 39 409 ㄥ 1 13 410 ㄟ 1 7 411 ㄇㄜ 4 4

在文檔中中文TTS系統語音合成之改進 (頁 47-0)

第三章 語音合成技術實作與改進