未來展望

第五章結論與未來展望

5.2 未來展望

如今，語音辨認技術已向跨語言的方向進展，相同地，語音合成也邁向多語言的研究領域[18,19]。本實驗室近年來致力於國語、閩南語、客家話三種語言的辨認與合成，三方面皆有所斬獲，但尚未發展出一套與語言無關之合成技術，將來寄望能整合三方面的技術，形成一套多語言的合成系統。另一方面，現今的語音系統尚無公正客觀的效能評估方式，多半採用平均鑑定分數(Mean Opinion Score, MOS)或者其他以聽者反應為依據的評斷方式。然而此些方式不但費時費力，且標準不一，難以在不同合成系統間比較。為了明確瞭解不同作法對於合成系統效能帶來的影響，一套制式而客觀的評估方式將會對研究語音合成有所助益。

參考文獻

【1】吳佩穎，“以語料庫為基礎之中文文句翻語音系統中合成單元之選取”，國立交通大學碩士論文，民國九十四年七月。

【2】 Chou, F. C., C. Y. Tseng, and L. S. Lee, “A Set of Corpus-Based Tex-to-Speech Synthesis Technologies for Mandarin Chinese” in Pro. ICASSP, Vol. 10, pp.481-494, 2002.

【3】陳鳳儀，蔡碧芳，陳克健，黃居仁，“中文句結構樹資料庫(Sinica Treebank) 的構建”，中央研究院資訊所、中央研究院研究所。

【4】 The HTK Book (for HTK Version 3.2.1)

【5】林立峰，“中文 TTS 系統與音合成之改進”，國立交通大學碩士論文，民國九十三年六月。

【6】 Wavesufer Homepage : http://www.speech.kth.se/wavesurfer/

【7】 Chen, S.H., S.H. Hwang and Y. R. Wang, "An RNN-based prosodic information Synthesizer for Mandarin text-to-speech", IEEE Trans. On Speech and Audio Processing, Vol. 6, NO. 3, pp.226-239, 1998.

【8】 S.H. Hwang, S.H. Chen, and Y.R. Wang, "A Mandarin Text-to-Speech system", in Proc. ICSLP-96, pp.1421-1424, Oct.1996.

【9】江振宇，“中文斷詞器之改進”，國立交通大學碩士論文，民國九十三年七月。

【10】黃紹華，“中文文句翻語音系統中韻律訊息產生器之研究”，國立交通大學博士論文，民國八十五年六月。

【11】Jian Yu, Jianhua Tao and Xia Wang, "Pitch Prediction for Mandarin TTS with Mutual Prosodic Constraint", ISCSLP, 2006.

【12】Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken language processing:

a guide to theory, algorithm, and system development”.

【13】Blouin C., Rosec O., Bagshaw P., D'Alessandro C., "Concatenation cost calculation and optimisation for unit selection in TTS", IEEE 2002 Workshop on Speech Synthesis. Santa Monica, USA, September 11-13, 2002.

【14】Erdem, C.; Beck, F.; Hirschfeld, D.; Hoege, H.; Hoffman R., 2002c. Robust unit selection based on syllable prosody parameters. IEEE 2002 Workshop on Speech Synthesis. Santa Monica, California USA.

【15】Chu, M., Peng, H., Yang, H. and Chang, E., “Selecting non-uniform units from a very large corpus for concatenative speech synthesizer”, In Proceedings of ICASSP, Salt Lake City. 2001.

【16】Alfas, F., Llora, X., Formiga, L., Sastry, K., Goldberg, DE, "EFFICIENT INTERACTIVE WEIGHT TUNING FOR TTS SYNTHESIS: REDUCING USER FATIGUE BY IMPROVING USER CONSISTENCY", 2006 ICASSP International Conference on Acoustics, Speech and Signal Processing (ICASSP06), vol. I, pp. 865-868, Maig, Toulouse (Franca).

【17】H. Peng, Y. Zhao, and M. Chu, “Perpetually optimizing the cost function for unit selection in a TTS system with one single run of MOS evaluation”, in Proc. ICSLP, (Denver, USA), 2002.

【18】R. Hoffmann et al., "A multilingual TTS system with less than 1 MByte footprint for embedded applications", Proc. ICASSP, Hong Kong, 2003.

【19】Nakamura, S. et al., "The ATR Multilingual Speech-to-Speech Translation System", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 14, NO. 2, MARCH 2006.

附錄一國語411基本音節總音表

37 ㄗㄜ ze 6 4

80 ㄔㄠ chao 3 2

123 ㄎㄢ kan 10 2

166 ㄇㄤ mang 21 2

209 ㄊㄨ tu 16 6

252 ㄑㄧㄡ qiu 13 5

295 ㄨㄚ wa 1 6

338 ㄓㄨㄢ zhuan 2 6

381 ㄎㄨㄥ kong 10 6

附錄二 Treebank 語料庫統計數據

各項數據列表：

項目個數

中文文句結構樹 11,109 棵

（原始）詞 69,062 個

中文字（音節） 123,128 字，3,137 種類短文 1,433 篇

音調音節 1,068 種類(82.15%)

錄音設備與錄音環境：

錄音軟體 Cool Edit Pro 直接錄成聲音檔案麥克風單一指向性 (uni-directional)

錄音場所普通房間

錄音情境依照所選出文稿唸出

取樣頻率(sampling rate) 20 kHz

發音速度每秒約4.6 個音節取樣大小 16 bits (位元)

聲道單聲道(mono)

檔案格式 Pcm

能量（句平均）平均60.81dB，最小 52.18dB，最大 66.48dB

附錄三詞綴清單與統計數據

原 9

表 C.2 後詞綴清單

波 7

開 1

附錄四音節相關前後文變數向量分類方式

子音類型編號11

詞首（Initial）

詞中（Middle）

詞尾（Final）

單字詞（Mono）

附錄五中文姓氏清單與統計數據

胡 6

附錄六挑選單元中各變數之統計數據

在此附錄中列舉在4.1.1 節中所提到之以測試資料統計的各變數資料。這些變數分別是d_{pitch mean}^j _{_} 、d_duration^j 、d_power^j 及d_contextual^j ，其符號及定義同於第三章。

變數d_{pitch mean}^j _{_} 的統計數據：

0.41, 0.90579

Pitch Mean Difference F(x)

圖 4-1-1：The cumulative distribution function of Pitch-Mean Difference

變數d_duration^j 的統計數據：

0.63, 0.907898

Duration Difference F(x)

圖 F.1: The cumulative distribution function of Duration Difference

變數d_power^j 的統計數據：

0.17, 0.924342

Power Difference F(x)

圖 F.2: The cumulative distribution function of Power Difference

變數d_contextual^j 的統計數據：

1.015, 0.938703

Contextual Difference F(x)

圖 F.3: The cumulative distribution function of Contextual Difference

在文檔中以語料庫為基礎之中文文句翻語音系統實現 (頁 76-100)

第五章 結論與未來展望

5.2 未來展望

參考文獻

附錄一 國語411基本音節總音表

附錄二 Treebank 語料庫統計數據

附錄三 詞綴清單與統計數據

附錄四 音節相關前後文變數向量分類方式

附錄五 中文姓氏清單與統計數據

附錄六 挑選單元中各變數之統計數據