第六章 結論與未來展望
6.2 未來展望
由於中英夾雜語料量的不足,使得韻律模型在標記韻律狀態的能力較差,若是能透過增 加語料量,或是利用中文語料庫來調適此模型,相信可以建立更強健的韻律模型,使得模型 訓練後的 TRE 值降得更低,並進一步應用在韻律參數預估時,提高音節基頻的預估能力。
本研究在預估停頓標記與韻律參數時,目前並沒有引入大韻律單元內停頓標記間的相對 關係,未來希望能將此部份量化成具有相對物理意義的數學式,相信此作法可以再提升停頓 標記與韻律參數的預估能力。而目前已完成英文字母之中英夾雜語音合成系統,希望在未來 日子裡能再完成逐音標發音之中英夾雜語音合成系統。
參考文獻
【1】 F. Deprez, J. Odijk, and J. D. Moortel, “Introduction to Multilingual Corpus-based Concatenative Speech Synthesis,” Proc. of Interspeech, pp.2129-2132, August 2007.
【2】 M. Chu, H. Peng, Y. Zhao, Z. Y. Niu, and E. Chang, “Microsoft Mulan - A Bilingual TTS System, ” Proc. of ICASSP, vol.1, pp.264-267, 2003.
【3】 A. W. Black, and K. A. Lenzo, “Multilingual Text-to-Speech Synthesis,” Proc. of
ICASSP, vol.3, pp.761-764, 2004.
【4】 Wei-Chih Kuo, Yih-Ru Wang, Hung-Mao Lu, and Sin-Horng Chen, “An NN-based Approach to Prosody Generation for English Word Spelling in English-Chinese Bilingual TTS, ” in Eurospeech-2003, 3109-3112
【5】 Sin-Horng Chen, Shaw-Hwa Hwang, and Yih-Ru Wang, “An RNN-Based Prosodic Information Synthesizer for Mandarin Text-to-Speech,” IEEE Trans. Speech Audio Processing, vol.6, no.3, pp.226-239,1998.
【6】 Yi Zhang, Jianhua Tao, “Prosody Modification on Mixed-Language Speech Synthesis, ” Chinese Spoken Language Processing, 2008 ISCSLP
【7】 Hui Liang, Yao Qian, Frank K. Soong, Gongshen Liu, “A Cross-Language State Mapping Approch to Bilingual (Mandarin-English) TTS,” ICASSP 2008
【8】 T. A. Myrvoll, and F. K. Soong, “Optimal Clustering of Multivariate Normal Distributions Using Divergence and Its Application to HMM Adaptation,” Proc. of ICASSP, vol.1,pp.552-555, April 2003.
【9】 Y. Zhao, C. Zhang, F. K. Soong, M. Chu, and X. Xiao, “Measuring Attribute Dissimilarity with HMM KL-Divergence for Speech Synthesis, ” Proc. of the 6th ISCA
九十八年三月
【11】 S. Imai, “Cepstral analysis synthesis on the mel frequency scale,” Proc. of ICASSP, pp.93–96, Feb. 1983.
【12】 Young, S. J., Evermann, G., Gales, M. J. F., Hain, T., Kershaw, D., Moore, G., Odell, J., Ollason, D., Povey, D., Valtchev, V., Woodland, P. C., The HTK Book, version 3.4.
Cambridge University Engineering Department, Cambridge, UK. 2006.
【13】 K. Sjlander and J. Beskow, “Wavesurfer - an open source speech tool,” in Proceeding of
the ICSLP 2000, Vol. 4, pp. 464-467.
【14】 S.H. Chen and Y.R. Wang, “Vector Quantization of Pitch Information in Mandarin Speech”, IEEE Transactions on Communications, Vol. 38, No. 9, pp. 1317-1320, 1990.
【15】 T. Yoshimura, T. Masuko, K. Tokuda, T. Kobayashi, T. Kitamura, “Speaker interpolation for HMM-based speech synthesis system,” J. Acoust. Soc. Jpn. (E), vol.21, no.4,
pp.199-206, 2000
【16】 M. Tamura, T. Masuko, K. Tokuda, T. Kobayashi, “Adaptation of pitch and spectrum for HMM-based speech synthesis using MLLR,” Proc of ICASSP, pp.805-808, May 2001
【17】 Zen, H., Nose, T., Yamagishi, J., Sako, S. and Tokuda, K., The HMM-based Speech System(HTS) Version 2.1,2007,http://hts.sp.nitech.ac.jp/
【18】 T. Yoshimura, “Simulations Modeling of Phonetic and Prosodic Parameters, and Characteristic Conversion for HMM-based Text-to-Speech Systems,” Department of Electrical and Computer Engineering Nagoya Institute of Technology, 2002
【19】 Z. Sheng, J.-H. Tao, and D.-L. Jiang, “Chinese prosodic phrasing with extended features,” Proceedings of the IEEE ICASSP ,Vol. 1, pp. 492–495. 2003
【20】 C.-Y. Tseng, S.-H. Pin, Y.-L. Lee, H.-M. Wang, and Y.-C. Chen, “Fluent speech prosody: Framework and modeling,”Speech Commun. special issue on quantitative prosody modeling for natural speech description and generation, 46, 284–309 (2005).
【21】 Keiichi Tokuda, Takayoshi Yoshimura, Takashi Masuko, Takao Kobayashi ,and Tadashi
Kitamura , “Speech parameter generation algorithms for HMM-Based speech synthesis” Proc.
of ICASSP, pp.1315-1318, June 2000
【22】 吳仲耘,“應用韻律階層及動態參數之音高預測在基於HMM之中文語音合成器”,
國立成功大學碩士論文,民國九十七年七月。
附錄一
問題集 1與問題集2分別為連音參數(Forward,Backward)兩顆決策樹之問題集。
1設計概念是以兩大分類方式:
(1):相似聲調的合併,又分(a)當前音節的合併與(b)前一個音節基頻結尾高度相似的合併 (a)當前音節的合併:{tone1}、{E-t1}、{tone1,E-t1}、{tone2}、{E-t2}、{tone2,E-t2}、
{tone3}、{tone4}、{Mf}、{tone4,Mf}、{tone5}
(b)前一個音節的合併:{tone1,E-t1}、{tone2,E-t2}、{tone3, tone5}、{tone4,Mf} 其中 E-t1,E-t2 分別為 Tone 1 Borrowing 和 Tone 2 Borrowing 之英文字母
(2):依停頓標記強度合併,共分成{B0}、{B0,B1}、{B0,B1,B2-1}、{B0,B1,B2-1,B2-3}、
{B2-2},{B2-2,B3,B4},{B-stat}。
透過此方式可設計出 275 個有關於 Forward Coarticulation 之問題集,以下列舉部分問題集:
Q:Pre-t1,E-t1 接(B0,B1,B2-1,B2-3)接 t1,E-t1 Q:Pre-t1,E-t1 接(B0)接 E-t1
Q:Pre-t2,E-t2 接(B0,B1)接 t4,Mf Q:Pre-t2E-t2 接(B0,B1,B2-1)接 t3 Q:Pre-t2,E-t2 接(B3,B4,B2-2)接 t1,E-t1 Q:Pre-t3,t5 接(B0,B1)接 t1,E-t1
Q:Pre-t3,t5 接(B3,B4,B2-2)接 E-t1 Q:Pre-t3,t5 接(B0,B1,B2-1,B2-3)接 E-t2 Q:Pre-t4, Mf接(B0,B1,B2-1,B2-3)接 t3 Q:Pre-t4, Mf接(B0,B1)接 Mf
Q:Pre-t4, Mf接(B0,B1,B2-1,B2-3)接 t5
2設計概念則是和1雷同,一樣分成兩大類:
(1):相似聲調的合併,又分(a)當前音節的合併與(b)下一個音節基頻貣始高度相似的合併 (a)當前音節的合併:{tone1}、{E-t1}、{tone1,E-t1}、{tone2}、{E-t2}、{tone2,E-t2}、
{tone3}、{tone4}、{Mf}、{tone4,Mf}、{tone5}
(b)前一個音節的合併:{tone1,tone4,E-t1, Mf }、{tone2, tone3,tone5,E-t2,WZ}
(2):依停頓標記強度合併,共分成{B0}、{B0,B1}、{B0,B1,B2-1}、{B0,B1,B2-1,B2-3}、
{B2-2},{B2-2,B3,B4},{B-end}。
其中 tone 3 接 fol-tone3 則是獨立考慮。
透過此方式可設計出 152 個有關於 Backward Coarticulation 之問題集,以下列舉部分問題集:
Q:t1,E-t1 接(B0,B1,B2-1,B2-3)接 fol-t1,t4,E-t1,Mf Q:E-t2 接(B0,B1)接 fol-t1,t4,E-t1,Mf
Q:Mf 接(B3,B4,B2-2) 接 fol-t2,t3,t5,E-t2,Z,W Q:t3 接(B0,B1) 接 fol-t3
Q:E-t2 接(B0,B1,B2-1)接 fol-t2,t3,t5,E-t2,Z,W Q:E-t2 接(B3,B4,B2-2) 接 fol-t2,t3,t5,E-t2,Z,W' Q:t3 接(B0,B1,B2-1,B2-3)接 fol-t3
Q:t4, Mf 接(B0,B1,B2-1,B2-3)接 fol-t2,t3,t5,E-t2,Z,W Q:Mf 接(B0,B1) 接 fol-t2,t3,t5,E-t2,Z,W
Q:t5 接(B0,B1,B2-1) 接 fol-t1,t4,E-t1, Mf Q:E-t1 接(B0,B1) 接 fol-t2,t3,t5,E-t2,Z,W
Q:t1,E-t1 接(B3,B4,B2-2) 接 fol-t2,t3,t5,E-t2,Z,W Q:E-t2 接(B2-2)接 fol-t2,t3,t5,E-t2,Z,W
Q:t4, Mf接(B0) 接 fol-t1,t4,E-t1, Mf Q:t3 接(B3,B4,B2-2) 接 fol-t3
附錄二
Q : Is the initial of the following syllable a null one?
31.3
Q : Is the initial of the following syllable in {ts, ch, chi}?
31.7
Q : Is the initial of the following syllable in {tz, j, ji}?
31.8
Q : Is the initial of the following syllable in {p, t, k}?
31.9
Q Is the initial of the following syllable a null one{A,E,I,O,R,U,V,Y,F,H,S,X,L,M,N }?
31.10
Q : Is the initial of the following syllable in {B, D, W}?
31.11
Q : Is the initial of the following syllable in {C}?
31.12
Q : Is the initial of the following syllable in {G,J,Z}?
31.13
Q : Is the initial of the following syllable in {P, T, K, Q}?
31.14
Q Is the initial of the following syllable a null one or in {m, n, l, r, M,N A,E,I,O,R,U,V,Y,F,H,S,X,L }?
31.15
31.19
Q : Is the inter-syllable location an inter-word?
: Is the inter-syllable location a Type-1 intra-word?
31.20
Q : Is the inter-syllable location a Type-2 intra-word?
31.21
Q 是否出現在 code switch 處?
31.22
Q code switch,中文+英文,且為 Inter-word (C-E-Inter)?
31.23
Q code switch, 英文+中文,且為 Inter-word (E-C-Inter)?
31.24
Q code switch, {中文+英文, 英文+中文},且為 Inter-word (C-E-Inter, E-C-Inter)?
31.25
Q code switch, 中文+英文,且為 Type1 Intra-word (C-E-Intra1)?
31.26
Q code switch,英文+中文,且為 Type1 Intra-word (E-C-Intra1)?
31.27
Q code switch, {中文+英文, 英文+中文},且為 Type1 Intra-word (C-E-Intra1, E-C-Intra1)?
31.28
Q code switch,中文+英文,且為 Type2 Intra-word (C-E-Intra2)?
31.29
Q code switch,英文+中文,且為 Type2 Intra-word (E-C-Intra2)?
31.30
Q code switch,{中文+英文, 英文+中文},且為 Type2 Intra-word (C-E-Intra2, E-C-Intra2)?
31.31
Q Non code switch,中文+中文, 且為 Inter-word (C-C-Inter)?
31.32
Q Non code switch,英文+英文, 且為 Inter-word(E-E-Inter)?
31.33
Q Non code switch,{中文+中文, 英文+英文},且為 Inter-word (C-C-Inter, E-E-Inter)?
31.34
Q Non code switch, 中文+中文,且為 Type1 Intra-word (C-C-Intra1)?
31.35
Q Non code switch,英文+英文,且為 Type1 Intra-word (E-E-Intra1)?
31.36
Q Non code switch,{ 中 文 + 中 文 , 英 文 + 英 文 } , 且 為 Type1 Intra-word
31.37
Q Non code switch,中文+中文,且為 Type2 Intra-word (C-C-Intra2)?
31.38
Q Non code switch,英文+英文,且為 Type2 Intra-word (E-E-Intra2)?
31.39
Q Non code switch,{ 中 文 + 中 文 , 英 文 + 英 文 } , 且 為 Type2 Intra-word (C-C-Intra2, E-E-Intra2)?
2. Word Level
All the following questions are subject to a prerequisite condition that the current inter-syllable location is an inter-word.
2.1 PM
In the following questions, we define major PMs ={“。”, “!”, “;”, “?”} and minor PMs={“,”, “、”,
“:”, ”-” , ”」”, ”「”}.
32.1.1
Q : Does a PMs exist at the inter-syllable location?
32.1.2
Q : Does a major PM exist at the inter-syllable location?
32.1.3
Q : Does a minor PM exist at the inter-syllable location?
32.1.4
Q : Does a comma exist at the inter-syllable location?
32.1.5
Q : Does a period exist at the inter-syllable location?
32.1.6
Q : Does an exclamation exist at the inter-syllable location?
32.1.7
Q : Does a semi colon exist at the inter-syllable location?
32.1.8
Q : Does a question mark exist at the inter-syllable location?
32.1.9
Q : Does a dot exist at the inter-syllable location?
32.1.10
Q : Does colon exist at the inter-syllable location?
32.1.11
Q : Does a hyphen exist at the inter-syllable location?
32.1.12
Q : Does a parenthesis exist at the inter-syllable location?
32.1.13
Q : Does a dot or colon exist at the inter-syllable location?
2.2 Word length
Q : Is the length of the preceding word in syllable greater than 4?
32.2.10
Q : Is the length of the following word in syllable greater than 4?
2.3 Substantive/function words
32.3.1~ 2
Q : Is the preceding word a substantive word/function words?
32.3.3 ~ 4
Q : Is the following word a substantive word/function words?
2.4 Level-1 POS and special tags
32.4.1~11
Q : Is the POS of the preceding word A/C/D/N/I/P/T/V/DE/SHI/DM?
32.4.12 ~ 22
Q : IS the POS of the following word A/C/D/N/I/P/T/V/DE/SHI/DM?
2.5 Level-2 POS
Q :Is the POS of the preceding word Caa/Cab/Cba/Cbb/Dfa/Dfb/Ncd/Neu/Nes/Nep /Neq/VA2/VC1/VH16/VH22?
/Nep/Neq/VA2/VC1/VH16/VH22?
2.7 Combination of POS
32.7.1~ 7
Q : Does the POS of the preceding word belong to {Da, Db, Dc, Dd, Dg, Dh, Di, Dj, Dk}/{Na, Nb, Nc}/{Ncd, Ng}/{I, T}/{VA, VG}/{VB, VC, VD, VE, VF, VJ, VK, VL}/{VH, VI}?
32.7.8 ~14
Q : Does the POS of the following word belong to {Da, Db, Dc, Dd, Dg, Dh, Di, Dj, Dk}/{Na, Nb, Nc}/{Ncd, Ng}/{I, T}/{VA, VG}/{VB, VC, VD, VE, VF, VJ, VK, VL}/{VH, VI}?
附錄三
(1) Th1、Th2 和 Th3 的定義
Th1、Th2 和 Th3 是分別用來界定 B4、B3、B2-2 和 B0/B1 停頓時長的 threshold。由於 B4 和 B3 長長是標點符號的邊界,有較長的停頓時長,因此可將此類型音節邊節的停頓時長 收集貣來,以 vector quantization(VQ)分成兩類,用 Gamma distribution 去 fitting,令 mean 比較大的一群為 B4 之機率分佈
f
B4( pd )
,另一個則為 B3 之機率分佈f
B3( Pd )
。另外由於 B0 和 B1 的停頓時長通常都比較短,因此將 intra-word 音節邊界的停頓時長收集貣來,用 Gamma distribution 去 fitting,得到機率分佈f
B0/ 1B( pd )
。最後將屬於非標點符號之 inter-word 邊界的停頓時長收集貣來,一樣使用 Gamma distribution 去 fitting,得到 B2-2 的機率分佈2 2
( )
但是 B2-1 有明顯的音高重置,因此定義 normalized log-F0 level jump 如下式:
1 1
B2-1( )
f
,最後令 Th5 為 fintra( ) 和f
B2-1( )
的交叉點。(3) Th4 和 Th6 的定義
在這個部分要從 B0/B1 這類資料再細分出 B0 和 B1,然而我們知道由於 B0 音節邊界屬 於 tightly coupling,其連音情形比 B1 嚴重,導致音高停頓(pitch pause)比較短且 engery-dip 也比較大,因此我們用 Th4 作為 F0 pause duration threshold,Th6 作為 engery-dip level threshold,達到區分 B0 和 B1 的目的。令 Th4 為 1 個 frame 長(=10ms),意即被歸類為 B0 的音高停頓長度為零,接著將剩餘未分類的資料用 VQ 將其 engery-dip 分為兩類,用高斯分 佈去 fitting 其 engery-dip,令 mean 比較大的那群為 B0,engery-dip 機率分佈為
f
B0(Pe ,而
) mean 較小的那群為 B1,ngery-dip 機率分佈為f
B1(Pe ,則 Th6 即為這兩個高斯機率分佈
)B0( )
f Pe 和 f
B1(Pe 的交叉點。
) (4) Th7 和 Th8 的定義Th7 和 Th8 是用來區分 B2-3 和 B0/B1,我們已知 B2-3 為 inter-word 音節邊界,有相對
明顯的音節長度拉長效應,因此判斷是否屬於 B2-3 的依據在於正規化的音節長度拉長因子 1 和 2(即dln和dfn)是否大於 Th7 和 Th8。首先將 intra-word 和標點符號音節邊界之邊界參數 的 正 規 化 音 節 長 度 拉 長 因 子 收 集 貣 來 用 高 斯 分 佈 fitting , 分 別 得 到 四 個 高 斯 分 佈{ fintradl ( ) / fintradf ( ) }和{ fPMdl ( ) / fPMdf ( ) },接著針對符合非標點符號、inter-word 且有明顯音節
拉長效應的音節邊界,將其正規化的音節長度因子 1 和 2 的資料收集貣來分類成 B2-3,用 高斯分佈去 fitting 而得到{fB2-3dl ( ) / fB2-3df ( ) },然而為了避免所收集到的資料其正規化音節長 度拉長因子與 intra-word 音節邊界的情形相似,因此再增加了一個條件:
PMdl ( ) intradl ( )
f f 和 fPMdf ( ) fintradf ( ) ,藉此條件將非標點符號且為 inter-word,但不與 B2-3 音
節邊界特性相似的資料過濾掉。最後,令 Th7 為fintradl ( ) 和 fB2-3dl ( ) 的交叉點;令 Th8 為 fintradf ( ) 和 fB2-3df ( ) 的交叉點。