第七章 結論與未來展望
7.2 未來展望
由於我們使用的音檔裡有蠻嚴重的串音存在,因此,若將來能夠在建構聲學模型時決解 串音的問題,勢必可以大幅度的提升系統的辨識率。
此外,針對使用 KPCA 將音節訊號變異現象做分類的部分,我們未來可以改進的地方,有 下列幾點以供參考:
1. 分類之類別邊界 2. 分類之類別數設定
3. 發現更多基礎向量之聲學特徵(例如:語者說話速度、音長、聲調…等)。
參考文獻
[1] B.H. Juang and S. Furui, Automatic recognition and understanding of spoken language–A first step towards natural human machine communication ,Proc.IEEE,88,8, pages 1142-1165, 2000.
[2] Rabiner, L.R. and Juang, B.H.,Fundamentals of speech Recognition, New Jersey, Prentice-Hall,Inc.,1993.
[3] 曾淑娟、劉怡芬.現代漢語口語對話語料庫標註系統說明, 中文詞知識庫小組.民國九十 一年一月.
[4] S.Young, G. Evermann, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D.
Povey, V. Valtchev, P. Woodland, The HTK Book(for HTK Version 3.2.1), 2002.
[5] S.Young. Large Vocabulary Continuous Speech Recognition:a Review. IEEE Workshop on Automatic Speech Recognition, 1996.
[6] S. Young, and P. Woodland. State clustering in HMM-based continuous speech recognition, Computer Speech and Language, vol.8,no.4, pages 369-384, 1994.
[7] 林政賢, 以可靠度量測引導之通道效應及頻寬不匹配補償於牆漸行語音辨認, 國立台 北科技大學電腦通訊與控制研究所, 民國九十二年六月.
[8] Lawrence Rabiner and Biing-Hwang Juang. Fundamentals of Speech Recognition, Prentice Halll International, pages 324-325, 1993.
[9] Shu-Chuan Tseng. Feature of Contraction Syllable of Spontaneous Mandarin, EUROSPEECH 2003, pages77-80, 2003.
[10] Mirjam Wester and Eric Fosler-Lussier. A Comparison of Data-Driven and Knowledge-Based Modeling of Pronunciation Variation, ICSLP '00, volume I, pages 270-273, Beijing, 2000.
[11] Yi Liu and Pascale Fung. Pronunciation Modeling for Spontaneous Mandarin Speech Recognition,INTERNATIONAL JOURNAL OF SPEECH TECHNOLOGY 7, pages155–172, 2004.
[12] Bernhard Schölkopf and Alexander Smola. Nonlinear Component Analysis as Kernel
Eigenvalue Problem, MIT Press,pages 1299-1319, 1998
[13] Mei-Yuh Huang,Xue-Dong Huang. Dynamically Configurable Acoustic Models for Speech Recognition, ISCAP 1998, Vol. 2.
附錄一
編號 mcdc 對話編號 mcdc 子音檔編號範圍 語者編號 聲道(L/R) sample rate MCDC-01 MCDC-01-01~20 MISC-08-male-25 *R 44.1kHz 1
MCDC-01 MCDC-01-01~20 MISC-07-female-29 L 44.1kHz MCDC-02 MCDC-02-01~22 MISC-10-male-35 R 44.1kHz 2
MCDC-02 MCDC-02-01~22 MISC-09-female-37 *L 44.1kHz MCDC-03 MCDC-03-01~21 MISC-12-female-17 R 44.1kHz 3
MCDC-03 MCDC-03-01~21 MISC-11-female-16 *L 44.1kHz MCDC-05 MCDC-05-01~20 MISC-15-male-40 L 44.1kHz 4
MCDC-05 MCDC-05-01~20 MISC-16-female-46 *R 44.1kHz MCDC-09 MCDC-09-01~21 MISC-23-female-30 R 44.1kHz 5
MCDC-09 MCDC-09-01~21 MISC-24-female-35 *L 44.1kHz MCDC-10 MCDC-10-01~18 MISC-26-male-23 *R 44.1kHz 6
MCDC-10 MCDC-10-01~18 MISC-25-male-35 L 44.1kHz MCDC-25 MCDC-25-01~19 MISC-57-male-43 L 44.1kHz 7
MCDC-25 MCDC-25-01~19 MISC-58-female-45 *R 44.1kHz MCDC-26 MCDC-26-01~16 MISC-60-male-24 *R 44.1kHz 8
MCDC-26 MCDC-26-01~16 MISC-59-female-37 L 44.1kHz
備註:*代表該音檔首位發音者所使用的聲道(Left/Right)。
附錄二
1
22))..語語音音更更正正
z 非語非語音音部部份份口口語語標標註註(N(Noonn--SSppeeeecchh SSoouunnddss)) 1
1.. 人聲人聲((hhuummaann vvooiiccee)) 笑
笑聲聲、、咳咳嗽嗽聲聲、、吐吐氣氣聲聲………….... 1
1))..伴伴隨隨語語言言內內容容之之人人聲聲 標記實例:
我我覺覺得得今今天天我我少少一一點點花花個個三三百百塊塊跟跟直直接接投投資資三三萬萬塊塊這這<<bb llaauugghh >>AA<<//bb llaauugghh >>
2
2))..無無伴伴隨隨語語言言內內容容之之人人聲聲 標記實例:
大概大概是是我我們們的的運運氣氣不不好好<<bb llaauugghh >>@@<<//bb llaauugghh >>
2
2.. 非人非人聲聲((nnoonn hhuummaann ssoouunndd)) 1
1))..室室內內雜雜音音((nnooiissee iinn rroooomm)) aa))..伴伴隨隨語語言言內內容容之之非非人人聲聲 標記實例:
<<bb nnooiissee iinn rroooomm >>像像我我工工作作就就是是在在那那邊邊去去看看的的 <<//bb nnooiissee iinn rroooomm >>((下下雨雨聲聲)) b
b))..無無伴伴隨隨語語內內容容之之非非人人聲聲 標記實例:
<<bb nnooiissee iinn rroooomm>>@@<<//bb nnooiissee iinn rroooomm>>NNHHNN z 同一同一輪輪標標記記(s(saammee ooff tthhee ttuurrn)n)
標記實例:
…………....看看法法<<bb sshhoorrtt bbrreeaakk>>@@<<//bb sshhoorrtt bbrreeaakk>>像像<<bb ppaauussee>>@@<<//bb ppaauussee>>((mmccddcc--0011--0099..wwaavv))
>
><<bb sysyllllaabbllee coconnttrraaccttiioonn>>像像我我<<//bb ssyyllllaabbllee coconnttrraaccttiioonn>>自自己己有有玩玩...((mmccddcc--0011--1100..wwaavv))
附錄三
Hinit & Hrest Alogrithm
附錄四
母音編號 母音符號(40 類) 注音 母音編號 母音符號(40 類) 注音
附錄五
General Questions (phones in extended SAMPA notations)
Feature phones
Vowel Questions (phones in extended SAMPA notations)
Feature phones