第五章 系統應用:手持式設備的語音辨識系統
6.2 未來研究方向
由本論文中的研究和實驗之後,我們發現有數個主題是我們未來希望可以繼 續研究的重點,在此說明如下。
本論文提出的方法使用了貝氏資訊基準(Bayesian Information Criterion)來作 為自動判斷的標準,未來希望可以使用不同種類之基準來作為判斷的標準,也許 可以找出比貝氏資訊基準更適用於語音辨識模型參數的基準,
另由實驗過程中我們了解到語料資料庫之重要性,在訓練隱藏式馬可夫模型 以及作語者調適和測試時,都需要大規模,有系統的語料資料。對於本論文用來 訓練及測試的語料資料庫,其語料來源和環境較為單一,未來希望可以使用其他 不同資料庫之語料,以訓練出更一般化的語者不特定模型和進行更廣泛語者的測 試。
參考文獻
【1】 Eric Chang, Frank Seide, Helen M. Meng, Zhuoran Chen, Yu Shi and Yuk-Chi Li, “A System for Spoken Query Information Retrieval on Mobile Devices”, IEEE Trans. On Speech and Audio Processing, Vol. 10, No.8, November 2002
【2】 Chin-Hui Lee and Biing-Hwang Juang, “A Survey on Automatic Speech Recognition with an Illustrative Example on Continuous Speech Recognition of Mandarin”, Computational Linguistics and Chinese Language Processing, Vol.1, No.1, August 1996
【3】 A. Acero and X. Huang, “Speaker and Gender Normalization for Continuous-Density Hidden Markov Models”, Proc. ICASSP, Vol. 1, pp342-345, Atlanta, GA, USA, 1996
【4】 D. Giuliani, M. Gerosa and F. Brugnara, “Speaker Normalization through Constrained MLLR Based Transforms”, ICSLP, 2004
【5】 Jean-Luc Gauvain and Chin-Hui Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”, IEEE Trans. On Speech and Audio Processing, Vol.2, No. 2, April 1994
【6】 R. Chengalvarayan and Li Deng, “A Maximum A Posteriori Approach to Speaker Adaptation using the Trended Hidden Markov Model”, IEEE Trans. On Speech and Audio Processing, Vol. 9, No. 5, July 2001
【7】 C.J. Leggetter and P.C. Woodland, “Maximum Likelihood Linear
Regression for Speaker Adaptation of Continuous Density HMMs”, Computer Speech
and Language, Vol 9, pp171-185, 1995
【8】 C.J. Leggetter and P.C. Woodland, “Flexible Speaker Adaptation using Maximum Likelihood Linear Regression”, Proc. ARPA Spoken Language Technology Workshop, 1995
【9】 Heidi Christensen, “Speaker Adaptation of Hidden Markov Models using Maximum Likelihood Linear Regression”, Thesis of Aalborg University Denmark, 1996
【10】 R. Kuhn, et al, “EigenVoices for Speaker Adaptation”, Proc. ICSLP, Sydney, Australia, November, 1998
【11】 Robert Westwood, Speaker Adaptation Using Eigenvoices, Cambridge University England, 1999
【12】 Xuedong Huang, Alex Acero and Hsiao-Wuen Hon, Spoken Language Processing, Prentice Hall, 2001
【13】 王小川, 語音訊號處理, 全華科技圖書, 2004
【14】 Xuedong Huang, ”A Study on Speaker-Adaptive Speech Recognition”, DARPA Speech and Language Workshop, 1991.
【15】 曹昱, 「國語音節及聲調辨識之少量語料語者調適」, 國立台灣大學, 電 信工程系碩士論文, 2001
【16】 M.J.F. Gales and P.C. Woodland, “Mean and Variance Adaptation within the MLLR Framework”, Computer Speech & Language, Vol. 10, pp249-264, 1996
【17】 Jeff. Bilmes, “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Midden Markov Models”, Technical
Report ICSI-TR-97-021, International Computer Science Institute, University of Berkeley, 1998
【18】 周樂生, 「以最大似然機率線性回歸法建立線上層級體系語者調適語音 辨認」, 國立交通大學, 電信工程系碩士論文, 2001
【19】 M.J.F Gales, “The Generation and Use of Regression Class Tree for MLLR Adaptation”, Cambridge University England, 1996
【20】 Bowen Zhou, John H.L. Hansen, “Improve Structural Maximum Likelihood Eigenspace Mapping for Rapid Speaker Adaptation”, ICSLP, Vol. 2, pp1433-1436, Denver, USA, Sept. 2002
【21】 C. Fraley and A. E. Raftery, “How Many Clusters? Which Clustering
Method? Answers Via Model-Based Cluster Analysis”, The Computer Journal, Vol.41, No.8, pp578-588, 1998
【22】 Trevor Hastie, Robert Tibshirani and Jerome Friedman, The Elements of Statistical Learning, Springer, 2001
【23】 S. Young, et. al., The HTK Book (For HTK Version 3.2.1), Cambridge University Engineering Department, 2003
【24】 中華民國計算機語言學學會, TCC-300 國語語音資料庫, http://rocling.iis.sinica.edu.tw/ROCLING/
【25】 沈揚智, 「語音強化技術在相加性雜訊環境下的語音辨識之研究」, 國 立交通大學, 資訊工程系碩士論文, 2005
【26】 呂宜玲, 「中文語音辨識中語言模型的強化之研究」, 國立交通大學, 資 訊工程系碩士論文, 2005
附錄 A 中文語音基本單位表
附錄 B 中文發音分類表
Fricative 摩擦音
Voiced 濁 ㄖ r
Affricate 爆破音(塞擦音)
Voiced 濁