結論與未來展望 - 以特徵參數正規化為基礎之強健性語音辨認

在本論文的最後一章，我們將把本論文的貢獻做一次更加完整的說明；並且檢討本論文的不足，展望未來，提出可以加以補強以及延伸的研究方向。

5.1 結論

本論文主要的研究內容是針對強健性語音特徵參數作深入的探討，將現有的倒頻譜正規化法及分佈等化法做些許的改進。包括將分佈等化法加上 ARMA 濾波器，經由實驗結果證實，辨識率在每一種訊噪比的環境下都有所提升，特別是在低訊噪比的情況下;而我們所提出的另一個分群式 MVA 系統，在訊噪比 10dB 以上，

辨識率都相對於 MVA 系統而言，都有所提升，但在訊噪比 5dB 以下，因分群效果不佳使得辨識率下降，因此我們提出了改良式分群 MVA 系統，進一步的改善了分群式 MVA 在訊噪比 5dB 以下「語音」音框百分比明顯下降的問題，也因此提升了訊噪比 5dB 以下的辨識率，使得每一訊噪比的辨識率，都比 MVA 系統來的好，代表我們所提出的改良式分群 MVA 系統，確實比 MVA 系統來的好，且可以實現的，

我們也做了理想分群 MVA 系統實驗，讓我們知道分群 MVA 系統辨識率的上限，

以及還有多少改進的空間。

最後，我們進一步的利用正確的基頻(pitch)將「語音」分為 voiced 及 unvoiced，

將 voiced、unvoiced 語音及「非語音」分別作倒頻譜正規化，也就是理想三群式 MVA 系統，與理想兩群式 MVA 系統比較，發覺理想三群式 MVA 系統辨識率提升更多，

特別是在低噪訊比的情況下，代表若能準確的分出三群，辨識率將提升更多。

5.2 未來展望

本論文的改良式分群 MVA 系統，在低噪訊比的辨識率，要達到上限還有一段

距離，代表若能進一步的改善低訊噪比「語音」及「非語音」的分群方法，像是利用頻譜熵值(Entropy)[17]或是利用特徵空間旋轉法(Feature Space Rotation)[18]

等相關的方法來幫忙分群，相信辨識率還會再提升。

而在有雜訊的情況下如何將「語音」的基頻求出，好讓我們利用基頻來判斷是 voiced 還是 unvoiced，讓我們理想三群式 MVA 系統可以變成實際的系統，來對抗雜訊對辨識率的影響，也是另外一個值得研究的方向。

最後，本論文的語料庫都為中文連續數字串語料庫，字彙量較少，未來應將這些系統應用在大字彙辨識的工作上，以觀察字彙數量大小是否影響本論文中所提到多種系統對強健性的提升。

參考文獻

[1]. Y. Gong, “Speech Recognition in Noisy Environments: A Survey” , Speech Communication. 16,1995.

[2]. A. E. Rosenberg, C.-H Lee, and F. k. Soong, “Cepstral Channel Normalization Techniques for HMM-based Speaker Verification” , ICSLP, 1992.

[3]. O. Vikki and K. Laurila, “Noise Robust HMM-based Speech Recognition Using Segmental Cepstral Feature Normalization” , in ESCA NATO Workshop Robust Speech Recognition Unknown Communication Channels. France , 1997.

[4]. A. de la Torre, J. C. Segura, C. BENitez, A. M. Peinado, and A. J. Rubio,

“Non-linear Transformations of the Feature Space for Robust Speech Recognition” , ICASSP, 2002.

[5]. A. de la Torre, A. M.Peinado, J. C. Segura, J. L. P. Cordoba, M. C. Benitez and A. J.

Rubio, “Histogram equalization of speech recognition for robust speech

recognition” , IEEE Trans. On Speech and Audio Processing, vol. 13, no. 3, May 2005,pp.355-366

[6]. Chia-Ping Chen, Jeff Bilmes, and D. Ellis, "Speech Feature Smoothing for Robust ASR", Proceedings of ICASSP 2005 pp.525-528

[7]. Chia-Ping Chen, Jeff Bilmes, and Katrin Kirchhoff, "Low-Resource Noise-Robust Feature Post-Processing on Aurora 2.0", Proceedings of ICSLP 2002 pp.2445-2448 [8]. ETSI standard document, “Speech Processing, Transmission and Quality Aspects

(STQ); Distributed speech recognition; Extended advanced front-end feature

extraction algorithm; Compression algorithms; Back-end reconstruction algorithm”, ETSI Standard ES 202 212, Nov., 2003.

[9]. JC Segura, C. Benítez, A. de la Torre, AJ Rubio and J. Ramírez, Cepstral Domain Segmental Nonlinear Feature Transformations for Robust Speech Recognition, IEEE Signal Processing Letters, 11(5), May 2004.

[10]. Shang-nien Tsai, Lin-shan Lee.”A New Feature Extraction Front-end for Robust Speech Recognition using Progressive Histogram Equalization and

Multi-Eigenvector Temporal Filtering” , ICSLP 2004

[11]. Shang-nien Tsai and Lin-shan Lee, “Improved Robust Features for Speech Recognition by Integrating Time-Frequency Principal Components (TFPC) and Histogram Equalization(HEQ),” IEEE 8th Automatic Speech Recognition and Understanding Workshop, PP.297-302, St. Thomas, US Virgin Islands, USA, Dec. 2003.

[12]. Yi Chen, Lin-shan Lee, “Robust Features for Speech Recognition Using Minimum Variance Distortionless Response (MVDR) Spectrum Estimation and Feature Normalization Techniques,” International Symposium on Chinese Spoken Language Processing, PP.101-104, Hong Kong, Dec. 2004.

[13]. Y. Obuchi and RM Stern,”Normalization of Time-Derivative Parameters Using Histogram Equalization”, Eurospeech 2003.

[14]. J.C.Sequra,C. Benitez , A. de la Torre, and A.Rubio, “Feature extraction combining spectral noise reduction and cepstral histogram equalization for robust ASR” ,ISCLP 2002.

[15]. Hans-Giinter Hirsch, David Pearce, “The AURORA Experimental Framework for The Performance Evaluation of Speech Recognition Systems Under Noisy

Conditions”, ISCA ITRW ASR2000, Paris, France, September 18-20, 2000.

[16]. 魯柏暄，”使用基頻資訊之國語分散式語音辨識系統” ，交通大學碩士論文，

2005 .

[17]. Jia-lin Shen , Jeih-weih Hung ,Lin-shan Lee ;”Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environment”, International Conference on Spoken Language Processing, Sydney, Nov. 1998.

[18]. Sirko Molau, Daniel Keysers, And Hermann Ney, “ Matching Training and Test Data Distributions for Robust Speech Recognition” , Speech Communication 41 , 579-601, ELSEVIER 2003.

在文檔中以特徵參數正規化為基礎之強健性語音辨認 (頁 58-62)