簡介 - 語音強化技術在相加性雜訊環境下的語音辨識之研究

1.1 動機

隨著科技的進步，使用語音輸入代替手寫或打字已不再是夢想。然而在實際應用上，語音辨識所遇到的最大問題在於環境雜訊(background noise)的干擾，大幅提高了語音辨識的困難度。為了減少環境雜訊對語音的干擾，我們可以使用指向性麥克風或是頭戴式耳機麥克風來輸入語音，但是這卻不是最根本的解決辦法，因為這樣限制了語音辨識的應用環境，亦降低了使用語音輸入的便利性。導致辨識準確度降低的最根本原因就是在訓練語音模型時用的訓練語音與在實際環境中輸入的語音特性不一致。在訓練語音模型時所使用的是乾淨語音(clean speech)，但是應用在實際環境中，輸入的是含雜訊語音(noisy speech)，由於雜訊的干擾而使得語音特徵產生失真，因此語音辨識在面對含雜訊語音的辨識效能會大打折扣。

語音辨識系統在應用上可為單一麥克風或是多麥克風；由於多麥克風的系統需要兩個以上的麥克風去收集與噪音相關的額外資訊，並不常見於一般的語音辨識系統，所以本論文研究的目標是在單一麥克風的語音辨識系統下，減小環境雜訊的干擾，以增加語音的辨識率。

單一麥克風的語音辨識系統如下圖 1-1 所示：

圖 1-1: 單一麥克風的語音辨識系統示意圖

由於系統只有一個麥克風，所以由麥克風接收進來的訊號是語音訊號與雜訊疊加後的結果，這類雜訊稱之為相加性雜訊 (additive noise) 。語音強化 (speech enhancement)是一項能夠有效補償相加性雜訊造成語音失真的技術。此技術的處理方式是在抽取語音辨識所需的語音特徵參數前，先消除掉部分含雜訊語音中的雜訊成分，而能較接近原始語音的特性，這樣的做法能使辨識系統在有雜訊干擾的環境下仍能保有不錯的準確度。

語音強化的處理方式可分類為相減型(subtractive-type)語音強化法[1][2]和訊號子空間法(signal subspace) [3][4]。相減型語音強化法的做法是把含雜訊語音減去雜訊的估計值，還原出近似於乾淨語音的訊號。訊號子空間法的運作原理是將觀察到的含雜訊語音向量空間拆解成含雜訊訊號以及雜訊兩個子空間，在藉由移除雜訊的子空間以及從含雜訊訊號子空間中估測出較乾淨的語音訊號，而達到語音強化的目的。由於訊號子空間法需要進行向量空間的轉換，其運算複雜度比起相減型語音強化法高出許多，所以並不合適應用在一般的語音辨識系統，因此本論文中只針對相減型語音強化法進行討論。

大多數相減型語音強化方法依靠著短時間內(20~30ms)含雜訊語音中的穩定特性(stationary)去處理，而忽略了語音頻譜在長時間來看具有不穩定的特性 (non-stationary) 。本論文以最小平方誤差短時頻譜振幅估計法 (Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator，簡稱 MMSE 估計法) 為基礎，並考慮語音訊號與雜訊訊號在某段時間中的相對變動關係進行強化，而

提出了強化型 MMSE(enhanced MMSE)語音強化法。經過相加性雜訊環境下語音辨識的實驗，強化型 MMSE 語音強化法相較於其它的語音強化方法，在低訊雜比的環境下，確實能有效地提升語音辨識率。

1.2 章節組織

接下來本論文的組織如下：在第二章中，我們會先介紹一些與語音強化相關的背景知識和研究。本論文提出的強化型 MMSE 語音強化法將在第三章中描述，並在第四章中進行相加性雜訊環境下的實驗以及討論，然後以此方法架構出的分散式語音辨識系統將呈現在第五章。最後第六章為本論文的結論並探討未來的發展。

在文檔中語音強化技術在相加性雜訊環境下的語音辨識之研究 (頁 10-13)