高斯混合模型之參數設定與訓練模式

第四章以大腦聽覺階段為主之語音增強

4.1 大腦聽覺階段的統計特性

4.1.3 高斯混合模型之參數設定與訓練模式

由於乾淨語音在經過時域-頻域調變分析時，大部分的能量將出現在rate 8 Hz 以及scale 4 cycle/octave 以下；又由 [10] 得知，大腦所能跟上的時變率中與人聲產生較有相關的是在32 Hz以下。因此我們在rate方面，取了2、4、8、16及32 Hz，

而在scale方面，取了0.5、1、2、4、8 cycle/octave，暫不考慮正負rate，故在聽覺頻譜圖上，一個固定的時間及對數頻率上，便對應了一組25維的能量向量，我們以這些資料，並取8個高斯混合數，來訓練出高斯混合模型。

在訓練的方式上，考慮語音和噪音特性在經過時域-頻域調變分析後的多變性，因此我們採用乾淨語音的非語音部分在大腦聽覺階段的調變內容來訓練高斯混合模式；當有一新的能量向量，將其代入已訓練出的模型中以計算其對數機率，

當得到的機率小於某閾值，即判斷其不屬於該群，反之，機率大於某閾值，可能是非語音部分，我們將以此模型所分類出的語音及非語音部分進行處理。圖 4-2(a)、圖 4-2(b) 表示一新的聽覺頻譜圖在已訓練的模型中所計算出的對數機率，由圖可發現，語音及非語音可以對數機率將其分類出來，如圖中的最下方所示，白色部分為語音的範圍，而黑色部為非語音的範圍。經由小量語料的測試，

在此處及之後的實驗中我們取-7當做閾值。

圖 4-2(a)：乾淨語音在非語音高斯混合模型中的對數機率及分類結果

圖 4-2(b)：訊噪比10 dB的語音在非語音高斯混合模型中的對數機率及分類結果

4.2 分散式語音辨認系統前級---AFE

在本節中，介紹分散式語音辨認系統，並使用其加入降低噪音的辨識系統前級所抽取的語音參數做辨識的實驗，並將其結果來當做本章與下一章所提出的語音強健策略結果的比較對象。

4.2.1 分散式語音辨識系統

分散式語音辨認系統的想法來自於：想要應用在行動裝置上可以使用語音輸入更多更複雜的指令，但又礙於行動裝置的計算能力以及記憶體的不足。因此分散式語音辨認系統的架構分為，在行動裝置也就是辨識系統的前級(DSR front-end) 來接收語音輸入，並從中抽取語音特徵參數，經過壓縮、編碼，再由通道傳送至伺服器也就是辨識系統的後級(DSR back-end)進行解碼以及辨識，本論文中所採用的語音辨識前級為歐洲電信標準協會編號 202 050 v1.1.3(ETSI ES 202 050 v1.1.3) [11] 之前級的標準，圖 4-3 為此分散式語音辨識系統之架構圖。

圖 4-3：分散式語音辨識系統架構圖

4.2.2 辨識系統前級參數抽取---AFE

當使用者在使用行動裝置時，周圍通常都會有噪音的干擾，而影響了語音參數的抽取。為了因應此情形，分散式語音辨識系統的前級會先加入一降低噪音 (Noise reduction)的處理。

圖 4-4 顯示 AFE 中降低雜訊的方塊圖，其處理雜訊的方式是使用一個二階式的維納濾波器(Wiener filter)，它是由兩個串聯的維納濾波器所組成，它們的輸入和輸出波形都是時域的聲音信號。第一個濾波器中，輸入的是未經處理包括雜訊的原始聲音信號，輸出的是經過初步處理的波形信號，此濾波器中包含了語音偵測（Voice activity detection, VAD）的技術；第二個濾波器，將第一個濾波器的輸出信號當做輸入，並假設此輸入所餘下的加成性雜訊可以用白雜訊（white noise）

來近似，而輸出便是消去大部分雜訊的語音信號。兩個濾波器皆隨著各個音框內不同的訊雜比和雜訊特性來設計：首先做頻譜估計(Spectrum estimation)，並依照不同頻率的訊噪比，求出線性頻率上維納濾波器的係數，再將其通過梅爾濾波器組 (Mel filter-bank)而得到與聽覺系統較相關的梅爾維納濾波器係數，再將此係數做梅爾反離散餘弦轉換(Mel -warped Inverse Discrete Cosine Transformation, Mel-warped IDCT), 得到在時域上的脈衝響應(Impulse response)，最後將目前音框中的波形信號通過此響應以得到輸出的波形信號。在第二個濾波器輸出之前，會執行偏移補償(Offset compensation)以移除輸出波形中的直流偏移量(DC offset)。

圖 4-4：AFE 中降低雜訊的處理

4.2.3 實驗設定

在 AFE 中的降低噪音的部分，會以 VAD 標示非語音的音框，在傳送至後端之前可將被標示為非語音的音框捨棄不傳輸，除了可降低網路傳輸的負載外，也可增進辨識率。由於在本論文中，只採用系統前級的語音擷取，著重在其降低噪音的部分，故不使用 VAD 來捨棄非語音音框。

本實驗所採用的語料庫為 AURORA-2，在參數抽取方面，亦跟前面抽取語音參數的設定完全相同，使用 12 維 MFCC，以及一維和二維的變化量，共 36 維。

乾淨的語料亦經過 AFE 的降低噪音的處理，即為匹配的模型訓練方式。

4.2.4 實驗結果

以 AFE 及 MFCC 來做英文連續數字串的實驗，其實驗的結果如表 4-1 所示。

表 4-1：英文連續數字串---AFE+MFCC 的辨識結果

4.3 結合高斯混合模型的語音增強策略

圖 4-5(a)：訊噪比 10 dB 的語音經過 GMM 模型語音增強後的結果

4.3.2 實驗設定及實驗結果

在與 4.2 節中 AFE 所做的實驗結果比較，可以得知：

(1) 在八種噪音源的環境下，經過 GMM 模型方式語音增強後及 AFE 降低噪音的辨識結果，如圖 4-6 所示。由圖中可知，GMM 在人聲、餐廳、機場噪音的環境上語音增強的效果並不好，原因是在此三種環境下，隨著訊噪比的降低，

人聲的噪音皆被誤判成”oh”，產生大量的插入錯誤，進而影響辨識的結果。

(2) 若以訊噪比的平均辨識率及總體平均辨識率來看，GMM 和 AFE 有著相近的效果，如圖 4-7 所示。

(3) 在訊噪比為-5 dB 的情形下，AFE 仍有小量的辨識率提昇，而 GMM 在人聲和餐廳噪音環境的辨識率平均影響下，反而較原本的辨識率還低。

在上述討論中，得知 GMM 的語音增強方式仍有進步的空間，像是一開始訓練高斯混合模式的參數設定，訓練模型的方式，相信在適當的參數組合可以使得 GMM 模型的分群效果及噪音壓抑的結果更加提昇。

圖 4-6：八種環境雜訊在 GMM 及 AFE 語音增強策略下的比較

圖 4-7：不同訊噪比在 GMM 及 AFE 語音增強策略與基本線的比較

第五章

使用時域-頻域混合的調變濾波器的語音增強策略

在上一章，結合高斯混合模型語音增強策略的實驗結果中，在人聲及餐廳的噪音環境下，由於插入錯誤的大量發生，導致辨識率甚至較原本 ACC 的基本辨識率還低。在本章中，經由聽覺感知模型的大腦聽覺模型的分析，以時域-頻域混合的調變濾波器，重建出乾淨語音的聽覺頻譜圖，以此為模板(template)，對原本聽覺頻譜圖上的噪音部分進行處理，可降低上述兩種噪音環境的插入錯誤，並提昇其他噪音環境下的辨識率。最後並與上一章的所介紹的 AFE 的辨識結果做比較。

5.1 聽覺頻譜圖上語音部分的重建

本節介紹聽覺頻譜圖經由大腦聽覺模型，不同的時域-頻域混合的調變分析後，重建出其中的語音部分。

5.1.1 聽覺頻譜圖的重建

二維的聽覺頻譜圖在大腦聽覺階段的分析後，可以得到帶有多重解析特性的四維結果，由於其產生的方式是一種線性運算 [12] ，我們可以對此四維結果進行反向濾波，而得到帶有選定的時域-頻域調變特性的重建聽覺頻譜圖，如圖 5-1 所示。

圖 5-1：經由不同的時域-頻域分析後重建出的聽覺頻譜圖

5.1.2 語音重建範圍的選擇

在第二章聽覺大腦階段的介紹中，人類語音的調變能量大約出現在 rate 8 Hz 以及 scale 4 cycle/octave 以下，考慮語音隨著不同人可能有不同變動性，我們在 rate 方面，取了 2、4、8、及 16 Hz，而在 scale 方面，取了 0.5、1、2、4、8 cycle/octave。

圖 5-2 表示一段數字串在環境雜訊為展覽會場，訊噪比為 5 dB，取以上的參數組合，再經由大腦聽覺階段重建出來的語音聽覺頻譜圖。

圖 5-2：訊噪比 5 dB 的語音經由大腦聽覺階段重建出的語音聽覺頻譜圖

由圖中可知，重建出的聽覺頻譜圖包括了大部分的語音能量，但和原來的語音能量並不完全相同；而也有些許的噪音部分並未被濾除，我們以此為模板，來處理重建前聽覺頻譜圖上的噪音部分。

5.2 使用調變濾波器的語音增強策略

根據選定的 rate 及 scale，我們可以重建出聽覺頻譜圖上的語音部分，此節中，

將介紹以重建的聽覺頻譜圖對原本的聽覺頻譜圖進行語音增強，並以增強後的結果取出聽覺倒頻譜參數，做英文連續數字串的實驗。

5.2.1 以閾值決定聽覺頻譜圖上的噪音

對於每一段要進行語音增強的聲音，我們皆先將其經過正規化的處理，如 3.1.1 節所描述，因此這些資料在聽覺感知模型的各階段的數值表現上會較為統一，也方便取定一閾值，來取出聽覺頻譜圖上的噪音部分。在此我們設定閾值為 1.8，在重建的聽覺頻譜圖上小於此閾值的部分便分類為噪音，並對原本的聽覺頻譜圖上同樣的部分乘上權重係數，而權重係數的設定和上一章相同，為 0.36，圖 5-3(a)、

圖 5-3(b) 表示一段數字串在環境雜訊為汽車噪音，訊噪比 10 dB 及 5 dB 下，權重係數取 0.36 的語音增強結果。

圖 5-3(a)：訊噪比 10 dB 的語音經過調變濾波器語音增強後的結果

5.2.2 實驗設定與實驗結果

在與 4.2 節中 AFE 所做的實驗結果比較，可以得知：

(1) 在八種噪音源的環境下，經過調變濾波器重建方式語音增強後及 AFE 降低噪音的辨識結果，如圖 5-4 所示。由圖中可知，調變濾波器的語音增強方式在除了人聲、餐廳、機場噪音的環境上，都有較 AFE 明顯的辨識率增進。

(2) 在人聲、餐廳、機場的環境下，調變濾波器的語音增強效果也可與 AFE 相近。

而此三種環境在整體中辨識率較低的原因是在此三種環境下，隨著訊噪比的降低，人聲的噪音皆被誤判成”oh”，產生大量的插入錯誤，進而影響辨識的結果，但此插入錯誤的數目已較上一章的 GMM 的情形有所改善。

(3) 若以訊噪比的平均辨識率及總體平均辨識率來看，調變濾波器的效果除了在訊噪比-5 dB 的情形下較 AFE 差之外，其他訊噪比的情形皆有 1~3%的提昇，

如圖 5-5 所示。

(4) 在訊噪比為-5 dB 的情形下，AFE 仍有小量的辨識率提昇，而調變濾波器的效果在人聲和餐廳噪音環境的辨識率平均影響下，只獲得和 ACC 基本的辨識率

在文檔中基於聽覺感知模型的語音增強技術 (頁 38-0)

第四章 以大腦聽覺階段為主之語音增強