實驗設定

第三章語音特徵參數抽取

3.2 英文連續數字串之辨識---使用聽覺倒頻譜參數

3.2.1 實驗設定

表 3-2：英文連續數字串---語音特徵參數 ACC 的辨識結果

在與上章中 MFCC 所做的實驗結果比較，可以得知：

(1) 在八種噪音源的環境下，以 ACC 語音特徵參數所做的辨識結果皆較 MFCC 的辨識結果有所提昇，如圖 3-2 所示。但是在人聲、餐廳、機場提昇的部分卻較少，原因是在此三種環境下，人聲的噪音皆容易被誤判成”oh”，而產生了插入錯誤，進而影響了 Accuracy Rate 的結果。

(2) 在各種噪音下，MFCC 的辨識率結果可從 59.89%到 69.01%，而 ACC 的辨識率結果是從 71.05%到 75.62%，標準差較低，由此可見 ACC 的辨識率並不會因為不同的噪音源而受到太大的影響，即較有健全性。

(3) MFCC 在 10 dB 以上，辨識率大略呈線性下降，而從 10 dB 下降至 5 dB 時，

辨識率下降了約 30%；而此辨識率大幅下降的情形在 ACC 中到了 5 dB 以下時才開始發生，如圖 3-3 所示，表示 ACC 對不同訊噪比下的健全性。

(4) 在訊噪比為-5 dB 的情形下，由於噪音源的能量已大於語音，故在 MFCC 及 ACC 兩者的辨識率表現並無太大的差異。

圖 3-2：八種環境雜訊在兩種語音特徵參數下的比較

圖 3-3：不同訊噪比在兩種語音特徵參數下的比較

第四章

以大腦聽覺階段為主之語音增強

在上一章中，實驗結果證實了從聽覺感知模型的初期耳蝸階段輸出所擷取的語音特徵參數對於不同的環境噪音以及不同的訊噪比有著較佳的健全性。在本章中，以統計的方式，結合聽覺頻譜圖在感知模型中的大腦聽覺階段的表現，訓練出乾淨語音中靜音部分的高斯混合模型，來偵測並處理聽覺頻譜圖上的噪音部分，達到語音增強的效果。其後，介紹歐洲電信標準協會所制訂的分散式語音辨認架構中的辨識前級參數抽取，AFE(Advanced Front-End)，其中使用了維納濾波器(Wiener filter)來降低語音雜訊。最後，比較兩者之語音增強的效果。

4.1 大腦聽覺階段的統計特性

在本節中，介紹聽覺頻譜圖在大腦聽覺階段的表現，以此來訓練高斯混合模型(Gaussian Mixture Model, GMM)，並以訓練出來的模型偵測出聽覺頻譜圖上的噪音部分並予以處理。

4.1.1 高斯混合模型

高斯混合模型是單一高斯機率密度函數的延伸，包含多個高斯機率分佈，由於其能夠平滑地近似任意形狀的密度分佈，因此近年來常被用在語音與語者辨識。模型中的參數包括平均值向量(mean vector)，相關變異數矩陣(covariance matrix) 以及混合數權重(mixture weight)。本論文中以一語音套件：VOICEBOX [9] ，來訓練高斯混合模型並以訓練出來的模型來計算輸入資料的對數機率。

4.1.2 聽覺頻譜圖在大腦聽覺階段的表現

由第二章對大腦聽覺階段的介紹，此階段的輸出結果為四維，包括了時間、

對數頻率外，還有rate及scale。我們可以視為，在聽覺頻譜圖上固定的時間及對數頻率，都可以有一組相對應的rate及scale，如同圖 4-1(a) 所示。

圖 4-1(a)：聽覺頻譜圖上不同時間-頻率點的調變內容 (橫軸：rate；縱軸：

scale)

當我們將同一段語音經由聽覺感知模型得到的四維結果在時間及對數頻率上取平均，便可以得到此段語音在rate及scale上的表現，如同圖 4-1(b) 所示。由這兩張圖發現，rate-scale的分佈圖並不完全相同，即表示在聽覺頻譜圖上不同點 rate-scale的表現仍和長時段的表現有所差異，因此我們可以以高斯混合模型來近似這些不同rate-scale表現所形成的分佈。本章之基本觀念即是以語音及噪音在大腦聽覺階段之統計表徵不盡相同，進而壓抑噪音而達到語音強化之目標。

圖 4-1(b)：聽覺頻譜圖在大腦聽覺階段的調變內容 (橫軸：rate；縱軸：scale)

4.1.3 高斯混合模型之參數設定與訓練模式

由於乾淨語音在經過時域-頻域調變分析時，大部分的能量將出現在rate 8 Hz 以及scale 4 cycle/octave 以下；又由 [10] 得知，大腦所能跟上的時變率中與人聲產生較有相關的是在32 Hz以下。因此我們在rate方面，取了2、4、8、16及32 Hz，

而在scale方面，取了0.5、1、2、4、8 cycle/octave，暫不考慮正負rate，故在聽覺頻譜圖上，一個固定的時間及對數頻率上，便對應了一組25維的能量向量，我們以這些資料，並取8個高斯混合數，來訓練出高斯混合模型。

在訓練的方式上，考慮語音和噪音特性在經過時域-頻域調變分析後的多變性，因此我們採用乾淨語音的非語音部分在大腦聽覺階段的調變內容來訓練高斯混合模式；當有一新的能量向量，將其代入已訓練出的模型中以計算其對數機率，

當得到的機率小於某閾值，即判斷其不屬於該群，反之，機率大於某閾值，可能是非語音部分，我們將以此模型所分類出的語音及非語音部分進行處理。圖 4-2(a)、圖 4-2(b) 表示一新的聽覺頻譜圖在已訓練的模型中所計算出的對數機率，由圖可發現，語音及非語音可以對數機率將其分類出來，如圖中的最下方所示，白色部分為語音的範圍，而黑色部為非語音的範圍。經由小量語料的測試，

在此處及之後的實驗中我們取-7當做閾值。

圖 4-2(a)：乾淨語音在非語音高斯混合模型中的對數機率及分類結果

圖 4-2(b)：訊噪比10 dB的語音在非語音高斯混合模型中的對數機率及分類結果

4.2 分散式語音辨認系統前級---AFE

在本節中，介紹分散式語音辨認系統，並使用其加入降低噪音的辨識系統前級所抽取的語音參數做辨識的實驗，並將其結果來當做本章與下一章所提出的語音強健策略結果的比較對象。

4.2.1 分散式語音辨識系統

分散式語音辨認系統的想法來自於：想要應用在行動裝置上可以使用語音輸入更多更複雜的指令，但又礙於行動裝置的計算能力以及記憶體的不足。因此分散式語音辨認系統的架構分為，在行動裝置也就是辨識系統的前級(DSR front-end) 來接收語音輸入，並從中抽取語音特徵參數，經過壓縮、編碼，再由通道傳送至伺服器也就是辨識系統的後級(DSR back-end)進行解碼以及辨識，本論文中所採用的語音辨識前級為歐洲電信標準協會編號 202 050 v1.1.3(ETSI ES 202 050 v1.1.3) [11] 之前級的標準，圖 4-3 為此分散式語音辨識系統之架構圖。

圖 4-3：分散式語音辨識系統架構圖

4.2.2 辨識系統前級參數抽取---AFE

當使用者在使用行動裝置時，周圍通常都會有噪音的干擾，而影響了語音參數的抽取。為了因應此情形，分散式語音辨識系統的前級會先加入一降低噪音 (Noise reduction)的處理。

圖 4-4 顯示 AFE 中降低雜訊的方塊圖，其處理雜訊的方式是使用一個二階式的維納濾波器(Wiener filter)，它是由兩個串聯的維納濾波器所組成，它們的輸入和輸出波形都是時域的聲音信號。第一個濾波器中，輸入的是未經處理包括雜訊的原始聲音信號，輸出的是經過初步處理的波形信號，此濾波器中包含了語音偵測（Voice activity detection, VAD）的技術；第二個濾波器，將第一個濾波器的輸出信號當做輸入，並假設此輸入所餘下的加成性雜訊可以用白雜訊（white noise）

來近似，而輸出便是消去大部分雜訊的語音信號。兩個濾波器皆隨著各個音框內不同的訊雜比和雜訊特性來設計：首先做頻譜估計(Spectrum estimation)，並依照不同頻率的訊噪比，求出線性頻率上維納濾波器的係數，再將其通過梅爾濾波器組 (Mel filter-bank)而得到與聽覺系統較相關的梅爾維納濾波器係數，再將此係數做梅爾反離散餘弦轉換(Mel -warped Inverse Discrete Cosine Transformation, Mel-warped IDCT), 得到在時域上的脈衝響應(Impulse response)，最後將目前音框中的波形信號通過此響應以得到輸出的波形信號。在第二個濾波器輸出之前，會執行偏移補償(Offset compensation)以移除輸出波形中的直流偏移量(DC offset)。

圖 4-4：AFE 中降低雜訊的處理

4.2.3 實驗設定

在 AFE 中的降低噪音的部分，會以 VAD 標示非語音的音框，在傳送至後端之前可將被標示為非語音的音框捨棄不傳輸，除了可降低網路傳輸的負載外，也可增進辨識率。由於在本論文中，只採用系統前級的語音擷取，著重在其降低噪音的部分，故不使用 VAD 來捨棄非語音音框。

本實驗所採用的語料庫為 AURORA-2，在參數抽取方面，亦跟前面抽取語音參數的設定完全相同，使用 12 維 MFCC，以及一維和二維的變化量，共 36 維。

乾淨的語料亦經過 AFE 的降低噪音的處理，即為匹配的模型訓練方式。

4.2.4 實驗結果

以 AFE 及 MFCC 來做英文連續數字串的實驗，其實驗的結果如表 4-1 所示。

表 4-1：英文連續數字串---AFE+MFCC 的辨識結果

4.3 結合高斯混合模型的語音增強策略

圖 4-5(a)：訊噪比 10 dB 的語音經過 GMM 模型語音增強後的結果

4.3.2 實驗設定及實驗結果

在與 4.2 節中 AFE 所做的實驗結果比較，可以得知：

(1) 在八種噪音源的環境下，經過 GMM 模型方式語音增強後及 AFE 降低噪音的辨識結果，如圖 4-6 所示。由圖中可知，GMM 在人聲、餐廳、機場噪音的環境上語音增強的效果並不好，原因是在此三種環境下，隨著訊噪比的降低，

人聲的噪音皆被誤判成”oh”，產生大量的插入錯誤，進而影響辨識的結果。

(2) 若以訊噪比的平均辨識率及總體平均辨識率來看，GMM 和 AFE 有著相近的效果，如圖 4-7 所示。

(3) 在訊噪比為-5 dB 的情形下，AFE 仍有小量的辨識率提昇，而 GMM 在人聲和餐廳噪音環境的辨識率平均影響下，反而較原本的辨識率還低。

在上述討論中，得知 GMM 的語音增強方式仍有進步的空間，像是一開始訓練高斯混合模式的參數設定，訓練模型的方式，相信在適當的參數組合可以使得 GMM 模型的分群效果及噪音壓抑的結果更加提昇。

圖 4-6：八種環境雜訊在 GMM 及 AFE 語音增強策略下的比較

圖 4-7：不同訊噪比在 GMM 及 AFE 語音增強策略與基本線的比較

第五章

使用時域-頻域混合的調變濾波器的語音增強策略

在上一章，結合高斯混合模型語音增強策略的實驗結果中，在人聲及餐廳的噪音環境下，由於插入錯誤的大量發生，導致辨識率甚至較原本 ACC 的基本辨識率還低。在本章中，經由聽覺感知模型的大腦聽覺模型的分析，以時域-頻域混合的調變濾波器，重建出乾淨語音的聽覺頻譜圖，以此為模板(template)，對原本聽覺頻譜圖上的噪音部分進行處理，可降低上述兩種噪音環境的插入錯誤，並提昇其他噪音環境下的辨識率。最後並與上一章的所介紹的 AFE 的辨識結果做比較。

在文檔中基於聽覺感知模型的語音增強技術 (頁 32-0)

第三章 語音特徵參數抽取