環境雜訊

第二章背景知識與基礎系統

2.2 分散式語音辨識系統環境下國語連續數字串之辨認

2.2.2 環境雜訊

實際上當使用者在使用分散式的語音辨認系統時，系統的辨識率會受到使用者週遭的環境雜訊影響，為了使我們的實驗與實際狀況更符合，所以要在語料中加上環境雜訊。

在本論文中，環境雜訊是採用 AURORA 2 中提供的環境雜訊[3]，總共有八種環境雜訊 ( 地下鐵、人聲、汽車、展覽會館、餐廳、街道、機場、火車站 )，

取樣頻率是 8kHz ，16 bit 的 PCM 檔案。表 2-2 表示每個環境雜訊的音檔長度。

表 2-2：八種環境雜訊的音檔長度地下鐵 20:24

人聲 3:55:06 汽車 22:12 展覽會館 19:06 餐廳 4:46:12 街道 57:11 機場 2:59:29 火車站 2:59:29

在加入環境雜訊時，是以乾淨語料的長度為基準，隨機選擇一段環境雜訊與乾淨語料相同長度作相加的動作，但是八種環境雜訊的音長不盡相同，也不一定會比乾淨語料還要長，所以又可以分成兩種情形： 1.乾淨語料的音長比環境雜訊的音長短；2.乾淨語料的音長比環境雜訊的音長還長。

當乾淨語料的音長比環境雜訊的音長短的時候，便是直接以乾淨語料的長度為基準，隨機選擇一段與乾淨語料相同長度的環境雜訊，來與乾淨語料做相加的動作；若是乾淨語料的音長比環境雜訊的音長還長的時候，先重覆環境雜訊，直到環境雜訊的音長超過乾淨語料的音長，再以乾淨語料的長度為基準，隨機選擇一段與乾淨語料相同長度的環境雜訊，來與乾淨語料做相加的動作。圖 2-3 以圖示說明。在圖 2-3 中，S 為乾淨語料的音長，N 為環境雜訊的音長，L 是環境雜訊上與乾淨語料相加區段的起始點。

圖 2-3：在乾淨語料中加入環境雜訊示意圖

接著介紹當我們如何在乾淨語料中加上環境雜訊，並且控制訊噪比

（Signal-to-Noise Ratio, SNR）在某一定值的方法。首先要先計算乾淨語料以及環境雜訊的平均能量 (Average Power)，其中乾淨語料只計算有語音部份的平均能量，環境雜訊只計算與乾淨語料相加部份的平均能量。平均能量可以下式表

圖 2-4是各種環境雜訊的長時間頻譜(long-term spectrum)圖，由此圖可看出：汽車雜訊、機場雜訊及火車站雜訊長時間平均頻譜在低頻處能量最高，隨著頻率增加，能量逐漸減少，至4000Hz(二分之一的取樣頻率)時的能量大小和能量最高處相差約有40dB；人聲雜訊、餐廳雜訊及街道雜訊的長時間頻譜特性大致和前述三種類似，但高頻及低頻能量的差距不像前述三種雜訊明顯，且能量峰值的位置亦較前述三種雜訊來的高；剩下兩種雜訊的特性則較為不同，地下鐵雜訊在 500Hz及2500Hz這兩處能量都有明顯峰值，展覽會館雜訊和其他雜訊相比之下，

其長時間頻譜則是較接近平坦的白雜訊特性。由圖 2-4只能觀察出各種雜訊長時間平均後的特性，卻無法得知其特性是否穩定(Stationary)。圖 2-5 則是它們的頻譜-時間圖(Spectrogram)橫軸及縱軸分別代表時間及頻率，較亮的顏色代表較強的能量，由此圖較易了解雜訊的穩定性如何；由此圖我們看到較穩定的雜訊 (如：汽車雜訊及展覽會館雜訊)在任一時間點的頻譜都很接近其長時間頻譜；而不穩定的雜訊(如：街道雜訊、機場雜訊及火車站雜訊)，則隨著不同的時間點，

可能有著變動很大的頻譜特性，所以其長時間頻譜和實際上的雜訊特性是有較多出入的。

圖 2-4：八種環境雜訊的長時間頻譜

圖 2-5：八種環境雜訊的頻譜－時間圖（橫軸：時間；縱軸：頻率）

2.2.3 分散式語音辨識系統後級隱藏式馬可夫模型之語音辨識器

在實驗中，分散式語音辨識系統後級採用隱藏式馬可夫模型 ( Hidden Markov Model, HMM )語音辨識器。隱藏式馬可夫模型的產生也可以分成只用乾淨語料訓練，或是用加入不同的環境雜訊、以及不同訊噪比的語料做訓練，分別對應到「乾淨語料訓練」和「複合情境訓練」這兩種訓練模式；而且依照各種訊噪比加上八種不同的環境雜訊，按照所加環境雜訊的種類，分成 A、B 兩種測試組合 ( Testing set )，其中 A 組所加入的環境雜訊是與訓練語料所加入之環境雜訊匹配（Match），B 組所加入的環境雜訊與是訓練語料所加入之環境雜訊不匹配（Mismatch）。詳細內容如表 2-3 所示。

在乾淨語音訓練模式中，將語料庫的十分之九當作訓練語料，其中男性語者和女性語者各 45 人，每人 10 句，共 900 句，5,796 個數字；在複合情境訓練模式中，因為語料數不夠的因素，所以將在乾淨語音訓練模式的 900 句的訓練語料，重複使用兩次，總共 1,800 句訓練語料，再平均分為 20 組，每組中沒有重複出現的句子，且每組分別是加入不同環境雜訊、不同訊噪比的情境。在兩種訓練模式中，都是將語料庫的另外十分之一當作測試語料，男性語者和女性語者各 5 人，每人 10 句，共 100 句，642 個數字。同樣也是有語料數不足夠的問題，所以將 100 句測試語料重複使用於各個不同的環境雜訊與不同的訊噪比的組合中，總共有 49 組測試組，分別是八種環境雜訊與六種訊噪比合併組合的 48 組，

以及一組乾淨語料測試。

表 2-3：加上環境雜訊的國語連續數字串內容介紹 z 訊噪比 : 20dB、15dB、10dB、5dB 和完全

乾淨

本實驗使用的語音辨認參數是 12 維梅爾倒頻譜係數(Mel Frequency Cepstral Coefficients, MFCC)，加上一維與二維的變化量，以及能量的一維與二維的變化量，共 38 維特徵向量。表 2-4 列出特徵參數抽取過程中各項參數設定。其中前五項是分散式語音辨識系統前級的標準設定，而語音特徵向量之選取則是後級隱藏式馬可夫模型辨識器之設定。

表 2-4：語音特徵參數抽取之參數設定

取樣頻率(Sampling rate) 8 kHz 音框長度(Frame window size) 25 ms 音框平移量(Frame window shift) 10 ms 預強調的轉換函數(Pre-emphasis) _1-0.9z^-1 梅爾濾波器組(Mel-frequency filter bank) 23 個濾波器語音特徵向量(Speech feature vector) 38 維（靜態[12-MFCCs,

log E ]、ㄧ次及二次動態係數）

隱藏式馬可夫語音辨識模型的建立則詳述如下：首先建立國語數字從 0 到 9 的聲學模型，每個聲學模型設定為 8 個狀態（State），每個狀態含有 8 個混合高斯數（Mixtures）；除了國語數字的聲學模型外，還有兩個模型---靜音模型

（Silence model）與停頓模型（Short pause model）的聲學模型，是用來描述語音信號中靜音部分，其中靜音聲學模型是描述句首和句尾之靜音，設定為 3 個狀態，停頓聲學模型則用來描述字與字之間的靜音，設定為 1 個狀態，此狀態允許跳躍（Skip），並且與靜音模型的中間狀態合併（Tying），兩個聲學模型中每個狀態則含有 16 個混合高斯數。

2.2.4 實驗結果

表 2-5(b)：國語連續數字串---複合情境訓練模式之辨識結果

(3) 比較在不同的環境雜訊之下，兩種訓練模式的差異。從乾淨語料訓練模式到複合情境訓練模式，辨識率提高最多的是加了餐廳環境雜訊的情況，次之的是加了展覽會館環境雜訊的情況；進步最少的是加了街道環境雜訊的情況。

如圖 2-6 所示。

(4) 兩種訓練模式都是隨著訊噪比越低，辨識率也會越低，當訊噪比低於 5dB 時，辨認率會急速下降；而且在訊噪比在 10dB 以上時，測試組合的 A 組的辨識率，都比測試組合的 B 組還要高；但是訊噪比在 5dB 以下，情形便顛倒過來，測試組合的 A 組的辨識率，都比測試組合的 B 組還要低。如圖 2-7 所示。

50.0%

55.0%

60.0%

65.0%

70.0%

75.0%

80.0%

85.0%

90.0%

95.0%

地下鐵人聲汽車展覽會館餐廳街道機場火車站

辨識率

乾淨語料複合情境

圖 2-6：八種環境雜訊在兩個訓練模式的比較

0.0%

10.0%

20.0%

30.0%

40.0%

50.0%

60.0%

70.0%

80.0%

90.0%

100.0%

20 15 10 5 0 -5 Ave

訊噪比(dB)

辨識率

clean_A clean_B multi_A multi_B

圖 2-7：不同的訊噪比在兩個訓練模式的比較

第三章使用基頻參數的分散式國語連續語音辨識系統

從上一章中，我們知道在有環境雜訊的情況下，語音的辨識率會隨著訊噪比越低而降低，而且在訊噪比為 5dB 以下時，辨識率下降的情況更為嚴重。為了減緩這種情況發生，本章中我們將加上在歐洲電信標準協會編號 202 212 V1.1.1 的分散式語音系統架構中一項新的參數---「基頻」，相信如果將這項基頻參數使用在辨識器中，對國語語音應當可以獲得辨識率的增益[5]。本章說明如何使用分散式語音辨認系統中求得的基頻參數，建立一個帶聲調的國語連續數字串辨認器，以及所做的實驗與分析。

3.1 分散式語音辨識系統之基頻抽取

在這一節將先介紹歐洲電信標準協會編號 202 212 V1.1.1 的分散式語音系統架構中基頻參數，是如何求得的。接著再介紹在聲調辨識器中所使用的基頻參數。

在分散式語音辨識系統的前級中的「Pitch & class estimation」，參考圖 2-1，是用來估計基頻以及語音的狀態資訊。當語音信號數入，中間經過波形處理（Waveform processing）、計算頻譜及能量（Spectrum and energy computation;

SEC），基頻以及是否為語音的預先估計（Pre-processing for pitch and class estimation; PP）；梅爾濾波器組---用以得到較平滑且和聽覺系統相關的梅爾維納濾波器係數，之後再經過語音偵測處理，得到哪一段是語音、哪一段不是語音的資訊；低頻的雜訊偵測（Low-band noise detection; LBND）---偵測在低頻中哪一個音框有背景雜訊，用以預先加強由 PP 求得的功率頻譜；然後在經由最後的基頻估計（Pitch estimation; PITCH）得到最後的基頻值；最後再由「CLS」

得到最後的語音狀態資訊。其系統方塊圖於圖 3-1。

圖 3-1：分散式語音辨識前級估計基頻與語音狀態資訊系統架構

在歐洲電信標準協會編號 202 212 V1.1.1 標準中，基頻軌跡的追蹤是在分散式語音辨識系統的後級處理，如此可以補償一些由於傳輸錯誤所造成的基頻資訊錯誤。

在語音辨識器中，我們使用了連續隱藏式馬可夫模型（Continuous HMM），

必須將沒有基頻值的語音信號補一個非零的值，這樣才能夠避免基頻參數的觀察機率發生不連續性的現象。所以本論文中將由 ETSI 202 212 V1.1.1 的 DSR 架構中所求得的基頻參數，取其對數（log-F0）。接著再利用指數函數（Exponential function），將補償（Interpolation）介於兩段語音中間屬於無聲音（Unvoiced）

的音框（Frame），以及每一個句子頭尾兩段沒有語音的音框[6]。補償第n 個音框非語音的基頻值，式子如下所示：

( )

3.2 在不同環境雜訊之基頻偵測分析

在文檔中使用基頻資訊之國語分散式語音辨識系統 (頁 19-0)

第二章 背景知識與基礎系統