語音資料庫簡介

第四章實驗與結果討論

4.2 語音資料庫簡介

×100

−

= −

N

E E E

acc N

^S ^D ^I (4.13)

其中 N 是輸入測試語音中所有音節(syllable)的個數，和分別是辨識結果中替代型錯誤(substitution error)、刪除型錯誤(deletion error)和插入型錯誤 (insertion error)的音節個數。

D S

E E ,

E_I

4.2 語音資料庫簡介

實驗中採用的語音資料庫是MAT2000 的子資料庫，MATDB-2[19]。此子資料庫錄製了近兩千人的連續數字語音，每人一句、一句七個數字，其取樣頻率為 8kHz，我們用此作為乾淨語音。雜訊訊號是來自AURORA2 資料庫[18]，包含了八種在日常生活中經常會面臨到的雜訊，分別為地下鐵雜訊(subway)、人聲雜訊 (babble)、車子雜訊(car)、展覽室雜訊(exhibition hall)、餐廳雜訊(restaurant)、街道雜訊(street)、機場雜訊(airport)和車站雜訊(train station)，取樣頻率也是 8kHz。

4.2.1 雜訊特性分析

同一種語音強化法在面對不同種類的雜訊時，會因為雜訊特性的不同，而有不同的強化效果。一般而言，具有不穩定的(non-stationary)的特性或是主要能量分佈在與語音相同頻帶上的雜訊是屬於較不易消除的。不穩定的特性代表了雜訊

的頻譜會隨時間呈現劇烈變化，而有忽隱忽現(impulsive)的情形，因此很難準確地估計出雜訊，易導致語音強化後的效果不明顯。當雜訊與語音分佈在相同頻帶上，也很難分辨出雜訊和語音的差異，亦增加了語音強化的困難度。由於從聲譜圖(spectrogram)能觀察出訊號頻譜隨時間變化的穩定程度，以及主要能量分佈的頻譜範圍，因此我們在圖 4-4 到圖 4-11 畫出實驗中所使用的八種雜訊之聲譜圖，

並探討不同種類雜訊之特性。

圖 4-4: 地下鐵雜訊的聲譜圖

圖 4-6: 車子雜訊的聲譜圖

圖 4-7: 展覽室雜訊的聲譜圖

圖 4-8: 餐廳雜訊的聲譜圖

圖 4-9: 街道雜訊的聲譜圖

圖 4-10: 機場雜訊的聲譜圖

我們依雜訊的穩定性以及主要能量分佈的頻率範圍，對雜訊的特性進行說明：

(1) 依照穩定性可分成不穩定雜訊或是穩定雜訊：

․不穩定雜訊：最不穩定的雜訊是地下鐵雜訊和餐廳雜訊，接下來是人聲雜訊，其次是機場雜訊，而街道雜訊與車站雜訊的不穩定特性是其中較不明顯的。

․穩定雜訊：最穩定的是車子雜訊，再來是展覽室雜訊。

(2) 依照主要能量分佈的頻率範圍可分成類人聲雜訊與非類人聲雜訊：

․類人聲雜訊：人聲雜訊與餐廳雜訊均屬此類。

․非類人聲雜訊：主要能量分佈在中高頻(500~2500Hz)的有展覽室雜訊，而分佈在中低頻 (50~1000Hz) 的有機場雜訊和街道雜訊；分佈在最低頻 (150Hz 以下)的有車子雜訊和車站雜訊。而地下鐵雜訊則是分佈在高頻與低頻的範圍內。

4.2.2 語音訓練模型及測試語音

本實驗依照 4.1.3 節的語音聲學模型設計了兩種模型的訓練方式：

(1) 乾淨語音訓練(Clean Speech Training, CST)模型 – 此模型只使用乾淨語音作為訓練語音。

(2) 多環境訓練(Multi-Condition Training, MCT)模型 – 此模型一併使用乾淨和含雜訊的語音為訓練語音。

CST 模型從 MATDB-2 中抽取了 1726 句的乾淨語音進行訓練(其中男生 753 人、女生 973 人)。MCT 模型也是使用與 CST 模型相同的 1726 句語音，但是需先把它們等分為 20 個子集合(每個子集合約 86 句)，每個子集合分別加上不同種類的雜訊，組成不同訊雜比後，才能作為 MCT 模型的訓練語音。這 20 個子集

合各自代表了 4 種不同種類的雜訊以及 5 種不同的訊雜比，這四種雜訊分別為地下鐵雜訊、人聲雜訊、車子雜訊和展覽室雜訊；而 5 種訊雜比為 20dB、15dB、

10dB、5dB 和未加雜訊。

含雜訊的測試語音是從 MATDB-2 中選擇與訓練語音不同的 320 句(其中男女各 160 人)，把它們等分成 4 個子集合(每個子集合 80 句，其中男女各 40 人)。

每個子集合再與一種雜訊依照六種不同的訊雜比(20dB、15dB、10dB、5dB、0dB、

-5dB)組成含雜訊語音。依照使用雜訊的種類，可把測試語音分成 Set A 與 Set B；

Set A 所用的雜訊與訓練 MCT 模型時所使用的一樣，分別是地下鐵雜訊、人聲雜訊、車子雜訊和展覽室雜訊；而在 Set B 所用的雜訊是餐廳雜訊、街道雜訊、

機場雜訊和車站雜訊。

而含雜訊語音的產生方式，是先隨機由該種類雜訊中取一段與語音相同長度的雜訊訊號，並乘上一個能夠滿足設定的訊雜比的倍率後，再與乾淨語音相加而成。其中訊雜比的計算是依照分段式訊雜比(segmental SNR)的量度方式，如式(4.1) 所示：

{ } { }

∑ ∑

∑

−

∈

= ¹ ∈ 0

I 2 I

10 ( )

) ( log

1 ^M 10

m m m

N n

n S

SNR M

(4.1)

其中

{ } I

代表語音訊號中含有語音的音框所成的集合，M 代表所有語音音框的總

數，而和分別為第個音框的語音和雜訊的能量。這種計算方式只

考慮含有語音的音框去計算訊雜比，因此能夠較準確地合成出符合設定訊雜比的含雜訊語音。

)

n

S

N

_m²(

n

)

m

在文檔中語音強化技術在相加性雜訊環境下的語音辨識之研究 (頁 35-40)

第四章 實驗與結果討論

4.2 語音資料庫簡介

N

E E E

acc N

E E ,

4.2 語音資料庫簡介

4.2.1 雜訊特性分析

4.2.2 語音訓練模型及測試語音

∑ ∑

∑

N n

n S

SNR M

{ } I

n

S

N

n

m

第四章實驗與結果討論