第四章 實驗與結果討論
4.2 語音資料庫簡介
×100
−
−
= −
N
E E E
acc N
S D I (4.13)其中 N 是輸入測試語音中所有音節(syllable)的個數, 和 分別是辨識結 果中替代型錯誤(substitution error)、刪除型錯誤(deletion error)和插入型錯誤 (insertion error)的音節個數。
D S
E E ,
EI4.2 語音資料庫簡介
實驗中採用的語音資料庫是MAT2000 的子資料庫,MATDB-2[19]。此子資 料庫錄製了近兩千人的連續數字語音,每人一句、一句七個數字,其取樣頻率為 8kHz,我們用此作為乾淨語音。雜訊訊號是來自AURORA2 資料庫[18],包含了 八種在日常生活中經常會面臨到的雜訊,分別為地下鐵雜訊(subway)、人聲雜訊 (babble)、車子雜訊(car)、展覽室雜訊(exhibition hall)、餐廳雜訊(restaurant)、街 道雜訊(street)、機場雜訊(airport)和車站雜訊(train station),取樣頻率也是 8kHz。
4.2.1 雜訊特性分析
同一種語音強化法在面對不同種類的雜訊時,會因為雜訊特性的不同,而有 不同的強化效果。一般而言,具有不穩定的(non-stationary)的特性或是主要能量 分佈在與語音相同頻帶上的雜訊是屬於較不易消除的。不穩定的特性代表了雜訊
的頻譜會隨時間呈現劇烈變化,而有忽隱忽現(impulsive)的情形,因此很難準確 地估計出雜訊,易導致語音強化後的效果不明顯。當雜訊與語音分佈在相同頻帶 上,也很難分辨出雜訊和語音的差異,亦增加了語音強化的困難度。由於從聲譜 圖(spectrogram)能觀察出訊號頻譜隨時間變化的穩定程度,以及主要能量分佈的 頻譜範圍,因此我們在圖 4-4 到圖 4-11 畫出實驗中所使用的八種雜訊之聲譜圖,
並探討不同種類雜訊之特性。
圖 4-4: 地下鐵雜訊的聲譜圖
圖 4-6: 車子雜訊的聲譜圖
圖 4-7: 展覽室雜訊的聲譜圖
圖 4-8: 餐廳雜訊的聲譜圖
圖 4-9: 街道雜訊的聲譜圖
圖 4-10: 機場雜訊的聲譜圖
我們依雜訊的穩定性以及主要能量分佈的頻率範圍,對雜訊的特性進行說 明:
(1) 依照穩定性可分成不穩定雜訊或是穩定雜訊:
․不穩定雜訊:最不穩定的雜訊是地下鐵雜訊和餐廳雜訊,接下來是人聲雜 訊,其次是機場雜訊,而街道雜訊與車站雜訊的不穩定特性是其中較不明顯 的。
․穩定雜訊:最穩定的是車子雜訊,再來是展覽室雜訊。
(2) 依照主要能量分佈的頻率範圍可分成類人聲雜訊與非類人聲雜訊:
․類人聲雜訊:人聲雜訊與餐廳雜訊均屬此類。
․非類人聲雜訊:主要能量分佈在中高頻(500~2500Hz)的有展覽室雜訊,而 分佈在中低頻 (50~1000Hz) 的有機場雜訊和街道雜訊;分佈在最低頻 (150Hz 以下)的有車子雜訊和車站雜訊。而地下鐵雜訊則是分佈在高頻與低 頻的範圍內。
4.2.2 語音訓練模型及測試語音
本實驗依照 4.1.3 節的語音聲學模型設計了兩種模型的訓練方式:
(1) 乾淨語音訓練(Clean Speech Training, CST)模型 – 此模型只使用乾淨語音作 為訓練語音。
(2) 多環境訓練(Multi-Condition Training, MCT)模型 – 此模型一併使用乾淨和 含雜訊的語音為訓練語音。
CST 模型從 MATDB-2 中抽取了 1726 句的乾淨語音進行訓練(其中男生 753 人、女生 973 人)。MCT 模型也是使用與 CST 模型相同的 1726 句語音,但是需 先把它們等分為 20 個子集合(每個子集合約 86 句),每個子集合分別加上不同種 類的雜訊,組成不同訊雜比後,才能作為 MCT 模型的訓練語音。這 20 個子集
合各自代表了 4 種不同種類的雜訊以及 5 種不同的訊雜比,這四種雜訊分別為地 下鐵雜訊、人聲雜訊、車子雜訊和展覽室雜訊;而 5 種訊雜比為 20dB、15dB、
10dB、5dB 和未加雜訊。
含雜訊的測試語音是從 MATDB-2 中選擇與訓練語音不同的 320 句(其中男 女各 160 人),把它們等分成 4 個子集合(每個子集合 80 句,其中男女各 40 人)。
每個子集合再與一種雜訊依照六種不同的訊雜比(20dB、15dB、10dB、5dB、0dB、
-5dB)組成含雜訊語音。依照使用雜訊的種類,可把測試語音分成 Set A 與 Set B;
Set A 所用的雜訊與訓練 MCT 模型時所使用的一樣,分別是地下鐵雜訊、人聲 雜訊、車子雜訊和展覽室雜訊;而在 Set B 所用的雜訊是餐廳雜訊、街道雜訊、
機場雜訊和車站雜訊。
而含雜訊語音的產生方式,是先隨機由該種類雜訊中取一段與語音相同長度 的雜訊訊號,並乘上一個能夠滿足設定的訊雜比的倍率後,再與乾淨語音相加而 成。其中訊雜比的計算是依照分段式訊雜比(segmental SNR)的量度方式,如式(4.1) 所示:
{ } { }
∑ ∑
∑
−
=
∈
= 1 ∈ 0
I 2 I
2
10 ( )
) ( log
1 M 10
m
m m m
m
dB
N n
n S
SNR M
(4.1)其中
{ } I
代表語音訊號中含有語音的音框所成的集合,M 代表所有語音音框的總數,而 和 分別為第 個音框的語音和雜訊的能量。這種計算方式只
考慮含有語音的音框去計算訊雜比,因此能夠較準確地合成出符合設定訊雜比的 含雜訊語音。
)
2(