第四章 基礎實驗
第一節 語料庫介紹
本研究採用 AURORA-4 作為實驗語料庫,收錄了華爾街日報(Wall Street Journal , WSJ)之中長篇幅文章的朗讀發音 [51],並包含-5dB 至+15dB 的雜 訊。簡而言之AURORA-4 是以華爾街日報為基礎錄音並加上 6 種不同情境 下的噪音來組成的,是一個專門設計用來從事語音強健性技術研究的語料庫。
其 中包 含 8KHz 與 16KHz 兩種音頻取樣率並且採用兩種麥克風錄音 (Sennheiser, Secondary-Mic) 。 其 訓 練 資 料 集 可 分 為 無 雜 訊 干 擾 (Clean-Condition),和雜訊混合(Multi-Condition)兩種,測試集則包含的 6 種雜訊,
分別包含330 個發音,其種類如下:人聲(Babble)、汽車(Car)、機場(Airport)、
火車(Train)、街道(Street)、餐廳(Restaurant)。另一方面,將測試集分為 A、
B、C、D 四種子集合,其詳細介紹如表 4-1,此外本研究均採用 16Khz 作為 取樣率。
27
表: 4-1 Aurora-4 語料庫介紹 取樣率 8KHz/16KHz
語音內容 WSJ 5000 詞
長度 約15 小時,每一句約 5~12 秒鐘 訓練資料 Clean:7138 個語句 Multi:7137 個語句 測試資料 A 組:330 個無雜訊語句
B 組:1980 個語句,包含六種環境語句
C 組: 受通道效應干擾的 330 個無雜訊的語句 D 組: 受通道效應干擾的 1980 個包含雜訊的語句
第二節 基礎實驗
本研究所有實驗皆採用16KHz 為取樣率,以下為 6 種環境疊加噪訊與受到 通道折積效應干擾的子集合以及乾淨語料共 14 個子集合分別在 GMM-HMM, TDNN, TDNN-F 三種 ASR 系統下之基礎實驗結果。
本研究採用詞錯誤率(Word Error Rate, WER)作為評估語音辨識效能的 標準,WER(%)為美國標準與科技組織所定義之評估方法,目前在語音辨識 研究中被廣泛採用。以S 表示詞取代個數,I 為詞插入個數,D 為詞刪除個 數,N 為總輸入詞數,則 WER(%)之計算公式如下:
WER% =𝑆+𝐼+𝐷
𝑁 ∗ 100%, (9)
28
WV1 為無通道效應,WV2 為受到通道效應干擾,以下分別整理出 14 種子 集合和不同ASR 系統之基礎實驗結果:
表: 4-2 GMM-HMM 基礎實驗結果 1 GMM-HMM : Multi-Condition Training (WER%)
Clean Car Babble Restaurant Street Airport Train WV1 7.81 8.11 12.25 17.30 14.61 11.68 15.99 WV2 29.24 17.95 27.24 29.40 30.24 25.26 31.38
表: 4-2 為在 GMM-HMM 模型下採用原始 MFCC 特徵於多情境訓練下 各子集合之基礎實驗結果。首先,我們把每一種噪聲環境和是否受通道效應 干擾獨立出來看,我們可以發現在乾淨的語句中辨識效果尚屬優異,然而隨 著噪聲加入以及通道效應干擾,其辨識結果之詞錯誤率漸漸升高,也就是應 證了噪聲將嚴重干擾語音辨識的現象。
表: 4-3 GMM-HMM 基礎實驗結果 2
GMM-HMM : Clean-Condition Training (WER%)
Clean Car Babble Restaurant Street Airport Train
WV1 41.40 16.01 32.43 41.01 39.90 30.67 41.40
WV2 57.76 34.75 50.76 53.78 57.29 48.38 57.76
29
表: 4-3 則為在 GMM-HMM 模型下採用原始 MFCC 特徵於單一情境訓 練下各子集合之基礎實驗結果,除了和表: 4-2 一樣可以看出噪聲以及通道 效應的干擾之外。我們也可以看出比起多情境訓練,在單一情境訓練下,聲 學模型無法學習到各種干擾效應的機率分布。所以,比起多情境訓練,單一 情境訓練比較缺乏容忍干擾的能力。GMM-HMM 是語音辨識系統中較為原 始的經典聲學模型架構,也因此我們更能夠清楚的從中看出噪聲干擾與通道 效應干擾已經嚴重扭曲了語音特徵的時空結構。由此可見,這就是影響語音 辨識系統表現的主要原因。
表: 4-4 TDNN 基礎實驗結果 1
TDNN : Multi-Condition Training (WER%)
Clean Car Babble Restaurant Street Airport Train
WV1 3.05 4.52 6.95 9.45 9.02 6.56 9.42
WV2 9.08 13.41 20.51 22.75 22.12 19.37 23.09
表: 4-4 為採用時延神經網路(Time Delay Neural Network, TDNN)與原始 MFCC 特徵在多情境訓練環境下的表現。我們可以看出,由於時延神經網路 可以顧及到前後一段時間的資訊語音特徵資訊,因此在受到扭曲的時空結構 中,也能夠學習一部分有用資訊,使語音辨識效果更加正確。
30
表: 4-5 TDNN 基礎實驗結果 2
TDNN : Clean-Condition Training (WER%)
Clean Car Babble Restaurant Street Airport Train
WV1 2.67 34.53 40.31 47.88 58.73 40.58 55.65
WV2 43.31 61.11 60.00 68.26 75.40 61.69 70.32
如表: 4-5 所示,然而時延神經網路與原始 MFCC 特徵在單一情境訓練 下的表現卻不是那麼理想,尤其在同時受到通道效應干擾與噪聲干擾的情境 之下。目前推測原因在於時延神經網路可學習每一個音框(Frame)前後一段 時間的資訊,然而單一情境訓練皆採用乾淨未受干擾的語料訓練模型,因此 對於扭曲的時空資訊較缺乏應對能力,故在解碼階段受到通道效應干擾與噪 聲干擾的情境其辨識效果較差。
表: 4-6 TDNN-F 基礎實驗結果 1
8 Layer TDNN-F: Multi-Condition Training (WER%)
Clean Car Babble Restaurant Street Airport Train
WV1 4.54 5.44 8.69 12.35 10.97 8.65 10.70 WV2 9.10 14.32 23.54 25.85 26.23 22.04 25.63
31
表: 4-6 為因子分解時延神經網路(Factorized-TDNN, TDNN-F)與原始 MFCC 特徵於多情境訓練下之基礎實驗結果。TDNN-F 是語音辨識系統導入 深度學習技術之後,近年來被廣泛採用之新穎聲學模型之一,故以此作為實 驗比較的依據。
表: 4-7 TDNN-F 基礎實驗結果 2
表: 4-7 是 TDNN-F 與原始 MFCC 特徵在單一情境訓練下之基礎實驗結 果,其表現較差的原因,我們認為和 TDNN 在單一情境訓練之下相似,原 因大致和前述段落討論的結果相同。
8 Layer TDNN-F : Clean-Condition Training (WER%)
Clean Car Babble Restaurant Street Airport Train
WV1 3.61 14.20 40.65 53.58 56.14 37.08 50.08
WV2 33.18 43.56 58.75 64.71 69.42 59.28 64.39
32
表: 4-8 整體基礎實驗結果
由於AURORA-4 包含多種情境,為了更方便比較數據,通常大致將 14 種情境的測試集分成A、B、C、D 四個子集合。A 為乾淨未受任何干擾之語 句,B 為包含 6 種環境疊加噪音的語句,C 為乾淨但是受到通道效應干擾之 語句,D 則為同時包受到環境噪聲和通道效應干擾的語句(詳細介紹請參閱 表4-1)表: 4-8 為整體基礎實驗結果與 3 種不同 ASR 系統下之比較。
Multi Condition Training (WER%)
A B C D AVG
GMM-HMM 7.81 13.32 29.24 26.91 19.32
TDNN 3.05 7.65 9.08 20.21
10.00
TDNN-F 4.54 9.47 9.10 22.94 11.51
Clean Condition Training (WER%)
A B C D AVG
GMM-HMM 41.40 33.57 57.76 50.47 45.80
TDNN 2.67 46.28 43.31 66.13 39.60
TDNN-F 3.61 41.96 33.18 60.01
34.69
33