最近搜尋

沒有找到結果。

標籤

沒有找到結果。

文件

沒有找到結果。

上傳

首頁學校主題

登錄

語料庫介紹

在文檔中探索基於生成對抗網路之新穎強健性技術 於語音辨識的應用 (頁 35-42)

第四章基礎實驗

第一節語料庫介紹

本研究採用 AURORA-4 作為實驗語料庫，收錄了華爾街日報(Wall Street Journal , WSJ)之中長篇幅文章的朗讀發音 [51]，並包含-5dB 至+15dB 的雜訊。簡而言之AURORA-4 是以華爾街日報為基礎錄音並加上 6 種不同情境下的噪音來組成的，是一個專門設計用來從事語音強健性技術研究的語料庫。

其中包含 8KHz 與 16KHz 兩種音頻取樣率並且採用兩種麥克風錄音 (Sennheiser, Secondary-Mic) 。其訓練資料集可分為無雜訊干擾 (Clean-Condition)，和雜訊混合(Multi-Condition)兩種，測試集則包含的 6 種雜訊，

分別包含330 個發音，其種類如下:人聲(Babble)、汽車(Car)、機場(Airport)、

火車(Train)、街道(Street)、餐廳(Restaurant)。另一方面，將測試集分為 A、

B、C、D 四種子集合，其詳細介紹如表 4-1，此外本研究均採用 16Khz 作為取樣率。

27

表: 4-1 Aurora-4 語料庫介紹取樣率 8KHz/16KHz

語音內容 WSJ 5000 詞

長度約15 小時，每一句約 5~12 秒鐘訓練資料 Clean:7138 個語句 Multi:7137 個語句測試資料 A 組:330 個無雜訊語句

B 組:1980 個語句，包含六種環境語句

C 組: 受通道效應干擾的 330 個無雜訊的語句 D 組: 受通道效應干擾的 1980 個包含雜訊的語句

第二節基礎實驗

本研究所有實驗皆採用16KHz 為取樣率，以下為 6 種環境疊加噪訊與受到通道折積效應干擾的子集合以及乾淨語料共 14 個子集合分別在 GMM-HMM, TDNN, TDNN-F 三種 ASR 系統下之基礎實驗結果。

本研究採用詞錯誤率(Word Error Rate, WER)作為評估語音辨識效能的標準，WER(%)為美國標準與科技組織所定義之評估方法，目前在語音辨識研究中被廣泛採用。以S 表示詞取代個數，I 為詞插入個數，D 為詞刪除個數，N 為總輸入詞數，則 WER(%)之計算公式如下:

WER% =^{𝑆+𝐼+𝐷}

𝑁 ∗ 100%, (9)

28

WV1 為無通道效應，WV2 為受到通道效應干擾，以下分別整理出 14 種子集合和不同ASR 系統之基礎實驗結果:

表: 4-2 GMM-HMM 基礎實驗結果 1 GMM-HMM : Multi-Condition Training (WER%)

Clean Car Babble Restaurant Street Airport Train WV1 7.81 8.11 12.25 17.30 14.61 11.68 15.99 WV2 29.24 17.95 27.24 29.40 30.24 25.26 31.38

表: 4-2 為在 GMM-HMM 模型下採用原始 MFCC 特徵於多情境訓練下各子集合之基礎實驗結果。首先，我們把每一種噪聲環境和是否受通道效應干擾獨立出來看，我們可以發現在乾淨的語句中辨識效果尚屬優異，然而隨著噪聲加入以及通道效應干擾，其辨識結果之詞錯誤率漸漸升高，也就是應證了噪聲將嚴重干擾語音辨識的現象。

表: 4-3 GMM-HMM 基礎實驗結果 2

GMM-HMM : Clean-Condition Training (WER%)

Clean Car Babble Restaurant Street Airport Train

WV1 41.40 16.01 32.43 41.01 39.90 30.67 41.40

WV2 57.76 34.75 50.76 53.78 57.29 48.38 57.76

29

表: 4-3 則為在 GMM-HMM 模型下採用原始 MFCC 特徵於單一情境訓練下各子集合之基礎實驗結果，除了和表: 4-2 一樣可以看出噪聲以及通道效應的干擾之外。我們也可以看出比起多情境訓練，在單一情境訓練下，聲學模型無法學習到各種干擾效應的機率分布。所以，比起多情境訓練，單一情境訓練比較缺乏容忍干擾的能力。GMM-HMM 是語音辨識系統中較為原始的經典聲學模型架構，也因此我們更能夠清楚的從中看出噪聲干擾與通道效應干擾已經嚴重扭曲了語音特徵的時空結構。由此可見，這就是影響語音辨識系統表現的主要原因。

表: 4-4 TDNN 基礎實驗結果 1

TDNN : Multi-Condition Training (WER%)

Clean Car Babble Restaurant Street Airport Train

WV1 3.05 4.52 6.95 9.45 9.02 6.56 9.42

WV2 9.08 13.41 20.51 22.75 22.12 19.37 23.09

表: 4-4 為採用時延神經網路(Time Delay Neural Network, TDNN)與原始 MFCC 特徵在多情境訓練環境下的表現。我們可以看出，由於時延神經網路可以顧及到前後一段時間的資訊語音特徵資訊，因此在受到扭曲的時空結構中，也能夠學習一部分有用資訊，使語音辨識效果更加正確。

30

表: 4-5 TDNN 基礎實驗結果 2

TDNN : Clean-Condition Training (WER%)

Clean Car Babble Restaurant Street Airport Train

WV1 2.67 34.53 40.31 47.88 58.73 40.58 55.65

WV2 43.31 61.11 60.00 68.26 75.40 61.69 70.32

如表: 4-5 所示，然而時延神經網路與原始 MFCC 特徵在單一情境訓練下的表現卻不是那麼理想，尤其在同時受到通道效應干擾與噪聲干擾的情境之下。目前推測原因在於時延神經網路可學習每一個音框(Frame)前後一段時間的資訊，然而單一情境訓練皆採用乾淨未受干擾的語料訓練模型，因此對於扭曲的時空資訊較缺乏應對能力，故在解碼階段受到通道效應干擾與噪聲干擾的情境其辨識效果較差。

表: 4-6 TDNN-F 基礎實驗結果 1

8 Layer TDNN-F: Multi-Condition Training (WER%)

Clean Car Babble Restaurant Street Airport Train

WV1 4.54 5.44 8.69 12.35 10.97 8.65 10.70 WV2 9.10 14.32 23.54 25.85 26.23 22.04 25.63

31

表: 4-6 為因子分解時延神經網路(Factorized-TDNN, TDNN-F)與原始 MFCC 特徵於多情境訓練下之基礎實驗結果。TDNN-F 是語音辨識系統導入深度學習技術之後，近年來被廣泛採用之新穎聲學模型之一，故以此作為實驗比較的依據。

表: 4-7 TDNN-F 基礎實驗結果 2

表: 4-7 是 TDNN-F 與原始 MFCC 特徵在單一情境訓練下之基礎實驗結果，其表現較差的原因，我們認為和 TDNN 在單一情境訓練之下相似，原因大致和前述段落討論的結果相同。

8 Layer TDNN-F : Clean-Condition Training (WER%)

Clean Car Babble Restaurant Street Airport Train

WV1 3.61 14.20 40.65 53.58 56.14 37.08 50.08

WV2 33.18 43.56 58.75 64.71 69.42 59.28 64.39

32

表: 4-8 整體基礎實驗結果

由於AURORA-4 包含多種情境，為了更方便比較數據，通常大致將 14 種情境的測試集分成A、B、C、D 四個子集合。A 為乾淨未受任何干擾之語句，B 為包含 6 種環境疊加噪音的語句，C 為乾淨但是受到通道效應干擾之語句，D 則為同時包受到環境噪聲和通道效應干擾的語句(詳細介紹請參閱表4-1)表: 4-8 為整體基礎實驗結果與 3 種不同 ASR 系統下之比較。

Multi Condition Training (WER%)

A B C D AVG

GMM-HMM 7.81 13.32 29.24 26.91 19.32

TDNN 3.05 7.65 9.08 20.21

10.00

TDNN-F 4.54 9.47 9.10 22.94 11.51

Clean Condition Training (WER%)

A B C D AVG

GMM-HMM 41.40 33.57 57.76 50.47 45.80

TDNN 2.67 46.28 43.31 66.13 39.60

TDNN-F 3.61 41.96 33.18 60.01

34.69

33

在文檔中探索基於生成對抗網路之新穎強健性技術 於語音辨識的應用 (頁 35-42)

立即下載 "探索基於生成對抗網路之..."

Outline

相關文件