類神經網路用於語音辨識之聲學模型

第六章調變頻譜非負矩陣分解法之研究

6.5 類神經網路用於語音辨識之聲學模型

Kaldi

[

Povey, 2011

]

是個免費且開放原始碼的語音辨識研究的工具，提供了一個基於有限狀態轉換器語音辨識系統。支持現今以任意上下文長度的上下文相關 (Context-Dependent)之音素來建模，以及常用的最大似然估計技術。

我們利用 Kaldi 中的聲學模型之深層神經網路的方式，來代替原先聲學模型之高斯混和模型(Gaussian Mixture Model, GMM)。我們會預先利用深度信念網路

(Deep Belief Networks, DBNs)來進行預訓練(Pre-Training)去達到能夠得到更好的局部最佳解(Local Optimal Solution)之目的。深度信念網路是一種隨機性的深層神經網路，可以用來進行統計建模，表示特徵的抽象特徵及統計分布。我們使用

4 層的隱藏層，每一層有 2048 的神經元，而深度信念網路的學習率設為 0.4 且迭代 3 次。在訓練神經網路時，每一層有 1024 的神經元，學習率設為 0.008。

摺積神經網路需先擷取濾波器组(Filter Bank)的特徵，利用此特徵來進行預訓練，使用了深度為 4 層的隱藏層，每一層有 1024 的神經元，迭代 20 次。因為類神經網路需要用到發展集(Development Set)，所以我們將訓練資料分成 90%的訓練集以及 10% 的發展集。在此的實驗數據有分成乾淨情境訓練模式 (Clean-Condition Training)與複合情境訓練模式(Multi-Condition Training) 來檢測類神經網路的效能。

表 6-17 乾淨情境訓練模式之 MFCC 之不同的聲學模型的實驗數據 Set A Set B Set C Avg.

MFCC GMM 57.93 57.25 49.74 56.02 DNN 46.74 43.86 43.61 44.96 Filter Bank CNN 48.10 46.32 50.01 47.77

表 6-18 複合情境訓練模式之 MFCC 之不同聲學模型的實驗數據 Set A Set B Set C Avg.

MFCC GMM 90.12 88.21 83.79 88.09 DNN 93.44 86.62 81.61 88.35 Filter Bank CNN 95.14 91.41 86.57 91.94

表 6-19 乾淨情境訓練模式之 DNN 聲學模型之 NMF 實驗數據 Set A Set B Set C Avg.

MFCC 46.74 43.86 43.61 44.96 CMVN 80.06 81.91 79.36 80.66 NMF 60.82 63.50 60.31 61.79 nsNMF 68.18 71.31 67.93 69.38 GNMF 61.87 64.26 59.30 62.31 HNMF 62.53 66.59 61.16 63.88

表 6-20 複合情境訓練模式之 DNN 聲學模型之 NMF 實驗數據 Set A Set B Set C Avg.

MFCC 93.44 86.62 81.61 88.35 CMVN 94.22 92.39 93.32 93.31 NMF 88.71 86.28 87.22 87.44 nsNMF 89.79 88.33 89.44 89.14 GNMF 88.90 86.62 86.84 87.57 HNMF 88.92 86.61 87.14 87.64 在表 6-17 中，我們使用的類神經網路(DNN 與 CNN)來代替 GMM 作為聲學模型，

在 Aurora-2 的乾淨情境訓練模式中。DNN 與 CNN 沒有想像中比 GMM 的效能還好，有可能變差的情況是因為訓練樣本偏少。也有可能是因為訓練樣本是乾淨的，對於在測試階段時當作輸入的測試樣本是擁有雜訊的樣本。所以在用乾淨的訓練樣本訓練時，沒有雜訊的資訊，所以可能變得比 GMM 差。而 CNN 是利用濾波器組(Filter Bank)的特徵，由於摺積層能夠輸入二維的結構，在圖像與語音辨識中相較於DNN能夠給予較優的結果。

在表 6-18 中，是利用複合情境訓練模式的方式。在訓練階段時使用有雜訊的樣本去訓練以獲得雜訊之資訊，所以測試階段時當作輸入的雜訊測試樣本與利用乾淨的訓練樣本相比較，可以擁有優秀的精確率。在表 6-17 中，原本利用乾淨的訓練樣本之類神經網路(DNN、CNN)表現的比 GMM 差，而在表 6-18 中利用有雜訊的樣本訓練，變能表現的比 GMM 好，其中 CNN 還是比 DNN 略勝一

籌。由此可見對類神經網路來說，給予的訓練樣本越正確、差異性越大，類神經網路的能力就越強。

表 6-19 中是乾淨情境訓練模式，都是以 DNN 之聲學模型的實驗數據。可發現在 DNN 之聲學模型中，CMVN 是擁有最佳效能的方式，而 NMF 與其改良，

皆表現的比 CMVN 差。不過其改良單與傳統 NMF 相比的話，還是擁有進步的效果，而添加了稀疏性之性質的 nsNMF 則是進步最多。

表 6-20 中是複合情境訓練模式，也是以 DNN 之聲學模型的實驗數據。因為是以有雜訊的樣本來訓練之基礎實驗，精確率已非常優秀。不過使用 CMVN 還是能夠有明顯進步。從表中可看到，NMF 反而擁有反效果，GNMF 與 HNMF 也是相同情況，不過其兩種改進方式還是能夠比 NMF 稍微好些。nsNMF 比另外兩種改進方式還好，但卻還是沒有勝過 CMVN。會有這種結果可能是因為我們利用 NMF 作實驗時的概念，是利用乾淨訓練樣本去找尋乾淨的基底向量。測試階段時，會直接利用乾淨的基底向量去還原調變頻譜強度成分，所以希望透過乾淨的基底向量去去除雜訊，較能有效果。但是在複合情境訓練模式訓練時使用的是有雜訊的樣本，所以得到的基底向量也是會擁有雜訊，較無法利用以乾淨的基底向量去除雜訊的概念，以導致有反效果。

在文檔中調變頻譜分解之改良於強健性語音辨識 (頁 93-97)

第六章 調變頻譜非負矩陣分解法之研究

6.5 類神經網路用於語音辨識之聲學模型

[

]

第六章調變頻譜非負矩陣分解法之研究