• 沒有找到結果。

第三章 方法與步驟

第三節 生成對抗網路

本研究主要採用生成對抗網路(Generative Adversarial Network, GAN)進行語 音訊號增益處理,並結合自動語音辨識(Automatic Speech Recognition, ASR) 用來達成增進強健性表現之目的。本節將針對本研究使用的 GAN 模型與方 究採用 LSGAN 中的方均根誤差(Mean Square Error, MSE)當作損失函數,其 詳細已於第二章介紹,這裡省略部分細節,在訓練過程中我們需要將 G 與

22

我們用 x 表示乾淨情境樣本(Clean Condition),用𝑥̂ 表示噪訊情境樣本 (Noisy/Multi Condition),再這裡我們把 z(z 為一組 Latent Vector)設為介於 0 到 1 之間的隨機雜訊。將噪訊樣本加上隨機雜訊輸入 G 使其盡可能有能力 把雜亂資料轉換成我們期望的乾淨樣本。

GAN 之訓練步驟主要可以分為三個階段: (1)訓練鑑別器認識真實樣本 (2)訓練鑑別器認識生成器生成之假樣本 (3)固定鑑別器的參數,同時更新生 成器參數以達成訓練目標。

圖: 3-4 GAN 訓練步驟 1

圖: 3-5 GAN 訓練步驟 2

圖: 3-6 GAN 訓練步驟 3

23

以上為GAN 之訓練方法及其示意圖,接著本段將介紹本研究使用之神 經網路架構。我們採用兩種不同結構,分別命名為 CAGAN 以及 DNN-LSGAN,前者採用類似於摺積自動編碼器(Convolution Auto Encoder, CAE) 之結構作為生成器的主要結構,後者則採用全連接DNN 作為生成器的主結 構。啟發於多項類似於自動編碼器(Auto Encoder, AE)與 GAN 結合的研究,

加上目前普遍認為CNN 在學習時間-頻率特徵或圖像的能力比起 DNN 還有 更好效果。而我們以調變頻譜特徵作為輸入,在頻率域上進行訊號增益,概 念類似電腦視覺領域中處理影像降噪的研究,故我們以摺積運算結合自動編 碼器當作一項取得強健性特徵的方法。

在消除噪訊干擾效應的深度學習技術中,降噪自動編碼器(Denoise Autoencoder, DAE) [6]與摺積自動編碼器 [50]是很有效方法。可以輸入被噪 訊破壞的原始資料,並還原出未受干擾的資料。而本研究的GAN 方法就是 受到他們啟發,CAGAN 之生成器就是類似於 CAE 的結構。

圖: 3-7 CAGAN 之生成器

24

我們知道自動編碼器可以分成編碼與解碼兩大部分。在編碼階段,隨著深度 增加,我們將摺積層的Feature Map 大小減半,並在每一次摺積運算後進行 池化(Max Pooling),目的在於將有效的特徵往下傳遞並且減少不必要的網路 參數,使之更方便訓練。在解碼階段,其結構可以視為將編碼階段水平鏡射 的對稱關係,唯一不同處在於相對於最大池化法(Max Pooling),我們在每一 次摺積運算之後採用反取樣法(Un-Sampling),將維度還原成原始大以利進行 後續 ASR 步驟。我們採用嘈雜環境語料結合隨機雜訊作為輸入資料,其結 構如圖3-7 所示。

圖: 3-8 DNN-LSGAN 生成器

此外,顧慮到摺積運算比起全連接DNN 需要更多運算資源,因此也採 用以DNN 結構和 LSGAN 為基礎的 DNN-LSGAN 作為強健性方法之一。考 量到一味加深網路,而未加入其他訓練機制,並不會有效的改進其表現,加 上本結構主要是為了減輕運算量而設計,因此我們捨棄摺積運算,總共使用

25

六層全連接DNN 網路作為 GAN 的生成器(G),祥見圖 3-8。在上述兩個 GAN 網路中,我們分別採用不同的鑑別器結構,有些研究採用自動編碼器(AE)的 解碼部分當作鑑別器,這種方法可以非常準確的鑑別生成特徵的正確性。

不過我們發現越複雜的鑑別器會令生成器變的比較不容易訓練,且為了 簡化計算量,我們採用更為精簡的結構。在CAGAN 中我們採用兩層 Feature Map 為 256 的摺積網路加上池化層,就好像一個很精簡的影像辨識器,在 DNN-LSGAN 中則採用生成器(G)之一半網路層作為鑑別器使用。

圖: 3-9 CAGAN 之鑑別器

圖: 3-10 DNN-LSGAN 之鑑別器

26

相關文件