生成對抗網路

第三章方法與步驟

第三節生成對抗網路

本研究主要採用生成對抗網路(Generative Adversarial Network, GAN)進行語音訊號增益處理，並結合自動語音辨識(Automatic Speech Recognition, ASR) 用來達成增進強健性表現之目的。本節將針對本研究使用的 GAN 模型與方究採用 LSGAN 中的方均根誤差(Mean Square Error, MSE)當作損失函數，其詳細已於第二章介紹，這裡省略部分細節，在訓練過程中我們需要將 G 與

我們用 x 表示乾淨情境樣本(Clean Condition)，用𝑥̂ 表示噪訊情境樣本 (Noisy/Multi Condition)，再這裡我們把 z(z 為一組 Latent Vector)設為介於 0 到 1 之間的隨機雜訊。將噪訊樣本加上隨機雜訊輸入 G 使其盡可能有能力把雜亂資料轉換成我們期望的乾淨樣本。

GAN 之訓練步驟主要可以分為三個階段: (1)訓練鑑別器認識真實樣本 (2)訓練鑑別器認識生成器生成之假樣本 (3)固定鑑別器的參數，同時更新生成器參數以達成訓練目標。

圖: 3-4 GAN 訓練步驟 1

圖: 3-5 GAN 訓練步驟 2

圖: 3-6 GAN 訓練步驟 3

以上為GAN 之訓練方法及其示意圖，接著本段將介紹本研究使用之神經網路架構。我們採用兩種不同結構，分別命名為 CAGAN 以及 DNN-LSGAN，前者採用類似於摺積自動編碼器(Convolution Auto Encoder, CAE) 之結構作為生成器的主要結構，後者則採用全連接DNN 作為生成器的主結構。啟發於多項類似於自動編碼器(Auto Encoder, AE)與 GAN 結合的研究，

加上目前普遍認為CNN 在學習時間-頻率特徵或圖像的能力比起 DNN 還有更好效果。而我們以調變頻譜特徵作為輸入，在頻率域上進行訊號增益，概念類似電腦視覺領域中處理影像降噪的研究，故我們以摺積運算結合自動編碼器當作一項取得強健性特徵的方法。

在消除噪訊干擾效應的深度學習技術中，降噪自動編碼器(Denoise Autoencoder, DAE) [6]與摺積自動編碼器 [50]是很有效方法。可以輸入被噪訊破壞的原始資料，並還原出未受干擾的資料。而本研究的GAN 方法就是受到他們啟發，CAGAN 之生成器就是類似於 CAE 的結構。

圖: 3-7 CAGAN 之生成器

我們知道自動編碼器可以分成編碼與解碼兩大部分。在編碼階段，隨著深度增加，我們將摺積層的Feature Map 大小減半，並在每一次摺積運算後進行池化(Max Pooling)，目的在於將有效的特徵往下傳遞並且減少不必要的網路參數，使之更方便訓練。在解碼階段，其結構可以視為將編碼階段水平鏡射的對稱關係，唯一不同處在於相對於最大池化法(Max Pooling)，我們在每一次摺積運算之後採用反取樣法(Un-Sampling)，將維度還原成原始大以利進行後續 ASR 步驟。我們採用嘈雜環境語料結合隨機雜訊作為輸入資料，其結構如圖3-7 所示。

圖: 3-8 DNN-LSGAN 生成器

此外，顧慮到摺積運算比起全連接DNN 需要更多運算資源，因此也採用以DNN 結構和 LSGAN 為基礎的 DNN-LSGAN 作為強健性方法之一。考量到一味加深網路，而未加入其他訓練機制，並不會有效的改進其表現，加上本結構主要是為了減輕運算量而設計，因此我們捨棄摺積運算，總共使用

六層全連接DNN 網路作為 GAN 的生成器(G)，祥見圖 3-8。在上述兩個 GAN 網路中，我們分別採用不同的鑑別器結構，有些研究採用自動編碼器(AE)的解碼部分當作鑑別器，這種方法可以非常準確的鑑別生成特徵的正確性。

不過我們發現越複雜的鑑別器會令生成器變的比較不容易訓練，且為了簡化計算量，我們採用更為精簡的結構。在CAGAN 中我們採用兩層 Feature Map 為 256 的摺積網路加上池化層，就好像一個很精簡的影像辨識器，在 DNN-LSGAN 中則採用生成器(G)之一半網路層作為鑑別器使用。

圖: 3-9 CAGAN 之鑑別器

圖: 3-10 DNN-LSGAN 之鑑別器

在文檔中探索基於生成對抗網路之新穎強健性技術 於語音辨識的應用 (頁 30-35)

第三章 方法與步驟

第三節 生成對抗網路

第三章方法與步驟

第三節生成對抗網路