研究趨勢

第一章緒論

第一節研究趨勢

其中非負矩陣分解法(Non-negative Matrix Factorization, NMF)即為一有名的例子，。為了解決語音辨識一直存在的變異性問題，非負矩陣分解透過分群概念解決此一問題，後續發展出的其他方法如:GNMF、CNMF 或者字典學習法中(Dictionary Learning) [14] [15]常用來訓練字典的 K-SVD [16]都可視為相似概念的延伸。此類以特徵為基礎之方法可以有效解決語音辨識中環

擷取原始資料中之重要成分，同時比起主成分分析(Principal Component Analysis, PCA)和獨立成分分析(Independent Component Analysis, ICA)提供良好的研究基礎。所以，學者們由以上研究得到啟發，致力於語音特徵的正規化方法，包含倒頻譜平均消去法(Cepstral Mean Subtraction, CMS)，倒頻譜平均與變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)以及統計圖等化法(Histogram Equalization, HEQ)。 [3]即為一種針對 NMF 改良之進一步研究，包括:非負稀疏編碼，稀疏非負矩陣分解法，局部非負矩陣分解法…等探討一系列以 NMF 為基礎的改進方法。以上方法皆可針對語音訊號之子空間結構進行一系列研究，也是眾多特徵正規化方法中主要的研究趨勢。

在特徵強化方面，以往多為以頻譜相減(Spectral Subtraction) [18]、和濾波為主要方法，著名的維娜濾波器(Wiener Filter)即是一種經典的案例。但自從導入深度學習技術之後有了新穎的突破，深度學習技術在影像辨識與電腦視覺領域大放異彩，故學者們也借用了諸多深度學習技術的概念，用以投入語音辨識的研究。深度學習技術除了在語言模型與聲學模型這兩大傳統語音辨識系統基本構造有顯著突破之外。在以特徵為基礎的強健性技術方面，也有學者發表了用深度神經網路進行語音訊號增益(Speech Enhancement)研究 [19]，生成模型導入語音特徵的強健性技術便在此時登場了。然而我們並不知道自動生成的語音特徵是否夠接近我們預期的乾淨不受干擾的語料，引此導入自動生成對抗網路(GAN)便形成了一個新解方。

生成對抗網路(GAN)除了開創了深度學習技術的一條新路，也為語音訊號增益等強健性方法開創一個新局面 [11] [20]。一個典型的 GAN 之中包含兩種網路，其中一個擔任生成器(Generator) ，另一個擔任辨別器 (Discriminator)，生成器用以產生特徵，辨別器用來判斷是否夠接近真實結果，

同時訓練這個網路，用來解決前述問題便是導入 GAN 的一大想法，關於 GAN 運用於語音強健性技術將於第三章詳細介紹。

另一方面，以模型為基礎的方法以往被視為需要耗費較多運算資源，雖然此類方法可以得到更優秀的辨識表現，但計算量大，以及缺乏延展性是其缺點，所以在漫長的語音強健性研究歷史中比較少著墨。然而近幾年以來，

計算資源以及加速算法有了長足進步，因此「加深」、「加廣」、「複雜化」聲學模型賦予其更多學習能力也成為了一部份學者的研究方向。

目前在多項研究中，學著們發現卷積網路(Convolution Neural Network, CNN)運用在聲學模型上比起傳統深度神經網路(Deep Neural Network, DNN) 模型可以達到更佳辨識效果。因此發展出了不少採用深度卷積網路改良聲學模型的研究，Very Deep CNN [21]的用均為此一大宗。此外，RNN-LSTM [12]

以及 High-Way Network [13]以及多任務學習 [22]這些更先進的深度學習技術與訓練方法的出現也茁壯了模型調適研究的成長。

另一方面，在著名的 Kaldi 語音訊號處理研究套件中，Vijayaditya Peddintiu 以及 Dan Povey 等人提出的時延神經網路(Time Delay Neural Network, TDNN)與因子分解時延神經網路(Factorized-TDNN, TDNN-F) [23]

[24]即為兩種以 CNN 為基礎的變形，雖然其不算是強健性方法之一，但是其優異表現以及更容易訓練的特點，目前被廣泛的採用作為 ASR 的系統之一。故本研究將在TDNN-F 環境下實驗論證各種新穎強健性技術，比較箇中差異提出部分改進，期望能為為強健性技術研究做出一分貢獻。

生成對抗網路(Generative Adversarial Network, GAN)最初應用在影像處理與電腦視覺上 [27]為近幾年快速崛起的新穎機器學習技術 [11] [20] [8]。

藉由同時訓練產生器與鑑別器兩種網路便可產生特定風格之以假亂真的影像。借用上述概念，將其應用在語音辨識上則可設計令其產生乾淨語音特徵的頻譜以增加整體ASR 系統的強健性。

在文檔中探索基於生成對抗網路之新穎強健性技術 於語音辨識的應用 (頁 12-16)

第一章 緒論

第一節 研究趨勢

第一章緒論

第一節研究趨勢