第一章 緒論
第一節 研究趨勢
其中非負矩陣分解法(Non-negative Matrix Factorization, NMF)即為一有 名的例子,。為了解決語音辨識一直存在的變異性問題,非負矩陣分解透過 分群概念解決此一問題,後續發展出的其他方法如:GNMF、CNMF 或者字 典學習法中(Dictionary Learning) [14] [15]常用來訓練字典的 K-SVD [16]都可 視為相似概念的延伸。此類以特徵為基礎之方法可以有效解決語音辨識中環
4
擷取原始資料中之重要成分,同時比起主成分分析(Principal Component Analysis, PCA)和獨立成分分析(Independent Component Analysis, ICA)提供良 好的研究基礎。所以,學者們由以上研究得到啟發,致力於語音特徵的正規 化方法,包含倒頻譜平均消去法(Cepstral Mean Subtraction, CMS),倒頻譜平 均與變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)以及 統計圖等化法(Histogram Equalization, HEQ)。 [3]即為一種針對 NMF 改良 之進一步研究,包括:非負稀疏編碼,稀疏非負矩陣分解法,局部非負矩陣分 解法…等 探討一系列以 NMF 為基礎的改進方法。以上方法皆可針對語音 訊號之子空間結構進行一系列研究,也是眾多特徵正規化方法中主要的研究 趨勢。
在特徵強化方面,以往多為以頻譜相減(Spectral Subtraction) [18]、和濾 波為主要方法,著名的維娜濾波器(Wiener Filter)即是一種經典的案例。但自 從導入深度學習技術之後有了新穎的突破,深度學習技術在影像辨識與電腦 視覺領域大放異彩,故學者們也借用了諸多深度學習技術的概念,用以投入 語音辨識的研究。深度學習技術除了在語言模型與聲學模型這兩大傳統語音 辨識系統基本構造有顯著突破之外。在以特徵為基礎的強健性技術方面,也 有學者發表了用深度神經網路進行語音訊號增益(Speech Enhancement)研究 [19],生成模型導入語音特徵的強健性技術便在此時登場了。然而我們並不 知道自動生成的語音特徵是否夠接近我們預期的乾淨不受干擾的語料,引此 導入自動生成對抗網路(GAN)便形成了一個新解方。
5
生成對抗網路(GAN)除了開創了深度學習技術的一條新路,也為語音訊 號增益等強健性方法開創一個新局面 [11] [20]。一個典型的 GAN 之中包含 兩 種 網 路 , 其 中 一 個 擔 任 生 成 器(Generator) , 另 一 個 擔 任 辨 別 器 (Discriminator),生成器用以產生特徵,辨別器用來判斷是否夠接近真實結果,
同時訓練這個網路,用來解決前述問題便是導入 GAN 的一大想法,關於 GAN 運用於語音強健性技術將於第三章詳細介紹。
另一方面,以模型為基礎的方法以往被視為需要耗費較多運算資源,雖 然此類方法可以得到更優秀的辨識表現,但計算量大,以及缺乏延展性是其 缺點,所以在漫長的語音強健性研究歷史中比較少著墨。然而近幾年以來,
計算資源以及加速算法有了長足進步,因此「加深」、「加廣」、「複雜化」聲 學模型賦予其更多學習能力也成為了一部份學者的研究方向。
目前在多項研究中,學著們發現卷積網路(Convolution Neural Network, CNN)運用在聲學模型上比起傳統深度神經網路(Deep Neural Network, DNN) 模型可以達到更佳辨識效果。因此發展出了不少採用深度卷積網路改良聲學 模型的研究,Very Deep CNN [21]的用均為此一大宗。此外,RNN-LSTM [12]
以及 High-Way Network [13]以及多任務學習 [22]這些更先進的深度學習技 術與訓練方法的出現也茁壯了模型調適研究的成長。
6
另一方面,在著名的 Kaldi 語音訊號處理研究套件中,Vijayaditya Peddintiu 以及 Dan Povey 等人提出的時延神經網路(Time Delay Neural Network, TDNN)與因子分解時延神經網路(Factorized-TDNN, TDNN-F) [23]
[24]即為兩種以 CNN 為基礎的變形,雖然其不算是強健性方法之一,但是 其優異表現以及更容易訓練的特點,目前被廣泛的採用作為 ASR 的系統之 一。故本研究將在TDNN-F 環境下實驗論證各種新穎強健性技術,比較箇中 差異提出部分改進,期望能為為強健性技術研究做出一分貢獻。
7
生成對抗網路(Generative Adversarial Network, GAN)最初應用在影像處 理與電腦視覺上 [27]為近幾年快速崛起的新穎機器學習技術 [11] [20] [8]。
藉由同時訓練產生器與鑑別器兩種網路便可產生特定風格之以假亂真的影 像。借用上述概念,將其應用在語音辨識上則可設計令其產生乾淨語音特徵 的頻譜以增加整體ASR 系統的強健性。