探索基於生成對抗網路之新穎強健性技術 於語音辨識的應用

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：. 陳柏琳. 博士. 探索基於生成對抗網路之新穎強健性技術於語音辨識的應用 Exploring Generative Adversarial Network Based Robustness Techniques for Automatic Speech Recognition. 研究生：. 中華民國. 楊明璋. 108. 撰. 年. 8 月.

(2) 摘要近年深度學習技術在許多領域有重大突破，在各種實際應用中也大放異彩，於自動語音辨識的應用中也一樣有優秀表現。雖然主流語音辨識系統在某些指標性任務上已經可達到和人類聽覺相當的辨識效果，然而它們卻不像人類一樣對於環境干擾具有強健性，也就是說儘管語音辨識系統有了大幅度的改進，「噪聲」仍舊一定程度的干擾語音辨識之準確度。諸如:背景人聲，火車，公車站牌，汽車噪音，餐館背景雜音…以上皆為常見的環境噪聲干擾。所以強健性技術的研究在當今語音辨識系統發展中扮演著重要角色。有鑑於此，本論文著手研究在語音特徵向量序列之調變頻譜上基於生成對抗網路之有效的增益方法。並在 Aurora4 語料庫上進行一系列實驗顯示本研究使用的方法可以增進語音辨識的效果。. 關鍵字: 自動語音辨識、強健式語音辨識、生成對抗網路、深度學習技術、特徵強健性技術、調變頻譜. i.

(3) ABSTACT Nowadays deep learning technologies have achieved record-breaking results in a wide array of realistic applications, such as automatic speech recognition (ASR). Even though mainstream ASR systems evaluated on a few benchmark tasks have already reached human-like performance, they, in reality, are not robust to environmental distortions in the manner that humans are. In view of this, this thesis sets out to develop effective enhancement methods, stemming from the so-called generative adversarial networks (GAN), for use in the modulation domain of speech feature vector sequences. A series of experiments conducted on the Aurora-4 database and task seem to demonstrate the utility of our proposed methods.. Index Terms: Automatic Speech Recognition, Robustness, Generative Adversarial Networks, Deep Learning, Modulation Spectrum. ii.

(4) 誌謝會議室的門打開，一句「恭喜，你通過了」，聽到這句話的時候，我想我可以畢業了。經過數個寒暑，如同肥皂劇一般的碩士班生涯就要有了快樂的大結局。謝謝陳柏琳老師接近三年來的指導，總是問有沒有 Good News 著實令人緊張，老師總是天天關心大家的研究進度也督促了我們在徬徨時繼續埋首研究的動力。老師的幾句話總令人印象深刻，從「對研究有沒有開始有感覺了?」到「怎麼很少看到你?」又到「有沒有 Good News?」再到「該放下了!」應證了這段光陰荏苒。謝謝口試委員王新民老師以及洪志偉老師認真聆聽以及提出寶貴意見。. 謝謝必成學長時常解答強健性技術方面的疑惑，雖然有時雞同鴨講，但也在茫茫學海中指引許多方向。謝謝天宏常常幫忙解決研究上的疑難雜症，以及回答各種愚蠢問題，他在語音辨識研究上苦心鑽研，是一位行家裡手。感謝佳樺、映文、奕儒、偉成、慈恩、修瑞一起分享研究心得。在實驗室度過了幾個炎炎夏日、數個原地解散的過年大掃除，過程中有在知識海洋裡溺水的痛苦，也有實驗做不出來的壓力，不過當然也有歡樂的部分。謝謝世弦、韋廷、福安、百恩、筱芸為我們實驗室帶來許多笑聲與活力。讓我們熱鬧的度過煩悶的研究時光。. 碩士班生涯將畫下完美句點，我即將開始追尋下一個人生目標。也許研究都是基於一個挑戰，本研究能順利完成也要感謝老師指導以及家人和親友支持。過程中也許進度落後偶有顛頗，不過也使我收穫滿囊。. 明璋謹誌 iii.

(5) 章節目錄第一章緒論................................................................................................................... 1. 第一節研究趨勢 ....................................................................................................... 3. 第二節研究動機 ....................................................................................................... 7. 第三節研究貢獻 ....................................................................................................... 8. 第四節論文章節安排 ............................................................................................... 9. 第二章文獻探討......................................................................................................... 10. 第一節語音特徵提取與正規化 ............................................................................. 10. 第二節基於特徵正規化之強健性技術 ................................................................. 11. 第三節語音訊號增益法 ......................................................................................... 14. 基於聲學模型調適之強健性技術與特殊訓練方法 ................................. 16. 第五節生成對抗網路於增強語音強健性之應用 ................................................. 17. iv.

(6) 第三章方法與步驟..................................................................................................... 19. 第一節調變頻譜分析 ............................................................................................. 19. 第二節子空間探索與字典學習法 ......................................................................... 20. 第三節生成對抗網路 ............................................................................................. 21. 第四章基礎實驗......................................................................................................... 26. 第一節語料庫介紹 ................................................................................................. 26. 第二節基礎實驗 ..................................................................................................... 27. 第五章實驗與討論..................................................................................................... 33. 第一節實驗流程 ..................................................................................................... 33. 第二節實驗結果 ..................................................................................................... 35. 第六章結論與未來展望............................................................................................. 40. 參考文獻....................................................................................................................... 41. v.

(7) 圖目錄圖: 1-1 強健性技術分類圖 ............................................................................................ 2. 圖: 2-1 MFCC 特徵提取步驟 ...................................................................................... 10. 圖: 3-3 調變頻譜特徵與強健性技術流程 .................................................................. 19. 圖: 3-4 GAN 訓練步驟 1 .............................................................................................. 22. 圖: 3-5 GAN 訓練步驟 2 .............................................................................................. 22. 圖: 3-6 GAN 訓練步驟 3 .............................................................................................. 22. 圖: 3-7 CAGAN 之生成器 ........................................................................................... 23. 圖: 3-8 DNN-LSGAN 生成器 ...................................................................................... 24. 圖: 3-9 CAGAN 之鑑別器 ........................................................................................... 25. 圖 5-3: 原始 MFCC 特徵分布圖 ................................................................................ 37. 圖 5-4: 倒頻譜平均數削去法處理之 MFCC 分布圖 ................................................ 37. 圖 5-5: 倒頻譜平均數與變異數正規化法處理之 MFCC 分布圖 ............................ 38. 圖 5-6: DNN-LSGAN 處理之 MFCC 分布圖 ............................................................ 38. vi.

(8) 圖 5-7: CAGAN 處理之 MFCC 分布圖.................................................................... 39. vii.

(9) 表目錄表: 4-2 GMM-HMM 基礎實驗結果 1 ......................................................................... 28. 表: 4-3 GMM-HMM 基礎實驗結果 2 ......................................................................... 28. 表: 4-4 TDNN 基礎實驗結果 1 ................................................................................... 29. 表: 4-5 TDNN 基礎實驗結果 2 ................................................................................... 30. 表: 4-6 TDNN-F 基礎實驗結果 1 ................................................................................ 30. 表: 4-7 TDNN-F 基礎實驗結果 2 ................................................................................ 31. 表: 4-8 整體基礎實驗結果 .......................................................................................... 32. 表: 5-1 強健性技術實驗結果 ...................................................................................... 35. viii.

(10) 第一章緒論在自動語音辨識技術（Automatic Speech Recognition,. ASR）的發展中，我們. 發現環境噪音會大幅度的影響辨識率。因此，為了降噪以及提升辨識率，強健性語音辨識的發展便應運而生。目前強健性語音辨識技術大致可以分為特徵為基礎(Feature-Based) 以及模型為基礎之方法(Model-Based)兩種。前者著重於特徵正規化(Feature Normalization)以及特徵增益(Feature Enhancement)兩方面。後者則主要採用各種不同之深度學習技術訓練聲學模型以及其他特殊訓練方法用於提升語音辨識的強健性效果。. 時至今日，已有多種新穎之強健性技術可以為語音辨識帶來更好表現，其中在特徵處理方法中有多項採用調變頻譜分析的研究指出在頻率較低之 4Hz 附近存在諸多語意資訊 [1]，而這將有助於提升語音辨識的效過。因此諸多調變頻譜正規化的研究便由此而生 [2] [3] [4]。從以上研究得到啟發，學者發現探索語音特徵的子空間結構可以得到更好的語音辨識效果 [5]，故萌生了子空間學習的概念。依循著這一個脈絡，目前子空間學習已發展出: 字典學習法結合稀疏編碼(Sparse Coding) 、低序表示法(Low Rank Representation, LRR) 等主要方法。. 除了語音特徵正規化之外，語音訊號增益法(Speech Enhancement)亦是一種強健性方法。部分採用此作法的研究直接針對語句訊號濾波。另一部份則採用深度學習技術生成接近無干擾的語音特徵，例如導入自動編碼器 [6] 用來抑制噪聲干擾。做為新起之秀的生成對抗網路 (Generative Adversarial Networks, GAN) [7]也可以作為語音訊號增益的一種深度學習手段，其自動生 1.

(11) 成與鑑別是否正確的功能在增益特徵強健性上被認為很有幫助。雖然最初設計是用於影像處理，但是目前已有多種變形應用於語音強健性研究上，著名研究有 SEGAN、Whispered-to-voiced GAN、RSRGAN 以及 FSEGAN [8] [9] [10] [11]。且 GAN 除了可以處理波形外亦可處理時域(Time Domain)特徵和頻率域(Frequency Domain)特徵。本研究即是從上述生成對抗網路方法中得到啟發，導入風格轉換概念，並結合調變頻譜相關研究想法，以 GAN 處理頻率域特徵，詳細方法將於後續章節介紹。. 模型調適法則為另外一種研究語音強健技術的方向，其精神為透過調整聲學模型與訓練目標達到更強健之語音辨識結果。良好的聲學模型，將對語音辨識有莫大幫助。因此便有學者嘗試增加模型複雜度，例如:深度卷積網路 (Very Deep Convolution Neural Network, VDCNN)搭配殘差學習 [12]，或採用可以更容易學習語音特徵之時空結構(Temporal Structure)的深度學習技術，像是導入遞歸神經網路(Recurrent Neural Networks, RNN)與長短期記憶模型（Long Short-Term Memory, LSTM）等 [13]均為以模型基礎的強健性技術研究注入新穎想法。 Robust Speech Recognition. Model Based. Feature Based Feature Normalization. NMF,KSVD,LRR …. Model Adaptation. Enhancement. Filtering. Generative model. VDCNN, VDCRN, RNN-LSTM …. 圖: 1-1 強健性技術分類圖. 2. Special Training Criteria.

(12) 第一節研究趨勢由前述簡介可得知語音強健性技術可分成兩大面向以及三大類方法，(1)特徵正規化、(2)特徵增強化以及(3)模型調適法，本節將針對個別類型之研究趨勢進行概略介紹。首先，特徵正規化方法，近年來為數不少研究大多聚焦在語音的時空間結構與頻率域上 [1] [2] [3] [4]，其中因為頻率域特徵比起時域特徵能夠呈現更大尺度變化，所以更容易分析整體變化的特性，因而針對調變頻譜特徵的相關研究開始成為此類方法之一大宗。各種濾波(Filtering) 以及矩陣分解方法(Matrix Factorization)被廣泛應用，在強健性語音辨識研究領域中蔚為風潮。. 其中非負矩陣分解法(Non-negative Matrix Factorization, NMF)即為一有名的例子，。為了解決語音辨識一直存在的變異性問題，非負矩陣分解透過分群概念解決此一問題，後續發展出的其他方法如:GNMF、CNMF 或者字典學習法中(Dictionary Learning) [14] [15]常用來訓練字典的 K-SVD [16]都可視為相似概念的延伸。此類以特徵為基礎之方法可以有效解決語音辨識中環境不匹配問題，又不需要修改聲學模型，因此是強健性語音辨識技術的重點研究方向之一。. 非負矩陣分解最初並非應用於語音辨識，非負矩陣分解法於 1999 被提出，最初被採用在電腦視覺領域用以進行臉部辨識之研究 [17]。其概念為: 利用 NMF 找出一個非負基底向量(Basis)當作一個足以代表本質的特徵，而編碼向量則為將特徵加成形成各種影像或訊號的組合，同時這些基底向量的組合也為非負。也就是說，NMF 最大目的則在於找到一個線性組合，同時. 3.

(13) 擷取原始資料中之重要成分，同時比起主成分分析(Principal Component Analysis, PCA)和獨立成分分析(Independent Component Analysis, ICA)提供良好的研究基礎。所以，學者們由以上研究得到啟發，致力於語音特徵的正規化方法，包含倒頻譜平均消去法(Cepstral Mean Subtraction, CMS)，倒頻譜平均與變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)以及統計圖等化法(Histogram Equalization, HEQ)。 [3]即為一種針對 NMF 改良之進一步研究，包括:非負稀疏編碼，稀疏非負矩陣分解法，局部非負矩陣分解法…等探討一系列以 NMF 為基礎的改進方法。以上方法皆可針對語音訊號之子空間結構進行一系列研究，也是眾多特徵正規化方法中主要的研究趨勢。. 在特徵強化方面，以往多為以頻譜相減(Spectral Subtraction) [18]、和濾波為主要方法，著名的維娜濾波器(Wiener Filter)即是一種經典的案例。但自從導入深度學習技術之後有了新穎的突破，深度學習技術在影像辨識與電腦視覺領域大放異彩，故學者們也借用了諸多深度學習技術的概念，用以投入語音辨識的研究。深度學習技術除了在語言模型與聲學模型這兩大傳統語音辨識系統基本構造有顯著突破之外。在以特徵為基礎的強健性技術方面，也有學者發表了用深度神經網路進行語音訊號增益(Speech Enhancement)研究 [19]，生成模型導入語音特徵的強健性技術便在此時登場了。然而我們並不知道自動生成的語音特徵是否夠接近我們預期的乾淨不受干擾的語料，引此導入自動生成對抗網路(GAN)便形成了一個新解方。. 4.

(14) 生成對抗網路(GAN)除了開創了深度學習技術的一條新路，也為語音訊號增益等強健性方法開創一個新局面 [11] [20]。一個典型的 GAN 之中包含兩種網路，其中一個擔任生成器 (Generator) ，另一個擔任辨別器 (Discriminator)，生成器用以產生特徵，辨別器用來判斷是否夠接近真實結果，同時訓練這個網路，用來解決前述問題便是導入 GAN 的一大想法，關於 GAN 運用於語音強健性技術將於第三章詳細介紹。. 另一方面，以模型為基礎的方法以往被視為需要耗費較多運算資源，雖然此類方法可以得到更優秀的辨識表現，但計算量大，以及缺乏延展性是其缺點，所以在漫長的語音強健性研究歷史中比較少著墨。然而近幾年以來，計算資源以及加速算法有了長足進步，因此「加深」、「加廣」、「複雜化」聲學模型賦予其更多學習能力也成為了一部份學者的研究方向。. 目前在多項研究中，學著們發現卷積網路(Convolution Neural Network, CNN)運用在聲學模型上比起傳統深度神經網路(Deep Neural Network, DNN) 模型可以達到更佳辨識效果。因此發展出了不少採用深度卷積網路改良聲學模型的研究，Very Deep CNN [21]的用均為此一大宗。此外，RNN-LSTM [12] 以及 High-Way Network [13]以及多任務學習 [22]這些更先進的深度學習技術與訓練方法的出現也茁壯了模型調適研究的成長。. 5.

(15) 另一方面，在著名的 Kaldi 語音訊號處理研究套件中，Vijayaditya Peddintiu 以及 Dan Povey 等人提出的時延神經網路(Time Delay Neural Network, TDNN)與因子分解時延神經網路(Factorized-TDNN, TDNN-F) [23] [24]即為兩種以 CNN 為基礎的變形，雖然其不算是強健性方法之一，但是其優異表現以及更容易訓練的特點，目前被廣泛的採用作為 ASR 的系統之一。故本研究將在 TDNN-F 環境下實驗論證各種新穎強健性技術，比較箇中差異提出部分改進，期望能為為強健性技術研究做出一分貢獻。. 6.

(16) 第二節研究動機能夠用語音輸入取代鍵盤，甚至用語音和任何電腦系統溝通，是人類長久以來的夢想，畢竟語音是我們最常用來表達訊息的方式。以上夢想近年來隨著智慧手機搭載的語音輸入以及語音助理可說是已經被實現，但是噪聲干擾仍舊大幅的降低整體辨識準確率。. 我們可以發現儘管近年深度學習技術導入語音辨識領域中讓其表現有了大幅度的進步，然而在有雜訊干擾的語料中，噪聲仍然一定程度的干擾辨識效果，降低整體的表現。也就是說這些環境不匹配問題，依然是一種挑戰，因此強健技術相關研究仍舊扮演重要角色，也因此激發改善問題的決心。. 我們目前將注意力專注在特徵強健性技術上，前人在各種子空間學習方法上，已有諸多研究指出，語音訊號的本質會存在於調變頻譜的子空間上 [5] [15] [25] [26]，藉由非負矩陣分解，字典學習法，稀疏編碼法，均可還原訊號中語義的本質，賦予 ASR 系統能夠處理噪聲的能力。換句話說將可以達到更好的強健性。此外各種聲學模型之變種和組合以及改良的訓練方法亦可降低語音辨識之錯誤率(WER%)諸如: TDNN 、TDNN-F、 CNN-TDNN-F 等。. 生成對抗網路(Generative Adversarial Network, GAN)最初應用在影像處理與電腦視覺上 [27]為近幾年快速崛起的新穎機器學習技術 [11] [20] [8]。藉由同時訓練產生器與鑑別器兩種網路便可產生特定風格之以假亂真的影像。借用上述概念，將其應用在語音辨識上則可設計令其產生乾淨語音特徵的頻譜以增加整體 ASR 系統的強健性。. 7.

(17) 以上均為各種新穎的語音強健式技術以及以深度學習為基礎之語音辨識應用，本研究由以上方法得到啟發，以探討各種新穎強健性技術之自特色與應用為題，期望在語音強健性研究領域有所收穫。. 第三節研究貢獻本研究比較了各種強健性技術對語音辨識之效果改進，並提出再調變頻譜上以生成對抗網路(Generative Adversarial Network, GAN)進行與音訊號增益為主之強健性方法。本論文也比較了針對語音特徵之時域和頻率域進行訊號增益與降躁處理的效果差異。GAN 是一種非監督式學習架構，時常被用來自動產生影像特徵，並可藉由辨別器(Discriminator)自動判斷生成器的正確性。藉由此概念，本研究採用多種噪聲干擾以及包含通道摺機效應干擾之語句當作輸入，並將其轉換成乾淨語句之語音特徵。也就是說，借用 Pix2Pix 的概念將訊號波形或時域以及頻率域特徵轉換成乾淨語句之分布，來達成強健性目的。儘管已有諸多研究提出更良好的聲學模型結構以及訓練方法，然而這些以調整聲學模型為基礎的步驟，仍須花費較多時間與計算成本，且在各種終端設備應用上:例如智慧音箱或智慧型手機之語音助理，辨識過程中皆須仰賴雲端運算，複雜的聲學模型更會增加即時解碼的難度缺乏彈性。而如果是先進行語音特徵正規化或語音訊號增益可免除上述困擾。此外，GAN 應用於語音強健性技術也可算是深度學習技術的新穎應用之一，而此強健性技術，可以更簡單的抑制受到噪訊干擾的效應，也可更彈性的結合其他語音辨識就任務，或著方便應用在多種需要語音辨識之服務上。. 8.

(18) 第四節論文章節安排本論文依序於第二章回顧強健性技術兩大面向與三大類型相關研究，本研究從回顧前人研究中得到不少啟發。第三章分別介紹語音特徵擷取方法、調變頻譜轉換流程以及自動生成對抗網路如何運用於語音訊號增益之中。於第四章介紹基礎實驗，包含語料庫介紹以及各種環境噪聲與通道效應在不同 ASR 系統下的表現。第五章分析本研究採用的強健性技術之實際效果，第六章探討結論與未來展望。. 9.

(19) 第二章文獻探討本章先回顧語音特徵提取，以及兩大面向三大類型的強健性技術，最後回顧自動生成對抗網路於語音強健性技術的應用，回顧歷史有助於我們溫故知新，這些研究可以啟發我們對於強健性技術的新想法。. 第一節語音特徵提取與正規化語音訊號中包含著很多資訊，像是:情緒，語意，背景聲音…等。當今自動語音辨識系統中一項很重要的步驟便是語音特徵提取，語音訊號中包含的資訊，並不是全部都有助於我們了解一句話的語意 [1]，因此提取語音中的特徵便成為了語音辨識中至關重要的一環。在眾多語音特徵提取技術中，. 預強調. 音框提取. 能量與對數計算. 漢明窗. 離散傅立葉轉換時間差計算. 梅爾三角濾波器. 離散餘玄轉換. 圖: 2-1 MFCC 特徵提取步驟. 10.

(20) 梅爾倒頻譜係數(Mel-Frequency-Cepstral-Coefficients, MFCCs) [28]可以更接近人類耳朵的聽覺表現，故本研究也採用 MFCC 特徵為主要實驗依據。以下為 MFCC 特徵提取之步驟: (1)預強調(2)取音框(3)漢明窗(4)離散傅立葉轉換(5)梅爾三角濾波器(6)離散餘弦轉換; 步驟示意圖如如圖 2-1。. 第二節基於特徵正規化之強健性技術以處理語音特徵為基礎的強健性技術，目的在於不重新設計聲學模型，透過語音訊號增益，特徵向量補償，頻譜補償或正規化等方式還原出乾淨完整的語音特徵。本節主要回顧調變頻譜正規化，子空間學習法以及其他綜合性方法，語音訊號增益法將獨立於本章第二節介紹。. 將深度神經網路(DNN)的輸出當作是低維度子空間的聯集，我們可以假設升學特徵的資訊會潛藏在這些子空間的連集中 [25]，因此探索子空間結構便成為一種可以改進語音辨識效果的強健性方法。我們可以將這些經過訓練的事後機率用於字典學習法和稀疏編碼以加強 ASR 系統對於稀疏雜訊的處理能力。為了更好地表示潛藏於子空間中的聲學特徵資訊，故以稀疏表示法來處理。作者將這些方法分為兩大類，其一為 DNN，另一個為 Sparse Modeling。. 11.

(21) 作者闡述了字典學習和稀疏表示法的作用，但仍然有幾個缺點: (1)基於 DNN 的聲學建模仍然有改進的空間，(2)利用低維度子空間結構底層之語音特徵的聯集和包含雜訊條件下的聲學建模。未來希望能將這些方法運用在不同資料集上，以檢驗和改進計算法讓 ASR 能有更好的強健性技術。. Low-Rank Representation, LRR 將重點放在調變頻譜中語音特徵的本質 [29] [30] 。 LRR 技術發展的歷史可以回朔至強健式主成分分析 (Robust Principal Component Analysis, RPCA) [31] RPCA 使 PCA 能夠在降維後維持一樣的能力。LRR 的目的就是為處理這些子空間的混合物，將這些混合物分成是有用的語音特徵(存在著語意資訊的部分)和一群噪聲資訊(Error term, E) 的線性組合，其表示法如方程式(1)所示:. Y = L+E,. (1). 方程式(1)可以看成是一個包含兩個部分的調變頻譜 Y，其中 L 是從語意子空間中嚴格抽取出來的特徵，另一部分 E 則是剩餘的非結構化雜訊。基於 PCA 語 RPCA 方法的啟發，也可以透過奇異值分解 (Singular Value Decomposition, SVD)，找出 E 的最小擾動。. 自動語音辨識技術發展日新月異，經過 LRR 處理過後的特徵用於訓練聲學模型便是這些帶動研究潮流的方法與應的用其中之一。 [26]之研究是先建立在一個假設之下，即:「DNN 輸出的語音特徵之條件機率，會存在於相對低維度的子空間上」使用 LRR 表示這些鄰近的機率，並以實驗分析來. 12.

(22) 驗證上述觀點。，藉由觀察 DNN 輸出結果的熵(Entropy)，可以發現一個問題:「隨著條件機率的不確定性增加，會使聲學模型的準確度下降」並且，這個問題對於語音辨識而言是一個致命的錯誤，透過下列方法可以解決問題。建立一個存放相似條件機率的矩陣 (亦即特徵資訊)，並將其表示為 LowRank 矩陣。藉此，稀疏錯誤資訊便可以被獨立出來。該篇論文之實驗結果闡明在 numbers’95 數字資料集下採用 LRR 來處理特徵的確提升了 8.5%準確率。. 利用 LRR 和字典學習法以及稀疏編碼(Sparse Coding)來處理語音訊號的特徵 [5]，首先以 MFCC(梅爾倒頻譜係數)來表示語音特徵，經過傅立葉轉換後，對調變頻譜中的強度頻譜進行正規化。為了實現更好的 ASR 表現，目前 LRR 及其變體，已應用於語音辨識模型上。LRR 方法可以搭配字典學習法一起使用 [5]概念即為:我們可以把包含雜訊的語音看成是一組疊加在一起的向量，所以經過尋找低維度子空間中重要的原子，透過疊代更新找到一組字典 D 和權重矩陣 W，而此時 D 與 W 是一種 LRR 表示法。將由乾淨訓練語料中得到的字典 D 與待還原的測試語料之權重 W 及其相位頻譜 (Phase Spectrum)重新組合，便可以移除雜訊干擾，進而還原出正確的語音訊號頻譜。得到乾淨的特徵對語音辨識來說是一項助益。. 13.

(23) 第三節語音訊號增益法語音訊號增益(Speech Enhancement)技術之目的在於增強語音訊號的可讀性和品質，以便在包含雜訊的情況下可以順利進行語音辨識 [19]。遮罩與濾波技術是一種很直觀的訊號增益方法，維納濾波就是著名的方法之一。維納濾波器之概念於 1949 正式出版於數學家諾伯特·維納（Norbert Wiener）的著作中 [32]，是一種採用最小化平均誤差(Mean Square Error, MSE)當作最佳化函數的線性濾波器(Linear Filter)，也就是說:在給定約束條件下計算濾波器輸出與期望的輸出之間的平方誤差之最小值，便是維納濾波器的核心概念。也就是說:這可以使得經過濾波後的訊號能盡量的接近未受干擾的真實訊號，主要運算公式可以如(1)表示，其中 s(t)是我們要估計的原是訊號，n(t)代表疊加的雜訊，輸入訊號由 s(t)和 n(t)組成和濾波器 g(t)進行捲積運算後得到濾波後的訊號 x(t): x(t) = g(t) ∗ (s(t) + n(t)),. (2). 隨者時光荏苒，在諾伯特·維納之後又有諸多學者以濾波器為題，提出多種可以有效增益語音訊號之遮罩方法 [33] [34] 。直覺遮罩 (Direct (𝑆). Masking) [35]，很直觀的採用𝜆𝑡,𝑓 作為一個遮罩用來增益嘈雜語音訊號𝑌𝑡,𝑓，經過 [36]改寫，增益後的訊號可以由下列方程式表示:. (𝐷𝑀) (𝑆) 𝑆̂𝑡,𝑓 = 𝑓𝜃𝐷𝑀 (𝑌, 𝑡, 𝑓) = 𝜆𝑡,𝑓 𝑑𝑜𝑡𝑌𝑡,𝑓 ,. 14. (3).

(24) 然而直覺遮罩往往會帶來大量失真，因此便有學者採用由維納濾波器改良成的帶參數維納濾波(Parametric Wiener filter, PW)來解決這個問題， PW 在抑制噪訊與控制失真這兩者的權衡之間擁有更多靈活性 [36] [37] [38]，PW 具體運算可表示如下:. 𝑝𝑤 (𝑌, 𝑡, 𝑓) = | 𝑆̂𝑡,𝑓 = 𝑓𝜃𝑝𝑤. ̂𝑡,𝑓 |𝑝 |𝑌𝑡,𝑓 |𝑝 − 𝑙 . |𝑁 |1/𝑞 . 𝑌𝑡,𝑓 , |𝑌𝑡,𝑓 |𝑝. (4). 另一方面，除了濾波與遮罩法之外，近年導入深度學習技術，也為語音訊號增益帶來新的想法。我們知道神經網路可以學習與調整一群資料的分布，因此深度學習技術在語音訊號增益中的用途大多以映射為主，將嘈雜訊號映射成乾淨語句的分布便可以達到我們的目的。以下讓我們回顧經幾個經典作法，雖然他們的目的在於消除殘響，但是仍然對我們想要抑制疊加雜訊干擾以及抑制通道折積效應有莫大啟發。. 以深度遞歸深經網路(Regression DNN)做為主要結構 [39]，首先採用乾淨語句提取出的對數功率譜(Log-Power Spectrum, LPS)當作特徵，用以訓練深度學習模型。如此一來模型將學習到乾淨語句的特徵分布，接著輸入嘈雜語句的特徵便可以輸出增益過後接近原始乾淨語句的語音特徵，再由此重構出波形圖及音檔，就可以得到還原後的語句。 [40]之研究發現將語音特徵由 LPS 映射到 MFCC，可以更進一步改善語音辨識結果，由此現象可以得知深度學習技術也可以學習不同特徵之間轉換的對應關係。. 15.

(25) 上述研究多關注在以深度神經網路生成特徵，但是其估算出的特徵是否夠接近我們的預期呢?這點除了在整體計算完畢後進一步評估 PESQ 或是 ASR 效果之詞錯誤率之外(WER%)，我們在訓練的同時並無從得知，因此強健性效果有可能會大打折扣。此時，導入 GAN 中鑑別器(Discriminator) 的概念便是一個新的契機，將原本用來生成特徵的模型當作生成器，同時另外訓練一個網路當作鑑別器，由鑑別的結果自動更新生成器的參數，就可以更周全的訓練模型。關於 GAN 的詳細回顧將於本章第五節介紹，而本研究採用的 GAN 方法請詳見第三章第四節。. 基於聲學模型調適之強健性技術與特殊訓練方法在過去幾年中，DNN 在語音辨識的應用上帶來了大幅度進步。儘管如此在吵雜的環境下效果仍舊有限。在 [21]中，研究發現採用 CNN 為架構延伸而來的聲學模型可以達到更多強健性效果，因此多種非常深度之 CNN 網路 (Very Deep CNN, VDCNN)油然而生 [41] [42] [43]。此外，隨著網路深度增加，為了更有有效的訓練模型，有人結合殘差學習(Residual Learning)的精神，將其與深度 CNN 結合產生了深度卷積殘差網路(Very Deep Convolutional Residual Network, VDCRN)儘管 CNN 可以更有效率的學習到語音特徵的空間局部性，但是並沒有辦法學習一段時間內的語音資訊，因此就有人引入了 RNN 結構如 GRU 以及 RNN-LSTM 的應用，例如 [42]即比較多種 CNN 與 RNN，RNN-LSTM 於聲學模型中對於於音辨識的差異，優化複雜的聲學模型訓練為其主要貢獻。此外，多任務學習整合兩個不同的神經網路，結合不同任務之目標函數，在訓練過程中可以同時更新彼此的參數。整合多個相關問題學習彼此間的關聯性，透過共享資訊，達成更好效果 [22] [44]。 16.

(26) 第五節生成對抗網路於增強語音強健性之應用生成對抗網路(Generative Adversarial Network, GAN)在近幾年內快速的發展，時至今日已有多種變形，導入 GAN 之後，語音訊號增益技術便有了大幅度的進步。其中前述提及之 SEGAN (Speech Enhancement GAN) [8] 與 FSEGAN(Frequency-Domain SEGAN) [11]即為 GAN 運用在語音辨識上的兩個很好的例子。GAN 的運算式目前有諸多變種，大多是針對訓練任務需求加入不同損失函數，以下以經典的 Last Square GAN [45]舉例，LSGAN 採用 MSE 作為其損失函數用以計算生成樣本與真實樣本的差異，整體目標函數可由方程式(5)(6)表示:. 𝑚𝑖𝑛 𝐷𝑉𝐿𝑆𝐺𝐴𝑁 (𝐷). =. 1 2 𝔼 (𝒙 ) [(𝐷(𝒙) − 1 ] 2 𝑥~𝑃𝑑𝑎𝑡𝑎. 1. +2 𝔼𝑧~𝑃𝑧 (𝑧) [𝐷(𝐺(𝒛 ) − 1)2 ],. 𝑚𝑖𝑛 𝐺 𝑉𝐿𝑆𝐺𝐴𝑁 (𝐺). 1. = 2 𝔼𝑧~𝑃𝑧 (𝑧) [𝐷(𝐺(𝒛 ) − 1)2 ],. 17. (5). (6).

(27) 語音增強生成對抗網路 (Speech Enhancement GAN, SEGAN) 是由 Pascual…等人所提出的一種在時間域上進行語音增強的架構。SEGAN 可以同時學習到不同環境噪音和不同語者的特色，並產生消除受到噪訊干擾之後的語句 [8]。SEGAN 之主要特色有(1)比起 RNN 提供更快速的語音增強解決方案(2)可以直接針對原始音檔進行端對端運算(End-to-End)，不需要額外擷取其他層級的特徵(3)可以學習到不同語者和不同噪音情境的關係，他們彼此共享參數，因此可讓生成器產生之語句更接近真實樣本，以增進語音辨識的表現。然而 SEGAN 雖然為 GAN 運用在語音增強研究中開了先河，但其直接針對波形(Waveform)運算的效果還是不及採用其他特徵來的顯著，所以萌生了將 GAN 運用在其他更深層之語音特徵的想法。. 頻率域語音增強生成對抗網路(Frequency-Domain SEGAN, FSEGAN) [11]是一種將 GAN 運用在學習頻譜資訊並將包含雜訊的頻譜轉移成乾淨的頻譜類型的方法，就好像 Pix-to-Pix [27]一樣的作用。這是由 SEGAN 得到啟發，但是又認為只有針對波形進行增益，對於語音辨識的幫助仍然有限，因此這項研究又做了更深層的探討。採用 log-Mel filter bank spectra，針對頻率域特徵強化，除了減低運算量之外，比起時域特徵亦可獲得更佳強健性，這將更有助於語音辨識進行。由強化過的特徵重新訓練聲學模型，可以達到更佳語音辨識表現。在訓練完 GAN 之後我們便可以用其生成器產生增益後的訊號，並與 ASR 模型結合可改進語音辨識效果，步驟如圖 2-2 所示:. Speech Data Feature Extractor. GAN (Feature Enhancement). ASR Modeling. 圖: 2-2 自動生成對抗網路與語音辨識流程圖 18.

(28) 第三章方法與步驟根據前述回顧，我們知道在強健性語音辨識的研究領域中，所採用的方法大致上可以分為模型調適法以及以特徵為基礎的兩大類，而後者又可分為特徵正規化以及語音訊號增益法，所以也可以分成三大方向。本研究將探討各種新穎語音強健技術的原理並於後續章節比較其實驗結果。. 第一節調變頻譜分析若我們只關注語音特徵的時間序列(Time Sequence)，那將會有一個很大的缺點。因為噪聲干擾會扭曲語音特徵的時空結構(Temporal Structure)，因此也會改變語音特徵的統計分布，這將使語音辨識效果不盡理想。所以我們希望能夠將語音之時域特徵轉換成頻率域特徵。而分析調變頻譜(Modulation Spectrum) [46] 便成為了我們實現這個理想的一種手段。. 圖: 3-3 調變頻譜特徵與強健性技術流程. 19.

(29) 調變頻譜分析的精神就是先將語音的時域特徵轉換成調變頻譜再進行進一步運算例如:遮罩(Masking)，濾波(Filtering)等，藉由訊號增益或是正規化方法(Normalization)萃取出語音特徵中較具有強健性的部分。這裡我們以 MFCC特徵經過轉換後還原出頻率域資訊，方法流程詳見圖3-3:。. 第二節子空間探索與字典學習法字典學習法通常會搭配稀疏編碼法(Sparse Coding)一起使用，目標在於學習一組字典 D 並用稀疏編碼來表示權重矩陣(Weight Matrix, W)。字典學習法的目標是從訓練中的基底學習出一組原子，並且使資料越稀疏越好，以達到過濾雜訊，還原原始訊號之目的 [5] [47]。. 時至今日，字典學習法已發展出許多不同技術，並廣泛運用在電腦視覺，訊號處理，語音辨識等多媒體領域相關研究上。從 [5]的研究中，我們可以得知字典學習法大致可以分成下列三大類型: (1) 叢集法 [16]. (2)機率法. [48] (3)以特殊空間結構構成之方法 [49]。K 奇異值分解(K-SVD)可以說是最有名的叢集方法之一。K-SVD 是以 K-Means 為基礎的算法。其在兩個群中交替，其中一個是稀疏編碼，另外一個則是更新字典。在稀疏編碼階段，KSVD 企圖去除現有資料中多餘的雜訊。在更新字典階段，會把訓練資料分群到相對應的子空間中，K-SVD 的目標函數可以定義如下:. 𝑚𝑖𝑛 𝐷,𝑋||𝑌. − 𝐷𝑋||2𝐹 𝑠. 𝑡. ||𝑥𝑖 ||0 ≤ 𝑇0 , 𝑖 = 1,2 … , 𝑁,. 20. (7).

(30) 其中 T0 是稀疏約束(Sparsity Constraint)的上限值。一個字典 D 將調變頻譜分群到 T0 個子空間上，X 是一個包含訓練語料權重的矩陣。. 第三節生成對抗網路本研究主要採用生成對抗網路(Generative Adversarial Network, GAN)進行語音訊號增益處理，並結合自動語音辨識(Automatic Speech Recognition, ASR) 用來達成增進強健性表現之目的。本節將針對本研究使用的 GAN 模型與方法進行討論。. GAN 是一種可以減少人類知識介入，而得到更佳學習效果的一種深度學系技術，這項關鍵就在於「生成」與「鑑別」，也有人稱之「新手畫家」與「鑑賞家」。在訓練過程中，新手畫家不斷臨摹名畫，而鑑賞家持續鑑定畫作，在兩造交手若干次之後，新手畫家有了弄假成真的本事，而鑑賞家漸漸分不出贗品與真品，這便是我們的目的。這樣子對抗學習的過程可以看成是生成器(G)與鑑別器(D)在進行最大與最小值的對局(Minimax-Game)。本研究採用 LSGAN 中的方均根誤差(Mean Square Error, MSE)當作損失函數，其詳細已於第二章介紹，這裡省略部分細節，在訓練過程中我們需要將 G 與 D 串接起來，因此整體目標函數可以改寫成:. min max 𝐺. 𝐷. 𝑉(𝐷, 𝐺) = 𝔼𝑥~𝑃𝑑𝑎𝑡𝑎 (𝑥) [𝑙𝑜𝑔𝐷(𝑥)] +𝔼𝑧~𝑃𝑧 (𝑧) [log (1 − 𝐷(𝐺(𝑧 + 𝑥̂)))] ,. 21. (8).

(31) 我們用 x 表示乾淨情境樣本(Clean Condition)，用𝑥̂ 表示噪訊情境樣本 (Noisy/Multi Condition)，再這裡我們把 z(z 為一組 Latent Vector)設為介於 0 到 1 之間的隨機雜訊。將噪訊樣本加上隨機雜訊輸入 G 使其盡可能有能力把雜亂資料轉換成我們期望的乾淨樣本。. GAN 之訓練步驟主要可以分為三個階段: (1)訓練鑑別器認識真實樣本 (2)訓練鑑別器認識生成器生成之假樣本 (3)固定鑑別器的參數，同時更新生成器參數以達成訓練目標。. 圖: 3-4 GAN 訓練步驟 1. 圖: 3-5 GAN 訓練步驟 2. 圖: 3-6 GAN 訓練步驟 3 22.

(32) 以上為 GAN 之訓練方法及其示意圖，接著本段將介紹本研究使用之神經網路架構。我們採用兩種不同結構，分別命名為 CAGAN 以及 DNNLSGAN，前者採用類似於摺積自動編碼器(Convolution Auto Encoder, CAE) 之結構作為生成器的主要結構，後者則採用全連接 DNN 作為生成器的主結構。啟發於多項類似於自動編碼器(Auto Encoder, AE)與 GAN 結合的研究，加上目前普遍認為 CNN 在學習時間-頻率特徵或圖像的能力比起 DNN 還有更好效果。而我們以調變頻譜特徵作為輸入，在頻率域上進行訊號增益，概念類似電腦視覺領域中處理影像降噪的研究，故我們以摺積運算結合自動編碼器當作一項取得強健性特徵的方法。. 在消除噪訊干擾效應的深度學習技術中，降噪自動編碼器(Denoise Autoencoder, DAE) [6]與摺積自動編碼器 [50]是很有效方法。可以輸入被噪訊破壞的原始資料，並還原出未受干擾的資料。而本研究的 GAN 方法就是受到他們啟發，CAGAN 之生成器就是類似於 CAE 的結構。. 圖: 3-7 CAGAN 之生成器 23.

(33) 我們知道自動編碼器可以分成編碼與解碼兩大部分。在編碼階段，隨著深度增加，我們將摺積層的 Feature Map 大小減半，並在每一次摺積運算後進行池化(Max Pooling)，目的在於將有效的特徵往下傳遞並且減少不必要的網路參數，使之更方便訓練。在解碼階段，其結構可以視為將編碼階段水平鏡射的對稱關係，唯一不同處在於相對於最大池化法(Max Pooling)，我們在每一次摺積運算之後採用反取樣法(Un-Sampling)，將維度還原成原始大以利進行後續 ASR 步驟。我們採用嘈雜環境語料結合隨機雜訊作為輸入資料，其結構如圖 3-7 所示。. 圖: 3-8 DNN-LSGAN 生成器. 此外，顧慮到摺積運算比起全連接 DNN 需要更多運算資源，因此也採用以 DNN 結構和 LSGAN 為基礎的 DNN-LSGAN 作為強健性方法之一。考量到一味加深網路，而未加入其他訓練機制，並不會有效的改進其表現，加上本結構主要是為了減輕運算量而設計，因此我們捨棄摺積運算，總共使用. 24.

(34) 六層全連接 DNN 網路作為 GAN 的生成器(G)，祥見圖 3-8。在上述兩個 GAN 網路中，我們分別採用不同的鑑別器結構，有些研究採用自動編碼器(AE)的解碼部分當作鑑別器，這種方法可以非常準確的鑑別生成特徵的正確性。. 不過我們發現越複雜的鑑別器會令生成器變的比較不容易訓練，且為了簡化計算量，我們採用更為精簡的結構。在 CAGAN 中我們採用兩層 Feature Map 為 256 的摺積網路加上池化層，就好像一個很精簡的影像辨識器，在 DNN-LSGAN 中則採用生成器(G)之一半網路層作為鑑別器使用。. 圖: 3-9 CAGAN 之鑑別器. 圖: 3-10 DNN-LSGAN 之鑑別器. 25.

(35) 第四章基礎實驗本章介紹本研究所有實驗採用的與料庫，語音辨識效能之評估方式，以及我們採用各種常見聲學模型的基礎實驗結果. 第一節語料庫介紹本研究採用 AURORA-4 作為實驗語料庫，收錄了華爾街日報(Wall Street Journal , WSJ)之中長篇幅文章的朗讀發音 [51]，並包含-5dB 至+15dB 的雜訊。簡而言之 AURORA-4 是以華爾街日報為基礎錄音並加上 6 種不同情境下的噪音來組成的，是一個專門設計用來從事語音強健性技術研究的語料庫。其中包含 8KHz 與 16KHz 兩種音頻取樣率並且採用兩種麥克風錄音 (Sennheiser, Secondary-Mic) 。其訓練資料集可分為無雜訊干擾 (CleanCondition)，和雜訊混合(Multi-Condition)兩種，測試集則包含的 6 種雜訊，分別包含 330 個發音，其種類如下:人聲(Babble)、汽車(Car)、機場(Airport)、火車(Train)、街道(Street)、餐廳(Restaurant)。另一方面，將測試集分為 A、 B、C、D 四種子集合，其詳細介紹如表 4-1，此外本研究均採用 16Khz 作為取樣率。. 26.

(36) 表: 4-1 取樣率語音內容長度. Aurora-4 語料庫介紹. 8KHz/16KHz WSJ 5000 詞約 15 小時，每一句約 5~12 秒鐘. 訓練資料. Clean:7138 個語句 Multi:7137 個語句. 測試資料. A 組:330 個無雜訊語句 B 組:1980 個語句，包含六種環境語句 C 組: 受通道效應干擾的 330 個無雜訊的語句 D 組: 受通道效應干擾的 1980 個包含雜訊的語句. 第二節基礎實驗本研究所有實驗皆採用 16KHz 為取樣率，以下為 6 種環境疊加噪訊與受到通道折積效應干擾的子集合以及乾淨語料共 14 個子集合分別在 GMMHMM, TDNN, TDNN-F 三種 ASR 系統下之基礎實驗結果。. 本研究採用詞錯誤率(Word Error Rate, WER)作為評估語音辨識效能的標準，WER(%)為美國標準與科技組織所定義之評估方法，目前在語音辨識研究中被廣泛採用。以 S 表示詞取代個數，I 為詞插入個數，D 為詞刪除個數，N 為總輸入詞數，則 WER(%)之計算公式如下:. WER% =. 𝑆+𝐼+𝐷 𝑁. 27. ∗ 100%,. (9).

(37) WV1 為無通道效應，WV2 為受到通道效應干擾，以下分別整理出 14 種子集合和不同 ASR 系統之基礎實驗結果:. 表: 4-2 GMM-HMM 基礎實驗結果 1 GMM-HMM :. Multi-Condition Training (WER%). Clean. Car. Babble. Restaurant. Street. Airport. Train. WV1. 7.81. 8.11. 12.25. 17.30. 14.61. 11.68. 15.99. WV2. 29.24. 17.95. 27.24. 29.40. 30.24. 25.26. 31.38. 表: 4-2 為在 GMM-HMM 模型下採用原始 MFCC 特徵於多情境訓練下各子集合之基礎實驗結果。首先，我們把每一種噪聲環境和是否受通道效應干擾獨立出來看，我們可以發現在乾淨的語句中辨識效果尚屬優異，然而隨著噪聲加入以及通道效應干擾，其辨識結果之詞錯誤率漸漸升高，也就是應證了噪聲將嚴重干擾語音辨識的現象。. 表: 4-3 GMM-HMM 基礎實驗結果 2 GMM-HMM :. Clean-Condition Training (WER%). Clean. Car. Babble. Restaurant. Street. Airport. Train. WV1. 41.40. 16.01. 32.43. 41.01. 39.90. 30.67. 41.40. WV2. 57.76. 34.75. 50.76. 53.78. 57.29. 48.38. 57.76. 28.

(38) 表: 4-3 則為在 GMM-HMM 模型下採用原始 MFCC 特徵於單一情境訓練下各子集合之基礎實驗結果，除了和表: 4-2 一樣可以看出噪聲以及通道效應的干擾之外。我們也可以看出比起多情境訓練，在單一情境訓練下，聲學模型無法學習到各種干擾效應的機率分布。所以，比起多情境訓練，單一情境訓練比較缺乏容忍干擾的能力。GMM-HMM 是語音辨識系統中較為原始的經典聲學模型架構，也因此我們更能夠清楚的從中看出噪聲干擾與通道效應干擾已經嚴重扭曲了語音特徵的時空結構。由此可見，這就是影響語音辨識系統表現的主要原因。. 表: 4-4 TDNN 基礎實驗結果 1 TDNN :. Multi-Condition Training (WER%). Clean. Car. Babble. Restaurant. Street. Airport. Train. WV1. 3.05. 4.52. 6.95. 9.45. 9.02. 6.56. 9.42. WV2. 9.08. 13.41. 20.51. 22.75. 22.12. 19.37. 23.09. 表: 4-4 為採用時延神經網路(Time Delay Neural Network, TDNN)與原始 MFCC 特徵在多情境訓練環境下的表現。我們可以看出，由於時延神經網路可以顧及到前後一段時間的資訊語音特徵資訊，因此在受到扭曲的時空結構中，也能夠學習一部分有用資訊，使語音辨識效果更加正確。. 29.

(39) 表: 4-5 TDNN 基礎實驗結果 2 TDNN :. Clean-Condition Training (WER%). Clean. Car. Babble. Restaurant. Street. Airport. Train. WV1. 2.67. 34.53. 40.31. 47.88. 58.73. 40.58. 55.65. WV2. 43.31. 61.11. 60.00. 68.26. 75.40. 61.69. 70.32. 如表: 4-5 所示，然而時延神經網路與原始 MFCC 特徵在單一情境訓練下的表現卻不是那麼理想，尤其在同時受到通道效應干擾與噪聲干擾的情境之下。目前推測原因在於時延神經網路可學習每一個音框(Frame)前後一段時間的資訊，然而單一情境訓練皆採用乾淨未受干擾的語料訓練模型，因此對於扭曲的時空資訊較缺乏應對能力，故在解碼階段受到通道效應干擾與噪聲干擾的情境其辨識效果較差。. 表: 4-6 TDNN-F 基礎實驗結果 1 8 Layer TDNN-F: Multi-Condition Training (WER%) Clean. Car. Babble. Restaurant. Street. Airport. Train. WV1. 4.54. 5.44. 8.69. 12.35. 10.97. 8.65. 10.70. WV2. 9.10. 14.32. 23.54. 25.85. 26.23. 22.04. 25.63. 30.

(40) 表: 4-6 為因子分解時延神經網路(Factorized-TDNN, TDNN-F)與原始 MFCC 特徵於多情境訓練下之基礎實驗結果。TDNN-F 是語音辨識系統導入深度學習技術之後，近年來被廣泛採用之新穎聲學模型之一，故以此作為實驗比較的依據。. 表: 4-7 TDNN-F 基礎實驗結果 2 8 Layer TDNN-F : Clean-Condition Training (WER%). Clean. Car. Babble. Restaurant. Street. Airport. Train. WV1. 3.61. 14.20. 40.65. 53.58. 56.14. 37.08. 50.08. WV2. 33.18. 43.56. 58.75. 64.71. 69.42. 59.28. 64.39. 表: 4-7 是 TDNN-F 與原始 MFCC 特徵在單一情境訓練下之基礎實驗結果，其表現較差的原因，我們認為和 TDNN 在單一情境訓練之下相似，原因大致和前述段落討論的結果相同。. 31.

(41) 表: 4-8 整體基礎實驗結果. Multi Condition Training (WER%) A. B. C. D. AVG. GMM-HMM. 7.81. 13.32. 29.24. 26.91. 19.32. TDNN. 3.05. 7.65. 9.08. 20.21. 10.00. TDNN-F. 4.54. 9.47. 9.10. 22.94. 11.51. Clean Condition Training (WER%) A. B. C. D. AVG. GMM-HMM. 41.40. 33.57. 57.76. 50.47. 45.80. TDNN. 2.67. 46.28. 43.31. 66.13. 39.60. TDNN-F. 3.61. 41.96. 33.18. 60.01. 34.69. 由於 AURORA-4 包含多種情境，為了更方便比較數據，通常大致將 14 種情境的測試集分成 A、B、C、D 四個子集合。A 為乾淨未受任何干擾之語句，B 為包含 6 種環境疊加噪音的語句，C 為乾淨但是受到通道效應干擾之語句，D 則為同時包受到環境噪聲和通道效應干擾的語句(詳細介紹請參閱表 4-1)表: 4-8 為整體基礎實驗結果與 3 種不同 ASR 系統下之比較。 32.

(42) 第五章實驗與討論本章將討論實驗流程語實驗結果，由於 TDNN-F 乃 DNN-HMM 結構中時下最流行的聲學模型架構，且由第四章之基礎實驗結果可以看出在多數情境下都有較好表現。所以我們採用 TDNN-F 做為主要自動語音辨識系統。雖然多情境訓練(Multi-Condition Training)藉由學習多種不同噪聲干擾，普遍能有更好容忍雜訊干擾的能力，但是本實驗方法多聚焦在特徵處理，以及訊號增益上，我們的目的在於盡可能還原出未受噪聲干擾的特徵，所以後續實驗結果將以乾淨情境訓練(Clean-Condition Training)作為比較條件。以下將依序介紹統計式語音辨識，特徵轉換流程，以及本研究採用之各種強健性技術對於自動語音辨識的幫助與表現。. 第一節實驗流程本研究之實驗採用 Kaldi 工具組 [52]作為語音辨識之研究環境，其為統計式語音辨識常用工具之一，其語音辨識主要步驟可分為(1)語言模型建構 (Language Modeling) 和 (2) 聲學模型建構 (Acoustic Modeling) 以及 (3) 解碼 (Decoding)三大步驟。由於本研究著墨於語音強健性技術之研究，故實驗流程介紹重點將放在特徵處理上. 33.

(43) 圖: 5-1 統計式語音辨識. 首先抽取訓練語料的特徵並將這些特徵經過各種強健技術運算後再進一步訓練聲學模型(諸如:TDNN、TDNN-F…等)後進行解碼即可得到經過強健技術處理過後之語音辨識結果，圖: 5-1 所示。. 我們採用的輸入資料除了(1)波形之外還有(2)梅爾倒頻譜係數以及(3)調變頻譜特徵，針對波形之增益方法為對音檔進行語音增益後再重構出新的 wav 格式音檔，梅爾倒頻譜係數特徵抽取方法已在第二章介紹故這裡省略，調變頻譜特徵則是由時域特徵經過傅立葉轉換得到頻率域資訊。. 圖: 5-2 分解調變頻譜特徵實驗流程調變頻譜特徵轉換過程如圖 5-2: (1)抽取出訓練語料之時域特徵後將其經過傅立葉轉換可以得到一組將訊號投影到復數平面上的向量。這些訊號可以看成是在複數平面上的無數個同心圓。訊號是由能量與相位角所組成的， 34.

(44) 我們可以進一步算出能量頻譜(Magnitude Spectrum)即複數平面上向量的絕對值和相位頻譜 (Phase Spectrum)。接著我們對能量進行增益再和相位角結合經過逆傅立葉轉換即可得到一組增益後的特徵。. 第二節實驗結果表: 5-1 強健性技術實驗結果 Clean Condition Training (WER%) A. B. C. D. AVG. MFCC+TDNN-F. 3.61. 41.96. 33.18. 60.01. 34.69. CMS+TDNN-F. 3.85. 27.76. 19.43. 43.63. 23.67. CMVN+TDNN-F. 3.77. 18.31. 16.72. 33.36. 18.04. MFCC+OMP_K-SVD. 11.25. 42.68. 40.00. 57.43. 37.84. 4.15. 35.20. 40.84. 55.28. 33.86. 10.29. 34.11. 23.03. 47.48. 28.73. 6.91. 30.17. 20.08. 42.46. 24.95. WAV+ SEGAN+TDNN-F Modulation Spectrum +LSGAN+TDNN-F Modulation Spectrum +CAGAN+TDNN-F. 35.

(45) 本研究所採用的強健性方法與其他經典強健性技術的比較，包含字典學習法，倒頻譜平均值消去法(Cepstral Mean Subtraction, CMS)，倒頻譜平均值變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)，經典的生成對抗網路應用於強健式語音辨識的方法，以及本研究設計的其餘結合生成對抗網路與語音訊號增益法應用於強健式語音辨識的方法。由於 TDNN-F 為新穎的聲學模型，其除了擁有考慮時間資訊的功能之外，也能夠透過因子分解捨去不必要資訊，使整體模型更容易訓練，因此我們以 TDNN-F 做為其餘實驗的 ASR 系統。此外，單一情境訓練可更容易看出強健性技術的作用差異，因此實驗結果以單一情境訓練呈現。. 從表: 5-1 中，我們可以看出直接針對倒頻譜運算的 CMS 與 CMVN 可以顯著降低語音辨識的詞錯誤率。字典學習法方面，效果不如預期的可能原因在於字典訓練得不夠好，並無法充分的表示一個訊號的本質。因此還原出的語音特徵可能良莠不齊。至於生成對抗網路部分，可以看出直接作用於波形圖上的增益方法，雖然有些微效果，但是整體幫助並不大。這是由於波形圖中包含太多資訊，並不是所有都有助於我們了解一句話的語意。但是此方法確實可以幫助改善人類聽覺的效果，不過對 ASR 系統幫助有限。所以在 ASR 中，我們如果提取出特徵，再行進一步處理，將會有更好效果。於是本研究之 CAGAN 與 DNN-LSGAN，即採用 MFCC 特徵轉換成調變頻譜，並取出其中之強度頻譜，利用深度學習技術中的映射功能進行訊號增益還原出乾淨語句的特徵，同時也由其他研究得到啟發重新設計 GAN 內部的網路結構，使其可以針對我們的任務有更好表現。. 36.

(46) 圖: 5-3 原始 MFCC 特徵分布圖. 為了方便觀察特徵分布，我們以視覺化方式來討論 MFCC 之特徵分布以及經過強健性技術處理後之差異。經過 T-SNE 降維後，可將多維度特徵投影至某一平面上，方便我們觀察。圖 5-3 為乾淨語句與受噪聲干擾語句之 MFCC 分布圖，由此可以看出噪聲干擾的確扭曲了語音特徵的分布結構。. 圖: 5-4 倒頻譜平均數削去法處理之 MFCC 分布圖. 37.

(47) 圖 5-4 為倒頻譜平均數消去法(CMS)處理過後之 MFCC 特徵分佈圖。我們可以觀察出其與乾淨語句的特徵分布開始有較多重疊與相似處。這也對語音辨識效果起了助力。. 圖: 5-5 倒頻譜平均數與變異數正規化法處理之 MFCC 分布圖. 倒頻譜平均數與變異數正規化法(CMVN)，被認為是經典且強而有力的強健性技術之一。圖 5-5 為經過 CMVN 處理後之語句特徵分布圖，可以看出有更接近未受到噪聲干擾語句之特徵分布的趨勢。. 圖: 5-6 DNN-LSGAN 處理之 MFCC 分布圖 38.

(48) 圖: 5-7 CAGAN 處理之 MFCC 分布圖. 接著我們採用相同方式來觀察經過本研究採用之生成對抗網路增益過後的特徵分布如圖 5-6 與圖 5-7 所示。藉由資料視覺化處理，我們可以看出，經過生成對抗網路增益後的語句特徵大幅度的調整了受噪聲干擾語句之特徵分佈，使其與乾淨語句的特徵分佈有較多靠近與重疊處。雖然尚不十分明顯，但是經過 DNNLSGAN 與 CAGAN 處理後之特徵分布有較接近乾淨語句分布的趨勢。以上現象反映在語音辨識效果上，我們對照語音辨識結果之詞錯誤率( WER%)確實有下降的現象。. 39.

(49) 第六章結論與未來展望本研究旨在探討強健式語音辨識的新穎技術，並採用 AURORA-4 語料庫做為實驗基礎，用以比較各種語音強健技術對於基於深度學習下之自動語音辨識的影響。由於調變頻譜可以呈現語音特徵更大尺度變化，所以我們就順著這個脈絡，由調變頻譜特徵著手研究並比較時域特徵與頻率域特徵運用於在語音訊號增益方法上對於提升語音辨識效果的幫助。此外，GAN 的一大特色就是可以自動鑑別生成特徵準確與否，以往多運用在影像領域研究中，用來轉換不同風格圖片，或是用來將躁訊映射成特定類型之乾淨圖片。本研究由此得到啟發，採用 GAN 作為一種語音強健性技術。本研究主要運用 GAN 來實現訊號增益方法，從 CAGAN 與 DNN-LSGAN 的實驗中，我們發現在調變頻譜上應用訊號增益方法比起其他媒介更能夠有效提升語音辨識率效果，和原始 MFCC 相比可分別降低 5.96( WER%)與 9.74( WER%)。. 在未來展望方面，除了強度頻譜之外，採用相位頻譜(Phase Spectrum)也能成為研究方向之一。此外，由於本研究主要探討以特徵為基礎的強健性方法較少關注以模型為基礎的強健性技術，此外資料增強法(Data Augmentation) 用來增加訓練資料的變異度以及加入更多種模擬雜訊，使用多情境訓練方式來訓練聲學模型，使聲學模型可以學習到更多種情境的資訊，也可以大幅降低訓練與測試的環境不匹配問題，從而大幅提升語音辨識效果。因此，未來希望不只是專注在特徵上，雖然模型方法的缺點在於需要更多計算量，但是隨著硬體運算技術進步，我們可以將精神轉移到資料增強法和模型調適方法上，或許能有更多突破，並且能使研究更具實用價值。. 40.

(50) 參考文獻 [1] 汪逸婷, “運用調變頻譜分解技術於強健語音特徵擷取之研究,” 國立臺灣師範大學碩士論文, 2014. [2] 朱紋儀, “調變頻譜正規化用於強健式語音辨識之研究,” 國立臺灣師範大學碩士論文, 2011. [3] 張庭豪, “調變頻譜分解之改良於強健性語音辨識,” 國立臺灣師範大學碩士論文, 2015. [4] 顏必成, “探索調變頻譜之低維度特徵結構用於強健性語音辨識,” 國立臺灣師範大學碩士論文, 2017. [5] Bi Cheng Yan, Chin Hong Shih, Shih Hung Liu, Berlin Chen, "Exploring LowDimensional Structures of Modulation Spectra for Robust Speech Recognition," in INTERSPEECH, 2017. [6] Pierre Baldi, "Autoencoders, Unsupervised Learning, and Deep Architectures," in JMLR: Workshop and Conference Proceedings, 2012. [7] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David WardeFarley, Sherjil Ozair, Aaron Courville, Yoshua Bengio, "Generative Adversarial Networks," in NIPS, 2014. [8] Santiago Pascual, Antonio Bonafonte, Joan Serrà, "SEGAN: Speech Enhancement Generative Adversarial Network," in INTERSPEECH, 2017. [9] Santiago Pascual, Antonio Bonafonte, Joan Serrà, Jose A. Gonzalez, "Whisperedto-voiced Alaryngeal Speech Conversion with Generative Adversarial Networks," in arXiv, 2018.. 41.

(51) [10] Ke Wang, Junbo Zhang, Sining Sun, Yujun Wang, Fei Xiang, Lei Xie, "Investigating Generative Adversarial Networks based Speech Dereverberation for Robust Speech Recognition," in INTERSPEECH, 2018. [11] Chris Donahue, Bo Li, Rohit Prabhavalkar, "Exploring Speech Enhancement With Generative Adversarial Networks," in ICASSP, 2018. [12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, "Deep Residual Learning for Image Recognition," in CVPR, 2016. [13] Yu Zhang, Guoguo Chen, Dong Yu, Kaisheng Yao, Sanjeev Khudanpur, James Glass, "Highway Long Short-Term Memory RNNS For Distant Speech Recognition," in ICASSP, 2016. [14] Cewu Lu , Jiaping Shi , Jiaya Jia, "Online robust dictionary learning," in CVPR, 2013. [15] 顏必成石敬弘劉士弘陳柏琳, “使用字典學習法於強健性語音辨識 The Use of Dictionary Learning Approach for Robustness Speech Recognition,” 於 ROCLING, ACLCLP, 2016. [16] M. Aharon ,M. Elad , A. Bruckstein, "K-SVD: an algorithm for designing over complete dictionaries for sparse representation," IEEE Transactions on Signal Processing, p. 4311–4322, 2006. [17] Daniel D. Lee and H. Sebastian Seung, "Learning the parts of objects by nonnegative matrix factorization," Nature, no. 401, pp. 788-791, 1999. [18] Dong Yu, Li Deng, Jasha Droppo, Jian Wu, Yifan Gong, Alex Acero, "A Minimum-Mean-Square-Error Noise Reduction Algorithm On Mel- Frequency Cepstrum for Robust Speech Recognition," in ICASSP, 2008.. 42.

(52) [19] P.C.Loizou, Speech Enhancement: theory and Practice, Boca Raton, FL, USA: CRC Press, 2013. [20] Anuroop Sriram, Heewoo Jun, Yashesh Gaur, Sanjeev Satheesh, "Robust Speech Recognition Using Generative Adversarial Networks," in ICASSP, 2018. [21] Yanmin Qian, Tian Tan, Hu Hu, Qi Liu, "Noise Robust Speech Recognition On Aurora4 By Humans And Machines," in ICASSP, 2018. [22] Yanmin Qian, "Multi-Task Joint-Learning Of Deep Neural Networks For Robust Speech Recognition," in ASRU, 2015. [23] Vijayaditya Peddinti, Daniel Povey, Sanjeev Khudanpur, "A time delay neural network architecture for efficient modeling of long temporal contexts," in INTERSPEECH, 2015. [24] Daniel Povey, Gaofeng Cheng, Yiming Wang, Ke Li, Hainan Xu, Mahsa Yarmohamad ,Sanjeev Khudanpur, "Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks," in INTERSPEECH, 2018. [25] Pranay Dighe, Gil Luyet, Afsaneh Asaei, Herve Bourlard, "Exploiting LowDimensional Structures To Enhance DNN Based Acoustic Modeling In Speech Recognition," in ICASSP, 2016. [26] Gil Luyet, Pranay Dighe, Afsaneh Asaei, Hervé Bourlard, "Low Rank Representation of Nearest Neighbor Posterior Probabilistic to Enhance DNN Based Acoustic Modeling," in INTERSPEECH, 2016. [27] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros, "Image-to-image translation with conditional adversarial networks," in CVPR, 2017.. 43.

(53) [28] S. Davis and P. Mermelstein, "Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences," IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 28, no. 4, pp. 357-366, 1980. [29] Guangcan Liu, Zhouchen Lin, Shuicheng Yan, Ju Sun, Yong Yu, Yi Ma, "Robust recovery of subspace structures by low-rank representation," IEEE Transactions on Pattern Analysis and Machine Intelligence, p. 171–184, 2013. [30] Guangcan Liu, Zhouchen Lin, Yong Yu, "Robust subspace segmentation by lowrank representation," in ICML, 2010. [31] Emmanuel J. Candès, Xiaodong Li, Yi Ma, John Wright, "Robust principal component analysis," Journal of the ACM, pp. 3-11, 2011. [32] N. Wiener, Extrapolation, Interpolation, and Smoothing of Stationary Time Series, NewYork: WILEY, 1949. [33] Jahn Heymann, Lukas Drude, Aleksej Chinaev, Reinhold Haeb-Umbach, "BLSTM supported GEV beamformer front-end for the 3rd CHiME challenge," in ASRU, 2015. [34] T Menne, R Schlüter, H Ney, "Speaker adapted beamforming for multi-channel automatic speech recognition," in SLT, 2018. [35] Szu-Jui Chen, Aswin Shanmugam Subramanian, Hainan Xu, Shinji Watanabe, "Building state of the art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement baseline," in INTERSPEECH, 2018.. 44.

(54) [36] Tobias Menne, Ralf Schluter, Hermann Ney, "INVESTIGATION INTO JOINT OPTIMIZATION OF SINGLE CHANNEL SPEECH ENHANCEMENT AND ACOUSTIC MODELING FOR ROBUST ASR," in ICASSP, 2019. [37] Jacob Benesty, M Mohan Sondhi, and Yiteng Huang, Springer Handbook of Speech Processing, Berlin Heidelberg: Springer-Verlag, 2008. [38] Jae S. Lim, Alan V. Oppenheim, "Enhancement and bandwidth compression of noisy speech," Proceedings of the IEEE, no. 67,no12, p. 1586–1604. [39] Yong Xu, Jun Du, Li-Rong Dai, Chin-Hui Lee, "An experimental study on speech enhancement based on deep neural networks," IEEE Signal processing letters, vol. 1, no. 21, p. 65–68, 2014. [40] Kun Han, Yanzhang He, Deblin Bagchi, Eric Fosler-Lussier, DeLiang Wang, "Deep neural network based spectral feature mapping for robust speech recognition," in in Sixteenth Annual Conference of the International Speech Communication Association, 2015. [41] Joanna Rownicka , Steve Renals , Peter Bell, "Simplifying Very Deep Convolutional Neural Network Architectures For Robust Speech Recognition," in ASRU, 2017. [42] Masakiyo Fujimoto, Hisashi Kawai, "Comparative Evaluations Of Various Factored Deep Convolutional Rnn Architectures For Noise Robust Speech Recognition," in ICASSP, 2018. [43] Yanmin Qian ; Philip C Woodland, "Very Deep Convolutional Neural Networks For Robust Speech Recognition," in SLT, 2016. [44] Haoyi Zhang, "Multi-Task Auto-encoder For Noise-Robust Speech Recognition," in ICASSP, 2018.. 45.

(55) [45] Xudong Mao, Qing Li, Haoran Xie, Raymond Y.K. Lau, Zhen Wang, Stephen Paul Smolley, "Least Squares Generative Adversarial Networks," in IEEE International Conference on Computer Vision (ICCV), 2017. [46] NF Viemeister, "Temporal modulation transfer functions based upon modulation thresholds," The Journal of the Acoustical Society of America, no. 66, pp. 13641380, 1979. [47] Colin Vaz, Dimitrios Dimitriadis, Samuel Thomas, Shrikanth Narayanan, "CNMF-Based Acoustic Features For Noise-Robust ASR," in ICASSP, 2016. [48] D.P. Wipf , Bhaskar D. Rao, "Sparse Bayesian learning for basis selection," IEEE Transactions on Signal Processing, p. 2153–2164, 2004. [49] Mehrdad Yaghoobi, Laurent Daudet, and Mike E. Davies, "Parametric dictionary design for sparse coding," IEEE Transactions on Signal Processing, p. pp. 4800– 4810, 2009. [50] Y. Zhang, "A Better Autoencoder for Image: Convolutional Autoencoder," in ANU Bio-inspired Computing conference, 2018. [51] David Pearce, J Picone, "Aurora working group: Dsr front end lvcsr evaluation au/384/02," Inst. for Signal & Information Processing, Mississippi State Univ, 2002. [52] Povey, Daniel, Ghoshal, Arnab, Boulianne, Gilles, Burget, Lukas, Glembek, Ondrej, Goel, Nagendra, Hannemann, Mirko, Motlicek, Petr, Qian, Yanmin, Schwarz, Petr, Silovsky, Jan, Stemmer, Georg and Vesely, Karel, "The Kaldi Speech Recognition Toolkit," in ASRU, 2011.. 46.

(56)

探索基於生成對抗網路之新穎強健性技術 於語音辨識的應用

探索基於生成對抗網路之新穎強健性技術 於語音辨識的應用