運用調變頻譜分解技術於強健語音特徵擷取之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳. 博士. 運用調變頻譜分解技術於強健語音特徵擷取之研究 Leveraging Modulation Spectrum Factorization Techniques for Robust Speech Recognition. 研究生：汪逸婷中華民國. 撰. 一百零三年二月.

(2) 摘要近年來，語音特徵調變頻譜的研究，由於其簡單又能針對語音特徵提供整體變化分析的特性，在強健性自動語音辨識的領域獲得了廣大的迴響；本論文著重於二個部分：其一為非負矩陣分解法之延伸，非負矩陣分解法由於能有效擷取調變頻譜中關鍵且不受雜訊影響的資訊，而得到許多關注，本論文將延續這個領域的研究，提出對語音進行分群處理的分群式非負矩陣分解法，以及加上稀疏性之條件的稀疏化非負矩陣分解法。其二為壓縮感知法之延伸，壓縮感知法為一種用較相關之資訊以較精簡的方式來還原訊號，本論文提出一個展新的想法，將壓縮感知法應用在語音特徵調變頻譜。分群式非負矩陣分解法為運用分群處理的技術將不同特性的語句分開處理，使非負矩陣分解法能夠更精準地擷取語音中的重要資訊，而不受語句之間的變異性干擾；稀疏化非負矩陣分解法為探索非負矩陣分解法中稀疏性帶來的影響，以期取得較集中且不重覆的基底調變頻譜。本論文所有的實驗皆使用常見的 Aurora-2 語料庫進行驗證，並進一步在大詞彙語料庫 Aurora-4 進行驗證。實驗的結果說明了：本論文所提出的兩種延伸方法，確實能在改進語音辨識的強健性上發揮其效力，並得到比其他調變頻譜應用技術更佳的辨識正確率。. 關鍵字：調變頻譜、強健性、自動語音辨識、非負矩陣分解法、稀疏性、壓縮感知法。 III.

(3) Abstract Modulation spectrum processing of acoustic features has received considerable attention in the area of robust automatic speech recognition (ASR) because of its relative simplicity and good empirical performance. This thesis focus on two concept: one is nonnegative matrix factorization (NMF). An emerging school of thought is to conduct NMF on the modulation spectrum domain so as to distill intrinsic and noise-invariant temporal structure characteristics of acoustic features for better robustness. Our work try to extend the NMF by cluster the training data called cluster-based NMF and consider the sparsity of NMF called sparsed NMF. The other is compressive sensing. We proposed a novel concept to use compressive sensing on modulation spectrum. Cluster-based NMF is to investigate an alternative cluster-based NMF processing, in which speech utterances belonging to different clusters will have their own set of cluster-specific basis vectors. As such, the speech utterances can retain more discriminative information in the NMF processed modulation spectra. Sparsed NMF is try to explore the notion of sparsity for NMF so as to ensure the derived basis vectors have sparser and more localized representations of the modulation spectra. All experiments were conducted with the widely-used Aurora-2 database and task. Furthermore, we used to LVCSR task Aurora-4. Empirical evidence reveals that our methods can offer substantial improvements and achieve performance competitive to or better than several widely-used robustness methods.. Index Terms—modulation spectrum, robustness, automatic speech recognition, nonnegative matrix factorization, sparsity, compressive sensing. IV.

(4) 誌謝在研究所的求學過程中，受到了許多人的幫助才能讓我順利的有研究成果。在研究所我真正了解到做研究和念書的差別，尤其是在踏入一個我從來沒有接觸過的領域：語音辨識。在這段求學過程中，給予我最多幫助的就是指導教授陳柏琳博士，感謝老師耐心的教導與教誨，在我遇到困境時適時的給予建議，每次老師交待的任務都會使我對研究又有更進一步的了解，雖然有些任務需要花一些時間才能融會貫通。同時也要感謝老師常常讓我參與一些相關的講座會研討會，甚至參加國外研討會，使我可以從不同國家的優秀學者身上學到更多研究方向與想法，也讓我更有國際觀。感謝我的家人，支持我就讀碩士班，讓我可以專心在學習與研究上，同時感謝他們的陪伴，在我研究遇到困境時給予鼓勵，使我更有研究之動力。感謝實驗室之學長姐：紋儀學姐、佩寧學姐、敏軒學長、邦烜學長、皓欽學長、憶文學姐，還有特別要感謝予真學姐和欣汝學姐，感謝二位學姐可以針對我的研究給予許多建議與討論，感謝冠宇學長每個星期都來學校跟我們討論研究並給予建議，尤其是在口試前還特意排出時間來幫我練習，真是太感謝了。另外也要感謝孝宗、柏翰、俊諭、黃威，因為有你們我的研究所生活增添了許多樂趣與美食。感謝口試委員王新民教授、洪志偉教授與曹昱教授，謝謝你們對我的論文的指正與建議，使我的論文可以更加完善。逸婷謹誌. V.

(5) 章節目錄一、. 緒論............................................................................................................................ 1 (一). 研究背景............................................................................................................ 1. (二). 強健性語音技術................................................................................................ 2. (三). 研究內容與貢獻................................................................................................ 4. (四). 論文章節安排.................................................................................................... 5. 二、. 文獻回顧.................................................................................................................... 6 (一). 語音特徵參數擷取............................................................................................ 6. (二). 強健性語音特徵技術........................................................................................ 9 1.. 倒頻譜平均消去法(Cepstral Mean Substraction, CMS) .................................. 9. 2.. 倒頻譜平均與變異數正規化法(Cepstral Mean and Variance Normalization,. CMVN) ...................................................................................................................... 9 3.. 統計圖等化法(Histogram Equalization, HEQ)............................................... 10 調變頻譜正規化技術於強健性語音辨識之研究.......................................... 11. (三) 1.. 調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE) ................. 13. 2.. 調變頻譜平均正規化法(Spectral Mean Normalization, SMN) ..................... 13. 3.. 調變頻譜平均與變異數正規化法(Spectral Mean and Variance Normalization,. SMVN)..................................................................................................................... 14 三、. 資料壓縮法.............................................................................................................. 15 (一). 非負矩陣分解法.............................................................................................. 16. (二). 非負矩陣分解法之稀疏性.............................................................................. 19. (三). 壓縮感知法...................................................................................................... 21. 四、. 實驗語料庫與相關基礎實驗結果.......................................................................... 23 (一). 實驗語料庫...................................................................................................... 23. (二). 實驗設定.......................................................................................................... 26 VI.

(6) (三). 辨識效能評估方式.......................................................................................... 26. (四). 基礎實驗結果.................................................................................................. 27. 五、. 調變頻譜域之非負矩陣分解法之相關研究.......................................................... 30 以非負矩陣分解為基礎的的調變頻譜正規化法.......................................... 30. (二). 以分群式非負矩陣分解為基礎的調變頻譜正規化法.................................. 35. (三). 以稀疏性非負矩陣分解法為基礎之調變頻譜正規化法.............................. 43. (四). 壓縮感知法...................................................................................................... 49. (五). 實驗結果之比較.............................................................................................. 51. 六、. (一). 結論與未來展望...................................................................................................... 60. 參考文獻.................................................................................................................................. 62 附錄............................................................................................................................................. i 附錄一：非負矩陣分解法之公式推導............................................................................. i 附錄二：稀疏化非負矩陣分解法之詳細演算法，與其詳細說明................................ v. VII.

(7) 圖目錄圖 1- 1：自動語音辨識系統之示意圖。 ................................................................ 2 圖 1- 2：自動語音辨識系統示意圖。 .................................................................... 3 圖 2- 1：語音特徵參數擷取流程圖。 .................................................................... 6 圖 2- 2：調變頻譜相關研究發展趨勢圖。 .......................................................... 12 圖 3- 1：非負矩陣分解法示意圖。 ...................................................................... 17 圖 3- 2：非負矩陣分解法研究發展情形。 .......................................................... 18 圖 3- 3：壓縮感知法示意圖。 .............................................................................. 22 圖 5- 1：非負矩陣分解法概念示意圖。 .............................................................. 30 圖 5- 2：非負矩陣分解後，還原一個語句之調變頻譜示意圖。 ...................... 31 圖 5- 3：非負矩陣分解法流程圖。 ...................................................................... 33 圖 5- 4：基底個數對辨識率在 Aurora-2 的關係圖。.......................................... 34 圖 5- 5：NMF 所擷取出的五個基底向量分布圖。............................................. 35 圖 5- 6：分群式非負矩陣分解法概念示意圖。 .................................................. 36 圖 5- 7：分群式非負矩陣分解法流程圖。 .......................................................... 38 圖 5- 8：分三群基底之第一群基底向量分布圖。 .............................................. 39 圖 5- 9：分十群之分群式 NMF 擷取五個基底之第一群基底向量分布圖。.... 39 圖 5- 10：分二十群之分群式 NMF 擷取五個基底之第一群基底向量分布圖。 .......................................................................................................................... 40 圖 5- 11：稀疏化非負矩陣分解法之示意圖。 .................................................... 44 圖 5- 12：稀疏化非負矩陣分解法之流程圖。 .................................................... 44 圖 5- 13：在 Aurora-2 語料庫對基底矩陣稀疏比取 0.7 之不同基底個數對辨識的影響。.......................................................................................................... 46 圖 5- 14：稀疏比取 0.3 之稀疏化 NMF 擷取五個基底之基底向量分布圖。... 47 圖 5- 15：稀疏比取 0.7 之稀疏化 NMF 擷取五個基底之基底向量分布圖。... 48 VIII.

(8) 圖 5- 16：稀疏比取 0.9 之稀疏化 NMF 擷取五個基底之基底向量分布圖。... 48 圖 5- 17：壓壓縮感知法示意圖。 ........................................................................ 49 圖 5- 18：壓縮感知法流程圖。 ............................................................................ 50 圖 5- 19：原始非負矩陣分解法與挑一群之分群式非負矩陣分解法，結合不同時間序列正規化法之 Aurora-2 辨識率比較圖。 ......................................... 55 圖 5- 20：原始非負矩陣分解法與稀疏化非負矩陣分解法，結合不同時間序列正規化法之 Aurora-2 辨識率比較圖。 ......................................................... 57 圖 5- 21：分群式稀疏化非負矩陣分解法(CSNMF)，與其它方法之 Aurora-2 辨識結果。.......................................................................................................... 59. IX.

(9) 表目錄表 4- 1：Aurora-2 語料庫相關資訊...................................................................... 24 表 4- 2：Aurora-4 語料庫相關資訊...................................................................... 25 表 4- 3：Aurora-2 梅爾倒頻譜係數於乾淨語料訓練下的辨識結果(平均詞精確率 %)。 ................................................................................................................. 28 表 4- 4：Aurora-2 常見之時間序列域特徵正規化方法於乾淨語料訓練下的辨識結果。.............................................................................................................. 29 表 4- 5：Aurora-4 常見之時間序列域特徵正規化方法於乾淨語料訓練下的辨識結果。.............................................................................................................. 29 表 5- 1：在非負矩陣分解法中使用不同基底個數的 Aurora-2 辨識率。.......... 34 表 5- 2：挑一群之分群式非負矩陣分解法之 Aurora-2 辨識結果。.................. 41 表 5- 3：多群結合之分群式非負矩陣分解法之 Aurora-2 辨識結果。.............. 41 表 5- 4：結合分群式非負矩陣分解法與非負矩陣分解法之 Aurora-2 辨識結果。 .......................................................................................................................... 42 表 5- 5：對𝑊之每一行稀疏化基底個數為 5 的 Aurora-2 實驗結果。 .............. 45 表 5- 6：對W稀疏化且稀疏比為 0.7 之不同基底個數之 Aurora-2 實驗結果。 .......................................................................................................................... 46 表 5- 7：壓縮感知法在 Aurora-2 之辨識效果。.................................................. 50 表 5- 8：挑一群之分群式非負矩陣分解法結合 CMVN 之 Aurora-2 辨識結果。 .......................................................................................................................... 51 表 5- 9：挑一群之分群式非負矩陣分解法結合 HEQ 之 Aurora-2 辨識結果。52 表 5- 10：挑一群之分群式非負矩陣分解法結合 AFE 之 Aurora-2 辨識結果。 .......................................................................................................................... 52 表 5- 11：多群結合之分群式非負矩陣分解法結合 CMVN 之 Aurora-2 辨識結果。 .......................................................................................................................... 53 X.

(10) 表 5- 12：多群結合之分群式非負矩陣分解法結合 HEQ 之 Aurora-2 辨識結果。 .......................................................................................................................... 53 表 5- 13：多群結合之分群式非負矩陣分解法結合 AFE 之 Aurora-2 辨識結果。 .......................................................................................................................... 54 表 5- 14：分群式非負矩陣分解法結合原始非負矩陣分解法結合 CMVN 之 Aurora-2 實驗結果。 ...................................................................................... 54 表 5- 15：對W稀疏化基底個數為 5 結合 CMVN 的 Aurora-2 實驗結果。 ...... 56 表 5- 16：對W稀疏化基底個數為 5 結合 HEQ 的 Aurora-2 實驗結果。 .......... 56 表 5- 17：對W稀疏化基底個數為 5 結合 AFE 的 Aurora-2 實驗結果。 .......... 57 表 5- 18：分群式稀疏化非負矩陣分解法(CSNMF)，與其它方法之 Aurora-2 辨識結果。.......................................................................................................... 58 表 5- 19：分群式非負矩陣分解法(CNMF)、稀疏化非負矩陣分解法(SNMF)，與其它方法之 Aurora-4 辨識結果。 ............................................................. 59. XI.

(11) 一、. 緒論. 隨著科技不斷的進步，科技產品和我們的生活也愈來愈密切，尤其近年來 3C 產品──電子產品的通稱，指的是電腦(Computer)、通訊設備(Communication)和消費電子產品(Consumer-Electronics)──漸漸融入日常生活中，使得如何便利且有效的操作這些電子產品並使其了解使用者的想法成為一個很重要的問題。以電腦的輸入方式來說，從最早使用的打洞紙條，到鍵盤和滑鼠的發明、手寫輸入、語音輸入、腦波輸入、及現在最流行的觸控輸入等，其中最直覺的輸入方式顯然是觸控輸入和語音輸入。縱然以觸控的方式對電子產品下指定，是直覺又簡單的輸入方式，但觸控輸入的缺點就是一定要碰觸才能下指令，無法遠距離操控；另一方面，由於說話幾乎可以說是我們每天都會做的事，語音輸入也是一種直覺且且不受距離的限制的輸入方式，因此自動語音辨識[1] (Automatic Speech Recognition, ASR) 技術也是現今學者研究的熱門領域之一。目前已經有許多自動語音辨識相關的應用，例如：銀行帳戶語音查詢系統、電話查號系統、家電的遠端操控、網頁的語音輸入、醫院的預約系統、智慧型手機之語音控制…等等。但要使這些系統有效的應用在日常生活中，仍然有一些困難和阻礙要解決。. (一) 研究背景現有的自動語音辨識系統，在不受雜訊干擾的環境中，皆有不錯的辨識效果，但在實際生活中，這種環境是不易實現的。現實生活中的語音辨識系統，接收到很多易混肴辨識結果的環境雜訊，而這些雜訊會造成語音辨識器的訓練環境和測試環境之間有環境不匹配(Environmental Mismatch)的情況[2]，使自動語音辨識的辨識效果大打折扣。造成這種環境不匹配的情況可能的原因有：因為語者不同所造成的語者腔調差異、語者發音結構的差異、訊號輸入來源的不同、加成性噪音 (Additive Noise)[3]、摺積性通道雜訊(Convolutional Noise)[4]等。而如何降低這些在辨識時會造成干擾的雜訊影響的技術，便是強健性語音辨識技術[5](Robust 1.

(12) Speech Recognition Techniques)所關注的重點。. (二) 強健性語音技術一個完整的自動語音辨識系統是從語音訊號中擷取出語音特徵 (Speech Feature Extraction) [6]，將此語音特徵運用語言模型 (Language Model) [7]與聲學模型 (Acoustic Model) [8]進行解碼 (Decoding)，找出可能性最大的詞序列，如圖 1-1 所示。本論文主要是專注在前端語音特徵擷取的部份，目的是要找出較有強健性的語音特徵，也就是擷取出較符合乾淨語音資料的特徵，並消除雜訊的干擾。影響自動語音辨識的雜訊，可以從性質的觀點粗略的分為加成性雜訊(additive noise) 和摺積性雜訊(Convolution Noise)。. 語言解碼/ 搜尋演算法. …. 語言模型. 詞典. 文字輸出. 聲學模型. 圖 1- 1：自動語音辨識系統之示意圖。加成性雜訊是指在收錄語音時，除了預期中的原始語音訊號外，其它的背景雜訊也和語音訊號以線性疊加(Linearly Additive)的方式一起收錄在語音中。例如：電腦主機的聲響，冷氣機的運轉聲，旁人的聊天聲，環境中的風聲、雨聲，路邊行車的喇叭聲，這些都屬於加成性雜訊。加成性雜訊以穩定性的觀點可分為穩定性雜訊(Stationary Noise)和非穩定性雜訊(Non-Stationary Noise)。以較長時間的觀點來看，穩定性雜訊是穩定持續且變化較小的雜訊，例如：電腦的運轉聲、冷氣的運轉聲…等；而非穩定性雜訊則隨著時間會有較大的變化，例如：路上車子的喇叭聲、剎車聲，電話鈴聲，人與人交談的聲音等。加成性雜訊在時域(Time 2.

(13) Domain)上與頻譜域(Spectral Domain)上皆與原語音訊號為線性疊加的關係。摺積性雜訊指的是語音訊號經不同傳輸通道所產生的通道效應，例如：人的口腔構造形成的通道效應，麥克風的通道效應，電話線的傳輸通道等，不同的通道會使語音訊號受到不同程度的扭曲。此類的雜訊在時域與原語音訊號為摺積 (Convolution)的關係，而在頻譜域與原語音訊號為相乘的關係。加成性雜訊及摺積性雜訊對語音訊號的影響可以用圖 1-2 來表示。. 圖 1- 2：自動語音辨識系統示意圖。. 為了解決環境不匹配的問題，學者們提出的方法可大致區分為三大類[9]：第一類解決的方向是以語音特徵為主的強健性技術(Feature-Based Techniques)，第二類是以聲學模型為基礎之強健性技術(Model-Based Techniques)，第三類為結合前兩者的綜合式強健性技術(Joint Techniques)。以語音特徵為主的語音強健性技術，期望能將雜訊語音之特徵還原成近似乾淨語音之特徵，或是尋找另一受雜訊干擾程度較輕的語音特徵。這類方法主要作用在語音特徵空間，而不變更聲學模型之設定。以語音特徵為主的技術又可再細分為三個研究方向：語音特徵參數轉換法(Feature Transformation)、語音特徵參數補償法(Feature Compensation)和語音特徵參數重建法(Feature Reconstruction)。常見的處理語音特徵的技術有：頻譜消去法(Spectral Subtraction, SS)[10-11]，倒頻譜平均正規化法(Cepstral Mean Normalization, CMN)[12]，倒頻譜平均值與變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)[13]，倒頻譜形狀正規 3.

(14) 化法 (Cepstral Shape Normalization, CSN)[14] ，統計圖等化法 (Histogram Equalization, HEQ) [15-16]等。以聲學模型為基礎之強健性技術，期望能藉由調整聲學模型的參數來適應不同的雜訊環境。常見的技術有隱藏式馬可夫模型分解技術(Hidden Markov Model Decomposition Technique, HMMDT)[17] ，平行模型結合法 (Parallel Model Combination, PMC)[18]，最大相似度線性迴歸法 (Maximum Likelihood Linear Regression, MLLR)[19]，最大事後機率法則(Maximum a Posteriori, MAP)[20]等。綜合式技術，結合以語音特徵為主和以聲學模型為主這二種技術的技術。遺失特徵理論(Missing Feature Theory, MFT)[21]以符合聲學模型的測試資料為辨識基礎，並用時間-頻率(Time-Frequency Mask)遮罩區分可信賴(Reliable)的資訊及不可信賴(Unreliable)的資訊。此分類可粗略地分為二種方式：一種是使辨識器能夠處理不完整的資訊，如邊際化(Marginalization)[22]的方法等；另一種方法是將那些不完整的資訊進行補強及重建，使其變為完整且可信賴的資訊，常見的方法有以共變異為基礎或以分群為基礎的重建法[23]。. (三) 研究內容與貢獻為了解決環境不匹配問題的強健性語音技術中，以聲學模型為基礎之強健性技術之辨識效果是三類中較好的，但是有計算量大的缺點存在：其計算量取決於聲學模型參數的數量，因此在規模較大的語音辨識問題中，計算量會變得過於龐大，也就是說以聲學模型為基礎之強健性技術有缺乏延展性的缺點。以語音特徵為主的語音強健性技術相較於以聲學模型為基礎之強健性技術，有較少之計算複雜度，而且有不錯的辨識效果。綜合以上方法之優缺點，本論文使用以語音特徵為主的強健性技術為出發點，目標為提出能提高辨識效能之方法。本論文主要是針對語音特徵之調變頻譜(Modulation Spectrum)成分做分析。以非負矩陣分解法(Nonnegative Matrix Factorization, NMF)為基礎，對分解後之基底矩陣和權重矩陣做更進一步的討論。本論文從二個方向進行討論：一個方向是 4.

(15) 以分群(Clustering)的概念處理語音本身的變異性(Variability)；而另一方向則是在求取基底矩陣和權重矩陣時加入可控制的限制條件，使得抽取出來的基底矩陣和權重矩陣內的資訊重疊性愈少愈好，以期能找出更具有代表性的資訊。實驗結果顯示本論文所提出之方法皆對提高辨識結果皆有明顯的效果。. (四) 論文章節安排本論文後續共分五個章節，各章節編排如下：第二章. 介紹語音特徵參數擷取流程及討論雜訊對調變頻譜域之干擾情形，接著回顧時間序列域和調變頻譜域上較被廣泛討論的語音特徵參數轉換法之強健技術。. 第三章. 介紹非負矩陣分解法之基本概念與其稀疏性，並簡介相關的壓縮感知技術。. 第四章. 介紹本論文使用的實驗語料庫、實驗設定和基礎實驗的結果。. 第五章. 詳述如何將非負矩陣分解法實作在調變頻譜的正規化上面，並進一步介紹本論文所提出之分群式非負矩陣分解法與稀疏性非負矩陣分解法，最後將結果與其他方法進行比較。. 第六章. 總結本論文之研究內容，並探討未來可繼續研究之方向。. 5.

(16) 二、. 文獻回顧. (一) 語音特徵參數擷取語音訊號中所包含的資訊不一定全數都有利於語音辨識，而藉由語音特徵參數擷取可從語音訊號中擷取出一連串的語音特徵向量，取得較有助於語音辨識的資訊。現有的語音特徵擷取方式較常見的有線性預測係數(Linear Prediction Coefficients, LPC)，感知線性預測係數(Perceptual Linear Prediction Coefficients, PLPC)[24]，與梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)[25]等。本論文是使用同時考慮人耳聽覺構造和發聲構造，與其對不同頻率的感受程度之梅爾倒頻譜係數為基礎。本節將簡單介紹梅爾倒頻譜係數的擷取過程，其流程圖如圖 2-1 所示。. 預強調. 取音框. 對數能量計算. 漢明窗. 時間差計算. 離散傅立葉轉換. 梅爾三角濾波器. 離散餘弦轉換. 圖 2- 1：語音特徵參數擷取流程圖。. 6. ….

(17) 1.. 預強調(Pre-Emphasis)：此部分是將語音訊號經過高通濾波器(High-Pass Filter)的處理目的是要補償語音訊號高頻之部分，原因可從二個面向討論，一個是從聲波傳遞之面向，當聲波在傳送中會隨著時間和距離的影響而衰減，其中較嚴重的部分是在高頻的部分，故使用高通濾波器來補償高頻之部分。另一個原因是從發聲構造之面向討論，在發聲的過程中聲門會抑制高頻的部分，聲門是肺部壓出的空氣要經過聲帶的出口，也就是二片聲帶的開口，所以我們要經過預強調來補償語音訊號高頻之部分。其公式如式 2-1，其中 ̃[ ]為預強調後之語音訊號，大多為一個 0.9 到 1 之間的參數值： ̃[ ]. 2.. [ ]. [. ]. 取音框(Frame) 由於語音訊號是一個長時間且受干擾的訊號，若將語音訊號切成一段一段時間間隔較小的音框，可看出其實語音訊號在短時間內的變化是較緩慢的，即短時域穩定 (Short-Term Stationary) 的訊號，也可稱半穩定 (Quasi-Stationary)的訊號。為了避免音框間的變化太大，所以使相鄰的音框有段重疊(Overlap)的部分。在 Aurora-2 的語料庫中使用的取樣率是 8000Hz，即取樣間距是 0.000125 秒，一個音框內有 200 個取樣，也就是 200*0.000125=0.025 秒，而音框每次向右移 80 個取樣，即 80*0.000125=0.01 秒。. 3.. 漢明窗(Hamming Window) 由於在時域上對語音訊號取音框會使頻域(Frequency Domain)上產生摺積效果造成失真的情況，加上視窗函數可以降低失真情形，原因是音框化等同於使用矩形視窗(Rectangular Window)和原始訊號相乘，因為矩形視窗會造成語音頻譜的邊瓣葉(Side Lobe)過高的缺點，故使用主瓣葉 (Main Lobe)較寬而邊瓣葉較窄的漢明窗，不但可以增加音框左端和右端的連續性，也可以減少失真的情形。 7.

(18) 4.. 離散傅立葉轉換(Discrete Fourier Transform, DFT) 語音訊號在時間域受到很多的干擾因素，所以很難直接得到助於辨識的資訊，通常會通過離散傅立葉轉將語音訊號轉到頻域，觀察不同頻域的能量分布代表的語音特性。本論文在實作上為了加快運算速度，故使用快速傅立葉轉換(Fast Fourier Transform, FFT)取代離散傅立葉轉換。. 5.. 梅爾三角濾波器組(Mel-Scaled Triangular Filterbank) 根據研究顯示[26-28]人耳對訊號中低頻的部分較敏銳，而對訊號中高頻的部皆較不敏銳，為了有效的使語音訊號也具有此特性，故用梅爾三角濾波器來模擬人耳之結構，對語音訊號做處理，使用梅爾三角濾波器還有二個優點，其一是可以降低資料量，另一個優點是可以平滑化和消除諧波(Harmonics)。通常我們會對做完梅爾三角濾波器組之訊號再取對數，使語音特徵能量的變異不會那麼的敏感。. 6.. 離散餘弦轉換(Discrete Cosine Transform, DCT) 經過梅爾三角濾波器組的輸出訊號再經過離散餘弦轉換可以降低特徵參數之間的相關性，也可以降低語音特徵參數向量維度，並回到倒頻頻域。. 7.. 對數能量(Logarithm Energy)與時間差量(Time Derivatives)計算對數能量也是重要的語音聲學特徵之一，其計算方式為在經過取漢明窗的動作後，將訊號值取平方和再將先前求得之梅爾倒頻譜係數加上對數能量，此外還會額外計算其一階差量與二階差量來獲取更多語音特徵參數在時間軸上的特性。. 8.

(19) (二) 強健性語音特徵技術強健性語音特徵技術的目的是將語音訊號中較不受環境影響之部分擷取出來，或是嘗試將受雜訊干擾的語音特徵還原成未受干擾前的特徵。以目前常見的研究而言，有三個主要的研究方向：語音特徵參數重建法(Feature Reconstruction)、語音特徵參數補償法 (Feature Compensation) 、語音特徵參數轉換法 (Feature Transformation)。其中語音特徵參數轉換法可再分為兩大類：語音參數正規化法 (Feature Normalization)、資料相關線性語音特徵空間轉換法(Data-Driven Linear Feature Transform)。其中語音參數正規化法是本論文研究的重點。本節將簡介一些作用在時間序列域上並且基於語音的統計特性設計的語音參數正規化法。. 1. 倒頻譜平均消去法(Cepstral Mean Substraction, CMS) 此方法假設在理想環境條件下，每一個維度特徵值分佈的平均值應該為零。基於此假設，倒頻譜平均消去法計算每一維度特徵分佈之平均值，將其視為環境雜訊干擾或通道雜訊所造成之影響，並針對這個平均值──亦即語音特徵分佈的第一階動差(First-order Moment)──進行正規化。令𝑌̅ 𝑖 是語音特徵向量中第 i 維分佈的平均數，T 是總時間長度(總音框個數)，𝑦𝑡𝑖 是在時間 t 第 i 維的語音特徵值，𝑦̃𝑡𝑖 是在時間 t 第 i 維更新後的語音特徵值，倒頻譜平均消去法的過程可以此方程式表示： 𝑇. 𝑌̅ 𝑖. 𝑇. ∑ 𝑦𝑡𝑖. 𝑦̃𝑡𝑖. 𝑦𝑡𝑖. 𝑌̅𝑖. 𝑡=1. 2. 倒頻譜平均與變異數正規化法(Cepstral Mean and Variance Normalization, CMVN) 延續倒頻譜平均消去法的想法，倒頻譜平均與變異數正規化法進一步討論每一維度之語音特徵分佈的第二階動差(Second-order Moment)，亦即變異數(Variance)。 9.

(20) 令𝜎 𝑖 是第 i 維語音特徵分佈的標準差(Standard Deviation)，𝑇是總時間長度，𝑦𝑡𝑖 是在時間 t 第 i 維的語音特徵值，𝑌̅ 𝑖 是語音特徵向量中第 i 維向量之平均數，𝑦̃𝑡𝑖 是在時間 t 第 i 維更新後的語音特徵值，則倒頻譜平均與變異數正規化法可以下式表示： 𝜎𝑖. 1. √ ∑𝑇𝑡=1(𝑦𝑡𝑖 𝑇. 2 𝑌̅𝑖 ). 𝑦̃𝑡𝑖. ̅̅̅𝑖 𝑦𝑡𝑖 −𝑌. 3. 𝜎𝑖. 3. 統計圖等化法(Histogram Equalization, HEQ) 前述的倒頻譜平均消去法及倒頻譜平均與變異數正規化法都只針對語音特徵分佈中特定的動差進行線性調整，無法有效處理雜訊對語音造成的非線性扭曲。統計圖等化法(Histogram Equalization)是在影像處理的領域中常用來調整如亮度、對比等影像參數的方法；而在[16]中，統計圖等化法也被引入強健性語音特徵技術的領域，用以對每一維語音特徵的分布進行非線性轉換，使每一維度的訓練語句和測試語句之機率分布能逼近一個相同的機率分佈函數，進而降低環境不匹配的問題。與前述的兩種線性正規化法不同的地方在於：統計圖等化法是非線性轉換，並同時正規化統計分佈中的所有動差(Moment)，而非只調整統計分佈中的部份參數。統計圖等化法的主要作法是利用測試語料之累積密度函數 (Cumulative Density Function, CDF)值對應到訓練語料的累積密度函數值，以此轉換過程使訓練語料中的語句與測試語料中的語句具有相同的統計分佈。令𝑃𝑇𝑟𝑎𝑖𝑛. 是訓練語. 料所訓練出來的參考機率密度分布，𝑃𝑇𝑒𝑠𝑡 𝑦 是某一測試語句的機率密度分布，可用下式來進行統計圖等化法的轉換： 𝑃𝑇𝑟𝑎𝑖𝑛. 𝑃𝑇𝑒𝑠𝑡 𝑦. 𝑑𝑦 𝑑𝑥. 𝑃𝑇𝑒𝑠𝑡 (𝐹 −1. 10. ). 𝑑(𝐹 −1 𝑥 ) 𝑑𝑥. 4.

(21) (三) 調變頻譜正規化技術於強健性語音辨識之研究過去大多語音參數正規化法之研究皆在語音特徵的時間序列(Time Sequence)域進行處理，期望藉由正規化語音特徵的特性或統計分布來減少雜訊的影響；但環境中的干擾因素除了會改變語音特徵的統計特性，也會使語音的時空結構(Temporal Structure)產生變化而扭曲，而這是從以音框為單位的語音特徵較難處理的面向。調變頻譜(modulation spectrum)[29]是一種能有效描繪整個語句語音特徵之時域結構的媒介，相對於一般的語音特徵而言，能呈現出更大尺度的語音變化特性。而調變頻譜正規化的研究，便是將上一節所述之語音特徵分佈正規化的概念應用在語音特徵的調變頻譜上。不同於在時域上語音特徵正規化的技術，調變頻譜正規化技術考慮了整個語句的變化規律，並以不同尺度的觀點切入環境干擾的問題，也可以將其視為與原始的語音特徵形成一個互補的面向。目前也有許多學者提出作用於調變頻譜之強健性語音辨識方法，研究發展趨勢如圖 2-2 所示。調變頻譜的概念最早是在 1979 年由 Viemeister 等學者提出[29]，而在 1994 年、1997 年及 1998 年分別有針對調變頻譜的進一步研究指出：調變頻譜中的不同頻帶對語音辨識的重要程度是不同的[30-32]，低頻是較重要的部分，其中較重要的部分是在 1Hz 到 16Hz 這個區間，而重要性最突出的則是在 4Hz 附近的頻帶。2006 年，Wada 等學者在生化訊號上套用調變頻譜的概念進行處理也得到了不錯的結果[33]。而在語音辨識的領域，2007 年中，調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE)[34]、強度頻譜比例正規化法(Magnitude Ratio Equalization, MRE)[34] 及時間序列結構正規化法 (Temporal Structure Normalization, TSN)[35]等方法相繼被提出，使調變頻譜正規化的方法成為了強健性語音辨識中具有代表性的研究領域之一。稍後，在調變頻譜正規化的研究方向中，也有學者進一步提出了子頻帶調變頻譜平均正規化法(Sub-band Spectral Mean Normalization, SB-SMN) 、子頻帶調變頻譜平均與變異數正規化法 (Sub-band Spectral Mean and Variance Normalization, SB-SMVN)，和子頻帶調變頻譜統計圖等化法(Sub-band Spectral Histogram Equalization, SB-SHE)[36]等延伸的方法。 11.

(22) 除了前述針對調變頻譜統計特性的技術以外，近年來亦有學者提出調變頻譜非負矩陣分解法(Modulation Spectrum Non-negative Matrix Factorization, MS-NMF) 與調變頻譜機率式潛藏語意分析 (Modulation Spectrum Probabilistic Latent Semantic Analysis, MS-PLSA)[37]，將矩陣分解及文件分析的相關技術應用在調變頻譜的處理上；而調變頻譜替代法(Modulation Spectrum Replacement, MSR) 、調變頻譜濾波法(Modulation Spectrum Filtering, MSF)，與調變頻譜指數權重法 (modulation spectrum exponential weighting, MSEW)[38-39]則又更進一步提供了處理語音特徵調變頻譜的不同觀點。. 圖 2- 2：調變頻譜相關研究發展趨勢圖。. 令一個語句中，某一特定維度之語音特徵時間序列為{ [𝑡]|0 ≤ 𝑡 ≤ 𝑁. }，其中. t 為音框(frame)的索引值，N 是對時間序列縮減取樣的取樣數，該語句在這一維度的調變頻譜可以定義為： −1. [ ]. 𝐹𝑇. [𝑡]. ∑ [𝑡] 𝑡=. 12. −. 𝑡.

(23) 其中，DFT 為離散傅立葉轉換(Discrete Fourier Transform)， [ ]即為該維度語音特徵時間序列之調變頻譜(Modulation Spectrum)。由式 2-5 可看出調變頻譜中每一個取樣點都考慮了語句中所有時間的資訊，也就是說可以看到整個語句中每一個特徵維度巨觀的變化，是屬於較廣域的資訊。換句話說，特徵時間序列的調變頻譜可以有效的描述時空結構，並考慮更廣泛的分析面向。在本論文中，也試著將調變頻譜域的正規化方法與倒頻譜域的正規化方法結合：倒頻譜域的正規化方法包含了較局部的資訊，調變頻譜則包含較廣泛的資訊，此種結合的方法，可有效結合廣域的資訊和局部的資訊。如前回顧所言，以整條調變頻譜而言，真正對語音辨識有關鍵地位的資訊只佔其中一小部份的頻帶，再加上調變頻譜中特徵向量中的值皆為正，可以很合理地將之與非負矩陣分解法連結在一起。本節中將先針對常見的調變頻譜正規化法進行介紹，非負矩陣分解法則在第三章中會有詳細的說明。. 1.. 調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE). 調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE)[34]此方法是將統計圖等化法(Histogram Equalization, HEQ)應用在調變譜域上，期望將測試語料的頻譜強度的機率分布對應到訓練語料之調變頻譜強度的機率分布 (Probability Distribution Function, PDF)所訓練成之參考函數，利用此非線性的轉換，使訓練語句和試測試語句的調變頻譜強度的機率分布趨於一致。其新的調變頻譜(測試語句之調變頻譜，| ̃ [ ]|)強度和原始(訓練語句之調變頻譜，| [ ]|)強度之關係為： | ̃ [ ]| 2.. −1 𝐹𝑟𝑒 (𝐹 | [ ]| ). 調變頻譜平均正規化法(Spectral Mean Normalization, SMN). 調變頻譜平均正規化法[36]之目標與倒頻譜平均正規化法相似，假設當各種音素在環境中占的比例近似於一致時，每一維度特徵的調變頻譜之平均值應該為一定值。計算更新強度成分之公式如式 2-7 所示，其中更新強度成分| ̃ [ ]|，目前強 13.

(24) 度成分為| [ ]|，單一語句的調變頻譜強度平均值為𝜇𝑠 ，所有訓練語句之調變頻譜強度平均值為𝜇𝑎 ： | ̃ [ ]| 3.. | [ ]|. 𝜇𝑠 + 𝜇𝑎. 7. 調變頻譜平均與變異數正規化法(Spectral Mean and Variance Normalization, SMVN). 調變頻譜平均與變異數正規化法[36]是對調變頻譜之平均值與變異數正規化，目的同倒頻譜平均與變異數正規化法，假設特徵向量參數之平均值在理想環境中比例驅於一致時，平均值應為零，且特徵向量參數之分布可以變異數來估測，計算公式如式 2-8，其更新強度成分| ̃ [ ]|，目前強度成分為| [ ]|，單一語句的調變頻譜強度平均值為𝜇𝑠，所有訓練語句之調變頻譜強度平均值為𝜇𝑎，單一語句的調變頻譜強度變異數為𝜎𝑠 ，所有訓練語句之調變頻譜強度變異數為𝜎𝑎 ： | ̃ [ ]|. | [ ]| 𝜎𝑠. 𝜇𝑠. 𝜎𝑎 + 𝜇𝑎. 14.

(25) 三、. 資料壓縮法. 一般而言，資料分析的研究大多是期望找出資料中潛藏的架構並加以描述，並降低實際表達資料需要的維度(Dimensionality)。資料壓縮法(Data Compression)便是其中一種資料分析的方法。由於多數現實世界的資料中皆有統計冗餘(Data Redundancy)的問題，故資料壓縮是希望利用較少的空間來表達出原始資料中的資訊[40]。資料壓縮法是從資料本身的特性出發，尋找數據中隱含的冗餘成分並予以剔除，以達到壓縮的目的，經過壓縮的處理後不但可以有較小的資料大小和較好的儲存空間利用率，而且也可以將類似的技術應用在資料安全的保護上。資料壓縮的方法有壓縮(Compression)與解壓縮(Decompression)兩個主要的部份，而根據壓縮後解壓縮回來的資料與原始資料的關係，可將資料壓縮方法分為兩大類：非破壞性資料壓縮(Lossless Compression)和破壞性資料壓縮(Lossy Compression)。非破壞性資料壓縮是指資料在經過壓縮後，資料訊息不會因此而被破壞，解壓縮後可以完全與原始的資料一模一樣，也可稱為無失真資料壓縮；另一方面，破壞性資料壓縮則是資料在經過壓縮和解壓縮的過程中，會損失一部份的資訊，另一種說法為失真資料壓縮。在這兩大類方法中，破壞性資料壓縮法較常用在影像、視訊、聲音訊號等可稍微容忍失真的應用情境。由此可看出破壞性資料壓縮仍然可以保有原始資料重要的部分，且可獲得較非破壞性資料壓縮法較小的資料。破壞性資料壓縮有許多不同的方法，例如線性預測編碼(Linear Predictive Coding, LPC)[41]便是很常用於音訊處理和語音處理的一種技術。線性預測編碼的概念是假設每一個時間點的語音訊號，可以用若干個過去觀察到的語音訊號線性組合來逼近之。本節中將介紹幾個近年來較常被用來處理語音資料，且可以應用在調變頻譜處理上的破壞性資料壓縮方法。. 15.

(26) (一) 非負矩陣分解法非負矩陣分解法(Non-negative Matrix Factorization, NMF) 是一種以部分為主 (Part-based)，並使用非消減式(Non-subtractive)線性組合的方式逼近原始資料的方法。非負矩陣分解法最初是在 1999 年被提出[42]，該學者將非負矩陣分解法應用在人臉辦識領域，將非負矩陣分解法找出的基底(basis)向量視為人臉重要的特徵，例如：眼睛、鼻子、眉毛…等，而編碼向量(Encoding)則可解讀成把重要的人臉特徵用不同比例組合成實際的人臉圖像。相較於其它類似的矩陣分析方法例如主成分分析法(Principal Component Analysis, PCA)、獨立成分分析法(Independent Component Analysis, ICA)[43] 、線性鑑別分析 (Linear Discriminant Analysis, LDA)[44]、異質性線性鑑別分析(Heteroscedastic Linear Discriminant Analysis, HLDA)[45-46]、異質性鑑別分析(Heteroscedastic Discriminant Analysis, HDA)[47] 等，非負矩陣分解法最大的特色就在於其所求取出的基底向量及編碼向量中不會有任何負值存在，而使其更適合運用在不容許負值的應用領域。在 2001 年有學者在[48]中詳細地說明了非負矩陣分解法的概念和求取基底向量與編碼向量的過程，此文章討論了二種非負矩陣分解法的更新法則：最小平方誤差法(Least Square Error)和 KL 距離(Kullback–Leibler Divergence)[48]，更詳細的推導過程可以參考附錄一的內容。前人對非負矩陣分解法的研究大多專注在影像處理的領域，因為影像處理中畫素的值皆為正，如果使用其它矩陣分解法在分解後的矩陣可能會產生負值，而負值在影像處理中無法加以詮釋，使用非負矩陣分解法就不會產生此問題。除了影像處理以外，在語音辨識方面，2011 有學者提出了將非負矩陣分解法應用在強健性語音特徵擷取的議題上[49]，得到了相當不錯的效果，因此近年來也開始有不同領域的學者將此方法加以應用，其研究發展示意圖可見圖 3-2。非負矩陣分解法將一個較大且所有值皆不為負值的矩陣(𝑉)，分解成二個較小的非負矩陣(𝑊, 𝐻)，矩陣V的大小為資料的維度(n)乘以資料的個數(m)，即𝑉𝑛∗𝑚 。矩陣W的大小為資料的維度(n)乘以基厎向量的個數(r)，即𝑊𝑛∗𝑟 。矩陣𝐻的大小 16.

(27) 為基底向量的個數乘以資料的個數，即𝐻𝑟∗𝑚。其三者的關係可見式 3-1 與圖 3-1。 𝑟. 𝑉𝑛∗𝑚 ≈ 𝑊𝐻. 𝑛∗𝑚. ∑ 𝑊𝑛∗𝑖 𝐻𝑖∗𝑚. 3. 𝑖=1. V. W. H. basis. decoder. ≈ 圖 3- 1：非負矩陣分解法示意圖。. 有了資料的維度(n)及資料的個數(m)之後，如何選擇基底向量的個數是一個很重要的問題。基底向量矩陣(𝑊)和編碼向量矩陣(𝐻)的乘積(𝑊𝐻)，可以視為原始資料矩陣(𝑉)的一種壓縮，基底的數量愈少，表達原始資料所需要的空間越小，壓縮比例也就愈高。根據[42]的研究，在非負矩陣分解法中，基底向量的個數必須要符合下式的條件限制，而其對語音的影響也將在第五章的實驗中加以討論： +𝑚 𝑟<. ∗𝑚. 3. 由於在資料壓縮中，解壓縮後的資料應該盡可能與原始的資料接近，而這樣的目標可以用如下的減損函數(Loss Function)來表示。在這裡使用的是最小平方法則(Least Square Method)，也可稱為歐式距離(Euclidean Distance)： 𝐹. ‖𝑉. 𝑊𝐻‖2. 3. 3. 3. 4. 而依此減損函數進行維分[48]，可推演出迭代(Iterative)更新法則為： 𝑊𝑛𝑖 ← 𝑊𝑛𝑖. 𝑉𝐻 𝑇 𝑛𝑖 𝑊𝐻𝐻 𝑇 𝑛𝑖. 𝐻𝑖𝑚 ← 𝐻𝑖𝑚. 17. 𝑊 𝑇 𝑉 𝑖𝑚 𝑊 𝑇 𝑊𝐻 𝑖𝑚.

(28) 圖 3- 2：非負矩陣分解法研究發展情形。由於原始的非負矩陣分解法可以調整的參數較少，也有部分學者致力於研究不同減損函式的非負矩陣分解法、不同的更新方式，或在非負矩陣分解法中加入其他限制條件以改善非負矩陣分解法的效能。在 [48] 中有學者提出了使用 KL-divergence 作為判定距離的方法，依此距離定義的減損函數為： 𝐹𝐾𝐿. 𝑉‖𝑊𝐻. ∑ (𝑉𝑖 𝑙𝑜𝑔 𝑖. 𝑉𝑖 𝑊𝐻. 𝑖. 𝑉𝑖 + 𝑊𝐻. 𝑖. ). 3. 由此減損函數而得之更新法則為： 𝑊𝑛𝑖 ← 𝑊𝑛𝑖. ∑𝜇 𝐻𝑖𝜇 𝑉𝑛𝜇 ⁄ 𝑊𝐻 ∑𝑎 𝐻𝑖𝑎. 𝐻𝑖𝑚 ← 𝐻𝑖𝑚. ∑𝑙 𝑊𝑙𝑖 𝑉𝑙𝑚 ⁄ 𝑊𝐻 ∑𝑘 𝑊𝑘𝑖. 𝑛𝜇. 𝑙𝑚. 3. 在 2011 年也有學者將上述使用 KL-divergence 為減損函數的方法加以延伸 [50]，利用[51]中提出之保存位置資訊的非負矩陣分解法(LPNMF)，進一步考慮𝑉 與𝑊𝐻兩兩配對(Pair-wise)的 KL-divergence。同年，亦有學者提出強健性非負矩陣分解法(Robust Non-negative Matrix Factorization, RNMF)[52]，也就是在減損函 18.

(29) 式中加入一個誤差矩陣𝑆 (Error vector)，並限制此誤差矩陣要符合稀疏之特性── 亦即元素值為零之個數不可小於某個參數值𝜔： min ‖. 𝑊,𝐻,𝑆. 𝑊𝐻. 𝑆‖2. 𝑠. 𝑡. 𝑊 ≥ 0, 𝐻 ≥ 0, ‖𝑆‖ ≤ 𝜔. 3. 7. 實驗結果也顯示強健性非負矩陣分解法在人臉辨識之研究，效果優於其他相關的方法。除了使非負矩陣變得更強健、效果更好的研究外，在 2012 年也有學者針對其計算複雜度進行改進，提出了運用正交投影(Orthogonal Projection)減少計算量的技術[53]，並在語音特徵強健性的實驗中證實了這種技術除了可以增進辨識率以外，也可以有效的減少非負矩陣分解法的計算複雜度。其與原始非負矩陣分解法的差別，主要是在已順利求得訓練資料的基底 W 以後，以此來重建新資料的步驟：在原始非負矩陣分解法中，是運用式 3-4 的迭代法則來針對固定的 W 求取 H，再將此兩個矩陣相乘取得重建後的資料；而正交投影法則是運用在向量空間上的幾何性質，如圖 3-2 所示，將現有資料矩陣𝑉投影到已知的基底矩陣𝑊上，使其不需要迭代式的更新法則：. 圖 3-2：正交投影示意圖。 (二) 非負矩陣分解法之稀疏性稀疏性(Sparseness)的概念是避免直接對充滿冗餘性的資料學習其特性，而是期望透過取出資料中較重要的部分，將其視為優化後的資料，再建立模型學習優化後之資料分布。由於在現今的應用中大多需要大量的資料，因此矩陣稀疏化的研究也是近年來相當熱門的主題之一，而非負矩陣分解法當然也能夠受益於此領域的 19.

(30) 研究。2004 年有學者在[54]中將稀疏化的概念應用在非負矩陣分解法中，將原本的最小平方法則加入稀疏化的限制條件。此方法定義一個計算稀疏化的函數，此函數考慮 L1-norm 和 L2-norm 的綜合影響，可寫成下式：. sparseness. √. ∑| 𝑖 | ⁄√∑. 2 𝑖. √. 3. 其中 n 為 x 的維度。[54]是實作在影像處理的研究上，在該文獻中觀察其所呈現出來的影響資訊，可以發現加上稀疏化的限制條件以後，不同基底向量之間差異較原始的方法來得大，也就是基底向量之間的冗餘性有明顯的減少。建立在這樣的基礎之上，[55-56]分別在 2008 及 2010 年提出使用 L0-norm 的法則來進一步改善基底向量的稀疏程度。L0-norm 的定義是向量中非零項的個數，是對「稀疏性」最直接的數學描述，但由於 L0-norm 並非一可微分的連續函數，故此研究先運用前述的 sparseness 定義來求取較稀疏的基底矩陣，再以分解後的矩陣為基礎進行調整，找出更稀疏的矩陣。除此以外，2007 年提出的稀疏化限制矩陣分解非負元素法 (Constrained Sparse Matrix Factorization with non-negative components, CSMFnc)[57]及 2009 年所提出的[58]，也都是運用類似的概念，但以不同的方式組合限制條件來達成不同的稀疏效果，並分別在其應用領域中取得良好的成效。值得一提的是，稀疏化的限制條件可以套用在求取基底矩陣 W 的部份，也可以套用在求取編碼矩陣 H 的部份，此兩種概念具有不同的意義。當應用在基底矩陣 W 時，能夠有效地使使基底之間重覆的部份變少，而減少其冗餘性；當應用在編碼矩陣 H 時，則能強迫資料重建的過程使用較少的基底向量，有助於提升資料的鑑別性(discriminativity)。由於我們的目標是減少冗餘的資訊，本論文中將以基底矩陣的稀疏性為主要的討論重心。由此研究發展趨勢可看出非負矩陣分解法是一種可以有效擷取出重要資訊的方法，也可借由不同的減損函式和更新方式來達到不同的效果。. 20.

(31) (三) 壓縮感知法訊號取樣壓縮法中最常見而直覺的方法為 Nyquist 取樣法，當在限制頻寬的情況下且採樣率足夠的話，就可使用此方法用離散信號完全重構出原本的連續信號，公式如式(3-9)，其中 𝑠 為取樣頻率， 𝑐 為原始訊號的最大頻率。 𝑠. ≥. 3. 𝑐. 9. 壓縮感知(Compressive Sensing, CS)[59-60]的概念在 2006 年時被提出，是一種新的訊號取樣概念。在對信號取樣的時候，若能同時將信號壓縮，利用資料的稀疏性及不連續性，可以透過遠小於原始訊號長度的少量觀測值來有效估測原訊號。壓縮感知之困難點在於壓縮後的數據並不是原始數據的子集，若想要以少部分的資料解壓縮出大量資訊就需要二個前提假設：一是壓縮後的資料要包含原始資料大部份重要的資訊，二是要存在一種適當的轉換關係，能將壓縮後的資料對應到原始的資料。在 2006 年，有學者以壓縮感知法在醫學圖像的重建與壓縮上取得有驚人的成果[61]，並提出壓縮感知的模型。該文獻中說明了要取得良好成效的條件： 1.. 資料本身必須具有稀疏性，也就是訊號本身所實際包含的資訊遠少於訊號本身的資料量。如第二章所述，語音特徵的調變頻譜中，真正重要的資訊只集中在少數的頻帶上，故語音很明顯符合這樣的條件。而在中也提出了覆蓋性 (Recoverability)──也就是能根據少量壓縮後的資訊還原回原始訊號的完整程度──是壓縮感知法成功的重要條件之一。. 2.. 採樣的數量(也就是壓縮後的資料量)要足夠，才能有效的重構出較佳的結果。而[62]也指出，採樣必須符合非限制等容特性(Restricted Isometry Property, RIP)，才能在數學上有較佳的強健性。. 21.

(32) 𝐶m 𝐶4 𝐶3 𝐶2 𝐶1. DFT. n 個語句之倒頻譜. 基底矩陣. 權重矩陣. (𝐶1 ~𝐶𝑚 ). (𝑊𝑛∗𝑟 ). (𝐻𝑟∗𝑚 ). 圖 3- 3：壓縮感知法示意圖。. 22.

(33) 四、. 實驗語料庫與相關基礎實驗結果. 本章將介紹本論文使用的語料庫與實驗設定。第一節是介紹實驗語料庫，第二節是相關的實驗設定，第三節說明辨識效能的評估方式，第四節是一些基礎的實驗結果。. (一) 實驗語料庫本論文使用 Aurora-2 與 Aurora-4 語料庫。Aurora-2 是英文連續數字語料庫來測試論文中所提出方法和其它方法在使用相同語料庫時的辨識效果。Aurora-2 是由歐洲電信標準協會(European Telecommunications Standards Institute, ESTI)所發行的語料庫 [62] ，以美國成年人作為錄音來源，內容為連續的英文數字，由 0(Zero)~9(Nine)加上 0 的另一種說法(Oh)等十一個詞組成。此語料庫中除了乾淨的語音以外，還另外加入了八種不同的加成性雜訊和兩種不同的通道效應。加成性雜訊有機場(Airport)、人聲(Babble)、汽車(Car)、展覽會館(Exhibition)、餐廳 (Restaurant)、地下鐵(Subway)、街道(Street)和火車站(Train Station)，依照不同的訊噪比(Signal-to-Noise Ratio, SNR)加入乾淨語音中，訊噪比是指純語音訊號與雜訊訊號能量的比值，公式如下： SNR 𝑑𝐵. 0 ∗ 𝑙𝑜𝑔 (. 𝐸𝑆𝑝𝑒𝑒𝑐ℎ ) 𝐸 𝑜𝑖𝑠𝑒. 4. 此語料庫中使用的訊噪比有 20dB、15dB、10dB、5dB、0dB 和-5dB，而通道效應是使用國際電信聯合會(International Telecommunication Union, ITU)標準中的 G.712 和 MIRS。Aurora-2 中分為三組測試集 Set A、Set B 和 Set C，分別使用不同加成性雜訊和通道效應，並提供兩組訓練資料，分別為乾淨情境訓練模式 (Clean-Condition Training)與複合情境訓練模式(Multi-Condition Training)。本研究的基礎實驗皆使用乾淨情境的訓練模式，故測試集中所有加成性噪音皆是訓練語料中未曾見過的，但只有測試集 C 的通道效應與訓練語料不同。更詳細的語料庫細節可見表 4-1。 23.

(34) 表 4- 1：Aurora-2 語料庫相關資訊 AU Aurora-2 取樣頻率語音內容. 8kHz 英文數字單詞：One、Two、Three、Four、Five、Six、Seven、Eight、 Nine、Zero、Oh，共十一個詞。. 訓練語料. 語句數：8,400. 測試語料. 測試集. 語句數. 加成性噪音. 通道效應. A. 28,028. 地下鐵、人聲、汽車、展覽館. G.712. B. 28,028. 餐廳、街道、機場、火車. G.712. C. 14,014. 地下鐵、街道. MIRS. 訊噪比. 通道效應：G.712. 乾淨、-5dB、0dB、5dB、10dB、15dB、20dB. Aurora-4 是大詞彙連續語音辨識(Large-Vocabulary Continuous-Speech Recognition, LVCSR)語料庫由歐洲電信標準協會(European Telecommunications Standards Institute, ESTI)所發行的語料庫[62]，Aurora-4 主要是評估強健語音辨識在受到加成性噪音與通道效應干擾之辨識效能。加成性雜訊有機場(Airport)、人聲(Babble)、汽車(Car)、餐廳(Restaurant)、地下鐵(Subway)、街道(Street)和火車站(Train Station)，通道效應包函二種測試集之麥克風，一個測試集為僅有一隻麥克風且制造商為 Sennheiser，另一測試集為包含多個不同麥克風且為不同製造商。語料庫之內容取自華爾街日報(Wall Stress Journal 0, WSJ0)，共有 5000 個英文單字，包函二種取樣頻率 8000Hz、16000Hz，本論文使用與 Aurora-2 相同之 8000Hz 採樣頻率。 Aurora-4 中分為十四組測試集分別使用不同加成性雜訊和通道效應，並提供兩組訓練資料，分別為乾淨情境訓練模式(Clean-Condition Training)與複合情境訓練模式(Multi-Condition Training)。更詳細的語料庫細節可見表 4-2。. 24.

(35) 表 4- 2：Aurora-4 語料庫相關資訊 AU Aurora-4 取樣頻率測試語料. 訊噪比. 8kHz 測試集. 語句數. 加成性噪音. 通道效應. 1. 330. 無、SI-84 濾波器. Sennheiser Mic.. 2. 330. 汽車(5 與 15dB). Sennheiser Mic.. 3. 330. 人聲(5 與 15dB). Sennheiser Mic.. 4. 330. 餐廳(5 與 15dB). Sennheiser Mic.. 5. 330. 街道(5 與 15dB). Sennheiser Mic.. 6. 330. 機場(5 與 15dB). Sennheiser Mic.. 7. 330. 火車站(5 與 15dB). Sennheiser Mic.. 8. 330. 無、SI-84 濾波器. Second Mic.. 9. 330. 汽車(5 與 15dB). Second Mic.. 10. 330. 人聲(5 與 15dB). Second Mic.. 11. 330. 餐廳(5 與 15dB). Second Mic.. 12. 330. 街道(5 與 15dB). Second Mic.. 13. 330. 機場(5 與 15dB). Second Mic.. 14. 330. 火車(5 與 15dB). Second Mic.. 乾淨、-5dB、0dB、5dB、10dB、15dB、20dB. 25.

(36) (二) 實驗設定本論文是的基礎實驗是採用梅爾倒頻譜係數做為語音特徵參數，取樣頻率 (Sampling Rate)為 8000Hz，預強調(pre-emphasis)參數設為 0.97，使用的窗函數為漢明窗(Hamming Window)，音框長度(Frame Length)是 25 毫秒，音框間距(Frame Shift)為 10 毫秒。每一個音框的特徵使用 13 維梅爾倒頻譜係數(第 0 維至第 12 維)，加上其一階差量計算和二階差量計算，共 39 維之特徵參數。在特徵的強健性處理方法，本論文在處理特徵時，只針對 13 維的靜態特徵參數(Static Feature)進行處理，處理完成後才額外將一階差量和二階差量加入。在聲學模型的訓練和測試部份，本論文使用劍橋大學所開發的隱藏式馬可夫模型工具套件 HTK[63]進行。每個數字的聲學模型皆以一從左到右(Left-to-right) 形式的連續密度隱藏式馬可夫模型(Continuous Density Hidden Markov Model, CDHMM)表示，共 11 個數字模型(one, two ,…, nine, zero , and oh)以及靜音模型。每個數字模型包含 16 個狀態(State)，每個狀態利用 20 個高斯混合(Guessian Mixtures)表示。靜音(silence)模型則包含 3 個狀態，每個狀態以 36 個高斯混合來表示。. (三) 辨識效能評估方式本論文評估辨識的方式是採用美國標準與科技組織 (The National Institute of Standards and Technology, NIST)所訂定之評估標準，比較正確轉譯文句字串與辨識字串。評估的單位是以字精確率(Word Accuracy)為單位。計算正確轉譯文句字串與辨識字串間的字取代個數(Substitutions)、字插入(Insertions)個數和字刪除 (Deletions)個數，計算的方式有二種，詞精確率(Word Accuracy Rate)與詞錯誤率 (Word Error Rate)，其計算公式如下：詞精確率. 詞正確辨識個數. 詞插入個數. 輸入詞總數. 26. ∗ 00. 4.

(37) 詞錯誤率. 詞取代個數 + 詞插入個數 + 詞刪除個數輸入詞總數. ∗ 00 4. 3. 在 Aurora-2 語料庫中，在每一個測試集都會依不同程度的訊噪比添加七種噪音，參照國際學者之設定，本論文使用加總每一種噪音從 20dB 到 0dB 的平均詞精確率或平均詞錯誤率的結果再取其平均值。值得注意的是，兩種極端的訊噪比，也就是乾淨的情況和-5dB 的情況，是排除在平均計算範圍外的。本論文所有的實驗皆是使用此設定來評估計算辨識結果。. (四) 基礎實驗結果本論文是以梅爾倒頻譜係數作為語音特徵參數，計算在各種不同通道效應和雜訊下之辨識結果作為本論文的基礎結果(Baseline)。表 4-2 為梅爾倒頻譜係數於乾淨語料訓練下，三個測試集在不同噪音環境下的辨識結果。從表 4-2 的 Clean 那一列可以看出在乾淨的測試資料都有很好的辨識結果，平均詞精確率高達 99%，而比較每一列的辨識結果可以看出當訊噪比愈低──即噪音比例愈高──會使辨識正確率愈低，也就是說噪音對辨識的影響是很大的，可以印證前文所提到的噪音會破壞語音特徵的時空結構。表 4-3 進一步列出了數種在時間序列域常見的特徵正規化方法於乾淨語料訓練下的辨識結果，有倒頻譜消去法、倒頻譜平均值與變異數正規化法，以及統計圖等化法。從表 4-3 中可發現倒頻譜消去法在三個測試集中皆有改進之效果，是因為倒頻譜消去法利用正規化特徵參數之平均值來消除穩定的通道效應，故能有效的提升辨識效果。而倒頻譜平均值與變異數正規化法除了正規化特徵參數之平均值，更進一步的正規化特徵參數之變異數，減少了特徵參數的分布差異，故比倒頻譜消去法有更進一步的改善。統計圖等化法則是透過正規化特徵參數的整體分布，對特徵參數的統計分布之所有動差進行正規化。一階動差即機率分布之平均值，二皆動差即機率分布之變異數，故統計圖等化法相較於倒頻譜消去法和倒. 27.

(38) 頻譜平均值與變異數正規化法考慮了更多的資訊，其辨識結果也較倒頻譜平均值與變異數正規化法突出。. 表 4- 3：Aurora-2 梅爾倒頻譜係數於乾淨語料訓練下的辨識結果(平均詞精確率 %)。乾淨語料訓練模型 Set A. Set B. Set C. 訊噪比. 地下鐵. 人聲. 汽車. 展覽會館. 餐廳. 街道. 機場. 火車站. 地下鐵. 街道. Clean. 99.72. 99.64. 99.58. 99.75. 99.72. 99.64. 99.58. 99.75. 99.66. 99.61. 20dB. 98.22. 85.97. 95.44. 97.93. 90.97. 95.71. 88.61. 89.76. 94.47. 95.44. 15dB. 92.05. 65.11. 81.09. 92.32. 74.36. 87.52. 68.92. 72.60. 86.49. 89.03. 10dB. 71.63. 38.48. 51.54. 74.17. 48.05. 64.06. 42.32. 45.11. 71.32. 72.13. 5dB. 39.15. 10.76. 25.26. 41.16. 18.54. 36.09. 17.57. 17.96. 43.51. 47.43. 0dB. 14.61. -7.22. 12.17. 17.56. -3.13. 16.11. 0.95. 5.40. 17.07. 22.61. -5dB. 8.17. -10.94. 8.32. 9.04. -7.22. 8.19. -3.13. 3.18. 8.90. 12.24. Avg.. 63.13. 38.62. 53.10. 64.63. 45.76. 59.90. 43.67. 46.17. 62.57. 65.33. 28.

(39) 表 4- 4：Aurora-2 常見之時間序列域特徵正規化方法於乾淨語料訓練下的辨識結果。平均詞精確率%. Set A. Set B. Set C. Avg.. MFCC. 54.87. 48.87. 63.95. 54.29. CMS. 66.81. 71.79. 67.64. 68.97. CMVN. 75.93. 76.76. 76.82. 76.44. HEQ. 80.03. 82.05. 80.10. 80.85. SMN. 44.63. 46.82. 42.47. 45.07. SMVN. 59.02. 63.60. 58.49. 60.75. CMVN+SMN. 81.57. 82.95. 80.83. 81.98. CMVN+SMVN. 84.78. 86.40. 84.81. 85.43. 表 4- 5：Aurora-4 常見之時間序列域特徵正規化方法於乾淨語料訓練下的辨識結果。 Set 1. Set 2. Set 6. Set 8. Set 9. Set 13. Avg.. MFCC. 88.29. 51.67. 37.11. 64.05. 40.76. 27.86. 51.62. HEQ. 89.32. 76.83. 63.02. 77.86. 65.75. 54.00. 71.13. CMVN. 89.32. 70.53. 59.56. 75.51. 58.67. 46.48. 66.68. AFE. 88.88. 81.22. 67.22. 79.34. 72.56. 60.55. 74.96. 29.

(40) 五、. 調變頻譜域之非負矩陣分解法之相關研究. 本章將詳細說明實驗的流程。本論文討論的主軸在將加入稀疏化條件的非負矩陣分解法應用在調變頻譜域的語音特徵參數正規化中，，並更進一步的討論分群式的稀疏化非負矩陣分解法。. (一) 以非負矩陣分解為基礎的的調變頻譜正規化法非負矩陣分解法是一種子空間方法，以線性相加的方式結合非負的基底向量來逼近原始資料，如圖 5-1 所示。將多個訓練語句之倒頻譜圖(𝐶1 ~𝐶𝑚 )，經過離散傅立葉轉換的處理後成為一個由多個語句的調變頻譜向量組合而成的矩陣(𝑉𝑛∗𝑚 )，這個調變頻譜矩陣可以經由非負矩陣分解法的轉換成一個非負的基底矩陣(𝑊𝑛∗𝑟 ) 和一個權重矩陣(𝐻𝑛∗𝑚 )。而測試的部分概念示意圖可見圖 5-2。每個語句的調變頻譜向量(𝑣𝑛∗1 )，可以由每個基底向量(𝑤𝑛∗1 )乘以對應的權重(ℎ1∗1 )的和組合而成。. 𝐶𝑚 𝐶4 C3. …. 𝐶2. DFT. NMF. …. 權重矩陣. …. C1. m 個語句之倒頻譜. m 個語句之調變頻譜. 基底矩陣. (𝐶1 ~𝐶𝑚 ). (𝑉𝑛∗𝑚 ). (𝑊𝑛∗𝑟 ). 圖 5- 1：非負矩陣分解法概念示意圖。. 30. (𝐻𝑟∗𝑚 ).

(41) ∗. ≈. ∗. ≈. … 權重向量 (ℎ𝑟∗1 ) 調變頻譜. 基底矩陣. (𝑣𝑛∗1 ). (𝑊𝑛∗𝑟 ). + ∗. + ∗. 對應的權重. 對應的權重. 對應的權重. (ℎ1∗1 ). (ℎ1∗1 ). (ℎ1∗1 ). 第1個. 第2個. 第r個. 基底向. 基底向. 基底向. 量. 量. 量. (𝑤𝑛∗1 ). (𝑤𝑛∗1 ). (𝑤𝑛∗1 ). 圖 5- 2：非負矩陣分解後，還原一個語句之調變頻譜示意圖。. 給定一個所有元素皆非負的矩陣𝑉，即所有訓練資料的語音特徵參數調變頻譜結合而成的矩陣𝑉 ∈ 𝑅 𝑛∗𝑚，經過非負矩陣分解法可分解成一個所有元素皆非負的基底矩陣𝑊 ∈ 𝑅 𝑛∗𝑟 與一個所有元素皆非負的權重矩陣𝐻 ∈ 𝑅 𝑟∗𝑚，其關係如下： 𝑉𝑛∗𝑚 ≈ 𝑊𝑛∗𝑟 𝐻𝑟∗𝑚 衡量分解的近似程度的減損函式為： 𝐿. ‖𝑉. 𝑊𝐻‖2. 加上 W 與 H 不能包含負數的限制條件，如第三章所述，可以解得基底矩陣和權重矩陣中的元素的更新法則為： 𝑊𝑛𝑖 ← 𝑊𝑛𝑖. 𝑉𝐻 𝑇 𝑛𝑖 𝑊𝐻𝐻 𝑇 𝑛𝑖. 𝐻𝑖𝑚 ← 𝐻𝑖𝑚. 𝑊 𝑇 𝑉 𝑖𝑚 𝑊 𝑇 𝑊𝐻 𝑖𝑚. 3. 本論文之實驗在訓練階段會針對 W 和 H 做進一步的正規化處理，亦即使 H 中每一個行向量長度皆為 1，以使 W 矩陣能包含原始資料中的大小資訊；而測試時也有針對 H 進行正規化，使重建後的調變頻譜也具有與最初的訓練資料相似的大小。由於本論文之實驗是作用於語音特徵時間序列之調變頻譜域，故要先對語音特徵序列{ [𝑡]}進行離散傅立葉轉換以取得其調變頻譜{ [ ]}。但值得注意的是，由於離散傅立葉轉換在實作層面是以快速傅立葉轉換(Fast Fourier Transform, FFT) 31.

(42) 實作，轉換所使用的點數設定為 2 的次方數會有較好的效率，因此根據 Aurora-2 語料庫中最長的語句，本論文將傅立葉轉換的取樣點數設定為 1024 點。另一方面，由於語音特徵的內容全部都是實數，經離散傅立葉轉換後的數列有共軛之特性，所以我們只需要對一半的資料(513 點)做處理即可。本論文主要是更新調變頻譜的強度部分而保留其相位不變，主要之流程圖如圖 5-3 所示。在訓練階段，首先經由離散傅立葉轉換得到語音特徵序列之相位調變頻譜和強度調變頻譜，接著將每一個語句的強度調變頻譜視為一個行向量，將之組合成資料矩陣 V，再依此進行非負矩陣分解法求得基底矩陣 W 與權重矩陣 H。在測試階段，則一樣將要測試的語音特徵序列進行離散傅立葉轉換取得調變頻譜的相位和強度，並基於訓練階段取得的基底矩陣 W 與強度調變頻譜，利用式(5-3) 進行迭代更新得到此語句代表的權重向量，利用此權重向量來重建此語句的強度調變頻譜，並將此結果經由反離散傅立葉轉換轉回倒頻譜域來進行語音辨識。. 32.

(43) 乾淨的訓練語音特徵 (MFCC). 要測試的語音特徵 (MFCC). DFT. DFT. 調變頻譜相位部分. 調變頻譜相位部分調變頻譜強度部分. 調變頻譜強度部分. NMF. 𝑊, 𝐻. NMF. 𝑊, 𝐻𝑛𝑒𝑤. IDFT. 目標語音特徵 (MFCC). 圖 5- 3：非負矩陣分解法流程圖。. 對照式 3-2 挑選基底向量個數的限制，在本論文實驗中的 n 為 14、m 為 8440，因此基底數的計算式可寫成[42]： +𝑚 𝑟<. ∗𝑚. 4 + 440 𝑟 < 4 ∗ 440 𝑟 < 3.9. 此結果也可從圖 5-4 和表 5-1 中得到驗証。在圖 5-4 和表 5-1 中可以看出辨識率最高的基底數為 5，此結果也符合基底向量個數的限制。表 5-1 為在非負矩陣分解法中使用不同基底個數的辨識率，圖 5-4 則是基底個數對辨識率的關係圖。由此可看出不論使用多少個基底向量，辨識結果皆比梅爾倒頻譜係數作為語音特徵參數的基礎結果還要好，此現象可證明使用非負矩陣 33.

(44) 分解法在語音特徵序列的調變頻譜，從中擷取到的較重要之部分是有助於辨識的成分，而使用少量基底向量即可有良好之結果，也可降低非負矩陣分解法之運算複雜度。從另一個角度來看，圖 5-5 為取五個基底向量所訓練出來的基底向量分布圖，可看出在調變頻譜低頻(1~16Hz)的部分包含較多語音訊號重要的資訊，如圖中之藍色基底向量，此結果符合調變頻譜相關研究的結論，且也說明了非負矩陣分析法能夠有效地擷取出重要的資訊。表 5- 1：在非負矩陣分解法中使用不同基底個數的 Aurora-2 辨識率。 Set A. Set B. Set C. Avg.. MFCC. 54.87. 48.87. 63.95. 54.29. NMF r=5. 67.09. 70.98. 68.22. 68.87. NMF r=10. 66.58. 71.36. 65.35. 68.24. NMF r=15. 64.07. 69.32. 61.85. 65.72. NMF r=20. 64.70. 69.89. 62.04. 66.24. NMF r=30. 65.42. 70.72. 62.79. 67.02. 80 75 70 NMF. 65. MFCC 60 55 50 r=5. r=10. r=15. r=20. 圖 5- 4：基底個數對辨識率在 Aurora-2 的關係圖。. 34.

(45) x 10. 4. basis basis basis basis basis. 6. 5. 1 2 3 4 5. Magnitude. 4. 3. 2. 1. 0. 1 2. 4. 8. 16 Modulation Frequency (Hz). 30. 圖 5- 5：NMF 所擷取出的五個基底向量分布圖。. (二) 以分群式非負矩陣分解為基礎的調變頻譜正規化法分群式非負矩陣分解法主要的目的是希望可以找到更符合資料的局部資訊，以避免用一組通用的基底向量來解釋所有可能的語句。其概念示意圖如圖 5-6。首先對所有訓練資料之倒譜轉至調變頻譜域，並對所有訓練資料之調變頻譜分群，找出每一群所對應的基底向量矩陣和權重向量矩陣，並使用這些分群後之基底向量矩陣和權重向量矩陣來重建測試語句。. 35.

(46) 𝐶𝑚 𝐶4 𝐶3 𝐶2. K-means. DFT. 𝐶1. …. ~. …. …. m 個語句之倒頻譜. m 個語句之調變頻譜. 第 1 群之調變頻譜. 第 C 群之調變頻譜. (𝐶1 ~𝐶𝑚 ). (𝑉𝑛∗𝑚 ). (𝑉1 ). (𝑉𝑪 ). …. …. NMF. ~. …. …. 第 1 群之基底矩陣. 第 C 群之基底矩陣 (𝑊𝑪 ). (𝑊1 ) 第 1 群之. 第 C 群之. 權重矩陣. 權重矩陣. (𝐻1 ). (𝐻𝑪 ). 圖 5- 6：分群式非負矩陣分解法概念示意圖。. 在訓練階段，同樣需先對訓練資料做離散傅立葉轉換求得調變頻譜的相位和強度，並將 8,440 個訓練語句做以 K-means 方法進行分群，接著針對每一群的資料分別以非負矩陣分解法訓練相對應的W和H(即圖中之𝑊1 , 𝐻1 ~𝑊 , 𝐻 )。其關係為： 𝑉𝑛∗𝑚 ≈ 𝑊𝑐 𝑛∗𝑟 𝐻𝑟∗𝑚. 4. 衡量分解的近似程度的減損函式為： L. ‖𝑉. 𝑊𝑐 𝐻‖2. 基底矩陣和權重矩陣中元素的更新法則為： 𝑊𝑛𝑖 ← 𝑊𝑐 𝑛𝑖. 𝑉𝐻 𝑇 𝑛𝑖 𝑊𝐻𝐻 𝑇 𝑛𝑖. 𝐻𝑖𝑚 ← 𝐻𝑐 𝑖𝑚. 𝑊 𝑇 𝑉 𝑖𝑚 𝑊 𝑇 𝑊𝐻 𝑖𝑚. 在測試階段，在離散傅立葉轉換求得相位和強度之調變頻譜之後，根據該測試資料的強度調變頻譜，和每一群訓練資料的強度調變頻譜之平均值比較，找出 36.

(47) 最接近的一群的並使用其對應的基底矩陣來重建強度調變頻譜，最後再利用反離散傅立葉轉換回到倒頻譜域進行語音辨識。實作流程圖如圖 5-7。圖 5-8 為當抽取五個基底向量之經過分群式 NMF 處理後，三群中第一群基底向量分布圖；圖 5-9 為當抽取五個基底向量之經過分群式 NMF 處理後，十群中第一群基底向量分布圖；圖 5-10 則為當抽取五個基底向量之經過分群式 NMF 處理後，二十群中第一群基底向量分布圖。從此三個圖中可看出基底向量皆分布在調變頻譜低頻的部分，且在 10Hz 以上之部分收斂得比原始非負矩陣分解法還要好。且當分群數較少時基底向量中重疊之部分較少，但當分群數較多時基底向量重疊部分會隨著群數增加而增加重疊之部分。. 37.

(48) 乾淨的訓練語音特徵 (MFCC). 要測試的語音特徵 (MFCC). DFT. DFT. 調變頻譜相位部分. 調變頻譜相位部分調變頻譜強度部分. 調變頻譜強度部分. K-means 分群. NMF. …. 𝑊1 , 𝐻1. NMF. NMF. 𝑊𝐶 , 𝐻𝐶. 𝑊𝑛𝑒𝑤 , 𝐻𝑛𝑒𝑤. 𝑊𝑛𝑒𝑤 , 𝐻. IDFT. 目標語音特徵 (MFCC). 圖 5- 7：分群式非負矩陣分解法流程圖。. 38.

(49) x 10. 5. 2. basis basis basis basis basis. 1.8 1.6. 1 2 3 4 5. Magnitude. 1.4 1.2 1 0.8 0.6 0.4 0.2 0. 1 2. 4. 8. 16 Modulation Frequency (Hz). 30. 圖 5- 8：分三群基底之第一群基底向量分布圖。 4. x 10. basis basis basis basis basis. 8 7. Magnitude. 6. 1 2 3 4 5. 5 4 3 2 1 0 1 2. 4. 8. 16 Modulation Frequency (Hz). 圖 5- 9：分十群之分群式 NMF 擷取五個基底之第一群基底向量分布圖。. 39. 30.