調變頻譜分解之改良於強健性語音辨識

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授: 陳柏琳博士. 調變頻譜分解之改良於強健性語音辨識 Several Refinements of Modulation Spectrum Factorization for Robust Speech Recognition. 研究生：張庭豪撰中華民國一百零四年七月.

(2) 摘. 要. 自動語音辨識(Automatic Speech Recognition, ASR)系統常因環境變異而導致效能嚴重地受影響；所以長久以來語音強健(Robustness)技術的發展是一個極為重要且熱門的研究領域。本論文旨在探究語音強健性技術，希望能透過有效的語音特徵調變頻譜處理來求取較具強健性的語音特徵。為此，我們使用非負矩陣分解 (Nonnegative Matrix Factorization, NMF)以及一些改進方法來分解調變頻譜強度成分，以獲得較具強健性的語音特徵。本論文有下列幾項貢獻。首先，結合稀疏性的概念，期望能夠求取到具調變頻譜局部性的資訊以及重疊較少的 NMF 基底向量表示。其次，基於局部不變性的概念，希望發音內容相似的語句之調變頻譜強度成分，在 NMF 空間有越相近的向量表示以維持語句間的關連程度。再者，在測試階段經由正規化 NMF 之編碼向量，更進一步提升語音特徵之強健性。最後，我們也結合上述 NMF 的改進方法。本論文的所有實驗皆於國際通用的 Aurora-2 連續數字資料庫進行；實驗結果顯示相較於僅使用梅爾倒頻譜特徵之基礎實驗，我們所提出的改進方法皆能顯著地降低語音辨識錯誤率。此外，也嘗試將我們所提出的改進方法與一些知名的特徵強健技術做比較和結合，以驗證這些改進方法之實用性。實驗平台使用 HTK 與 KALDI 兩種語音辨識系統。前者用來實驗上述所提出 NMF 改良之效能；後者用來實驗類神經網路(Neural Network) 技術於語音辨識之聲學模型的效能，並探討調變頻譜正規化法與其結合之效果。關鍵字：語音辨識、雜訊、強健性、調變頻譜、非負矩陣分解 i.

(3) Abstract The performance of an automatic speech recognition (ASR) system is often severely deteriorated due to the interference from varying environmental noise. As such, the development of effective and efficient robustness techniques has long been a challenging research subject in the ASR community. In this thesis, we attempt to obtain noise-robust speech features through modulation spectrum processing of the original speech features. To this end, we explore the use of nonnegative matrix factorization (NMF) and its extensions on the magnitude modulation spectra of speech features so as to distill the most important and noise-resistant information cues that can benefit the ASR performance. The main contributions include three aspects: 1) we leverage the notion of sparseness to obtain more localized and parts-based representations of the magnitude modulation spectra with fewer basis vectors; 2) the prior knowledge of the similarities among training utterances is taken into account as an additional constraint during the NMF derivation; and 3) the resulting encoding vectors of NMF are further normalized so as to further enhance their robustness of representation. A series of experiments conducted on the Aurora-2 benchmark task demonstrate that our methods can deliver remarkable improvements over the baseline NMF method and achieve performance on par with or better than several widely-used robustness methods. ii.

(4) Keywords: speech recognition, noise, robustness, modulation spectrum, nonnegative matrix factorization. iii.

(5) 誌謝在兩年充實的研究所生活轉眼即逝，隨著碩士論文的完成也告一段落了。學海無涯，經過了研究所階段之求學過程，更可知道自己能力不足，還需學習更多專業領域的知識。首先，謝謝指導教授陳柏琳老師能讓我加入 SMIL 實驗室，且耐心教導我們該如何研究。感謝老師平常循循善誘的給予任務使我們在自己的研究領域能夠更快上手。老師不只傳授專業領域的知識，常常也會分享生活中的點點滴滴，藉此也教導我們人生的道理。老師常常用正面的態度來激勵我們，總是能讓我們聽完能夠充滿力量，繼續突破難關。且總是在我們面臨困境時，給予我們幫助與建議。也謝謝老師讓我們能參與各個研討會以接收新知，增強研究功力。感謝實驗室的學長姐，柏翰學長、黃威學長、俊諭學長，特別感謝予真學姐、欣汝學姐、逸婷學姐、孝宗學長在我的研究上能夠給予多方面的指導與建議。特別感謝冠宇學長每星期撥出時間與我們開會討論，以及口試前的練習。感謝實驗室同學，思澄、凱文、憶年。非常開心大家都能夠一起通過口試與畢業，個自往人生的另一個旅程開始。感謝曜麒學弟與明翰學弟平時的幫忙與口試的幫忙。感謝我的爸媽能夠讓我繼續升學，在各方面支援我，讓我無後顧之憂能夠專心於學業上。常常在精神上鼓勵與關心我。感謝口試委員洪志偉教授與王家慶教授對我的論文研究的聆聽與建議。庭豪謹誌 iv.

(6) 目錄第一章. 緒論 .................................................................................................................. 1. 1.1. 研究背景 ................................................................................................................................... 1. 1.2. 研究動機 ................................................................................................................................... 2. 1.3. 強健性語音辨識 ....................................................................................................................... 3. 1.4. 研究內容與貢獻 ....................................................................................................................... 5. 1.5. 論文章節安排........................................................................................................................... 6. 第二章. 文獻回顧 ............................................................................................................................... 7. 2.1. 梅爾倒頻譜語音特徵參數擷取 ............................................................................................... 7. 2.2. 強健性語音特徵技術 ............................................................................................................. 11. 2.2.1 以模型為基礎之強健性技術 .......................................................................................... 11. 2.2.2 以語音特徵為基礎之強健性技術 .................................................................................. 11. 2.2.3 綜合式技術...................................................................................................................... 12. 2.3. 語音特徵時間序列處理技術介紹 ......................................................................................... 13. 2.4. 調變頻譜正規化法 ................................................................................................................. 22. 第三章. 3.1. 非負矩陣分解法 ................................................................................................................. 28. 非負稀疏編碼法(NNSC) ........................................................................................................ 32 v.

(7) 3.2. 稀疏非負矩陣分解法(SNMF) ................................................................................................ 33. 3.3. 局部非負矩陣分解法(LNMF) ................................................................................................ 34. 3.4. 稀疏約束的非負矩陣分解法(NMFSC) .................................................................................. 35. 3.5. 非平滑非負矩陣分解法(NSNMF) .......................................................................................... 37. 3.6. 基於圖正則化非負矩陣分解法(GNMF) ................................................................................ 41. 第四章. 類神經網路相關研究探討 ................................................................................................ 45. 4.1 類神經網路的介紹 ................................................................................................................... 45. 4.2 多層神經網路 ........................................................................................................................... 48. 4.3 誤差倒傳遞演算法 ................................................................................................................... 48. 4.4 摺積神經網路 ........................................................................................................................... 50. 第五章. 語料庫介紹與實驗設定及基礎實驗結果 .......................................................................... 52. 5.1. AURORA-2 語料庫 .................................................................................................................. 52. 5.2. 實驗設定 ................................................................................................................................. 54. 5.3. 辨識效能評估方式 ................................................................................................................. 55. 5.4. 基礎實驗結果 ......................................................................................................................... 56. 第六章. 調變頻譜非負矩陣分解法之研究 ...................................................................................... 59. 6.1. 以非負矩陣分解法為基礎的調變頻譜正規化法 ................................................................. 59. 6.2. 稀疏化的改進之非平滑非負矩陣分解法 ............................................................................. 64 vi.

(8) 6.3. 基於圖正則化非負矩陣分解法運用於調變頻譜 ................................................................. 69. 6.4. 統計圖等化法之非負矩陣分解法 ......................................................................................... 76. 6.5. 類神經網路用於語音辨識之聲學模型 ................................................................................. 81. 第七章. 結論與未來展望 .................................................................................................................. 85. 參考文獻 ................................................................................................................................................ 87. vii.

(9) 圖目錄圖 1-1 雜訊干擾圖 ................................................................................................... 4 圖 2-1 梅爾倒頻譜語音特徵參數擷取流程圖 ....................................................... 7 圖 2-2 統計圖等化法示意圖 ................................................................................. 17 圖 2-3 調變頻譜相關研究發展趨勢圖 ................................................................. 24 圖 3-1 非負矩陣分解法示意圖 ............................................................................. 29 圖 3-2 非負矩陣分解法相關研究發展趨勢圖 ..................................................... 32 圖 3-3 非平滑非負矩陣分解法示意圖 ................................................................. 38 圖 3-4 平滑矩陣 S 之例子..................................................................................... 38 圖 3-5 平滑矩陣 S 相乘例子................................................................................. 39 圖 3-6 資料點關係示意圖 ..................................................................................... 43 圖 3-7 權重矩陣 E 之例子 ................................................................................... 43 圖 4-1 神經元的示意圖 ........................................................................................ 45 圖 4-2 常見之轉移函數 ........................................................................................ 47 圖 4-3 單層感知器網路概念圖 ............................................................................ 47 圖 4-4 多層感知器網路概念圖 ............................................................................ 47 圖 6-1 非負矩陣分解法概念示意圖 .................................................................... 60 圖 6-2 調變頻譜之非負矩陣分解法之還原示意圖 ............................................. 61 viii.

(10) 圖 6-3 非負矩陣分解法流程圖 ............................................................................. 62 圖 6-4 非負矩陣分解法擷取五個基底向量之第一維的分布 .............................. 63 圖 6-5 非平滑非負矩陣分解法流程圖 ................................................................. 65 圖 6-6. nsNMF 擷取五個基底向量之第一維的分布(θ=0.1) ............................. 66. 圖 6-7. nsNMF 擷取五個基底向量之第一維的分布(𝜃=0.3) ............................. 67. 圖 6-8. nsNMF 擷取五個基底向量之第一維的分布(𝜃=0.8) ............................. 67. 圖 6-9. nsNMF 擷取五個基底向量之第一維的分布(𝜃=1) ................................ 68. 圖 6-10 基於圖正則化非負矩陣分解法之流程圖 ............................................... 70 圖 6-11 音素序列之例子 ....................................................................................... 71 圖 6-12 統計圖等化法之非負矩陣分解法訓練階段示意圖 ............................... 77 圖 6-13 統計圖等化法之非負矩陣分解法還原示意圖 ....................................... 77 圖 6-14 統計圖等化法之非負矩陣分解法流程圖 ............................................... 77. ix.

(11) 表目錄表 5-1 Aurora-2 語料庫說明 ................................................................................ 53 表 5-2 梅爾倒頻譜係數之基礎實驗 ................................................................... 56 表 5-3 常見之時間序列域特徵正規化方法於乾淨語料訓練下的辨識結果 ... 57 表 6-1 非負矩陣分解法之不同基底的 Aurora-2 精確率 ................................... 62 表 6-2 非平滑非負矩陣分解法之不同𝜃的 Aurora-2 精確率 ............................ 64 表 6-3 非平滑非負矩陣分解法之不同基底個數的 Aurora-2 精確率 ............... 66 表 6-4 結合 CMVN 之非平滑非負矩陣分解法的 Aurora-2 精確率 ................. 68 表 6-5 結合 HEQ 之非平滑非負矩陣分解法的 Aurora-2 精確率..................... 69 表 6-6 音素序列之對照表 ................................................................................... 70 表 6-7. GNMF 之不同門檻值的 Aurora-2 精確率 ............................................ 72. 表 6-8. GNMF-a 之權重矩陣全域給值的 Aurora-2 精確率 ............................. 73. 表 6-9. GNMF-eu 的 Aurora-2 精確率 ............................................................... 74. 表 6-10 三種非負矩陣分解法改進方法之結合之 Aurora-2 精確率比較 ......... 75 表 6-11. HNMF 之不同基底個數的 Aurora-2 精確率 ...................................... 78. 表 6-12 結合 CMVN 之 HNMF 的不同基底個數的 Aurora-2 精確率 ............. 78 表 6-13 結合 HEQ 之 HNMF 的不同基底個數的 Aurora-2 精確率 ................. 79 表 6-14 結合 CMVN 之 NMF 之改進方法的 Aurora-2 精確率 ........................ 79 x.

(12) 表 6-15 結合 HEQ 之 NMF 之改進方法的 Aurora-2 精確率 ............................ 79 表 6-16 結合 AFE 之 NMF 之改進方法的 Aurora-2 精確率............................. 80 表 6-17 乾淨情境訓練模式之 MFCC 之不同的聲學模型的實驗數據 ............ 82 表 6-18 複合情境訓練模式之 MFCC 之不同的聲學模型的實驗數據 ............ 82 表 6-19 乾淨情境訓練模式之 DNN 聲學模型之 NMF 實驗數據 .................... 82 表 6-20 複合情境訓練模式之 DNN 聲學模型之 NMF 實驗數據 .................... 83. xi.

(13) 第 1 章緒論 1.1 研究背景隨著科技的發展速度越來越快，科技已經全面改變人類的生活最貼近我們人類生活的項目便是訊息的溝通傳遞，最一般的方式便是透過說話的去表達自己想要傳達的訊息。然而訊息的溝通傳遞並不只是指人與人之間的溝通，人與機器之間的溝通也是很重要的一環，可以運用在人機介面(Man-Machine Interface)的系統上。例如可以利用語音輸入文字，亦或者是利用語音來下達指令，來增加溝通的方式及使用者在某些狀況使用時的便利性。上述之應用需要藉助語音辨識之技術，因此自動語音辨識系統(Automatic Speech Recognition, ASR)在現今是非常熱門的研究議題。在日常生活中，自動語音辨識系統常運用在智慧型手機、智慧型平板，智慧型家電，除了增添便利性與趣味性，也讓我們漸漸感覺到科技的進步神速。在上述所提到的智慧型機器，為了想要辨識我們所發出的語音，其中最重要的就是語音辨識的準確率。在辨識準確率低落的狀況下，可能無法達成我們所要求之目的。因此，如何去分析語音訊號中所包含的資訊，是我們可以提升辨識的準確率的關鍵，以達到更流暢且準確的人機互動。. 1.

(14) 1.2 研究動機現今的自動語音辨識系統，若是在不受各種雜訊干擾(Noise Interference)的環境下，可以達到不錯的辨識效果。但是在實際應用時，我們生活的周遭有許多環境的雜訊會影響自動語音辨識系統的效能，導致辨識率下降。原因是雜訊會使系統之訓練環境與測試環境之間造成環境不匹配(Environmental Mismatch)[Tabrikian et al.,1999]之劣況。而環境不匹配是因為一些無法抗拒的因素所造成的，例如加成性噪音 (Additive Noise)[Schalkwijk and Kailath, 1966] 、摺積性通道雜訊 (Convolutional Noise)[Stouten et al., 2004]等。這些因素皆會讓語音或語者辨識系統的辨識率下降。因此，如何將這些因素所帶來的負面影響大幅降低，是我們研究動機的初衷。而所謂的語音辨識之強健性技術(Robust Speech Recognition Techniques) [Hirsch and Ehrlicher, 1995]，即是致力於降低上述因素所帶來之影響，進而使語音辨識系統在不匹配問題存在的環境下，仍能保有一定的辨識能力。. 2.

(15) 1.3 強健性語音辨識自動語音辨識系統深受現實環境中雜訊的困擾，雜訊的類型上大致可分為兩種 [Hermansky and Ehrlicher, 1995] : (1) 加成性噪音(Additive Noise) 加成性噪音通常又被稱作背景噪音(Background Noise)，跟原始乾淨語音的關係是以線性加成(Linearly Additive)的方式結合在一起。例如：聊天聲、火車的鳴笛聲、汽機車的喇叭聲、飛機的飛行聲等等。而在加成性噪音中又可分為兩類： (a)穩定性雜訊(Stationary Noise) 長時間來看，雜訊隨著時間但並沒有明顯的變化起伏，且持續穩定的類似背景雜音存在著。例如：電腦主機的運轉聲、冷氣的運轉聲。 (b)非穩定性雜訊(Non-Stationary Noise) 長時間來看，雜訊隨著時間有著明顯的變化起伏，變化量較大，且較無一定規律的發生。例如：汽機車的喇叭聲、聊天聲。 (2) 摺積性噪音(Convolutional Noise) 摺積性噪音通常又被稱為通道效應(Channel Effect)，指語音訊號通過不同的通道所產生的效應。例如：麥克風的通道效應、電話通道效應、人的口腔構造的通道效應。. 3.

(16) 下面為乾淨的語音訊號受到加成性噪音及摺積性噪音的雜訊干擾圖：. 圖 1-1 雜訊干擾圖其中 s(t)代表乾淨語音、n(t)代表加成性噪音、h(t)代表摺積性噪音，而雜訊語音為 y(t) = h(t) * [ n(t) + s(t) ]。此式解釋了加成性噪音與摺積性噪音之間與原語音訊號特性的關聯性。關於自動語音辨識系統的過程。首先會蒐集使用在訓練階段的語音檔，並對語音檔進行語音特徵擷取(Speech Feature Extraction) [Droppo, 2008]的動作。接著使用語言模型之[Boll, 1979](Language Model)先驗機率(Prior Probability)與聲學模型[Boll,. 1979](Acoustic Model) 之後驗機率(Posterior Probability)，利用貝氏. 分類規則(Bayes Classification Rule)去找出擁有最大後驗機率的詞序列(Word Sequence)。本論文注重在語音辨識中特徵擷取的部分。我們希望在測試階段時擷取出來的特徵，能夠跟訓練階段時所擷取的特徵誤差越小越好。誤差越小代表此特徵是較具有強健性的語音特徵，在有雜訊的情況下，可以較不受影響，得到較好的效能。 4.

(17) 1.4 研究內容與貢獻為了增進語音的強健性去解決環境不匹配的問題，發展了各種語音強健技術，大致可分為三種類型。其中以模型為基礎之強健性技術擁有優秀得辨識成果，但其潛藏著計算量大且複雜度較高之缺點。因計算量與模型參數數量有關，因此若是在規模較大的語音辨識任務，會有計算量龐大的問題。另一方面，以語音特徵為基礎之強健性技術，不僅只需短暫的額外運算時間與較低之複雜度，更能有效提昇辨識效能。因此，本論文使用以語音特徵為基礎之強健性技術來達到提高辨識效能的目的。本論文利用非負矩陣分解法來對語音特徵之調變頻譜強度成分進行矩陣分解與成分分析，藉此擷取調變頻譜中重要的基底向量，使更新後調變頻譜強度更具強健性。並改良非負矩陣分解法，如更改傳統模型達到稀疏約束的條件，使得擷取出來的基底向量可以擁有較少的資訊重疊及較有局部性的資訊；以及加入資料點間的關聯程度資訊於非負矩陣分解法；還有統計編碼矩陣的資訊以達到更好的效能。也利用 Kaldi 語音辨識系統來使用類神經網路技術來代替原先語音辨識使用的傳統聲學模型之方法，以期達到更好的辨識效果。. 5.

(18) 1.5 論文章節安排本論後續共分七個章節，各章節之內容如下：第二章首先回顧語音特徵參數擷取流程，接著再介紹不同面向的強健性語音辨識。再回顧近年來較被廣泛及討論的語音特徵之強健技術以及介紹調變頻譜，並介紹常見的語音參數正規化法、調變頻譜正規化法。第三章介紹非負矩陣分解法，以及常見的非負矩陣分解法與稀疏性結合的不同方法以及介紹基於圖正則化非負矩陣分解法。第四章. 介紹類神經網路之概念，以及其延伸之深層神經網路(DNN)與摺積神經網路(CNN)。. 第五章. 介紹本論文使用的實驗語料庫(Corpus)以及相關實驗設定與相關基礎實驗的實驗結果。. 第六章. 將非負矩陣分解法之相關改良運用於調變頻譜上，包括實驗參數的設定與相關實驗結果的討論，以及運用類神經網路於聲學模型。. 第七章. 總結本論文的研究內容並探討未來可繼續研究之方向。. 6.

(19) 第二章文獻回顧 2.1 梅爾倒頻譜語音特徵參數擷取. 圖 2-1：梅爾倒頻譜語音特徵參數擷取流程圖由於原始語音的資料可能包含一些對於語音辨識系統較無重要性的資訊，或者是會有資料量龐大的問題。所以我們利用語音特徵參數擷取的技術去將原始語音轉換成語音特徵向量，擷取出能夠有利於語音辨識系統來做處理的聲音資訊，且達到降低維度的效果。在許多學者所提出的各種語音特徵參數擷取的方法中，較為人所知的有線性預測係數(Linear Prediction Coefficients, LPC)、感知線性預測係數 (Perceptual Linear Prediction Coefficients, PLPC)[Hermansky, 1991] 與梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)[Davis and Mermelstein, 1980]。而本論文所使用的語音特徵參數擷取法是梅爾倒頻譜係數，因為此語音特徵考慮了人耳的聽覺與發音特性，運用於自動語音辨識時，可以比其他的方法來得好，過 7.

(20) 程如圖 2-1，以下為梅爾倒頻譜係數的語音特徵參數擷取步驟說明： (1) 預強調(Pre-Emphasis) 在特徵擷取流程的一開始，會使原始語音訊號經過一個有限長度 (Finite Length)的高通濾波器(High-Pass Filter)，用來加強聲波的高頻部份並壓抑住低頻的能量，目的在於想要補償原始語音訊號高頻的部分。需補償的原因可分為兩種。其一種為聲波在空氣中傳遞時，聲波會漸漸衰弱，而聲波的高頻部份會有較明顯得損失；另一種是人類發聲構造的面向，在發聲時，聲門(Glottal) 會抑制住高頻的部份。Z-轉換(Z-Transform)為常見用於預強調的高通濾波器，其公式如式 2-1。其中𝑥̃[𝑛]為預強調後的語音訊號，而參數𝛼通常為一個 0.9 到 1 之間的數值。 𝑥̃[𝑛] = 𝑥[𝑛] − 𝛼𝑥[𝑛 − 1]. (式 2-1). (2) 取音框(Framing) 長時間的語音訊號有著非穩態(Non-Stationary)的特性。若我們取音框，便可以觀察到語音訊號在短時間內(約 20 至 30 毫秒)，是屬於變化緩慢(Slowly Time Varying)的訊號，所以語音訊號是屬於短時域穩定的訊號(Short-Term Stationary)或稱為半穩定(Quasi-Stationary)的訊號。取音框之目的在於能夠較方便的對後續流程來進行分析處理。一般取音框的方式是每間隔一小段固定時間就對語音訊號取一個音框，且為了不讓音框之間變化過大，會使相鄰的音框彼此進行重疊(Overlap)的動作，重疊長度約為 1/3 至 1/2 個音框長度。 8.

(21) (3) 漢明窗(Hamming Window) 若在時域上對語音訊號作取音框時，會使得此語音訊號的頻域(Frequency Domain)產生摺積效果而產生訊號失真的情況。所以此步驟之目的為加上ㄧ個窗函數(Window Function)來改善兩端邊界因取音框所造成的不連續現象。窗函數有許多種類，本論文是採用漢明窗。原因是漢明窗擁有主辦葉(Main Lobes)寬，而邊葉(Side Lobes)較窄的特性，因此可以藉由漢明窗的使用，減少取音框後語音訊號失真的情形。其他常見的窗函數包括漢明視窗(Hamming Window)、漢尼視窗(Hanning Window) 、矩形視窗(Rectangular Window)及高斯視窗(Gaussian Widow)等。 (4) 離散傅立葉轉換(Discrete Fourier Transform, DFT) 因為在時域難以分析人類的發聲特性，所以通常會將語音訊號從時域轉換到頻域上。透過 DFT，我們可以觀察到每個音框之語音訊號頻譜的表現，以獲取語音訊號的特性。例如觀察不同頻域的能量分佈，一般是使用 DFT 將語音訊號從時域轉換到頻域上。但在實作上為了加快運算速度，通常會使用快速傅立葉轉換(Fast Fourier Transform, FFT)以取代 DFT[Huang et al., 2001]。 (5) 梅爾三角濾波器組(Mel-Scaled Triangular Filterbank) 在ㄧ些研究顯示[Drullman, 1994；Hermansky, 1995；Hermansky, 1998]，由於人耳聽覺對於較低的頻率有較高的敏銳度，較容易分辨出頻率差異。若是在實際頻率為 1K 赫茲(Hz)以下，人類感知頻率與實際頻率之對應關係會接近 9.

(22) 線性；當實際頻率大於 1K 赫茲以上，人類感知頻率與實際頻率之對應關係則是接近對數。所以在此步驟利用梅爾三角帶通濾波器 (Mel Triangular Band-Pass Filter)模擬人耳感知的頻率。在低頻率，濾波器個數較多且頻寬較小；反之在高頻率，濾波器數目相對較少且頻寬較大。而三角帶通濾波器所附帶的優點為能夠降低資料量之維度，並對頻譜進行平滑化(Smooth)且能消除諧波(Harmonic)。 (6) 離散餘弦轉換(Discrete Cosine Transform, DCT) 首先會先對梅爾三角濾波器輸出值使用對數轉換，進行動態壓縮，模擬人耳結構，使每個梅爾三角濾波器輸出值之振幅大小不會有太大差異。然後再經過 DCT 降低語音特徵向量的維度，也使維度間的相關性降低。 (7) 對數能量(Logarithm Energy) 對數能量通常也是個重要的聲學特徵。其計算方式為經過取窗動作後，將語音訊號值取平方並加總起來。ㄧ般而言，會將對數能量與梅爾倒頻譜係數結合在一起。 (8) 時間差量運算(Time Derivatives) 為了進一步將語音訊號在時間軸上的變化記錄下來，必須計算語音特徵在時間序列的一階差量 (First-Order Difference) 與二階差量 (Second-Order Difference)，便可動態的抓住其特質。. 10.

(23) 2.2 強健性語音特徵技術 2.2.1 以模型為基礎之強健性技術以模型為基礎之強健性技術使用少量的測試環境之調適語料(Adaptation Data)來對聲學模型進行調整，使聲學模型可以去近似於輸入的雜訊語音之機率分布參數，達到降低環境不匹配的情況。常見之技術有隱藏式馬可夫模型分解技術(Hidden Markov Model Decomposition Technique, HMMDT)[Varga and Moore, 1990]、最大相似度線性迴歸法(Maximum Likelihood Linear Regression, MLLR) [Leggeter and Woodland, 1995; Gales, 1998]、平行模型結合法(Parallel Model Combination, PMC)[Gales, 1995]以及最大事後機率法則(Maximum a Posteriori, MAP)[Gauvain and Lee, 1994; Huo et al., 1995]。以模型為基礎之強健性技術其彈性較低，較善於處理小規模的任務。若是碰到大詞彙語音辨識系統便會有運算量過大的情形，而運算量大多來自於重新計算聲學模型的參數。. 2.2.2 以語音特徵為基礎之強健性技術在不更改聲學模型的設定下，以語音特徵為基礎之強健性技術是利用乾淨的語音特徵去訓練，希望能將雜訊語音特徵還原成較乾淨的語音特徵。在此主要分成兩類作法去處理不同的語音特徵參數： (1)語音訊號增益法(Speech Enhancement) 語音訊號增益法使用語音訊號，期望將雜訊語音還原成原本不受雜訊干擾的乾淨語音訊號，達到提升人類聽覺之感知的語音訊號品質。常見之技術包含頻譜消去 11.

(24) 法(Spectral Subtraction, SS)[Lockwood and Boudy, 1992; Fruri, 1981]、維爾濾波器 (Wiener Filter, WF)[Huang, 2001]。 (2)特徵向量補償法(Feature Compensation) 特徵向量補償法使用語音特徵向量，希望能夠將雜訊語音特徵補償至尚未受雜訊干擾的語音特徵參數，去達到提升自動語音辨識效能之目的。常見之技術包含最小化對數頻譜振幅之均方誤差估測法(Minimum Mean Square Error Log Spectral Amplitude Estimator, MMSE-LSA)[Ephraim and Malah, 1985]。. 2.2.3 綜合式技術顧名思義，綜合式技術便是結合以語音特徵為基礎和以聲學模型為基礎。遺失特徵理論(Missing Feature Theory, MFT)[Duda et al., 2001]用來辨識以測試資料為基礎的方法。而這些測試資料是與辨識用的聲學模型吻合的。使用時間-頻率遮罩 (Time-Frequency Mask)辨識那些成分是為可信賴(Reliable)的資訊，亦或是為不可信賴(Unreliable)的資訊。可分為兩類方法： (1)將辨識器調適成可以容納不完整(Incomplete)之資訊。常見之方式有邊際化 (Marginalization)[Cooke et al., 1997]。 (2)將頻譜圖(Spectrum)之遺失區域完整化。常見之方法有以共變異為基礎或以分群為基礎的重建法[Raj et al., 2000]。. 12.

(25) 2.3 語音特徵時間序列處理技術介紹我們使用梅爾倒頻譜係數(MFCC)來進行實驗，MFCC 在沒有噪音的情況下可以提供良好的辨識結果。但若是在嘈雜的環境下進行實驗，辨識率會明顯的被雜訊所干擾導致辨識率下降。所以我們需要語音強健性的方法，讓 MFCC 能夠有效的去對抗雜訊，降低雜訊所引起的環境不匹配，進而提升辨識率。在語音特徵參數轉換法(Feature Transformation)中，可以分為兩大類方法。第一種方法是資料相關線性語音特徵空間轉換 (Data-Driven Linear Feature Transform)，此類的方式是希望將語音特徵參數轉換至另一種語音特徵向量空間 (Feature Space)。轉換後語音特徵向量可以篩選出比較鑑別力資訊(Discriminative Information)的成分。轉換語音特徵空間時，主要是利用訓練語料的統計資訊，經過處理後，去除多餘(Redundant)的維度，只留下語音特徵空間中具有較大變異的重要成分。常見的方法有主成分分析(Principal Component Analysis, PCA)、線性鑑別分析(Linear Discriminant Analysis, LDA)[Duda and Hart, 1973]、異質性線性鑑別分析 (Heteroscedastic Linear Discriminant Analysis, HLDA)[Kumar, 1997; Gales, 2002]、異質性鑑別分析(Heteroscedastic Discriminant Analysis, HDA)[Saon et al., 2000]。上述所提之線性鑑別分析是假設所有類別之特徵向量的分布變異是一樣的；而異質性線性鑑別分析與異質性鑑別分析則是打破相同分布變異的假設。也有學者提出核函數線性鑑別分析(Kernel Linear Discriminant Analysis, Kernel LDA)[Mika, 1999]，利用核函數對語音特徵向量做進一步處理，藉此將特徵向量 13.

(26) 投射到高維度的特徵空間作線性鑑別分析，達到解決在原特徵空間可能存在的非線性鑑別問題。另一方面，由於在聲學模型(例如隱藏式馬可夫模型狀態觀測機率分布)中為了運算的方便與速度加快，常使用擁有對角化共變異矩陣的高斯分布，使特徵向量維度間有彼此為無關的特性。但是上述的語音特徵向量、線性鑑別分析或異質性線性鑑別分析並不保證一定能擁有此一特性。因為有學者提出最大相似度線性轉換(Maximum Likelihood Linear Transformation, MLLT)[Gales, 1998]，嘗試讓轉換過後的共變異矩陣的值集中在對角線上，在對聲學模型相似度影響最小的條件下，盡可能滿足對角化共變異矩陣的要求。因此，目前在語音辨識的語音特徵擷取上常見到以結合線性鑑別分析與最大相似度線性轉換 (LDA-MLLT) 或是異質性線性鑑別分析與最大相似度線性轉換 (HLDA-MLLT)[Beyerlein et al., 2002; Hain et al., 2005]等作法。本論文研究的重點是著重在第二種研究方法，稱作語音參數正規化法 (Feature Normalization)。在過去的文獻回顧，較為人所知的語音參數正規化法大部分是運用在語音特徵的時間序列域(Temporal Domain)，目的是想要為正規化語音特徵本身的特徵值或統計分布，利用測試語音特徵本身的特徵值或統計分布中消除雜訊干擾的影響，達到降低語音特徵對環境不匹配的敏感度或將語音特徵分布重建回乾淨環境下的分布。本節將會介紹常見的語音強健性的方法，包括倒頻譜平均消去法(Cepstral Mean Substraction, CMS)[Vizinho, 1998]、倒頻譜正規化法 (Cepstral Mean and Variance Normalization, CMVN)[Yoshizawa, 2004]、統計圖等化 14.

(27) 法(Histogram Equalization, HEQ)[Lin, Chen, 2007]、相對頻譜法(Relative Spectral, RASTA)[Hermansky and Morgan, 1994; Koehler et al., 1994]、時間序列結構正規化 (Temporal Structure Normalization, TSN) [Xiao et al., 2008]。倒頻譜平均消去法(CMS) 倒頻譜平均消去法是想要藉由減去 MFCC 時間序列的平均值來提高辨識率，主要目的是想要減低通道效應的雜訊所造成的影響。我們假設在乾淨的 MFCC 特徵時間序列中，每一個維度之時間序列的平均值為零。若是受雜訊干擾的 MFCC 特徵時間序列，每一個維度之時間序列的平均值有不為零的情況，我們將之視為有通道效應的現象。所以我們將每個維度的 MFCC 特徵時間序列減去該維的平均值，而獲得更新後的特徵值。假設𝑥 = {𝑥[1], 𝑥[2], … , 𝑥[𝑁}，𝑥[𝑛]為某一維度的第 n 個音框，N 為音框總數。首先先算出每一個維度的平均數μc ，算法如式 2-2。 N. 1 μc = ∑ 𝑥[𝑛] N. (式 2-2). 𝑥̃ [𝑛] = 𝑥[𝑛] − μc. (式 2-3). 𝑛=1. 接著利用式 2-3 得到新特徵𝑥̃ [𝑛]. 倒頻譜平均值與變異數正規化法(CMVN) 倒頻譜平均值與變異數正規化法是比 CMS 更進一步去處理雜訊語音的情況。由於在雜訊的干擾下，平均值會受到動搖而產生了偏移量，也影響到了變異數 15.

(28) (variance) 。所以 CMVN 不只對平均數μc 正規化如同上述的 CMS，更對變異數σc 作了正規化，使得經過 CMVN 處理後，能得到更強健性的新特徵。首先如同 CMS 先求出平均數，接著利用式 2-4 去求出每一個維度的變異數σc ： N. N. n=1. n=1. 1 1 σc = √ ∑ 𝑥 2 [𝑛] − ( ∑ 𝑥[𝑛])2 N N. (式 2-4). 最後用式 2-5 算出處理過後的新語音特徵x̃[n]： 𝑥̃ [𝑛] =. 𝑥[𝑛] − μc σc. (式 2-5). 統計圖等化法(HEQ) 統計圖等化法原先是影像處理的領域中的方法，用來調整影像的參數，以解決影像色彩平衡、明度以及對比度等問題[Acharya and Ray, 2005]。如今也應用於自動語音辨識的領域，利用此方法來彌補雜訊在語音特徵上造成的失真。將訓練環境以及測試環境的機率分布可以盡可能一致，把由雜訊所引起的環境不匹配的影響降低。統計圖等化法是一種概念簡單且效果顯著的演算法。此方法除了對語音特徵之平均值與變異數做正規化外，也想完整的正規化訓練語料與測試語料的語音特徵之機率分布，去處理語音特徵全部階層的動差(All-Order Moment)。統計圖等化法主要概念為想要利用一個轉換函數(Transformation Function)以及累積密度函數(Cumulative Distribution Function, CDF)來實行。便是將測試語料的 CDF 值利用轉換函數去對應至由訓練語料所統計出來的參考分布的 CDF 值，如圖 2-2。 16.

(29) 圖 2-2 統計圖等化法示意圖統計圖等化法數學式關係式表示如下[Torre et al., 2005]： 𝑝𝑡𝑟𝑎𝑖𝑛 (𝑦) = 𝑝𝑡𝑒𝑠𝑡 (𝑥). 𝑑(𝐹 −1 (𝑦)) 𝑑𝑥 = 𝑝𝑡𝑒𝑠𝑡 (𝐹 −1 (𝑦)) 𝑑𝑦 𝑑𝑦. (式 2-6). 假設 x 為測試語句語音特徵向量的某一維特徵參數，且具有機率密度函數 (Probability Density Function, PDF) 𝑝𝑡𝑒𝑠𝑡 (𝑥) ，那麼轉換函數𝐹(𝑥)可依照式 2-6 將 𝑥 轉換成在訓練語料所對應到的 𝑦 。其中 𝐹 −1 (𝑦) 為 𝐹(𝑥) 的逆函數 (Inverse Function)，而我們以剛剛提到的累積機率密度函數的觀點表達即為： 𝑥. 𝐶𝑡𝑒𝑠𝑡 (𝑥) = ∫ 𝑝𝑡𝑒𝑠𝑡 (𝑥 ′ ) 𝑑𝑥 ′. (式 2-7). −∞. 𝐹(𝑥). =∫ −∞ 𝑦. 𝑝𝑡𝑒𝑠𝑡 (𝐹 −1 (𝑦 ′ )). 𝑑(𝐹 −1 (𝑦 ′ )) ′ 𝑑𝑦 𝑑𝑦 ′. = ∫ 𝑝𝑡𝑟𝑎𝑖𝑛 (𝑦 ′ )𝑑𝑦 ′ |𝑦=𝐹(𝑥) −∞. = 𝐶𝑡𝑟𝑎𝑖𝑛 (𝑦) 上面的𝐶𝑡𝑒𝑠𝑡 (𝑥)與𝐶𝑡𝑟𝑎𝑖𝑛 (𝑦)分別為測試語句和訓練語料的 CDF，轉換函數𝐹(𝑥 ′ )去 17.

(30) 求得結果y’，所以又可以用以下式子表達： −1 𝐹(𝑥) = 𝐶𝑡𝑟𝑎𝑖𝑛 (𝐶𝑡𝑒𝑠𝑡 (𝑥)). (式 2-8). −1 而 𝐶𝑡𝑟𝑎𝑖𝑛 為 𝐶𝑡𝑟𝑎𝑖𝑛 的逆函數。. 最原始常見的統計圖等化法有查表式統計圖等化法(Table Lookup-based Histogram Equalization, THEQ)[Dharanipragada and Padmanabhan, 2000]，是個非參數型態的統計圖等化法。以及參數型態的方法叫做分位差統計圖等化法 (Quantile-based Histogram Equalization, QHEQ)[Hilger and Ney, 2006]。這兩種方法有需耗費的大量記憶體資源與運算時間的缺點。改良過後的統計圖等化法有多項式擬合統計圖等化法(Polynomial-Fit Histogram Equalization, PHEQ)[Lin et al., 2006; Lin et al.,2007, Lin et al.,2009]，以及統計圖等化法使用語音特徵的空間－時間之文脈統計資訊(Spatial-Temporal Contextual Statistics Histogram Equalization, ST-HEQ)[Joshi et al., 2011]。相對頻譜法(RASTA) 相對頻譜法也是常見的方法之一，運用較少量的運算時間，卻可明顯地提昇辨識效果。此方法的主要概念是根據人類的發音特性，低頻的部分擁有語音資訊，發現在調變頻譜上變化低於 1 Hz 或高於 12 Hz 的訊號源均屬於非語音的雜音訊號。所以利用此點可以使用一個帶通濾波器(Band-Pass Filter)來移除雜音訊號，針對數個語音音框的特徵參數進行平滑動作(Smoothing)(大約是 150-170 毫秒)。接著又提出所謂的 J-RASTA，增加一個參數 J(又稱對數-J, log-J)，用來處理加成性雜 18.

(31) 訊與摺積性雜訊，受加成性雜訊與摺積性雜訊的語音訊號表示如下：在時域中： 𝑦(𝑡) = ℎ(𝑡) ∗ ( 𝑠(𝑡) + 𝑛(𝑡) ). (式 2-9). 其中𝑠(𝑡)為乾淨語音訊號、𝑛(𝑡)為加成性雜訊、ℎ(𝑡)為摺積性雜訊。在對數頻域(Logarithmic Magnitude Spectral Domain)中： 𝑙𝑜𝑔𝑌(𝜔) = 𝑙𝑜𝑔𝐻(𝜔) + 𝑙𝑜𝑔(𝑆(𝜔) + 𝑁(𝜔). (式 2-10). 其中𝑙𝑜𝑔𝐻(𝜔)為摺積性雜訊，通常是指傳輸通道的通道效應，相對於語音訊號而言，變化速度是屬於比較慢的。因此相對頻譜法是將𝑙𝑜𝑔𝑌(𝜔)代入下式的帶通濾波器，除了可移除變化速度慢的摺積性雜訊外，亦可移除語音訊號中變化快速的雜訊。 𝑅(𝑧) = 0.1𝑧 4 ∗. 2 + 𝑧 −1 − 𝑧 −3 − 2𝑧 −4 1 − 0.98𝑧 −1. (式 2-11). 在功率頻域 (Power Spectral Domain)中： 𝑌(𝜔) = 𝐻(𝜔) ∗ 𝑆(𝜔) + 𝐻(𝜔) ∗ 𝑁(𝜔). (式 2-12). 相同地可以將𝑌(𝜔)代入式 2-11 以移除變化速度相對較快或較慢的雜訊。可發現帶通濾波器輸出的值會因加成性雜訊𝑁(𝜔)與摺積性雜訊𝐻(𝜔)的強度不同而有所影響，無法同時移除，所以利用 J-RASTA 來平衡這兩種雜訊所帶來的影響： 𝑆̂(𝜔) = 𝑙𝑛(1 + 𝐽 ∗ 𝑆(𝜔)). (式 2-13). 從式 2-13 可發現如果加成性雜訊影響較嚴重時，J 可以設成趨近於 0；相反地，若摺積性雜訊影響較嚴重，則將 J 設為一大數。J-RASTA 主要是在這二種雜訊 19.

(32) 中取得一個折衷點，但是此方法在面對加成性雜訊與摺積性雜訊影響都很嚴重時，就無法有效地對抗此二種雜訊。時間序列結構正規化法 (TSN) 時間序列結構正規化法，是利用時間序列濾波器(Temporal Filter)設計之技術，目的是想利用語音特徵序列通過設計之濾波器以正規化調變頻譜，進而增加語音特徵之強健性。此方法處理的梅爾倒頻譜特徵參數序列都會預先經過 CMVN 或 HEQ 處理，處理過後的某維度的訓練語料特徵序列為{𝑠[𝑛]}與測試語料{𝑥[𝑛]}。利用 Yule-Walker 演算法估算其功率頻譜密度(Power Spectral Density, PSD)，分別以{𝑃𝑆𝑆 (𝜔𝑘 )}與{𝑃𝑋𝑋 (𝜔𝑘 )}代表，並算出訓練語句之不同維度的功率頻譜密度， ̅̅̅̅ 並對其取平均獲得參考功率頻譜密度{𝑃 𝑆𝑆 (𝜔𝑘 )}。欲決定 TSN 所使用之濾波器，需要其頻率響應強度(Magnitude Response)，而其設定如下： |𝐻(𝜔𝑘 )| = √̅̅̅̅ 𝑃𝑆𝑆 (𝜔𝑘 )⁄𝑃𝑋𝑋 (𝜔𝑘 ). (式 2-14). 訓練或測試之特徵參數序列都需要利用上述之濾波器進行處理，由上式可觀察得 ̅̅̅̅ 知，其功率頻譜密度將會被正規化為𝑃 𝑆𝑆 (𝜔𝑘 )。獲得頻率響應強度後，即可進行濾波器之脈衝響應之估算。首先，對式 2-14 之|𝐻(𝜔𝑘 )|進行反離散傅立葉轉換 (IDFT)： 𝑀−1. 1 ℎ[𝑚] = ∑ 𝐻(𝑗𝑤𝑘 )𝑒 −𝑗𝑤𝑘𝑚 , 0 ≤ 𝑚 ≤ 𝑀 − 1 𝑀 𝑘=0. 再乘上一個漢寧窗(Hanning Window)，定義𝑤[m]： 20. (式 2-15).

(33) 𝑤[𝑚] = 0.5 (1 − (2𝜋. 𝑚 )) ,0 ≤ 𝑚 ≤ 𝑀 − 1 𝑀−1. ℎ̂[𝑚] = ℎ[𝑚] ∗ 𝑤[𝑚]. (式 2-16) (式 2-17). 最後，為達正規化直流增益之目的，將濾波器係數總和正規化為 1： ℎ̃[𝑚] =. ℎ̂[𝑚] ∑𝑁−1 𝑚′ ℎ[𝑚′]. (式 2-18). 其中，M 為濾波器長度，ℎ̃[𝑚]即為 TSN 之時間序列濾波器的脈衝響應。. 21.

(34) 2.4 調變頻譜正規化法如前一節所提的一些方法，在過去大多數的語音參數正規化法之研究是在特徵的時間序列域(Time Sequence Domain)進行處理，目的是為了要將語音特徵本身的特徵值及其統計分布進行正規化。我們還希望可以藉由語音特徵時間序列之調變頻譜 (Modulation Spectrum) 來觀察雜訊對語音特徵之時空結構 (Temporal Structure)。因為環境中會有雜訊，會影響語音特徵，也會造成語音特徵的時空結構扭曲。時間序列域所使用的語音參數正規化法難以解決此時空結構扭曲的現象。而特徵參數時間序列之調變頻譜為一有效描繪時空結構之媒介，相對於時間序列域之語音特徵正規化法的觀念而言，可能具有更廣泛的分析面向。較能夠解決上述所提到的時空結構扭曲的現象，可分析各調變頻率的成分，所以可以同時考慮到了語音特徵隨著時間變化的特性，了解整個語句變化的規律性。而近年來學者在調變頻譜域(Modulation Spectral Domain)的研究也越來越熱門，進而投入心力研究，希望透過強化語音特徵之調變頻譜去提昇語音特徵的雜訊強健性。調變頻譜的概念最早是在 1979 年由 Viemeister 等學者提出的 [Viemeister, 1979]。而在1994年、1997年及1998年分別有針對調變頻譜的進一步研究指出：不同的調變頻率有著不同的重要性[Kollmeier and Koch, 1994; Greenberg, 1997; Vuuren and Hermansky, 1998]。調變頻譜中的低頻成分是比高頻成分還要重要的，包含著較多語言的重要資訊。低頻範圍大約落坐在1 Hz到16 Hz中，而在此範圍之中最重要的是位於4 Hz的地方。學者發現4 Hz也是人類聽覺最敏銳的頻率 22.

(35) [Hermansky, 1997; Greenberg, 1997]。然而2006年也有學者將調變頻譜的概念用在生化訊號上[Wada et al., 2006]，獲得不錯的效果；2007年有學者提出了調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE)以及強度頻譜比例正規化法 (Magnitude Ratio Equalization, MRE)[Sun et al., 2007]；在2009年中，有學者提出了. 調變頻譜平均正規化法(Spectral Mean Normalization, SMN)及頻譜平均與變異數正規化法(Spectral Mean and Variance Normalization, SMVN)，也有更進一步提出子頻帶的概念，如子頻帶調變譜平均正規化法 (Sub-band Spectral Mean Normalization, SB-SMN)、子頻帶調變頻譜平均與變異數正規化法(Sub-band Spectral Mean and Variance Normalization, SB-SMVN) 及子頻帶調變頻譜統計圖等化法 (Sub-band Spectral Histogram Equalization, SB-SHE) [Huang et al., 2009]；2011年有學者提出調. 變頻譜非負矩陣分解法 (Modulation Spectrum Non-negative Matrix Factorization, MS-NMF)與調變頻譜機率式潛藏語意分析(Modulation Spectrum Probabilistic Latent Semantic Analysis, MS-PLSA)[Chen et al., 2011]，將矩陣分解的技術運用在調變頻譜. 上；2012年有學者提出了調變頻譜替代法(Modulation Spectrum Replacement, MSR) 、調變頻譜濾波法 (Modulation Spectrum Filtering, MSF) 與調變頻譜指數權重法 (modulation spectrum exponential weighting, MSEW)又添增了對調變頻譜應用的方法. [Hung et al., 2012]。. 23.

(36) 圖2-3 調變頻譜相關研究發展趨勢圖假設某一維度的語音特徵序列{𝑥[𝑡] | 0 ≤ 𝑡 ≤ 𝑁 − 1}，其中 t 為語音特徵序列中某一個音框，N 為對時間序列縮減取樣的取樣數，所以我們定義在此某一維度的調變頻譜為： 𝑁−1. 𝑋[𝑘] = 𝐷𝐹𝑇(𝑥[𝑡]) = ∑ 𝑥[𝑡]𝑒 −𝑗 𝑡=0. 2𝜋𝑡𝑘 𝑁. ，0 ≤ 𝑘 ≤. 𝑁 2. (式 2-19). 其中，t 與 k 依序為音框索引與調變頻率索引，DFT 為離散傅立葉轉換(Discrete Fourier Transform)，𝑥[𝑡]代表某一維度語音特徵時間序列，𝑋[𝑘]就是該維度語音特徵時間序列的調變頻譜。式 2-19 可看出調變頻譜可以廣泛的分析語句中語音特徵隨時間變化的資訊，且可以有效結合屬於擁有較局部資料的倒頻譜域。而 𝑋[𝑘]頻譜序列可視為一種對於原始語音訊號作降低取樣(Down-Sampled)後的調變訊號(由訊號取樣率轉至音框取樣率)，此序列即為所屬語音特徵時間序列之調變頻譜。調變頻譜𝑋[𝑘]之最高頻率與特徵序列𝑥[𝑡]之取樣頻率(音框取樣率)相關。 24.

(37) 例如，在一般設定下，音框取樣率為 100 Hz，則最高調變頻率為 50 Hz。很多學者提出應用在調變頻譜的正規化法以改善調變頻譜受到雜訊干擾的影響。而應用在語音特徵時間序列的正規化法，可利用相同的概念將之應用在調變頻譜使其正規化。而正規化的對象是對其調變頻譜強度成分來進行處理，並保持其相位角不變，例如 CMS、CMVN 和 HEQ 等常見方法。以下將會簡單介紹一些常見的調變頻譜正規化法。調變頻譜平均正規化法(Spectral mean normalization, SMN) 此方法的概念與CMS相同，但要正規化的不是語音特徵時間序列，而是調變頻譜強度成分。假設當各種音素在理想環境中占的比例接近一致時，每一維度特徵的調變頻譜之平均值應該為一個定值。在式2-20中，|𝑋[𝑘]|為原始的調變頻譜強度成分，𝜇𝑠 為單一語句的調變頻譜強度成分之平均值，𝜇𝑎 為所有訓練語句的調變頻譜強度成分之平均值，而|𝑋̃[𝑘]|便是更新過後的調變頻譜強度成分。 |𝑋̃[𝑘]| = |𝑋[𝑘]| − 𝜇𝑠 + 𝜇𝑎. (式 2-20). 調變頻譜平均與變異數正規化法(Spectral mean and variance normalization, SMVN) 此方法的概念與 CMVN 相同，除了要正規調變頻譜強度成分之平均值，也要正規其變異數。假設特徵向量參數之平均值在理想環境中比例接近一致時，平均值應為零，且特徵向量參數之分布可以利用變異數來進行檢測，在式 2-21 中，𝜇𝑠 與 𝜎𝑠 為單一語句的調變頻譜強度成分之平均值與變異數；𝜇𝑎 與𝜎𝑎 為所有訓練語句的 25.

(38) 調變頻譜強度成分之平均值與變異數，而|𝑋̃[𝑘]|便是更新過後的調變頻譜強度成分。 |𝑋̃[𝑘]| =. |𝑋[𝑘]| − 𝜇𝑠 𝜎𝑠 + 𝜇𝑎 𝜎𝑠. (式 2-21). 調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE) 此方法的概念與 HEQ 相同，利用非線性的轉換(Nonlinear Transform)，不只將調變頻譜強度成分之平均值與變異數作正規化，也使訓練語句與測試語句的調變頻譜強度成分趨於同一個機率分布函數，正規化全部階層的動差。而在式 2-22 中， 𝐹𝑋 (‧)為單一語句的調變頻譜強度的機率分布(Probability Distribution Function, PDF)，𝐹𝑟𝑒𝑓 則是利用所有訓練語句之調變頻譜強度所求的參考機率分布。而|𝑋̃[𝑘]| 便是更新過後的調變頻譜強度成分。 −1 |𝑋̃[𝑘]| = 𝐹𝑟𝑒𝑓 (𝐹𝑋 (|𝑋[𝑘]|)). (式 2-22). 分頻段調變頻譜統計正規化法此方法的概念是想要改進調變頻譜統計正規化法，是將全部調變頻帶的頻譜強度值視為是同一隨機變數(Random Variable)的樣本(Samples)，且將之一併進行正規化的動作。但是前面提到在語音辨識中，不同調變頻率的成分有著不同的重要性，低頻成分是比高頻成分還要相對重要的，因為語言的重要資訊較集中於低頻成分。因此有學者提出將調變頻帶分成許多子頻段，再分別對每一個子頻段的頻譜強度作上述所提的調變頻譜正規化的方法，而不是單純直接對整個全部調變頻帶做處理。因為要強調低調變頻率的重要性，所以在低頻部分的子頻段擁有較細的頻寬， 26.

(39) 子頻段的數量也比較多，而高調變頻率便持有相反的特性。分頻段的分法是利用不等切(Non-Uniform)且倍頻(Octave)的方式，分成多個頻段。由於掌握住了低頻成分的資訊，根據學者的實驗數據，顯示出了將調變頻率分頻段進而正規化的做法，跟全頻帶正規化的方式相比較，其可以達到較好的效能。. 27.

(40) 第三章非負矩陣分解法在很多領域中，如何尋找重要的資訊是個重要的議題，非負矩陣分解法 (Nonnegative Matrix Factorization, NMF)[Lee and Seung, 1999]的技術，正是想要去實現這個概念。顧名思義此方法就是將非負的矩陣分解，分解成兩個也是非負的矩陣，接著去達到利用線性的特性來表示之目的。而其他常見的線性表示法有主成分分析 (Principal Component Analysis, PCA) 與獨立成分分析 (Independent Component Analysis, ICA)。非負矩陣分解法與這兩種線性表示法之差異就是能夠提供非負的基底向量(Basis Vector)，且也能夠擁有保證由基底向量組合而成之資料也為非負的特性。非負矩陣分解法另一個重要的特性是想要學習以部分為基礎 (Parts-based)之線性表示法來表示原始的資料，且此線性表示法是一個加法的且非消減之組合模式。這種以部分為基礎的概念方法擁有直觀的性質，且與其他分解方法相比，對於一個任務來說，可以得到比較高的解釋性。以前的學者應用非負矩陣分解法在影像處理的領域，例如人臉處理。因為影像處理中圖像的特徵值皆為正，適合利用非負矩陣分解法去解決問題。若是使用上述所提到的，例如PCA，在分解過程中可能會產生負值，這些負值在影像處理當中會難以解釋。而在語音領域方面，語音的特徵值有正有負，所以難以使用非負矩陣分解法。直到有學者將非負矩陣分解法在應用強健性語音特徵擷取的領域上時[Chu et al., 2011]，把非負矩陣分解法運用在調變頻譜上，因為頻率皆為正，正好適合非負矩陣分解法以得到了不錯的效果。 28.

(41) 利用式3-1來表示非負矩陣分解法，其中V ∈ 𝑅𝐼×𝐽 為一個非負矩陣，而兩個被分解出來的非負矩陣分別為W ∈ 𝑅 𝐼×𝐾 為H ∈ 𝑅𝐾×𝐽 ，如圖3-1。 V ≈ WH = ∑ W𝑖𝑘 H𝑘𝑗. (式 3-1). 𝑘. 圖 3-1. 非負矩陣分解法示意圖. 其中矩陣 W 所包的 K 行即為基底向量(Basis Vector)，矩陣 H 中的每一行則被稱為編碼向量(Encoding Vector)，以當作權重的概念與基底向量進行線性組合去近似資料矩陣 V。I 是資料向量的大小；J 為資料向量的個數；K 為基底向量的數量。參數 K 是可以自行決定的，通常會選擇小於 I 與 J，但還是會有選擇的限制。式 3-2，學者提出更確切的限制基底向量的個數的關係。在非負矩陣分解法的方法中，有著資料壓縮的概念，若是 K 的數目選擇得越少，代表壓縮的比率越高。 (𝐼 + 𝐽) × 𝐾 < 𝐼 × 𝐽. (式 3-2). 因為我們對資料進行了壓縮的動作，所以壓縮後的資料跟原始的資料來比較必定會有一些資料是在壓縮過程中被遺失了，而我們希望遺失的部分資料越少越好，所以可以定義減損函數(Loss Function)來測量資料前後的相似度。測量由兩個因子矩陣 W 與 H 所重建的訊號Λ與原始訊號 V 之間的距離，對分解結果與原始資 29.

(42) 料的近似程度作量化(Quantifiy)。非負矩陣分解法常見的減損函數為歐氏距離 (Euclidian Distance)(i.e.Frobenius Norm)(式 3-3)，是藉由歐幾里德距離所提出的減損函數。當重建訊號Λ與原始信號 V 相等，則減損函數值為 0。另一個減損函數則是基於 KL 散度(Kullback-Leibler Divergence)(式 3-4)提出的，與歐幾里德距離的減損函數一樣，當原始信號 V 與重建訊號Λ相等時，DKL (V||Λ) = 0。因為 KL 散度不具對稱性(Symmetric)，因此減損函數值不能稱為兩個訊號之間的距離值 (Distance)，而是兩訊號之間的差異值(Divergence)。KL 散度也稱為相對熵(Relative Entropy)。 2. DF (V||WH) = ||V − WH||F = ∑(V𝑖𝑗 − (WH)𝑖𝑗 )2. (式 3-3). V𝑖𝑗 − V𝑖𝑗 + (WH)𝑖𝑗 ) (WH)𝑖𝑗. (式 3-4). 𝑖,𝑗. DKL (V||WH) = ∑ (V𝑖𝑗 ln 𝑖,j. 由於我們要將資料矩陣 V 分解成 W 與 H，將誤差最小化，而減損函數對於矩陣 W 與 H 不能同時為凸形的(Convex)，只能在其中一個矩陣是凸形。因此期望有個演算法去找到減損函數的全域最小值(Global Minimum)是不切實際的，所以使用迭代更新規則將 W 與 H 更新去求得最佳解(局部最小值(Local Minimum))。起初提出的方法是使用梯度下降演算法(Gradient Descent Algorithm)與加法迭代 (Iterative)規則，後來又有學者提出乘法迭代規則，因為乘性迭代規則能夠賦予非負矩陣分解法之非負限制的特性。以下是乘法迭代更新規則：[Lee and Seung, 2000] 30.

(43) Euclidian Distance 的乘法更新規則： H𝑘𝑗 ← H𝑘𝑗. (W T V)𝑘𝑗 (W T WH)𝑘𝑗. W𝑖𝑘 ← W𝑖𝑘. (VH T )𝑖𝑘 (WHH T )𝑖𝑘. (式 3-5). Kullback-Leibler Divergence 的乘法更新規則： ∑𝑖 W𝑖𝑘 V𝑖𝑗 ⁄(WH)𝑖𝑗 ∑𝑖 W𝑖𝑘 ∑𝑗 H𝑘j V𝑖𝑗 ⁄(WH)𝑖𝑗 W𝑖k ← W𝑖𝑘 ∑𝑗 H𝑘𝑗 H𝑘𝑗 ← H𝑘𝑗. (式 3-6). 上述提到將非負矩陣分解法應用在強健性語音特徵擷取，是將語音特徵時間序列經過離散傅立葉轉換，轉至調變頻譜上處理，且保持相位角不變，只對調變頻譜強度成分作處理。訓練階段時，首先會先將乾淨的語音特徵訓練資料利用非負矩陣分解法去求出乾淨的基底向量。接著測試階段時，會將有雜訊的語音特徵利用非負矩陣分解法來使用已訓練好的乾淨基底向量，去重構語音特徵，以得到較乾淨的語音特徵。值得注意的是利用非負矩陣分解法所找出的數個基底向量之間可能會有高度的重疊(Overlapping)，這種現象可能會違背了以部分為基礎的直觀性。以這個面向來看，許多實際應用中是需要一個矩陣分解的技術來產生比較局部性 (Localized)且較少重疊的資料特徵表示。在非負矩陣分解法被提出後，許多學者已嘗試解決以上所描述的問題而提出了幾個改善方法。它們透過修改傳統非負矩陣分解法，強迫施加稀疏性(Sparseness)在基底向量或者是編碼向量。以下討論幾個利用稀疏化的特性來改善的非負矩陣分解法。. 31.

(44) 圖3-2 非負矩陣分解法相關研究發展趨勢圖. 3.1 非負稀疏編碼法非負稀疏編碼法(Nonnegative Sparse Coding, NNSC)[Hoyer, 2002]主要的目的是要利用線性稀疏編碼(Linear Sparse Coding)[Olshausen, 1996; Harpur, 1996]將多元資料分解並轉換成正的稀疏成分。為了達到這目的，結合一個小的重建錯誤來當作稀疏準則添加在定義的減損函數： E(V, WH) = ‖V − WH‖2 + 𝜆 ∑ H𝑖𝑗. (式 3-7). 𝑖,𝑗. 觀察在 H 矩陣中元素的稀疏性程度，對原本的減損函數加上一個懲罰項來測量稀疏性。λ 是用來控制稀疏性與錯誤重建精確性之間的權衡。我們要最小化上述的減損函數。演算法如下：. 32.

(45) 演算法: 1.隨機將 W 與 H 矩陣正數初始化，並對 W 矩陣的每一行進行正規化，且讓步長 (Step Size)𝜇 > 0。 2.迭代直到收斂 a.計算新的 W 矩陣： W ← W − 𝜇(WH − V)H T. (式 3-8). b.若 W 矩陣中有負值，將該元素設為 0。 c.對 W 矩陣的每一行進行正規化。 d.計算新的 H 矩陣： H𝑖𝑗 ← H𝑖𝑗. (W T V)𝑖𝑗 (W T WH)𝑖𝑗 + 𝜆. (式 3-9). 3.2 稀疏非負矩陣分解法稀疏非負矩陣分解法(Sparse Nonnegative Matrix Factorization, SNMF)[Liu, 2003] 是從非負稀疏編碼法發想而來。非負稀疏編碼法使用傳統歐式距離的減損函數做稀疏性的改善，而稀疏非負矩陣分解法是使用傳統 KL 散度的減損函數做稀疏性的改善。稀疏非負矩陣分解法的減損函數如下: D(V, WH) = ∑ (V𝑖𝑗 ln 𝑖,𝑗. V𝑖𝑗 − V𝑖𝑗 + (WH)𝑖𝑗 ) + 𝛼 ∑ H𝑖𝑗 𝑓𝑜𝑟 𝛼 ≥ 0 (WH)𝑖𝑗. (式 3-10). 𝑖,𝑗. 其演算法如同傳統非負矩陣分解法，W 的乘法更新規則沒有改變，只需將 H 的乘法更新規則，改成如下:. 33.

(46) H𝑎𝑏 ← H𝑎b. ∑𝑖(W𝑖𝑎 V𝑖𝑏 )⁄∑𝑗(W𝑖𝑗 V𝑗𝑏 ). (式 3-11). 1+𝛼. 3.3 局部非負矩陣分解法局部非負矩陣分解法(Local Nonnegative Matrix Factorization, LNMF)[Feng et al., 2002]被提出時是用來處理圖像的方法。除了是要以部分為基礎的子空間來表示，主要目的是要學習圖像之空間上的局部性。透過對編碼向量施加稀疏的約束，來達到真正以部分為基礎的表示，並使基底的成分有局部的約束。首先定義A = [𝑎𝑖𝑗 ] = W T W與B = [𝑏𝑖𝑗 ] = HH T ，A, B ∈ 𝑅 𝐾×𝐾 ，K 為基底個數。局部非負矩陣分解法之演算法是基於以下三個額外約束來進行： (1) H 矩陣之最大稀疏：盡可能的希望 H 矩陣能包含許多零值，這意味著要將基底成分用來表示 V 的個數要最小化。數學上表示，每個𝑎𝑖𝑗 需要最小化。 (2) W 矩陣之最大表示能力：此約束跟(1)是密切相關，此步驟的目的是要更進一步的迫使 H 矩陣中可以更加稀疏。數學上表示，∑𝐾 𝑖 𝑏𝑖𝑖 需要最大化。 (3) W 矩陣之最大正交(Orthogonality)：此約束想要將不同的基底成分盡可能的正交，以達將冗餘性降到最低之目的。數學上表示∑∀𝑖,𝑗 𝑖≠𝑗 𝑎𝑖𝑗 ，與(1)結合後，減損函式是為將∑∀𝑖,𝑗 𝑎𝑖𝑗 最小化。使用 KL 散度的減損函數： 𝑘. 𝑘. 𝑖,𝑗=1. 𝑖=1. V𝑖𝑗 D(V, WH) = ∑ (V𝑖𝑗 ln − V𝑖𝑗 + (WH)𝑖𝑗 ) + 𝛼 ∑ 𝑎𝑖𝑗 − 𝛽 ∑ 𝑏𝑖𝑖 (WH)𝑖𝑗 𝑖,𝑗. 而𝛼, 𝛽 > 0，用來表示額外約束之重要性的常數。 34. (式 3-12).

(47) 局部非負矩陣分解法其演算法如同傳統非負矩陣分解法，W 的乘法更新規則沒有改變，只是需將 H 的乘法更新規則，改成如下:. H𝑎𝑏 ← √H𝑎𝑏 ∑. (W𝑖𝑎 V𝑖𝑏 )/ ∑. 𝑖=1. (W𝑖𝑘 V𝑘𝑏 ). (式 3-13). 𝑘=1. 3.4 稀疏約束的非負矩陣分解法稀疏約束的非負矩陣分解法(Nonnegative Matrix Factorization with Sparseness Constraints, NMFSC)[Hoyer, 2004]是運用在非負矩陣分解法的最小平方法中，將之加入了稀疏化的約束條件。此方法使用了一個稀疏檢測，此檢測是基於在 L1 範數與 L2 範數的關係，用來量化在一個向量中，有多少的能量被包裝在只有幾個少數的成分當中：. sparseness(𝐱) =. √𝑛 − (∑|𝑥𝑖 |)⁄√∑ 𝑥𝑖2 ). (式 3-14). √𝑛 − 1. 其中 n 為 x 向量的維度。此函數計算出來之結果若為 1，等同於在一個向量中只有包含一個非零的成分；計算結果若為 0，則代表向量中所有成分都是相等的，以上則是此稀疏檢測的兩個極端例子。在對減損函式最小化的時候，可以選擇下列的的約束條件： E(W, H) = ‖V − WH‖2. (式 3-15). sparseness(𝑤𝑖 ) = Sw , ∀𝑖. (式 3-16). sparseness(ℎ𝑖 ) = Sh , ∀𝑖. (式 3-17). 𝑤𝑖 是矩陣 W 的第 i 行，ℎ𝑖 是矩陣 H 的第 i 列，Sw、Sh 是矩陣 W、H 的稀疏程度。 35.

(48) 演算法: 此演算法固定ℎ𝑖 的 L2 範數等於 1(Unity)，而下列流程需先明確定義 L1、L2 範數，再使用投影演算法來執行強迫稀疏。 1. 隨機的將 W 與 H 矩陣正數初始化 2. 如果在 W 矩陣中有稀疏約束，將會投影 W 矩陣的每一行使之非負，不改變 L2 範數，而 L1 範數會達到期望的稀疏值。 3. 如果在 H 矩陣中有稀疏約束，將會投影 H 矩陣的每一列使之非負，使 L2 範數等於 1，而 L1 範數會達到期望的稀疏值。 4. 迭代值到收斂 (a) 如果在 W 矩陣中有稀疏約束 (1)設定W ∶= W − 𝜇𝑊 (WH − V)H T (2)投影 W 矩陣的每一行使之非負，不改變 L2 範數，而 L1 範數會達到期望的稀疏值。否則使用標準的乘法更新步驟 W ∶= W (VH T ) (WHHT ) (b) 如果在 H 矩陣中有稀疏約束 (1)設定H ∶= H − 𝜇𝐻 W T (WH − V) (2)投影 H 矩陣的每一列使之非負，使 L2 範數等於 1，而 L1 範數會達到期望的稀疏值。否則使用標準的乘法更新步驟 H ∶= H (W T V) (W T WH) 36.

(49) 3.5 非平滑非負矩陣分解法在此可先提及名詞，「稀疏」是指一個向量中的元素零值多，極端的例子就是ㄧ個向量中只有一個非零值；「平滑」是指一個向量中的元素大致上都有值，極端的例子就是ㄧ個向量中，所有元素都是非零值且值相等。所以「稀疏」(Sparseness) 意味著「非平滑」(Nonsmoothness)的概念，而「非稀疏」(Nonsparseness)可謂「平滑」(Smoothness)的概念。在上述提到的稀疏方法是藉由在歐式距離或 KL 散度的減損函式進行約束或添加懲罰項。這種方式可以單獨施加到基底向量，也可以單獨施加到編碼向量，或是同時施加。而在兩個矩陣同時施加稀疏約束時，將會降低資料的解釋方差 (Explained Variance) 。使用非平滑非負矩陣分解法 (Nonsmooth Nonnegative Matrix Factorization, nsNMF)的方式跟上述所提及的其它稀疏變形非負矩陣分解法相比，它較能維持資料的解釋方差。非平滑非負矩陣分解法[Pascual-Montano, 2006]直接修改傳統非負矩陣分解法的模型。利用模型的乘法性質，達到矩陣全面的稀疏，以能擷取更局部的資訊。非負矩陣分解法將資料矩陣分成兩個矩陣相乘，也就是基底矩陣乘以編碼矩陣。若在一個矩陣中，其元素是非稀疏或平滑的，為了要補償最後兩個矩陣相乘之後能盡可能地近似原始資料矩陣，這將會迫使另一個矩陣面臨稀疏或非平滑的情況。非平滑非負矩陣分解法可以定義如下： V = WSH. 37. (式 3-18).

(50) 圖 3-3 非平滑非負矩陣分解法示意圖在上式中，矩陣V ∈ 𝑅𝐼×𝐽 為資料矩陣，矩陣W ∈ 𝑅 𝐼×𝐾 為基底矩陣，矩陣H ∈ 𝑅𝐾×𝐽 為編碼矩陣，以上是傳統非負矩陣分解法的模型變數，而矩陣S ∈ 𝑅 𝐾×𝐾 稱為平滑矩陣，定義如下： 𝜃. S = (1 − 𝜃)I + 𝐾11T. (式 3-19). 式 3-19 中 1 是一個元素都是 1 的向量，I 是單位矩陣，以及𝜃是一個用來控制整體稀疏程度的參數，此參數滿足0 ≤ 𝜃 ≤ 1的範圍中。. 圖 3-4 平滑矩陣 S 之例子. 38.

(51) 對平滑矩陣S可以解釋為：假設X為一個正的非零值向量，而Y = SX為轉換後的向量。如果𝜃 = 0，Y = X，意謂著向量X中沒有平滑發生；如果𝜃 = 1，向量Y中所有的元素會變成一致的數值，此數值會等於向量X所有元素的平均，這就是最平滑的向量。因為向量Y中的元素擁有相同的非零值，而不是有些值趨近於零而有些值是明顯得非零值。. 圖 3-5 平滑矩陣 S 相乘例子由上述可知參數𝜃用來控制平滑矩陣S的平滑程度。由於模型的乘法性質，平滑矩陣S中若有強烈的平滑情況，將會迫使在基底向量與編碼向量中造成強烈的稀疏。因此可以說參數𝜃是用來控制整個非負矩陣分解法模型的稀疏程度。而當參數𝜃 等於 0 時，平滑矩陣S會等同於一個單位矩陣I，此時模型會回歸到傳統非負矩陣分解法的模型。在此我們可以更詳細的去說明整個非平滑非負矩陣分解法的細節流程與乘法更新規則。在式 3-19，非平滑非負矩陣分解法的模型可以等價寫成： V = (WS)H = W(SH). (式 3-20). 用括號來表示平滑矩陣S是先與哪個矩陣做相乘。若是平滑矩陣S先與基底矩陣W 做相乘，代表說基底矩陣W會變得平滑，這將會迫使編碼矩陣H變得稀疏；同樣 39.

(52) 地，若是平滑矩陣S先與編碼矩陣H做相乘，代表說編碼矩陣H會變得平滑，這將會迫使基底矩陣W變得稀疏。由於這兩種情況是同時發生的，所以在基底矩陣W 與編碼矩陣H都會強制稀疏。非平滑非負矩陣分解法的乘法更新規則：更新編碼矩陣H時，將W換成(WS)；更新基底矩陣W時，將H換成(SH)。 Euclidian Distance 的乘法更新規則： H𝑘𝑗 ← H𝑘𝑗. ((WS)T V)𝑘𝑗 ((WS)T (WS)H)𝑘𝑗. W𝑖𝑘 ← W𝑖𝑘. (V(SH)T )𝑖𝑘 (W(SH)(SH)T )𝑖𝑘. (式 3-21). Kullback-Leibler Divergence 的乘法更新規則： ∑𝑖(WS)𝑖𝑘 V𝑖𝑗 ⁄((WS)H)𝑖𝑗 ∑𝑖(𝑊𝑆)𝑖𝑘 ∑𝑗(SH)𝑘𝑗 V𝑖𝑗 ⁄(W(SH))𝑖𝑗 W𝑖𝑘 ← W𝑖𝑘 ∑𝑗(SH)𝑘𝑗. H𝑘𝑗 ← H𝑘𝑗. 而其他部分的演算法流程同傳統非負矩陣分解法。. 40. (式 3-22).

(53) 3.6 基於圖正則化非負矩陣分解法基於近期的學者[Seung and Lee, 2000][Belkin et al., 2006]發現當資料被採樣成機率分布的形式來繪製時，在周圍的空間會近似一個子流形(Submanifold)的情況。假設在歐式空間𝑅 𝑀 中有一個子集合是維度為 d 的子流形𝑀𝑑 ⊂ 𝑅 𝑀 ，其看起來會像是一個維度為 d 的扁平歐式空間[Lee, 2002]。為了可以去檢測潛在流形結構，很多流形學習算法已被提出，例如局部線性表示 (Locally Linear Embedding, LLE)[Roweis and Saul, 2000]、ISOMAP[Tenenbaum et al., 2000]、拉普拉斯特徵映射(Laplacian Eigenmap)[Belkin and Niyogi, 2001]。以上有提到的這些算法使用所謂的局部不變性(Locally Invariant)[Hadsell et al., 2006]的概念。換句話說，在附近資料點，可能有類似的表示。也被證明了如果利用幾何結構(Geometrical Structure)且考慮局部不變性，該學習效能可增強。基於圖正則化非負矩陣分解法 (Graph Regularized Non-negative Matrix Factorization, GNMF) [Cai et al., 2011]考慮了局部不變性，且建造了一個最近鄰圖形(Nearest Neighbor Graph)去獲取資料空間的幾何結構資訊。意味著若兩個資料點在最近鄰圖形中是相連接的話，代表兩個資料點彼此間是足夠接近的。此方法將最近鄰圖形的納入減損函式中，當作是增加ㄧ個額外的正則項(Regularization Term)，可以比傳統非負矩陣分解法更加有鑑別力。因為傳統非負矩陣分解法在歐式空間中學習時，沒辦法學習到固有的內在幾何結構，對於一些現實世界的應用可能會少了一些鑑別力。 41.

(54) 此架構同時利用了非負矩陣分解法與圖形的拉普拉斯正規化的能力。除了利用最近鄰圖形的訊息，也可以利用其他的資訊。例如可以利用標籤信息或網路結構來建構圖形。在這有個自然的假設，若是兩個資料點𝑣𝑗 及𝑣𝑙 的資料分佈所擁有的固有內在幾何結構如果是接近的(Close)，則此兩點的表示所相對新基底的𝑧𝑗 及 𝑧𝑙 彼此間也會是接近的。而此假設也可以稱為上述所提到的局部不變性。假設一個有 v 個頂點的圖，每個頂點代表一個資料點，然後對每個資料點𝒗𝒋 尋找𝑝個最近鄰點，並將𝑣𝑗 與他的最近鄰點連接，而定義圖的權重矩陣 E 的方法常見有下列幾種： (1)0-1 權重(0-1 Weighting)： E𝑗𝑙 = 1，代表資料點𝒗𝒋 與𝒗𝒍 是連接的，這是個普遍簡易的方法。 (2)熱核權重(Heat Kernel Weighting)： E𝑗𝑙 = 𝑒. −. 2 ‖𝒗𝒋 −𝒗𝒍 ‖ 𝜎. ，代表資料點𝑣𝑗 與𝑣𝑙 是連接的，熱核在流形的微分函式之拉普拉斯. 貝爾特拉米運算元(Laplace Beltrami Operator)有內在的連繫。 (3)點積權重(Dot-Product Weighting)： E𝑗𝑙 = 𝒗𝒋 𝑻 𝒗𝒍，代表資料點𝒗𝒋 與𝒗𝒍 是連接的，若將𝒗正規化到 1，可以等價為兩個向量的餘弦相似(Cosine Similarity)。上述E𝑗𝑙 的不同算法都是要用來測量兩個資料點𝑣𝑗 與𝑣𝑙 的相似程度，而運用在不同的情況的任務可能會選擇不同的相似測量算法。例如餘弦相似(點積權重)常常運用在資訊檢索的文件處理的任務；熱核權重則是比較適合用在圖像資料的任務。 42.

(55) 圖 3-6 資料點關係示意圖. 圖 3-7 權重矩陣 E 之例子如果假設𝒉𝒋 = [ℎ𝑗1 , … , ℎ𝑗𝑘 ]𝑇 為編碼矩陣H的第 j 行，𝒉𝒋 可被視為是第𝒗𝒋 個資料點相對於新的基底矩陣W之新表示(低維的表示)。在此我們討論較常見的歐式距離： 𝑑(𝒉𝒋 , 𝒉𝒍 ) = ‖𝒉𝒋 − 𝒉𝒍 ‖. 2. (式 3-23). 此距離用來測量剛所提到的相對於新的基底矩陣W，而兩個資料點𝒉𝒋 與𝒉𝒍 之低維表示的之間差異(Dissimilarity)，距離函式值越大代表此兩個資料點𝒉𝒋 與𝒉𝒍 彼此差異越大。. 43.