經驗模態分解法應用在情緒語音特徵值之計算

全文

(1)國立高雄大學資訊工程學系碩士論文. 經驗模態分解法應用在情緒語音特徵值之計算 Applications of Empirical Mode Decomposition on the Computation of Emotional Speech Features. 研究生：李英瑋撰指導教授：潘欣泰博士. 中華民國 101 年 7 月.

(2) 經驗模態分解法應用在情緒語音特徵值之計算指導教授：潘欣泰博士國立高雄大學資訊工程學系學生：李英瑋國立高雄大學資訊工程學系. 摘要本論文結合經驗模態分解法(Empirical Mode Decomposition, EMD)與梅爾倒頻譜參數(Mel-Scale Frequency Cepstral Coefficients, MFCC)計算情緒語音特徵值，改善情緒語音之辨識率。EMD 將情緒語音訊號分解成多個本質模態函數 (Intrinsic Mode Function, IMF)，並且以三種演化式計算(Evolutional Computation, EC)演算法分別為粒子群演算法(Particle Swarm Optimization, PSO)、基因演算法 (Genetic Algorithm, GA)以及差分演算法(Differential Evolution, DE)，計算出每個 IMF 之最佳權重值組合，以強化情緒語音訊號。另外，我們實驗使用隱藏式馬可夫模型(Hidden Markov Model, HMM)訓練以及辨識情緒語音特徵值。由實驗結果得知，本論文所提出之方法的確可以改善情緒語音之辨識率。關鍵字：隱藏式馬可夫模型、經驗模態分解法、粒子群演算法、基因演算法、差分演算法、情緒語音辨識。. I.

(3) Applications of Empirical Mode Decomposition on the Computation of Emotional Speech Features Advisor: Dr. Shing-Tai Pan Department of Computer Science and Information Engineering, National University of Kaohsiung Student: Ying-Wei Lee Department of Computer Science and Information Engineering, National University of Kaohsiung. ABSTRACT This thesis combines Empirical Mode Decomposition (EMD) with Mel-Scale Frequency Cepstral Coefficients (MFCC) to extract emotional speech features and improve emotional speech recognition rate. The EMD method is used to decompose emotional speech signals into several Intrinsic Mode Functions (IMFs). Three evolutionary algorithms: Particle Swarm Optimization (PSO), Differential Evolution (DE), and Genetic Algorithm (GA) are used to find the optimal weights of IMFs to compose an enhanced emotional speech signal. Thereafter, we can obtain more suitable emotional features by using MFCC. After extracting features, we fed these features into the Hidden Markov Model (HMM) for training and testing. Finally, experimental results will show that the emotional speech recognition rate can be improved by using the proposed method. Keywords: Hidden Markov Model, Empirical Mode Decomposition, Particle Swarm Optimization, Differential Evolution, Genetic Algorithm, Emotional Speech Recognition.. II.

(4) 目錄第一章緒論.................................................................................................................. 1 1.1 相關研究介紹 ..................................................................................................... 1 1.2 情緒語音資料庫介紹 ......................................................................................... 2 1.3 研究動機 ............................................................................................................. 4 1.4 研究方法 ............................................................................................................. 4 第二章語音訊號前置處理.......................................................................................... 6 2.1 語音取樣(Speech Sampling) .............................................................................. 6 2.2 端點偵測(Point Detection) ................................................................................. 8 2.3 預強調(Pre-Emphasis) ........................................................................................ 9 2.4 漢明窗(Hamming Window) ............................................................................. 10 2.5 快速傅立葉轉換(Fast Fourier Transform) ....................................................... 11 2.6 特徵值擷取(Feature Extraction)....................................................................... 14 2.6.1 梅爾倒頻譜參數(MFCC) .......................................................................... 15 2.6.2 結合等效矩形頻寬分類法(ERB)與各相異性過濾法 .............................. 18 第三章經驗模態分解法............................................................................................ 21 3.1 訊號分析 ........................................................................................................... 21 3.2 本質模態函數(IMF) ......................................................................................... 23 3.3 三次仿樣函數(Cubic Spline) ........................................................................... 24 3.4 經驗模態分解法(EMD) ................................................................................... 26 3.5 經驗模態分解法結合情緒語音辨識 ............................................................... 30 3.6 結合 EMD 與雷尼熵值(Renyi Entropy)之特徵值擷取方法 .......................... 32 第四章情緒語音辨識平台........................................................................................ 34 4.1 隱藏式馬可夫模型(HMM) .............................................................................. 35 4.2 離散型隱藏式馬可夫模型(DHMM) ............................................................... 36 4.2.1 向量量化 .................................................................................................... 36 4.2.2 DHMM 模型機率計算 ............................................................................... 38 III.

(5) 4.2.3 DHMM 模型訓練 ....................................................................................... 39 4.3 HTK 軟體簡介 ................................................................................................... 41 4.4 HMM 辨識系統結合 EMD 方法 ...................................................................... 42 第五章演化式計算.................................................................................................... 44 5.1 基因演算法(GA) .............................................................................................. 44 5.1.1 選擇 ............................................................................................................ 45 5.1.2 交配 ............................................................................................................ 46 5.1.3 突變 ............................................................................................................ 46 5.2 粒子群演算法(PSO) ......................................................................................... 47 5.3 差分演算法(DE) ............................................................................................... 48 第六章實驗結果與討論............................................................................................ 50 6.1 情緒語音資料庫 ............................................................................................... 50 6.2 實驗結果 ........................................................................................................... 52 第七章結論與未來展望............................................................................................ 66 參考文獻...................................................................................................................... 68. IV.

(6) 圖目錄圖 1.1. 常見的情緒語音資料庫.................................................................................. 3. 圖 2.1. 語音訊號的前置處理過程.............................................................................. 6. 圖 2.2. 50%之音框重疊率 .......................................................................................... 8. 圖 2.3. 端點偵測.......................................................................................................... 8. 圖 2.4. 256 個取樣點的漢明窗................................................................................. 11. 圖 2.5. 8 點的時間分解 FFT 之蝴蝶圖 .................................................................... 12. 圖 2.6. 浮點數轉成整數過程.................................................................................... 13. 圖 2.7. 複數乘法的蝴蝶圖........................................................................................ 14. 圖 2.8. 梅爾頻率與一般頻率關係圖........................................................................ 16. 圖 2.9. 梅爾倒頻譜參數的執行過程........................................................................ 17. 圖 2.10 三種子頻帶分類法的頻率區段.................................................................... 19 圖 2.11 以語音頻譜能量計算特徵值過程................................................................ 20 圖 3.1. 原始訊號與其 IMF ....................................................................................... 24. 圖 3.2. 三次仿樣函數................................................................................................ 25. 圖 3.3. 訊號之上下包絡線........................................................................................ 26. 圖 3.4 EMD 流程圖 .................................................................................................. 29 圖 3.5. 同一語者且同一語句於情緒 Anxiety 與情緒 Happiness 之訊號以及 IMF 比較................................................................................................................ 31. 圖 3.6 EMDRE 特徵值擷取方法過程..................................................................... 33 圖 4.1 HMM 狀態轉移圖......................................................................................... 35 圖 4.2 DHMM 模型訓練流程圖 .............................................................................. 40 圖 4.3 DHMM 語音辨識處理過程 .......................................................................... 42 圖 4.4 HTK 語音辨識處理過程 .............................................................................. 43 圖 5.1. GA 演算法流程圖 ......................................................................................... 45. 圖 5.2. PSO 演算法流程圖 ....................................................................................... 48. V.

(7) 圖 5.3. DE 演算法流程圖 ......................................................................................... 49. 圖 6.1. GA 演算法之最佳解收斂圖 ......................................................................... 57. 圖 6.2. PSO 演算法之最佳解收斂圖 ....................................................................... 57. 圖 6.3. DE 演算法之最佳解收斂圖 ......................................................................... 58. 圖 6.4. 三種演化式演算法收斂圖............................................................................ 58. 圖 6.5. 以 Berlin 資料庫實作 MFCC、EMDRE、ERBAF 以及 PEM 特徵值計算方法之辨識率比較............................................................................................ 63. 圖 6.6. 以 eNTERFACE 資料庫實作 MFCC、EMDRE、ERBAF 以及 PEM 特徵值計算方法之辨識率比較............................................................................ 63. 圖 6.7. 以 Berlin 資料庫實作 MFCC 與 PEM 之辨識率比較 ................................ 65. 圖 6.8. 以 eNTERFACE 資料庫實作 MFCC 與 PEM 之辨識率比較 .................... 65. VI.

(8) 表目錄表 6.1 Berlin 情緒資料庫內容................................................................................. 51 表 6.2. eNTERFACE 情緒資料庫內容 .................................................................... 51. 表 6.3. 以 Berlin 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較 .................. 53. 表 6.4. 以 eNTERFACE 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較 ...... 54. 表 6.5. GA 參數設定表 ............................................................................................. 55. 表 6.6. PSO 參數設定表 ........................................................................................... 56. 表 6.7. DE 參數設定表 ............................................................................................. 56. 表 6.8. Berlin 資料庫之最佳化演算法辨識率比較................................................. 59. 表 6.9. eNTERFACE 資料庫之最佳化演算法辨識率比較 .................................... 60. 表 6.10 以 Berlin 資料庫實作 PEM 特徵值擷取方法之最佳辨識率以及最佳 IMF 之權重值參數組合........................................................................................ 61 表 6.11 以 eNTERFACE 資料庫實作 PEM 特徵值擷取方法之最佳辨識率以及最佳 IMF 之權重值參數組合 .......................................................................... 61 表 6.12 以 PEM 方法辨識 Berlin 資料庫語料單一情緒的平均辨識率 ................. 62 表 6.13 以 PEM 方法辨識 eNTERFACE 資料庫語料單一情緒的平均辨識率 ..... 62. VII.

(9) 第一章緒論所謂的情緒為人類受到外界環境或者自我思想的影響所產生的一種生理或心理的複雜反應現象。在日常生活中，情緒在人與人之間的溝通扮演著非常重要的角色，人們透過情緒反應，可以明確知道對方所要表示的意圖。舉例來說，喜、怒、哀、樂四種情緒於人與人之間最常出現，像是生氣的時候，講話語氣會變得特別大聲，行動會顯得暴躁或動作過大;悲傷的時候，講話之間會穿插哭泣的聲音，身體會產生輕微顫抖等等。此外，情緒也能反應出身心健康。而人類表達情緒的方式莫過於說話、肢體動作、書寫等等，其中說話是最直接也是最方便。因此，近年來情緒語音[1-4]相關的研究是越來越熱門。. 1.1 相關研究介紹在情緒語音辨識上，常用的辨識平台有很多種。舉例來說，有類神經網路 (Neural Network, NN)[5-6]，支撐向量機(Support Vector Machine, SVM)[7]，高斯混合模型(Gaussian Mixture Model, GMM)[8]以及隱藏式馬可夫模型 (Hidden Markov Model, HMM)[9]。其中，HMM 以統計方式辨識語音訊號，可以多層建構，不受語音長度影響，並且擁有自我學習的功能，因此被廣泛應用於情於語音辨識上。經驗模態分解法(Empirical Mode Decomposition, EMD)[10]是黃鍔博士(Dr. Norden Huang)於 1998 年所提出的分析方法。由於 EMD 將訊號分解成多個本質. 1.

(10) 模態函數的特性，國內外學者或研究人員對於 EMD 進行許多研究，並且廣泛應用到不同領域中，如語音訊號[11-12]、生醫訊號[13]、地震訊號[14]以及語音特徵值擷取[15]等等。在特徵值擷取方面，EMD 將語音訊號分解出多個本質模態函數，接著使用雷尼熵值(Renyi Entropy)[16]計算各個 IMF 的能量，屬於一種頻譜能量計算的特徵值擷取方式。而在本論文中，EMD 用來強化情緒語音訊號，達到訊號過濾的效果，幫助 MFCC 能擷取到更為強健的情緒語音特徵值，讓特徵值更能表現出情緒語音的特性，以提升情緒語音之辨識率。演化式計算(Evolutional Computation, EC)是用來找出問題的最佳解並且解決問題，演化式計算的應用領域非常廣泛，常見的演化式計算有基因演算法(Genetic Algorithm, GA)[17-18]、粒子群演算法(Particle Swarm Optimization, PSO)[19-20]、差分演算法(Differential Evolution, DE)[21-22]等等，這些都是目前演化式計算普遍被使用且效果最好的演算法。本論文應用演化式計算來訓練各個 IMF 之權重值，以期望得到最佳 IMF 的加權和，並透過梅爾倒頻譜參數(Mel-Scale Frequency Cepstral Coefficients, MFCC)的計算得到最能辨識各個情緒的特徵值。. 1.2 情緒語音資料庫介紹由於情緒語音之辨識率與其所使用的資料庫息息相關，資料庫中的情緒語音自然程度越高情且情緒表達越明確，辨識率也會提高。而目前現有的情緒語音資料庫類型相當多，每個情緒資料庫的特色都不一樣，例如語言的不同、情緒的不. 2.

(11) 同以及語者所表達的情緒明確程度不同等等。因此，情緒語音資料庫對於情緒語音辨識而言是一個重要的課題之一[23]。圖 1.1 為常見的情緒語音資料庫[23]，可以明確看出每個資料庫所包含的語者、語言以及情緒等內容，並且依照資料庫語者來源為演員或非演員分成兩大類。大部分的資料庫都是私人且需要付費的，而本論文實驗採用 Berlin emotion database [24] 和 eNTERFACE 2005 emotion database [25]兩種公開且免費的情緒語音資料庫。. 圖 1.1. 常見的情緒語音資料庫[23]. 3.

(12) 1.3 研究動機本論文的主要目的是在於提升情緒語音辨識率。由於情緒在人與人之間的溝通扮演著非常重要的角色，其中說話是最常用的表達方式之一。雖然每個人所講的話是同一種情緒，但是情緒的強烈程度、語音頻率以及能量強度並不相同，以至於現今的情緒語音辨識率普遍不高。因此，如何提升情緒語音辨識率在情緒語音研究中是一個重要的課題之一。在情緒語音特徵值擷取部份， L. He 等人[15]結合 EMD 和雷尼熵值(EMD and Renyi Entropy, EMDRE)以及結合等效矩形頻寬分類法(Equivalent Rectangular Bandwidth, ERB) 與各相異性過濾法 (Anisotropic Filtering) 計算頻譜能量 (ERBAF)，即利用頻譜能量計算語音特徵值，因此容易失去語音信號時域 (Time-Domain)的特性。而在本論文中採用強化情緒語音訊號的方式，強化情緒語音的特徵值，提升情緒語音辨識率。其想法來源於一般語音的抗雜訊處理，並應用於情緒語音上，達到強化情緒語音的目的。因此，使用 EMD 分解語音訊號成多個 IMF，並且結合演化式計算找出最佳的權重值參數組合成新的語音訊號。而新的語音訊號即強化後的情緒語音訊號，幫助 MFCC 取得強化的情緒語音特徵值，改善情緒語音的辨識率。. 1.4 研究方法辨識語音訊號首先最重要的事是要找出訊號的特徵值，特徵值能幫助語音訊. 4.

(13) 號更容易進行訊號分析以及語音辨識。而不同的辨識平台，因為運算方法不同或者架構上的區別，導致辨識率有所差異。因此在本論文中，情緒語音訊號的分析將拆成兩個部份分別討論，第一個部份為語音訊號的前置處理，另一個部份則是語音的辨識平台。訊號前置處理是為了取得語音訊號的特徵值，在本論文中採用結合 EMD 和演化式計算強化語音訊號，將情緒成份從原始訊號中分離出來，過濾其它成份的影響。接著透過根據人類聽覺特性之 MFCC 擷取語音訊號的特徵值，使前置處理完成後所取得的特徵值更能符合人耳聽覺特性。而在語音辨識平台，本論文採用離散型隱藏馬可夫模型(Discrete Hidden Markov Model, DHMM)以及 HTK 軟體兩種不同類型的 HMM 作為辨識平台，DHMM 用來比較本論文所提出的結合演化式計算、EMD 和 MFCC 特徵值擷取方法、EMDRE、 ERBAF [15]的差別。而 HTK 則是目前許多研究或相關實驗最常使用的軟體之一，因為 HTK 的公信力高，操作容易，又 HTK 採用連續型隱藏式馬可夫模型(Continue Hidden Markov Model, CHMM)為主要架構，在擁有足夠的訓練語料時，HTK 會比 DHMM 擁有更佳的語音辨識率。因此以 HTK 軟體實作所提出的方法，並驗證此方法應用在不同 HMM 架構的可行性。. 5.

(14) 第二章語音訊號前置處理當聲音從口中發出後，聲音訊號會以聲波型態經由空氣傳播，這種形式的訊號稱為類比訊號(Analog Signal)。此語音訊號為一段連續的時變訊號，由於電腦不能直接處理類比訊號，只能對離散的數位資料做運算，因此需要由麥克風錄製輸入進電腦中，經過訊號取樣後，將類比訊號轉換成離散的實數值表示，所得到的語音訊號稱為數位訊號(Digital Signal)。在訊號取樣中，取樣點數視取樣頻率以及訊號長度來做決定。取樣頻率的大小關係到語音訊號的失真程度以及計算量大小問題。一般而言，不同的人發出相同的聲音，其訊號也不會一樣，因此必須先對語音訊號做前置處理，計算取得最接近人類說話辨識特性的語音訊號特徵值，如此其特徵值的計算結果才不會有太大的差異，最後電腦透過這些特徵值做語音辨識才能更加準確。圖 2.1 為語音訊號的前置處理過程。. 輸入語音. 輸入語音. 輸入語音. 特徵值擷取. 圖 2.1. 傅立葉轉換. 預強調. 漢明窗. 語音訊號的前置處理過程. 2.1 語音取樣(Speech Sampling) 因為原始的訊號是一段連續的訊號，而電腦只能計算離散數值的資料。因 6.

(15) 此，類比訊號需要經過麥克風錄製傳入電腦中，並經過語音取樣轉換成數位訊號才能被電腦做處理。語音取樣是將語音訊號每隔一小段時間記錄一次訊號值，這些時間點所得的訊號數值可以組成原訊號的波形。在語音取樣的過程中，取樣頻率的大小會響訊號的失真程度。取樣頻率越高，訊號失真程度越小訊號品質越好，但是所得到的資料量越多，造成資料計算時間增加。反之，當取樣頻率越低時，訊號失真程度越大品質也越差。根據取樣定理[26]，訊號取樣的頻率不得小於原始訊號頻率的兩倍，否則會造成混疊現象(Aliasing)，即代表著訊號失真程度太大，所得到取樣數值已經不能表示原來的訊號。另外，語音訊號的頻率會隨著時間而有所變化，為了能明確觀察頻率隨時間的變化情形且方便計算，因此將語音訊號切成許多短時距(Short Time Period) 的區段，每一小段則稱為一個音框(Frame)。音框與音框之間並不是一段連著一段，而是相互重疊。音框的重疊主要目的是為了觀察相鄰音框特徵值變化的情形。採用較高的重疊率，其特徵值變化程度較小，能表現出音框變化的連續性提升語音辨識率，但是也會增加音框數，造成運算量大增。而採用的重疊率越低，則相鄰音框特徵值變化程度越大，使得音框之間變化的連續性較差辨識率反而不佳，但是得到的音框數量降低而減少語音前置處理的時間。因此在本論文中，音框的重疊率採用一般常用的 50%，如圖 2.2。. 7.

(16) 圖 2.2 50%之音框重疊率. 2.2 端點偵測(Point Detection) 通常錄音後的語音並非都是語音部份，而是包含著非語音部份以及語音的部份。非語音部份指的是無聲的部份，一般分布在語音的開始之前以及結束之後的部份。而語音的部份才是主要用來辨識的語音內容。所謂的端點偵測是將語音訊號中無聲的部份去除掉，保留有聲音的部份，其目的是在於能減少需要計算的資料量而提高辨識速度並且避免靜音的部份影響語音辨識的品質。下圖 2.3 為端點偵測的例子，兩條紅線之間的區段為主要語音的部份，其它則是不必要的部份。. 2500 2000 1500 1000 500 0 -500 -1000 -1500 -2000 -2500 0. 1000. 2000. 3000. 圖 2.3. 4000. 5000. 端點偵測. 8. 6000. 7000. 8000.

(17) 在本論文中，端點偵測所採用的方法為能量偵測法，從語音訊號中求出每個音框的能量，其數學公式如(2-1)：. E (m) . m* L  L 1. . S ( n). 2. (2-1). n  m* L. 在數學式(2-1)中，E(m)是第 m 個音框的能量值，L 是音框的長度，S(n)是原始語音訊號。當取得各音框的能量後，將最大音框能量值的 7.5%加上前 K 個音框的能量值的平均當作門檻值，而計算門檻值的公式如數學式(2-2)：. Threshold  7.5% * max[ E (m)] . 1 K 1  E(i), 0  m  N  1 K i 0. (2-2). 其中，Threshold 為能量的門檻值，N 為總音框數量。此時取得的門檻值為語音部份開始端的門檻值，接著由第一個音框開始依序向後與門檻值做比較，當出現連續多個音框的能量超過門檻值，則代表語音部份的開始，同理由數學式(2-2) 可以反方向計算出語音部份結束端的門檻值，接著從最後一個音框依序向前與門檻值做比較，當出現連續多個音框能量值大於門檻值則代表找到語音部份的結尾。其餘在門檻值以外的非語音部份則判斷為無聲的部份並捨棄不用。如此之後的語音處理，只需要計算語音的部份，節省語音處理的計算時間。. 2.3 預強調(Pre-Emphasis) 當聲音從說話的人口中發出後，聲音訊號會經由空氣傳遞，此時訊號中高頻的部份會隨著時間長度嚴重衰弱，為了要彌補高頻衰減的問題，需要將原始語音 9.

(18) 訊號先經過一個高通濾波器(如數學式 2-3)，這個訊號處理方法稱為預強調(如數學式 2-4)。. H ( z )  1  0.95 * z 1. (2-3). X (n)  S (n)  0.95 * S (n  1), 1  n  L. (2-4). 數學式(2-4)中， X (n) 為預強調處理後之訊號。. 2.4 漢明窗(Hamming Window) 加入漢明窗的目的是要避免兩連續音框之間邊界值不連續的影響。因為先前將音框取重疊後兩個連續的音框頭尾的值不一定相等，這容易造成辨識上的誤差。因此將音框乘上漢明窗後，除了可以減少音框之間不連續性的影響，還能加強突顯音框的中間值。漢明窗的數學公式如下：. 2n  ), 0  n  N  1; 0.54  0.46 cos( W ( n)   N 1 0, otherwise. (2-5). 在數學式(2-5)中，將每個音框乘上 W (n) 後會凸顯音框中央的值，而越靠近音框兩端的值會越小。圖 2.4 為 256 個取樣點的漢明窗波型圖[27]。. 10.

(19) 1 0.8 0.6 0.4 0.2 50. 100. 圖 2.4. 150. 200. 250. 256 個取樣點的漢明窗[27]. 2.5 快速傅立葉轉換(Fast Fourier Transform) 在語音訊號加入漢明窗之後，訊號依然是以時域(Time-Domain)的方式呈現，但是一般語音辨識所採用的特徵值處理方式是以頻域(Frequency-Domain)分析方法，而音框的特徵值對於語音來說除了能表現該音框的特性並取代音框外，還能降低資料量加快辨識的運算速度。因此，語音訊號的每個音框都必須經過傅立葉轉換(Fourier Transform)[28]將音框從時域訊號轉成頻域訊號。傅立葉數學公式如數學式(2-6)： N 1. X [k ]   x[n]W , 0  k  N  1 ,WN  e n 0. kn N.  j 2 N. (2-6). 在數學式(2-6)中，X[k]為傅立葉轉換後之音框，N 為語音訊號的音框總數，其演算法的時間複雜度為 O( N 2 )。由於每個音框都要經過傅立葉轉換，且音框值皆為實數值，因此這些傅立葉轉換的運算會使用到大量的浮點數運算，計算時間會相當大，不符合實用需求，所以才有快速傅立葉轉換(Fast Fourier Transform,. 11.

(20) FFT)[28]的出現，改善傅立葉轉換的執行速度。假設總音框數 N 為偶數並定義 f [n] 與 g[n] 如下： f [n] = x[2n] g[n] = x[2n+1]. 其中 f [n] 為音框 x 的偶數取樣點， g[n] 為音框 x 的奇數取樣點，利用 f [n] 與 g[n] 將公式(2-6)改寫成數學式(2-7)。 N 1 2. N 1 2. n 0. n 0. X [k ]   f [n]WNnk/ 2  WNk  g[n]WNnk/ 2  F [k ]  WNk G[k ]. (2-7). 其中式子(2-7)將原本數學式(2-6)拆成奇數 G[k ] 與偶數 F[k ] 兩個部份作運算，同樣的，可以分別將兩個部份再拆成奇數跟偶數部分，利用這種分割合併法(Divide and Conquer)，可以將原本 O( N 2 )的時間複雜度降低成 O(. N log 2 N )，這種方式的 2. 傅立葉轉換稱為快速傅立葉轉換，圖 2.5 為 8 點的時間分解 FFT 之蝴蝶圖[28]。. x[0] x[2] x[4] x[6]. x[0]. x[1] x[3] x[5] x[7]. x[1]. 4-point FFT. 4-point FFT 圖 2.5. x[2] x[3]. W80. -1. x[4]. 1 8. -1. x[5]. 2 8. -1. x[6]. 3 8. -1. x[7]. W W. W. 8 點的時間分解 FFT 之蝴蝶圖[28] 12.

(21) 雖然快速傅立葉轉換能改善傅立葉轉換執行速度，但是依然存在著大量浮點數運算，因此我們採用整數快速傅立葉轉換[29]，在做傅立葉轉換前先將浮點數轉成整數並建表(如圖 2.6)。. *SF =2^10. Float 112 sin( )  0.98 256. INT truncate( SF * 0.98)  1003 truncate( SF * 0.195)  199. 112 cos( )  0.195 256. table. Construct table. Re[112]  199. Im[112]  1003. 圖 2.6. 浮點數轉成整數過程. 圖 2.6 說明 FFT 運算中，當初次碰到的 sin 與 cos 函式時，會先將它們左移 10 位元，接著捨棄小數部分只保留整數部分並建表，之後再次遇到相同 sin 或者 cos 函式時，則可以直接查表省略計算的時間。建表後，首先將數學式(2-7)中的 G[k ] 與 WNK 拆成下列(2-8)與(2-9)兩個數學式：. G[k ]  Re[G[k ]]  j Im[G[k ]]. (2-8).  2k   2k  WNk  cos    j sin    N   N . (2-9). 13.

(22) 接著再代入數學式(2-7)中得到式子(2-10) F [k ]  G[k ] *WNk  F [k ]  (c Re[G[k ]]  s Im[G[k ]]) * SF . (2-10). j (( s Re[G[k ]]  c Im[G[k ]]) * SF ). 其中 SF 為將小數放大所乘的值，因此先將 cos 與 sin 函式乘上 SF 放大成整數，經過全部運算後再除以 SF。經過這些運算後，就能將語音訊號從時域訊號轉成頻域訊號。下圖 2.7 為複數乘法的蝴蝶圖[29]。. cRe[G[k]]-sIm[G[k]]*SF. 1 SF. Re[G[K]]. s*SF. c*SF. G[K]. G[k ] * W NK. j. -s*SF c*SF. 1 SF. Im[G[k]]. cRe[G[k]]-sIm[G[k]]*SF. 圖 2.7. 複數乘法的蝴蝶圖[29]. 所以在本論文中採用整數快速傅立葉轉換的方法，幫助語音訊號從時域訊號轉為頻域訊號時，利用分割合併法改善傳統傅立葉轉換，並且將浮點數轉成整數做計算，如此可以節省大量的計算，提升轉換的執行時間。. 2.6 特徵值擷取(Feature Extraction) 在語音辨識中，特徵值擷取的方法一般分為兩大類：一類是時域分析方法， 14.

(23) 如過零率分析(Zero-Crossing Analysis)[30]。另一類是頻域分析方法，如梅爾倒頻譜參數(MFCC)。時域分析方法優點在於不用將訊號由時域轉成頻域，所以計算少且更省時，但是缺點則是會降低訊號品質導致辨識率較差。而頻域需要將訊號先做傅立葉轉換，從時域轉成頻域，所以計算較複雜且耗時，但是卻能提高辨識效果。一般常用的特徵值擷取方法有短時過零率分析、線性預測編碼、倒頻譜參數[30]以及 MFCC 等。. 2.6.1 梅爾倒頻譜參數(MFCC) 對於人類來說，因為人耳對於頻率感知是非線性的，在 1 kHz 下呈現線性遞增，但是 1 kHz 以上就開始呈現對數關係，即人類對低頻有較高的解析度，對中高頻的解析度則不如低頻好。所謂梅爾頻率是根據人類的聽覺特性而定義出來的。Mel 為人類聽覺感知的頻率單位. 數學式(2-11)與(2-12)為一般頻率 f 與梅爾頻率 mel 之間的轉換公式，圖 2.8 為梅爾頻率與一般頻率之間的關係圖[27]。. mel  2595 * log10 (1 . f ) 700. (2-11). mel. f  700 * (10 2595  1). (2-12). 15.

(24) Mel-frequency. 3000. 2000. 1000. 1000. 2000. 3000. 4000. 5000. 6000. 7000. 8000. frequency. 圖 2.8. 梅爾頻率與一般頻率關係圖[27]. 本論文中採用梅爾倒頻譜參數，主要是因為梅爾頻率比較符合人類聽覺感知的特性。將經過傅立葉轉換後的音框所得到的每個頻率能量|X(n)|乘上梅爾三角帶通濾波器，其濾波器公式如下(2-13)， 0, k  f m 1 k f m 1  , f m 1  k  f m  f m  f m 1 Bm (k )    f m 1  k , f  k  f m 1  f m 1  f m m  0, f m 1  k. (2-13). 其中 M 為濾波器的數量， f m 1 和 f m 1 為上下截止頻率， f m 為梅爾三角帶通濾波器的中心頻率，如數學式(2-14)。. fm . N mel ( f h )  mel ( fl ) * f (mel ( fl )  m * ) fs M 1. (2-14). 其中 f h 為濾波器中的最高頻率， f l 為濾波器中的最低頻率， f s 為語音訊號的. 16.

(25) 取樣頻率。之後將每個頻率的能量乘上梅爾三角帶通濾波器並加總後取對數得到 Y(m)如數學式(2-15)：.  fm1  Y (m)  log   X (k ) Bm (k ). k  fm1 . (2-15). Y (m) 為第 m 個梅爾三角帶通濾波器所輸出的對數能量值，之後對全部濾波器輸出的 Y (m) 做離散餘弦轉換(Discrete Cosine Transform, DCT)如數學式(2-16)：. 1 c x ( n)  M. 1 2 ). M. n(m  ). m 1. M. Y (m) cos(. (2-16). 其中 cx (n) 梅爾倒頻譜參數的運算結果，並作為語音音框的特徵值。而特徵值參數的數量一般採用 8~13 個，即語音特徵值為 8 維度~13 維度。圖 2.9 為梅爾倒頻譜參數的過程. 語音訊號. 傅立葉轉換. 漢明窗. MFCC 頻率. 圖 2.9. 離散餘弦轉換. 梅爾倒頻譜參數的執行過程. 17. 濾波器. 取對數.

(26) 2.6.2 結合等效矩形頻寬分類法(ERB)與各相異性過濾法語音音框經過短時傅立葉轉換(Short-time Fourier Transform)後，可以得到二維的能量時-頻頻譜圖，橫軸 x 為時間，縱軸 y 為訊號頻率，而頻譜值 s( x, y) 為能量並且以能量做為情緒語音訊號之特徵值，能量的範圍為 0-50 dB[15]。各相異性過濾(Anisotropic Filtering)是一種影像處理的技術，用來強化圖片提高圖片紋理質量的呈現。將二維的能量頻譜圖 s( x, y, ) 以各相異性過濾技術強化之，  為執行各相異性過濾次數。首先須要先定義定向流量 () (Directional Flows)：. s   East  West   North   South t. (2-17). 數學式(2-17)中，分別表示東南西北四個方向的定向流量，而定向流量函數定義如下：.  East(West) . 1 x (c ( x  , y, )  ( s( x  x, y, )  s( x, y, ))) 2 x 2.  North( South) . 1 y (c( x, y  , )  ( s( x, y  y, )  s( x, y, ))) 2 x 2. (2-18) (2-19). 其中， c( x, y, ) 為擴散系數(Diffusion Coefficient)用來控制擴散率，其定義如下：. c( s )  exp( (. s. . )2 ). (2-20). 擴散系數的選擇決定於圖像的梯度 s (Gradient)，而梯度則是用於保護圖片中的邊(edge)，  為一常數，用於控制邊的敏感度。最後根據定向流量更新能量頻譜的值，其公式如下：. s(   )  s( )   . s(t )  s( )    ( East  West   North   South) t 18. (2-21).

(27) 能量時-頻頻譜先經過各相異性過濾法強化後，接著以子頻帶分類法(Sub-band) 切割頻譜的頻率並且計算其平均能量[15]。人類的聽學系統對於語音感知在特定的頻率區段有較高的敏感度，此區段稱為臨界頻帶(critical bands)。因此如何細分這些頻率區段，對於辨識語音來說是非常重要的一個課題。圖 2.10 為三種子頻帶分類法的頻率區段[15]，在本論文中的子頻帶分類選擇採用效果較好的等效矩形頻寬分類法(Equivalent Rectangular Bandwidth, ERB)。. 圖 2.10. 三種子頻帶分類法的頻率區段[15]. 19.

(28) . 其計算 ERB 各頻率區段的平均能量 E i (i  1,..., N ) 公式如下： . Ei . 1 N f Nt. Nf. Nt.  s( x, y). (2-22). y 1 x 1. 公式(2-22)中，N 總頻率區段數量，ERB 分類法的 N 為 27。而 N f 為第 i 個頻率區段中總頻率座標數量，N t 為第 i 個頻率區段中總時間座標數量。經過(2-22) 計算後可以得到一組一維向量的能量值，即為情緒語音的特徵值。下圖 2.11 為使用結合 ERB 與各相異性過濾法(ERB with Anisotropic Filtering, ERBAF) 的語音頻譜能量計算特徵值的過程[15]。. 頻譜計算. ERB. 語音. 各相異性過濾. 平均能量. 頻帶分類. 平均能量 …… 平均能量. 圖 2.11. 以語音頻譜能量計算特徵值過程[15]. 20.

(29) 第三章經驗模態分解法經驗模態分解法 (Empirical Mode Decomposition, EMD) 為黃鍔院士 (Dr. Noden E. Huang)於 1998 年所提出之訊號分析方法，以 EMD 為基礎並結合希爾伯特轉換適用於分析非線性(Nonlinear)以及非穩態(Non-Stationary)之訊號，此分析方法稱之為希爾伯特-黃轉換(Hilbert Huang Transform, HHT)[10]。由於不同的訊號皆擁有不同的時間尺度，EMD 則是根據訊號本身的時間尺度，將訊號分解成有限個本質模態函數(Intrinsic Mode Function, IMF)與一個趨勢分量(Trend)，因此 EMD 可以適應不同時間尺度的訊號，並對於分析非線性以及非穩態之複雜訊號有好的成效。另外，分解出的 IMF 都有著獨特的物理特性，將這些 IMF 做 HHT 轉換後，可以計算出訊號的瞬時頻率與振幅，這對於分析訊號有很大的幫助。本論文利用 EMD 將情緒語音訊號分解出多個 IMF，再經過不同權重值對 IMF 做線性組合，組成新的情緒語音訊號，期望經過 EMD 處理後，能強化語音訊號中情感的部份，並減弱與情緒無關的部份，改善情緒語音之辨識率。. 3.1 訊號分析一般而言，自然界中大部分的訊號皆是非線性且非穩態。對於訊號的頻率分析上，傅立葉轉換分析限制於線性且穩態的訊號，傅立葉轉換分析只能取得整個訊號全部的頻率分布情況，不能更進一步分析訊號頻率隨時間變化的情形。訊號的瞬時頻率在不同時間點會有不同的值，對於瞬時頻率會隨時間而變化的情形，. 21.

(30) 傅立葉分析的方法不適用於此。與傅立葉分析不同，EMD 不需要事先定義基底函數，針對各種不同的複雜訊號，根據訊號本身的性質(局部極大值與局部極小值)將訊號分解成多個 IMFs 的線性組合。因為這個緣故，EMD 能適應不同的複雜訊號，所以能處理非線性以及非穩態的訊號。將這些分解後的 IMFs 經過 HHT 轉換後，將 IMFs 從時域轉換成頻域後，可以獲得訊號的瞬時頻率、振幅以及相位角。因此 EMD 對於大部分非線性以及非穩態訊號分析上比傳統傅立葉轉換有更好的解析。HHT 公式如(3-1)[10]：. y(t )  H {x(t )}  x(t ) .  x( ) 1 1  CPV  d  t   t . (3-1). 數學式(3-1)中，CPV 為柯西主值(Cauchy principle value)，y(t)為 x(t)經過 HHT 轉換後的訊號，t 與  為時間點。將 x(t)與 y(t)組成一個解析訊號 z (t ) 如公式(3-2)：. z(t )  x(t )  jy (t ). (3-2). 透過公式(3-2)中的 z (t ) ，可以獲得訊號的振幅 a(t )、相位角  (t ) 以及瞬時頻率 f(t) 等訊號相關資訊，其公式分別如下：.  (t )  tan 1. y (t ) x(t ). (3-3) 1 2 2. a(t )  z (t )  ( x  y ) 2. f (t ) . (3-4). 1 1 d w(t )   (t ) 2 2 dt. (3-5). 根據公式(3-4)和(3-5)所取得的振幅以及瞬時頻率，可以描繪出振幅和頻率相關的 22.

(31) 時頻圖，方便做時頻分析時使用。. 3.2 本質模態函數(IMF) 為了取得訊號的正確的瞬時頻率，在做 HHT 轉換之前必須先建立 IMF 以滿足 HHT 轉換對於瞬時頻率分析之條件。因為直接將訊號執行希爾伯特轉換找出瞬時頻率，容易受到直流偏移量以及多重頻率成分的影響，導致所求得的瞬時頻率與實際上的瞬時頻率有所誤差。因此在 HHT 轉換之前，先由 EMD 分解訊號找出多個 IMF 後，根據 IMF 的物理特性 HHT 才能找出訊號正確的瞬時頻率。而任一函數只要滿足下列兩個條件即可稱為 IMF： 1.. 整個訊號中，訊號的局部極大值(Local Maximum)以及局部極小值(Local Minimum)的數目與訊號所有過零點(Zero-Crossing)的數目差值之絕對值等於 0 或者 1。. 2.. 在任意時間點上，以局部極大值所連成的上包絡線(Upper Envelope)與以局部極小值所連成的下包絡線(Lower Envelope)，兩者的平均值為 0。. 其中第一個條件是為了訊號本身是否滿足窄頻(Narrow Band)的特性，即對於任意的固定時間內，訊號在不同頻率的增益或衰減情況需要為一個定值。第二個條件則是為了避免因波形不對稱而導致瞬時頻率產生不必要的振盪。圖 3.1 為一原始語音訊號與其分解後 6 個 IMF 範例。. 23.

(32) 原始訊號. 4. 5. x 10. 0 -5. 0. 200. 400. 600. 1000. 1200. 1400. 800. 1000. 1200. 1400. 800. 1000. 1200. 1400. 800. 1000. 1200. 1400. 800. 1000. 1200. 1400. 800. 1000. 1200. 1400. 800. 1000. 1200. 1400. IMF1. 4. 2. 800. x 10. 0 -2. 0. 200. 400. 600. IMF2. 4. 2. x 10. 0 -2. 0. 200. 400. 600. IMF3. 4. 1. x 10. 0 -1. 0. 200. 400. 600. IMF4 5000 0 -5000. 0. 200. 400. 600. IMF5 2000 0 -2000. 0. 200. 400. 600. IMF6 5000 0 -5000. 0. 200. 400. 600. time. 圖 3.1. 原始訊號與其 IMF. 3.3 三次仿樣函數(Cubic Spline) 在 EMD 分解訊號時，必須先計算訊號局部極大極小值，並且以包絡線 (Envelope)連成上包絡線與下包絡線。一般採用三次仿樣函數[31]來計算訊號極大或極小值連接成包絡線。三次仿樣函數是以一個三次方程式 G(x) 連接相鄰兩點如 ( xi , yi ) 、 ( xi 1 , yi 1 )，每兩個資料點之間就以一個三次方程式連接，則 G(x) 可 24.

(33) 以簡單表示成數學式(3-6)。.  g1 ( x),   g 2 ( x),  G ( x)   g3 ( x),    gi ( x), . x1  x  x2 x2  x  x3 x3  x  x4. (3-6). . . .. xi  x  xi 1. 數學式 (3-6) 中， gi (x) 為三次線性方程式並用以建構出相鄰兩點 ( xi , yi ) 與. ( xi 1 , yi 1 ) 之間平滑曲線，如圖 3.2。. 圖 3.2. 三次仿樣函數. 利用三次仿樣函數能找出訊號各個局部極大值所連成的上包絡線以及各個局部極小值所連成的下包絡線，如圖 3.3 所示。 25.

(34) 局部極大值. 局部極小值圖 3.3. 訊號之上下包絡線. 3.4 經驗模態分解法(EMD) EMD 將原訊號分解成有限個 IMF 與一個趨勢分量，這個過程稱之為篩選過程(Sifting Process)。篩選過程中，EMD 先找出整個訊號所有局部極大值以及局部極小值，並且利用三次仿樣函數將局部極大值連接成上包絡線 hup (t ) 以及將局部極小值連接成下包絡線 hlow (t ) 。取得上下包絡線後便能計算出均值包絡線 (Mean Envelope) hmean (t ) 如數學式(3-7)。. hmean (t ) . hup (t )  hlow (t ). (3-7). 2. 接著將訊號 x(t ) 減去 hmean1 (t ) 可得到一個分量 h1 (t ) ，如數學式(3-8)。. h1 (t )  x(t )  hmean1 (t ). (3-8). 若 h1 (t ) 滿足 IMF 的兩個條件則 h1 (t ) 即為 IMF1，但是這是理想上的情況。一般而. 26.

(35) 言， h1 (t ) 之上下包絡線均值往往並不為 0，無法滿足成為 IMF 的第二個條件。這是由於三次仿樣函數的特性造成的振盪。因此必須繼續對 h1 (t ) 重複(3-7)以及(3-8) 的動作直到找出滿足 IMF 條件之訊號分量，重複步驟如數學式(3-9)。. h11 (t )  h1 (t )  hmean11 (t )   h1k (t )  h1k 1 (t )  hmean1k (t ). (3-9). 數學式(3-9)中，將 h1 (t ) 當作原始訊號並計算其均值包絡線得到新的分量 h11(t ) ，若 h11(t ) 不滿足 IMF 條件則繼續，直到執行 k 次後找到 h1k (t ) 即為第一個本質模態函數 imf1 (t ) 。. imf1 (t )  h1k (t ). (3-10). 得到第一個 IMF 後，將原始訊號 x(t ) 減去 imf1 (t ) 即可將 IMF1 從原始訊號中分離出來。. x(t )  imf1 (t )  r1 (t ). (3-11). 公式(3-11)中， r1 (t ) 為原始訊號分離出 IMF1 後的殘餘訊號(Residue)，接著繼續利用 EMD 對 r1 (t ) 分解，即可得到其餘的本質模態函數。重複上述動作直到 rn (t ) 變成一個單調函數(Monotonic)即停止，如下所示。. r2 (t )  r1 (t )  imf 2 (t )   rn (t )  rn 1 (t )  imf n (t ). (3-12). 27.

(36) 在此將 EMD 的篩選過程簡單歸類成 5 個步驟： 1.. 找出訊號 x(t ) 所有局部極大值與局部極小值。. 2.. 利用三次仿樣函數，將局部極大值連接成上包絡線以及將局部極小值連接成下包絡線，利用上下包絡線計算出均值包絡線。. 3.. 將訊號減去均值包絡線，得到第一個分量並檢查是否滿足 IMF 條件。若是，則該分量即為 IMF;若否，則重複步驟 1 到步驟 3 直到滿足 IMF 定義。. 4.. 利用步驟 3 取得之 IMF 計算訊號殘餘分量。. 5.. 直到殘餘分量為一個單調函數(Monotonic)即停止演算法，否則繼續執行步驟 1 到步驟 4 找出其它本質模態函數與殘餘分量。. 當篩選過程結束後，我們可以將原始訊號 x(t ) 表示成 n 個 IMF 分量與一個趨勢分量的線性組合，如下數學式(3-13)。 n. x(t )   imfi  rn (t ). (3-13). i 1. 在實際實作 EMD 中，訊號所分離出的 hij (t ) 容易滿足 IMF 的第一個條件，但是要滿足 IMF 第二個條件則不容易達成，必須經過很長時間的重複計算才能達到。因此針對 IMF 第二個條件定義一個新的條件[10]，如下面公式(3-14)： T. SDik . h t 0. i ( k 1). (t )  hik (t ). 2. (3-14). T. h t 0. 2 i ( k 1). (t ). 28.

(37) 其中，分子部分即為均值包絡線之平方和。將 IMF 第二條件的均質設為 0~ SDik 之間的範圍，若分量均值在這範圍內，即滿足 IMF 第二個條件。通常為了節省計算時間，一般將 SDik 設為 0.2~0.3 之間。圖 3.4 為整個 EMD 流程圖。. 情緒語音訊號. 找出訊號所有局部極大值與局部極小值. 找出上下包絡線. 計算均值包絡線. EMD 分解訊號. 否. 滿足 IMF 條件. 是計算殘餘分量. 否是否為單調函數. 是結束. 圖 3.4. EMD 流程圖. 29.

(38) 3.5 經驗模態分解法結合情緒語音辨識所謂的聲音，簡單來說即是肺中氣體經由人體中的共鳴器官相互共鳴後，組合成頻率不同的聲音訊號。當共鳴器官的出力強度或者肺氣壓影響氣體出氣情況改變氣體受到共鳴器官共振的次數產生頻率不同的聲音訊號後，此時人類所聽到的聲音會因為頻率不同而有很大變化。而情緒語音也就是受到人類情緒影響導致聲音因為共鳴器官共振而產生不同頻率的語音訊號。因此同一個語者說的同一句話，由於不同情緒中所發出的聲音頻率不同，人耳所聽到的聲音也因此有所變化如圖 3.5。 EMD 的目的是將訊號分解成多個 IMF 方法，在包含情緒的語音訊號中，強化情緒的成份並且降低情緒以外的成份，接著將強化後的情緒語音訊號用於辨識上，期望提升情緒語音辨識率。由於 EMD 會分解出多個 IMF，每個 IMF 中或多或少都會含有情緒的成份，只是其中的非情緒的部份與情緒的部份比例不同，因此必須找出每個 IMF 的權重值，並且分別將權重值乘上 IMF 還原成強化情緒的語音訊號，其中權重值的大小即 IMF 訊號中含有情緒成分的多寡。如數學式 (3-15)。 n. X (t )   wi  imf i (t ). (3-15). i 1. 其中， imf i (t ) 為第 i 個 IMF， wi 為第 i 個權重值，X(t)為經由 EMD 分解並依照 wi 重新組合後的訊號。在本論文中， wi 之後會經由 PSO 求得最佳組合。. 30.

(39) Anxiety訊號. 4. 5. x 10. 0. 0. -5. -5. 0. 200. 400. 600. 1000. 1200. 1400. IMF1. 4. 2. 800. x 10. 0. 200. 400. 600. 800. 1000. 1200. 1400. -5. IMF2. x 10. 200. 400. 600. 0. 0 -5. 0. 200. 400. 600. x 10. 800. 1000. 1200. 1400. 1000. 1200. 1400. 1600. 1800. 200. 400. 600. 1200. 1400. 1600. 1800. 200. 400. 600. 800. 1000. 1200. 1400. 1600. 1800. 1200. 1400. 1600. 1800. 1200. 1400. 1600. 1800. 1200. 1400. 1600. 1800. 1200. 1400. 1600. 1800. IMF3. 0. 0 -5000. 200. 400. 600. 800. 1000. 1200. 1400. 0. 200. 400. 600. IMF4 2000. 0. 0 200. 400. 600. 800. 1000. IMF4. 5000. 0. 1000. IMF2. x 10. 0. 800. 5000. -1. 0. 0. IMF3. 4. -5000. 800. IMF1. x 10. 4. 5. -2. 1. 0. 0. 4. 2. x 10. 4. 5. 0 -2. Happiness訊號. 4. 5. 800. 1000. 1200. 1400. -2000. 0. 200. 400. 600. IMF5. 800. 1000. IMF5. 2000. 1000. 0. 0. -2000. -1000. 0. 200. 400. 600. 800. 1000. 1200. 1400. IMF6 1. 0. 0. -5000. -1. 200. 400. 600. 200. 400. 600. 800. 1000. 1200. 1400. time. x 10. 0. 800. 1000. IMF6. 4. 5000. 0. 0. 200. 400. 600. 800. 1000. time. 圖 3.5 同一語者同一語句於情緒 Anxiety 與情緒 Happiness 之訊號以及 IMF 比較. 由圖 3.5 可以明顯看出，即使是同一位語者說的同樣的語句，由於情緒的不同，其 IMF 分量也有所差異。以圖 3.5 為例，兩種情緒中的 IMF2、IMF3 以及 IMF4. 31.

(40) 差別最大，因此推測情緒落在 IMF2、IMF3 以及 IMF4 的可能性較大。然而，不同的情緒語音訊號的 IMF 波型不同，實際情況需要根據實驗得知。. 3.6 結合 EMD 與雷尼熵值(Renyi Entropy)之特徵值擷取方法 EMD 除了能將語音訊號拆解成多個 IMF，分析訊號的瞬時頻率以供訊號分析使用，還能透過每個 IMF 的能量計算出情緒語音的特徵值[15]。由於情緒語音訊號是氣體經由不同發聲器官共振所產生的訊號，而每個發聲器官所震動的氣體擁有的能量是不同的，最後通過聲帶組成的情緒語音訊號包含了主要語音訊號以及特定的情緒成份。結合 EMD 與雷尼熵值(EMD and Renyi Entropy, EMDRE)擷取情緒語音特徵值方法為一種能量分析法，使用 EMD 分解訊號取得 IMF，再利用雷尼熵值方法[16]計算所有 IMF 的平均能量分佈作為情緒語音訊號的特徵值，其作法必須先計算出每個 IMF 訊號的雷尼熵值 ERi ，如數學式(3-16)： ERik .  k  1 ln  [imfi (t )]q , k  1,..., n 1  q  t 1 . (3-16). 數學式(3-16)中，q 為次方值， ERik 為第 i 個 IMF 向量累加 k 個能量後取對數的雷尼熵值。接著計算第 i 個 IMF 的平均雷尼熵值當作特徵值向量，如數學式 (3-17)。而圖 3.6 則為 EMDRE 特徵值擷取方法的過程[15]。 ^. ER i . 1 n  ERik n k 1. (3-17). 32.

(41) imf1 (t ) ER1. imf 2 (t ). 語音音框. ER2. X[t],t=1,…,N. imf3 (t ). EMD. ER3. Avg. …....... imf n (t ) ERn. 圖 3.6. EMDRE 特徵值擷取方法過程[15]. 33. ERavg.

(42) 第四章情緒語音辨識平台當語音訊號經過訊號前置處理以及經驗模態分解之後，會獲得該語音訊號每個音框的特徵值。每個特徵值代表著訊號中每個音框的特性，而特徵值向量的維度，一般常用的範圍為 8~13 維度，在本論文中採用 12 維度的特徵值向量。將這些特徵值向量輸入到語音辨識平台後，經由辨識平台計算分析即能得到辨識結果。常用的情緒語音辨識平台多種方法，例如隱藏式馬可夫模型(HMM)、類神經網路(ANN)分析、支撐向量機(SVM)等。ANN 因為架構的關係，輸入的大小必須要固定，換句話說，即必須固定訊號之特徵值向量長度。所以需要對語音訊號做額外的處理獲得相同大小的輸入，例如：可變的音框重疊率等等。因此 ANN 的辨識率會受到語者說話速度以及時間長度的影響。而 HMM 並不需要固定輸入語音之特徵值向量長度，辨識率不會受到說話的快慢影響，因此 HMM 架構上比 ANN 更為彈性化。而當訓練資料龐大時，SVM 必須對訓練資料做層層分類，因此計算量大，相對於 HMM 來說更加耗時。因此，本論文中採用 HMM 作為辨識平台。由於 HMM 又分為連續型的隱藏式馬可夫模型 (Continuous Hidden Markov Model, CHMM)以及離散型的隱藏式馬可夫模型 (Discrete Hidden Markov Model, DHMM)[32]，隨後將分別介紹這兩種類型的 HMM，其中以 CHMM 為架構之 HTK 軟體，於國內外被廣泛使用。. 34.

(43) 4.1 隱藏式馬可夫模型(HMM) HMM 是情緒語音辨識上最常用的一套統計模型，HMM 中存在著有限個狀態，每個狀態都是隱藏著，而每個狀態都有幾種不同的觀察結果，這些觀察結果才是可以直接觀察的數據。對於情緒語音的訓練以及辨識，HMM 是一種狀態轉移的架構。一個 HMM 模型可以用來表現出語音性質，即一個 HMM 模型代表一種情緒類型。HMM 於情緒語音辨識之狀態轉移圖，如圖 4.1。. 圖 4.1. HMM 狀態轉移圖. 關於 HMM 的訓練與辨識，必須先得知每個狀態的各個觀察結果之機率以及各個狀態之間的轉移機率，並設定模型初始狀態機率皆由第一個狀態開始，如此方能開始進行訓練與辨識。因此下面先定義和介紹一些 HMM 的參數：   {A, B, } : HMM模型.   {i }, i  P(q1  si ), 1  i  N : 初使狀態機率向量 35.

(44) A  {aij }, aij  P(qt  s j | qt 1  si ) : 狀態轉移機率矩陣 B  {b j (k )}, b j (k )  P(ot  vk | qt  s j ) : 各狀態的輸出機率矩陣. O  {o1 , o2 , ..., oT } : 觀察結果序列 Q  {q1, q2 , ..., qT } : 隱藏狀態序列其中的觀察結果序列 O 即輸入 HMM 的音框特徵值，HMM 計算取得上述定義中 A、B、π 三種不同的機率集合，並且利用 A、B、π 以及觀察結果序列 O 計算 HMM 模型的機率 P(O|  )。由於語音訊號一個音框的特徵值即代表一個觀察結果 oi，且不同 HMM 模型代表著不同的情緒。當 HMM 將所有訓練情緒語料訓練完成並且計算出其 HMM 模型機率 P(O|  )，其機率 P(O|  )即表示此 HMM 模型為該情緒的機率。. 4.2 離散型隱藏式馬可夫模型(DHMM) 4.2.1 向量量化為了方便 DHMM 模型訓練以及辨識，須要先建立碼簿(Codebook)。碼簿主要是用來對音框特徵值向量進行向量量化[33]的動作。向量量化將特徵值向量分成有限的群(Group)，由於 DHMM 中每個狀態的觀察結果也是有限的集合，因此碼簿中的群可以對應到 DHMM 中的觀察結果序列，即表示每個音框之特徵值向量都對應到 DHMM 狀態中的一個觀察結果。向量量化會將音框特徵值向量進行分群，在本論文中採用一般常用的. 36.

(45) K-mean 分群法作為碼簿訓練的演算法，接著將 K-mean 演算法簡單分為 5 個步驟來介紹。 1.. 取得所有語音訓練樣本中的特徵值向量，並計算每個特徵值向量維度的最大值與最小值。. 2.. 初始化碼簿。根據分群的數量，隨機產生相同數量的特徵向量，這些特徵向量即代表各群的中心向量，而隨機產生的向量範圍則依據向量維度的最大值與最小值作為邊界。. 3.. 初始化碼簿後，音框的特徵值向量透過碼簿計算每個特徵值向量與各群的中心向量的距離，如數學式(4-1)。. d k (v ) . N.  (v i 1. i.  Vki ) 2 , 0  k  K. (4-1). 數學式(4-2)中，K 為群的總數， v  (v1 , v2 ,..., vN )T 為特徵值向量，N 為向量的維度， Vk  (Vk1 ,Vk 2 ,...,VkN )T 為第 k 群的中心向量， d k (v) 則為特徵值向量與各群中心向量的距離。計算出特徵值向量與所有中心向量之距離後，將特徵值向量歸類到最小距離的群。 4.. 重複步驟 1 到步驟 3，將所有特徵值向量進行分類。. 5.. 更新碼簿各群的中心向量。將分類至該群的所有特徵值向量值的總和除以分類至該群的特徵值向量總數，所得之新的向量取代該群舊的中心向量，如數學式(4-2)。. 37.

(46) Vk  '. 1 Nk   vkn N k n1. (4-2). 其中， N k 為分類至第 k 群中特徵值向量總數， vki , i  1,2,..., N k 為分類至第 k 群的 '. 特徵值向量， Vk 為第 k 群新的中心向量。重複上面 5 個步驟分類以及更新中心向量，直到碼簿中各群的中心向量收斂後，即表示碼簿已訓練完成。隨後即可根據碼簿對音框的特徵值向量做向量量化，所得之量化向量即為 DHMM 的觀察結果。. 4.2.2 DHMM 模型機率計算 DHMM 模型  最重要的參數為 A 、 B 、  三個機率集合，根據 A 、 B 、  可以計算出一個 DHMM 模型  產生一個觀察結果序列 O 的機率 P(O | ) ，其計算公式如下： P(O | )   P(O, Q | ) allQ. .  q1  bq1 (o1 )  aq1q 2  bq 2 (o2 )  aq 2q3   aqT 1qT  bqT (oT ). (4-3). q1, q 2 ,...,qT. 數學式(4-4)可以看出是由 A 、 B 、  三個機率集合計算出 DHMM 模型的一個觀察序列機率 P(O | ) ，但是由於其時間複雜度為 O( N T * T )，並且會用到 N T 個浮點數乘法和 N T  1 個浮點數加法，因此為了降低其時間複雜度，另外使用動態規劃的向前演算法(Forward Algorithm)以及定義向前變數(Forward Variable)如下：. t (i)  P(o1, o2 , ..., ot , qt  si |  ). (4-4). 起始. 38.

(47) 1 (i)   i  bi (o1 ), 1  i  N. (4-5). 遞迴運算 N. t 1 ( j )  [ t (i)  aij ]  b j (ot 1 ), 1  j  N , t  1, 2, ..., T  1. (4-6). i 1. 結束 N. P(O | )   T (i). (4-7). i 1. 式子(4-4)中的  為向前變數。演算法採用動態規劃的方法，大幅降低運算的複雜度，其時間複雜度為 O( N * T )。. 4.2.3 DHMM 模型訓練在介紹訓練方法之前，必須先定義一些變數來幫助說明： uij 標示由狀態si到狀態s j. ui  標示由狀態si出來. u j 標示進入狀態s j n(uij ) 由狀態si出來,然後進入狀態s j的次數. n(ui  ) 由狀態si出來的次數 n(u j ) 進入狀態s j的次數 n(u j , o  vk ) 進入狀態s j時產生觀察結果符號vk的次數. DHMM 模型的訓練先由維特比演算法(Viterbi Algorithm)[20]找出每筆輸入的語音訊號在 DHMM 模型中最佳狀態序列，並且根據維特比演算法所猜測的最. 39.

(48) 佳狀態和觀察序列統計 n(uij ) 、 n(ui  ) 、 n(u j ) 、 n(u j , o  vk ) 。當所有訓練語料皆統計完成後，重新估計 A、B、π 三個參數，並且以新的參數重新上述動作直到模型參數收斂為止。重新估計 A 與 B 參數的數學式如下：. a. n(uij ). (4-8). n(ui  ). b (k ) . n(u j , o  vk ). (4-9). n(u j ). 其中 a 與 b (k ) 分別為更新後的 A 與 B 參數。訓練完成後，根據 A、B、π 三個參數計算出所有 DHMM 模型之機率值，其機率值越大則表示目標語音越有可能為該模型所代表的情緒。圖 4.2 為 DHMM 模型訓練流程圖。. 初始化 DHMM 模型. 取得訓練語料特徵值. 維特比演算法. 統計狀態事件次數. 否完成所有語料. 是更新 HMM 參數. 否參數是否收斂. 是結束. 圖 4.2. DHMM 模型訓練流程圖 40.

(49) 4.3 HTK 軟體簡介在本論文中所採用的連續型 HMM 模型為 HTK 軟體[34]。HTK 是 Hidden Markov Model Toolkit 的簡稱，它是由英國劍橋大學工程系(Cambridge University Engineering Department, CUED)的機器智能實驗室(Machine Intelligence Lab)所開發的免費語音訓練以及辨識軟體。與一般 DHMM 不同的是，狀態輸出機率矩陣 B 是採用高斯混合模型(Gaussian Mixture Model, GMM)來表示，如數學式(4-10)。 M. b j (ot )   c jm N (ot ;  jm , jm ). (4-10). m1. 其中， b j (ot ) 為狀態 j 中觀察結果 ot 的輸出值等於 M 個高斯常態分佈(Gaussian Distribution)函數的線性組合， N (ot ;  jm , jm ) 為高斯常態分佈函數， c jm 為狀態 j 第 m 個高斯常態分佈的權重值(Weight)，  jm 為狀態 j 第 m 個高斯常態分佈的中心向量 (Mean Vector) ，  jm 為狀態 j 第 m 個高斯常態分佈的共變異數 (Covariance)。數學式(4-11)為高斯常態分佈函數。. N (o ;  ,  ) . 1 (2 ) n |  |. e. 1  ( o   ) T  1 ( o   ) 2. (4-11). GMM 是將原本離散數值的觀察結果以不同的高斯常態分佈表示。一般而言，當訓練語料越多，其辨識率會比 DHMM 好，但是訓練時間也會增加。由於 HTK 軟體操作容易且公信力高，所以目前在國內外關於語音的研究或開發大部分以 HTK 為主流。. 41.

(50) 4.4 HMM 辨識系統結合 EMD 方法為了提高情緒語音的辨識率，本論文於語音訊號的前置處理除了 MFCC 語音特徵值擷取方法另外加入了 EMD 方法，透過 EMD 將語音訊號分解並且透過權重值將 IMF 組合成新的訊號，使得新的語音訊號含有更多的情緒成份。最後，將新的語音訊號使用 MFCC 擷取出語音的特徵值向量，並且將這些特徵值向量輸入到 HMM 模型做訓練以及辨識。但是 EMD 處理中，每個 IMF 分量所包含的情緒比例不同，為了找到最佳的 IMF 參數組合，以強化情緒語音訊號，使用演化式計算去訓練每個 IMF 的權重值參數，提高情緒語音的辨識率。. 輸入語音. MFCC. 端點偵測. 碼簿訓練. EMD+EC. DHMM. 預強調&漢明窗. 辨識結果. FFT 圖 4.3. DHMM 語音辨識處理過程. 圖 4.3 為 DHMM 語音辨識處理過程，語音訊號會分別經過端點偵測、EMD、演化式計算(EC)、預強調、漢明窗、FFT 以及 MFCC 等訊號的前置處理，接著. 42.

(51) 訓練碼簿做向量量化，並且輸入到 DHMM 模型，最後得到情緒語音辨識結果。橙色部分為本論文所提出之方法用以強化情緒語音訊號，綠色部分則是與 HTK 不同的部份。. 輸入語音. 端點偵測. EMD+EC. HTK. 辨識結果. 圖 4.4. HTK 語音辨識處理過程. 本論文另外實作以 HTK 軟體來辨識情緒語音訊號。圖 4.4 為 HTK 語音辨識處理過程，綠色部分與 DHMM 處理過程不同點在於沒有碼簿的訓練，同樣經過橙色部分本論文所提出之方法 EMD 和 EC，取得特徵值再經由 HTK 軟體做訓練以及辨識，最後取得辨識結果。. 43.

(52) 第五章演化式計算本論文的主要目標是以經驗模態函數(EMD)分解情緒語音訊號，並且以不同的本質模態函數(IMF)之權重值組合重新組合成新的情緒語音訊號，達到類似於過濾訊號的效果，強化情緒語音訊號，幫助梅爾倒頻譜參數(MFCC)能取得更準確的情緒語音訊號之特徵值，提高情緒語音之辨識率。其中，如何取得各個 IMF 之權重值部分，我們採用演化式計算來找出各個 IMF 之最佳的權重值組合。在本章節中，將會介紹實驗中所採用的三種一般常見的演化式計算演算法，分別是基因演算法(GA)[35]、粒子群演算法(PSO)[36]以及差分演算法(DE)[37]。. 5.1 基因演算法(GA) 基因演算法是根據達爾文所提出的「物競天擇，適者生存」自然進化法則，以模擬生物於自然界進化的過程中，經由生物競爭以及天擇淘汰後，生存下來的物種繁衍下一代，如此經過一代又一代，最後所存活的物種即為最能適應該自然環境生存的物種。在基因演算法的過程中，每個染色體(Chromosome)中的基因 (Gene)分別對應到各個 IMF 之權重值，不同染色體就代表著不同的權重值組合，每一代的所有染色體都會經過選擇、交配、突變三個步驟，接著計算適應函數 (Fitness Function)，適應函數代表著每個染色體的情緒語音辨識率，如此反覆，直到達到固定演化代數或者得到一個可接受的結果時才結束，此時得到的最佳適應函數所對應的染色體，即為所求的 IMF 之最佳權重值組合。圖 5.1 為 GA 演算法流程圖。. 44.

(53) 初始化染色體. 計算適應函數. 是結束. 達到終止條件否選擇. 交配. 突變. 圖 5.1 GA 演算法流程圖. 5.1.1 選擇在自然界中，物種會發生同類競爭，競爭的理由可能為了食物，可能為了領域，可能為了求偶，生存下來的物種為該環境中最優秀的物種，換句話說就是對於該環境適應性最好的物種。在基因演算法中，根據競爭結果挑選優秀的染色體以進行交配產生子代，這個挑選的過程稱為選擇(Selection)。一般常用的選擇方法為輪盤法(Roulette Wheel Selection)。輪盤法是根據各個染色體的適應函數來做選擇，適應函數值越高，被選擇的機率也越大，所有的染色體被選擇的機率和為 1。染色體被選擇的機率公式如下： pi . fi. (5-1). N.  j 1. fj. 45.

(54) 其中 pi 為第 i 個染色體被選擇的機率， f i 為第 i 個染色體的適應函數，N 為總染色體數。每一代都需要重新計算一次 pi 。所以輪盤法的做法就像是一個輪盤，只是上面的格子大小比例是依據被選擇機率來決定，因此輪盤中有的格子大有的格子小。. 5.1.2 交配在染色體選擇過後，將挑選得到的一對染色體進行交配(Crossover)並且產生新的優秀子代。由於 IMF 之權重值為 0~1 之間之實數，因此我們採用實數型的交配方式。實數型的交配方法是將一對染色體以線性組合的方式進行交配，其實數交配公式如下： genc    geni  (1   )  gen j. (5-2). 在公式(5-2)中， genc 為兩個不同染色體 geni 和 gen j 交配後之子代染色體，  為 0~1 之間的實數常數，以亂數取之。. 5.1.3 突變突變是自然界中物種演化的法則之一，突變的結果有好有壞。而在基因演算法之中加入突變機制，目的在於能避免區域最佳解的問題發生。一般而言，演算法會對最佳的染色體以外的染色體執行突變的計算，這是為了要保留最佳的染色體。因此，在基因演算法中會設置一個突變率的指標，染色體會經由突變率計算該染色體是否發生突變，而突變率的大小對於基因演算法收斂速度有所影響，但是設定太高或太低的突變率容易發生陷入區域最佳解的問題。在本論文中，實數型染色體突變的方法為檢查染色體中的每個基因是否發生突變，若發生突變，則該實數基因隨機產生一個在 0~1 範圍內之實數取代原來的基因，若沒發生突變，則該基因不變。. 46.

(55) 5.2 粒子群演算法(PSO) 粒子群演算法(PSO)是由 James Kennedy 與 Russell Eberhart 兩位學者於 1995 年所提出，其想法來源於觀察鳥群覓食行為來解決最佳化問題。每隻鳥會根據自己的覓食經驗以及同伴所傳遞的消息來調整自身的位置，逐步的移動到最佳覓食地點。而 PSO 就是模擬這種覓食行為，以粒子(Particle)來代表鳥群中的一個個體，每個粒子皆是獨立搜尋空間中的最佳解。粒子擁有記憶性，用以記錄自己所搜尋到的最佳解(pbest)以及群體所找到的最佳解(gbest)，每次搜尋都會改變 pbest 以及 gbest。另外，粒子還擁有學習性，根據 pbest 以及 gbest 來取得粒子的速度，用以調整粒子的搜尋方向並且朝問題空間的最佳解位置移動。. PSO 演算法的做法如下： 1.. 初始化粒子群，隨機產生每個粒子的初始位置以及速度，即初始化 IMF 之權重值。. 2.. 計算每個粒子的適應函數，即情緒語音之辨識率。. 3.. 每個粒子的適應函數會與自身記錄的最佳適應函數比較並且修正自身最佳適應函數。. 4.. 每個粒子的適應函數會與群體的最佳適應函數比較並且修正群體最佳適應函數。. 5.. 根據下面公式改變粒子的位置和速度，. veli  w  veli  c1  rand ()  ( pbesti  particle i )  c2  rand ()  ( gbest  particle i ). particlei  particlei  veli. (5-3) (5-4). 在數學式(5-3)與(5-4)中， veli 為第 i 個粒子的速度，w 為慣性權重， c1 和 c2 為學習因子，rand()為 0~1 之間的隨機亂數， pbesti 為第 i 個粒子個體的最佳適應函數值，gbest 為粒子群的群體最佳適應函數值， particle i 為第 i 個粒子的位置。 47.

(56) 6.. 若達到固定代數或者得到一個適合的結果，則停止 PSO，否則跳回步驟 2。圖 5.2 為 PSO 演算法流程圖。. 初始化粒子位置與速度. 計算所有粒子適應函數. 更新個體最佳適應函數 pbest 與群體最佳適應函數 gbest. 更新所有粒子位置與速度. 否達到終止條件是結束. 圖 5.2. PSO 演算法流程圖. 5.3 差分演算法(DE) 差分演算法(Differential Evolution, DE)為 Storn 和 Price 所提出的最佳化演算法，並證明其求解的優越性，成為目前熱門的最佳化演算法之一。DE 的主要以數學概念為基礎，透過代理向量 Xi (Agent Vector)， i  0,1,2,..., N  1，搜尋整個問題空間找出最佳解。其 DE 做法如下： 1.. 初始化 Xi。. 2.. 計算 Xi 的適應函數值。. 3.. 從 N 個代理向量中隨機抽取三個不同的代理向量 Xr1、Xr2 和 Xr3，根據數學. 48.

(57) 式(5-5)組合成合成向量 V (Donor Vector)。. V  X r1  F  ( X r 2  X r 3 ). (5-5). 其中 F 為大於 0 之實數，用以控制差分變異 ( X r 2  X r 3 ) 的放大作用。 4.. 將 Xi 與 V 做線性交配得到試驗向量 i (Trial Vector)。. 5.. 計算 i 之適應函數值。. 6.. 比較 Xi 與 i 之適應函數值，適應函數值較佳的即做為新的 Xi。. 7.. 若達到固定代數或者得到一個適合的結果，則停止 DE，否則跳回步驟 2。圖 5.3 為 DE 演算法流程圖。. 初始化代理向量. 計算代理向量適應函數. 計算合成向量. 交配後取得試驗向量. 更新代理向量. 否. 是達到終止條件. 圖 5.3. DE 演算法流程圖. 49. 結束.

(58) 第六章實驗結果與討論本論文的目的在於結合經驗模態分解法(EMD)與梅爾倒頻譜參數(MFCC)，以 EMD 強化情緒語音訊號的情緒部分的特性，降低情緒以外成份的影響，幫助 MFCC 擷取更佳的特徵值，期望改善情緒語音訊號的辨識率。其過程中各個本質模態函數(IMF)之權重值 wi 則由最佳化演算法計算出最佳的組合。. 6.1 情緒語音資料庫本論文實驗中所採用的資料庫為 Berlin emotion database [24]和 eNTERFACE 2005 emotion database [25]兩套常見免費的情緒語音資料庫做為訓練語料以及辨識語料。 Berlin emotion database 中的情緒語音是由 10 位德國專業演員(5 男 5 女)所錄製而成，並且以憤怒、快樂、悲傷、焦慮、厭惡、無聊與中性等 7 種情緒分別表達 10 句德文的語句，其資料庫內容如表 6.1。資料庫中的語音資料，因為每種情緒的語料數量不同，例如憤怒的情緒語料有 127 筆，但是厭惡的情緒語料卻只有 45 筆，差異很大。在本論文實驗中，Berlin 資料庫會選取 10 組不同的實驗語料組合進行實驗，且為了每種情緒都能有足夠的訓練語料進行訓練，每組實驗語料會包含 7 種情緒語料，每種情緒有 40 筆訓練語料以及 20 筆測試語料進行實驗，最後取 7 種情緒的平均辨識率當作一組實驗語料的實驗結果。語音前置處理方面，Berlin 資料庫語音資料的格式為取樣頻率 16 kHz、16bits、單聲道的 wav 格. 50.

(59) 式，音框取樣點為 256，採用 12 維的梅爾倒頻譜參數。. 表 6.1. Berlin 情緒資料庫內容. 資料庫. Berlin emotion database. 語言. 德語. 語者. 5男5女. 語句數量. 10 句. 情緒數量. 7種. eNTERFACE 情緒資料庫總共有 44 個非演員語者所錄製而成，內容包含憤怒、厭惡、恐懼、開心、悲傷以及驚訝六種情緒，共 1295 個 avi 影音檔，其資料庫內容如表 6.2。表 6.2. eNTERFACE 情緒資料庫內容. 資料庫. eNTERFACE emotion database. 語言. 英語. 語者. 35 男 9 女. 情緒數量. 6種. eNTERFACE 情緒資料庫提供 avi 影音檔給使用者應用於影片、聲音以及影音的. 51.

(60) 情緒辨識，而本論文以語音辨識為主，只需要使用聲音的部份，因此先將 avi 的影音檔透過 Im TOO 3GP Video Converter 軟體[38]轉成 wav 檔案，只取影音檔中聲音的部份供實驗使用。在語料部分，eNTERFACE 資料庫會選取 10 組不同的實驗語料組合進行實驗，每組實驗語料會包含 6 種情緒語料，每種情緒有 40 筆訓練語料以及 20 筆測試語料進行實驗，最後取 6 種情緒的平均辨識率當作一組實驗語料的實驗結果。在語音前置處理部分，語音格式為取樣頻率 8 kHz、16bits、單聲道的 wav 格式，音框取樣點為 256，採用 12 維的梅爾倒頻譜參數。兩種情緒語音資料庫在本論文實驗中，主要採用離散型隱藏式馬可夫模型 (DHMM)架構，DHMM 設定為 64 個可觀察結果，10 個隱藏狀態，且初始狀態設為狀態 0，狀態轉移時可跳至本身、下一個狀態或者下兩個狀態。. 6.2 實驗結果本論文共實作四組特徵值計算方法的實驗比較，其中實驗 1~3 採用 DHMM 進行實驗語料訓練及辨識，而實驗 4 則是採用 CHMM 架構的 HTK 軟體進行實驗語料的訓練及辨識。實驗1.. EMD+MFCC 與 MFCC 方法比較. 此實驗是根據圖 3.5 不同情緒之 IMF 波形圖，可以明顯看出圖中 IMF2、IMF3、 IMF4 之波形明顯不同，情緒的成份會集中於波型不同的 IMF 可能性較大。由於不同實驗語料分解出來的 IMF 波型不同，因此挑選幾種不同的 IMF 權重值組合，. 52.

(61) 重新組合成新的語音訊號後，再由 MFCC 計算情緒語音訊號之特徵值，比較有加入 EMD 與未加入 EMD 方法的辨識率。. 表 6.3. 1 2 3 4 5 6 7 8 9 10 avg.. 以 Berlin 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較. MFCC 57.14 56.43 55.71 47.86 66.43 47.14 39.29 64.29 69.29 65.71 56.93. IMF1+2+3 IMF2+3+4 55.00 52.14 52.86 57.59 55.71 61.43 40.71 48.57 61.43 60.71 42.86 47.14 34.29 41.43 60.71 60.00 62.14 55.00 62.86 67.86 52.86 55.19. IMF1+2 IMF2+3+4+5 54.29 56.43 58.57 52.14 54.29 60.00 42.14 49.29 63.57 62.86 45.00 50.00 41.43 40.00 58.57 56.43 65.00 65.71 60.00 65.00 54.29 55.79. 表 6.3 為以 Berlin 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較，紅色部分代表每組實驗語料組合中最高平均辨識率。其中 EMD+MFCC 方法部分以 IMF2+IMF3+IMF4+IMF5 的 IMF 權重值組合之總平均辨識率最高，但是卻低於 MFCC 方法。. 53.