緒論 - 經驗模態分解法應用在情緒語音特徵值之計算

所謂的情緒為人類受到外界環境或者自我思想的影響所產生的一種生理或心理的複雜反應現象。在日常生活中，情緒在人與人之間的溝通扮演著非常重要的角色，人們透過情緒反應，可以明確知道對方所要表示的意圖。舉例來說，喜、

怒、哀、樂四種情緒於人與人之間最常出現，像是生氣的時候，講話語氣會變得特別大聲，行動會顯得暴躁或動作過大;悲傷的時候，講話之間會穿插哭泣的聲音，身體會產生輕微顫抖等等。此外，情緒也能反應出身心健康。而人類表達情緒的方式莫過於說話、肢體動作、書寫等等，其中說話是最直接也是最方便。因此，近年來情緒語音[1-4]相關的研究是越來越熱門。

1.1 相關研究介紹

在情緒語音辨識上，常用的辨識平台有很多種。舉例來說，有類神經網路 (Neural Network, NN)[5-6]，支撐向量機(Support Vector Machine, SVM)[7]，高斯混合模型(Gaussian Mixture Model, GMM)[8]以及隱藏式馬可夫模型 (Hidden

Markov Model, HMM)[9]。其中，HMM 以統計方式辨識語音訊號，可以多層建構，不受語音長度影響，並且擁有自我學習的功能，因此被廣泛應用於情於語音辨識上。

經驗模態分解法(Empirical Mode Decomposition, EMD)[10]是黃鍔博士(Dr.

Norden Huang)於 1998 年所提出的分析方法。由於 EMD 將訊號分解成多個本質

模態函數的特性，國內外學者或研究人員對於 EMD 進行許多研究，並且廣泛應用到不同領域中，如語音訊號[11-12]、生醫訊號[13]、地震訊號[14]以及語音特徵值擷取[15]等等。在特徵值擷取方面，EMD 將語音訊號分解出多個本質模態函數，接著使用雷尼熵值(Renyi Entropy)[16]計算各個 IMF 的能量，屬於一種頻譜能量計算的特徵值擷取方式。而在本論文中，EMD 用來強化情緒語音訊號，

達到訊號過濾的效果，幫助 MFCC 能擷取到更為強健的情緒語音特徵值，讓特徵值更能表現出情緒語音的特性，以提升情緒語音之辨識率。

演化式計算(Evolutional Computation, EC)是用來找出問題的最佳解並且解決問題，演化式計算的應用領域非常廣泛，常見的演化式計算有基因演算法(Genetic

Algorithm, GA)[17-18]、粒子群演算法(Particle Swarm Optimization, PSO)[19-20]、

差分演算法(Differential Evolution, DE)[21-22]等等，這些都是目前演化式計算普遍被使用且效果最好的演算法。本論文應用演化式計算來訓練各個 IMF 之權重值，以期望得到最佳 IMF 的加權和，並透過梅爾倒頻譜參數(Mel-Scale Frequency Cepstral Coefficients, MFCC)的計算得到最能辨識各個情緒的特徵值。

1.2 情緒語音資料庫介紹

由於情緒語音之辨識率與其所使用的資料庫息息相關，資料庫中的情緒語音自然程度越高情且情緒表達越明確，辨識率也會提高。而目前現有的情緒語音資料庫類型相當多，每個情緒資料庫的特色都不一樣，例如語言的不同、情緒的不

同以及語者所表達的情緒明確程度不同等等。因此，情緒語音資料庫對於情緒語音辨識而言是一個重要的課題之一[23]。圖 1.1 為常見的情緒語音資料庫[23]，可以明確看出每個資料庫所包含的語者、語言以及情緒等內容，並且依照資料庫語者來源為演員或非演員分成兩大類。大部分的資料庫都是私人且需要付費的，而本論文實驗採用 Berlin emotion database [24] 和 eNTERFACE 2005 emotion database [25]兩種公開且免費的情緒語音資料庫。

圖 1.1 常見的情緒語音資料庫[23]

1.3 研究動機

本論文的主要目的是在於提升情緒語音辨識率。由於情緒在人與人之間的溝通扮演著非常重要的角色，其中說話是最常用的表達方式之一。雖然每個人所講的話是同一種情緒，但是情緒的強烈程度、語音頻率以及能量強度並不相同，以至於現今的情緒語音辨識率普遍不高。因此，如何提升情緒語音辨識率在情緒語音研究中是一個重要的課題之一。

在情緒語音特徵值擷取部份， L. He 等人[15]結合 EMD 和雷尼熵值(EMD and Renyi Entropy, EMDRE)以及結合等效矩形頻寬分類法(Equivalent Rectangular Bandwidth, ERB) 與各相異性過濾法 (Anisotropic Filtering) 計算頻譜能量 (ERBAF) ，即利用頻譜能量計算語音特徵值，因此容易失去語音信號時域 (Time-Domain)的特性。而在本論文中採用強化情緒語音訊號的方式，強化情緒語音的特徵值，提升情緒語音辨識率。其想法來源於一般語音的抗雜訊處理，並應用於情緒語音上，達到強化情緒語音的目的。因此，使用 EMD 分解語音訊號成多個 IMF，並且結合演化式計算找出最佳的權重值參數組合成新的語音訊號。

而新的語音訊號即強化後的情緒語音訊號，幫助 MFCC 取得強化的情緒語音特徵值，改善情緒語音的辨識率。

1.4 研究方法

辨識語音訊號首先最重要的事是要找出訊號的特徵值，特徵值能幫助語音訊

號更容易進行訊號分析以及語音辨識。而不同的辨識平台，因為運算方法不同或者架構上的區別，導致辨識率有所差異。因此在本論文中，情緒語音訊號的分析將拆成兩個部份分別討論，第一個部份為語音訊號的前置處理，另一個部份則是語音的辨識平台。

訊號前置處理是為了取得語音訊號的特徵值，在本論文中採用結合 EMD 和演化式計算強化語音訊號，將情緒成份從原始訊號中分離出來，過濾其它成份的影響。接著透過根據人類聽覺特性之 MFCC 擷取語音訊號的特徵值，使前置處理完成後所取得的特徵值更能符合人耳聽覺特性。而在語音辨識平台，本論文採用離散型隱藏馬可夫模型(Discrete Hidden Markov Model, DHMM)以及 HTK 軟體兩種不同類型的 HMM 作為辨識平台，DHMM 用來比較本論文所提出的結合演化式計算、EMD 和 MFCC 特徵值擷取方法、EMDRE、 ERBAF [15]的差別。而

HTK 則是目前許多研究或相關實驗最常使用的軟體之一，因為 HTK 的公信力高，操作容易，又 HTK 採用連續型隱藏式馬可夫模型(Continue Hidden Markov

Model, CHMM)為主要架構，在擁有足夠的訓練語料時，HTK 會比 DHMM 擁有更佳的語音辨識率。因此以 HTK 軟體實作所提出的方法，並驗證此方法應用在不同 HMM 架構的可行性。

在文檔中經驗模態分解法應用在情緒語音特徵值之計算 (頁 9-14)