• 沒有找到結果。

所謂的情緒為人類受到外界環境或者自我思想的影響所產生的一種生理或 心理的複雜反應現象。在日常生活中,情緒在人與人之間的溝通扮演著非常重要 的角色,人們透過情緒反應,可以明確知道對方所要表示的意圖。舉例來說,喜、

怒、哀、樂四種情緒於人與人之間最常出現,像是生氣的時候,講話語氣會變得 特別大聲,行動會顯得暴躁或動作過大;悲傷的時候,講話之間會穿插哭泣的聲 音,身體會產生輕微顫抖等等。此外,情緒也能反應出身心健康。而人類表達情 緒的方式莫過於說話、肢體動作、書寫等等,其中說話是最直接也是最方便。因 此,近年來情緒語音[1-4]相關的研究是越來越熱門。

1.1 相關研究介紹

在情緒語音辨識上,常用的辨識平台有很多種。舉例來說,有類神經網路 (Neural Network, NN)[5-6],支撐向量機(Support Vector Machine, SVM)[7],高斯 混 合 模型(Gaussian Mixture Model, GMM)[8]以及隱藏式馬可夫模型 (Hidden

Markov Model, HMM)[9]。其中,HMM 以統計方式辨識語音訊號,可以多層建 構,不受語音長度影響,並且擁有自我學習的功能,因此被廣泛應用於情於語音 辨識上。

經驗模態分解法(Empirical Mode Decomposition, EMD)[10]是黃鍔博士(Dr.

Norden Huang)於 1998 年所提出的分析方法。由於 EMD 將訊號分解成多個本質

模態函數的特性,國內外學者或研究人員對於 EMD 進行許多研究,並且廣泛應 用到不同領域中,如語音訊號[11-12]、生醫訊號[13]、地震訊號[14]以及語音特 徵值擷取[15]等等。在特徵值擷取方面,EMD 將語音訊號分解出多個本質模態 函數,接著使用雷尼熵值(Renyi Entropy)[16]計算各個 IMF 的能量,屬於一種頻 譜能量計算的特徵值擷取方式。而在本論文中,EMD 用來強化情緒語音訊號,

達到訊號過濾的效果,幫助 MFCC 能擷取到更為強健的情緒語音特徵值,讓特 徵值更能表現出情緒語音的特性,以提升情緒語音之辨識率。

演化式計算(Evolutional Computation, EC)是用來找出問題的最佳解並且解決 問題,演化式計算的應用領域非常廣泛,常見的演化式計算有基因演算法(Genetic

Algorithm, GA)[17-18]、粒子群演算法(Particle Swarm Optimization, PSO)[19-20]、

差分演算法(Differential Evolution, DE)[21-22]等等,這些都是目前演化式計算普 遍被使用且效果最好的演算法。本論文應用演化式計算來訓練各個 IMF 之權重 值,以期望得到最佳 IMF 的加權和,並透過梅爾倒頻譜參數(Mel-Scale Frequency Cepstral Coefficients, MFCC)的計算得到最能辨識各個情緒的特徵值。

1.2 情緒語音資料庫介紹

由於情緒語音之辨識率與其所使用的資料庫息息相關,資料庫中的情緒語音 自然程度越高情且情緒表達越明確,辨識率也會提高。而目前現有的情緒語音資 料庫類型相當多,每個情緒資料庫的特色都不一樣,例如語言的不同、情緒的不

同以及語者所表達的情緒明確程度不同等等。因此,情緒語音資料庫對於情緒語 音辨識而言是一個重要的課題之一[23]。圖 1.1 為常見的情緒語音資料庫[23],可 以明確看出每個資料庫所包含的語者、語言以及情緒等內容,並且依照資料庫語 者來源為演員或非演員分成兩大類。大部分的資料庫都是私人且需要付費的,而 本 論 文實 驗採用 Berlin emotion database [24] 和 eNTERFACE 2005 emotion database [25]兩種公開且免費的情緒語音資料庫。

圖 1.1 常見的情緒語音資料庫[23]

1.3 研究動機

本論文的主要目的是在於提升情緒語音辨識率。由於情緒在人與人之間的溝 通扮演著非常重要的角色,其中說話是最常用的表達方式之一。雖然每個人所講 的話是同一種情緒,但是情緒的強烈程度、語音頻率以及能量強度並不相同,以 至於現今的情緒語音辨識率普遍不高。因此,如何提升情緒語音辨識率在情緒語 音研究中是一個重要的課題之一。

在情緒語音特徵值擷取部份, L. He 等人[15]結合 EMD 和雷尼熵值(EMD and Renyi Entropy, EMDRE)以及結合等效矩形頻寬分類法(Equivalent Rectangular Bandwidth, ERB) 與 各 相 異 性 過 濾 法 (Anisotropic Filtering) 計 算 頻 譜 能 量 (ERBAF) ,即 利 用 頻譜 能 量 計 算語 音 特徵值 , 因 此 容易 失 去 語音 信 號 時 域 (Time-Domain)的特性。而在本論文中採用強化情緒語音訊號的方式,強化情緒 語音的特徵值,提升情緒語音辨識率。其想法來源於一般語音的抗雜訊處理,並 應用於情緒語音上,達到強化情緒語音的目的。因此,使用 EMD 分解語音訊號 成多個 IMF,並且結合演化式計算找出最佳的權重值參數組合成新的語音訊號。

而新的語音訊號即強化後的情緒語音訊號,幫助 MFCC 取得強化的情緒語音特 徵值,改善情緒語音的辨識率。

1.4 研究方法

辨識語音訊號首先最重要的事是要找出訊號的特徵值,特徵值能幫助語音訊

號更容易進行訊號分析以及語音辨識。而不同的辨識平台,因為運算方法不同或 者架構上的區別,導致辨識率有所差異。因此在本論文中,情緒語音訊號的分析 將拆成兩個部份分別討論,第一個部份為語音訊號的前置處理,另一個部份則是 語音的辨識平台。

訊號前置處理是為了取得語音訊號的特徵值,在本論文中採用結合 EMD 和 演化式計算強化語音訊號,將情緒成份從原始訊號中分離出來,過濾其它成份的 影響。接著透過根據人類聽覺特性之 MFCC 擷取語音訊號的特徵值,使前置處 理完成後所取得的特徵值更能符合人耳聽覺特性。而在語音辨識平台,本論文採 用離散型隱藏馬可夫模型(Discrete Hidden Markov Model, DHMM)以及 HTK 軟體 兩種不同類型的 HMM 作為辨識平台,DHMM 用來比較本論文所提出的結合演 化式計算、EMD 和 MFCC 特徵值擷取方法、EMDRE、 ERBAF [15]的差別。而

HTK 則是目前許多研究或相關實驗最常使用的軟體之一,因為 HTK 的公信力 高,操作容易,又 HTK 採用連續型隱藏式馬可夫模型(Continue Hidden Markov

Model, CHMM)為主要架構,在擁有足夠的訓練語料時,HTK 會比 DHMM 擁有 更佳的語音辨識率。因此以 HTK 軟體實作所提出的方法,並驗證此方法應用在 不同 HMM 架構的可行性。

相關文件