文獻回顧

第一章導論

1.2 文獻回顧

Picard[51]於 1998 年針對＂Affective Computing＂提出了幾個重要的議題與方向，從電腦辨識之人類情感模型、電腦輔助學習、藝術、

娛樂、健康以及人機互動等方向上提出建議與看法，Pantic and Rothkrantz [46]於 2003 年發表的文章中，說明了情緒辨識在人機介面上的重要性以及利用多個不同的感知方式來辨識情緒，Cowie et al.[14]

描述了在表達情緒時，語音與臉部表情的情緒特徵與反應，以及在特定的情緒觸發條件下，語音特徵與特定情緒反應之間的對應關係，

Scherer[55]針對 2003 年語音情緒辨識的研究現況做回顧，並對語音

辨識研究之未來方向所討論與建議。目前，自動化情緒辨識方法與系統開發已成為人機情感介面上重要的研究主題之一，對於情緒辨識的研究，目前仍處於發展的階段，相關的研究主題主要分為幾個部分：

1.語音情緒辨識(Speech Emotion Recognition)

2.臉部影像情緒辨識(Facial Image Emotion Recognition)

3.語音臉部影像雙模情緒辨識(Audio-Visual Emotion Recognition) 4.人機互動(Human Machine Interaction)

首先，在語音情緒辨識上，Banse and Scherer[3]針對口語上，情緒所表現之語音特徵做深入探討及研究，Cowie and Cornelius[15]則是描述語音特徵與情緒狀態之間的關連性。由於語音情緒在辨識上，需要以各情緒之語料建置辨識分類所需之資料庫，因此，在語料庫的建置上，Douglas-Cowie et al.[18]建立了 100 個人之情緒資料庫，內容同時包含聲音與影像兩個部分， Schiel et al.[56] 利用自行開發的 SmartKom 設備，錄製具有聲音、影像以及觸覺輸入的情緒資料庫，

Makarova and Petrushin[38]建置了包含 61 個人五種情緒之俄羅斯語情緒資料庫 RUSLANA，Burkhardt et al.[4] 建置了包含 10 個人 800 個語句之德語情緒資料庫 EMO-DB，Wu et al.[68]則是建置了 68 個人 10 個句子 5 種情緒之華語情緒資料庫 MASC (Mandarin Affective Speech Corpus)，Johnstone [30]利用互動遊戲來當作情緒觸發的機

制，並記錄當時之語音情緒反應，以此為語音情緒語料庫，Schuller et al.[59] 於 2009 年將目前研究語音情緒的九種語料(ABC, AVIC, DES, EMO-DB, eNTERFACE,SAL, SmartKom, SUSAS, and VAM)作連結，

並轉換到 Valence-Arousal 空間中加以探討。

在語音情緒辨識之研究上，Scherer[54]從九種不同國家之語料中，探討不同文化及語系之間情緒的表達方式是否有所差異，Montero et al.[41]以西班牙語建立語音情緒之模型並進行分析，Petrushin[49, 50] 使用 23 個人 700 個五種不同情緒之語料，以音高、第一、第二共振峰、能量、以及講話速度為特徵參數，進行不同分類器之辨識實驗，並作為情緒辨識代理人系統以及 Call Centers 之開發應用，Ang et al.[2] 利用語音訊號中之語調、語音模型以及講話者的講話方式，來辨識憤怒與沮喪情緒，Chuang and Wu[11]利用語調及語意，並透過 PCA(Principle Component Analysis)與 SVM 來辨識說話者的情緒狀態，Wu et al.[66]使用語意標示以及 Separable Mixture Models 來辨識語音訊號中的情緒反應，Kwon、Schuller et al.、New et al.、Lee et al.、

Jiang and Cai 以及 Lin and Wei[33, 58, 44, 35, 29, 36]使用隱藏式馬可夫模型(Hidden Markov Model, HMM)並以語調相關特徵來進行語音辨識情緒，Fragopanagos and Taylor、Busso et al.以及 Iliou et al.[21, 5, 28]使用類神經網路(Neural Network, NN)來進行語音辨識情緒，Casale

et al.、Chandrakala et al.及 Kandali et al.[6, 7, 32]則使用高斯混合模型 (Gaussian Mixture Models) 及支持向量機(Support Vector Machine, SVM)來進行語音辨識情緒，Pao et al.[48]利用最短距離(Nearest class mean)分類法，並使用特徵篩選與特徵結合的方式來改善語者相關之中文語音情緒辨識，Zhang[73] 則是使用模糊最小平方支持向量機來進行語音情緒辨識，並使用不同之訊噪比進行實驗。

除了以分類器來做語音情緒辨識的研究外，有些研究方向則著重於語音情緒特徵參數的計算，Lee et al.以及 Wang et al.[34, 63]利用主成分分析(PCA)先將特徵參數作篩選後，再分別以不同之分類器做語音情緒辨識，Wu et al.及 Meshram et al.[67, 39]利用不同時間序列的特徵參數來進行語音情緒辨識，Espinosa et al.及 Dongrui et al.[19, 17]使用心理學上 VAD(Valence/Activation/Dominance)三維之情緒辨識方法，將特徵參數轉換成 VAD 值，再進行辨識， Xin et al.[69]則使用 HHT(Hilbert-Huang Transformation)方法計算新語音情緒特徵參數，稱為 ECC 參數，並用於語音情緒辨識中。

在臉部影像情緒辨識及語音臉部影像雙模情緒辨識之研究上，

Lyons et al.[37]利用 Gabor Wavelet 來擷取臉部表情特徵，並利用 Gabor Wavelet coding 來建立臉部表情之分類器，Fasel and Luettin[20]提出一自動臉部表情分析之方法，包含臉部圖像的正規化，臉部的動態反應

以及強度等特徵計算，Wilhelm et al.[65]使用統計與類神經網路方法，透過影像分析來辨識使用者表情與性別，Seyedarabi et al.[60]則利用臉部的特徵點當作追蹤點，並使用類神經網路及 FIS(Fuzzy Inference System)來進行臉部影像情緒辨識，Go et al.、Metallinou et al.、Wang et al.、Chen et al.、Das et al.、Zeng et al.以及 Mower et al.[24, 40, 64, 10, 16, 72, 42]使用臉部影像與語音雙模方式作情緒辨識。

在人機互動應用介面及其他應用系統上，Polzin and Waibel[52]

建立能表達情緒之人機介面， Fujita et al.[22] 介紹仿人機器人 SDR-4X，此機器人具有與人互動並學習的功能，Fujita[23]介紹能與人互動並表達情緒寵物狗 AIBO，Álvarez et al[1]則是開發具有情緒模型之導覽機器人。Huber et al.及 Yacoub et al.[26, 70]將語音情緒辨識方法應用在客服系統(Call Centers)上，Niimi et al.、Iida et al.、Schroder and Grice、Yanushevskaya et al.以及 Tao et al.[45, 27, 57, 71, 62]將情緒因子加入到語音中，使語音合成之訊號帶有情緒反應，Pao and Chen[47]則將中文之語音情緒辨識應用在中文聽障電腦輔助語言教學系統中。

以目前語音情緒辨識的研究發展而言，辨識的效果十分仰賴資料庫的建置，當測試的語者資料不在訓練資料庫中或測試語者所使用的語系與訓練資料有所差異時，通常無法得到良好的辨識效果，因此，

如何透過適當的資料庫調適過程，使資料庫更貼近使用者的真實狀態，將是本論文的重點研究之一。

在文檔中應用貝氏網路及適應性調適方法於語音情緒辨識之研究 (頁 23-28)

第一章 導論

1.2 文獻回顧

第一章導論