第一章 導論
1.2 文獻回顧
Picard[51]於 1998 年針對"Affective Computing"提出了幾個重 要的議題與方向,從電腦辨識之人類情感模型、電腦輔助學習、藝術、
娛樂、健康以及人機互動等方向上提出建議與看法,Pantic and Rothkrantz [46]於 2003 年發表的文章中,說明了情緒辨識在人機介面 上的重要性以及利用多個不同的感知方式來辨識情緒,Cowie et al.[14]
描述了在表達情緒時,語音與臉部表情的情緒特徵與反應,以及在特 定的情緒觸發條件下,語音特徵與特定情緒反應之間的對應關係,
Scherer[55]針對 2003 年語音情緒辨識的研究現況做回顧,並對語音
辨識研究之未來方向所討論與建議。目前,自動化情緒辨識方法與系 統開發已成為人機情感介面上重要的研究主題之一,對於情緒辨識的 研究,目前仍處於發展的階段,相關的研究主題主要分為幾個部分:
1.語音情緒辨識(Speech Emotion Recognition)
2.臉部影像情緒辨識(Facial Image Emotion Recognition)
3.語音臉部影像雙模情緒辨識(Audio-Visual Emotion Recognition) 4.人機互動(Human Machine Interaction)
首先,在語音情緒辨識上,Banse and Scherer[3]針對口語上,情 緒所表現之語音特徵做深入探討及研究,Cowie and Cornelius[15]則是 描述語音特徵與情緒狀態之間的關連性。由於語音情緒在辨識上,需 要以各情緒之語料建置辨識分類所需之資料庫,因此,在語料庫的建 置上,Douglas-Cowie et al.[18]建立了 100 個人之情緒資料庫,內容同 時 包 含 聲 音 與 影 像 兩 個 部 分 , Schiel et al.[56] 利 用 自 行 開 發 的 SmartKom 設備,錄製具有聲音、影像以及觸覺輸入的情緒資料庫,
Makarova and Petrushin[38]建置了包含 61 個人五種情緒之俄羅斯語 情緒資料庫 RUSLANA,Burkhardt et al.[4] 建置了包含 10 個人 800 個語句之德語情緒資料庫 EMO-DB,Wu et al.[68]則是建置了 68 個人 10 個句子 5 種情緒之華語情緒資料庫 MASC (Mandarin Affective Speech Corpus),Johnstone [30]利用互動遊戲來當作情緒觸發的機
制,並記錄當時之語音情緒反應,以此為語音情緒語料庫,Schuller et al.[59] 於 2009 年將目前研究語音情緒的九種語料(ABC, AVIC, DES, EMO-DB, eNTERFACE,SAL, SmartKom, SUSAS, and VAM)作連結,
並轉換到 Valence-Arousal 空間中加以探討。
在語音情緒辨識之研究上,Scherer[54]從九種不同國家之語料 中,探討不同文化及語系之間情緒的表達方式是否有所差異,Montero et al.[41]以西班牙語建立語音情緒之模型並進行分析,Petrushin[49, 50] 使用 23 個人 700 個五種不同情緒之語料,以音高、第一、第二 共振峰、能量、以及講話速度為特徵參數,進行不同分類器之辨識實 驗,並作為情緒辨識代理人系統以及 Call Centers 之開發應用,Ang et al.[2] 利用語音訊號中之語調、語音模型以及講話者的講話方式,來 辨識憤怒與沮喪情緒,Chuang and Wu[11]利用語調及語意,並透過 PCA(Principle Component Analysis)與 SVM 來辨識說話者的情緒狀 態,Wu et al.[66]使用語意標示以及 Separable Mixture Models 來辨識 語音訊號中的情緒反應,Kwon、Schuller et al.、New et al.、Lee et al.、
Jiang and Cai 以及 Lin and Wei[33, 58, 44, 35, 29, 36]使用隱藏式馬可 夫模型(Hidden Markov Model, HMM)並以語調相關特徵來進行語音 辨識情緒,Fragopanagos and Taylor、Busso et al.以及 Iliou et al.[21, 5, 28]使用類神經網路(Neural Network, NN)來進行語音辨識情緒,Casale
et al.、Chandrakala et al.及 Kandali et al.[6, 7, 32]則使用高斯混合模型 (Gaussian Mixture Models) 及支持向量機(Support Vector Machine, SVM)來進行語音辨識情緒,Pao et al.[48]利用最短距離(Nearest class mean)分類法,並使用特徵篩選與特徵結合的方式來改善語者相關之 中文語音情緒辨識,Zhang[73] 則是使用模糊最小平方支持向量機來 進行語音情緒辨識,並使用不同之訊噪比進行實驗。
除了以分類器來做語音情緒辨識的研究外,有些研究方向則著重 於語音情緒特徵參數的計算,Lee et al.以及 Wang et al.[34, 63]利用主 成分分析(PCA)先將特徵參數作篩選後,再分別以不同之分類器做語 音情緒辨識,Wu et al.及 Meshram et al.[67, 39]利用不同時間序列的特 徵參數來進行語音情緒辨識,Espinosa et al.及 Dongrui et al.[19, 17]使 用心理學上 VAD(Valence/Activation/Dominance)三維之情緒辨識方 法,將特徵參數轉換成 VAD 值,再進行辨識, Xin et al.[69]則使用 HHT(Hilbert-Huang Transformation)方法計算新語音情緒特徵參數,稱 為 ECC 參數,並用於語音情緒辨識中。
在臉部影像情緒辨識及語音臉部影像雙模情緒辨識之研究上,
Lyons et al.[37]利用 Gabor Wavelet 來擷取臉部表情特徵,並利用 Gabor Wavelet coding 來建立臉部表情之分類器,Fasel and Luettin[20]提出一 自動臉部表情分析之方法,包含臉部圖像的正規化,臉部的動態反應
以及強度等特徵計算,Wilhelm et al.[65]使用統計與類神經網路方 法,透過影像分析來辨識使用者表情與性別,Seyedarabi et al.[60]則 利用臉部的特徵點當作追蹤點,並使用類神經網路及 FIS(Fuzzy Inference System)來進行臉部影像情緒辨識,Go et al.、Metallinou et al.、Wang et al.、Chen et al.、Das et al.、Zeng et al.以及 Mower et al.[24, 40, 64, 10, 16, 72, 42]使用臉部影像與語音雙模方式作情緒辨識。
在人機互動應用介面及其他應用系統上,Polzin and Waibel[52]
建 立 能 表 達 情 緒 之 人 機 介 面 , Fujita et al.[22] 介 紹 仿 人 機 器 人 SDR-4X,此機器人具有與人互動並學習的功能,Fujita[23]介紹能與 人互動並表達情緒寵物狗 AIBO,Álvarez et al[1]則是開發具有情緒模 型之導覽機器人。Huber et al.及 Yacoub et al.[26, 70]將語音情緒辨識 方法應用在客服系統(Call Centers)上,Niimi et al.、Iida et al.、Schroder and Grice、Yanushevskaya et al.以及 Tao et al.[45, 27, 57, 71, 62]將情緒 因子加入到語音中,使語音合成之訊號帶有情緒反應,Pao and Chen[47]則將中文之語音情緒辨識應用在中文聽障電腦輔助語言教 學系統中。
以目前語音情緒辨識的研究發展而言,辨識的效果十分仰賴資料 庫的建置,當測試的語者資料不在訓練資料庫中或測試語者所使用的 語系與訓練資料有所差異時,通常無法得到良好的辨識效果,因此,
如何透過適當的資料庫調適過程,使資料庫更貼近使用者的真實狀 態,將是本論文的重點研究之一。