相關研究回顧

第一章緒論

1.2 相關研究回顧

目前已有相當多數的語音與人臉影像情緒辨識研究，幾乎都是單一模組辨識，單純只靠語音特徵[17-22]或臉部影像特徵[7-16]來辨識情緒，雙模辨識方法，

即結合語音及人臉影像的特徵，在辨識架構上能達到資訊互補，提高辨識率的效果，然而這方面的研究報告並不多[23-29]。。

在單一模式人臉影像表情辨識上，最早是 Ekman 和 Friesen[6]發展了 Facial Action Coding System(FACS)，根據人在表達不同表情時會牽動不同臉部肌肉的原理，定義出 44 種不同的 Action Unit (AU)，如圖 1-1 所示，圖(a)是上半臉 Action Unit 和一些 Action Unit 的組合，圖(b)是下半臉的 Action Unit 種類，根據特定 Action Unit 的組合，人臉的表情即可以被描述出來。多數的研究都採用 FACS 的 理論來判斷臉部表情， Song et al. [7]提出了一個基於小波轉換的 Multi-resolution 性質設計，可以將雜訊從二值化的影像中移除，二值化後的邊緣影像可以用來辨 識多個不同的 Action Unit。Cohn et al. [8] and Seyedarabi et al. [9] 使用 Optical flow 追蹤多個特徵點的移動，這些特徵點是在影像序列中的第一張影像中手動設置。在第一張與最後一張影像中，每個特徵點位移組合而成的特徵向量則用來辨識不同的 Action Unit 及臉部表情。

Tian et al. [10]和 Donato et al. [11]也都採用 FACS 理論，不同的是在臉部特 徵擷取與辨識分類方法的選擇上。Tian et al.將臉部的特徵分為常在與瞬間特徵，

常在特徵是眼睛與嘴巴的變化，瞬間特徵是眉間、雙頰與嘴角上端的皺紋變化，

先手動設置好這些特徵點的初始位置，再追蹤將這些點的變化，用類神經網路作辨識。雖然辨識的效果很好，但以 FACS 為基礎的完全自動表情辨識方法尚未被提出。

在特徵擷取上，人臉的特徵大致上可以分為 Appearance based 與 Feature based 兩種方法，Appearance based 的特徵擷取，常見的為用主成份分析法 (Principal Component Analysis, PCA)、獨立成份分析法(Independent Component Analysis, ICA)對整個臉部影像作特徵擷取。Wilhelm et al.[12]就用 Appearance

(a)上半臉的 Action Units 和 Action Unit 的組合

(b)下半臉的 Action Units 圖 1-1 臉部的 Action Units[10]

based 方法作特徵擷取，採用 PCA 與 ICA 擷取特徵，減少輸入分類器的資料量，

並計算投影向量的合適性，選取具有分辨性的特徵向量作分類，以提高辨識的準確性，再分別採用 Nearest Neighbor(NN)分類器、Multi Layer Perceptron(MLP)和 Radial Basis Function(RBF)網路當作表情的分類器。使用 Appearance based 的方

法作人臉資料庫的建立與表情辨識，可以減少載眼鏡與人臉鬍鬚的影響。

Buciu[13]等人採用 ICA 以及 Gabor 小波轉換擷取人臉影像的特徵，實驗結果證實採用 Gabor 小波轉換結合 support vector machine (SVM)可以大幅提高辨識的效果。

利用 Appearance based 方法辨識表情，可能會因為臉部在影像中位置的改變而影響到辨識的結果，於是 Y. Zhang[14]等人利用整張臉部影像，計算 PCA、ICA 與 Linear Discriminant Analysis(LDA)得到臉部的表情特徵，接著算出臉部資料庫與測影像的差異性權重矩陣，在變化較大的地方給予較小的權重；反之給予較大的權重，用 Nearest Neighbor 辨識 4 種表情，實驗結果證實 LDA 結合權重矩陣效果比單純用 eigenface 辨識好。除了 Appearance based 作特徵擷取的方法，還有 Feature based[15-16]方法，擷取人臉特徵點，像是眼睛、眉毛和嘴巴各設置一些特徵點，再將各特徵點之間的距離或是特徵點在影像中的位移當作分辨不同表情的特徵。

在語音的情緒辨識上，主要是選擇帶有情緒資訊的特徵，像是聲韻(Prosody) 特性和能量相關的特徵，最常見的特徵是音高(Pitch)和能量(Energy)[17-20]，少數文獻採用共振峰(Formant)[19]，主要是根據這些特徵的統計值當作不同情緒分 類的特徵，像是平均值、標準差、最大值、最小值、梯度變化等。Schuller et al.[20]

即根據線性鑑別分析對不同統計方式的特徵進行排名，用音高相關的特徵明顯比能量相關的特徵更能分辨出不同的情緒種類。採用梅爾倒頻譜係數（Mel-scale Frequency Cepstral Coefficients, MFCC ）或線性預估參數 (Linear predictor coefficient, LPC)[21-22]也都可以找到關於情緒的訊息，透過分類方法可以辨識出語音中帶有的情緒，辨識方法上包括類神網路[20]、隱藏式馬可夫模型(Hidden Markov Model, HMM)[17][18][22] 、高斯混合模型 (Gaussian Mixture Model, GMM)[20-21]、線性鑑別分析[22]等。

結合語音與臉部影像的情緒辨識，其架構和單模組的語音或臉部影像辨識相同，首先經過特徵擷取，接下來為特徵的分析與分類，最後為情緒的決定，只是

在特徵的擷取上需要語音和人臉影像的輸入，以及在情緒的決策上較單一模式複雜。

De Silva et al.[23]分別利用兩種語言測試在表達情緒時，若是影像與語音兩 種資訊辨識出的結果不同時，觀察是臉部影像還是語音具有支配性(Dominant)的地位，實驗結果發現傷心和害怕兩種情緒是聽覺支配(Auditory dominant)，表示當語音辨識情緒為傷心或害怕時，而臉部影像卻辨識為其他不同的情緒時，則主要採信語音的辨識結果。而其他情緒可能是影像支配(Visually dominant)或是沒有固定的支配地位，因此可以運用這些要素給予臉部影像和語音在不同表情上有著不同的權重值，設計一個給各個表情及模式的權重矩陣，屬於 Rule-based 的分類方法。

Chen et al.[24]也是承接著 De Silva et al.的 Rule-based 方法繼續研究，他們透 過語音與人臉影像之間的互補特性作辨識，例如音高最大值座落在某一範圍內，

可能會是某兩種情緒，再透過人臉影像資料對這兩種表情作辨識。但可能是文化、語言或是個人問題，這一套結合方法並不適用於每一個人。

後來 De Silva[25]發現在負面情緒上，像是生氣、害怕與傷心的臉部表情很接近，辨識分類的效果不可靠，於是即根據上一篇的實驗結果，將負面情緒：生氣、憎惡、害怕與傷心設為聽覺支配，高興和驚訝設為影像支配，結合語音與臉部影像作辨識。語音部分用 Hidden Markov Model(HMM)辨識語音訊號的特徵，

臉部影像用類神經網路辨識臉部特徵點的位移量，在辨識結果決策上，首先若語音辨識為負面情緒中的一種，但影像辨識結果不同，即完全採用語音部分的結果；反之，影像辨識為正面情緒，而語音辨識結果不同，則完全採用影像部分結果，如此大幅提高負面情緒的辨識可靠度，也提高了所有表情的辨識率。

Go et al.[26]採用類神經網路，直接將分別輸入的語音特徵與人臉影像特徵 結合辨識，得到一個辨識的輸出結果。不同的是語音的特徵擷取上，先將語音信號用小波轉換分成不同頻段，針對不同頻段擷取 MFCC、能量和過零率的特徵；

單一模組和雙模組的差異，因此未能知道雙模組辨識是否有其必要性，可以提升辨識率。

Song et al.[27]提出用 Tripled HMM (THMM)辨識結合語音及影像的情緒，語 音特徵採用音高和能量的相關特徵，影像特徵則是臉部特徵點的位移特徵，

THMM 將語音及影像分開平行處理，最後再根據特徵的信號雜訊比(SNR)設定權重，計算辨識的結果。用 THMM 的優點是語音及影像在辨識的狀態過程中允許非同步輸入，仍保持信號間的相關性，且兩種不同的特徵訊號都用同一套辨識系統，減少辨識系統的複雜度。

Wang et al.[28]將語音與臉部影像的特徵串接起來，語音特徵採用 Pitch 和 MFCC 的相關特徵，臉部影像採用 Gabor 小波轉換係數，根據歐幾里德距離，選出顯著的特徵，對每一種表情採用一對多(One-against-all；OAA)的 LDA 辨識，

算出每一種表情的機率值。不同的是在辨識的決定上，設定了幾個大規則，第一：

若是只有一類表情的機率大於 50%，則結果為此類表情，第二：若是沒有任一表情超過 50%，則會再採用一個全部表情分類器；若是有 2 種以上的表情機率都大於 50%，則會針對這幾種表情再作分類，找出機率最大的表情。

吳鑑峰[29]在語音特徵上採用音高、共振峰、能量和過零率，並計算這四種特徵的趨勢與統計特徵，影像特徵是用臉部特徵點之間的距離當作特徵，用主成份分析法選出具代表性的特徵，而語音與臉部影像兩類特徵分別用 Continuous Density Support Vector Machine(CDSVM)作辨識，根據測試資料與訓練資料距超平面的距離以及訓練資料的正確率，計算測試資料為各種情緒的機率。最後再計算語音與臉部影像分類後的機率值的幾和平均，得到總情緒機率值，辨識效果比單一模組的語音和人臉影像要好。

在文檔中結合影像及語音之雙模情緒辨識系統 (頁 12-16)

第一章 緒論

1.2 相關研究回顧

第一章緒論