結合影像及語音之雙模情緒辨識決策

第四章雙模情緒辨識系統演算法

4.4 結合影像及語音之雙模情緒辨識決策

經由特徵擷取後，得到語音和人臉影像這兩特徵，分別經由 SVM 分類，可以得到兩類的分類結果。當分類的結果不同時，該採用何者的分類結果，是要解決的問題。根據 SVM 的理論，受測資料在空間中距 hyperplane 的距離較遠，誤判的機會較小，分類結果的可靠度會較高；反之，離 hyperplane 距離較近，誤判的可能性較高，另外，若同類資料在空間中分佈分散，表示資料變異的程度很大，

即使訓練資料距 hyperplane 有一段距離，但可能某筆資料很接近 hyperplane，誤判的可能性相對來說也比較大。圖 4-16 分別有人臉影像及語音兩類訓練資料訓

圖 4-16 資料在空間中的不同分佈狀況說明 Z_Fi <Z_Ai 則採用語音特徵辨識結果

我們採用 SVM 當作情緒分類器，整個辨識流程如圖 4-17 所示，比對的順序和排法是根據 SVM 的辨識結果而定，將辨識率較高的一組表情優先比對，於 5-3 節的實驗結果作介紹。首先，輸入的未知情緒經由分類決定是 Happiness 抑或是 Sadness，同時也分類決定是 Surprise 或是 Neutral，假設辨識結果分別是 Sadness 和 Neutral，接著 Neutral 再和 Angry 作判斷，分類的結果最後再和 Sadness 作分類，決定這個未知情緒是屬於哪一類。由於分別有人臉影像和語音兩類資訊分別作分類，用提出的辨識策略結合兩類資訊辨識，若是在人臉影像在辨識某兩類情緒時分類錯誤，還可以透過語音資料修正錯誤的分類，繼續完成後續的分類，

圖 4-17 SVM 辨識流程

σ

Hyperplane_F

D

Fave

σ

D

Aave

Hyperplane_A

人臉影像語音

Happiness Sadness Surprise Neutral

Anger

Output Emotion Input

Unknown Emotion

而修正後的人臉影像分類結果，在後續的分類也可能修正語音資料的錯誤分類，

提高辨識的正確率。

圖 4-18 為結合語音及人臉影像情緒辨識決策流程，將未知情緒的人臉影像特徵與語音特徵分別用各自訓練資料計算出的 hyperplane 作辨識，首先經由 Happiness 與 Sadness 以及 Surprise 與 Neutral 的 SVM 分類器，分類的結果都同樣是 Happiness 及 Surprise。接著 Surprise 與 Anger 進行 SVM 分類，結果人臉影像特徵分類結果為 Surprise，但語音特徵分類為 Anger，如圖 4-18(a)，此時就要比較兩類的特徵權重，人臉影像權重計算結果為 1.56 大於語音權重-0.289，表示這筆資料在人臉影像分類 Surprise 與 Anger 的空間裡距 hyperplane 的距離較遠，

分類的可靠度較高，因此採用人臉影像的結果，Surprise 與 Anger 的分類為 Surprise，而語音特徵的 Surprise 與 Anger 分類結果要由 Anger 改為 Surprise。接著對辨識出的 Happiness 及 Surprise 進行 SVM 分類，結果分類的結果又不一樣，

人臉影像特徵分類為 Surprise，但語音特徵分類為 Happiness，此時再比較兩類的特徵權重，人臉影像權重計算結果為-0.6685 小於語音權重 1.8215，因此採用語音特徵分類的結果 Happiness，所示這個輸入的未知情緒分類為 Happiness，如圖 4-18(c)所示。

圖 4-18 Bimodal 情緒辨識流程(a) Happiness

Sadness Surprise Neutral

Anger

Output Emotion

Happiness Sadness Surprise Neutral Anger

Output Emotion

Facial Image Feature Audio Feature

56 .

ZFi Z_Ai =−0.289

圖 4-18 Bimodal 情緒辨識流程(b) Facial Image Feature

Happiness Audio Feature

6685 Facial Image Feature

Happiness Sadness Surprise Neutral

Anger

Audio Feature

Happiness

在文檔中結合影像及語音之雙模情緒辨識系統 (頁 52-56)

第四章 雙模情緒辨識系統演算法

4.4 結合影像及語音之雙模情緒辨識決策

σ

D

σ

D

第四章雙模情緒辨識系統演算法