• 沒有找到結果。

結合影像及語音之雙模情緒辨識決策

第四章 雙模情緒辨識系統演算法

4.4 結合影像及語音之雙模情緒辨識決策

經由特徵擷取後,得到語音和人臉影像這兩特徵,分別經由 SVM 分類,可 以得到兩類的分類結果。當分類的結果不同時,該採用何者的分類結果,是要解 決的問題。根據 SVM 的理論,受測資料在空間中距 hyperplane 的距離較遠,誤 判的機會較小,分類結果的可靠度會較高;反之,離 hyperplane 距離較近,誤判 的可能性較高,另外,若同類資料在空間中分佈分散,表示資料變異的程度很大,

即使訓練資料距 hyperplane 有一段距離,但可能某筆資料很接近 hyperplane,誤 判的可能性相對來說也比較大。圖 4-16 分別有人臉影像及語音兩類訓練資料訓

圖 4-16 資料在空間中的不同分佈狀況說明 ZFi <ZAi 則採用語音特徵辨識結果

我們採用 SVM 當作情緒分類器,整個辨識流程如圖 4-17 所示,比對的順 序和排法是根據 SVM 的辨識結果而定,將辨識率較高的一組表情優先比對,於 5-3 節的實驗結果作介紹。首先,輸入的未知情緒經由分類決定是 Happiness 抑 或是 Sadness,同時也分類決定是 Surprise 或是 Neutral,假設辨識結果分別是 Sadness 和 Neutral,接著 Neutral 再和 Angry 作判斷,分類的結果最後再和 Sadness 作分類,決定這個未知情緒是屬於哪一類。由於分別有人臉影像和語音兩類資訊 分別作分類,用提出的辨識策略結合兩類資訊辨識,若是在人臉影像在辨識某兩 類情緒時分類錯誤,還可以透過語音資料修正錯誤的分類,繼續完成後續的分類,

圖 4-17 SVM 辨識流程

σ

F

Hyperplane_F

D

Fave

σ

A

D

Aave

Hyperplane_A

人臉影像 語音

Happiness Sadness Surprise Neutral

Anger

Output Emotion Input

Unknown Emotion

而修正後的人臉影像分類結果,在後續的分類也可能修正語音資料的錯誤分類,

提高辨識的正確率。

圖 4-18 為結合語音及人臉影像情緒辨識決策流程,將未知情緒的人臉影像 特徵與語音特徵分別用各自訓練資料計算出的 hyperplane 作辨識,首先經由 Happiness 與 Sadness 以及 Surprise 與 Neutral 的 SVM 分類器,分類的結果都同 樣是 Happiness 及 Surprise。接著 Surprise 與 Anger 進行 SVM 分類,結果人臉影 像特徵分類結果為 Surprise,但語音特徵分類為 Anger,如圖 4-18(a),此時就要 比較兩類的特徵權重,人臉影像權重計算結果為 1.56 大於語音權重-0.289,表示 這筆資料在人臉影像分類 Surprise 與 Anger 的空間裡距 hyperplane 的距離較遠,

分類的可靠度較高,因此採用人臉影像的結果,Surprise 與 Anger 的分類為 Surprise,而語音特徵的 Surprise 與 Anger 分類結果要由 Anger 改為 Surprise。接 著對辨識出的 Happiness 及 Surprise 進行 SVM 分類,結果分類的結果又不一樣,

人臉影像特徵分類為 Surprise,但語音特徵分類為 Happiness,此時再比較兩類的 特徵權重,人臉影像權重計算結果為-0.6685 小於語音權重 1.8215,因此採用語 音特徵分類的結果 Happiness,所示這個輸入的未知情緒分類為 Happiness,如圖 4-18(c)所示。

圖 4-18 Bimodal 情緒辨識流程(a) Happiness

Sadness Surprise Neutral

Anger

Output Emotion

Happiness Sadness Surprise Neutral Anger

Output Emotion

Facial Image Feature Audio Feature

56 .

=1

ZFi ZAi =−0.289

圖 4-18 Bimodal 情緒辨識流程(b) Facial Image Feature

Happiness Audio Feature

6685 Facial Image Feature

Happiness Sadness Surprise Neutral

Anger

Audio Feature

Happiness

相關文件