• 沒有找到結果。

Overall Accuracy : 83.11%

此結果中雖還有些誤判的情形,但其情況已大幅改善,由於語句區段被切割辨識,所以

特徵資料較明確,其辨識率也較粗糙的 GMM 模型高。同樣的,由於語料庫的資料量不同,

因此兩種資料庫的辨識情況略有落差。

圖 4.2 以 Emotion Syllable 切割的音檔

4.1.3 N-best Stack Decoder

辨識

由上述有誤判的情形來看,可推測在每筆資料中,除了本身所標記的情緒特性之外,可

能還含有其他相似的情緒特徵,因此本節進一步改進前一節的方法,在辨識時使用 N-best

Stack Decoder

,依照情緒特性,於音訊波形上手動標記每段有聲語句所屬的情緒,找出 N 個

最可能的情緒音節序列如圖 4.3,並將這些情緒音節對應 Arousal-Valence 平面,分別取出 A-V 二維向量,圖 4.4 為圖 4.3 中部分區段轉換為 A-V 向量之示意圖,而這些轉換後的向量則可 供後級的音視訊融合。

圖 4.3 N-best Stack Decoder 音訊切割示意圖

圖 4.4 N-best 音訊區段對應 Arousal-Valence 向量示意圖

4.2

視頻訊號情緒偵測結果

本研究的情緒影像的辨識,首先以 Webcam 錄取五種情緒的影像資料,分別由 10 位同 學以 5 種情緒朗讀的影片當中擷取 10 張照片,用以訓練建立比對資料庫,圖 4.5 為資料庫中

10

人的部分影像範例。情緒部分分別可得到 Neutral、Happiness、Anger、Sadness、Surprise 五種表情,透過連通法選取特徵物件後,再以邊緣偵測取出其相關特徵係數資料,並手動標 示出每個影像所屬情緒,接著透過 SVM 系統對影像資料來訓練辨識,以建立辨識資料庫,

待 SVM 訓練完畢後,藉由得到的模型對測試檔進行分類與預測,並計算出其識別率以作為 情緒影像偵測結果的判別,整體工作流程如圖 4.6 所示。

圖 4.5 資料庫影像範例

由圖 1.1 的情緒線索(Emotion Curves)二維 Arousal- Valence 空間平面圖中,得知中性情 緒 Neutral 落於平面之中心點,為突顯各情緒之特徵,我們以 Neutral 為基準參考情緒,在錄 得的影像資訊中,除了 Neutral 之外的另外四個情緒,取其各特徵的特徵值平均,分別與

Neutral

之特徵做比較,如圖 4.7 所示,其中橫軸的

α ( ) , i i = 1, 2,..., 7

代表嘴型特徵,由於人臉 的情緒表現大多以嘴型的變化來判定,可參照圖 2.1 之影像,在 4.7 圖中前段表示嘴型特徵 值相較於 Neutral 有較大的變化,而

α ( ) , i i = 8, 9,...,12

表示眼睛部分特徵,因眼睛的變化幅度 較不明顯,以至於 Neutral 特徵與其他情緒特徵之相吻性相對較高。由此結果可推測,以這 些特徵點作為表情辨識的依據,極有可能帶來誤判的情形,本研究利用 SVM 學習機器對這 些向量作訓練分析,以取得影像資料對於各情緒的辨識率,統計各情緒相互判定的辨識情 形,將其結果及整體辨識率列於表五中。

圖 4.6 SVM 影像辨識流程方塊圖

表五 SVM 對視訊情緒特徵訓練分類混淆矩陣

Confusion Matrix

相關文件