第四章 實驗結果
4.2 實驗結果與分析
4.2.3 實驗三
實驗三為本論文所提方法,與相關文獻[7, 11, 51]所提的方法之比較,表 4.5 為相關的實驗數據。6-class 為六種表情(無自然表情),由結果得知自然表情對於 辨識率有一定程度的影響。探究其原因可能為:自然表情的樣本數量最多,若其 他類別影像臉部表情不明顯,系統易將其分類成自然表情,這將會使得整體辨識 率下降。
本論文與文獻[7, 51]均使用 10 倍交叉驗證法。一開始先將所有樣本隨機分 成十等分,每等分皆有七類表情的樣本,以 10 倍交叉驗證法進行資料的訓練及 測試,總共進行十次。將每次輸入的表情影像所獲得的預測結果進行統計,以此 類推,做完 10 次後即可得到最後的混淆矩陣。文獻[11]則使用 7 倍交叉驗證法。
表 4.5:本論文所提方法與其他文獻的整體辨識率比較
方法 6-class 整體辨識率 7-class 整體辨識率 Block-Based LBP[7] 91.5% 88.9%
Boosted-LBP[7] 95.0% 91.4%
LDP[11] 96.4% 93.4%
Boosted-LBP+Boosted-WLDP[51] - 91.1%
Ours(4×4) 98.7% 97.6%
“-”表示無進行此實驗。
文獻[7]主要是利用區塊式 LBP 進行臉部表情紋理特徵擷取,其 7-class 整體 辨識率為 88.9%。若使用 AdaBoost 演算法找出臉部中較具辨識性的區域取代固 定區塊,整體辨識率提高到 91.4%。文獻[11]則利用 LDP 來作為紋理特徵擷取方 法,其整體辨識率可達 93.4%。文獻[51]提出 Boosted-LBP 與 Boosted-WLDP,
分別先使用 AdaBoost 演算法對各類表情訓練出對於分類結果較有幫助的區域後,
再利用 LBP 及權重式區域方向性圖樣特徵(WLDP)來描述這些重要區域,最後結 合 Boosted-LBP 與 Boosted-WLDP 兩種不同性質的混合特徵彼此彌補兩者在表情 辨識上的不足,其整體辨識率為 91.1%。
由於實驗環境設置不同,不宜直接將表 4.5 中的數據進行比較,但這些實驗 數據仍然可以提供作為參考。其中,文獻[7]的方法是將大小為 110×150 的影像 以 18×21 為單位共切割出 42(6×7)塊的子區塊,因此其表情特徵直方圖維度為 2478。文獻[11]一樣是將影像大小 110×150 切割成 42 塊,其特徵直方圖維度為 2352。文獻[51]以 AdaBoost 選取人臉影像中 100 個有效的區域,將其串接後得 到的特徵維度為 5900,再使用主成份分析演算法進行降維。本論文所提方法採 用 4×4 區塊,特徵直方圖維度僅 256;因此,本論文所提方法與文獻[7, 11, 51]
相較之下,特徵維度較其它文獻低,效能提高又能維持相當不錯的整體辨識率。
進一步分析本論文所提的方法與其他文獻方法對於每一種表情的辨識效能,
我們比較前述方法所建構之七類表情的混淆矩陣(Confusion Matrix)。混淆矩陣主 要用於檢視方法對於每類表情的分類效能,其原理是利用測試資料驗證訓練資料 所建構出的模型,判斷預測值是否符合實際值。
表 4.6 為以本論文方法所得的混淆矩陣百分比表示,表 4.7、表 4.8 與表 4.9 分別為文獻[7]、[11]以及[51]所提方法之混淆矩陣。從這四個混淆矩陣來看,若 輸入的影像為厭惡、高興與驚訝這幾種表情,由於在影像上較具明顯的紋理變化,
因此辨識的效果較佳;若輸入影像為生氣與悲傷,由於這兩類表情與無表情之間 的表情過於接近,彼此之間的紋理變化較不明顯,易將生氣與悲傷這兩種表情誤 判為無表情的表情。在表 4.7 的數據中,生氣及悲傷的表情影像被歸為無表情影 像高達 20.4%及 31.6%;而表 4.9 也顯示對於此誤判現象的數據亦高達 21%及 17%。
表 4.8 生氣的表情影像誤判為無表情也有 10.4%。相較之下本論文所提方法在生 氣及害怕的表情,辨識能力較其他方法出色,可能是因為第二階段以區塊式建構 特徵直方圖,可擷取該表情較具鑑別度的紋理特徵,確實有效提升整體的辨識效 果。
表 4.6:本論文所提方法之七種表情混淆矩陣(%) Output
Input
Neutral Anger Disgust Fear Happy Sadness Surprise Neutral 97.1 0 0.3 0.3 0.9 1.1 0.3
Anger 2.8 94.4 0 1.9 0.9 0 0
Disgust 0.8 0 99.2 0 0 0 0
Fear 2.0 0 0 97.0 0 1.0 0
Happy 0.4 0 0 0 99.6 0 0
Sadness 4.8 0 0 0 0 95.2 0
Surprise 0.4 0 0 0 0 0 99.6
表 4.7:文獻[7]所提方法之七種表情混淆矩陣(%) Output
Input
Neutral Anger Disgust Fear Happy Sadness Surprise Neutral 95.2 0 0 0.8 0.4 3.6 0
Anger 20.4 66.6 3.7 2.0 0 7.3 0 Disgust 5.0 0 92.5 2.5 0 0 0 Fear 10.0 0 0 70.0 17.0 3.0 0
Happy 7.4 0 0 2.5 90.1 0 0
Sadness 31.6 6.4 0 0 0 61.2 0.8 Surprise 5.7 0 0 1.3 0 0.5 92.5
表 4.8:文獻[11]所提方法之七種表情混淆矩陣(%) Output
Input
Neutral Anger Disgust Fear Happy Sadness Surprise Neutral 89.3 5.9 1.7 0.2 0 2.7 0.2
Anger 10.4 86.9 0.9 0.9 0 0 0.9 Disgust 3.8 2.0 94.2 0 0 0 0
Fear 4.1 1.5 0 94.4 0 0 0
Happy 0.4 0 0 0.7 98.9 0 0
Sadness 5.8 1.1 0.5 0 0 92.6 0
Surprise 1.0 0 0 0 0 0 99.0
表 4.9:文獻[51]所提方法之七種表情混淆矩陣(%) Output
Input
Neutral Anger Disgust Fear Happy Sadness Surprise Neutral 97.3 0.9 0.3 0.3 0 0 0.3
Anger 21.0 72.4 0 1.0 0 5.7 0 Disgust 3.3 0 94.2 0.8 1.7 0 0 Fear 4.7 1.6 0 80.6 8.5 0 4.7 Happy 3.0 0.4 0 1.9 94.8 0 0 Sadness 17.0 2.6 0 2.0 0 78.4 0
Surprise 0 0 0 0.5 0 0 99.5
由圖 4.4 可以看出不同的方法對於每一類表情的整體辨識率,本論文所提的
Neutral Anger Disgust Fear Happy Sadness Surprise 整 獻的都有將 Cohn-Kanade 資料庫中的影像分為六種不同的影像解析度,分別是 110×150、55×75、36×48、27×37、18×24、14×19。實驗結果如表 4.10 所示。