• 沒有找到結果。

植基於全域與局部紋理特徵之臉部表情辨識

N/A
N/A
Protected

Academic year: 2021

Share "植基於全域與局部紋理特徵之臉部表情辨識"

Copied!
59
0
0

加載中.... (立即查看全文)

全文

(1)國立高雄大學電機工程學系碩士班 碩士論文. 植基於全域與局部紋理特徵之臉部表情辨識 Facial Expression Recognition by Global and Local Textures. 研 究 生: 劉懿萱 指導教授: 賴智錦 博士. 中華民國 一百零一 年 六 月.

(2) 植基於全域與局部紋理特徵之臉部表情辨識 指導教授:賴智錦 博士 國立高雄大學電機工程學系. 研究生:劉懿萱 國立高雄大學電機工程學系碩士班. 摘要. 隨著人機互動逐漸蓬勃發展,臉部表情辨識變成了一個相當重要且具有挑戰 性的問題。因此,如何發展一個有效的臉部表示方法來表達臉部表情是臉部表情 辨識中最重要的一步。本論文提出一個結合全域與局部紋理特徵之臉部表情表示 方法。我們先以離散小波轉換將臉部影像的大小進行壓縮,接著使用區域二元圖 樣及門檻值區域二元圖樣產生出對臉部表情具有分辨能力的特徵,最後將這些特 徵使用支持向量機分類器進行表情辨識。實驗結果證實,我們提出的方法在著名 的 Cohn-Kanade 表情資料庫中進行七種表情辨識,並以 10 次交叉驗證進行測試, 辨識程度可達 96.5%。顯示我們的方法可以提取出臉部表情中具有辨識能力特 徵,並且得到良好的效果。. 關鍵字:表情辨識、離散小波轉換、區域二元圖樣、門檻值區域二元圖樣、支持 向量機. i.

(3) Facial Expression Recognition by Global and Local Textures Advisor: Dr. Chih-Chin Lai Department of Electrical Engineering National University of Kaohsiung. Student: Yi-Hsuan Liu Department of Electrical Engineering National University of Kaohsiung. ABSTRACT With the trend of human-computer interaction, facial expression recognition is an interesting and challenging problem. Therefore, to develop an effective facial expression representation method from facial images is a critical step for successful facial expression recognition. In this paper, we proposed a facial expression representation approach which combines global and local textures. We use discrete wavelet transform to reduce the size of a facial image, and then we extract the most discriminate features based on Local Binary Pattern and Threshold Local Binary Pattern. These features are classified by using Support Vector Machine. Experimental results show that the proposed approach can achieve better recognition performance on the Cohn-Kanade database with 10-fold cross-validation testing scheme. Keywords: Facial expression recognition, Discrete wavelet transform, Local binary pattern, Threshold local binary pattern, Support vector machine.. ii.

(4) 誌謝 首先,感謝我的指導教授賴智錦老師,在論文上給予我相當多的指導與鼓 勵。另外,感謝口試委員李建樹老師及吳志宏老師所提供的寶貴意見,使得本論 文得以更加完善。 感謝恩師賴智錦老師,這兩年來在課業研究上給予相當多的指導和鼓勵,激 發我對研究的熱忱。在老師身上學到的不僅僅是學術上的知識,還有許多待人處 事的態度,您的「不僅要把事做完,還要把事做到好。」是我們學習的典範。感 謝吳志宏老師,在修課期間的指導,使我學習的視野更加寬廣。感謝小葉、信慈, 有你們共同奮戰、互相砥礪,並給予我在研究過程中很多幫助。感謝韋舜、奇峰 學長,因為有你們在研究上的寶貴經驗,使我研究一路走來順遂。感謝學弟柯柯 支援實驗室的事務,使我研究得以更加專心。感謝小林、ICA 實驗室陪我渡過研 究生活的各位,讓我的研究生活增添了許多色彩。 最後感謝我最愛的家人,給予我溫暖的家及關懷,使我能夠無後顧之憂的專 心於研究上。僅以本論文獻給我最親愛家人們!謝謝你們!. iii.

(5) 目錄 摘要 ................................................................................................................................ i ABSTRACT................................................................................................................... ii 目錄 .............................................................................................................................. iv 表目錄 ......................................................................................................................... vii 第一章 導論 ................................................................................................................. 1 第二章 表情辨識相關研究 ......................................................................................... 3 2.1 基於幾何特徵的方法 .................................................................................... 3 2.2 基於外觀特徵的方法 .................................................................................... 5 2.3 區域二元圖樣相關研究探討 ........................................................................ 6 第三章 基於全域與局部紋理之臉部表情辨識系統 ................................................. 9 3.1 離散小波轉換 ................................................................................................ 9 3.2 局部紋理特徵 .............................................................................................. 10 3.2.1 LBP運算子 ......................................................................................... 10 3.2.2 LBP之局部紋特徵 ............................................................................. 15 3.3 全域紋理特徵 .............................................................................................. 15 3.3.1 TLBP運算子 ....................................................................................... 16 3.3.2 TLBP之全域紋特徵 ........................................................................... 17 3.4 表情辨識系統 .............................................................................................. 18 3.4.1 結合局部及全域的特徵直方圖........................................................ 18 3.4.2 系統整體流程.................................................................................... 19 第四章 實驗結果 ....................................................................................................... 22 4.1 實驗環境 ...................................................................................................... 22 4.2 實驗分析 ...................................................................................................... 24 4.2.1 實驗一................................................................................................ 26 4.2.2 實驗二................................................................................................ 27 4.2.3 實驗三................................................................................................ 28 4.2.4 實驗四................................................................................................ 29 4.2.5 實驗五................................................................................................ 30 4.2.6 實驗六................................................................................................ 31 4.2.7 實驗七................................................................................................ 33 4.2.8 實驗八................................................................................................ 36 4.2.9 實驗結果小結.................................................................................... 37 4.3 與其他方法的效能比較 .............................................................................. 38. iv.

(6) 第五章 結論 ............................................................................................................... 44 參考文獻 ..................................................................................................................... 46. v.

(7) 圖目錄 圖 2.1:各種動作單元.............................................................................................. 5 圖 3.1:本論文之離散小波轉換程序...................................................................... 9 圖 3.2:離散小波轉換............................................................................................ 10 圖 3.3:LBP編碼範例 ............................................................................................ 12 圖 3.4:LBP對應的直方圖。(a)原始影像,(b)經過LBP運算後的影像,(c)LBP 直方圖。..................................................................................................... 13 圖 3.5:LBP不同的半徑R及相鄰點數目P[44]。(a)R = 1,P = 8,(b)R = 2,P = 16, (c)R = 2,P = 8。 ...................................................................................... 14 圖 3.6:LBP運算子可表示不同的紋理[44].......................................................... 14 圖 3.7:局部紋理特徵抽取方法............................................................................ 15 圖 3.8:TLBP編碼示意圖 ...................................................................................... 17 圖 3.9:不同門檻值造成不同的TLBP圖 .............................................................. 17 圖 3.10:全域紋理特徵抽取方法.......................................................................... 18 圖 3.11:LBP與TLBP結合的示意圖..................................................................... 19 圖 3.12:臉部影像擷取過程.................................................................................. 20 圖 3.13:系統流程圖.............................................................................................. 21 圖 4.1:Cohn-Kanade資料庫中每段表情影像序列 ............................................. 22 圖 4.2:Cohn-Kanade資料庫中的表情影像 ......................................................... 23 圖 4.3:選取表情的準則,由上至下依序是無表情、憤怒、厭惡、害怕、高興、 悲傷、驚訝................................................................................................ 24 圖 4.4:10 次交叉驗證示意圖............................................................................... 26 圖 4.5:TLBP使用不同門檻值產生的辨識率 ...................................................... 30 圖 4.6:現實世界中,低解析度視訊的影像[63] ................................................. 31 圖 4.7:JAFFE資料庫中的影像[59],由左至右依序是無表情、憤怒、厭惡、害 怕、高興、悲傷、驚訝............................................................................ 34 圖 4.8:Cohn-Kanade與JAFFE資料庫每類表情辨識率的比較 .......................... 35 圖 4.9:無表情、憤怒及悲傷的表情影像。(a)無表情、(b)憤怒及(c)悲傷的表情 影像............................................................................................................ 42 圖 4.10:我們的方法與兩篇文獻對七類表情辨識的效能比較.......................... 43. vi.

(8) 表目錄 表 4.1:本論文進行八種實驗的說明.................................................................... 25 表 4.2:原始LBP與Uniform LBP編碼方式對於表情影像的辨識率 .............. 27 表 4.3:進行DWT與未進行DWT的辨識率 ....................................................... 28 表 4.4:不同切割的區塊數對於辨識效能的影響 ............................................ 29 表 4.5:以本論文所提方法進行不同SVM核心函數的辨識率比較 ................ 30 表 4.6:不同低解析度下各種方法對於六類表情的辨識率 ........................... 32 表 4.7:Cohn-Kanade與JAFFE資料庫比較 ......................................................... 34 表 4.8:本論文所提方法對於不同資料庫的辨識率比較 ................................ 35 表 4.9:本論文所提方法在JAFFE資料庫之七種表情混淆矩陣(%) .............. 36 表 4.10:實驗八之七種表情類別的樣本數 ...................................................... 36 表 4.11:樣本數不同的辨識率比較 ................................................................... 37 表 4.12:本論文所提方法與其他文獻的準確度比較 ...................................... 38 表 4.13:七種表情類別的樣本數 ....................................................................... 39 表 4.14:本論文所提方法之七種表情混淆矩陣 .............................................. 40 表 4.15:本論文所提方法之七種表情混淆矩陣(%) ........................................ 40 表 4.16:[55]所提方法之七種表情混淆矩陣(%) ............................................. 41 表 4.17:[64]所提方法之七種表情混淆矩陣(%) ............................................. 41. vii.

(9) 第一章 導論 近年來,由於智慧型產品的崛起,例如:智慧型手機、智慧型機器人或智慧 型電視,逐步將智慧型態的服務導入日常生活中,進而帶動了人機互動 (Human-Computer Interaction)的相關研究與日俱增。這些研究大多關注於如何創 造一個更好的互動系統,期盼機器也具有人類獨特的觀察、詮釋、辨識能力,使 機器使用起來更加和善、親切。然而,在日常生活中,我們通常藉由語意傳達自 己內心的感受,也時常伴隨著臉部表情或肢體動作加強表達心中的情緒。相較於 其他的表達方式,臉部表情最不受背景、文化、性別的影響,不需要學習就可以 直接經由臉部肌肉活動達到表情達意的溝通目的。因此,為了使機器具備人性化 的辨識能力,人臉表情辨識系統就成為了學術界眾所注目的焦點。 人臉表情辨識系統之應用相當廣泛,例如:在醫療方面,可以透過監視器監 測病患臉部表情。若患者臉部出現痛苦表情,則立即發布警訊,以減少意外發生, 同時也可以減輕現今醫護人力不足的窘況。在娛樂方面,例如寵物機器人,機器 可藉由判斷臉部表情做出適當的回應,與人產生互動進而達到娛樂的效果。在電 子商務方面,遠距離的視訊會議中,若能透過人臉表情辨識系統即時察覺客戶的 情緒,適時的作出和善的回應,就能多一點合作成功的機會。因此,人臉表情辨 識系統不僅是學術界上的研究,在商業上的價值也相當可觀。 縱使已經有很多學者研究過自動化表情辨識,但機器對於在適當的速度下維 持高準確率的臉部表情辨識仍然有其困難,且具有相當的挑戰性[1]。一個簡單 的表情辨識系統,可分成臉部影像的獲取、臉部資訊取得與表情辨識三個主要程 序。其中,最具關鍵的程序為臉部資訊的擷取,意即取出代表每類臉部表情的特 徵。一個最佳的表情特徵擷取方法必須能取出每類表情影像中變化最小的特徵, 且又能在各類表情中具有明顯的差異;換句話說,若擷取出的資訊不足以表示每 一類表情的特徵,即使最後使用效果極佳的分類器,也無法實現準確的識別。這 1.

(10) 就是現今在表情辨識相關研究上許多專家和學者研究的一項重點。 經由影像進行自動化表情辨識的方法中,若將整張影像的像素點皆變成特徵 資訊雖然準確率相對高,但計算量太大將導致在使用分類器進行訓練時耗費的時 間非常大。因此,如何取出合適的表情特徵,使得分類器具有一定的準確度又不 耗費大量時間,便是我們研究的重點。觀察各種臉部的表情,可知在五官上的細 微差異,是形成表情差異的最大資訊來源。因此,本論文結合全域與局部的紋理 作為識別臉部表情的特徵。 本論文共分成五個章節,第一章介紹研究動機與目的及概述本論文的架構。 第二章為人臉表情辨識相關文獻探討。第三章說明本論文所提出的使用全域與局 部紋理特徵擷取影像資訊的方法。第四章為測試本論文方法的效能,並與其他方 法的實驗比較數據。第五章將總結本論文,以及討論未來可改進及研究的方向。. 2.

(11) 第二章 表情辨識相關研究 近幾年來,臉部表情辨識的廣泛應用,使得表情辨識已經成為一個熱門的課 題。為了使電腦理解人類的表情,有許多學者提出各種方法對表情進行辨識。自 動化臉部表情辨識系統大致可分為兩方面:臉部特徵的表示及分類器的設計 [2];其中,最重要的部分莫過於臉部特徵的表示。若能取出臉部影像中每類表 情具有鑑別度的特徵,即使最後使用最簡單的分類方法進行分類,也能得到良好 的辨識效果。 早期的表情辨識方法是將肌肉活動的模型進行光流分析或估計特徵點的位 移[3-6]。然而,這些方法易受光線及外在環境的影響,敏感度較大易影響辨識的 效果。因此,現今提取臉部特徵的方法主要可分為兩類:基於幾何特徵的方法與 基於外觀特徵的方法[2]。以下我們針對此兩類方法的相關研究進行說明。. 2.1 基於幾何特徵的方法 臉部幾何分析已被廣泛的應用在臉部表情的表達[7-11],換言之,臉部組成 可由臉部幾何的形狀、位置所構成。由於各種表情在臉部肌肉牽動的區域其形 狀、線條皆不同,故基於幾何特徵的方法主要是利用臉部的幾何特徵,例如:眼 睛、鼻子及嘴巴等形狀或位移的變化進行分析。基於幾何特徵的方法通常會使用 人臉動作編碼系統進行臉部表情辨識。人臉動作編碼系統[12](Facial Action Coding System, FACS)是 1978 年由 Ekman 及 Friesen 所提出,用以描述臉部的各 種表情,其中每一個動作單元(Action Unit, AU)代表著臉部的一個動作。觀察各 種表情牽動臉部肌肉的狀況,可定義出 46 種動作單元(如圖 2.1 所示),並透過動 作單元的組合,來進行表情辨識。 在臉部幾何分析中,以幾何特徵位移的變化進行分析的方法如 Kotsia 等人. 3.

(12) [13]將序列影像的第一張無表情的臉部影像放置一些網格節點,這些網格可大致 對應到臉部的五官。網格會因臉部動作而產生變形,藉由追蹤第一張無表情的臉 部影像及最後一張表情臉部影像得到這些節點的幾何位移,並送入事先經支持向 量機訓練過各種動作單元的系統進行辨識。Zhang 等人[14]使用眼睛、鼻子及嘴 巴的幾何位置,手動將臉部影像以 34 個基準點作為臉部特徵。在影像序列中, 臉部運動可透過測量目前影像與初始影像中臉部特徵點的幾何位移,最後可得到 68 個元素向量,再將這些向量運用多層感知器進行分類。但此類方法必須先將 臉部中幾何特徵標上節點以利後續追蹤,才可得到較好的辨識結果;因此,這些 基準點放置的位置攸關著辨識結果的優劣。 Valstar 等人[15]則提出了 AU 檢測的方法,以臉部每個動作單元作為基準 點,計算這些基準點與哪類表情的 AU 最相近。雖然這類方法能透過動作單元精 準的辨識臉部表情,但這類的表情辨識系統往往需要準確的定位與追蹤臉上特定 的五官位置,才有不錯的辨識效果。如今此類表情辨識系統大多會加上 AdaBoost 演算法來偵測這些運動單元的位置[16]。Whitehill 等人[17]則使用 Haar 特徵加上 AdaBoost 演算法先將每個 AU 所代表的 500 個 Haar 特徵選出後,每個 Haar 特徵 即為一個分類器,再將臉部的幾何特徵透過這些分類器判斷屬於哪一類表情。其 實驗結果顯示,此方法不僅辨識率可達 92.35%,且耗時僅 0.31 毫秒。至於在動 態的影像序列上,由於頭部的擺動會導致臉部的幾何特徵定位失敗,為了準確追 蹤這些幾何特徵,Zhang 等人[18]提出使用主動性紅外線照明及卡曼濾波器處理 頭部移動所造成追蹤失準的問題,其效果較為準確且具有強韌性,對於不同條件 下的臉部影像序列皆可辨識。 近幾年來,已有許多學者證實若將幾何特徵的方法結合外觀特徵的方法,可 比單獨使用幾何特徵的方法其辨識準確度更高,如 Zhang 等人[19]以尺度不變特 徵轉換(SIFT)及幾何特徵兩種方法進行臉部表情特徵的取出,並且使用最大關聯 最小冗餘準則(mRMR)將兩種方法所獲取的特徵向量進行融合。Hamm 等人[20] 在動態的影像序列上則是先將每段時間臉部中特定幾個 AU 特徵取出後,再使用 4.

(13) Gabor 小波來表示這些 AU 特徵,並觀察這些特徵在時間序列上的變化,最後 以 AdaBoost 分類器進行表情的判別。. AU1. AU2. AU4. Inner Brow Raiser Outer Brow Raiser. Brow Lowerer. AU5. AU6. AU7. Upper Lid Raiser. Cheek Raiser. Lid Tightener. AU9. AU10. AU11. Nose Wrinkler. Upper Lip Raiser. Nasolabial Deepener. AU12. AU13. AU14. Lip Corner Puller. Cheek Puffer. Dimpler. 圖 2.1:各種動作單元. 2.2 基於外觀特徵的方法 基於外觀特徵的方法主要是依據每類臉部表情的紋理、像素值上的差異來進 行分析。此類方法用於臉部特徵的表示大致可分為獨立成分分析(Independent Component Analysis, ICA)[21]、Gabor 小波分析[22]、主成分分析法(Principal Component Analysis, PCA)[23] 、 線 性 判 別 分 析 (Linear Discriminant Analysis, LDA)[24]及局部二元圖樣(Local Binary Pattern, LBP)[25]等方法進行臉部表情特 徵擷取。 在 1998 年時,Zhang 等人[26]證明了 Gabor 小波對於表情辨識的效果優於使 5.

(14) 用幾何特徵的方法。Tian[27]也驗證了在真實的環境中,Gabor 小波相較於幾何 特徵的方法辨識效果更好。Donato 等人[28]則探討不同技術對臉部動作辨識的優 劣,這些技術分別是 PCA、ICA、局部特徵分析(Local Feature Analysis, LFA)、 LDA 及 Gabor 小波表示法;實驗結果顯示以 Gabor 小波表示法及 ICA 最佳。現 今,不論在臉部表情辨識或人臉辨識領域中,皆可看到以 Gabor 小波來表達人臉 圖像特徵的方法[14][22][27][29]。Bai 等人[30]先偵測出臉部的 28 個特徵點,再 以五個頻帶及八個方向的 Gabor 小波濾波器進行分析。Bashyal 等人[31]提出以 Gabor 小波進行整張臉部表情影像特徵擷取,最後以學習向量量化(Learning Vector Quantization, LVQ)進行分類;其實驗結果發現,對於難以分類的恐懼表 情,可大幅提升此類表情的辨識率。Lajevardi 等人[32]提出使用對數 Gabor 濾波 器進行特徵提取,與 LBP 方法相較下辨識率較高,但過程計算複雜且須耗費較 多時間。由於 Gabor 小波表示法為了提取多尺度和多方向的係數,Gabor 濾波器 必須使用 multi-bank 與人臉圖像進行摺積,因此會耗費許多時間及記憶體儲存空 間[29]。近年來,為了解決上述問題,區域二元圖樣(Local Binary Patterns, LBP) 逐漸被開發用來表達圖像資訊[1][33][35]。已有研究結果證實[36],LBP 對光照 的變化及低解析度的影像較具強韌性;因此,辨識效果比 Gabor 小波佳。. 2.3 區域二元圖樣相關研究探討 自 1960 年以來,紋理的分析已應用在各類的研究主題,並開始有學者提出 各種取出具有鑑別度的紋理方法。一般來而言,這些方法可分為四類:統計、幾 何、基於模型、與信號處理[37]。其中,最廣泛被使用的是二階灰度統計的共生 矩陣方法(Co-occurrence Matrices of Second Order Gray Level Statistics)[38]、以信 號處理為基礎的局部線性轉換(Local Linear Transforms)[39]、多通道 Gabor 濾波 器(Multichannel Gabor Filtering)[40]、小波(Wavelets)[41]及馬可夫隨機場(Markov Random Fields)[42]。但是這些方法若應用在現實世界中的紋理現象,有時無法表 6.

(15) 現出優秀的效能;更因為這些方法的計算過於複雜,無法符合即時設備上的需求。 因此,近幾年來具有識別能力及計算效率的局部紋理表示法被提出,像是區 域二元圖樣[43][44]。此方法應用在各種以紋理方法為基礎的電腦視覺問題有重 要的進展,研究的焦點也從 2D 紋理擴大至 3D 紋理[45-47]。其應用範圍包括: 臉部及臉部表情辨識[36]、物件辨識[48]、背景相減[49]、視覺語音辨識[50]、與 動作及步態的辨識[51]。 在臉部表情辨識研究中基於外觀特徵的方法,由於 LBP 對光照的變化及低 解析度都具有較佳的強韌性,辨識效果比 Gabor 小波佳。因此目前已有一些學者 將區域二元圖樣應用在表情辨識系統中,也得到相當不錯的結果,例如 Feng 等 人[25]使用 LBP 進行臉部表情特徵提取,並運用線性規劃進行七種表情的分類, 由實驗結果得知,此方法表現出相當優異的效能。Viola 等人[36]的研究更表明 LBP 的方法相較於 Gabor 小波表示法,其運算速度較快,且在低解析度的表情影 像中,能取出具鑑別度的臉部資訊。 由於以整張臉部影像進行特徵擷取將導致計算量過大及擷取到不必要的資 訊,針對這些問題,Liu 等人[52]比較區域 LBP 與全域 LBP 對於表情辨識的準確 度;其中區域 LBP 指的是針對眼睛、嘴角、眉毛區域,全域則是整張臉部影像, 實驗結果顯示全域 LBP 的效能較佳。為了能更準確的選出那些不同表情容易造 成變化的區域,Shan 等人[53]藉由在人臉影像上通過移動和縮放子區窗口,並以 AdaBoost 演算法選出較具鑑別能力的子區域,再將這些子區域進行 LBP 運算 後,其辨識率與傳統直接將臉部影像切割為許多個子區塊的 LBP 方法比較,大 約提升 2.5%。此外,除了直接在人臉影像中提取子區域,Shan 等人[54]提出以 AdaBoost 演算法在 LBP 直方圖中透過學習來取得具有鑑別能力的資訊。近年 來,臉部表情辨識大多應用於視訊會議中。為了使影像能夠即時傳遞,必須降低 影像的解析度;因此,許多學者開始研究在低解析度的影像上進行表情辨識,以 驗證其方法的實用性。Shan 等人[55]將臉部區域分為六種不同的解析度,實作 LBP 及 Gabor 兩種方法,並與 Tian 等人[27]所提的方法進行比較;其中,Tian 7.

(16) 等人使用 Gabor 濾波器擷取出不同影像臉部特徵的改變,送入支持向量機 (Support Vector Machine, SVM)對六種表情進行辨識,並與特徵追蹤[8]及特徵偵 測[57]兩種基於幾何特徵的方法進行比較。從一些論文的結果可以看出幾何特徵 的方法並不適用於低解析度的影像辨識,因為低解析度的影像會導致追蹤臉部元 件(例如:眼睛、嘴巴等)變得困難。此外,從 Shan 等人[55]及 Tian 等人[27]所得 到的結果中顯示,LBP 更適合於低解析度的影像中進行表情辨識。此與 Liao 等 人[58]以 LBP 及 Gabor 小波對 JAFFE 資料庫[59]進行低解析度影像的表情辨識結 果相吻合。所以,LBP 在一定範圍的低解析度下較具強韌性與穩定性,能應用於 真實世界中特別是低解析度影像的輸入。. 8.

(17) 第三章 基於全域與局部紋理之臉部表情辨識系統 表情辨識的效能,通常與臉部影像中的光線變化、影像解析度等影響息息相 關;從一些論文的探討中我們得知,使用外觀特徵為基礎的方法對於這些影響較 具容忍能力,且辨識效果相較於幾何特徵方法佳;其中,又以區域二元圖樣較能 適應影像中光線變化及解析度影響且運算速度較快。基於此原因,本論文採用區 域二元圖樣作為擷取臉部表情紋理的方法。 本章將逐步介紹本論文所提出的局部與全域臉部表情紋理特徵之擷取的詳 細程序。本研究一開始先將臉部影像經由離散小波轉換獲取維度縮減後的特徵資 訊,再採用局部與全域兩種不同的特徵擷取方法,對臉部表情進行特徵擷取。其 中,局部特徵擷取採用區域二元圖樣,而全域特徵擷取則是使用門檻值區域二元 圖樣。最後,將所有的樣本透過前述的方法所獲得的特徵,透過支持向量機進行 樣本資料的訓練與測試,計算所有表情樣本被正確分類到表情類別個數,獲得本 論文所提方法之整體表情辨識的辨識率。. 3.1 離散小波轉換 為了擷取出具有辨識能力的表情特徵並降低特徵資訊的維度,我們先對原始 影像進行一階離散小波轉換(Discrete Wavelet Transform, DWT),將影像壓縮後, 取出低頻部份做為後續進行臉部紋理分析的依據。詳細方法如圖 3.1 所示。 LL. Original image. LH. 1-level. Extract. DWT. LL region. HL. HH. 圖 3.1:本論文之離散小波轉換程序. 9.

(18) 假設原始影像大小為 M×N,經過第一次水平分割後其影像寬度會變為 M/2, 再經過第一次垂直分割後,最後可得到四張(M/2)×(N/2)的影像大小,如圖 3.2 所 示,此四張影像分別標記為 LL、LH、HL 及 HH。其中低頻 LL 影像中包含大部 份重要資訊,且已屏除掉雜訊的影響及無關的區域;因此,我們取出低頻部份做 為臉部表情影像,進一步進行臉部紋理分析。 由於 Shih 等人在文獻[60]提出 DWT 是適合用來提取影像特徵的工具,因此 本論文使用 DWT 將影像進行壓縮,以降低臉部表情特徵的維度。本論文中,將 原始臉部影像大小為 128×128 像素進行一階離散小波轉換,獲得 64×64 的影像大 小後再進行表情特徵的提取。. M. M/2 水平分割. N. N. M/2. 垂直分割 N/2. 圖 3.2:離散小波轉換. 3.2 局部紋理特徵 對於不同的臉部表情,我們得知其變化主要集中在面部的區域紋理,如眼 角、嘴角。本論文採用區域二元圖樣表示區域的紋理結構特徵。由於其具有簡單 而且運算速度快的優點,所以可以應用於即時的影像分析。另外,該紋理特徵具 有相當程度容忍光線變化的特性,較能克服現實生活中影像光照亮度的問題並得 到較佳的辨識效果,獲得許多學者認同,故目前已被大量應用於解決各種電腦視 覺的問題。. 3.2.1 LBP 運算子 LBP 最早由 Ojala 等人[43]提出,其原理是在影像中每一點的位置取一大小. 10.

(19) 為 3×3 的區域,運算時以該區域上的中間點像素值對其周圍相鄰點的像素值進行 差值計算並編碼。 假 設 有 張 單 色 影 像 I ( x, y ) , g c 表 示 任 一 像 素 點 (x, y) 的 灰 階 值 , 例 如 g c = I (x, y ) 。此外,讓g p 表示其半徑R上周圍均勻分佈的相鄰點數目P的取樣點(x, y): g p = I (x p , y p ) , p = 0,..., P − 1. (1). 其特徵點 p 的座標可表示為可表示為: I (x p , y p ) =  x + R × cos 2πp , y − R × sin  2πp   P  P   . (2). 因此,假設 t 為 P+1 個點的灰階值所組成的聯合分佈, I ( x, y ) 的局部紋理影像 可表示為: T = t ( g c , g 0 , g1 ,..., g P−1 ). (3). 為了保留紋理資訊,我們根據中心點與其相臨點之灰階值差異計算出此區域紋理 的變化。 T = t ( g c , g 0 − g c , g1 − g c ,..., g P−1 − g c ). (4). 由於g c 為中心點的灰階值,我們假設g c 在統計上的差異是獨立的,因此聯合分佈 的近似可分解為 T ≈ t (g c )t (g 0 − g c , g1 − g c ,..., g P −1 − g c ). (5). 其中,t(g c )由於對於局部紋理分析較無相關,因此將其省略並表示為 T ≈ t (g 0 − g c , g1 − g c ,..., g P −1 − g c ). (6). 為了看出紋理變化的情形,可以使用一個簡單的門檻值函數來表示, 11.

(20) t (S (g 0 − g c ), S (g1 − g c ),..., S ( g P −1 − g c )). (7). 其中, S ( z ) 為門檻值函數或稱步階函數,可表示為 1, S (z ) =  0,. z = g p − gc ≥ 0 z = g p − gc < 0. (8). 在此我們將門檻值設為 0。若各相鄰點與中心點的灰階值差異大於門檻值則給予 編碼為 1,反之則編碼為 0。將八個鄰點依序進行運算後,最後可得到一個由八 位元組成的二進制數字。 接著將得到的二進制數字的八個位元乘上各自相對應的權重,即(g 0- g c ), …, (g 8- g c )分別乘上 20、21…、27;然後,將乘上權重後的八個位元相加之後的總合 即為此中心點g c 在LBP P,R 的LBP特徵值。. LBPP , R = ∑i =0 2 i ×S ( g i − g c ) P −1. (9). 圖 3.3 為一 LBP 編碼範例。左圖為在影像上任一 3×3 區塊,將該區塊上的 中間點像素值,對其周圍相鄰點的像素值進行門檻值函數的運算,可以得到其對 應的二位元編碼,接著乘上相對應的權重值,加總後即為 LBP 編碼值。 3×3 區塊. 二元運算. 4. 12. 9. 0. 9. 9. 5. 1. 15. 7. 1. 1. 1. 0. 權重 1. 1. 0. 128. 0. 64. Pattern = 01100011. 2. 4 8. 32. 16. LBP = 2+4+64+128. 圖 3.3:LBP 編碼範例 最後,影像上每一點進行 LBP 運算後,將每點的 LBP 特徵值進行直方圖 (Histogram)運算。我們假設 LBP 影像中任一點為 f ( x, y ) ,則 LBP 直方圖的定義 12.

(21) 如下, H i = ∑ x , y I ( f ( x, y ) = i ) ,  1, I ( A) =  0,. i = 1,..., n − 1. (10). A is true A is false. (11). 其中 n = 2 P ,表示影像經由 LBP 運算後共有 n 種不同的輸出,因此直方圖的橫 軸必需要有其相對應的值。由於本論文相鄰點數目 P 為 8,因此在本論文中 f ( x, y ) 進行 LBP 運算後的範圍為 0 到 255。 在影像處理中,最常用的統計方法是直方圖統計。直方圖統計可根據影像上 像素灰階的分佈呈現出影像的相關性,因此許多研究學者會使用直方圖統計進 行影像的像素或特徵的表現。臉部影像經由 LBP 運算後的範圍為 0 到 255,因此 我們將 經由直方圖運算可以清楚的看出臉部表情特徵值的分布,如圖 3.4 所示。其 中直方圖的橫坐標代表 LBP 值,縱座標代表某 LBP 值在整張影像的總數目。. (a). (b). (c). 圖 3.4:LBP 對應的直方圖。(a)原始影像,(b)經過 LBP 運算後的影像,(c)LBP 直方圖。 LBP P,R 中的P表示相鄰點的數目,R表示中心點與相鄰點的距離。由於P及R 並沒有任何限制,因此從原始的LBP中可以衍生出多種不同的相鄰點數目P及半 徑R,以解決各種不同的問題,如圖 3.5 所示。. 13.

(22) (a). (b). (c). 圖 3.5:LBP 不同的半徑 R 及相鄰點數目 P[44]。(a)R = 1,P = 8,(b)R = 2, P = 16,(c)R = 2,P = 8。 原始LBP P,R 由八個點所組成,因此會有 28 = 256 種不同的運算結果。為了消 除不必要的雜訊及非重要的紋理資訊,Ojala等人[44]後來又提出Uniform LBP的 概念。與傳統的LBP運算不同的在於二進制編碼過程中,若每個位元與其兩邊相 鄰的位元由 1 變化為 0 或 0 變化為 1 的次數不超過兩次,就是Uniform LBP;例 如,二進制編碼 00000000(變化次數為 0)、01110000(變化次數為 2)及 11001111(變 化次數為 2)皆是Uniform LBP;但 11001001(變化次數為 4)、01010011(變化次數 為 6)就不是Uniform LBP。因此,若半徑為R為 1、相臨點P為 8 的Uniform LBP 則會產生 P( P − 1) + 3 = 59 種不同的LBP特徵值。 此外,LBP 的二進制編碼可以偵測出此區域屬於那種類型。在圖 3.6 中,白 點代表 0,黑點代表 1,從 LBP 的二進制編碼可看出一些細微的紋理特徵,例如: 邊緣、轉角、平坦區域等。其中,這些重要且細微的紋理特徵 LBP 二位元編碼 的變化次數皆符合 Uniform LBP。. 圖 3.6:LBP 運算子可表示不同的紋理[44]. 14.

(23) 3.2.2 LBP 之局部紋特徵 LBP主要是將某一像素點與其周圍像素點的灰階值差異進行編碼,因此,從 LBP特徵直方圖雖然可以看出整張臉部影像區域紋理的分佈情形,例如邊緣、點 及其他紋理,但為了能更有效地表示整張人臉影像中細微紋理的組成,本論文採 用區塊式(Block-Based)方法建構LBP影像。所謂區塊式LBP影像的建構是將人臉 影像分成幾個固定大小的子區塊R 0 , R 1 , …, R m ,並對每個子區塊進行LBP特徵擷 取並進行直方圖運算,然後將全部子區塊的直方圖串接一起形成一個單一且代表 該張臉部表情影像的特徵直方圖,最後再將特徵直方圖送入分類器進行表情辨 識。經由LBP取出每個子區塊的特徵後,串接形成表情特徵直方圖的定義如下: H i , j = ∑ x , y I ( f l ( x, y ) = i ), I {( x, y ) ∈ R j }. i = 0,... , n − 1 , j = 1,..., m − 1. (12). 本論文將影像切割為許多非重疊 n × n 的子區塊,例如可分為 2×2 或 4×4 個 區塊。一張臉部表情影像經 DWT 取出低頻區域後,再將影像切割成 2×2 個非重 疊子區塊,並經特徵抽取,最後串接成表情特徵直方圖,如圖 3.7 所示。. 圖 3.7:局部紋理特徵抽取方法. 3.3 全域紋理特徵 由於不同的表情造成臉部中眼睛及嘴巴的形狀也不盡相同,其中 LBP 的編 碼主要為像素點與其周圍像素點的灰階值差值關係;因此,若之間的差異性很小. 15.

(24) 則也會被編碼為 0 或 1,對於眼睛及嘴巴這些較突出的特徵就難以清楚表達。為 了克服此問題,本論文採用門檻值區域二元圖樣(Threshold Local Binary Pattern, TLBP)[61]對全域紋理特徵進行提取。. 3.3.1 TLBP 運算子 門檻值區域二元圖樣運算主要延伸自區域二元圖樣。雖然 LBP 對於光照變 化、臉部局部細微特徵、邊緣及點的偵測皆有不錯的表現,即使臉部影像歪斜, 也具有抗旋轉的特性;但是,在 LBP 的運算方式中(見公式(8)),考量一個 3×3 的區域,只要相鄰點的顏色大於或等於中心點,則編碼為 1;反之,則編碼為 0。 如此設計,難以分辨出相鄰點與中心點的顏色差異程度;因此,相對的全域紋理 特徵不易突顯。 為了改善 LBP 對於相鄰點與中心點顏色差異程度表達不佳,並更加突顯這 些臉部全域紋理特徵,我們將原本 LBP 中門檻值函數的門檻值設為大於 0 的數 值,使得相鄰點與中心點之間的差異程度必需大過所設定的門檻值才編碼為 1; 反之,則編碼為 0。其中,我們令門檻值為 C,且 C > 0。定義如下: 1, S (g p − g c ) =  0,. g p − gc ≥ C g p − gc < C. ,. (13). 接著將得到的二進制數字的八個位元乘上各自相對應的權重,即(g 0- g c ),…, (g 8- g c )分別與 20、21…、27進行相乘,然後,將乘上權重後的八個位元相加之後的總 合即為TLBP特徵值。 圖 3.8 為一 TLBP 編碼範例。在影像上任一 3×3 區塊時,則將區塊上的中間 點像素值,對其周圍相鄰點的像素值進行門檻值函數的運算,其中,我們將門檻 值設定為 5,接著可以得到其對應的二位元編碼,再乘上相對應的權重值,加總 後即為 TLBP 編碼值。. 16.

(25) 3×3 區塊. 二元運算. 4. 12. 9. 0. 9. 9. 5. 0. 15. 7. 1. 1. 0. 0. 權重 0. 1. 0. 128. 0. 64. Threshold C = 5 Pattern = 00000010. 2. 4 8. 32. 16. TLBP = 64. 圖 3.8:TLBP 編碼示意圖 對於不同的門檻值,經由 TLBP 所表現出來的影像也會不相同,如圖 3.9 所 示。當 C 為 0 時,經過 TLBP 運算後所得到的影像擁有許多的資訊;隨著 C 值 的變大,眼睛、鼻子及臉部輪廓就會被突顯出來,相對的臉部中的細紋就會減少。 對於表情辨識而言,臉部的全域特徵通常對於不同的表情有不同的表現,能夠提 供更有效的進行分類。因此,適當的門檻值可以加強這些主要的特徵。. C=0. C=1. C=5. C=10. C=15. C=20. Original. 圖 3.9:不同門檻值造成不同的 TLBP 圖. 3.3.2 TLBP 之全域紋特徵 根據 TLBP 對於臉部表情影像造成的結果,我們可以觀察到經 TLBP 與 LBP. 17.

(26) 後的臉部影像,不同的地方在於 TLBP 隨著門檻值變大,臉部的五官及輪廓就越 容易被突顯出來;而 LBP 則是用來表現區域紋理的分佈情形。因此,本論文在 使用 TLBP 進行臉部表情紋理的提取時,採用非區塊式(Non-Block-Based)的表情 辨識方法,即直接將整張臉部影像進行 TLBP 特徵擷取,然後再以直方圖運算(見 公式(10)),得到代表該張臉部表情影像的特徵直方圖,最後在送入分類器進行表 情辨識。圖 3.10 是一張經由 DWT 運算後取出 LL 部分的臉部影像,透過 TLBP 特徵取出全域特徵後,最後由直方圖運算變成表情特徵直方圖的示意圖。. TLBP. Face Image. Feature Histogram. 圖 3.10:全域紋理特徵抽取方法. 3.4 表情辨識系統 當臉部表情分別經由 LBP 及 TLBP 萃取出局部和全域紋理特徵後,分別以 區塊式與非區塊式直方圖運算,可以分別得到其所對應的直方圖特徵。最後,將 此兩種直方圖串接起來,形成該張臉部表情的局部及全域紋理特徵,並將這些特 徵向量,輸入至支持向量機進行樣本訓練及測試。本節最後將詳細說明本論文表 情辨識系統的整體流程。. 3.4.1 結合局部及全域的特徵直方圖 為了表達臉部表情特徵,我們使用直方圖統計分析整張 LBP 影像及 TLBP 影像中的紋理特徵。根據觀察,我們得知 LBP 主要是表現在局部細微的特徵, 像是臉部上的皺紋及肌肉的線條。TLBP 則是表現臉部的全域特徵,像是一些像 18.

(27) 素值差異較大的區域,例如:眼睛、鼻子、嘴巴及臉部輪廓。為了取出這些局部 及全域的特徵,本論文結合 LBP 及 TLBP 的方法做為表情特徵擷取的方法,並 串接兩者的特徵直方圖作為整張臉部表情的表情特徵直方圖。 首先,我們將一張臉部表情影像經過一階DWT後,取出低頻部分的影像, 並分別進行LBP及TLBP擷取局部特徵及全域特徵。在進行LBP運算時,必須先將 影像切割為幾個非重疊的子區塊,再將每個區塊進行LBP提取特徵,然後每個區 塊分別產生一組特徵直方圖,如圖 3.11 所示。接著將這些區塊的特徵直方圖l 1 , l 2 , …, l n 依序串接起來,其中n為所考慮的子區塊總數。至於TLBP運算,則將整張 臉部影像求取TLBP特徵值後進行直方圖分析,獲得特徵直方圖g。最後,將l 1 , l 2 , …, l n 及g依序串連起來,形成此張表情影像的特徵直方圖h。詳細LBP與TLBP 特徵直方圖串接的說明如圖 3.11。由於此特徵直方圖包含了LBP及TLBP對於整 張臉部影像的特徵,充分地表達整張臉部的資訊,我們便採用此混合特徵,做為 輸入臉部表情影像的表情特徵,並藉以進行辨識。. LBP. l1. l2 l3. l4 Combine. Face Image. TLBP. Feature Histogram. g. 圖 3.11:LBP 與 TLBP 結合的示意圖. 3.4.2 系統整體流程 本論文利用上述的理論萃取出臉部局部與全域紋理特徵,結合人臉偵測及分 19.

(28) 類器 SVM,將這些技術整合成一套人臉表情辨識系統。 在前處理部分,我們以 OpenCV 中的人臉偵測函式庫對輸入影像進行臉部擷 取的動作,如圖 3.12 所示。OpenCV 中的人臉偵測函式庫是使用 Viola 及 Jones[36] 所提出的方法,該法使用 AdaBoost 學習演算法挑出代表人臉的 Haar 特徵來實現 人臉偵測。我們以此法對序列影像進行處理,取出大小為 128×128 臉部表情影像 後,再依序進行離散小波轉換及本論文所提出的特徵擷取方法,最後使用 SVM 進行辨識。. Face detection. 圖 3.12:臉部影像擷取過程 特徵直方圖中包含的資訊若越多,相對的辨識的準確度也會提升,但系統整 體耗費的時間也相當的可觀。所以本論文將臉部影像經過離散小波轉換壓縮後, 取出低頻的部分分別進行LBP及TLBP。進行LBP時,先將此臉部影像切割n×n個 子區塊,共n2塊子區塊,接著對每塊子區塊求取其直方圖後串接起來可得到維度 為n2×256 的特徵直方圖。進行TLBP運算時,由於TLBP並不需要進行區塊分割, 因此直接將進行TLBP後的影像求取其直方圖,並將此直方圖串接於上述LBP所 產生的特徵直方圖之後,形成一個新的混合特徵直方圖。該特徵直方圖維度大小 為(n2+1) ×256,我們便採用此特徵直方圖,作為輸入臉部表情影像的特徵。 圖 3.13 為本論文系統流程圖。系統可分為訓練及測試兩個部分。在訓練部 份,每一張影像經過上述所提的步驟提取相關特徵後,利用 SVM 針對欲訓練的 七種表情樣本進行分類訓練,可獲得一個訓練好的 SVM 模型。在測試部份,將 20.

(29) 取得測試影像之特徵向量,並送入已經訓練好的 SVM 模型,進行預測並獲得辨 識結果。. LBP Histogram 訓練影像. 低頻 影像. DWT. 特徵向量 TLBP Histogram. SVM模 組. SVM訓練. 辨識結果. LBP Histogram 測試影像. DWT. 低頻 影像. 特徵向量 TLBP Histogram. 圖 3.13:系統流程圖. 21.

(30) 第四章 實驗結果 本章將對本論文提出的臉部表情辨識方法進行效能測試。並與莊順旭[64]和 Shan 等人[55]所提出的方法,進行實驗數據的比較與分析。另外,再對低解析度 影像進行實驗,並與 Shan 等人[55]和 Tian[27]所提供的數據進行辨識程度的比較。. 4.1 實驗環境 本實驗環境為一台四核心的電腦,CPU 型號為 Intel® Core™ E5400 @ 2.7GHz,記憶體大小為 2GB,作業系統為 Windows XP Professional,程式語言為 C++,並搭配使用 OpenCV 函式庫。 本論文使用 T. Kanade 及 J. Cohn 所提供的 Cohn-Kanade 資料庫[62]來進行實 驗。Cohn-Kanade 資料庫目前已被臉部表情研究領域中的學者廣泛採用,此資料. 庫主要由 97 位年齡介於 18 歲到 30 歲之間的大學生組成,其中 65%為女性、15 %為美裔非洲人、3%為亞洲人或拉丁美洲人,共 486 組序列影像。如圖 4.1 所 示,每段序列中的影像大小為 640×690 像素的灰階圖,共有六種表情,每個人的 表情序列影像皆由無表情開始直到表情產生為結束,但並非每個人都具有六種表 情。Cohn-Kanade 資料庫中的部分影像如圖 4.2 所示。. time. time. 圖 4.1:Cohn-Kanade 資料庫中每段表情影像序列. 22.

(31) 圖 4.2:Cohn-Kanade 資料庫中的表情影像. 由於該資料庫並非全部將每段影像序列定義是六種表情的哪一種(高興、恐 懼、厭惡、驚訝、悲傷、憤怒),因此,我們依照經驗判斷來進行該段影像序列 的歸類。本實驗選取資料庫中 320 段序列影像,共 93 人的 1 至 6 種表情,對於 每一段影像序列,選取第一張作為無表情影像,並選取最後三張當作表情影像。 本論文選取表情的準則如圖 4.3 所示。本實驗共選取 1280 張影像,其中每類表 情的影像有 320 張無表情、108 張憤怒、120 張厭惡、99 張害怕、282 張高興、 126 張悲傷、225 張驚訝。 在分類器的使用部分,我們使用台大林智仁老師等人所開發的 LIBSVM 軟 體[56]。一開始先將表情樣本取出特徵資訊後送入 LIBSVM 進行訓練,再將測試 資料送入訓練時所獲得的 SVM 模型,即可從預測的結果中計算出本論文所提方 法的辨識效能。其中,對於 SVM 中的參數,我們採用固定範圍內將所有的參數 依指數成長的方式來增加或減少參數的數值。. 23.

(32) 圖 4.3:選取表情的準則,由上至下依序是無表情、憤怒、厭惡、害怕、高興、 悲傷、驚訝. 4.2 實驗分析 本節我們將進行八項實驗,以測試本論文所提方法的效能,並從每項實驗中 產生的結果,作為我們表情辨識系統中每個流程設計與使用方法的依據,使表情 辨識系統擁有最佳的效能。表 4.1 為每一項實驗的說明。. 24.

(33) 表 4.1:本論文進行八種實驗的說明 實驗. 介紹. 實驗一. 原始 LBP 與 Uniform LBP 編碼方式對於低頻影像辨識率的比較。. 實驗二. 進行 DWT 與未進行 DWT 之影像對於辨識率提升的比較。. 實驗三. 將影像切割不同的區塊數對於辨識率的影響。. 實驗四. TLBP 使用不同門檻值對於辨識率的影響。. 實驗五. SVM 使用不同核心函數對於辨識率的影響。. 實驗六. 不同低解析度下各種方法對於六類表情的辨識率。. 實驗七. JAFFE 資料庫使用本論文所提方法之辨識率。. 實驗八. 樣本數減少對於辨識率之影響。. 由於本論文的目的為測試每張臉部表情是否會被分類至正確的表情類別,因 此為了更精確的測量本論文所提方法的辨識效能,我們與大多數文獻相同,採用 10 次交叉驗證(10-Fold Cross Validation)架構進行演算法的測試。所謂 10 次交叉 驗證的意思是將資料集隨機分成十等分,每次選取其中一個資料集當作測試樣本 (Testing Dataset),剩餘的九個資料集當作訓練樣本(Training Dataset),並且重複 上述動作 10 次,直到每個資料集都被選為測試樣本一次後結束。 圖 4.4 為 10 次交叉驗證的範例,我們隨機將 1280 張影像分成十等分,每等 分包含七類表情。首先,選取第二至第十等分作為訓練樣本,進行分類訓練,獲 得一個經 SVM 訓練好的模型。再將第一等分作為測試樣本並送入已經訓練好的 SVM 模型,進行預 測並獲得第一 次的辨 識結果。每次 表情分 類的準確率 (Classification accuracy, CA)可由下列定義的公式計算得到。 CA =. number of correct classification × 100% number of samples. (14). 重複上述動作共 10 次,每個等分依序輪流作為測試樣本,直到每等分的資料集 都被選為測試樣本後結束。將每次表情分類所獲得的準確率加總起來取平均值, 25.

(34) 即為表情辨識系統整體的辨識率。辨識率 R 的計算方式如下: R(%) =. 1 10 ∑ CAi 10 i =1. (15). Set1. Set1. Set1. Set2. Set2. Set2. Set3. Set3. Set3. Set4. Set4. Set4. Set5. Set5. Set5. Set6. Set6. Set6. Set7. Set7. Set7. Set8. Set8. Set8. Training data. Set9. Set9. Set9. Testing data. Set10. Set10. Set10. 圖 4.4:10 次交叉驗證示意圖. 4.2.1 實驗一 由於大部份表情辨識相關文獻皆使用 Uniform LBP 的編碼方法[55][64],究 其原因,若以 Uniform LBP 的編碼方法,則可以提升計算效率並降低對雜訊的敏 感度,然而我們的方法經過 DWT 的降維處理後,低頻部份的臉部影像大小已縮 減為原本影像大小的一半。因此,若我們仍採用 Uniform LBP 的編碼方法,則可 能會將具有重要資訊的低頻影像中某些部分視為雜訊,影響辨識結果。相對地, 若採用原始 LBP 編碼方法,則可保留低頻影像中的每個資訊。 本實驗將原始臉部影像(128×128)進行一階 DWT 後,獲得低頻影像(64×64), 再切割為四塊 32×32 大小的子區塊,分別以原始的 LBP 與 Uniform LBP 編碼方 法進行辨識效能的比較。實驗結果證實,經過一階 DWT 降維後的低頻影像,使 用原始的 LBP 的編碼方法比 Uniform LBP 的編碼方法辨識率較高,結果如表 4.2 所示。 26.

(35) 表 4.2:原始LBP與 Uniform LBP編碼方式對於表情影像的辨識率 方法. 辨識率. LBP with 256 bins. 93.67%. Uniform LBP with 59 bins. 89.84%. 根據實驗結果我們得知,經過一階DWT後的低頻臉部影像,其中已包含大 部分重要資訊並已屏除掉雜訊的影響。因此,本論文所提方法應使用 原始LBP 編碼方法較為合適 。我們後續的實驗皆使用 原始LBP編碼方法,即 灰階值分 布從 0 到 255 範圍的LBP及TLBP做為本論文的方法。. 4.2.2 實驗二 特徵陣列的維度高低通常與準確率的高低成正比,但是高維度的特徵陣列將 大幅增加整個辨識系統的時間。為了減少高維度的影像資料,提高分類器的運算 效率,我們使用 DWT 降低特徵資訊的維度,只保留臉部影像中重要的特徵資訊。 本實驗在此對臉部表情影像進行一階及二階的 DWT,並與未經過 DWT 的原始 影像進行辨識度的比較,找出一個較佳的方法,做為後續整體辨識系統的程序。 本實驗將大小為 128×128 的原始影像分別進行一階 DWT 與二階 DWT 的處 理,並取出低頻區域。其中,經過一階 DWT 後的影像大小為 64×64,二階 DWT 後的影像大小為 32×32,接著再使用區塊式 LBP 結合 TLBP 進行特徵擷取,每塊 區塊大小如表 4.3 所示,最後將特徵向量送入分類器進行七種表情的判別並計算 每種方法的辨識程度。. 27.

(36) 表 4.3:進行DWT與未進行DWT的辨識率 方法. DWT 後影像大小. 區塊大小. 辨識率. 未進行 DWT. 128×128. 32×32. 72.7%. 一階 DWT. 64×64. 32×32. 96.5%. 一階 DWT. 64×64. 16×16. 98.1%. 二階 DWT. 32×32. 16×16. 95.0%. 由實驗結果得知,經由 DWT 運算後的臉部影像,不僅串接後的特徵直方圖 維度降低一半,辨識率也大幅提升。從表 4.3 可看出,進行一階 DWT 方法的辨 識率相較於未進行 DWT 方法的辨識率可從 72.73%提升至 96.52%,增加約 24%。 經過二階 DWT 後的特徵維度雖然比經過一階 DWT 後的小,但因為特徵被縮減 過多,導致喪失一些重要資訊,因此,辨識率從 98.1%降至 95.0%,減少約 3%。 從實驗結果我們得知,臉部表情影像經過一階 DWT 後不僅特徵維降低且保留具 有鑑別度的資訊,並提升辨識的準確度,大幅增加表情辨識的整體運算效能。. 4.2.3 實驗三 由於我們在萃取局部紋理特徵時採用的是區塊式 LBP,而目前區塊式的表情 辨識方法中,大都以人為的方式決定影像切割的區塊數,因此實驗結果可能會受 到切割的區塊數目或區塊大小的影響。串接後的特徵直方圖其維度(D)的計算如 下:. D = (n + 1) × 256 , n = 區塊總數. (16). 由此可知,特徵直方圖的維度與區塊數目有絕對關係。本實驗將 DWT 後的 臉部影像 64×64 分別切割為 2×2 及 4×4 個區塊,對兩者進行七種表情辨識的效能 驗證。實驗結果如表 4.4 所示。. 28.

(37) 表 4.4:不同切割的區塊數對於辨識效能的影 響 區塊數. 特徵直方圖維度. 辨識率. 2×2. 1280. 96.5%. 4×4. 4352. 98.0%. 從實驗結果我們得知,若區塊大小越小則區塊數量越多,則有助於辨識效能 的提升。當臉部影像大小為 64×64 切割成 4×4 個區塊時,辨識率可高達 98.0%, 相較於切割為 2×2 個區塊的辨識率,提升約 1.5%。雖然區塊切割越細有助於辨 識率的提升,但由於區塊數目的增加,將導致串接後的特徵直方圖維度過大,特 徵直方圖的維度將從 1280 增加至 4352,增加約 240%,使得後續分類器進行樣 本訓練時會耗費大量時間。基於本實驗的結果及特徵直方圖維度的考量下,我們 採用 2×2 個區塊作為局部紋理提取的方法。. 4.2.4 實驗四 由於 TLBP 的門檻值不同,其 TLBP 影像中包含的資訊也不盡相同。本實驗 將測試不同的門檻值對於表情辨識效能的影響,並取出合適的門檻值,作為我們 TLBP 方法中所採行的門檻值。 從圖 4.5 的結果顯示,由於門檻值過大可能導致喪失 TLBP 影像中的重要資 訊,因此,隨著門檻值變大,辨識準確度並不會隨之增加;反之,若門檻值過小, 則 TLBP 影像中包含過多無用的雜訊,無法清楚的表示全域特徵。當門檻值設定 在 5 時,辨識準確度是所有設定值中最高;因此,選擇適當的門檻值確實有助於 提升整體的辨識效能。故我們採用門檻值為 5 作為施行 TLBP 方法時的門檻值。. 29.

(38) 圖 4.5:TLBP 使用不同門檻值產生的辨識率. 4.2.5 實驗五 當所有的樣本皆取出特徵後,我們使用 SVM 分類器來進行樣本訓練及測 試;其中,SVM 提供許多不同的核心函數(Kernel Function)將每類的特徵向量映 射 到 高 維 度 空 間 進 行 計 算 。 一 般 常 用 的 核 心 函 數 有 線 性 (Linear) 、 多 項 式 (Polynomial)及輻狀基底函數(Radial Basis Function, RBF)等。本實驗測試三種不 同的 SVM 核心函數,並計算這三種核心函數對分類準確度造成的影響。. 表 4.5:以本論文所提方法進 行 不同SVM核心函數 的辨識率比 較 核心函數類型. 辨識率. Linear. 95.8%. Polynomial. 95.5%. Radial basis function. 96.5%. 從表 4.5 我們可以觀察到,在本論文所提的方法中,分類器的核心函數不同 並不會對整體的辨識效能造成太大影響。在三個核心函數中,最差的核心函數所 獲得的辨識率與最好的核心函數所獲得的辨識率兩者僅相差 1%,差異非常微. 30.

(39) 小。三個核心函式中,以 RBF 核心函數辨識程度最高,此結果與其他表情辨識 文獻[55]的結果是相互吻合的。因此,我們採用 RBF 函數作為 SVM 的核心函數。. 4.2.6 實驗六 在現實世界中,如智慧型會議(smart meeting)及視覺監控系統等此類應用, 通常為了加快影像的傳送速度,因此將影像的解析度降低,以作為辨識系統的輸 入。一個現實世界中智慧型會議的視訊如圖 4.6 所示。為了將表情辨識方法更廣 泛的應用在生活中,對於解析度較低的影像是否能夠準確的辨識就變成關鍵問 題。. 圖 4.6:現實世界中,低解析度視訊的影像[63]. 因此,本實驗我們將所提的方法進行低解析度影像的臉部表情辨識,並採用 與 其 他 作 者 [55][27] 相 同 的 資 料 庫 及 影 像 的 解 析 度 。 這 兩 篇 文 獻 的 作 者 將 Cohn-Kanade 資料庫中的影像分為六種不同的影像解析度,分別是 110×150、 55×75、36×48、27×37、18×24、14×19,並將影像切割為大小為 10×10 的子區塊。 實驗結果如表 4.6 所示。. 31.

(40) 表 4.6:不同低解析度下各種方法對於六類表情的辨識率 Method. 110×150. 55×75. 36×48. Ours(2×2). 98. 4%. 97.8%. 97.4%. LBP[55]. 92.6%. 89.9%. 87.3%. Gabor[55]. 89.8%. 89.2%. 86.4%. Gabor[27]. 92.2%. 91.6%. -. Feature tracking[27]. 91.8%. 91.6%. -. Feature detection[27]. 73.8%. 72.9%. -. Method. 27×37. 18×24. 14×19. Ours(2×2). 97.3%. 97.2%. 94.6%. LBP[55]. 84.3%. 79.6%. 76.9%. Gabor[55]. 83.0%. 78.2%. 75.1%. Gabor[27]. 77.6%. -. 68.2%. Feature tracking[27]. N/A. -. N/A. Feature detection[27]. 61.3%. -. N/A. “-”表示無進行此實驗;N/A 表示有進行此實驗,但無法獲得辨識結果。. 由於影像的前置處理、分類器及實驗環境設定不同,所以我們無法與文獻中 的實驗數據直接進行比較。但觀察表 4.6 的實驗數據我們可以得到一些結論:以 幾何特徵的方法中(如特徵追蹤、特徵偵測)[27],並不適用於低解析度的影像中, 因為影像的解析度若很低,將導致幾何特徵的方法難以偵測或追蹤臉部特定的區 域,例如:如眼睛、鼻子及嘴巴,故辨識效能不理想。相對地,以外觀特徵為基 32.

(41) 礎的方法,例如:LBP、Gabor 小波及本論文所提出的方法,對於低解析度的影 像較能取出具辨別能力的特徵。究其主因,乃是外觀特徵主要以各種臉部表情的 紋理作為特徵,因此就算在低解析度的影像下,仍可保持一定的辨識率。在這些 以外觀為基礎的方法中,LBP 的效能比 Gabor 小波好。因此,我們可以推得在低 解析度的影像中,使用 LBP 進行辨識會比 Gabor 小波佳。 觀察表 4.6 的實驗數據可得知,我們提出的方法與 LBP 相較之下,我們的方 法對於低解析度的影像辨識具有相當高的辨識程度。而且我們的方法不管影像切 割的區塊數(2×2 或 4×4)多寡,對於低解析度的影像仍然可維持在相當高的辨識 程度,就算影像解析度僅剩 14×19,我們的方法仍有 90.1%的準確度。推論其辨 識程度相當高的原因,可能在於我們的方法具有優異的局部與全域紋理特徵擷取 能力,並且我們的方法透過一階 DWT 的運算將影像壓縮後取得重要資訊,更有 助於整體辨識效能更加穩定。. 4.2.7 實驗七 為了探討本論文所提方法是否適用於辨識東方人的表情,我們使用 JAFFE(Japanese Female Facial Expression)[59]表情資料庫來測試演算法的辨識率 結果如表 4.7 所示。JAFFE 資料庫與 Cohn-Kanade 資料庫最大的不同在於表情影 像中人物的性別及人數,JAFFE 資料庫由 10 位日本女性組成,每位女性皆作出 七種臉部表情,每種表情為 2 至 4 張影像,資料庫中總共有 312 張臉部表情影像, 且資料庫中的影像皆為靜態單張影像。JAFFE 資料庫中的部分影像如圖 4.7 所示。 本實驗將 JAFFE 資料庫中的每張影像表情皆進行分類,其中每類表情的影 像分別為 30 張無表情、30 張憤怒、29 張厭惡、32 張恐懼、31 張高興、31 張悲 傷與 30 張驚訝。. 33.

(42) 表 4.7:Cohn-Kanade與JAFFE資料庫 比較 資料庫. Image/Video. 性別. 人數. Cohn-Kanade. Video. 男及女. 97. JAFFE. Image. 女. 10. 圖 4.7:JAFFE 資料庫中的影像[59]。由左至右依序是無表情、憤怒、厭惡、 害怕、高興、悲傷、驚訝 從表 4.8 的結果顯示,我們所提方法使用 Cohn-Kanade 資料庫所得到的辨識 結果較佳;若使用 JAFFE 資料庫,則辨識率僅達 72.6%。兩個資料庫所獲得的 辨識率差異極大,探討其可能的原因如下: 1.. 表情樣本數量過少。由於 JAFFE 資料庫中每類表情樣本僅 30 張左右, 因此,可能造成 SVM 進行訓練時的資訊量太少,進而影響分類效能。. 2.. 臉部表情較無明顯變化。JAFFE 資料庫中的影像皆為單張影像,因此我 們無法選取臉部較誇張的表情影像作為樣本,導致許多表情影像取出的 特徵較相近,影響 SVM 訓練產生的模型,使得進行預測的影像難以被 準確的分類至正確的類別。 34.

(43) 表 4.8:本論文所提方法對於不同資料庫的辨識率比 較 資料庫. 辨識率. Cohn-Kanade. 96.5%. JAFFE. 72.6%. 圖 4.8 為 Cohn-Kanade與JAFFE資料庫每類表情辨識率的比較。我們可以明 顯看出Cohn-Kanade資料庫的每類表情辨識率較JAFFE資料庫好,其中JAFFE資. Accuracy. 料庫對於厭惡及悲傷這兩類表情的辨識效能非常差 。. 100.00% 95.00% 90.00% 85.00% 80.00% 75.00% 70.00% 65.00% 60.00% 55.00% 50.00% 45.00% 40.00% 35.00%. Cohn-Kanade JAFFE. Neutral Anger Disgust. Fear. Happy Sadness Surprise. Facial Expression Classes. 圖 4.8:Cohn-Kanade 與 JAFFE 資料庫每類表情辨識率的比較. 從 JAFFE 資料庫七種表情的混淆矩陣(Confusion Matrix)來看(如表 4.9 所 示),在厭惡與悲傷這兩類表情的辨識效能相當差。當輸入的表情為厭惡時, 可能因為與無表情、憤怒、恐懼這些類的表情影像過於接近,而且資料樣本 數過少,使得 SVM 難以訓練出分類性能較好的模型,因此辨識效能僅 44.8%。 同上述原因,對於輸入影像為悲傷時,則也易將悲傷影像誤判為無表情及恐 懼類別。. 35.

(44) 表 4.9:本論文所提方法在 JAFFE 資料庫之七種表情混淆矩陣(%) Output. Neutral. Anger. Disgust. Fear. Happy. Sadness. Surprise. (%). (%). (%). (%). (%). (%). (%). Neutral. 76.7. 3.3. 0. 3.3. 0. 16.7. 0. Anger. 6.7. 76.7. 16.7. 0. 0. 0. 0. Disgust. 13.8. 20.7. 44.8. 13.8. 3.4. 3.4. 0. Fear. 3.1. 3.1. 3.1. 75. 3.1. 12.5. 0. Happy. 3.2. 0. 3.2. 3.2. 80.6. 9.7. 0. Sadness. 6.5. 0. 3.2. 19.4. 3.2. 64.5. 3.2. Surprise. 13.3. 0. 0. 6.7. 3.3. 0. 76.7. Input. 4.2.8 實驗八 本論文依據相關文獻[55][64]的方法選取各類表情影像的樣本,如 4.1 實驗環 境中所述,其中每類表情選取的樣本數皆不相同。為了避免因某些類表情的樣本 數較多使得辨識率也提升,因此,我們將每類表情的樣本皆取相同的數量。 如表 4.10 所示,原始的樣本數量中以恐懼類別的樣本數最少,共 99 張。因 此我們將無表情類別取 99 人,而其他類別表情如生氣、厭惡、恐懼、高興、悲 傷及驚訝則分別取 33 人的表情影像,其中每個人皆以影像序列中最後三張作為 表情影像。 表 4.10:實驗八之七種表情類別的樣本數 Classes. Neutral. Anger. Disgust. Fear. Happy. Sadness. Surprise. Original. 320. 108. 120. 99. 282. 126. 225. Experiment. 99. 99. 99. 99. 99. 99. 99. 36.

(45) 從表 4.11 的實驗結果我們得知,樣本數減少對於整體的辨識率具有一定的 影響性,例如表中原始數量與縮減數量後的辨識率相差約 0.3%,兩者差異非常 小。因此,我們可以看出本論文所提方法對於臉部表情特徵具有良好的擷取能 力,即使樣本數大幅減少,但並不影響系統的辨識能力。 表 4.11:樣本數不同的辨識率比較 樣本數. 辨識率. Original. 96.5%. Experiment. 96.3%. 4.2.9 實驗結果小結 本節共有八個實驗,一開始探討 LBP 的兩種編碼方式,從實驗結果我們得 知本論文所提方法在 LBP 的編碼方式中,使用原始 LBP 編碼方式較 Uniform LBP 適合。實驗二則發現,將影像進行 DWT 後再進行特徵資訊的擷取,可降低特徵 維度並大幅提升整體的辨識度,但若過度將影像壓縮,則會喪失一些重要資訊。 實驗三中我們得知,將影像區塊切割越細,有助於提升整體辨識效能,但基於維 度及時間上的考量,我們採用 2×2 的區塊數。實驗四的結果,我們得知 TLBP 中 的門檻值設為 5 時,其辨識效果最佳。實驗五我們得知,我們的方法利用 SVM 的 RBF 核心函數時辨識效能較佳。實驗六中證實我們的方法在各種低解析度下 的影像,仍可維持一定水平的辨識效能。接著,實驗七將 JAFFE 表情影像資料 庫以我們所提的方法進行辨識,但辨識率僅達 72.6%。最後,實驗八中我們將原 本採用的 1280 張樣本,縮減為每類表情皆 99 張共 693 張樣本,實驗結果顯示, 樣本數減少但又不至於過少,其實對辨識率的影響不大。 雖然以上實驗結果證明本論文所提方法具有優異的辨識能力,但我們的方法 在 JAFFE 資料庫所獲得的辨識率仍不理想,故此實驗可作為未來改進的方向。. 37.

(46) 4.3 與其他方法的效能比較 為了證明我們所提的研究方法具有一定的準確性,在此,我們與相關文獻 [55][64]所提的方法進行效能比較,表 4.12 為相關的實驗數據。. 表 4.12:本論文所提方法與其他文獻的準確度比較 方法. 辨識率. Block-Based LBP[55]. 88.9%. Boosted-LBP[55]. 91.4%. Boosted-LBP+Boosted-WLDP[64]. 91.1%. Ours(2×2). 96.5%. Ours(4×4). 98.0%. [55]主要是利用區塊式 LBP 進行臉部表情紋理特徵擷取,其辨識率為 88.9%。此外,再使用 AdaBoost 演算法訓練出臉部中較具辨識性的區域取代固定 區塊,由實驗數據發現,準確度可達 91.4%。[64]則是提出使用 AdaBoost 演算法 對各類表情訓練出對於分類結果較有幫助的區域後,再利用 LBP 及權重式區域 方 向 性 圖 樣 特 徵 (WLDP) 來 描 述 這 些 重 要 區 域 , 最 後 結 合 Boosted-LBP 與 Boosted-WLDP 兩種不同性質的混合特徵彼此彌補兩者在表情辨識上的不足,其 辨識率為 91.1%。 由於實驗環境設置不同,不宜直接將表 4.12 中的數據進行比較,但這些實 驗數據仍然可以提供我們作為參考,並了解目前相關技術的研發水準。其中,我 們的方法與文獻[55][64]相較之下,[55]的方法是將每張影像大小 110×150 切割成 18×21 成大小的子區塊,共 42 塊(6×7),因此其表情特徵直方圖的維度為 42×59 = 2478。文獻[64]以 AdaBoost 選取人臉影像中 100 個有效的區域,將其串接後得 38.

(47) 到 100×59 = 5900 維度的特徵,接著使用主成份分析演算法進行降維。我們的方 法若使用 2×2 區塊,則僅需 5×256 = 1280。因此,證明本論文所提的方法特徵維 度較其它文獻低,且又能維持一定水準的辨識率。 為了更進一步分析我們所提的方法與其他文獻方法對於每一種表情的辨識 效能,我們比較某些方法所建構的七類表情的混淆矩陣(Confusion Matrix)。混淆 矩陣主要用來看出該方法對於每類表情的分類效能,其原理是利用測試資料驗證 訓練資料所建構出的模型,判斷預測值是否符合實際值。我們所使用的每種表情 類別的樣本數量如表 4.13 所示。 表 4.13:七種表情類別的樣本數 類別 數量. 無表情. 憤怒. 厭惡. 恐懼. (Neutral). (Anger). (Disgust). (Fear). 320. 108. 120. 99. 高興. 悲傷. 驚訝. (Happy) (Sadness) (Surprise) 282. 126. 225. 本論文採取與文獻[55][64]相同的 10 倍交叉驗證法來試驗我們的系統。一開 始先將所有樣本隨機分成十等分,每等分皆有七類表情的樣本,以 10 倍交叉驗 證法進行資料的訓練及測試,總共進行十次。將每次輸入的表情影像所獲得的預 測結果進行累加,以此類推,做完 10 次後即可得到最後的混淆矩陣,實驗結果 如表 4.14 所示。 為了使分類情形容易觀察,我們將混淆矩陣進行百分比換算。表 4.15 為以 本論文方法所得的混淆矩陣百分比表示,表 4.16 與表 4.17 分別為[55]及[64]所提 方法之混淆矩陣。從表 4.16 及表 4.17 這兩個混淆矩陣來看,若輸入影像為無表 情、厭惡、高興與驚訝這幾種表情,由於在影像上較具明顯的紋理變化,因此辨 識的效果較佳;反之,若輸入影像為憤怒與悲傷,由於這兩類表情與無表情之間 的表情過於接近(如圖 4.9),彼此之間的紋理變化較不明顯,易將生氣與悲傷這 兩種表情誤判為無表情的表情。在表 4.16 的數據中,生氣及悲傷的表情影像被 歸為無表情影像高達 20.4%及 31.6%;而表 4.17 也顯示對於此誤判現象的數據亦 39.

(48) 高達 21%及 17%。相較之下我們的方法可以有效的解決生氣及悲傷這兩類表情 被歸為無表情的問題,使得整體的辨識效果明顯的大幅提升。 表 4.14:本論文所提方法之七種表情混淆矩陣 Predict. Neutral. Anger. Disgust. Fear. Happy. Sadness. Surprise. 筆數. 筆數. 筆數. 筆數. 筆數. 筆數. 筆數. Neutral. 300. 0. 2. 1. 6. 9. 2. Anger. 5. 100. 0. 2. 1. 0. 0. Disgust. 1. 0. 119. 0. 0. 0. 0. Fear. 3. 0. 0. 94. 0. 2. 0. Happy. 8. 0. 0. 0. 274. 0. 0. Sadness. 8. 0. 0. 0. 0. 118. 0. Surprise. 5. 0. 0. 0. 0. 0. 220. Input. 表 4.15:本論文所提方法之七種表情混淆矩陣(%) Output. Neutral. Anger. Disgust. Fear. Happy. Sadness. Surprise. (%). (%). (%). (%). (%). (%). (%). Neutral. 93.8. 0. 0.6. 0.3. 1.9. 2.8. 0.6. Anger. 4.6. 92.6. 0. 1.9. 0.9. 0. 0. Disgust. 0.8. 0. 99.2. 0. 0. 0. 0. Fear. 3.0. 0. 0. 95.0. 0. 2.0. 0. Happy. 2.8. 0. 0. 0. 97.2. 0. 0. Sadness. 6.3. 0. 0. 0. 0. 93.7. 0. Surprise. 2.2. 0. 0. 0. 0. 0. 97.8. Input. 40.

(49) 表 4.16:[55]所提方法之七種表情混淆矩陣(%) Output. Neutral. Anger. Disgust. Fear. Happy. Sadness. Surprise. (%). (%). (%). (%). (%). (%). (%). Neutral. 95.2. 0. 0. 0.8. 0.4. 3.6. 0. Anger. 20.4. 66.6. 3.7. 2.0. 0. 7.3. 0. Disgust. 5.0. 0. 92.5. 2.5. 0. 0. 0. Fear. 10.0. 0. 0. 70.0. 17.0. 3.0. 0. Happy. 7.4. 0. 0. 2.5. 90.1. 0. 0. Sadness. 31.6. 6.4. 0. 0. 0. 61.2. 0.8. Surprise. 5.7. 0. 0. 1.3. 0. 0.5. 92.5. Input. 表 4.17:[64]所提方法之七種表情混淆矩陣(%) Output. Neutral. Anger. Disgust. Fear. Happy. Sadness. Surprise. (%). (%). (%). (%). (%). (%). (%). Neutral. 97.3. 0.9. 0.3. 0.3. 0. 0. 0.3. Anger. 21.0. 72.4. 0. 1.0. 0. 5.7. 0. Disgust. 3.3. 0. 94.2. 0.8. 1.7. 0. 0. Fear. 4.7. 1.6. 0. 80.6. 8.5. 0. 4.7. Happy. 3.0. 0.4. 0. 1.9. 94.8. 0. 0. Sadness. 17.0. 2.6. 0. 2.0. 0. 78.4. 0. Surprise. 0. 0. 0. 0.5. 0. 0. 99.5. Input. 41.

(50) (a). (b). (c). 圖 4.9:無表情、憤怒及悲傷的表情影像。(a)無表情、(b)憤怒及(c)悲傷的 表情影像 我們將表 4.15、表 4.16 及表 4.17 整理成圖 4.10,由圖 4.10 可以明顯看出不 同的方法對於每一類表情的分類情形。根據圖 4.10 所示,我們所提的方法在憤 怒、厭惡、恐懼、高興及悲傷的表情中,辨識效能較文獻[55]及[64]的方法優異, 其原因為本論文所提方法為結合全域與區域之紋理特徵,相較於單一使用 AdaBoost 演算法選取特定區域後再進行特徵擷取表現得佳。 然而,我們的方法在無表情的辨識效能略低;反觀[55][64]所提出的方法對 於無表情的分類效能較佳。究其原因可能在於,由於每張無表情影像皆是取自每 一段影像序列中的第一張,最後三張當作表情影像,由於我們所提的方法是將整 張影像進行特徵提取,因此若此段影像序列的表情較不明顯,就容易與無表情過 於相近。由於[55][64]採用 AdaBoost 演算法直接選取較具鑑別度區域進行特徵擷 取,較無此問題存在,故在無表情類別的分類效能較我們所提的方法好。. 42.

(51) Accuracy. 100.00% 95.00% 90.00% 85.00% 80.00% 75.00% 70.00% 65.00% 60.00% 55.00% 50.00%. 文獻[55] 文獻[64] Ours. Neutral. Anger. Disgust. Fear. Happy Sadness Surprise. Facial Expression Classes. 圖 4.10:我們的方法與兩篇文獻對七類表情辨識的效能比較. 43.

參考文獻

相關文件

Ongoing Projects in Image/Video Analytics with Deep Convolutional Neural Networks. § Goal – Devise effective and efficient learning methods for scalable visual analytic

Tekalp, “Frontal-View Face Detection and Facial Feature Extraction Using Color, Shape and Symmetry Based Cost Functions,” Pattern Recognition Letters, vol.. Fujibayashi,

Wang, and Chun Hu (2005), “Analytic Hierarchy Process With Fuzzy Scoring in Evaluating Multidisciplinary R&amp;D Projects in China”, IEEE Transactions on Engineering management,

Soille, “Watershed in Digital Spaces: An Efficient Algorithm Based on Immersion Simulations,” IEEE Transactions on Pattern Analysis and Machine Intelligence,

Zhang, “A flexible new technique for camera calibration,” IEEE Tran- scations on Pattern Analysis and Machine Intelligence,

F., “A neural network structure for vector quantizers”, IEEE International Sympoisum, Vol. et al., “Error surfaces for multi-layer perceptrons”, IEEE Transactions on

[7]Jerome M .Shapiro “Embedded Image Using Zerotree of Wavelet Coefficients”IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL,41,NO.12,DECEMBER 1993. [8 ]Amir Said Willam

Jones, &#34;Rapid Object Detection Using a Boosted Cascade of Simple Features,&#34; IEEE Computer Society Conference on Computer Vision and Pattern Recognition,