中華大學

(1)

中華大學碩士論文

基於權重式區域方向特徵和區域二元化形態之表情辨識方法

Facial Expression Recognition based on Fusing Weighted Local Directional Pattern and Local

Binary Pattern

系所別：資訊工程學系碩士班學號姓名：M09602028 莊順旭指導教授：黃雅軒博士

中華民國九十九年八月

(2)

I

摘要

本論文提出一種混合權重式區域方向特徵(WLDP)和二元化形態(LBP)的表情辨識方法。一開始 WLDP 和 LBP 會分別對人臉影像進行特徵抽取，接著利用 PCA 分別對 WLDP 和 LBP 所抽取出來的特徵進行特徵降維處理，最後將兩種特徵進行混合，產生出一種對人臉具有分辨能力的混合特徵，並使用 SVM 分類器來進行表情辨識。

實驗的資料庫是使用著名的 Cohn-Kanade 表情資料庫，該資料庫由於具有完整的表情資料，因此是表情辨識領域的研究學者們常用來進行研究的一套表情資料庫。

本論文所提出的方法，對 Cohn-Kanade 表情資料庫進行 7 類表情辨識，並使用 10-fold person-independent cross-validation 架構，可以得到高達 91.1%的辨識率，這顯示本論文所提出的權重式區域方向特徵，和辨識方法具有一定的效果。

關鍵字: 表情辨識、區域二元圖樣、權重式區域方向特徵、主成份分析、支持向量機

(3)

II

ABSTRACT

A method of combining Weighted Local Directional Pattern (WLDP) and Local Binary Pattern (LBP) for facial expression recognition is proposed. First, WLDP and LBP are applied to extract human facial features. Second, principle component analysis (PCA) is used to reduce their feature dimensions respectively. Third, both reduced facial features are merged to form the final feature vector. Fourth, support vector machine (SVM) is used to recognize facial expressions. Experiment on the well known Cohn-Kanade expression database, a high accuracy rate up to 91.1% for recognizing seven expressions can be achieved with a person-independent 10-fold cross-validation scheme.

Keywords: Facial Expression Recognition; Local Binary Pattern (LBP); Weighted Local

Directional Pattern (WLDP); Principle Component Analysis (PCA); Support Vector Machine (SVM)

(4)

III

致謝

首先誠摯的感謝恩師黃雅軒博士，在課業研究上給予我相當多的指導和鼓勵，

不時的討論並指點我正確的方向，使我在這些年中獲益匪淺。在老師的身上我看見了對學問的執著，也很希望將來的自己能對該堅持的事情有所堅持，不為外在的環境而屈服。

感謝實驗室的同學許廷嘉與王勻駿，在一同研究時互相幫助和砥礪，並從旁提供了我寶貴的建議，給予我在研究過程中很多幫助。還有感謝學弟陳禹仲、彭國達、

李允善、歐志鴻、陳冠豪、林啟賢和吳東懋，在許多方面的協助，讓我能更快速的完成研究。

最後感謝我最愛的家人與親戚朋友，感謝他們給我的關心、支持與鼓勵，。特別感謝我的父母，讓我在就學期間不用擔憂生活，能專心致力於研究工作。僅以此文獻給我摯愛的親人朋友。

(5)

IV

表目錄

表 5-1、區塊式表情辨識方法的辨識效能 ... 28

表 5-2、Boosting 區塊選擇的辨識效能 ... 29

表 5-3、Boosted-LBP8,1 的混淆矩陣，空格的部份為 0% ... 29

表 5-4、Boosted-WLDP 的混淆矩陣 ... 30

表 5-5、降維後的效能和本論文所提出混合特徵效能 ... 31

表 5-6、混合特徵的混淆矩陣 ... 32

表 5-7、在[33]中，與本論文相似作法效能 ... 33

表 6-1、展示系統規格 ... 41

(7)

VI

圖目錄

圖 1-1、各種動作單元示意圖 ... 3

圖 2-1、表情辨識演算法流程 ... 6

圖 3-1、一般的人臉輸入影像，其中白色點為手動標註的眼睛和嘴角位置 ... 8

圖 3-2、兩眼眼睛點連線與影像水平線夾角示意圖 ... 8

圖 3-3、利用眼睛點進行轉正後的影像 ... 10

圖 3-4、人臉區域定義示意圖 ... 11

圖 3-5、依照人臉區域定義所擷取出的人臉影像 ... 12

圖 3-6、經過正規化後的人臉影像，上排為人臉在不同角度下所擷取出來的人臉影像，下排為人臉在不同表情下所擷取出來的人臉影像。 ... 12

圖 4-1、不同的半徑 R 和不同的圓周點個數 P 所形成的圓[25] ... 14

圖 4-2、LBP 編碼範例 ... 16

圖 4-3、LBP 運算子能夠有效的表示不同的紋理變化[25] ... 17

圖 4-4、8 種不同方向的 Kirsh 遮罩 ... 18

圖 4-5、33 大小的 LDP 遮罩 ... 19

圖 4-6、LDP 編碼範例 ... 19

圖 4-7、(a)原始影像 (b)LDP 影像 (c)權重影像 ... 20

圖 4-8、AdaBoost.M2 演算法[35] ... 22

圖 4-9、AdaBoost.M2 選出的前 20 個特徵區域 ... 23

圖 4-10、將 AdaBoost 選取的區域進行計算直方圖，並串接成表情辨識所需的人臉特徵 ... 24

圖 5-1、區塊式人臉特徵抽取方法示意圖 ... 27

圖 5-2、各方法對 7 類表情的效能比較圖 ... 33

圖 5-3、左邊為[33]中，所使用的固定區塊數 ... 34

圖 6-1、系統顯示圖片，(a)表示生氣、(b)高興、(c)無表情、(d)悲傷和(e)驚訝 ... 38

圖 6-2、由上到下的影像依序為系統辨識 (a)無表情、(b)生氣、(c)驚訝、(d)悲傷和(e) 高興表情 ... 40

(8)

1

第一章緒論

1.1 研究動機

在人與人的交流行為中，情緒表達佔據了相當重要的位置，可幫助人們了解對方的內心感受並讓自己能做出相對的反應；在各種的情緒表達行為上，包含肢體動作(臉部表情與身體姿勢)、說話語調與用字遣詞等，而在人類的溝通行為中，我們總以為口語佔了最重要的一部分。Albert Mehrabian 學者在其研究中[34]指出，人在互相交流的時候，語言本身，僅佔了 7% (包含說話的內容)，38%為聲音(包含說話的語調、聲音的抑揚頓挫及聲音本身是否豐富有趣)，以及 55%的非語言(包含手勢、

表情、外表裝扮和儀容等)，而在非語言的部分中，視覺性尤其是指臉部表情，更在溝通中，佔有一定的份量，由此可見臉部表情對於人類在溝通時有其一定的重要性。

近年來，機器人的研究正如火如荼的蓬勃發展，其中一個議題受到了注目－人機互動「Human-Computer Interaction」正是在機器人研究領域中，一項重要的研究議題。要達成人機互動的方式，直覺上就是應由人類的行為出發，除了語言溝通以外，便是臉部表情，若能讓機器人辨識使用者的情緒變化並做出反應，對於提升人機互動的親合力將有相當大的提升。

在表情辨識(Facial Expression Recognition)方面，多年來已經有許多的專家和學者投入研究。於 1971 年，Ekman 與 Friesen[1]確定了六種基本表情：高興、傷心、

生氣、驚訝、厭惡與害怕(Happiness, Sadness, Anger, Surprise, Disgust, and Fear)，並認為這六種基本表情不僅不受到種族與文化的影響，同時具有全人類的一致性；另外，兩位學者更在 1978 年，開發了人臉動作編碼系統(Facial Action Coding System)[2]

(9)

2

來描述臉部表情，在人臉上共劃分了 46 個相互獨立又相互連繫的動作單元(Action Unit)，並分析這些運動單元的特徵、對應於人臉上的控制區域與其相對的表情。於 1997 年，麻省理工教授 Picard[3]提出在情意脈絡下的「情意計算」 (Affective Computing)一詞，其目的是為了讓電腦可以辨識人類的情意，並且能夠合理表達人類社會規範下的適當情意，以增進人機互動的親和力，其中又提出藉由「表情辨識」

的技術，讓電腦更容易理解人類的情緒。2008 年新力(SONY)[4]公司發表新革命的數位相機，提供微笑快門的功能，可以補捉拍攝主角最燦爛的微笑，讓照片中的主角保留最快樂的時刻，這也是結合表情辨識的延伸應用。

誠如上述的種種，可知人機互動的重要性日益遽增。故此，為了提升人機互動的親和力，我們將提出一套臉部表情辨識技術。在本論文中，將對自然表情(即無表情)及六種基本情緒表情(高興、傷心、生氣、驚訝、厭惡與害怕)進行分析與辨識，

正確的偵測出使用者的情緒表達，以做為人機互動的重要資訊。

1.2 相關研究

為了能使電腦認識人類的表情變化，已有許多學者投入大量的心力在電腦視覺研究上，並致力於能讓電腦理解人類的表情。在近幾年來，表情辨識已經成為一個熱門的課題，因此有許多學者提出各種方法，來對表情進行辨識。表情辨識方法主要可以分成兩種，其中一種是使用人臉動作編碼系統[14][15][16]，另一種則是以特徵為基礎[17][18][19][20][21][22][23]的辨識方法。

人臉動作編碼系統是 Ekman 和 Friesen 於 1978 年所提出用於人臉表情描述的編碼系統，在這套系統中，會依據人臉肌肉的分佈，以及一些肌肉群的運動狀況，

(10)

3

定義出動作單元，每個動作單元表示臉部上特定區域的移動狀況，如眉毛上升和嘴角上揚等，共定義了 46 種動作單元(如圖 1-1 所示)，透過動作單元的組合，來進行表情判斷。Tian[15]等人發展出一套自動臉部分析系統(Automatic Face Analysis，

AFA)，能依照人臉上永久或暫時性的特徵，對人臉正面影像序列進行分析，辨識出每種單獨的動作單元。Donato[16]等人發現使用 Gabor Wavelet 來進行特徵擷取，再進行上半部和下半部人臉的臉部動作單元分類，可比傳統的幾何方法達到更好的辨識效果。雖然利用動作單元來進行表情辨識，但其主要的缺點在於，需依靠具魯棒性(Robust)的特徵點偵測與追縱方法，才能有良好的辨識效果。

圖 1-1、各種動作單元示意圖

除了基於動作單元的表情辨識方法之外，也有基於紋理特徵等方法的表情辨識研究。Bartlett 等人[17]將輸入的影像序列，偵測出正面的人臉位置，並經過 Gabor Wavelet 擷取出紋理特徵，最後再使用一連串的 SVM 分類器來分類出 7 種不同的主要表情(包含自然、生氣、猶豫、恐懼、快樂、悲傷和驚訝)，但 Gabor-Wavelet 主要的缺點在於，使用不同方向的紋理濾波器，雖能有效的強化各種不同方向的紋理，

但其計算量也相對的較大，因此此種方法較能應用於即時系統上。Ma 等人[18]則使

(11)

4

用離散餘弦轉換(DCT)對整張影像進行特徵偵測和抽取，並使用前饋式類神經網路 (Feed-Forward Neural Network)來進行辨識，但該特徵抽取方法，對光影變化的容忍能力不夠，如果前處理的光源，沒有進行正確的修正，會使辨識結果受到影響。

Dubuisson 等人[19]則先利用主成分分析法(PCA)和線性識別分析法(LDA)進行前處理，將影像降低維度後，再進行辨識，但其主要的缺點，還是在於對抗光影變化的能力。另外，也有些方法是以 3D 模型為基礎[20][21][22][23]，計算特徵點的幾何變化或是對應於 2D 的紋理特徵變化，最後再經過辨識器，進行表情辨識，但由於計算 3D 模型，需要耗費大量的計算，因此在時間上，會比只使用 2D 紋理影像的方式，

需要更久的時間。在[33]中，則使用 AdaBoost 搭配 LBP 方法來進行特徵抽取，雖然 LBP 具有對抗光影變化的能力，也具有達到跟使用 Gabot-Wavelet 方法相似的辨識效果，但其對抗雜訊的能力仍然有限。為了改善上述的缺點，本論文提出一種新的權重式區域方向紋理，並搭配 LBP 方法來對人臉進行特徵抽取，最後使用有效的特徵綜合機制，使表情辨識效能能更進一步提升。

表情辨識技術在目前來講，仍然有很大的發展空間，雖然人類的表情錯綜複雜，

目前主要研究的方向大致上都還侷限於 6 種主要的基本表情和無表情。表情辨識直至近幾年，才能逐漸應用於即時系統上，但要能真正使用在日常生活中，仍頇投入大量的研發人力、經費和時間。

1.3 論文架構

本論文共可以分為七章，各章節內容安排如下：

第一章說明本論文的研究動機與表情辨識的相關研究。

(12)

5

第二章介紹整體的演算法流程，並簡單的說明各個處理步驟。

第三章開始進行人臉影像前處理方法。在前處理的步驟中，首先我們會先對人臉影像進行抓取出可供表情辨識的人臉區域，並依照眼睛點進行轉正與影像大小正規化，經過正規化的人臉影像，將提供給表情辨識模組使用。

第四章介紹表情辨識中所使用的二種特徵抽取方法和其改善作法，並描述如何利用 AdaBoost 演算法進行有效的特徵選取，最後利用 PCA 降低維度後，再進行表情辨識。

第五章為實驗結果，本論文採用 Cohn-Kanade 資料庫來進行效能驗證，本論文所提出的方法將在第五章作詳細說明。

第六章介紹表情辨識展示系統，主要實作本論文所提出的演算法，並搭配人臉偵測及瞳孔偵測技術，使之整合成一套具有即時的自動化表情辨識系統。

第七章為結論和未來展望，它總結本論文的研究成果，並對未來可繼續研究的方向做一個說明。

(13)

6

第二章演算法架構

此章節介紹本論文表情辨識技術的整體架構，並對各模組進行簡單的說明。圖 2-1 為本論文所提出的演算法流程圖，其中， Processing 為前處理模組，一開始當影像輸入進來之後，會經過前處理模組，進行人臉影像擷取，當人臉影像經過轉正，

並正規化之後，擷取出來的影像會提供給特徵抽取模組來進行人臉特徵抽取。人臉特徵抽取模組，可以分為前後兩部分，前半段為特徵抽取，使用 Boosted-LBP 和 Boosted-WLDP 兩種方法，來對人臉影像進行人臉特徵抽取，後半段為使用 PCA 來進行特徵降維處理。最後，再經過辨識模組進行表情辨識並輸出辨識結果。

輸入影像 Image

前處理 Preprocessing

特徵抽取2 Boosted-WLDP

特徵降維 PCA 特徵抽取1

Boosted-LBP

特徵降維 PCA

分類器 SVM

辨識結果 Output

圖 2-1、表情辨識演算法流程

(14)

7

第三章人臉影像前處理

表情辨識的效能，通常會與人臉影像的光線變化、影像解析度和人臉角度等影響而息息相關。為了排除掉上述等因素，我們會對輸入的人臉影像，進行角度和影像大小的正規化，而由於本論文所採用的特徵擷取方法，具有一定的光線變化容忍能力，因此，我們將不另外進行光線補償等處理。在本章節裡面，影像前處理主要可分為兩部分，第一部分為人臉影像轉正，而第二部分為人臉區域抓取並將影像大小正規化。人臉影像經轉正和影像大小正規化的運算處理後，將提供給第四章來進行表情辨識使用。

3.1 人臉影像轉正

本論文中，採用瞳孔和嘴角位置來進行影像校正。資料庫中的影像，會先經由手動標註出瞳孔和嘴角特徵點座標，如下圖 3-1 白色點所示。

(15)

8

圖 3-1、一般的人臉輸入影像，其中白色點為手動標註的眼睛和嘴角位置

接著利用眼睛點所連成的直線與影像水平線的夾角，來旋轉影像，如圖 3-2 所示。

圖 3-2、兩眼眼睛點連線與影像水平線夾角示意圖

(16)

9

下列公式可用來計算眼睛點連線與影像水平的夾角：



(3-1)

其中 R_x和 R_y與 L_x和 L_y分別表示右眼與左眼眼睛的 x 和 y 座標。在求得之後，我們會將影像依照角度來進行旋轉，二維影像旋轉的公式如下：

(3-2)

其中是縮放因子(Scale Factor)，而是旋轉角度，x 和 y 為原始影像的座標點，而 x’和 y’為旋轉後的影像座標點。當影像進行旋轉後，會使兩眼眼睛點在影像上呈現 水平對齊，如圖 3-3 所示。

(17)

10

圖 3-3、利用眼睛點進行轉正後的影像

當兩眼眼睛點在影像上呈現水平對齊後，表示人臉影像已經被轉正，接著利用瞳孔和嘴角座標點來定義出欲抓取的人臉區域。

3.2 人臉區域抓取

人臉區域抓取的正確程度，會大幅影響表情辨識的正確與否，因此本章節將敘述如何定義出有效的人臉區域。在此，我們將據眼睛瞳孔和左右嘴角座標點，來定義出人臉區域。

眼睛瞳孔應該是人臉五官中，最容易被辨識的部分，因為不管是何種人種或是何種臉型，只要是正常人臉，眼睛在沒有被遮蔽的情況下，眼睛瞳孔不會因為表情變化而產生很大的變形，因此我們採用眼睛瞳孔點來定義人臉的上邊界和左右邊界，

(18)

11

而人臉下邊界的定義，則以嘴角座標充當輔助，這主要是在各種不同的人臉中，人臉的長度差異變化很大，為了降低人臉長度變化的影響，將由兩嘴角的中心點，往下來定義出人臉區域的下邊界，詳細的人臉範圍可用下圖來說明。

圖 3-4、人臉區域定義示意圖

其中，d 為兩眼眼睛中心點的距離，因此人臉上邊界可以定義為兩眼瞳孔往上 0.6d 的位置，左右邊界則為往左或往右 0.9d 的位置，而人臉的下邊界，則由左右嘴角的 中心點往下 0.3d 的位置；假設人臉兩瞳孔間中心點座標為(ex,ey)，兩嘴角間中心座 標點為(m_x,m_y)，則人臉區域的四個角點座標點，可以用下列式子來表示：

左上角座標點為(c_x-0.9d,c_y-0.6d) 右上角座標點為(cx+0.9d,cy-0.6d)

(19)

12

左下角座標點為(cx-0.9d,my+0.3d) 右下角座標點為(c_x+0.9d,m_y+0.3d)

當定義完人臉邊界範圍後，我們便可以將人臉影像擷取出來，並縮放成 96128 像素大小，供後面表情辨識使用。

下圖為擷取出的人臉影像：

圖 3-5、依照人臉區域定義所擷取出的人臉影像

圖 3-6、經過正規化後的人臉影像，上排為人臉在不同角度下所擷取出來的人臉影像，下排為人臉在不同表情下所擷取出來的人臉影像。

(20)

13

第四章表情辨識演算法

當原始影像經過第三章介紹的前處理步驟之後，即可得到可供辨識用的人臉影像。在本論文中，主要提出一種新的權重式區域方向特徵 (WLDP) 和基於 Boosted-LBP 和 Boosted-WLDP 的混和特徵，經由 PCA 特徵降維處理，來進行表情辨識。

本研究採用兩種不同的特徵擷取方法，來對人臉進行特徵擷取。第一種特徵是區域二元化圖樣特徵（Local Binary Pattern, LBP），而第二種特徵是本論文所提出的權重式區域方向性圖樣特徵(Weighted Local Directional Pattern, WLDP)。LDP 為 Jabid 等人[26]在 2010 年所提出的特徵，該特徵是利用八種不同角度的運算樣版，得到八個方向的邊緣響應值，最後取出邊緣響應值中絕對值最大的前幾名所對應的方向，

來得到 LDP 編碼。本論文所提出的權重式 LDP 方法，其主要目地是為了能進一步的加強人臉上五官等區域的重要性。在人臉中，五官為人臉上，擁有較明顯特徵且擁有最多紋理變化的區域，故可拿來供辨識使用。因此，我們利用權重的方式，讓 LDP 對於五官區域擷取特徵時，能比其他部位，如皮膚等區域，得到較大的比重，

使 LDP 擷取出的人臉特徵其辨識能力能夠被進一步的加強。當輸入的人臉影像經過這兩種方法的計算後，可以得到所對應的人臉特徵，最後設計出一套有效的綜合機制，使這兩種特徵的優點能有效的互補，進而得到更好的表情辨識效能，詳細的作法將在本章節裡描述。

4.1 區域二元化圖樣特徵

LBP(Local Binary Pattern) [24]特徵最早是由 Ojala 等人在 1996 年提出，由於具

(21)

14

有運算速度快和實作簡單的優點，再加上它是計算區域的紋理結構特徵，具有相當程度容忍光線變化的能力，可以得到良好的辨識效果，因此獲得許多研究學者的認同，常將其應用在影像紋理特徵的擷取上。原始 LBP 運算子為一大小為 33 的遮罩，

在運算時，將對影像上任一點的位置，對其周圍相鄰的像素值，來進行編碼。

在此介紹 LBP 運算子[25]的做法，假設有一張紋理影像 T，在 T 上從半徑為 R 的圓周上平均地取出 P 個圓周特徵點，表示圓中心的灰度值， 表示其周圍第 i 個點的灰度值，而 t 為周圍 P 個點其對應的灰度值所組成的聯合分佈函數(Joint Distribution Function)。因此，此紋理影像可以用下面公式來表示：

(4-1)

假設的座標為 ，因此在半徑為 R 的圓上，每個圓周特徵點 i 的座標可 以表示成   ，其中。如圖 4-1 呈現出不同的半徑 R(1.0, 2.5, 4.0)和不同的點數 P(8, 12, 16)所形成的圓周特徵點的示意圖。

圖 4-1、不同的半徑 R 和不同的圓周點個數 P 所形成的圓[25]

在計算出 P 個點的圓周特徵點座標後，可以根據中心點和其鄰近點的灰度

(22)

15

值差異量來計算出其區域紋理特徵變化。

(4-2)

因為為中心點的影像灰度值，所以可以假設跟計算紋理變化無相關，則此公式可以表示成：

(4-3)

其中表示中心點的灰度值，跟後面要進行紋理特徵的分析較無關聯，因此將其省略，所以紋理相關特徵的公式可表示為：

(4-4)

如果對區域上每個紋理的變化給予相同的權重，則可以簡單的使用一個閥值來表示紋理的變化情形：

(4-5)

其中

(4-6)

然後，再對每個乘上一個權重並綜合起來，就是自該中心點擷取出來的所表示的 LBP 特徵。

(23)

16

(4-7)

下圖 4-2 為一 LBP 編碼的範例，左邊為一大小為 33 的 LBP 遮罩，在影像擷取出像素值後，經過 LBP 運算，可以得到其對應的 LBP 二位元編碼，和其所對應的 LBP 編碼值。

圖 4-2、LBP 編碼範例

最後，我們會在一張影像上，每個點都去進行 LBP 特徵計算，並依照 LBP 特 徵做直方圖(Histogram)運算，假設 ci表示為影像上任一點，經由 LBP 編碼所得到的 LBP 編碼值，對應於 LBP 直方圖中第 i 個位元，則直方圖的運算公式可表示為：

(4-8)

最後得到的 LBP 直方圖即為該影像的 LBP 直方圖特徵。

在 Ojala [25]所發表的論文中，也提出了 Uniform LBP 概念。傳統的 LBP 編碼方法中，LBP 能有效的對紋理進行編碼，如圖 4-3 所示，雖然 LBP 可以使用不同的位元編碼方式來表示各種不同紋理的情況，但在編碼過程中，位元變化由 1 至 0 或

(24)

17

0 至 1 的次數超過 2 次，即可能為雜訊，而非主要的紋理資訊，因此對位元變化超過 2 次的 LBP 編碼，即可歸類為雜訊點，並在計算 LBP 直方圖時，都對應到同一個位元。在 Uniform LBP 直方圖中，當 P=8 時有效位元的個數將會由原先的 256 個降低到只有 59 個，此種作法不僅能有效的降低特徵長度，亦能保留原本主要的紋理資訊。

圖 4-3、LBP 運算子能夠有效的表示不同的紋理變化[25]

本論文所使用的 LBP 方法，採用 P=8 和 R=1 的參數設定和使用 Uniform LBP，

然而為了描述上的方便，LBP_8,1在本論文中之後的描述將簡化以 LBP 來代替。

4.2 權重式區域方向特徵

區域方向特徵(Local Directional Pattern, LDP)[26]為 2010 年所提出的區域紋理特徵擷取方法，與 LBP 不同的地方在於，LBP 嘗詴將像素點與其周遭灰度值大小的關係來進行編碼，用來表現區域紋理的分佈情形，如邊緣(Edge)、點(Spot)和其他紋理形態，而 LDP 則是著重於只針對 8 種邊緣方向資訊，進行像素點資訊編碼。因此，

LDP 除了對雜訊有較大的容忍能力，也對於不同方向的邊緣反應，能以較有效的特徵來表示。

LDP 主要是藉由計算於不同方向上的邊緣響應(Edge Response)，來對每一像素

(25)

18

點進行方向屬性的編碼。在邊緣響應值的計算方面，目前已有許多種邊緣偵測作法可以使用，如 Kirsh 邊緣偵測子、Prewitt 邊緣偵測子和 Sobel 邊緣偵測子等方法，

其中，Kirsh 邊緣偵測子因為以 8 種不同方向的遮罩來進行邊緣偵測運算，可以比上述的其他方法，更有效的擷取出不同方向的邊緣反應強度。因此，LDP 在作法上，

就採用 Kirsh 邊緣偵測子，來進行邊緣反應強度的檢測。圖 4-4 為 8 種不圖方向的 Kirsh 遮罩示意圖。

圖 4-4、8 種不同方向的 Kirsh 遮罩

在影像上任意位置與這 8 種遮罩做卷積(Convolution)運算，我們可以分別得到 8 種不同方向的邊緣響應值，在此我們取其前 k 個響應強度絕對值最大的方向，將其 對應的編碼設為 1，其餘的(8-k)編碼設為 0，假設 M 是 m₀~m₇所形成的集合，因此，

可以用下列的公式來表示 LDP 的運算。

(4-9)

(26)

19

其中 LDP(xc,yc)為影像座標(x,y)的 LDP 編碼值。當|mi|大於絕對值為第 k 大的邊緣響 應值時，LDP 編碼的第 i 個位元將設為 1，並且乘上其對應的權重 2ⁱ，最後將 8 個位元的結果相加之後，即可得到 LDP 的編碼值。

圖 4-5 為一大小為 33 的 LDP 遮罩，在影像上擷取像素值後，經由圖 4-6 進行運算，並計算出其 LDP 的編碼值。

48 70 87 36 45 67 62 35 45

圖 4-5、33 大小的 LDP 遮罩

Kirsh 遮罩方向 m7 m6 m5 m4 m3 m2 m1 m0

邊緣反應值 -174 -214 -286 -182 -118 290 442 242 名次 7 5 3 6 8 2 1 4 位元 0 0 1 0 0 1 1 0

LDP(k=3) binary string 00100110 LDP code is 38

圖 4-6、LDP 編碼範例

原始 LDP 運算子是藉由選取前 k 個絕對值最大的邊緣方向反應值，來對紋理的方向進行編碼。假設，正在進行編碼的目標影像中，沒有特別明顯的紋理特徵（如人臉皮膚或白色的牆壁等區域），在原始的 LDP 方法中，經過進行編碼以後，不同區域都擁有相同的重要性，此現象並不合理。為了改善此一缺點，本論文提出一種新的權重式區域方向特徵(WLDP)，藉由權重來區分出較重要的人臉區域部份。權重設計主要的構想可以分為兩部份，第一部分為在人臉五官區域中，均具有較暗的灰

(27)

20

度值，因此可以利用此一特性，讓人臉五官得到較大的特徵權重值；第二部分為在影像上，接近人臉五官區域的部位，通常具有較明顯的紋理變化，因此配合 LDP 邊緣反應強度檢測，來使人臉五官上，具有較大紋理反應的部份，擁有較大的權重值。

結合此兩種特性，假設 v(x,y)為像素點(x,y)周遭 8 個臨近灰度值的總合，用來代表上 述第一部份的特性，且｜r^th(M)|為第 r 大的邊緣反應強度值，並取其 r=1~k 的總合來當作權重值，用來代表第二部份的特性，則 WLDP 的權重設計如下。

 





 











1

1 1

1

) , ( )

, (

) ) (

, ( ) 1 , (

i j

k

r th LDP

j y i x I y

x v

M y r

x y v

x W

(4-10)

其中，W_LDP(x,y)表示在像素點(x,y)上，進行權重計算，並得到該點的權重分數。

當對輸入的人臉影像，進行 LDP 特徵擷取及權重計算後，可以分別得到運算後的 LDP 影像和 WLDP 的權重影像，並將 LDP 影像配合 WLDP 權重影像，來進行 WLDP 直方圖計算。圖 4-7 為原始的輸入影像、LDP 運算後的影像和其 WLDP 權重影像。

(a) (b) (c)

圖 4-7、(a)原始影像 (b)LDP 影像 (c)權重影像

(28)

21

在得到 LDP 影像和權重影像後，接著計算出 WLDP 直方圖，用來表示此人臉 的人臉特徵。在此，我們選用參數 k=3 來產生 位元個數的編碼值。假設

表示第 i 個 WLDP 直方圖位元在像素點(x,y)上，c_i表示 LDP 編碼值所對 應到 WLDP 直方圖的第 i 個位元，WLDP 直方圖可以使用下面的公式來說明。

(4-11)

4.3 多類別 Boosting 特徵選取演算法

AdaBoost 為近幾年來，相當熱門的一種特徵選取演算法，主要的應用則是用來進行物件偵測，如人臉偵測、眼睛偵測和嘴角偵測等[27][28][29][30][31]。AdaBoost 主要是由 Boost 改良而來，Boost 的想法是利用後面的分類器來補足前面分類器辨識的不足，其缺點是需要大量的樣本來訓練，而 AdaBoost 利用給予樣本權重更新的方式來改善了這樣的缺點。在訓練時必頇先提供大量的訓練樣本和弱分類器(Weak Classifier) ht(x)給 AdaBoost，所謂的弱分類器是只選用一個特徵和閥值(Threshold) 所構成的分類機制，它依據閥值來判斷物件的類別（正向或負向），在訓練的時後，

其辨識率需要達到當下訓練樣本權重分佈的 50%以上。

在本論文中，使用的是 AdaBoost.M2 演算法，它和 AdaBoost 主要不同的地方在於，傳統的 AdaBoost 只能對兩種類別的物件來進行分類，而 AdaBoost.M2 則改進此一缺點，藉由賦予不同類別權重的方式，使其演算法能夠針對多種類別的物件進行特徵選取，我們採用此演算法，來幫助我們從眾人的各種表情中，選出能夠有效進行表情分類的 LBP 和 WLDP 直方圖特徵。詳細的演算法流程如圖 4-8 所示。

(29)

22

圖 4-8、AdaBoost.M2 演算法[35]

AdaBoost.M2 演算法如圖 4-8 所示，一開始會先給定訓練樣本集，假設共有 k 種表情和 m 張具不同表情的訓練影像，則訓練樣本集可以用(x1,y1),…,(xm,ym)來表示，

其中 xi表示第 i 張訓練樣本，而 yi表示第 i 張訓練樣本所對應的表情類別，yi

{1,…,k}。

一開始根據樣本數，給定每張影像的樣本權重；接著，會重覆 T 次的疊代訓練，每次選出具有最小錯誤的弱分類器(Weak Classifier)，並根據弱分類器的分類結果，進行更新樣本權重。

在每一次疊代 t 中，先對所有的特徵進行計算，找出具有最小錯誤的特徵來形 成的弱分類器；在此，每個特徵是從影像中的左上角到右下角，針對一個大小為 5x5 到 25x25 像素的區域擷取 LBP 或 WLDP 直方圖所組成，其中，每 5 個像素大小為單位進行區域縮放，並在影像上，以每 4 個像素點為一個位移單位，因此對於 96128 像素大小的影像，共可以找出 9,153 個特徵。

(30)

23

在弱分類器的設計上，一開始會對每類表情的所有訓練影像，依據當前特徵位置進行 LBP 或 WLDP 直方圖計算，並取其平均的直方圖當作該類的樣版(Template) 模型，因此在輸入特徵進行分類時，採用簡單的樣版比對(Template Matching)方式，

找出與其特徵具有最小距離的樣版類別，即做為輸入的特徵所屬的表情類別。在此，

我們採用 Chi-Square 統計量(²)來當作輸入特徵與樣版之間的距離量測方式，在 T.

Ahonen 等人[36]的研究中，指出直方圖距離量測方法中，使用 Chi-Square 統計量的方法，可以得到最好效果，因此，本論文採用 Chi-Square 統計量來當作兩段直方圖特徵的距離量測方法。Chi-Square 統計量其距離計算方式為：



(4-12)

其中，S 與 M 為兩個臉部的直方圖特徵，其輸出的值 越小表示兩者距離越接近。

圖 4-9 為前 20 個 AdaBoost.M2 所選出具有最佳鑑別度的弱分類器，所對應的特徵區域，這些特徵區域可以發現，大部分的區域都落在人臉五官附近，如眼睛周圍和嘴巴周圍等區域，這些區域進行特徵抽取後，串接成我們所需的人臉特徵向量來當作表情辨識的輸入特徵。

圖 4-9、AdaBoost.M2 選出的前 20 個特徵區域

(31)

24

4.4 混和特徵與辨識

LBP 和 WLDP 直方圖在分別經過 AdaBoost.M2 演算法選取對不同表情間，最具有鑑別度的特徵後，可以分別得到其每個區域所對應的直方圖特徵。每張輸入的人臉影像，在經過這些特徵擷取後，並分別串接起來，即可分別形成該人臉的 LBP 特徵和 WLDP 特徵，如圖 4-10 所示。

圖 4-10、將 AdaBoost 選取的區域進行計算直方圖，並串接成表情辨識所需的人臉特徵

以 LBP 而言，由於每個區域所計算出的直方圖特徵具有 59 維度的資料量，假設 AdaBoost.M2 演算法共選了 100 個人臉有效的區域，串接後特徵就會達到 59*100=5900 維度，直覺上，對物件描述的越詳細，特徵的維度越多，應當能使辨識率往上提升，然而絕大多數的時候，這樣的作法是極其有限的。當採用的特徵維度太大時，在過高維度的空間中，物件的樣本數也需要以近乎指數性的成長，才能穩定資料分析的正確性。因此對物件詳細描述的好處，並無法彌補高維度空間所導

(32)

25

致樣本數不足的問題，我們稱此種情形為維度的詛咒(Curse of Dimensionality)。所以本論文採用 PCA 來進行降維的動作，使其特徵長度能有效的大幅縮小，卻又不使辨識率下降太多。

為了表達方便，我們以 Boosted-LBP 和 Boosted-WLDP 來分別表示 LBP 特徵和 WLDP 特徵經過 AdaBoost 選取後，透過串接的方式，來組合成人臉影像特徵。當 Boosted-LBP 和 Boosted-WLDP 所對應的人臉影像特徵分別經過 PCA 特徵降維後，

我們會把兩種不同特性的特徵進行串接，形成一個新的混合特徵，我們採用此混合特徵，來做為當前輸入人臉表情影像的人臉特徵，並藉以進行辨識。

(33)

26

第五章實驗與分析

5.1 表情資料庫

在資料庫方面，我們選用 Cohn-Kanade 資料庫[32]來進行實驗。此資料庫裡面，

由 95 位修心理學概論的大學生組成，他們年齡介於 18 歲到 30 歲之間，包含 65%的女性、15%是美裔非洲人種、3%為亞洲人種或拉丁美洲人種，總共有 486 組序列影像。每組序列影像皆由無表情開始，由欲表現的基本動作單元(Facial Action Code)[14]為結束，每段序列裡每張影像大小為 640x490 像素。

Cohn-Kanade 資料庫目前已經廣泛的被研究學者採用，由於其具有完整的表情序列，該資料庫原本是設計給 FACS 方法來進行表情辨識使用，在此，我們選取其中 332 段影像序列，共計 93 人。選取的準則為該段影像序列能夠被人眼辨認出為 6 種表情中的任一種(說明這邊為什麼 6 種表情)，並轉換為 7 種表情所需的影像資料。

對於每一段影像序列，選取第一張影像當作無表情，並選取最後 3 張影像當作表情影像，來進行實驗。

為了能更精確的進行效能評估，因此我們採用 10 重與人員無關之交互驗證 (10-Fold Person-Independent Cross-Validation)架構。與人員無關在此指的是，在不同的資料集中，為了能夠表現出未出現過的樣本，因此相同的人員，如果出現在訓練樣本裡面，在測詴樣本裡面將不會存在該人員，因此這種作法能有效的測詴演算法的通用性能力(Generalization abilities)。而 10 重的交互驗證架構是為了能更精確地測量出演算法的辨識效能，因此將資料集分成 10 等分，因為採用與人員無關的方法，

資料庫人員會被平均的分配到 10 個子資料集，每次選取其中一個資料集當作測詴樣本(Testing Dataset)，剩於的 9 個資料集當作訓練樣本(Training Dataset)，並且此一動

(34)

27

作將重複進行 10 次，使每個資料集都被選為測詴樣本一次。其中，為了避免對訓練資料過度訓練(over-fitting)，因此我們額外將訓練樣本的資料集，選出第一個資料集來當作驗證資料集(Validation Dataset)，以提供訓練資料來進行參數的調效。

5.2 實驗結果

在本論文中，實作了區塊式(Block-Based)表情辨識方法[33]，和利用 Boosting 演算法為基礎的表情辨識方法。區塊式表情辨識方法是將人臉影像，切成固定大小的區塊，並對每個區塊進行特徵抽取後，經特徵串接來形成人臉特徵向量，最後再利用分類器進行表情辨識。圖 5-1 為一張人臉影像切割成 57 個區塊示意圖。

圖 5-1、區塊式人臉特徵抽取方法示意圖

由於目前區塊式的表情辨識方法中，大部分做法都以人為的方式，來決定影像切割的區塊數，因此實驗結果容易受到切割的區塊數目所影響。為了消除人為參數所造成實驗的誤差(Experimenter Bias)，及避免對訓練資料過度訓練(Over-Fitting)而造成通用性降低，因此在本論文的實驗中，將訓練資料集切割出一個驗證資料集，

當訓練資料進行訓練完成後，會對驗證資料集進行效能評估，並找出一組最好的參

(35)

28

數，最後再對測詴資料集進行效能驗證。區塊式的表情辨識方法中，本論文分別進行了 LBP_8,1、LBP_8,2、LDP 和 WLDP 四種特徵抽取方法的實驗，表 5-1 為區塊式表情辨識使用上述四種特徵的辨識效能。

表 5-1、區塊式表情辨識方法的辨識效能 Method Recognition Rate

LBP_8,1 85.91%

LBP_8,2 84.70%

LDP 86.74%

WLDP 87.72%

由表 5-1 可以得知在區塊式的表情辨識方法中，原始 LDP 方法可以達到 86.74%

的辨識率，而本論文所提出的 WLDP 方法，可以將辨識率更進一步的往上提升到 87.72%，因此 WLDP 對表情辨識具有一定的辨識效果。

為了克服因區塊式表情辨識在影像上切割出固定大小區塊，而使一些如人臉邊緣等與表情辨識較無相關的區域，也都進行特徵擷取此一缺點，本論文進一步地採用 Booting 的區塊選擇方法，選取出對表情辨識具有鑑別度的區塊，再根據所選取出來的區塊，進行表情辨識，表 5-2 為這四種方法的辨識結果。

(36)

29

表 5-2、Boosting 區塊選擇的辨識效能 Method Recognition Rate Boosted-LBP_8,1 88.77%

Boosted-LBP_8,2 87.72%

Boosted-LDP 87.34%

Boosted-WLDP 88.31%

由表 5-2，可以觀察到 Boosted-LBP8,1的效果最好，其效能比區塊式的方法上升了近 3 個百分比，而且 Boosted-WLDP 也比原始的 Boosted-LDP 表現的出色。表 5-3 和表 5-4 分別列出其 Boosted-LBP8,1 和 Boosted-WLDP 的混淆矩陣(Confusion Matrix)。

表 5-3、Boosted-LBP8,1 的混淆矩陣，空格的部份為 0%

Output Input

AN DI FE HA NE SA SU

AN 67.6% 1.0% 25.7% 5.7%

DI 1.7% 85.0% 2.5% 10.8%

FE 1.6% 76.0% 8.5% 10.1% 3.9%

HA 0.4% 2.6% 93.7% 3.3%

NE 0.3% 0.3% 0.3% 97.9% 0.6% 0.6%

SA 0.7% 0.7% 2.0% 19.0% 75.8% 2.0%

SU 0.5% 1.8% 97.7%

(37)

30

表 5-4、Boosted-WLDP 的混淆矩陣 Output

Input

AN 64.8% 3.8% 1.9% 22.9 % 6.7%

DI 92.5% 2.5% 0.8% 3.3% 0.8%

FE 2.3% 1.6% 78.3% 6.2% 8.5% 3.1%

HA 1.1% 94.1% 4.8%

NE 2.7% 0.3% 0.6% 95.2% 0.6% 0.6%

SA 6.5% 2.0% 20.9% 70.6%

SU 0.5% 1.8% 98.2%

在表 5-3 與表 5-4 中，第一行為生氣(AN)、厭惡(DI)、恐懼(FE)、高興(HA)、無表情(NE)、悲傷(SA)和驚訝(SU)的輸入影像表情類別，而第一列則為辨識所輸出的表情類別。從這兩個混淆矩陣來看，厭惡、恐懼、高興和驚訝這幾種表情，由於在影像上，具有較明顯的紋理變化，雖然 LBP 能夠有效的擷取出特徵，但 WLDP 由於強化了邊緣紋理的特徵擷取，使其能有效的對抗雜訊影響，因此在 WLDP 的方法中，可以得到較好的效能；而生氣、無表情和悲傷表情則由於表情過於接近，造成紋理變化較不明顯，LBP 雖然對抗雜訊的能力較弱，但相較於 WLDP 方法，LBP 的編碼方法，更能有效的表現出如端點（Line End）或是角點(Corner)等資訊，因此對這三類較難辨識之表情， LBP 效能表現較 WLDP 優異。

為了能夠截長補短，取其兩種方法的優點，本論文也提出使用混合特徵來進行表情辨識，在本論文中，我們選用兩種經過特徵降維後，仍然可以得到最好的效果的特徵抽取方法，藉由串接兩種不同的表情特徵向量，來形成混合特徵。表 5-5 為 Boosted-LBP8,1和 Boosted-WLDP 所抽取出的特徵，各自經過 PCA 降維後的辨識效

(38)

31

能和本論文所提出混合特徵的辨識效能。

表 5-5、降維後的效能和本論文所提出混合特徵效能 Method Recognition Rate Boosted-LBP_8,1 with PCA 88.47%

Boosted-LBP_8,2 with PCA 84.93%

Boosted-LDP with PCA 87.04%

Boosted-WLDP with PCA 88.24%

Proposed method 91.11%

表 5-5 是特徵降維後，各方法所展現的效能，雖然經過 PCA 特徵降維後，特徵維度大幅降低，也造成辨識率些微降低，但辨識率仍在可以接受的範圍(請參考表 5-4 和表 5-5)。經過特徵降維後的 Boosted-LBP8,1和 Boosted-WLDP 將其特徵串接所形成的混合特徵，可以讓原本是 88.24% 和 88.47% 的各自辨識率上升到 91.11%，

效能約上升 2.87% 和 2.64%。下表 5-6 也列出混合特徵的混淆矩陣以進行比較。

(39)

32

表 5-6、混合特徵的混淆矩陣 Output

Input

AN 72.4% 1.0% 21.0% 5.7%

DI 94.2% 0.8% 1.7% 3.3%

FE 1.6% 80.6% 8.5% 4.7% 4.7%

HA 0.4% 1.9% 94.8% 3.0%

NE 0.9% 0.3% 0.3% 97.3% 0.3%

SA 2.6% 2.0% 17.0% 78.4%

SU 0.5% 99.5%

由表 5-6 可以看出，本論文所提的混合特徵，可以有效的結合 LBP 和 WLDP 方法的優點，使原本較難分辨的生氣表情、無表情和悲傷表情，能有效的進行分類，

也使得整體的辨識效果有明顯的大幅度提升。將表 5-3、表 5-4 和表 5-6 的表格整理成圖 5-2。在圖 5-2 中，混合特徵對各種不同表情的分類皆有明顯的改進，雖然在無表情上，效能略輸 Boosted-LBP 方法一點，但以整體的辨識率而言，混合特徵有其整體效能上顯著的改進。

(40)

33

圖 5-2、各方法對 7 類表情的效能比較圖

在此，本論文也對相關的方法[33]來進行比較，該論文中，主要是統整其先前 LBP 方法相關的研究，該篇主要的方法是使用 LBP 來進行特徵擷取，並辨識 7 種表情。下表列出該篇與本論文相似方法的辨識率。

表 5-7、在[33]中，與本論文相似作法效能 Method Recognition Rate Block-Based LBP 88.9%

Boosted-LBP_8,2 91.4%

其中，Block-Based LBP 雖然都是區塊式的表情辨識，但由於實驗環境設置不同，因此沒辦法直接拿來做比較，但仍然可以供此處參考。在[33]中，該方法是採用固定的區塊數，一開始對影像正規化完之後，接著將影像固定切割成寬和高為 76 區塊個數的影像區域，接著採用 LBP 去擷取特徵，最後使用 SVM 來進行辨識。

60.00%

65.00%

70.00%

75.00%

80.00%

85.00%

90.00%

95.00%

100.00%

辨識率

Boosted-LBP Boosted-WLDP Fusion Feature

(41)

34

圖 5-3、左邊為[33]中，所使用的固定區塊數

[33]中與本論文最大不同的地方有兩點：

第一點是實驗架構中，我們切割出驗證資料集來進行訓練樣本的參數調校，最後才對測詴集資料進行效能評估，此架構能夠真實的反應出演算法的效能，並且可以模擬真實的應用情形。[33]效能經過 Boosting 演算法選則區塊以後，大約上升了 2.5%，這和本論文區塊經過 Boosting 演算法選則所得到的上升幅度差不多。

第二點是資料庫樣本數量的不同，目前各種表情辨識論文之間，其實無法有效的直接進行比較，其中的一個主要原因是因為表情辨識是一種很主觀的認定，在這個情形下，每個人所認為的表情將會有所差異，因此在資料庫影像的選取上，在我們的資料庫共有 1327 張影像(包含 105 張生氣、120 張厭惡、129 張恐懼、270 張高興、331 張無表情、153 張悲傷和 219 張驚訝影像)，而在[33]中，則共有 1280 張影像(108 張生氣、120 張厭惡、99 張恐懼、282 張高興、320 張無表情、126 張悲傷和 225 張驚訝影像)，在表情辨識中，最常混淆的三類表情分別是生氣、無表情和悲傷。

由於生氣、無表情和悲傷影像，在人臉表情表現上，過於接近，因此截至目前，表情辨識中這三類的效能將會影響整體的辨識率，而其餘類別，則因為在認知上，可以較明確的進行區分，因此正常來講，除了生氣、自然和悲傷以外，其餘的類別辨識率通常都可以達到蠻高的辨識效能。而在[33]中，可以明顯的看到，對於難辨識

(42)

35

的三類表情，本論文實驗所使用的張數明顯的較多，而在其餘較易辨識的類別上，

本論文實驗使用的張數也明顯的少於[33]中所使用的影像，這可能是本論文所提出的方法，實驗效能會比[33]所提出的效能還要低的主要原因。

基於上面所提的兩點，在此沒辦法以數據直接進行方法好壞的比較，但所列出的辨識數據仍可當作參考，以瞭解目前相關技術的研發水準。

5.3 分析與討論

本論文所提出權重式區域方向特徵，其實驗結果在區塊式的表情辨識方法，及加入 Boosting 方法來選取具有鑑別度特徵的表情辨識方法中，效能表現皆比原始的區域方向特徵好。主要的原因在於人臉五官對於表情辨識有其一定的重要性，因此透過權重來加強這些區域在人臉特徵向量中所佔的比重，可以使整體的辨識率有一定程度的改善。

除了提出權重式區域方向特徵，本論文也提出一種混合 Boosted-LBP 和 Boosted-WLDP 兩種不同性質的混合特徵。此混合特徵藉由利用 Boosted-LBP 和 Boosted-WLDP 的優點，來彌補兩者在表情辨識上的不足地方，使其整體的辨識率，

比起單獨使用 Boosted-LBP 或 Boosted-WLDP 方法，能夠更進一步地再往上提升。

混合特徵對 Cohn-Kanade 資料庫的實驗結果為 91.1%，已達到了相當程度的辨識效能，因此本論文所提出的權重式區域方向特徵和混合特徵，對表情辨識而言，

具有一定的效果。

也由於 LBP 和 WLDP 計算方法簡單，運算量小，因此可以應用於即時的表情

(43)

36

辨識系統上。故此，本論文利用提出的演算法，實作了一套即時的自動化表情辨識展示系統，系統裡面包含自動的人臉偵測、特徵點抽取，和本論文所提出的演算法，

第六章將詳細的介紹此展示系統。

(44)

37

第六章表情辨識展示系統

本論文利用前面所提到的理論，結合人臉偵測，將相關的技術整合成一套具有即時處理能力的人臉表情辨識系統。系統中最主要的功能，就是將 CCD 所拍攝的影像擷取下來，經由人臉偵測的技巧找出人臉位置後，辨識其表情。

本系統在偵測人臉部份使用 AdaBoost 分類器對輸入影像進行人臉偵測，與本論文前面所提的 AdaBoost 不同的地方在於這裡所使用的是傳統的二類別分類器，特徵是使用 haar 特徵。使用 AdaBoost 偵測出可能的人臉後，接著會經過輻射型對稱性轉換(Radial Symmetry Transform)產生眼睛瞳孔候選點；再從這些候選的點當中，使用 SVM 來過濾出可能的眼睛位置。

展示系統介面如圖 6-1 所示，目前系統設定只辨識 5 種表情，分別是生氣、高興、無表情、悲傷和驚訝。介面上，左上角為當下人臉所擷取出來的影像，如果有辨識到使用者的表情，則被辨識的表情的代號圖案會顯示在人臉的右上方，目前顯示的表情圖案為：

(45)

38

圖 6-1、系統顯示圖片，(a)表示生氣、(b)高興、(c)無表情、(d)悲傷和(e)驚訝

系統實際運行畫面如下圖 6-2 所示：

(a)

(a) (b) (c)

(d) (e)

(46)

39

(b)

(c)

(47)

40

(d)

(e)

圖 6-2、由上到下的影像依序為系統辨識 (a)無表情、(b)生氣、(c)驚訝、(d)悲傷和(e) 高興表情

本系統可容忍一定光線變化之能力，與一定的角度旋轉與左右上下的轉動（約正負 15 度），目前系統運行速度約每張影像的處理時間為 140ms（包含人臉偵測、

眼睛偵測、特徵抽取和表情辨識），系統詳細規格列表如下。

(48)

41

表 6-1、展示系統規格處理器 Intel Q6600 2.4 GHz 記憶體 4G RAM

作業系統 Windows 7

開發語言 C++ with OpenCV Library

(49)

42

第七章結論與未來展望

由於現今科技進步快速，人機介面的重視已不可同日而語，好的人機介面將有助於拉近人與機器間的距離，而利用表情辨識來與使用者互動，更是可實現的一大賣點。在本論文中，提出一種新的權重式區域方向特徵─WLDP，並結合 LBP 和特徵降維處理來產生具分辨能力的人臉特徵，該特徵能有效的利用 LBP 和 WLDP 的優點，提高表情的辨識效能，並且由於訓練後的特徵計算簡單，因此很適合應用在具有即時辨識需求的硬體上。

在本論文中，混合特徵的演算法，是結合 Boosted-LBP 和 Boosted-WLDP 經過 PCA 特徵降維後串接所得到，在未來，應可多嘗詴不同的組合，或找出具有良好特性的特徵及特徵降維方法，將可以使目前的表情辨識演算法更完善。除了演算法部份，特徵點抽取也是一項相當重要的技術，如果沒有穩定的特徵抽取方法搭配，表情辨識也無法發揮其辨識效能，因此在演算法中其前處理步驟，也是未來可以改進的主要方向。

(50)

43

參考文獻

[1] P. Ekman and W. V. Friesen, “Constants across cultures in the face and emotion,”

Journal of Personality and Social Psychology, vol. 17, pp.124-129, 1971.

[2] P. Ekman and W. V. Friesen(1978),The Facial Action Coding System: A Technique For The Measurement Of Facial Movement. San Francisco: Consulting Psychologists Press.

[3] R. W. Picard, Affective Computing. London: The MIT Press, 1997.

[4] SONY. [Online]. Available: http://www.sony.co.jp/ July 2008 [date accessed]

[5] T. F. Coots, C. Taylor, D. Cooper, and J. Graham, “Active shape models – their training and application”, Computer Vision and Image Understanding, 61(1):38-59, January 1995.

[6] Zhonglong Zhenga, Jia Jionga, Duanmu Chunjianga, XinHong Liua and Jie Yangb,

“Facial feature localization based on an improved active shape model”, Information Sciences,Volume 178, Issue 9, 1 May 2008, Pages 2215-2223.

[7] Kwok-Wai Wan, Kin-Man Lam, Kit-Chong Ng, "An accurate active shape model for facial feature extraction", Pattern Recognition Letters , Volume 26 , Issue 15, November 2005.

[8] Chunhua Du, Qiang Wu, Jie Yang, Zheng Wu, “SVM based ASM for facial landmarks location”, 8th IEEE International Computer and Information Technology, 2008. CIT 2008.

[9] Shengjun Xin, Haizhou Ai: Face Alignment Under Various Poses and Expressions.

ACII 2005.

[10] 呂正偉(曾定章教授指導), “以適應性的主動外形模式定位臉部特徵”, 國立中央大學,資訊工程研究所,碩士論文,2006.

[11] T.F.Coots, G. J. Edwards, and C. J. Taylor, “Active appearance models”, In Proc.

European Conf. on Computer Vision, volume 2, pages 484-498. Springer, 1998.

[12] G. J. Edwards, C. J. Taylor, and T. F. Cootes, “Interpreting Face Images Using Active Appearance Models”, International Conference on Face & Gesture Recognition, pp.300, April 1998.

[13] T.F.Coots, G. J. Edwards, and C. J. Taylor, “Comparing Active Shape Models with Active Appearance Models”, The 10th British Machine Vision Conference,

(51)

44

September 1999.

[14] P. Ekman and W.V Freisen, “The facial action coding system: a technique for the measurement of facial movement”, San Francisco: Consulting Psychologists Press, 1978.

[15] Y-L. Tian, T. Kanade, J.F. Cohn, “Recognition action units for facial expression analysis”, IEEE Trans. Pattern Anal. Mach. Intell. 23(2) (2001) 87-115.

[16] G. Donato, M.S. Bartlett, J.C. Hager, P. Ekman, T.J. Sejnowski, “Classifying facial actions”, IEEE Trans.. Pattern Anal. Mach. Intell. 21(10)(1999) 974-985.

[17] M.S. Bartlett, G. Littlewort,I. Fasel, and J.R. Movellan, “Real time face detection and facial expression recognition: Development and applications to human computer interaction,” in Proc. Conf. Computer Vision and Pattern Recognition Workshop, Madison, WI, Jun. 16-22, 2003, vol. 5, pp. 53-58.

[18] L. Ma and K. Khorasani, “Facial expression recognition using constructive feedforward neural networks,” IEEE Trans. Syst., Man, Cybern. B, Cybern., vol. 34, no. 3, pp. 1588–1595, Jun. 2004.

[19] S. Dubuisson, F. Davoine, and M. Masson, “A solution for facial expression representation and recognition,” Signal Process.: Image Commun., vol. 17, no. 9, pp.

657–673, Oct. 2002.

[20] I. A. Essa and A. P. Pentland, “Facial expression recognition using a dynamic model and motion energy,” presented at the Int. Conf. Computer Vision, Cambrdige, MA, Jun. 20–23, 1995.

[21] M. Pantic and L. J. M. Rothkrantz, “Expert system for automatic analysis of facial expressions,” Image Vis. Comput., vol. 18, no. 11, pp. 881–905, Aug. 2000.

[22] Irfan A. Essa, “Coding, analysis, interpretation, and recognition of facial ex-pressions,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 19, no. 7, pp.757–763, Jul. 199

[23] M. S. Bartlett, G. Littlewort, B. Braathen, T. J. Sejnowski, and J. R. Movellan,

“An approach to automatic analysis of spontaneous facial expressions,” presented at the 5th IEEE Int. Conf. Automatic Face and Gesture Recognition, Washington, DC, 2002.

[24] T. Ojala, M. Pietikäine, D. Harwood, “A comparative study of texture measures with

(52)

45

classiﬁcation based on featured distribution,” Pattern Recognition 29 (1) (1996) 51–59.

[25] T. Ojala, M. Pietikäinen, T. Mäenpää, “Multiresolution gray-scale and rotation invariant texture classiﬁcation with local binary patterns,” IEEE Transactions on Pattern Analysis and Machine Intelligence 24 (7) (2002) 971–987.

[26] T. Jabid, M.H. Kabir, O. Chae, “Local Directional Pattern(LDP) for Face Recognition,” International Conference on Consumer Eletronics (ICCE), 2010, pp.

329-330

[27] P. Viola and M. Jones, “Rapid Object Detection Using a Boosted Cascaded of Simple Features”, in Proceedings IEEE Conf. on Computer Vision and Pattern Recognition, vol. 1, pp. 511-518, 2001.

[28] B. Frba and A. Ernst, “Face Detection with the Modified Census Transform”, Proc.

IEEE Int. Conf. on Automatic Face and Gesture Recognition (AFGR), Seoul, pp.

91-96,2004.

[29] P. Wilson and J. Fernandez, “Facial feature detection using Haar classifiers,” Journal of Computing Sciences in Colleges, 21, pp. 127-133, 2006.

[30] D. Cristinacce and T. Cootes, “Facial feature detection using AdaBoost with shape constraints,” British Machine Vision Conference, 2003.

[31] Y. Freund and R. E. Schapire, “A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting,” Journal of Computer and System Sciences, vol. 55, pp. 119-139, 1997.

[32] Kanade, T., Cohn, J. F., & Tian, Y. “Comprehensive database for facial expression analysis,” Proceedings of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition (FG'00), Grenoble, France, 46-53. 2000

[33] C. Shan, S. Gong, P. W. McOwan, “Facial Expression Recognition based on Local Binary Patterns: A comprehensive study,” Image and Vision Computing, vol. 27, issue 6, 2009, pp. 609-839

[34] A. Mehrabian (1971). Silent Messages (1st ed.). Belmont, CA: Wadsworth.

[35] Y. Freund, R.E. Schapire, “Experiments with a New Boosting Algorithm,”

Proceedings of the International Conference on Machine Learning, pp. 148-156, 1996

(53)

46

[36] T. Ahonen, A. Hadid, and M. Pietikäinen, “Face Recognition with Local Binary Patterns,” Proc. Eighth European Conf. Computer Vision, pp. 469-481, 2004

中 華 大 學

中 華 大 學 碩 士 論 文

基於權重式區域方向特徵和區域二元化形態 之表情辨識方法