基於時間強化設計之情緒辨識方法

(1)

國立交通大學

電控工程研究所

碩士論文

基於時間強化設計之情緒辨識方法

Robust Emotion Recognition by Using a

Temporal-Reinforced Approach

研究生：林昭宇

指導教授：宋開泰博士

(2)

基於時間強化設計之情緒辨識方法

Robust Emotion Recognition by Using a Temporal-Reinforced

Approach

研究生：林昭宇 Student: Chao-Yu Lin

指導教授：宋開泰博士 Advisor: Dr. Kai-Tai Song

國立交通大學電控工程研究所

碩士論文

A Thesis

Submitted to Institute of Electrical Control Engineering College of Electrical and Computer Engineering

National Chiao Tung University in Partial Fulfillment of the Requirements

for the Degree of Master in

Electrical Control Engineering July 2013

Hsinchu, Taiwan, Republic of China

(3)

i

基於時間強化設計之情緒辨識方法

學生:林昭宇指導教授:宋開泰博士國立交通大學電控工程研究所

摘要

本論文之主旨在研究基於連續影像之情緒辨識方法，文中提出一套基於連續時間關聯資訊之情緒辨識與描述之方法。本方法首先透過主動外觀模型(Active appearance model, AAM)產生人臉影像樣本之形狀模型與紋理模型，擷取人臉特徵點及幾何特徵值，再由相關向量機(Relevance vector machine, RVM) 辨識情緒狀態。在辨識設計方面，本研究透過時序分析，辨識情緒類別之可能性(Likelihood)，並將辨識結果轉換至二維 Arousal 與 Valence 平面(Arousal-Valence Plane, A-V Plane)，以利系統之反應設計。所發展之方法能針對情緒程度、類別比例等資訊做更細微之辨識，且能夠分析情緒之轉變過程。經由實驗驗證，所發展之方法確能有效提升情緒辨識之效能，對基本表情之辨識率可達 95%以上，對複雜情緒亦能做有效之辨識。為驗證本方法線上(on-line)辨識之效果，本論文設計一套基於人臉情緒辨識之智慧音樂選曲系統，此系統可藉由即時人臉情緒辨識，選取適當之音樂進行播放，透過音樂將使用者情緒逐漸導向至目標情緒。

(4)

ii

Robust Emotion Recognition by Using a

Temporal-Reinforced Approach

Student: Chao-Yu Lin Advisor: Dr. Kai-Tai Song

Institute of Electrical Control Engineering National Chiao Tung University

ABSTRACT

In this thesis, a temporal-reinforced approach to enhancing emotion recognition from facial images has been developed. Shape and texture models of facial images are computed by using active appearance model (AAM), from which facial feature points and geometry feature values are extracted. The extracted features are used by relevance vector machine (RVM) to recognize emotional states. In this work, we propose a temporal analysis approach to recognizing likelihood of emotional categories, such that more subtle emotion, such as degree and ratio can be obtained. Furthermore, a method is developed to map the recognition result to the Arousal-Valence Plane (A-V Plane). Experimental results verify that the performance of emotion recognition is enhanced by the proposed method. Furthermore, the A-V values are applied to an intelligent music selection system. With emotion recognition of current A-V values, appropriate songs are selected and played by this system to change a person emotion towards a target emotion.

(5)

iii

誌謝

謹向我的指導教授宋開泰博士致上誠摯感謝之意，感謝他兩年來對我在課業與研究上的指導，並且教導我待人處事的態度與方法。他以豐富的學識與經驗，配合理論的應用，從論文題目、系統架構至實驗方法、實驗內容的完善性對我加以指導，使本論文得以順利完成。感謝實驗室學長姊孟儒、嘉豪、格豪、巧敏、信毅、允智、育萱、建宏、仕晟、碩成、上畯、章宏、家昌與 Carlos，在我研究上有疑惑時給予詳盡的建議。感謝與我在這兩年來一起努力的同學京叡、俊儒與依穎的鼓勵及幫忙，以及學弟明翰、瑋哲、佑霖、奕夫與政輝不時提供幫助，並在生活與課業帶來樂趣。最後，感謝我的父母與姊姊，由於父母的辛苦栽培，以及家人的細心關懷，並在過程中適時給我支持與鼓勵，使得我能夠以健康的身心持續研究，順利完成論文，在此願將此論文獻給我摰愛的家人。

(6)

iv

摘要... i ABSTRACT ... ii 誌謝... iii 目錄... iv 圖例... vi 表格... viii 第一章、緒論 ... 1 1.1. 研究動機 ... 1 1.2. 相關研究回顧 ... 4 1.2.1. 人臉情緒辨識方法 ... 4 1.2.2. 程度、比例、連續時間人臉情緒辨識方法 ... 6 1.2.3. 相關向量機原理 ... 8 1.2.4. 可能性分析相關理論 ... 11 1.3. 問題描述 ... 13 1.4. 系統架構與章節說明 ... 14 第二章、人臉偵測與特徵點擷取 ... 16 2.1. 人臉偵測 ... 16 2.1.1. 人臉區域決定 ... 16 2.1.2. 人臉影像正規化 ... 20 2.2. 主動外觀模型 ... 20 2.3. 人臉形狀模型 ... 21 2.3.1. 標註特徵點 ... 21 2.3.2. 平均人臉形狀 ... 22 2.3.3. 模擬臉部形狀變化 ... 24 2.4. 人臉紋理模型 ... 25 2.4.1. 人臉紋理 ... 25 2.4.2. 分段仿射變形 ... 26 2.4.3. 模擬臉部紋理變化 ... 27

(7)

v 2.5. 影像校正演算法 ... 28 2.5.1. Inverse Compositional 演算法 ... 29 2.5.2. 整體形狀正規化轉換 ... 31 2.5.3. 梯度影像修正 ... 33 2.5.4. 直方圖等化 ... 34 2.5.5. 影像校正整體方法 ... 34 第三章、基於機率之連續影像情緒辨識 ... 34 3.1. 人臉特徵擷取 ... 36 3.2. 特定情緒辨識 ... 40 3.3. 類別可能性 ... 41 3.3.1. 類別可能性辨識 ... 42 3.3.2. 類別可能性耦合 ... 47 3.3.3. 類別可能性時序分析 ... 50 3.4. 基於 A-V Plane 之情緒狀態辨識 ... 53 第四章、實驗結果 ... 61 4.1. 特徵點偵測結果 ... 61 4.2. 基本情緒辨識結果 ... 64 4.3. 混合情緒辨識結果 ... 68 4.3.1. 問卷調查結果與辨識結果相關性評估 ... 72 4.3.2. 整體情緒類別 RMSE 評估 ... 72 4.3.3. 混合情緒類別組合評估 ... 74 4.4. 基於 A-V Plane 之情緒辨識結果 ... 74 4.5. 基於情緒辨識之音樂選取實驗 ... 78 4.5.1. 音樂資料庫 ... 78 4.5.2. 音樂選取設計 ... 78 4.5.3. 音樂選取實驗結果 ... 82 第五章、結論與未來展望 ... 92 5.1. 結論 ... 92 5.2. 未來展望 ... 93 參考文獻... 94 附錄一、基本人臉情緒混合比例問卷調查樣張 ... 100

(8)

vi

圖例

圖 1-1、寵物型機器人 ... 2 圖 1-2、照護型機器人 ... 2 圖 1-3、應用於健康照護之機器人(Aethon Tug)[12] ... 3 圖 1-4、SVM 與 RVM 分類器對兩類資料分類之比較[28] ... 10 圖 1-5、SVM 與 RVM 建立 Sinc 函式回歸模型之比較[28] ... 10 圖 1-6、系統架構 ... 15

圖 2-1、Viola 與 Jones 提出之 Haar-like 矩形特徵 ... 17

圖 2-2、人臉偵測之矩形特徵範例 ... 18

圖 2-3、Lienhart 與 Maydt 提出之 Haar-like 矩形特徵 ... 18

圖 2-4、串接分類器架構圖 ... 19 圖 2-5、雙線性內插示意圖 ... 20 圖 2-6、特徵點選取原則示意圖 ... 21 圖 2-7、7 種基本表情特徵點標註範例 ... 22 圖 2-8、訓練平均人臉形狀範例 ... 24 圖 2-9、平均人臉形狀 ... 24 圖 2-10、Delaunay triangulation 方法對人臉切割示意圖 ... 26 圖 2-11、三角形之形變座標轉換示意圖 ... 27 圖 2-12、Inverse Compositional 演算法架構[36] ... 30 圖 2-13、整體形狀正規化轉換形狀變化模型[36] ... 32 圖 2-14、樣板人臉影像 ... 34 圖 3-1、18 個人臉特徵點位置 ... 37 圖 3-2、6 種基本人臉表情相關之 AUs ... 38 圖 3-3、情緒辨識架構圖 ... 41 圖 3-4、情緒間 Likelihood 關係示意圖 ... 50 圖 3-5、個別情緒 Likelihood 追踨之有限狀態機 ... 52

圖 3-6、Russell 提出之 A-V Plane ... 53

圖 3-7、A-V 參考值之決定 ... 55 圖 4-1、CK+資料庫序列影像範例，由中性表情變化至驚訝表情 ... 62 圖 4-2、7 種基本表情特徵點偵測結果 ... 62 圖 4-3、序列影像中訓練 RVM 分類器與判斷情緒 Likelihood 影像樣本示意圖 . 64 圖 4-4、混合情緒測試樣本(Sample Index：2) ... 69 圖 4-5、混合情緒測試樣本(Sample Index: 3) ... 69 圖 4-6、混合情緒測試樣本(Sample Index：4) ... 70 圖 4-7、混合情緒測試樣本(Sample Index：7) ... 70

(9)

vii 圖 4-8、混合情緒測試樣本(Sample Index: 8) ... 71 圖 4-9、混合情緒測試樣本(Sample Index：10) ... 71 圖 4-10、10 組序列人臉情緒比例調查結果整體均方根誤差(灰直方)，與辨識結果之均方根誤差(黑直方) ... 73 圖 4-11、10 組序列人臉情緒比例調查結果之情緒組合比例之和(灰直方)，辨識結果對調查結果之情緒組合 Likelihood 之和(黑直方) ... 75 圖 4-12、情緒從中性情緒轉換至 (a)生氣，(b)厭惡，(c)害怕，(d)高興，(e)傷心， (f)驚訝... 76 圖 4-13、音樂資料庫之音樂分佈示意圖 ... 79 圖 4-14、智慧型音樂選取之系統流程 ... 79 圖 4-15、情緒與音樂關係示意圖 ... 81 圖 4-16、情緒與音樂之決定與轉換 ... 81 圖 4-17、情緒轉換情境設計，由不愉快情緒轉為愉快情緒之實驗 ... 87 圖 4-18、情緒轉換情境設計，由興奮情緒轉為平靜情緒之實驗 ... 91

(10)

viii

表格

表 3-1、6 種基本人臉表情之 AUs 組合 ... 38 表 3-2、6 種人臉表情之 AUs 組合定義 ... 39 表 3-3、訓練樣本 2 情緒之間以 SRVM 辨識結果 ... 46 表 3-4、訓練樣本 2 情緒之間以 DRVM 辨識結果... 46 表 3-5、2 情緒之間分類器之選擇 ... 47 表 4-1、18 個特徵點偵測平均<最大>誤差(單位：Pixel) ... 63 表 4-2、Likelihood 時序辨識方法之基本情緒辨識率 ... 65 表 4-3、Likelihood 非時序辨識方法之基本情緒辨識率 ... 66 表 4-4、本研究提出之 Likelihood 時序辨識方法與相關研究之比較 ... 67 表 4-5、混合情緒辨識與問卷調查結果(Sample Index：2) ... 69 表 4-6、混合情緒辨識與問卷調查結果(Sample Index：3) ... 69 表 4-7、混合情緒辨識與問卷調查結果(Sample Index：4) ... 70 表 4-8、混合情緒辨識與問卷調查結果(Sample Index：7) ... 70 表 4-9、混合情緒辨識與問卷調查結果(Sample Index：8) ... 71 表 4-10、混合情緒辨識與問卷調查結果(Sample Index：10) ... 71 表 4-11、情緒 Likelihood 辨識結果與問卷調查平均相關性 ... 72 表 4-12、時序辨識方法之 A-V 轉換標準差 ... 77 表 4-13、非時序辨識方法之 A-V 轉換標準差 ... 77

(11)

1

第一章、緒論

1.1. 研究動機

近幾十年來，世界各國皆投入不少人力資源於機器人之研究，從早期於工廠輔助生產之機械手臂，到現今的軍事用機器人、服務型機器人等。不同的應用領域，對於機器人之設計，則需有不同之考量。人口老化與少子化，造成人力資源之短缺；又或是生活、工作忙碌導致小孩缺乏父母之陪伴、年長者缺乏家人之關心。許多研究因而著手於照護型機器人、寵物型機器人、娛樂型機器人等服務型、社交型機器人之發展，以年長者與小孩照護為目的做為機器人發展方向[1]。以機器人代替親友之角色陪伴年長者，代替家人之角色監控並回報年長者之健康狀況，或者是代替父母之角色照顧孩童。然而，諸如此類之人機互動領域，必須顧及社會對於機器人之接受度，以及機器人本身之實用性與安全性。讓機器人了解使用者之意圖、想法，讓使用者願意接近機器人，願意花時間與其相處，已是服務型、社交型機器人研究中不可或缺之問題。服務型、社交型機器人，往往為了提升人機互動之可靠度、接受度與實用性為目的，而做擬人化之設計。機器人利用感測器、資料處理之能力，以及外型之設計，使其具備類人或類動物之行為[2 - 6]，如圖 1-1 ~ 圖 1-2 所示。本研究著重於人臉情緒辨識，以應用於人機互動之領域為研究重點。現今已有相當多的人臉情緒辨識相關研究，應用於各種不同之領域[7]。人臉為判斷使用者感受與互動相當直覺且重要的資訊。有些研究將人臉情緒辨識應用於客戶與銷售員之互動上，以提升銷售量[8]，例如：當客戶來到烤箱販賣區，系統辨識客戶看到哪些產品，有最大之正向情緒反應，利用此資訊進一步使銷售員選擇行銷手法，說服客戶購買產品，或提供店家進行特定產品之促銷。相同的情況，也

(12)

2

(a) (b)

圖 1-1、寵物型機器人 (a) AIST 研發之 Paro[2], (b) Sony 研發之 AIBO[3]。

(a) (b)

圖 1-2、照護型機器人 (a) Gecko 研發之 CareBot[4], (b) Robosoft 研發之 Kompai 機器人[5]。可應用於網路商店，藉由情緒辨識系統偵測到當客戶瀏覽特定產品時產生高度興趣，而進一步提供相關產品類別資訊；有些學者則提出將人臉情緒辨識應用於電視廣告對客戶吸引力之分析[9]，例如：在球場電視牆播放廣告時，球隊經營公司利用辨識系統判斷球迷對此廣告的反應，喜悅?驚訝?感到無趣?忽略?利用諸如此類之識別，提供公司改善經營策略。將人臉情緒辨識系統應用於人與機器人互動上之研究則相對來得少。 Robosoft[5]之 Kompai robot，如圖 1-2(b)所示，目前主要是利用語音、觸碰界面與使用者做溝通，在未來則計畫加入與使用者互動為導向之機器人視覺能力，其中結合機器人臉之設計與人臉情緒辨識系統，使機器人與使用者互動時產生適當

(13)

3 之表情變化與情緒反應，即為其發展方向之一[10]；另外，Swangnetr 與 Kaber 之研究提到[11]，在醫療照護方面，由於護理師人力資源日漸短缺，過去 20 年間，像是醫院、護理之家等健康照護相關產業，已引進移動能力之機器人(例如： Aethon Tug [12]，如圖 1-3 所示)，長期協助護理師照護病患。然而，此類機器人目前主要的工作僅限於二地間藥物、餐點、床單等物品之傳遞，且未與病患直接做接觸，仍然必須依賴護理師做為機器人與病患間之橋樑。學者探討未來將藉由照護型機器人直接與病患做接觸，真正減少人力資源，減少護理師的工作量。如此則必須使機器人具備偵測與回應病患狀態(例如：生理狀態、情緒狀態)之能力，以達到正向照護之功效。描述使用者情緒，包含二種常見之方法，分別為情緒類別分類，以及將情緒映射至 2D 或 3D 之空間，做情緒程度數值分析[13]。情緒類別分類：主要是將情緒分為基本、被普遍認可之類別，一般而言可分為生氣、厭惡、害怕、高興、傷心、驚訝與中性之 7 種基本情緒[14]。基本表情分類，為目前情緒辨識相關研究最普遍之方法；情緒程度數值分析：有些學者認為每天人與人之間之互動，通常為非基本、微妙之情緒變化，而包含複雜之情緒狀態(例如：沉思、尷尬或沮喪) [15]。如此微妙、複雜之情緒狀態，必須藉由多種臉部表情類別、肢體動作、聲音或生理訊號所構成。單一類別之分類，則無法傳達多種資訊所構成之複雜情緒狀態。因此利用不同空間維度，以數值方式對情緒做程度、比例等描述，能夠圖 1-3、應用於健康照護之機器人(Aethon Tug)[12]。

(14)

4 探索微妙、複雜、連續之情緒變化，有系統的將情緒狀態做結合，而非獨立之類別定義。本研究設計重點在於使機器人根據使用者情緒呈現適當之反應。如上所述，即使機器人設計多種程度之情緒呈現，但未能提供適當之情緒資訊做為輸入，仍無法達成其功效。也就是說，若只將人臉表情分類成 7 類基本情緒，機器人所呈現之情緒反應也會侷限於七種，限制互動人性化之程度。在設計上情緒辨識系統必須對情緒程度加以判斷，使機器人能夠對不同程度之情緒呈現適當反應，並隨著使用者情緒之轉換而轉變互動狀態。本研究以 Russell [15]所提出之心理學模型(2D model, Arousal-Valence model)為根據，進行情緒 Arousal 與 Valence(A-V) 之分析，合理描述情緒間之程度與不確定性，以及情緒間之轉換，做為機器人行為反應呈現之依據。能夠表達機器人不同程度反應之方式有相當多種，像是機器人表情程度，語調高低、強弱，或播放不同種類之音樂使人心情高興等設計。本研究設計一套情緒辨識之音樂選取系統，藉由系統辨識使用者情緒，決定播放之音樂類型，依據不同場合，設法將使用者情緒轉換至適當之目標情緒，以達到人機互動之目的。

1.2. 相關研究回顧

本章節將針對一般人臉情緒辨識方法，以及以程度、比例、連續時間辨識人臉情緒方法做相關研究之深入探討。另外，本章節亦會對相關向量機原理，與可能性(Likelihood)辨識相關理論做說明。

1.2.1. 人臉情緒辨識方法

Ekman 與 Friesen 之研究指出[14]，所有複雜之情緒皆可藉由生氣、厭惡、害怕、高興、傷心、驚訝與中性 7 種基本情緒所構成，現今情緒辨識之研究亦多

(15)

5 以區分這七種情緒為研究重點。一般人臉情緒辨識相關研究，以提升基本情緒類別之辨識率為主要訴求，往往著手於特徵擷取之方法，或分類器之設計進行研究探討[16 - 17]。Gu 等人之研究 [16]，透過人眼視覺之分析，提出多層分類器組合之情緒辨識架構。作者將輸入影像切割為 49 個區塊，每個區塊皆有 50%與相鄰區塊重疊，利用不同大小與方向之賈伯濾波(Gabor filter)對影進行處理，並對處理過後之影像，模仿人類視網膜之結構做放射狀編碼。此碼利用主成份分析(Principal component analysis, PCA)與 Fisher 線性判別(Fisher linear discriminant, FLD)進行分析並結合 K 最近鄰法(K-nearest neighbor, KNN)進行分類產生區域特徵，最後再進行整合產生全域特徵做為情緒類別決定之用。此研究除了能夠對一般完整之人臉進行辨識，亦能夠對遺失部份資訊之人臉(例如：眼睛或嘴巴被遮蔽)做有效分類。然而，此研究必須有準確之人臉區域偵測，即影像必須只包含人臉資訊而盡可能的移除背景資訊，否則無法取得準確之辨識特徵。Song 等人[17]提出結合皮膚形變參數(Skin deformation parameters, SDPs)與臉部動態參數(Facial animation parameters, FAPs) 之分析，擷取影像強度比例特徵與位移特徵判斷人臉形變，並利用支持向量機 (Support vector machine, SVM)進行情緒分類。作者以主動形狀模型(Active shape model, ASM)擷取人臉特徵點，以部份特徵點所圍出之區域影像，做為臉部紋理分析之範圍。紋理特徵之擷取主要是計算測試樣本與中性表情二者區域影像之強度比例，而幾何特徵則是計算測試樣本相對於中性表情特徵點距離之位移比例 (例如：嘴巴寬度變化)，研究提出之影像比例特徵有效克服情緒辨識時光線之影響。然而，此方法在應用時必須預先知道使用者之中性表情，方能進行特徵之擷取。同樣以提升基本情緒類別辨識率為目的，Hong 等人[18]則是提出一套能夠學習新臉孔之情緒辨識系統，使系統能夠適應新人臉之表情。作者以 Gabor filter 為基礎擷取 16 個距離特徵，做為情緒辨識之特徵，並以 SVM 做情緒類別之訓

(16)

6 練。研究中作者提出重新學習新特徵之訓練機制，利用重新訓練錯誤之表情資料與一定數量之關鍵舊集合，以調整 SVM 切割平面，產生新的 SVM 分類器。此方法不僅可以辨識原本無法辨識之新臉孔，且能夠保持對舊有資料之辨識率。諸如上述之情緒辨識系統，皆以人臉表情對使用者情緒進行 5 ~ 7 種類別之辨識，提出不同的特徵擷取之方法、情緒特徵之選擇，或分類器之設計與訓練，以提升情緒辨識之準確性。然而，實際應用時，使用者之情緒往往包含不同的程度，甚至在同一時間點，人臉表情可能具有多種情緒之混合(例如：又驚又喜)，以有限之類別則不足以描述人臉情緒之微妙變化。

1.2.2. 程度、比例、連續時間人臉情緒辨識方法

為了更精準的描述使用者之情緒，有些研究進一步判斷使用者人臉表情之情緒程度、比例。Song 與 Chien [19]提出一套辨識人臉表情基本情緒類別比例與強度之方法。作者以主動外觀模型(Active appearance model, AAM)訓練人臉影像之形狀與紋理模型，以建立人臉模型，並由紋理模型擷取紋理特徵參數，做為情緒辨識之特徵。此研究將臉部分為全臉、上半臉，與下半臉，分別利用紋理特徵參數搭配倒傳遞類神經網路(Back propagation neural network, BPNN)之設計，進行強度辨識、上半臉 Action units(AUs)組合辨識，與下半臉 AUs 組合辨識，並給予評價分數。作者提出整合評價分數設計辨識得到人臉表情之情緒強度與比例。另外，有些研究則將人臉情緒映射至心理學家所提出之 2D 或 3D 模型[15], [20 - 21]，同樣對情緒做程度之分析辨識。Hupont 等人之研究[22]利用 Whissell[20]所提出之 2D 模型，對人臉情緒做分析，Whissell 提出之 2D 模型以 Evaluation 與 Activation 所構成，用以描述情緒更細部之狀態。此研究以臉部之特徵點距離與角度做為辨識特徵，作者藉由分析 5 種分類器對於不同情緒之辨識效能，附予各分類器相對於各種情緒辨識之權重，並提出一套演算法結合 5 種分類器，計算基本情緒類別之信心指數。最後研究以基本情緒在 2D 模型所在位置之 Evaluation 與 Activation

(17)

7 值做為權重，與信心指數做加乘，將基本情緒辨識結果映射至 2D 模型，取得更細微之情緒狀態。諸如上述之情緒辨識相關研究，主要以單張人臉影像樣本，對情緒進行程度、比例，或結合心理學模型描述細微情緒狀態之辨識。然而，有些研究則提出藉由序列、連續影像之辨識，能夠提升系統之穩健性與辨識準確性。Yang 等人之研究[23]認為 Harr-like 特徵做為人臉情緒辨識特徵，能夠最簡單的擷取，達到最有效之辨識。研究擷取數張序列影像之 Harr-like 特徵，考量特徵在序列影像中之時序關係，並以二進制之數值(0, 1)進行編碼，藉由序列影像之編碼組合，做為基本情緒之辨識特徵。此研究以 Boosting 學習法，學習情緒之特徵，建構情緒辨識分類器，辨識使用者情緒。Hommel 與 Handmann 之研究提到[24]，每個人對於特定情緒之呈現方式不盡相同，擁有個人獨特之特徵，容易影響情緒辨識效能，故此研究以連續時間之分析，計算個人特定之平均人臉，以平均人臉消除 AAM 形狀與紋理不必要之特徵參數。作者以 SVM 進行回歸分析，將情緒映射至 1D 空間中，辨識人臉情緒之正向程度。另外，作者亦提到，在序列影像中，人臉情緒不可能產生瞬間之變化，因此在建立回歸模型(Regression model)時，研究合理的消除瞬間之誤差。此研究在進行即時辨識時，個人特定之平均人臉則必須預先做定義。Zhang 與 Ji[25]提出動態貝式網路(Dynamic Bayesian networks, DBNs)架構，分析人臉表情序列影像之時間關係。作者以 Ekman 提出之 Facial Action Coding System (FACS)，有系統的選擇人臉表情幾何特徵與紋理特徵，其系統機率架構包含視覺資料層(Visual data layer)、AU 層(AU layer)，與分類層 (Classification)三層，並結合影像之時序做情緒 Likelihood 辨識，除了擷取當前測試樣本之人臉特徵，進行人臉 AUs 之辨識，再利用 AUs 之組合結果辨識情緒之 Likelihood，亦與先前之辨識結果結合。研究中，作者以統計方式取得人臉特徵與 AUs 之機率關係，並依據 AUs 機率，利用最大可能性估測(Maximum likelihood estimation, MLE)決定分類層中情緒類別之 Likelihood 參數，以辨識使用者情緒之

(18)

8

Likelihood。Nicolaou 等人[26]提到在多維情鍺辨識時，情緒變化包含時間與空間相依之關係在輸出向量間，以及輸入與輸出關係之間。研究提出輸出聯想之相關向量機(Output-Associative Relevance vector machine, OA-RVM)回歸分析架構， OA-RVM 透過預先定義之 Temporal window，分析過去、現在、未來情緒間之關係，在每次辨識時依據 window 之大小，將前後數個 RVM 之輸出，即 A-V，與現在之幾何輸入特徵做結合，共同辨識當前情緒之 A-V，使得輸入與輸出具有線性之相依性。無論在辨識基本情緒類別，或情緒程度、比例之關係，藉由連緒影像之分析，能夠從影像中擷取更多人臉資訊，考量影像樣本時序間之關係，有效提升情緒辨識之正確性。由於連續影像之情緒辨識，系統需要同時處理數張影像進行分析，對於即時情緒辨識，處理速度則需納入考量之中。

1.2.3. 相關向量機原理

核方法(Kernel method)常被用來做為機器學習(Machine learning)之設計，用來解決分類、回歸分析等相關研究問題，Kernel method 主要概念在於將無法分割之低維度樣本特徵，試圖藉由核函數(Kernel function)將樣本特徵映射至較高維度之特徵空間，使樣本能夠有效被分類，常見之 Kernel method 包含支持向量機 (Support vector machine, SVM) [27] 、相關向量機 (Relevance vector machine, RVM)[28]與高斯過程(Gaussian Processes, GP)。這個領域之相關研究往往著手於研究、改良現有之機器學習方法，以提高其準確性、運算速度等為目的[18], [26]，其中在生物辨識中又以 SVM 與 RVM 較為常見。支持向量機(Support vector machine, SVM)為目前最為普遍、受到重視的方法之一，SVM 以最小風險，即最大化兩類交界(Margin)之原則學習 Kernel 參數，對兩類訓練樣本利用學習取得的決定邊界(Decision boundary)進行切割，如此學習法則能有效避免過度訓練 (Over-fitting)之問題，其僅挑選接近 Decision boundary 之訓練樣本做為 SVM 的

(19)

9

支持向量(Support vector, SV)，亦即僅使用到部份的 Kernel function，故其解相對來得稀疏，而其分類準確性或運算速度，往往相較於一般分類、分群演算法(例如：類神經網路)還要來得高。雖然，SVM 在實作上具備即時分類、準確性高等優點，但其在應用上仍包含些許問題[28]。

 雖然 SVM 取得相對稀疏之解，其 SV 數量明顯少於訓練樣本數，但 SVM 仍會因大量訓練資料時，雜訊與類別訓練樣本重疊，而導致 SV 成線性成長，往往造成 Over-fitting，除了使 Decision boundary 運算複雜度變高，且訓練過程中，亦會將與訓練樣本重疊之雜訊一併訓練，雖然完美的對訓練樣本做分類，但對於測試樣本則可能分類錯誤。  SVM 僅可做類別之判定，而缺乏機率之預測，無法容忍類別間不確定性之問題，可能造成錯誤分類。  由於 SVM 對雜訊相當的敏感，在求解時嚴格限制所有訓練樣本必須完美的被切割。利用誤差參數 C 可以放寬限制，然而，此參數必須自行調整，參數之決定對結果將造成相當大的影響。

 Kernel function 必須符合梅西定理(Mercer’s condition)，其必須為連續對稱正整數之 Kernel。

Tipping[28]提出之相關向量機(Relevance vector machine, RVM)，則改良 SVM 之上述問題。RVM 藉由貝式(Bayesian)結構進行 Kernel 參數之學習， RVM 選取最能代表特定類別之訓練樣本做為 RV，而非最接近 Decision boundary 之訓練樣本，其 RV 不僅更為稀疏，使得運算速度大幅度的下降，且保有 SVM 分類之準確性。如圖 1-4 為 SVM 與 RVM 分類之比較，圖中包含兩類之訓練資料，共 100 筆訓練樣本，SVM 與 RVM 皆選擇 Gaussian kernel，即 Radial basis function(RBF) kernel 為基礎做學習，由圖可看出 RVM(圖 1-4(b))之 RV(4 個)明顯少於 SVM 之 SV(38 個)，且 RVM 分類結果仍不亞於 SVM。如圖 1-5 為 SVM 與 RVM 回歸分析之比較，SVM 與 RVM 皆選擇 linearspline kernel 為基礎做學習，建立 Sinc 函

(20)

10 式之回歸模型，其訓練樣本由 Sinc 函式加入ϵ = ±0.01之誤差取得，同樣可看出 RVM 回歸模型(圖 1-5(a))之 RV (6 個)少於 SVM 回歸模型(圖 1-5(b))之 SV(29 個)，且二者所建立之回歸模型皆相當接近 Sinc 函式，SVM 與 RVM 回歸模型均方根誤差(Root-mean-square-error, RMSE)分別為 0.0291 與 0.0245。另外，RVM 之另一特性，則是可以做機率之預測，對不確定之樣本，做較為合理之辨識。 (a) (b) 圖 1-4、SVM 與 RVM 分類器對兩類資料分類之比較[28]，(a)SVM 之學習結果，共包含 38 個 SV，(b)RVM 之學習結果，共包含 4 個 RV。 (a) (b) 圖 1-5、SVM 與 RVM 建立 Sinc 函式回歸模型之比較[28]，(a)SVM 之回歸模型，共包含 29 個 SV，其 RMSE 為 0.0291，(b)RVM 之回歸模型，共包含 6 個 RV，其 RMSE 為 0.0245。

(21)

11

RVM 屬於監督式學習法(Supervised learning)，Supervised learning 給定一組特徵向量{𝐱n}n=1N 與其對應之輸出{tn}n=1N 做訓練。若應用於特徵分類，則tn即為類別標籤；若應用於回歸分析，則tn為任意實數。訓練之主要目的，在於學習一個模型，以預測新特徵向量之輸出。實際應用上，若應用於資料分類，必須克服類別間特徵重疊(over lap)之問題；若應用於回歸分析，則必須注意雜訊之問題。一般而言，Supervised learning 使用如(1-1)之基本形式，描述輸入特徵向量與輸出間之關係，而所謂訓練即是在學習(1-1)中權重𝐰之過程。 y(𝐱; 𝐰) = ∑ wiφi M i=1 (𝐱) = 𝐰T_{𝝓(𝐱), (1 − 1)} 其中輸出 y(𝐱; 𝐰) 為權重 𝐰 = (w1, w2, … , wM)T 與基底函式 (Basis function) ∅(𝐱) = (φ₁(𝐱), φ₂(𝐱), … , φ_M(𝐱))T_{之線性組合。RVM 使用與 SVM 相同之} 函式，將輸入與輸出之關係，由(1-1)改寫為(1-2)， y(𝐱; 𝐰) = ∑ w_iK N i=1 (𝐱, 𝐱_i ) + w₀, (1 − 2) 其中 Basis function 由 Kernel function, K(𝐱, xi )做定義。RVM 藉由貝式機率架

構(Bayesian probabilistic framework )學習(1-2)權重，以建立輸入與輸出之模型。其主要目標在於建立一個盡可能稀疏之模型，在學習過程中大多數之權重被設為零，僅保留能夠有效分類、相對重要之 Kernel function，其學習演算法於本論文 3.3.1 節詳細介紹。

1.2.4. 可能性分析相關理論

在無法確定樣本之類別時，常會以 Likelihood 做分析，判斷樣本在每一類之可能性，使得樣本類別之描述更為精準[25]。Likelihood 辨識藉由對訓練樣本進行統計推論，推論過程假設訓練樣本遵循某個已知之分佈模型(例如：Gaussian)，並對訓練樣本進行參數化(Parametric)。最後，利用最大可能性估測(Maximum

(22)

12

likelihood estimation, MLE)取得訓練樣本之分佈參數，如此估測之參數將使樣本之估測分佈附加於假定分佈模型之上，以此分佈做為決策(Decision)模型，以決定測試樣本之 Likelihood [29]。

給定一組獨立相同分佈(independent and identically distributed, iid)之訓練樣本X = {xt_} t=1 N _{，並假設x}t_{屬於p(x|θ)之分佈，即x}t_{~p(x|θ)。由於x}t_{各自獨立，因} 此由樣本X所構成參數θ之 Likelihood，可以視為各個點 Likelihood 之乘積，如(1-3) 所示， l(θ|X) = p(X|θ) = ∏ p(xt_|θ) N t=1 , (1 − 3) 藉由 MLE 估測(1-3)之參數θ，以取得xt_{之分佈，使x}t_{之分佈盡可能的接近p(x|θ)。} 為了計算方便，通常會將(1-3)以 log 形式表示，其所求得之θ仍保持不變，如(1-4) 所示， L(θ|X) = log l(θ|X) = ∑ log p(xt_|θ) N t=1 . (1 − 4) Likelihood 辨識問題中最常見之假定分佈包含伯努利分佈 (Bernoulli distribution) 、多項式分佈 (Multinomial distribution) ，與高斯分佈 (Gaussian distribution)三種。Bernoulli distribution 主要用來解兩類辨識之問題，其僅用來判斷 2 者發生之機率，以(1-5)表示，

P(x) = px_{(1 − p)}1−x_{, x ∈ {0, 1}, (1 − 5)}

其中 p 代表某一事件發生之機率；1-p 代表另一事件發生之機率。Multinomial

distribution 可視為 Bernoulli distribution 之概括，其考量多類發生之機率，且所有類別發生之機率和為 1，以(1-6)表示， P(x₁, x₂, … , x_K) = ∏ p_ixi K i=1 , (1 − 6) 其中當結果代表狀態 i 之機率，則xi為 1，否則為 0。Gaussian distribution 又

(23)

13

稱為常態分佈(Normal distribution)，為最常被用來做為假定之分佈。假設 Gaussian distribution 之平均為E[X] = μ，變異數為Var(X) = σ2_{，記作N(μ, σ}2_)，Gaussian

distribution 以(1-7)表示， p(x) = 1 √2πσexp [− (x − μ)2 2σ2 ] , −∞ < 𝑥 < ∞, (1 − 7) 實作時，藉由 MLE 解得上述 3 者假定分佈之參數，取得訓練樣本之估測分佈。本論文 1.2.3 節提到 RVM 能夠對類別做機率式之預測，即是以 Bernoulli distribution 做為訓練樣本假定分佈，估測樣本分佈參數，取得類別之 Likelihood，其細節於本論文 3.3.1 節詳細介紹。

1.3. 問題描述

大多數情緒辨識之相關研究中，主要以區分基本情緒類別為目的做辨識系統之設計。事實上，一般情況下，人臉表情產生基本情緒之頻率相當的低，其通常具有微妙的情緒變化，或多種情緒之組合，僅使用基本情緒類別做分類，則不足以精確描述使用者情緒，亦會影響人機互動之效能，使互動之形式受限於基本情緒類別。基於上述之觀點，情緒辨識時應加入情緒程度、比例對情緒做分析。常見之情緒描述方法，則是將人臉情緒映射至心理學情緒 2D 模型，藉由心理學模型之映射，能夠呈現使用者不同的情緒狀態，例如：Russell[15]所提出之心理學情緒 2D 模型(A-V Plane)，能夠藉由代表放鬆與興奮程度之 Arousal，與代表愉快與不愉快程度之 Valence，對使用者情緒做更細微之辨識。另外，由於人臉情緒變化相當微妙，有時甚至可能受到環境光線、人臉角度或人臉表情本身之不確定性等因素影響，僅使用單張影像對情緒做辨識，可能造成情緒之誤判，導致辨識系統對於人臉情緒轉換無法做出合理之判斷。現今攝影裝置通常能夠在 1 秒內擷取數十張影像，在考量辨識系統處理速度，與妥善之演算法設計下，以連續影像為依據，進行情緒分析，能夠取得更多辨識資訊，提升

(24)

14 辨識之效能。綜合以上所述，為了使人機互動系統更為人性化、更被使用者所接受，故必須考量不同情緒之程度、比例，設法將情緒映射至心理學情緒 2D 模型，對情緒做精準之辨識；另外，由於人機互動系統通常是根據使用者情緒之轉換而轉換互動模式，故辨識系統必須對使用者情緒之轉換做合理判斷，在處理速度考量設計下，以連續影像進行時序分析對情緒做辨識，提升情緒辨識之準確性，與互動之效能。

1.4. 系統架構與章節說明

本研究提出之系統架構如圖 1-6 所示，可略分為人臉影像前處理、人臉特徵擷取、連續時間情緒程度辨識三個部份，其中在連續時間提取適當之特徵，判斷使用者情緒程度與轉換，為研究重心所在。

本研究以 Viola[30]與 Lienhart[31]提出之 Harr-like 人臉偵測，擷取影像中人臉之位置，取得人臉區域影像。根據人臉區域影像，以 AAM 演算法[32 - 34]建出人臉模型，並擷取其中之特徵點，計算人臉情緒之距離特徵與位移特徵，做為情緒辨識之幾何特徵。辨識過程中，藉由擷取之幾何特徵，結合時序之分析，辨識情緒之 Likelihood，並配合 Russell[15]提出之 A-V Plane，進行情緒 A-V 之辨識，分析使用者目前情緒之程度與其轉換過程。A-V Plane 上之 A-V 辨識結果將做為人機互動系統互動轉換之依據，使互動系統與使用者之互動更為合理、更為人性化。

本論文共分為 5 章節，第一章為緒論，介紹本研究之研究動機、相關研究、問題描述，以及系統架構；第二章為人臉偵測與特徵點擷取，說明本研究感興趣之人臉特徵點擷取方法；第三章為基於機率之連續影像情緒辨識，此章節介紹本研究提出之特定情緒辨識、Likelihood 時序分析，以及 Likelihood 轉換至 A-V 方法，做為智慧型音樂選取之依據；第四章為實驗結果，包含特徵點偵測結果、情

(25)

15 緒辨識結果，與音樂選取實驗；最後，第五章為結論以及未來展望。 Grayscale image Feature points detection with Active Appearance Model(AAM) Geometrics distance features extraction Integrate emotion likelihood by RVM regression

Play appropriate music to transform person emotion Emotion recognition with RVM classification Face detection through AdaBoost Image normalization Image alignment Preprocessing Geometrics displacement features extraction Features extraction Emotion recognition Determined if the sample is specific emotion by TOD clustering algorithm Yes No

Specific emotion has been determined Geometrics distance features Geometrics dispalcement features Determined likelihood for each basic emotion

Determined emotion degree with arousal-

valance Music selection + + + 圖 1-6、系統架構。

(26)

16

第二章、人臉偵測與特徵點擷取

特徵點偵測之準確性，對於情緒辨識之正確率有絕對的影響。本研究藉由 Adaboost[30]演算法偵測影像中之人臉，以擷取人臉區域，減少背景雜訊之影響，進而對人臉影像進行特徵點偵測與情緒辨識。特徵點偵測部份，本研究則是利用主動外觀模型(Active appearance model, AAM) [32 - 34]建立人臉模型，以擷取其中之特徵點，進行情緒辨識特徵之計算。本章節將說明人臉偵測之 Adaboost 演算法，以及特徵點偵測之 AAM 演算法。

2.1. 人臉偵測

本研究之人臉偵測包含人臉區域決定，與人臉區域正規化二個部份。藉由攝影機擷取解析度為640 × 480之影像，偵測其中之人臉，以取得人臉區域。為了避免人臉大小遠近影響擷取之特徵，本研究對人臉區域進一步正規化至 200 × 240之人臉影像。

2.1.1. 人臉區域決定

本研究人臉區域之決定，使用 Viola 與 Jones 所提出名為 AdaBoost[30]之方法從輸入影像中，取得人臉區域範圍，此範圍即為情緒辨識特徵擷取之依據。 AdaBoost 演算法主要概念在於透過多個弱分類器組成一個強分類器，藉由數個分類特徵對目標物做分析，分析哪些特徵能夠清楚分類目標物，分類目標物正確率愈高之特徵則被選定為弱分類器，經由數個弱分類器之組合，若分類目標物之正確率達到需求以上，則停止尋找弱分類器。因此欲利用 AdaBoost 演算法分類人臉與非人臉，則必須找出適當之輸入特徵。

(27)

17 a. Haar-like 矩形特徵： 利用矩形特徵可以簡單描述圖形的結構，當然也可以用來當作檢測人臉之特徵模版，最早由[30]所提出之矩形特徵，如圖 2-1 所示。矩形特徵主要藉由分析物體表面亮度變化會造成明亮區塊與灰暗區塊，對物件做偵測。因此利用已知偵測目標之矩形特徵與目標做比對，可用來判斷是否為目標物。應用於人臉偵測方面，矩形特徵可以分析臉部之陰影變化，有效分類人臉與非人臉，例如：眼睛與眼皮產生之陰影如圖 2-2(b)所示，鼻梁與眼窩產生的陰影如圖 2-2(c)所示，又或者是嘴巴與其周圍產生的陰影如圖 2-2(d)所示等，亦即可利用白色區域像素與黑色區域像素的差值，做為偵測人臉特徵。

Lienhart 與 Maydt[31]將[30]所提出之矩形特徵推廣至旋轉 45 度之 Haar-Like 矩形特徵，共包含 15 個矩形特徵模版如圖 2-3 所示，本研究以此特徵做為人臉偵測之依據，Adaboost 訓練與分類之方法如下所述。

圖 2-1、Viola 與 Jones 提出之 Haar-like 矩形特徵。

(28)

18 (c) (d) 圖 2-2、人臉偵測之矩形特徵範例。(a)原始人臉影像樣本，(b)眼睛與眼皮灰階值色差，(c)眼窩與鼻樑灰階值色差，(d)嘴巴周圍灰階值色差。 (a) (b) (c) (d)

圖 2-3、Lienhart 與 Maydt 提出之 Haar-like 矩形特徵。 (a)邊緣特徵，(b)線特徵， (c)中心環繞特徵，(d)特殊對角特徵。

(29)

19 b. Adaboost 訓練演算法： Adaboost 之訓練可從一個很大的特徵，集中選擇很小一部分之關鍵特徵，產生有效之分類器。透過提高數個簡單之弱分類器，最後組成強分類器，其訓練錯誤率可以說幾乎為零，具備良好之推廣性。 Adaboost 應用於人臉偵測方面，需要有足夠數量之樣本，進行人臉特徵之搜尋。此處樣本影像分為人臉與非人臉兩種，非人臉影像數量需大於人臉影像數量，使搜尋之結果收斂到辨識率較佳之特徵上。 c. 串接分類器： Adaboost 演算法雖然可藉由強分類器，有效區分人臉與非人臉，但事實上大多數的影像皆為非人臉，且大部份非人臉皆可利用更簡單的方法做區別，故並非所有影像皆需由強分類器做人臉與非人臉之判斷。由[30]所提出的串聯式偵測架構，如圖 2-4 所示，透過分級分類器對影像逐步做分析，級數愈前面，可用愈少的計算量排除大多數非人臉，級數較後者則愈難判斷人臉與非人臉，必須使用強分類器做分類，如此之系統架構則可以有效提高辨別速度。 All sub-windows Reject sub-window Further processing 1 2 3 F F F T T T 圖 2-4、串接分類器架構圖。

(30)

20

2.1.2. 人臉影像正規化

本研究藉由雙線性內插之方法[35]，將人臉區域影像正規化至200 × 240，重新計算人臉影像之像素(Pixel)值，以降低人臉遠近大小等因素之影響。雙線性內插法利用鄰近已知 Pixel 值f(x, y)，計算新影像之 Pixel 值f(x′_{, y}′_{)，其計算方式}

如(2-1)所示。雙線性內插方法示意如圖 2-5 所示，白點為原解析度 Pixel 值，黑點為預估測新解析度 Pixel 值。 f(x′_{, y}′_{) = (1 − λ) × [(1 − u) × f(x, y) + u × f(x, y + 1)]} +λ × [(1 − u) × f(x + 1, y) + u × f(x + 1, y + 1)], λ = x′− x (x + 1) − x, u = y′_{− y} (y + 1) − y, (2 − 1)

2.2. 主動外觀模型

Cootes 等人所提出之 AAM[32 - 34]是由主動形狀模型(Active Shape model, ASM)[36]發展而來。AAM 由形狀模型與紋理模型所構成，藉由此二模型對輸入之人臉影像進行模擬，以建立人臉模型。模擬之人臉，能夠克服人臉不同角度之偏轉與形變，並經過適當之影像修正以掋抗光線變化，藉由考量人臉形狀與人臉紋理，完整模擬之人臉擷取特徵，對於人臉特徵擷取之穩定度則有所提升。建立圖 2-5、雙線性內插示意圖。白點代表已知 Pixel，黑點代表預估測之 Pixel。

(31)

21 之人臉模型能夠擷取人臉幾何特徵或紋理特徵，做為情緒辨識之特徵，本研究主要以 AAM 擷取之特徵點計算幾何特徵進行情緒辨識。

2.3. 人臉形狀模型

AAM 之形狀模型包含平均人臉形狀，與平均人臉形狀可容許之變化向量，藉由人臉形狀模型，以模擬不同的人臉形狀。

2.3.1. 標註特徵點

建立人臉形狀模型時，必須先以手動方式標註特徵點，特徵點所在位置為曲線之高曲率(High curvature)，或曲線之 T 型交點(T Junction)所在處。另外，定義上述二者之中間點(Intermediate point)對邊界做描述，如圖 2-6 所示。本研究參考[34], [36- 37]特徵點之定義，定義出 70 個人臉特徵點，分別為二邊眉毛各 5 個點、鼻子 9 個點、二邊眼睛輪廓各 8 個點，人臉輪廓 19 個點。另外，本研究在嘴巴外緣設置 12 個點、內緣 6 個點，以模擬嘴巴之開闔。7 種基本情緒之特徵點標註範例，如圖 2-7 所示。 Equally spaced intermediate points T Junction High curvature 圖 2-6、特徵點選取原則示意圖。

(32)

22 (a) (b) (c) (d) (e) (f) (g) 圖 2-7、7 種基本表情特徵點標註範例，(a)中性，(b)生氣，(c)厭惡，(d)害怕，(e) 高興，(f)傷心，(g)驚訝。

2.3.2. 平均人臉形狀

本研究藉由輸入之人臉特徵點座標，計算平均人臉形狀，做為輸入人臉形狀之基底。根據本論文 2.3.1 節標註之 70 個特徵點，可由(2-2)表示之， s = (x₁, y₁, x₂, y₂, … , x_v, y_v), v = 70, (2 − 2) 其中 s 代表人臉形狀；(xv, yv)代表特徵點之座標。由於每個輸入人臉形狀之大小、位置與旋轉角度皆不一致，因此必須對齊所有人臉形狀，以取得正確之平均人臉形狀。本研究使用 Procrustes Analysis 進行形狀對齊[34], [38]，Procrustes Analysis 主要利用對所有輸入形狀做縮放、位移，以及旋轉之方式，以實現形狀對齊之目的，如(2-3)所示，

(33)

23 T_t(𝐱) = [a b_{c d}] 𝐱 + [ t_tx y ], (2 − 3) 其中 Tt(𝐱)代表經由縮放、位移，以及旋轉之輸出；a, b, c, d 代表縮放與旋轉之參數；t_x, t_y代表 x, y 方向之位移。假設平均人臉形狀為 (x_i′, y_i′) ，與任一個輸入人臉形狀 (x_i, y_i) ，其中 i = 1, 2, … ,70，利用二者之線性轉換，即可解得 a, b, c, d, t_x, t_y之矩陣參數，如 (2-4)所示， [ Sxx Sxy Sx S_xy S_yy S_y S_x S_y n ] [ a c b d tx ty ] = [ S_xx′ S_xy′ S_yx′ S_yy′ S_x′ S_y′ ], Sxx = ∑ xi2, Syy = ∑ yi2, Sx= ∑ xi, Syy= ∑ yi, S_xx′ = ∑ x_ix_i′, S_yy′ = ∑ y_iy_i′, S_x′ = ∑ x_i′, S_y′ = ∑ y_i′, n = 70, (2 − 4) 將解得參數帶入(2-3)以取得轉正之輸入形狀。經由上述方法消除縮放、旋轉與位移之情況，計算得到新的平均人臉形狀，重複同樣的步驟直至收斂，以得到最終之平均人臉形狀。本研究藉由計算 Procrustes distance，如(2-5)所示，判斷現在平均人臉形狀與前一次平均人臉形狀之差異，當差異足夠小時即收斂。 2 _{= ∑[(𝑥} 1− 𝑥 0)2+ ( 1− 0)2] =1 , (2 − 5) 其中 (xj1, yj1)代表現在之平均人臉形狀座標；(xj0, yj0)代表前一次之平均人臉形狀座標。圖 2-8 為 120 個人臉訓練平均人臉形狀範例。圖 2-7(a)代表原本的人臉形狀重疊情況，其中每一個點皆代表 120 個人臉形狀之 x, y 座標。利用 Procrustes Analysis 消除縮放、位移、旋轉之人臉形狀重疊情況，如圖 2-7(b)所示。對齊後所求得之平均人臉形狀如圖 2-9 所示。

(34)

24 (a) (b) 圖 2-8、訓練平均人臉形狀範例，(a)人臉形狀對齊前重疊情況，(a)人臉形狀對齊後重疊情況。圖 2-9、平均人臉形狀。

2.3.3. 模擬臉部形狀變化

對齊後之人臉形狀，可由(2-2)表示之，即每個人臉形狀皆視為分佈於 2v 維向量空間之一點。為了建立人臉形狀變化模型，本研究使用主成份分析(Principal component analysis, PCA)化簡 2v 維度資料，以取得所有人臉形狀之間的變化情

(35)

25 況[34]。在 2v 維空間中，平均人臉形狀s0，即是將所有人臉形狀相加取平均，如 (2-6)所示， s0 = 1 n∑ xi n i=1 , (2 − 6) 其中 xi代表訓練人臉形狀。共變異矩陣 S 則為所有人臉形狀減去平均人臉形狀，如(2-7)所示， S = 1 n∑(xi− 𝑠0)(xi− 𝑠0)𝑇 n i=1 , (2 − 7) 由共變異矩陣之計算，即可解得特徵向量(Eigenvector)與特徵值(Eigenvalue)，以建立形狀變化模型，如(2-8)所示， s = s0+ ∑ pisi t i=1 , (2 − 8) 其中 si代表前 t 大 Eigenvalue 對應之 Eigenvector；pi代表權重值所組成之形變參數。

2.4. 人臉紋理模型

AAM 之紋理模型同樣包含平均人臉紋理，與平均人臉紋理可容許之變化向量，藉由人臉形狀模型，以模擬不同的人臉紋理。

2.4.1. 人臉紋理

人臉紋理特徵可以為原始影像之 RGB Pixel、灰階 Pixel，或經由影像處理後之 Pixel 所組成，紋理模型所組成之向量如(2-10)所示， g = (g1, g2, … , gr), (2 − 10) 其中 g_r代表每個 Pixel 之紋理數值；r 代表紋理模型總共之 Pixel 數，本研究

(36)

26

使用平均人臉形狀範圍內所包含之 Pixel 數決定 r 值。

2.4.2. 分段仿射變形

由於訓練人臉影像樣本，每個人臉形狀、位置與大小都有所差異，因此必須對影像樣本進行分段仿射變形(Piecewise affine warping)。本研究參考 Delaunay triangulation[39]利用多個三角形將人臉輸入之特徵點連接起來，其所形成的每個三角形外接圓內不會有其他特徵點存在，以此方法對人臉形狀做切割，並修改嘴巴部份以容許模擬出嘴巴開闔形狀，以及將人臉形狀左右三角形對稱[36]，如圖 2-10 所示。切割後的各個三角形將人臉紋理由原始人臉形狀轉換至平均人臉形狀中。利用 Delaunay triangulation 將人臉形狀切割完成後，則需將人臉紋理轉正，本研究以人臉形狀切割取得之每個三角形與平均人臉形狀對應之三角形進行轉換，亦即將每個人臉形狀三角形內之 Pixel 值轉換至平均人臉形狀對應之三角形，如(2-11)所示，圖 2-10、Delaunay triangulation 方法對人臉切割示意圖。

(37)

27 𝐱 = 𝐱 + (𝐱 − 𝐱 ) + (𝐱 − 𝐱 ), 0 , 1, = (x − xi)(y − yi) − (y − yi)(x − xi) (x_j− x_i)(y − y_i) − (y_j− y_i)(x − x_i), = (y − yi)(xj− xi) − (x − xi)(yj− yi) (xj− xi)(y − yi) − (yj− yi)(x − xi) , (2 − 11) 其中 𝐱 (x_i , y_i)T, 𝐱 (x_j , y_j)T, 𝐱 (x , y )T代表任意一個三角形之三個頂點座標；𝐱(x , y)T_{代表三角形中的任意一點座標。藉由與之座標轉換，即可以計算} 紋理 Pixel 值在平均人臉形狀中的位置𝐱 (x , y )T_{，如(2-12)所示，} 𝐱′_{= 𝐱}′ _{+ (𝐱}′ _{− 𝐱}′_{) + (𝐱}′ _{− 𝐱}′_{), (2 − 12)} 三角形之形變座標轉換示意圖，如圖 2-11 所示。

2.4.3. 模擬臉部紋理變化

人臉紋理轉正後，必須對所有訓練人臉影像求得其紋理之變化，以建立臉部紋理模型。本研究同樣藉由 PCA 對訓練之人臉紋理資料做化簡，以求得人臉紋理之變化。平均紋理 0，即是將所有轉正之人臉影像相加取平均計算而得，如(2-13)所示， (a) (b) 圖 2-11、三角形之形變座標轉換示意圖，(a)三角形轉正前，(b)三角形轉正後。

(38)

28 0 = 1 n∑ gi n i=1 , (2 − 13) 其中 gi代表訓練紋理。共變異矩陣 G，則是將所有訓練紋理減去平均紋理 0 求得，如(2-14)所示， G = 1 t∑(gi− 𝐴0)(gi− 𝐴0)𝑇 n i=1 , (2 − 14) 由共變異矩陣之計算，即可解得 Eigenvector 與 Eigenvalue，以建立紋理變化模型，如(2-15)所示， (x) = 0(x) + ∑ λi i(x) ∀x ∈ s0 t i=1 , (2 − 15) 其中 _i(x)代表前 t 大 Eigenvalue 對應之 Eigenvector；λ_i代表權重值所組成之形變參數。

2.5. 影像校正演算法

由上述之 AAM 演算法已取得其形狀模型與紋理模型，本節將介紹藉由輸入人臉影像擷取特徵之方法。利用 AAM 之形狀模型與紋理模型即可建立人臉模型，對輸入之人臉影像做模擬，並得到對準之人臉特徵位置。

AAM 校正演算法，可分為 Independent AAM[37]與 Combine AAM[2.3]二種方法。Independent AAM 將形狀模型與紋理模型分開，分別計算形狀參數與紋理參數，即可取得模擬結果；而 Combine AAM 則是將形狀模型與紋理模型整合為一個模型，透過整合參數之計算，取得模擬結果。然而，Independent AAM 主要以形狀參數之計算為主，因此計算量上 Combine AAM 所需之時間較多。本研究選擇 Independent AAM 進行影像校正。

(39)

29

2.5.1. Inverse Compositional 演算法

Independent AAM 主要是以 Lucas-Kanade 人臉校正演算法[37 - 38]進行影像校正。Lucas-Kanade 校正演算法以影像梯度為基礎做影像變化之估測，其常用於影像形變校正、物體追蹤等。然而，Lucas-Kanade 校正演算法在迭代過程中，皆與形變參數 p 有關，必須重複計算 Warping Jacobian, Steepest descent image 以及 Hessian matrix，運算量因而大幅提升。Inverse Compositional 演算法[37 - 38]改善上述之問題，其與 Lucas-Kanade 主要差異在於，

 Lucas-Kanade 校正演算法，在每次迭代過程皆需重複計算輸入影像之梯度值， 以及 Warping Jacobian, Steepest descent image 與 Hessian matrix。

 Inverse Compositional 校正演算法利用樣板影像 0計算影像之梯度值，由於

樣板影像已知，因此 Warping Jacobian, Steepest descent image 與 Hessian matrix 亦已知。

Inverse Compositional 演算法迭代時即可省去梯度值，以及 Warping Jacobian, Steepest descent image 與 Hessian matrix 之計算，速度因而提升，且能夠維持住其影像校正之效能。本研究採用 Inverse Compositional 演算法，對輸入人臉影像做校正。如圖 2-12 所示，Inverse Compositional 演算法分為前處理之 4 個步驟(I ~ IV) 與迭代之 5 個步驟(1 ~ 5)[34], [36]，如下所述，

前處理：

I. 根據樣板影像 0(x)計算梯度影像 0。

II. 求出 (x; 0)即樣板人臉模型的 Warping Jacobian ∂W_∂p。 III. 計算出 Steepest descent images 0∂W_∂p。

(40)

30

IV. 由 Steepest descent images 之結果，進一步解得 Hessian matrix。

迭代過程： 1. 根據 (x; p)形變影像I，計算出形變影像I( (x; p))。 2. 計算誤差影像I( (x; p))－ ₀(x)。 3. 計算∑_x [ ₀∂W_∂p]T[I( (x; p)) − ₀(x)]。 4. 計算形變參數變化量∆p。 5. 更新參數 (x; p) ← (x; p) ∘ (x; ∆p)−1。 Face Image

gradientX gradientY Warping

Jacobian Warp parameters Parameter updates Image Warping

Steepest descent images Template image Compute Hessian matrix SD parameter Updates Error image Compute Inverse Hessian matrix 1 2 II 3 4 5 I III IV 圖 2-12、Inverse Compositional 演算法架構[36]。

(41)

31

2.5.2. 整體形狀正規化轉換

由於一般而言 AAM 對於人臉偏轉之角度容忍度十分有限，容易導致偏轉角度之人臉迭代錯誤，且在訓練人臉形狀變化模型前，經由 Procrustes Analysis 對人臉做對齊，而移除某些縮放、位移與旋轉的資訊。因此，本研究藉由整體形狀正規化轉換[34], [36]，以取得實際人臉擁有之縮放、位移與旋轉的資訊。本研究定義N(x ; q)為訓練資料的整體形狀正規化轉換，若平移為(tx, ty)，旋

轉角度為θ，可用一個參數q = (a, b, t_x, t_y)T_{代表其形變參數，其中a = kcos θ − 1，}

b = k sin θ，N(x ; q)如(2-16)所示， N(x ; q) = [(1 + a)_b _{(1 + a)] [}−b _{y] + [}x t_tx y], (2 − 16) 為了與之前建立的人臉形狀模型(2-8)搭配運算，必須建立一組線性組合之係數[34]，用以模擬形狀模型之變化。假若平均形狀 s₀ = (x₁0, y₁0, … , x_v0, x_v0)T，則 s₁∗ _{= s} 0 = (x10, y10, … , xv0, yv0)T，s2∗ = (−y10, x10, … , −yv0, x0v)T，s3∗ = (1,0, … ,1,0)T， s₄∗ _{= (0,1, … ,0,1)}T_{，如圖 2-13 所示，N(x ; q)可以表示為(2-17)之形式，} N(x ; q) = s₀+ ∑ q_is_i∗ 4 i=1 , (2 − 17) 在形狀參數更新方面，此處必須求解N ∘ 之形狀參數。參考[36]於 Inverse Compositional 演算法中得知 (x; ∆p)−1_{= (x; −∆p)，因此參數(∆𝑞, ∆𝑝)可表示} 為(2-18)， N ∘ (x; ∆q, ∆p)−1_{= N ∘ (x; −∆q, −∆p), (2 − 18)} 其合成形式如(2-19)所示， (N ∘ )(x; q, p) ∘ (N ∘ )(x; ∆q, ∆p)−1 ≈ (N ∘ )(x; q, p) ∘ (N ∘ )(x; −∆q, −∆p), (2 − 19) 當輸入人臉影像時，本研究先將平均人臉形狀s0加入影像中，藉由更新形變參數之方式，以平均人臉形狀做參數之調整，故(2-18)可由(2-8)之線性組合

(42)

32 (a) (b) (c) (d) 圖 2-13、整體形狀正規化轉換形狀變化模型[36]，(a) s₁∗ _{= (x} 1 0_{, y} 10, … , xv0, yv0)T, (b) s₂∗ _{= (−y} 10, x10, … , −yv0, xv0)T, (c) s3∗ = (1,0, … ,1,0)T, (d) s4∗ = (0,1, … ,0,1)T。方式表示，如(2-20)所示， ∆s₀ = − ∑ ∆p_is_i n i=1 − ∑ ∆q_js_j∗ 4 j=1 , (2 − 20) 建立之形狀變化模型，如(2-21)所示， N ∘ (s₀; q, p) = N (s₀+ ∑ p_is_i; q n i=1 ) = s₀+ ∑ p_is_i n i=1 + ∑ q_js_j∗ 4 j=1 , (2 − 21) 利用正交之關係，即可計算求得(N ∘ )(x; q, p) ∘ (N ∘ )(x; ∆q, ∆p)−1_之形狀參數，如(2-22) ~ (2-23)所示，

(43)

33

q_i = s_i∗_{∙ (s}†_{− s}

0), (2 − 22)

pi = si∙ (N(s†; q)−1− s0), (2 − 23)

其中 s†定義為s† = N ∘ (s₀; q, p)。

在紋理方面，藉由(2-24)計算(q₁, q₂, q₃, q₄)之 Steepest descent image，用於 Inverse Compositional 演算法中， SD_j(x) = 0 ∂N ∂qj− ∑ [∑ _x∈s i(x) ∙ 0 ₀ ∂N ∂qj] m i=1 i(x). (2 − 24)

另外，藉由(2-25)計算 p 參數的 Steepest descent image，

SD_j+4(x) = ₀∂ ∂p_j− ∑ [∑ i(x) ∙ x∈s0 ₀∂ ∂p_j] m i=1 i(x), (2 − 25) 其中 j=1,2,…,n 而用於 Inverse Compositional 演算法之其計算如(2-26)所示， H = ∑ SD(x)T_SD(x) x , (2 − 26) 紋理參數如(2-27)所示， λ_i = ∑ _i(x) ∙ [I(N( (x; p); q)) − ₀(x)] x∈s0 , (2 − 27)

2.5.3. 梯度影像修正

在 2.5.2 節介紹之整體形狀正規化轉換中，必須由樣板影像 0(x)計算梯度影

像 ₀，其包含垂直方向之梯度(Gradient X)與水平方向之梯度(Gradient Y)。然而，

在計算梯度影像時，會以人臉樣板整張影像做計算，如此會計算到非平均人臉影像部份，如圖 2-14 邊緣黑色處，而造成人臉形狀邊緣之梯度值產生錯誤。因此，本研究將邊緣錯誤之梯度值，以平均人臉形狀往內一個 Pixel 之梯度值取代。

(44)

34

圖 2 -14、樣板人臉影像。

2.5.4. 直方圖等化

直方圖等化之影像修正，其優點在於修正過後之影像更能夠凸顯人臉之特徵。計算時，先產生輸入影像之直方圖，再由直方圖除以人臉形狀範圍中所有 Pixel 之數量，以求得該平均人臉影像之機率密度函數(Probability Density Function, PDF)，進一步算出累積分佈函數(Cumulative Distribution Function, CDF)。為了對應影像灰階值，而將累積分佈函數由 0-1 放大到 0-255 的範圍，並將影像原始灰階值以對應到新的灰階值取代，如此即可得到直方圖等化後之影像。

2.5.5. 影像校正整體方法

結合上述之所有方法並總結其流程[36]，如下所述，前處理： I. 根據樣板影像𝐴0(𝑥)計算梯度影像 𝐴0。 II. 梯度影像 𝐴₀進行梯度影像修正。 III. 求出 (𝑥; 0)即樣板人臉模型的 Jacobian 𝜕𝑊_𝜕𝑝及𝜕𝑁_𝜕𝑞。

(45)

35

IV. 由(2-24)與(2-25)計算改變之 steepest descent images SD_j(x)和SD_j+4(x)。 V. 由(2-26)計算 Hessian matrix。迭代過程： 1. 根據𝑁(𝑥; 𝑞)與𝑊(𝑥; 𝑝)形變影像𝐼，計算形變影像𝐼(𝑁(𝑊(𝑥; 𝑝); 𝑞))。 2. 將形變影像𝐼(𝑁(𝑊(𝑥; 𝑝); 𝑞))進行直方圖等化。 3. 計算誤差影像(Error Image) 𝐼(𝑁(𝑊(𝑥; 𝑝); 𝑞)) − 𝐴₀(𝑥)。 4. 計算∑_x SD(x)T[𝐼(𝑁(𝑊(𝑥; 𝑝); 𝑞)) − ₀(x)]。

5. 由 inverse Hessian matrix 計算∆𝑝與∆𝑞。

6. 更新參數(N ∘ 𝑊)(𝑥; 𝑝, 𝑞) ← (N ∘ 𝑊)(𝑥; 𝑝, 𝑞) ∘ (N ∘ 𝑊)(𝑥; ∆𝑝, ∆𝑞)−1。迭代過程結束：由(2-22)與(2-23)計算出形狀變化參數 qi與pi；由(2-27)計算出紋理變化參數λ_i。藉由計算求得之形狀變化參數以及紋理變化參數，即可模擬出人臉形狀模型與紋理模型，以建立 AAM 人臉模型，擷取適當之人臉特徵點，進而計算本研究選擇之情緒辨識幾何特徵。事實上，透過建立 AAM 人臉模型，亦可擷取紋理特徵，然而，為了減少特徵之維度，以降低運算複雜度，根據相關研究之分析，擷取適當之幾何特徵，已足以做為情緒辨識之依據[18], [26]。

(46)

36

第三章、基於機率之連續影像情緒辨識

情緒辨識之結果，影響著人機互動之效能，相較於基本情緒類別辨識，對基本情緒進行程度、比例等情緒資訊辨識，能夠提供更精準之人臉情緒狀態，做為人機互動之依據。本研究利用人臉距離特徵與位移特徵做為幾何特徵，經由相關向量機(Relevance vector machine, RVM)辨識情緒之可能性(Likelihood)為主要目的，提出以連續影像對情緒做時序分析之方法，對序列影像間情緒 Likelihood 之關係做考量，提升人臉情緒辨識之正確性。另外，為了達成人機互動之目的，本研究提出將情緒 Likelihood 轉換為 A-V 之方法，讓使用者之情緒狀態能夠與同樣使用 A-V 設計機器情緒狀態之系統做對應，以設計一套智慧型人機互動系統。本章節將分別對人臉特徵擷取、RVM 分類器之 Likelihood 時序辨識設計，與 RVM 回歸模型轉換 Likelihood 至 A-V 之方法進行說明。

3.1. 人臉特徵擷取

根據 Ekman 定義的 Facial Action Coding System (FACS) [40]，其提供能夠表示人臉微妙肌肉變化之 44 個 Action units (AUs)(例如：嘴唇緊縮、眉毛上揚等資訊)，本研究將此類資訊轉換為幾何特徵做描述。藉由本論文第二章介紹之 AAM 建立人臉模型，從中擷取 18 個人臉特徵點，如圖 3-1 所示，而這 18 個特徵點結合 AUs 之人臉特徵分析，有系統的歸納出足以代表人臉表情之 16 個幾何特徵，其中本研究之幾何特徵包含距離特徵與位移特徵。 [18], [25], [41]之研究分別使用不同資料庫對人臉情緒與 AUs 之組合做分析。然而，每位使用者呈現基本情緒之人臉表情不盡相同，本研究以 Cohn-Kanade 資料庫[41]分析之情緒 AUs 組合為基礎，並與使用不同資料庫[18], [25]之情緒分

(47)

37 P1 _P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P13 P14 _P15 _P16 P17 P18 圖 3-1、18 個人臉特徵點位置。析結果做整合，以歸納取得較為一般化之情緒 AUs 組合。本研究歸納整合 6 種基本人臉情緒之 AUs 組合如表 3-1 與圖 3-2 所示，而基本情緒相關 AUs 與其對應之特徵點位移關係則如表 3-2 所示，以 AU1 為例，其描述內側眉頭上揚之臉部肌肉變化特徵，可由特徵點 P7 與 P15 之距離 (‖P7P15̅̅̅̅̅̅̅̅̅‖)變化，以及特徵點 P9 與 P16 之距離 (‖P9P16̅̅̅̅̅̅̅̅̅‖)變化觀查得知。利用表 3-1、表 3-2 與圖 3-2 之人臉表情 AUs 組合與定義，本研究由 18 個特徵點分析歸納出 16 個幾何特徵取代 AUs， 16 個幾何特徵中的距離特徵分別為 ‖P1P3̅̅̅̅̅̅̅‖ , ‖P2P4̅̅̅̅̅̅̅‖ , ‖P1P2̅̅̅̅̅̅̅‖ , ‖P2P3̅̅̅̅̅̅̅‖ , ‖P3P4̅̅̅̅̅̅̅‖, ‖P1P4̅̅̅̅̅̅̅‖, ‖P̅̅̅̅̅̅‖, ‖P4P5CP3 ̅̅̅̅̅̅̅‖, ‖P6P8̅̅̅̅̅̅̅‖, ‖P7P15̅̅̅̅̅̅̅̅̅‖, ‖P8P14̅̅̅̅̅̅̅̅̅‖, ‖P15P16̅̅̅̅̅̅̅̅̅̅‖, ‖P2P11̅̅̅̅̅̅̅̅̅‖, ‖P10P12̅̅̅̅̅̅̅̅̅̅‖, ‖P9P16̅̅̅̅̅̅̅̅̅‖, ‖P12P17̅̅̅̅̅̅̅̅̅̅‖，其中P_C為內眼角 P7 與 P9 之中點。 ‖P7P9̅̅̅̅̅̅̅‖則做為正規化因子，對上述之 16 個距離特徵進行正規化，如(3-1)所示，以降低人臉大小等因素之影響。

Normalized distance features = Distance features

‖P7P9̅̅̅̅̅̅̅‖ , (3 − 1) 16 個幾何特徵中的位移特徵，則為上述 16 個距離特徵相對於特定情緒之變化量。

(48)

38

表 3-1、6 種基本人臉表情之 AUs 組合。 Emotional

3.2. 特定情緒辨識

距離特徵可以直接以單張影像樣本，計算特徵點距離取得。至於位移特徵擷取方面，本研究則提出以分群演算法，對特定情緒進行辨識，並以特定情緒為依據做特徵點位移之計算，此特定情緒必須為使用者最強程度之基本情緒(例如：生氣、厭惡等情緒)，以確保使用位移特徵辨識之效能。由於每個人所呈現之特定情緒之表情有所不同，若未做身分辨識，在辨識特定情緒上有其難度。本研究提出對特定情緒本身做分群之方法，主要目的在於將表情特徵看起來相似之特定情緒分為一群，例如：若指定中性情緒做為特定情緒，藉由分群之方法將看起來像生氣的中性情緒分為一群，看起來像厭惡的中性情緒又分為另一群等。本研究利用 Threshold order-dependent (TOD)分群演算法[42]，對特定情緒進行分群，在本研究中選擇中性情緒做為特定情緒，以此情緒為根據計算位移特徵。 TOD 分群演算法，假設輸入特徵向量{𝐱_n}_n=1N _{，類群代表中心{𝐲} n}n=1，特徵向量與類群代表中心距離臨界值 t。TOD 演算法初始選擇一組特徵向量做為類群代表中心，即𝐲1 = 𝐱1。其他特徵向量則與目前所有的代表中心做距離估測，當距離大於預測臨界值 t，則自行形成另一群，產生新的代表中心，整體 TOD 演算法分群步驟如下。 Step 1. 初始代表中心與類群數，並設定臨界值 t。 𝐲1 = 𝐱1；k = 1 其中 k為目前的類群數，𝐱1 ∈ C1；t = 0.1。

Step 2. 計算訓練樣本與代表中心之均方根誤差(Root mean square error, RMSE)，判斷特徵向量所屬類群。本研究利用 RMSE 如(3-2)，做為判斷特徵向量所屬類群依據。 RMSE = √∑ (xi− y i)2 N i=1 N , (3 − 2) 其中 N 代表 N 個特徵數；x_i為觀察到的特徵值；y_i為第 k 個代表中心。

基於時間強化設計之情緒辨識方法

國立交通大學

電控工程研究所

碩士論文

基於時間強化設計之情緒辨識方法

Robust Emotion Recognition by Using a

Temporal-Reinforced Approach

研 究 生：林昭宇

指導教授：宋開泰 博士

基於時間強化設計之情緒辨識方法

Robust Emotion Recognition by Using a Temporal-Reinforced

Approach

研 究 生：林昭宇 Student: Chao-Yu Lin

指導教授：宋開泰 博士 Advisor: Dr. Kai-Tai Song

基於時間強化設計之情緒辨識方法

摘要

Robust Emotion Recognition by Using a

Temporal-Reinforced Approach

ABSTRACT

誌謝

目錄

圖例

表格

第一章、 緒論

1.1. 研究動機

1.2. 相關研究回顧

1.2.1. 人臉情緒辨識方法

1.2.2. 程度、比例、連續時間人臉情緒辨識方法

1.2.3. 相關向量機原理

1.2.4. 可能性分析相關理論

1.3. 問題描述

1.4. 系統架構與章節說明

第二章、人臉偵測與特徵點擷取

2.1. 人臉偵測

2.1.1. 人臉區域決定

2.1.2. 人臉影像正規化

2.2. 主動外觀模型

2.3. 人臉形狀模型

2.3.1. 標註特徵點

2.3.2. 平均人臉形狀

2.3.3. 模擬臉部形狀變化

2.4. 人臉紋理模型

2.4.1. 人臉紋理

2.4.2. 分段仿射變形

2.4.3. 模擬臉部紋理變化

2.5. 影像校正演算法

2.5.1. Inverse Compositional 演算法

2.5.2. 整體形狀正規化轉換

2.5.3. 梯度影像修正

2.5.4. 直方圖等化

2.5.5. 影像校正整體方法

第三章、基於機率之連續影像情緒辨識

3.1. 人臉特徵擷取

3.2. 特定情緒辨識

研究生：林昭宇

指導教授：宋開泰博士

研究生：林昭宇 Student: Chao-Yu Lin

指導教授：宋開泰博士 Advisor: Dr. Kai-Tai Song

第一章、緒論