問題描述

圖 1-22、使用二元分類樹分類範例[21]

在另一個研究[21]中，他們考慮到六種基本表情並不足以應付一般應用情境，

因此利用 Fuzzy Kernel Clustering (FKC) 、 Support Vector Machines (SVM) 以及二元分類樹架構辨識出兩種基本表情混合時的情況。

在上述三個研究中[19]-[21] 所擁有的共同點為都不侷限於只將表情辨識為六個基本表情。研究[19]目的為辨識出數目遠多於 6 的自定義表情，研究[20]之目的在辨識出六種基本表情之外還外加辨識出表情強度，而研究[21]之目的為辨識出兩種基本表情混合時的狀況。本論文與研究[19]-[21]相類似的是不侷限於只將表情辨識為六個基本表情，不同的是本論文想要探討的是更具有一般性的辨識方法。

1.3 問題描述問題描述問題描述問題描述

人臉表情辨識目前所達成的成果大多只集中於依據各種辨識方法將表情歸類在六種基本表情其中一種。但在實務上面，人臉的表情並非只有單純六種，例如其他表情:驚喜、驚恐...等等不只是單一的基本表情所能涵蓋。如果把強度也

考慮進去的話，就有更多變化例如:大笑、微笑...等等的表情。簡單來說，人的部分先將剛剛得到的特徵值輸入倒傳遞類神經網路(Back Propagation Neural

Network, BPNN)得到評分，然後再將這些評分經過我們所提出的基於上下面部動作編碼組合與基本表情的關聯性之運算架構求出人臉表情混合比例以及表情強度。整體架構圖參考圖1-23。

本論文總共分為五章，第一章為緒論，介紹研究動機、相關研究、問題描述以及系統架構。第二章為人臉影像特徵擷取方法，介紹本論文中所使用的人臉特徵值擷取方法。第三章為人臉表情混合比例及強度辨識方法，此章節介紹本論文提出的利用倒傳遞類神經網路以及我們所提出的評分演算法辨識出人臉表情混合比例及強度。第四章為實驗結果。最後第五章則是結論及未來展望。

圖 1-23、整體系統架構

第二章第二章第二章

第二章人臉影像特徵擷取方法人臉影像特徵擷取方法人臉影像特徵擷取方法人臉影像特徵擷取方法

在以我們提出的人臉表情辨識演算法辨識人臉表情的混合比例以及表情強度之前，我們需要使用人臉偵測得到人臉區域以及擷取出之後辨識所需的人臉特 徵。因此，接下來在本章將介紹從人臉偵測到擷取人臉特徵值之過程。

2.1 人臉偵測演算法人臉偵測演算法人臉偵測演算法人臉偵測演算法

首先，輸入是一張張從攝影機得到的影像圖片。這些影像輸入到系統裡後一開始要先偵測人臉，然後將人臉區域從原圖像中分割出來，這些工作是人臉偵測 (Face Detection)這個區塊的範圍。

在人臉偵測的部分，參考了[5] [22][23]的研究，採用 Haar-like 人臉偵測來找出可能的人臉位置。Haar-like 人臉偵測方法之特徵可分成三類(如圖 2-1):

1. 四種邊緣特徵 2. 八種線特徵 3. 兩種中心包圍特徵

計算 Haar-like 特徵時是將圖 2-1 白色部分的影像像素值總和與圖 2-1 黑色部分的影像像素值總和相減得出特徵值，藉由改變矩形特徵的大小和位置，便可在

圖 2-1、Haar-like 特徵法

輸入的影像中取出大量 Haar-like 特徵。

取得這些 Haar-like 特徵後便要利用這些特徵值求得人臉區域，這裡採用 Boosting 方法中的 AdaBoost[22][23]以及 Cascade[22][23]方法建構出多階層多分類器的篩選方法，每階層的分類採用 AdaBoost，然後一階一階的篩選出最後留

過濾白色: W = ( − 0.33) + ( − 0.33) (2-5) 膚色密度: ( , ) = 1, ! < # $ % ( > ) $ % ' > 0

0, ()ℎ+ , -+ . (2-6)

(2-6)中 Skin(r,g)=1 為膚色，Skin(r,g)=0 為非膚色。將所有 Skin(r,g)的點加總起來便可得出膚色範圍面積，膚色密度可從膚色範圍面積除以總區域面積得到。我們

取膚色範圍面積最大的影像區域作為最近的人臉區域。因此我們可總結人臉偵測流程為:

1.Haar-like 人臉偵測法選出候選區域

2.太小的區域剃除(代表很遠的人臉或是誤判)

3.最後選擇膚色範圍面積最大的候選區域便可得到最近的人臉區域。

2.1.2 人臉偵測人臉偵測人臉偵測範例人臉偵測範例範例範例

本論文所使用的人臉偵測方法可偵測出最近攝影鏡頭的人臉區域。在可靠度方面，只要不過遠(遠於 2 公尺)過近(近於 20 公分)或者人臉角度偏轉過大，那麼都可準確的抓到人臉區域。圖 2-2 和 2-3 為範例，圖 2-2 為在不同距離及不同人臉角度下的人臉偵測，可看到此人臉偵測方法的可靠度相當高;圖 2-3 為兩人在不同距離下的人臉偵測，可觀察到此人臉偵測方法會取最近的人臉區域。

圖 2-2、在不同距離及不同人臉角度下的人臉偵測

圖 2-3、兩人在不同距離下的人臉偵測

2.2 主動外觀模型主動外觀模型主動外觀模型主動外觀模型

經由人臉偵測取得人臉圖像後，下一步驟是以主動外觀模型(Active

Appearance Model, AAM)找出人臉的特徵。主動外觀模型由 Cootes 等人[25]-[27]

所提出，主要由形狀模型(Shape Model)與紋理模型(Texture Model)所組成。接下來將說明主動外觀模型的建置方法。

2.3 人臉形狀模型人臉形狀模型人臉形狀模型人臉形狀模型

人臉的主動外觀模型中，人臉的形狀模型由平均人臉形狀(Mean shape)及平均人臉形狀可容許的變化向量組成，利用此模型能夠模擬出不同的人臉形狀。

2.3.1 標定特徵點標定特徵點標定特徵點標定特徵點

主動外觀模型(Active Appearance Model, AAM)在訓練建置時必須手動標定特徵點。在選擇特徵點位置時應定義於曲線的高曲率(High Curvature)部分、曲線間的 T 型交點(‘T’Junction)，以及中間點，如圖 2-4 所示。

圖 2-4、特徵點選取原則[26]

圖 2-5、特徵點標點範例[26]

在標定特徵點的位置方面，參考[5][26][27]的定義，定義出 70 個人臉的特徵點如圖 2-5，標點位置分配為嘴巴共 18 個點、眼睛共 16 個點、鼻子共 9 個點、

眉毛共 10 個點以及人臉輪廓共 17 個點，全部一共標定了 70 個點，圖 2-6 顯示了在不同表情變化下的特徵點位置。

圖 2-6、不同表情下特徵點標點範例

2.3.2 平均人臉形狀平均人臉形狀平均人臉形狀平均人臉形狀

人臉形狀由 70 個特徵座標組成，我們可以由這些不同的特徵座標計算出一組平均形狀。因為輸入人臉形狀的位置、大小、偏轉角度都不相同，我們必須對齊(Align)所有輸入的形狀才能得到我們需要的平均形狀(Mean shape)。

在對齊形狀的部分是使用 Procrustes Analysis[5] [26][27]。因為輸入人臉形狀的位置、大小、偏轉角度都不相同，我們必須對所有輸入的人臉形狀做縮放、位移以及旋轉來對齊， /₀(1)是經由縮放、位移以及旋轉的輸出，a、b、c、d 是縮放及旋轉的參數，至於)₂、)₃則是 x、y 方向的位移。

/₀(1) = 4$ 56 %7 1 + 8 )₂

)₃ 9 (2-7) 在對齊過程中，我們先計算出一組平均形狀，接著利用(2-7)的方法計算出新的人臉形狀並算出新的平均形狀，接著重複同樣的步驟直至收斂。在收斂判定方面，我們利用 Procrustes distance(2-8)確定平均形狀的上一次與這一次的差異是否

夠小，若夠小則收斂。而在(2-8)中: 為 Procrustes distance，j 為座標序號，v 是座標序號最大值 70，而;_<=, >_<=則是這一次的平均形狀中特徵點的座標;_<?, >_<?為前一次平均形狀中特徵點的座標。

: = ∑ A(;^C_<D= _<=− ;_<?) + (>_<=− >_<?) B (2-8) 我們輸入 120 個人臉形狀做為訓練範例。圖 2-7(a)是原本的人臉形狀重疊後再一起顯示，每一個點都代表 120 個人臉形狀其中一個形狀的 x、y 座標，圖 2-7(b)則是經過對齊後將人臉形狀重疊後再一起顯示，圖 2-8 對齊後的所有形狀座標取平均值算出的平均形狀(Mean shape)。

圖 2-7、人臉形狀對齊範例

圖 2-8、平均形狀(Mean shape)範例

2.3.3 模擬人臉形狀變化模擬人臉形狀變化模擬人臉形狀變化模擬人臉形狀變化

在前面章節有提到形狀座標總共有 70 個 x、y 值。如(2-9)所示，每個 shape 都可視為 2v 維的向量。

- = (;₌, >₌, ; , > , … , ;_C, >_C), F = 70 (2-9) 為了建立可模擬人臉形狀變化的模型，我們使用主成分分析(Principal Component Analysis, PCA)以簡化維度資料[27]。平均人臉形狀-_?用(2-10)表示，

其中x_H = ) $ -h$J+ -+)。

用許多的三角形將輸入的點連接起來，它的特性是每個三角形的外接圓內不會有其他點，我們用 Delaunay triangulation 將人臉形狀進行分割，修改嘴巴部分使得可模擬出嘴唇開合的形狀以及使人臉形狀左右三角形對稱，如圖 2-9 所示。用 Delaunay triangulation 將人臉形狀分割完成後，將訓練的人臉形狀依每個三角形中的紋理轉換到平均人臉形狀中對應的三角形如圖 2-10 所示。

圖 2-9、人臉形狀用 Delaunay triangulation 表示[5]

圖 2-10、三角形的對應轉換[5]

2.4.2 模擬人臉紋理變化模擬人臉紋理變化模擬人臉紋理變化模擬人臉紋理變化

我們利用 Principal Component Analysis(PCA)將訓練資料中的人臉紋理資料化簡，並找出人臉紋理的變化。紋理模型組成的向量可表示為(2-13) ，其中 = )+;)O + J ;+P OQ5+ 。

= ( ₌, , … , ) (2-13) 平均紋理(mean texture) A0 可從所有轉正的人臉影像紋理相加得出(2-14)，

其中 g_H = ) $ )+;)O + -+)。

算法，常用於影像形變校正、物體追蹤等。Inverse Compositional 演算法[28][30]

為 Lucas-Kanade 演算法之改良方法，比 Lucas-Kanade 演算法更有效減少運算量，原因是 Lucas-Kanade 演算法需要在每次迭代過程中計算出輸入影像的梯度值(gradient)，接著計算 Warping Jacobian 並求出 Steepest descent image 及 Hessian matrix。在 Inverse Compositional 演算法當中，是使用樣版影像計算影像梯度值。由於樣版影像是已知的，Inverse Compositional 演算法只要在迭代開始前計算出樣版影像的梯度值，那麼 Warping Jacobian 以及 Steepest descent image 和 Hessian matrix 就能預先計算，迭代過程就可省去這一部分的計算量，迭代的速度可得以提升。本論文採用 Inverse Compositional 演算法對輸入人臉影像作校正。圖 2 -11 中 I~IV 為前處理，1~5 為迭代過程。

圖 2 -11、Inverse Compositional 演算法架構[5]

2.5.2 總體形狀正規化轉換總體形狀正規化轉換總體形狀正規化轉換總體形狀正規化轉換

我們運用總體形狀正規化轉換(Global Shape Normalizing Transform)[28]得到人臉的位移、縮放和旋轉資訊。由於在一般 Inverse Compositional 演算法中，對輸入人臉偏轉的角度容忍度十分有限，因此在校正過程中使用總體形狀正規化轉換之目的為讓輸入人臉偏轉角度之容忍度變大。

我們定義Z(; ; \)為訓練資料的 Global Shape Normalizing Transform[5]，若平 移為!t_^, t_{_}#，旋轉角度為θ，可用一個參數q = (a, b, t_^, t_{_})^c代表其形變參數，其 steepest descent image 會在 Inverse Compositional 演算法中使用。

SD_o(x) = ∇A_?_rt^rs

u− ∑ 8∑_^∈w_xA_M(x) ∙∇A_?_rt^rs

YHD= A_M(x) (2-19)

以及 p 參數的 steepest descent image，j=1,2,…,n：

SD_oym(x) = ∇A_?^rz_r _u− ∑ 8∑^Y_HD= _^∈w_xA_M(x) ∙∇A_?^rz_r _u9A_M(x) (2-20) Hessian matrix(會在 Inverse Compositional 演算法中使用)之計算為：

{ = ∑ |(;)₂ ^N |(;) (2-21) 紋理參數可表示為：

V_H = ∑_2∈€_xS_H(;) ∙ [~(Z('(;; J); \)) − S_?(;)] (2-22) 而紋理參數V_H將會用來做為我們之後所使用的人臉特徵值。

圖 2 -12、總體形狀正規化轉換[5]

2.5.3 影像修正影像修正影像修正影像修正

在影像校正過程中使用的影像修正有兩個部分，一為梯度影像修正，二為直方圖等化。首先介紹梯度影像修正: 梯度包括垂直方向梯度(gradient X)與水平方向梯度(gradient Y)兩種。由於我們是取樣版影像(如圖 2-13)並算出梯度值，在黑色邊緣的地方會計算出錯誤的梯度值，因此我們將邊緣的梯度值修正為與網內一格相同。

再來介紹另一個修正

V.

由(2-21)計算Hessian matrix 迭代過程：

(1). 根據Z ;; \ 與'

圖 2 -13、樣板人臉影像

再來介紹另一個修正:直方圖等化，其優點是處理後更能凸顯出人臉的特徵在計算直方圖等化時，先將輸入的影像計算出其直方圖，然後

以人臉形狀範圍中所有像素之數量算出機率密度函數(Probability Density 算出累積分佈函數(Cumulative Distribution Function, CDF) 為了對應影像灰階而將累積分佈函數由 0-1 放大到 0-255的範圍

20)計算改變的 steepest descent images SD_o x Hessian matrix

' ;; J 形變影像~，計算形變影像~ Z '

其優點是處理後更能凸顯出人臉的特徵

在文檔中具表情混合比例及強度之人臉表情辨識系統 (頁 26-0)

1.3 問題描述 問題描述 問題描述 問題描述

第二章 第二章 第二章

第二章 人臉影像特徵擷取方法 人臉影像特徵擷取方法 人臉影像特徵擷取方法 人臉影像特徵擷取方法

2.1 人臉偵測演算法 人臉偵測演算法 人臉偵測演算法 人臉偵測演算法

2.1.2 人臉偵測 人臉偵測 人臉偵測範例 人臉偵測 範例 範例 範例

2.2 主動外觀模型 主動外觀模型 主動外觀模型 主動外觀模型

2.3 人臉形狀模型 人臉形狀模型 人臉形狀模型 人臉形狀模型

2.3.1 標定特徵點 標定特徵點 標定特徵點 標定特徵點

2.3.2 平均人臉形狀 平均人臉形狀 平均人臉形狀 平均人臉形狀

2.3.3 模擬人臉形狀變化 模擬人臉形狀變化 模擬人臉形狀變化 模擬人臉形狀變化

2.4.2 模擬人臉紋理變化 模擬人臉紋理變化 模擬人臉紋理變化 模擬人臉紋理變化

2.5.2 總體形狀正規化轉換 總體形狀正規化轉換 總體形狀正規化轉換 總體形狀正規化轉換

2.5.3 影像修正 影像修正 影像修正 影像修正

V.