• 沒有找到結果。

人臉表情辨識的方法是透過人臉影像進行特徵提取,再根據這些特徵以分類 器分類,進而判斷出人臉所顯現出何種表情,過去有許多學者提出許多方法,在 特徵資訊擷取上大致可分為兩大類:基於幾何特徵與基於外觀特徵[25]。

2.1 基於幾何特徵之人臉表情辨識

由於人類的各種表情在臉部肌肉的形狀、線條表現上都不完全相同,因此,

基於幾何特徵的方法是利用眼睛、鼻子、嘴巴等形狀、位移的變化進行分析。人 臉動作編碼系統[26]是以各種表情牽動人臉肌肉的狀況,定義出 46 種動作單元 (Action Unit, AU),透過 AU 的組合進行表情辨識。以幾何特徵的位移變化進行分 析的方法[27],是將無表情人臉影像放置網格節點,觀察各個表情所產生不同節點 位移的變化進行分析的方法。Valstar 等人[28]以 AU 作為基準點直接計算與何種表 情最相近或加上以 Adaboost 演算法偵測這些動作單元的位置[29],提高其辨識效 果。黃彥強[2]以眉毛、眼睛以及嘴巴的位置擷取出 16 個臉部特徵點,在各個特徵 點間定義出 17 個特徵距離並結合臉部邊緣特徵作為特徵資訊,將此特徵資訊透過 半徑基底函數(Radial Basis Function, RBF)類神經網路進行分類辨識。Su 等人[30]

則是根據兩眼以及嘴巴三個區域在無表情時的位置訂出 84 個特徵點,以各個表情 的特徵點位移作為特徵資訊。Zhang 等人[31]則直接以五官的區域變化作為特徵資 訊進行辨識,雖在擷取五官位置上需要較多的計算,但所擷取出之特徵維度較少 則相對節省了訓練辨識模組的時間。

2.2 基於外觀特徵之人臉表情辨識

基於外觀特徵的方法主要依據表情的紋理及像素值上的差異進行分析,早期

(Independent Component Analysis, ICA)、區域特徵分析(Local Feature Analysis, LFA)、

線性判別分析(Linear Discriminant Analysis, LDA)、與 Gabor 小波表示法作為特徵 的擷取方法,這些都是屬於基於外觀特徵的擷取方式,Tian[32]也驗證了在真實的 環境中,Gabor 小波表示法比使用幾何特徵的方法效果更佳。Gritti 等人[16]則將對 陰影和光照變化具有穩定性的方向梯度直方圖(Histogram of Oriented Gradient, HOG)用於特徵資訊的計算上。為了解決 Gabor 小波表示法在計算上需要花費許多 時間及儲存空間的問題,區域二元圖樣(Local Binary Patterns, LBP)逐漸被使用在影 像資訊的表達上[33]。Viola 等人[34]證實 LBP 對於光線的變化及低解析度影像有 較高的強韌性,其辨識效果更優於 Gabor 小波表示法。

由於 LBP 的計算簡單,能降低許多計算時間及儲存空間的需求,有越來越多 的學者以此作為人臉表情辨識研究的主要方法[35-37],之後也陸續出現許多以 LBP 為基礎所延伸出來的方法。

Tan 等人[38]提出區域三元圖樣(Local Ternary Patterns, LTP)應用於臉部偵測上,

LTP 將 LBP 的二元編碼概念擴展成三個位元,使之更能有效的表達影像中的像素 值變化。

由於 LBP 與 LTP 僅考慮兩個像素點之間的灰階變化,可能會產生多種不同像 素值分布情況皆計算出相同特徵值的問題。Hossain 等人[14]提出 Compound Local Binary Pattern (CLBP)方法,其編碼方式是鄰點與中心點以及區域平均值做比較,

編碼也從 LBP 的 1 bit 改為 2 bit 表示,得到一個 16 bit 的二元編碼,再將其拆解成 兩個 8 bit 的二元編碼,實驗結果雖較 LBP 及 LTP 佳,但其維度為 LBP 的兩倍,

也增加了辨識所需的時間。

為 了 降 低 特 徵 維 度 , Heikkilä 等 人 [39] 提 出 中 心 對 稱 區 域 二 元 圖 樣 (Center-Symmetric Local Binary Pattern, CS-LBP)。CS-LBP 是改變 LBP 以鄰點與中 心點一一比較的編碼方式,改以中心點相對稱的兩點作比較,依照此編碼方式,

編碼長度由 8 bit 降為 4 bit。Zeng 等人[18]則依據 CS-LBP 的概念,將 LTP 擴展成

中心對稱區域三元圖樣(Center-Symmetric Local Ternary Pattern, CS-LTP),亦大大降 低了 LTP 維度過大的問題。

LBP 僅將影像中某個像素點周圍的灰階梯度大小變化進行編碼,並沒有將該 像素自身的灰階梯度大小變化或方向性考慮進去。Jabid 等人[12]提出透過八個方 向的 Kirsch mask 計算邊在八個方向的響應值,並將其編碼成區域方向圖樣(Local Directional Pattern, LDP)。藉由計算不同方向的邊緣響應(Edge response),對每個像 素點進行方向屬性的編碼,並以 Adaboost 及 PCA 降低特徵直方圖維度進行人臉表 情辨識。由於 LDP 透過遮罩計算後,會有正負號不同卻對應到相同編碼的情形,

且對於光線變化強韌性較低,針對這些缺點,Castillo 等人[19]改良 LDP 的觀念而 提出區域符號方向圖樣(Local Sign Directional Pattern, LSDP),以最大正數與最小負 數的位置作為編碼。但由於 LDP 與 LSDP 需要透過遮罩運算,相較於 LBP 在特徵 值計算上,需要花費更多的時間。

2.3 特定區域之特徵資訊擷取

在特徵資訊計算的區域上,Gritti 等人[16]提出將臉部影像分割成數個子區塊,

分割方式又分為重疊與不重疊,再針對各個子區塊進行特徵擷取與直方圖運算,

最後將各個子區塊的直方圖串接在一起,形成單一且代表該張臉部表情影像的特 徵直方圖。實驗結果顯示若以重疊的方式分割區塊,整體辨識效果會比不重疊的 分割方式提升約 2%。

由於整張表情影像具有辨識能力的部份主要分布於五官及其四周,其他部份 則 較 不 具 辨 識 能 力 。 Khandait 等 人 [40] 提 出 以 Smallest Univalue Segment Assimilating Nucleus 演算法將人臉影像進行邊緣偵測,之後根據邊緣資訊找出眉毛、

眼睛、鼻子與嘴巴區域計算特徵資訊。Nagi 等人[41]則是以 Haar Feature-based Cascade Classifier 找出眼睛、鼻子與嘴巴所組成之三個區塊,再以 LBP 進行特徵 資訊擷取。

相關文件