文獻探討 - 植基於二階段區域紋理特徵之臉部表情辨識

若以臉部影像特徵作為電腦辨識表情的依據，目前主要有兩種特徵擷取方式。

第一種方式是基於幾何特徵擷取[20-26]，以臉部動作編碼系統(Facial Action Coding System, FACS)[27]為導向，該編碼系統可以用來描述臉部特定區域個別移動的狀況；例如：Kotsia and Pitas[25]提出人臉表情的變化可利用網格狀模型進行參數化設定，網格狀模型主要由許多節點所組成，這些節點的選定即是以 FACS 中的動作單元(Action Units)來決定。由於需先將臉部特徵手動標上節點作為基準，

因此這些節點的位置決定辨識結果的優劣。第二種是基於外觀特徵擷取[9, 28-32]，

主要是針對區域紋理進行處理；例如：Bashyal and Venayagamoorthy[32]利用 Gabor 小波轉換擷取肌肉紋理，手動選擇重要的特徵部位，最後以學習向量量化 (Learning Vector Quantization, LVQ)進行表情分類，雖然準確度高，但計算過程複雜，需耗費較多時間。

在上述方法中若影像的前置處理沒有做好，影像特徵值極易受到光影變化的影響；因此，有越來越多的專家學者，利用區域二元圖樣(Local Binary Patterns, LBP)[33-36, 51-52]作為研究人臉表情辨識的主要方法。由於 LBP 不僅計算簡單，

對影像的光影變化也具有相當好的抵抗力，適合用於擷取影像特徵資訊。LBP 依照應用方式不同，延伸出多種變形[5-7, 11, 17, 36]，許多文獻利用了區域二元圖樣及其變形來取得影像的紋理特徵[37-42]，皆有不錯的效果。因此，本章將針對區域二元圖樣及其變形，應用於臉部表情辨識相關文獻進行分析及探討。

2.1 區域二元圖樣

多年來，在表情辨識的相關研究理，一直都有專家學者在研究、開發以紋理特徵為基礎，具有識別能力及計算效率的方法；因此，區域二元圖樣在這幾十年來廣泛的被應用在臉部表情辨識領域。

Viola 等人[43]將 LBP 的方法與 Gabor 小波表示法進行比較，研究結果顯示

LBP 運算速度較快；而且若是使用低解析度的表情影像作為處理對象，LBP 比 Gabor 小波更能有效取出代表臉部的紋理特徵資訊。Feng 等人[34]提出利用 LBP 來擷取臉部紋理做為特徵向量，再搭配線性規劃進行表情的分類。他們使用 JAFFE 資料庫做為訓練及測試，得到相當好的辨識效果。Liao 等人[10]則將曲線波轉換加上 LBP 來擷取臉部特徵，其方法使用在 JAFFE 資料庫的效果，比 Cohn-Kanade 資料庫來得優異，是與大多數文獻不同之處。

雖然 LBP 的計算方式簡單，但若取得過多不必要的特徵資訊，反而會將低辨識系統效能。為了解決將整張臉部影像進行特徵擷取時，所造成計算量過大的問題，Liu 等人[4]透過比較區域 LBP 與全域 LBP 對於表情辨識的影響。區域 LBP 指的是眼睛、嘴角、眉毛等部分，全域 LBP 則是使用整個臉部影像作為特徵擷取的對象，其實驗結果顯示區域 LBP 的辨識效果較佳。Shan 等人[5]則是提出先在臉部影像上切割許多區塊，並以 AdaBoost 演算法選出較具鑑別性的特徵區塊，

再將這些區塊進行 LBP 運算，以降低系統計算量。Shan 等人[6]則提出以 AdaBoost 演算法，在 LBP 運算後所得之特徵直方圖中，取得能有效鑑別的資訊。

若需將辨識系統運用在現實生活中，由於網路傳輸、資料壓縮等原因，能取得的影像解析度也會受到影響，在低解析度的臉部表情影像辨識研究，Shan 等人[7]利用 LBP 搭配模板匹配(template matching)，使用區塊式 LBP 串接特徵直方圖，將臉部影像分成數個子區塊，並將眼睛與嘴巴等較能突顯表情的特徵區塊給予較大的權重值。他們使用支持向量機(Support Vector Machine, SVM)對所提出的辨識系統進行分類效能測試，並針對 SVM 三種不同的核心函數進行測試，皆得到不錯的辨識準確率。此外，他們還將 LBP 與 Tian 等人[8]所提以 Gabor 濾波器為主的特徵擷取技術進行效能上的比較，其結果顯示出 LBP 在各種解析度影像之下，表情辨識效果皆優於 Gabor 濾波器。由此可見 LBP 不僅運算簡單、計算速度快，在影像解析度較低的情況，或是影像易受光線干擾的即時系統上，皆能維持不錯的辨識準確率。

2.2 區域二元圖樣之變形

除了 LBP 已被運用在表情辨識領域，其還有多種變形已被提出；例如：Local Directional Pattern(LDP)[11]、Local Ternary Pattern(LTP)[12]、與 Compound Local Binary Pattern(CLBP)[13]等，也都具有相當優異的表情辨識效果。

由於 LBP 只考慮兩個像素點之間的灰階值差異，為解決局部區域影像太過平滑所造成的問題，Hossain 等人[13]提出 CLBP 來取代 LBP 作為擷取特徵向量的方法。CLBP 的編碼方式是臨點先與中心點比較，再與區域平均值比較，並將比較結果從 LBP 的 1 bit 延伸為 2 bit 表示，得到一個 16 bit 的二元編碼，再將其二元編碼拆解成兩個 8 bit 編碼，乘上權重後結合串接成 CLBP 特徵直方圖。實驗結果整體雖較 LBP 及 LTP 優秀，但悲傷的分類很容易誤判為無表情。其直方圖維度為 LBP 的兩倍，再透過區塊式擷取 CLBP 特徵值，分類所需時間必定會受影響。

LDP 是透過 Kirsch edge masks 計算八個方向邊緣響應值的一種 LBP 變形。

Jabid 等人[11]提出利用 LDP 透過 Adaboost 及主成分分析法(Principal Component Analysis, PCA)來降低特徵直方圖維度，最後搭配使用模板匹配或 SVM 進行人臉表情辨識。其實驗結果顯示，不管是 JAFFE 或是 Cohn-Kanade 資料庫都有不錯的辨識效果；在低解析度的人臉表情影像辨識上，也較 LBP 及 Gabor 小波的表現優異。Kabir 等人[14]則提出 Local Directional Pattern Variance(LDPv)，該法是將 LDP 結合變異數，透過 PCA 降低維度，一樣使用模板匹配或 SVM 來測試其效能，LDPv 搭配 SVM 效果遠高出模板匹配，而其得到的辨識結果更優於 LDP。

為了改善 LDP 透過遮罩運算後，雖然正負號不同，編碼卻相同的問題，Castillo 等人[44]提出 Local Sign Directional Pattern(LSDP)，改變 LDP 的編碼方式，以最大正向量及最小負向量的位置作為編碼，其方法在 JAFFE 資料庫的辨識效果明顯優於 LDP；但是，由於需透過遮罩運算，LDP、LDPv 或是 LSDP 不管是計算量還是直方圖維度，皆較 LBP 來得複雜。

相較於 LBP 經過與鄰點比對後所得的二位元編碼(1 或 0)，LTP 則延伸為三位元編碼(1, 0 或−1)。雖然 LTP 可取得具鑑別度的紋理特徵，但因為編碼從二位元擴展到三位元，特徵直方圖維度將近是 LBP 的 26 倍，使得 LTP 多需搭配其他方法(例如：線性判別分析(Linear Discriminant Analysis, LDA)、PCA 等)以降低維度，以增加系統效能。Gritti 等人[15]提出將臉部影像分割成多個子區塊，分割方式分為重疊與不重疊，分別施予 LBP 及 LTP 運算，取得特徵直方圖。該法並與方向梯度直方圖(Histogram of Oriented Gradients, HOG)方法進行比較，實驗結果顯示若分割成適當的重疊區塊，整體辨識效果會比子區塊不重疊提升約 2%，但若使用 LTP 的辨識效果會略低於 LBP。

在文檔中植基於二階段區域紋理特徵之臉部表情辨識 (頁 11-15)