緒論 - 生活照片之人物分類系統研究

本論文研究之動機，主要是想以圖找圖，用已知圖形尋找相似圖形，以市面上產品應用狀況來看，數位相框之生活照人物分類，或搜尋及播放相同人物的生活照，都是一個可以著力的地方，只要分類正確，接下來的操作功能就可以依照使用者的需求來達成。

人臉辨識是人類與生俱有的能力，透過眼睛擷取清晰的人臉畫面，經由大腦訓練記憶，爾後再從記憶資料區塊找出匹配的人臉，完成辨識。人腦辨識需要記憶，電腦視覺辨識更是需要，所以本系統也必須在辨識前先經過訓練和記憶的程序。

生活照之人臉辨識和照片分類，必須先建立資料庫(圖 1.1)，以提供辨識系統的訓練樣本，首先偵測生活照片人臉的位置，經過人臉擷取正規化，以手動方式分類每個人物的人臉照片。接下來才是人臉辨識工作(圖 1.2)，也是先找出測試生活照片裡面的所有人臉，經過人臉正規化跟特徵抽取，進一步比對出最接近資料庫的哪一個人臉，最後就可以記錄資料庫每個人物出現在哪幾張生活照片裡。

訓練之生活照

人臉位置偵測人臉擷取正規化手動分類資料庫

圖 1.1 人臉資料庫建構圖。

測試之生活照

人臉位置偵測人臉擷取正規化

人臉辨識 (特徵比對) 特徵抽取

圖 1.2 人臉辨識系統架構圖。

測試生活照之人物分類結果

資料庫特徵抽取

人臉位置偵測目前有統計模型法[1]、類神經網路法[2]、支持向量機分類法[3]、推昇 (boost)分類法[4]、眼睛偵測法[5]和膚色偵測法[6]等等方法。主要可分成模型基礎法和膚色形狀基礎法兩大方法，代表性的有，S. Birchfield [7]提出橢圓追蹤法，使用梯度跟膚色兩種特徵模型來偵測人臉位置。L. Wiskott 等四人[8]提出彈力束圖形配對法(Elastic Bunch Graph Matching，EBGM)，透過眼睛、鼻子、嘴巴和輪廓由一系列小波成份組成，

可以計算人臉旋轉角度，正規化到正面人臉後再做人臉辨識。T. F. Cootes 等四人[9]提出主動式形狀模型法，使用手動描繪特徵點形成分佈模型來當作訓練樣本，當待測樣本如手掌形狀改變或人臉旋轉角度改變，特徵點仍然可以掌握待測樣本主要的形狀特徵。

之後，T. F. Cootes 等三人[10]提出主動式外觀模型(active appearance model)演算法，包含形狀統計模型以及人臉的灰階外觀，疊代計算訓練樣本跟合成影像之間的殘餘值 (residual errors)直到最小值，即可得到良好的人臉外形定位效果。D. Maio 和 D. Maltoni 兩人[11]發表粗略跟精細兩階段統計偵測人臉位置。H. S. Lee 和 D. Kim 兩人[12]發表膚色跟臉形兩種分別偵測和追蹤人臉的方法。M. N. Francesc 等三人[13]提出一個費雪彩色空間(Fisher color space)，即便是光線產生變化，使用線性識別分析法也能夠將目標物跟背景分離。Y. Tong 等四人[14]結合賈柏小波(Gabor wavelets)跟灰階值特徵，使用切換式猜測量測模型來估測人臉 3D 立體旋轉角度，以達到人臉偵測及追蹤效果。J. Tu，H. Tao 和 T. Huang 兩人[15]使用人臉 3D 立體模型追蹤來模擬個人電腦裡面屬於人機介面的滑鼠，追蹤人臉位置來移動滑鼠位置，偵測嘴巴的形狀來實現滑鼠的打開、關閉和拖曳等功能。M. Kim 等四個人[16]在追蹤人臉上，使用一些視覺限制條件達成適應性外觀追蹤法，最後使用隱藏式馬可夫模型(hidden Markov model)來辨識人臉。Zheng 和 S. M.

Bhandarkar 兩人[17]結合適應性粒子群演算法跟適應性推昇分類法(AdaBoost)[1]來偵測及追蹤人臉。M. Balasubramanian 等三人[18]先使用膚色偵測法找出人臉位置，再透過輻狀基底類神經網路找出精確的眼睛跟嘴巴位置。

人臉辨識目前有統計法[19]、人臉子空間辨識法[20]、外觀基底辨識法[21]、3D 立體辨識法[22][23]和稀疏編碼(sparse coding)[24][25]等辨識方法。P. N. Belhumeur 等三人[26]

提出費雪人臉(Fisherfaces)，使用費雪線性鑑別分析法來辨識人臉類別，費雪人臉錯誤率

比特徵人臉(eigenfaces)小。A. R. Chowdhury 等四人[22]透過一連串人臉影像，只要使用一般模型，並採用馬可夫鏈蒙地卡羅法(Markov chain Monte Carlo)取樣機制最佳化，就可以重建 3D 立體人臉，以進行不同角度的人臉辨識。S. Baker 和 T. Kanade 兩人[27]提出新的超解析度演算法，將低解析度影像重建為高解析度影像，這有助於人臉偵測及辨識，特別適用於一般解析度不高的監視系統。X. Liu 等三人[28]提出特徵空間(eigenspace) 之人臉訓練樣本是由一群衰變參數來控制，以選擇多一點的新樣本和少部份的舊樣本進行訓練，再做人臉辨識。G. Shakhnarovich 等三人[29]使用近期積分(late integration)策略和早期積分(early integration)策略，以及相互子空間(mutual subspace)法來處理長時間所觀察到的同一個人臉資料，之後使用庫爾貝克-萊伯勒差異(Kullback-Leibler divergence) 法來衡量待測人臉跟哪一個已知類別比較相似。W. Y. Zhao 和 R. Chellappa 兩人[30]提出遮光人臉的源頭遮光(source-from-shading)新處理法，因為是對稱人臉，所以可以使用自比例(self-ratio)影像法來處理陰影問題，最後合成影像從密度資訊得到的每一個點都存在著唯一整體解，而且還是唯一局部解。Y. Li 等三人[31]使用核心鑑別分析(kernel discriminant analysis)法來辨識不同角度人臉，將高維度特徵空間投影到等效面，然後就可以採用線性鑑別分析法來處理這個非線性辨識問題，目的就是將同一類別的距離拉得更近，不同類別的距離拉得更遠。Y. Zhang 和 A. M. Martinez 兩人[19]提出權重統計法 來辨識人臉，將每張人臉切割成 K 個小圓形做特徵抽取，仍然可以辨識墨鏡或圍巾等遮 掩物的干擾。N. Vaswani 和 R. Chellappa 兩人[32]提出新的主成份零空間(null space)分析法進行分類，計算所有類別之同類別變異量，取最小值之類別視為零空間，也就是趨近零空間的意思，可應用於人臉分類。J. Wright 等五人[24]提出稀疏編碼來處理正面人臉部份被遮掩的辨識問題，使用l -norm 最小化讓訓練人臉線性地與稀疏誤差值相加，得到的就是遭受遮掩後的重建人臉。

人臉光線不均勻的處理方式大致上有濾波器法[33][34]、流型模型(manifold model) 統計法[35][36][37]和 3D 立體模型法[23][38]。 W. T. Freeman 和 J. B. Tenenbaum 兩人[39]

提出雙線性模型學習法來解決色彩明亮度跟未知外形兩大問題。Y. Adini 等三人[40]提出類似賈柏小波濾波器讓人臉光線均勻化。D. W. Jacobs 等三人[41]使用 Hessian 矩陣找

出來自相同人物的兩張人臉梯度比值，來判斷是否屬於同一類別。M. Savvides 等三人[42]

提出 Corefaces 進行人臉辨識，使用相關濾波器(correlation filter)降低光線不均勻問題，

再使用主成份分析法做人臉分類。S. Du 和 R. Ward 兩人[33]使用小波濾波器正規化每個人臉，光線均勻正規化後再做人臉辨識。T. Ojala 等三人[34]提出局部二位元圖樣(local binary patterns)抽取紋理特徵，不需複雜計算，然後使用多重解析分析法(multiresolution analysis)做人臉分類。X. Tan 和 B. Triggs 兩人[43]提出局部三位元圖樣(local ternary patterns)，是由局部二元圖樣延伸而來的，使用局部距離轉換取代原來直方統計法，來計算相似性距離以做人臉分類。A. S. Georghiades 等三人[21]使用三張固定角度的訓練樣本，以及反照率來重建光線均勻的人臉，然後再採用生成模型(generative models)估計聯合概率分佈，即可進行良好的人臉辨識。T. Vetter 和 T. Poggio 兩人[44]提出一張 2D 平面人臉樣本就可以重建 3D 立體人臉，條件為使用 49 個同一類別的平面人臉做訓練。S.

Malassiotis 和 M. G. Strintzis 兩人[45]提出人臉角度跟光線補償方法，利用對稱基底內插法將人臉旋轉到正面位置，使用支持向量機回歸方程式計算近似的光線方向再做補償。

R. Gross 等三人[46]使用像素密度做為特徵，而提出特徵光場(eigen light-field)和費雪光場(Fisher light-field)，針對不同人臉角度跟明亮度進行辨識。O. Arandjelovic 和 R. Cipolla 兩人[35]提出的明亮度補償是結合粗略的直方圖統計校正法跟精細的流型模型(manifold model)法，分解每一個外觀，輸入高斯姿態分類器來判斷人臉角度，再將人臉正規化到正面角度進行人臉辨識。O. Arandjelovic 等五人[36]提出流型密度相異值(manifold density divergence)辨識方法，就是透過統計方程式將這個差異值最小化。O. Arandjelovic 和 R. Cipolla 兩人[37]使用三個高斯姿態分類器並結合相似度統計分析法來判斷人臉角度，運用區域射線強度(gamma intensity)稍微補償了明亮度的變化，更精細的補償就是結合已學習之明亮度變化的線性流型，以及人臉樣本分佈的限制條件來完成明亮度正規化。V. Blanz 和 T. Vetter 兩人[38]提出只要單一張 2D 平面人臉影像，經過 3D 立體形變模型(morphable model)訓練，調整外形和紋理，即可重建出 3D 立體人臉，接下來可以把待測人臉旋轉到一個固定正面角度，再做辨識。D. Jiang 等六人[23]提出只要單一張 2D 平面人臉，即可有效率地結合 3D 立體模型，透過主成份分析法，壓縮 3D 立體模型

的外觀，合成後的人臉可以應付姿態角度、明亮度和表情(PIE)這三個大幅度變化的辨識問題。

本論文章節架構安排如下，第二章介紹論文使用到的相關技術和方法，包括人臉位置偵測[6]、人臉正規化[9][10][47][48][49]以及人臉辨識[50][24][25]。第三章則說明我們改善後的辨識系統。第四章呈現實驗結果與分析。最後第五章做一個總結以及後續研究的方向與建議。

在文檔中生活照片之人物分類系統研究 (頁 11-16)