• 沒有找到結果。

生活照片之人物分類系統研究

N/A
N/A
Protected

Academic year: 2021

Share "生活照片之人物分類系統研究"

Copied!
75
0
0

加載中.... (立即查看全文)

全文

(1)

電機學院 電機與控制學程

生活照片之人物分類系統研究

A Study on Face Recognition System of Photographs

研 究 生:程煌瑞

指導教授:林昇甫 博士

(2)

生活照片之人物分類系統研究

A Study on Face Recognition System of Photographs

研 究 生:程 煌 瑞 Student:Huang-Jui Cheng

指導教授:林 昇 甫 博士 Advisor:Dr. Sheng-Fuu Lin

國 立 交 通 大 學

電機學院 電機與控制學程

碩 士 論 文

A Thesis

Submitted to College of Electrical and Computer Engineering National Chiao Tung University

in partial Fulfillment of the Requirements for the Degree of

Master of Science in

Electrical and Control Engineering July 2011

Hsinchu, Taiwan, Republic of China

(3)

生活照片之人物分類系統研究

學生:程煌瑞 指導教授:林昇甫 博士

國立交通大學 電機學院 電機與控制學程 碩士班

本論文採用膚色偵測法找出彩色生活照片可能的人臉位置,透過賈伯小

波(Gabor wavelet)抽取特徵進行類神經網路訓練,以判斷是否為人臉。在人

臉辨識階段,先使用主動式外觀模型(active appearance model)和可導引濾波

器(steerable filter)進行人臉正規化,接下來採用稀疏編碼(sparse coding)演算

法,在五個訓練樣本下,生活照人臉辨識率可達 80%,使用其他正面人臉

資料庫(AR 資料庫)辨識率更可高達 98%。並提出直方圖統計法來減少稀疏

編碼的權重數目為原來的 60%,除了降低系統運算量,同時特徵向量仍然

具有代表性。整體而言,可適用於家庭數位相簿管理,或數位相框之分類

系統。

(4)

A Study on Face Recognition System of Photographs

Student:Huang-Jui Cheng Advisor: Dr. Sheng-Fuu Lin

Degree Program of Electrical and Computer Engineering

National Chiao Tung University

ABSTRACT

This thesis adopts skin-color model to find the candidate face region, then

Gabor wavelets transformation is adopted to extract the entire face features.

Afterward, neural network is trained to determine whether the candidate region

is a human face or not. Finally, this thesis adopts active appearance model and

steerable filter to normalize all faces for face recognition. Then this thesis

implements sparse coding algorithm with 5 training faces to increase the face

recognition rate up to 80% for photographs, and for frontal face of AR database

also increases by 98%. Furthermore, this thesis proposes using histogram

method to reduce 60% of sparse coding needed which also reduces the amount

of system computational cost, and then the features are still representative. As a

whole, this system is suitable for digital media classification of family

photograph albums or digital photograph frames.

(5)

首先要感謝指導教授 林昇甫博士細心的指導,除了指正學生論文的謬

誤之處,還有生活處事上的叮嚀,讓學生獲益良多。有了 林教授的體諒

跟鼓勵,學生才可以兼顧工作和學業,完成此論文。同時也感謝口試委員

蘇建焜教授跟 陳肇業教授的提問與寶貴意見,修正學生論文錯誤的地方。

也要感謝 九暘電子主管 陳忠正副總的體諒,同意讓學生在工作之餘

繼續進修。感謝父母親的養育及栽培,還有女友 蔡佳偉在精神上的支持,

即使工作再忙再累,也讓學生能夠堅持到底完成論文。

還要感謝公司同仁提供的生活照片,讓學生的測試工作可以順利進行。

感謝曾經幫助學生的親朋好友們,謝謝您們。

(6)

錄

摘 要 ...i ABSTRACT ...ii 誌 謝 ...iii 目 錄 ...iv 圖 目 錄 ...vi 表 目 錄 ...viii 第一章 緒論 ...1 第二章 相關知識及理論 ...6 2.1 人臉位置偵測 ... 7 2.1.1 膚色位置偵測 ... 7 2.1.2 人臉特徵抽取 ... 9 2.1.3 類神經網路 ... 10 2.2 人臉正規化 ... 11 2.2.1 主動式外觀模型演算法 ... 11 2.2.2 光線明亮度正規化 ... 14 2.3 人臉辨識 ... 23 第三章 人臉辨識系統 ...27 3.1 人臉位置偵測方法 ... 27 3.1.1 多重尺寸視窗搜尋 ... 29 3.1.2 訓練類神經網路 ... 29 3.2 光線明亮度正規化濾波器 ... 30 3.3 稀疏編碼權重更新疊代演算法 ... 30 第四章 實驗結果與分析 ...34 4.1 人臉偵測的實驗結果 ... 34 4.2 特徵人臉辨識率 ... 38 4.3 稀疏編碼人臉辨識率 ... 42 4.4 明亮度正規化對於辨識率的影響 ... 49 4.5 可導引濾波器正規化的人臉辨識率 ... 50

(7)

4.6 人臉解析度對於辨識率的影響 ... 56 4.7 生活照片人臉辨識率分析 ... 56 4.8 實驗結果與討論 ... 57 第五章 結論與未來展望 ...59 參 考 文 獻 ...60

(8)

錄

圖 1.1 人臉資料庫建構圖。 ...1 圖 1.2 人臉辨識系統架構圖。 ...1 圖 2.1 典型生活照,(a)偵測人臉位置;(b)擷取人臉外形;(c)人臉正規化。...8 圖 2.2 人臉與非人臉分類之類神經網路架構圖。 ...11 圖 2.3 區塊三乘三像素值計算範例。 ...16 圖 2.4 計算x方向梯度 範例,(a) 像素點;(b) 往x方向位移兩個像素; (c) 在x方向最右邊兩列像素為零;(d)梯度 為(b)減掉(c)。...17 x G f(x,y) f(x,y) ) , (x y f Gx 圖 2.5 計算y方向梯度 範例,(a) 像素點;(b) 往y方向位移兩個像素; (c) 在y方向最下面兩行像素為零;(d)梯度 為(b)減掉(c)。...18 y G f(x,y) f(x,y) ) , (x y f Gy 圖 2.6 五乘五遮罩矩陣計算範例,(a)先取一個五乘五區域矩陣;(b)計算後求得的遮罩矩 陣。 ...20 圖 2.7 六乘六矩陣之ZigZag(蜿蜒)排列範例。...22 圖 2.8 (a)待測人臉;(b)訓練樣本;(c)稀疏編碼計算二十個係數;(d)重建後的人臉。.24 圖 3.1 人臉位置偵測流程圖。 ...28 圖 3.2 平均人臉。 ...29 圖 3.3 最左邊是原始人臉,其他經過明亮度濾波器處理後的結果,由左而右分別是SSR, MSR,ASSR,HOMOF,SSSQI,MSSQI,DCT和SF。... 30 圖 3.4 選擇權重位置比較圖,(a)統計法 1;(b)統計法 2;(c)門檻法。...31 圖 3.5 兩種權重選擇統計法在辨識率上面的比較,(a)由上往下取樣;(b) 由下往上取樣。 ... 32 圖 4.1 生活照片人臉偵測的部份實驗結果,(a)正面人臉;(b)有遮掩物的正面人臉;(c) 有明亮度不均勻的正面人臉;(d)有大角度變化的人臉。 ...35 圖 4.1(續) 生活照片人臉偵測的部份實驗結果。 ...36 圖 4.2 (a)中間人臉因為眼鏡反光大及仰角太大而無法偵測;(b)右邊人臉因為仰角太大而 無法偵測;(c)中間後面人臉因為遮掩物而無法偵測;(d)下面人臉因為光線不均勻而無法 偵測;(e)因為傾斜角度太大及照明問題而無法偵測。...38 圖 4.3 兩種取樣訓練之特徵人臉辨識率比較,(a)由上往下取樣;(b) 由下往上取樣。40

(9)

圖 4.5 AT&T ORL資料庫特徵人臉三個訓練樣本。 ...41 圖 4.6 AT&T ORL資料庫特徵人臉五個訓練樣本。 ...41 圖 4.7 (a)從AR資料庫任意取出 250 張人臉做實驗;(b)從生活照資料庫任意取出 250 張 人臉做實驗;(a)(b)的第一列到第十列分別代表每一個類別的人臉,每一類別有十張人 臉,其餘十五列共 150 張人臉代表未知人臉類別。 ...44 圖 4.8 (a)(b)訓練樣本分別代表AR資料庫每一類別的編號 1~2 人臉,和 10~9 人臉;(c) 訓練樣本代表未知人臉類別編號 1~50 人臉;(a)跟(b)差異在於明亮度,表情差異不大; (c)包含明亮度高與明亮度低的訓練樣本。... 45 圖 4.9 AR資料庫經過多尺寸視網膜正規化後得到的訓練樣本。...46 圖 4.10 (a)生活照資料庫的訓練樣本每一類別編號 1~4 人臉;(b)未知人臉類別的訓練樣 本編號 1~50 人臉;(a)(b)包含明亮度高與明亮度低的訓練樣本。...47 圖 4.11 生活照經過多尺寸視網膜正規化後得到的訓練樣本。 ...48 圖 4.12 多尺寸視網膜正規化辨識成功的例子,最左邊是原始人臉,左二是經過正規化 的人臉,右二是稀疏編碼重建的人臉,最右邊是最靠近類別的人臉。 ...49 圖 4.13 多尺寸視網膜正規化辨識失敗的例子,最左邊是原始人臉,左二是經過正規化 的人臉,右二是稀疏編碼重建的人臉,最右邊是最靠近類別的人臉。 ...49 圖 4.14 (a)八種明亮度處理演算法之辨識率曲線比較圖;(b)最左邊對應的是Original為原 始人臉,最右邊對應的是SF為可導引濾波器處理後的人臉,由左而右分別是SSR,MSR, ASSR,HOMOF,SSSQI,MSSQI和DCT。... 50 圖 4.15 兩種取樣訓練之可導引濾波器(SF)與多尺寸視網膜(MSR)辨識率曲線比較圖,(a) 由上往下取樣;(b) 由下往上取樣。 ...52 圖 4.16 可導引濾波器辨識失敗的例子,最左邊是原始人臉,左二是經過正規化的人臉, 右二是稀疏編碼重建的人臉,最右邊是最靠近類別的人臉。 ...53 圖 4.17 可導引濾波器辨識成功的例子,最左邊是原始人臉,左二是經過正規化的人臉, 右二是稀疏編碼重建的人臉,最右邊是最靠近類別的人臉。 ...53 圖 4.18 生活照經過可導引濾波器正規化後的訓練樣本。 ...54 圖 4.19 AR資料庫經過可導引濾波器正規化後的訓練樣本。...55 圖 4.20 生活照片之人物分類系統說明,(a)人臉偵測結果,(b)擷取的人臉外形,(c)主動 式外觀模型正規化的人臉,(d)最右邊人臉是男生錯誤的分類結果,(e)最右邊人臉是女生 正確的分類結果,(f)取自資料庫的人臉當做辨識結果。 ...58

(10)

錄

表 4.1 生活照片人臉偵測結果分析。 ...37 表 4.2 由上往下取樣訓練之特徵人臉辨識率在AT&T ORL資料庫跟生活照片的比較。 ... 39 表 4.3 由下往上取樣訓練之特徵人臉辨識率在AT&T ORL資料庫跟生活照片的比較。 ... 40 表 4.4 由上往下取樣訓練之稀疏編碼辨識率在AR資料庫跟生活照片的比較。...42 表 4.5 由下往上取樣訓練之稀疏編碼辨識率在AR資料庫跟生活照片的比較。...42 表 4.6 由上往下取樣訓練之可導引濾波器正規化後的辨識率在AR資料庫跟生活照片的 比較。 ...51 表 4.7 由下往上取樣訓練之可導引濾波器正規化後的辨識率在AR資料庫跟生活照片的 比較。 ...51 表 4.8 人臉解析度之辨識率比較。 ...56 表 4.9 生活照片人臉辨識結果分析。 ...57

(11)

第一章 緒論

本論文研究之動機,主要是想以圖找圖,用已知圖形尋找相似圖形,以市面上產品 應用狀況來看,數位相框之生活照人物分類,或搜尋及播放相同人物的生活照,都是一 個可以著力的地方,只要分類正確,接下來的操作功能就可以依照使用者的需求來達成。 人臉辨識是人類與生俱有的能力,透過眼睛擷取清晰的人臉畫面,經由大腦訓練記 憶,爾後再從記憶資料區塊找出匹配的人臉,完成辨識。人腦辨識需要記憶,電腦視覺 辨識更是需要,所以本系統也必須在辨識前先經過訓練和記憶的程序。 生活照之人臉辨識和照片分類,必須先建立資料庫(圖 1.1),以提供辨識系統的訓練 樣本,首先偵測生活照片人臉的位置,經過人臉擷取正規化,以手動方式分類每個人物 的人臉照片。接下來才是人臉辨識工作(圖 1.2),也是先找出測試生活照片裡面的所有人 臉,經過人臉正規化跟特徵抽取,進一步比對出最接近資料庫的哪一個人臉,最後就可 以記錄資料庫每個人物出現在哪幾張生活照片裡。 訓練之 生活照 人臉位置偵測 人臉擷取正規化 手動分類 資料庫 圖 1.1 人臉資料庫建構圖。 測試之 生活照 人臉位置偵測 人臉擷取正規化 人臉辨識 (特徵比對) 特徵抽取 圖 1.2 人臉辨識系統架構圖。 測試生活照之人物分類結果 資料庫 特徵抽取

(12)

人臉位置偵測目前有統計模型法[1]、類神經網路法[2]、支持向量機分類法[3]、推昇 (boost)分類法[4]、眼睛偵測法[5]和膚色偵測法[6]等等方法。主要可分成模型基礎法和 膚色形狀基礎法兩大方法,代表性的有,S. Birchfield [7]提出橢圓追蹤法,使用梯度跟 膚色兩種特徵模型來偵測人臉位置。L. Wiskott 等四人[8]提出彈力束圖形配對法(Elastic Bunch Graph Matching,EBGM),透過眼睛、鼻子、嘴巴和輪廓由一系列小波成份組成, 可以計算人臉旋轉角度,正規化到正面人臉後再做人臉辨識。T. F. Cootes 等四人[9]提 出主動式形狀模型法,使用手動描繪特徵點形成分佈模型來當作訓練樣本,當待測樣本 如手掌形狀改變或人臉旋轉角度改變,特徵點仍然可以掌握待測樣本主要的形狀特徵。 之後,T. F. Cootes 等三人[10]提出主動式外觀模型(active appearance model)演算法,包 含形狀統計模型以及人臉的灰階外觀,疊代計算訓練樣本跟合成影像之間的殘餘值 (residual errors)直到最小值,即可得到良好的人臉外形定位效果。D. Maio 和 D. Maltoni 兩人[11]發表粗略跟精細兩階段統計偵測人臉位置。H. S. Lee 和 D. Kim 兩人[12]發表膚 色跟臉形兩種分別偵測和追蹤人臉的方法。M. N. Francesc 等三人[13]提出一個費雪彩色 空間(Fisher color space),即便是光線產生變化,使用線性識別分析法也能夠將目標物跟 背景分離。Y. Tong 等四人[14]結合賈柏小波(Gabor wavelets)跟灰階值特徵,使用切換式 猜測量測模型來估測人臉 3D 立體旋轉角度,以達到人臉偵測及追蹤效果。J. Tu,H. Tao 和 T. Huang 兩人[15]使用人臉 3D 立體模型追蹤來模擬個人電腦裡面屬於人機介面的滑 鼠,追蹤人臉位置來移動滑鼠位置,偵測嘴巴的形狀來實現滑鼠的打開、關閉和拖曳等 功能。M. Kim 等四個人[16]在追蹤人臉上,使用一些視覺限制條件達成適應性外觀追蹤 法,最後使用隱藏式馬可夫模型(hidden Markov model)來辨識人臉。Zheng 和 S. M. Bhandarkar 兩人[17]結合適應性粒子群演算法跟適應性推昇分類法(AdaBoost)[1]來偵測 及追蹤人臉。M. Balasubramanian 等三人[18]先使用膚色偵測法找出人臉位置,再透過輻 狀基底類神經網路找出精確的眼睛跟嘴巴位置。

人臉辨識目前有統計法[19]、人臉子空間辨識法[20]、外觀基底辨識法[21]、3D 立體 辨識法[22][23]和稀疏編碼(sparse coding)[24][25]等辨識方法。P. N. Belhumeur 等三人[26] 提出費雪人臉(Fisherfaces),使用費雪線性鑑別分析法來辨識人臉類別,費雪人臉錯誤率

(13)

比特徵人臉(eigenfaces)小。A. R. Chowdhury 等四人[22]透過一連串人臉影像,只要使用 一般模型,並採用馬可夫鏈蒙地卡羅法(Markov chain Monte Carlo)取樣機制最佳化,就 可以重建 3D 立體人臉,以進行不同角度的人臉辨識。S. Baker 和 T. Kanade 兩人[27]提 出新的超解析度演算法,將低解析度影像重建為高解析度影像,這有助於人臉偵測及辨 識,特別適用於一般解析度不高的監視系統。X. Liu 等三人[28]提出特徵空間(eigenspace) 之人臉訓練樣本是由一群衰變參數來控制,以選擇多一點的新樣本和少部份的舊樣本進 行訓練,再做人臉辨識。G. Shakhnarovich 等三人[29]使用近期積分(late integration)策略 和早期積分(early integration)策略,以及相互子空間(mutual subspace)法來處理長時間所 觀察到的同一個人臉資料,之後使用庫爾貝克-萊伯勒差異(Kullback-Leibler divergence) 法來衡量待測人臉跟哪一個已知類別比較相似。W. Y. Zhao 和 R. Chellappa 兩人[30]提 出遮光人臉的源頭遮光(source-from-shading)新處理法,因為是對稱人臉,所以可以使用 自比例(self-ratio)影像法來處理陰影問題,最後合成影像從密度資訊得到的每一個點都存 在著唯一整體解,而且還是唯一局部解。Y. Li 等三人[31]使用核心鑑別分析(kernel discriminant analysis)法來辨識不同角度人臉,將高維度特徵空間投影到等效面,然後就 可以採用線性鑑別分析法來處理這個非線性辨識問題,目的就是將同一類別的距離拉得 更近,不同類別的距離拉得更遠。Y. Zhang 和 A. M. Martinez 兩人[19]提出權重統計法 來辨識人臉,將每張人臉切割成 K 個小圓形做特徵抽取,仍然可以辨識墨鏡或圍巾等遮 掩物的干擾。N. Vaswani 和 R. Chellappa 兩人[32]提出新的主成份零空間(null space)分析 法進行分類,計算所有類別之同類別變異量,取最小值之類別視為零空間,也就是趨近 零空間的意思,可應用於人臉分類。J. Wright 等五人[24]提出稀疏編碼來處理正面人臉 部份被遮掩的辨識問題,使用l -norm 最小化讓訓練人臉線性地與稀疏誤差值相加,得 到的就是遭受遮掩後的重建人臉。 1 人臉光線不均勻的處理方式大致上有濾波器法[33][34]、流型模型(manifold model) 統計法[35][36][37]和 3D 立體模型法[23][38]。 W. T. Freeman 和 J. B. Tenenbaum 兩人[39] 提出雙線性模型學習法來解決色彩明亮度跟未知外形兩大問題。Y. Adini 等三人[40]提 出類似賈柏小波濾波器讓人臉光線均勻化。D. W. Jacobs 等三人[41]使用 Hessian 矩陣找

(14)

出來自相同人物的兩張人臉梯度比值,來判斷是否屬於同一類別。M. Savvides 等三人[42] 提出 Corefaces 進行人臉辨識,使用相關濾波器(correlation filter)降低光線不均勻問題, 再使用主成份分析法做人臉分類。S. Du 和 R. Ward 兩人[33]使用小波濾波器正規化每個 人臉,光線均勻正規化後再做人臉辨識。T. Ojala 等三人[34]提出局部二位元圖樣(local binary patterns)抽取紋理特徵,不需複雜計算,然後使用多重解析分析法(multiresolution analysis)做人臉分類。X. Tan 和 B. Triggs 兩人[43]提出局部三位元圖樣(local ternary patterns),是由局部二元圖樣延伸而來的,使用局部距離轉換取代原來直方統計法,來 計算相似性距離以做人臉分類。A. S. Georghiades 等三人[21]使用三張固定角度的訓練樣 本,以及反照率來重建光線均勻的人臉,然後再採用生成模型(generative models)估計聯 合概率分佈,即可進行良好的人臉辨識。T. Vetter 和 T. Poggio 兩人[44]提出一張 2D 平 面人臉樣本就可以重建 3D 立體人臉,條件為使用 49 個同一類別的平面人臉做訓練。S. Malassiotis 和 M. G. Strintzis 兩人[45]提出人臉角度跟光線補償方法,利用對稱基底內插 法將人臉旋轉到正面位置,使用支持向量機回歸方程式計算近似的光線方向再做補償。 R. Gross 等三人[46]使用像素密度做為特徵,而提出特徵光場(eigen light-field)和費雪光 場(Fisher light-field),針對不同人臉角度跟明亮度進行辨識。O. Arandjelovic 和 R. Cipolla 兩人[35]提出的明亮度補償是結合粗略的直方圖統計校正法跟精細的流型模型(manifold model)法,分解每一個外觀,輸入高斯姿態分類器來判斷人臉角度,再將人臉正規化到 正面角度進行人臉辨識。O. Arandjelovic 等五人[36]提出流型密度相異值(manifold density divergence)辨識方法,就是透過統計方程式將這個差異值最小化。O. Arandjelovic 和 R. Cipolla 兩人[37]使用三個高斯姿態分類器並結合相似度統計分析法來判斷人臉角 度,運用區域射線強度(gamma intensity)稍微補償了明亮度的變化,更精細的補償就是 結合已學習之明亮度變化的線性流型,以及人臉樣本分佈的限制條件來完成明亮度正規 化。V. Blanz 和 T. Vetter 兩人[38]提出只要單一張 2D 平面人臉影像,經過 3D 立體形變 模型(morphable model)訓練,調整外形和紋理,即可重建出 3D 立體人臉,接下來可以 把待測人臉旋轉到一個固定正面角度,再做辨識。D. Jiang 等六人[23]提出只要單一張 2D 平面人臉,即可有效率地結合 3D 立體模型,透過主成份分析法,壓縮 3D 立體模型

(15)

的外觀,合成後的人臉可以應付姿態角度、明亮度和表情(PIE)這三個大幅度變化的辨識 問題。 本論文章節架構安排如下,第二章介紹論文使用到的相關技術和方法,包括人臉位 置偵測[6]、人臉正規化[9][10][47][48][49]以及人臉辨識[50][24][25]。第三章則說明我們 改善後的辨識系統。第四章呈現實驗結果與分析。最後第五章做一個總結以及後續研究 的方向與建議。

(16)

第二章 相關知識及理論

人臉辨識首要工作就是擷取人臉的部位,本論文採用膚色偵測法[6]縮小搜尋的範 圍,透過賈柏小波[52]抽取特徵,再結合類神經網路訓練[2],以判斷搜尋的區域是否符 合人臉的條件。儘可能把所有人臉的位置找出來,對於後續的人臉辨識是有幫助的。 人臉正規化(normalize)是對於訓練樣本和測試樣本有三種一致性處理,包含定位、 尺寸縮放和明亮度[48][49][51]三種做法。其中定位[9][10][47]處理通常都是以雙眼為參 考點的,譬如主動式形狀模型(active shape model,ASM)演算法[9]或眼部偵測法[5],更 重要的是人臉尺寸縮放後,雙眼的距離仍然維持固定值。此外,生活照的光源本來就是 一個不可控制的場域,舉凡室內、室外、晴天、烏雲或光源照射的角度都是影響的因素, 所以明亮度一致性也是必備的處理程序。

最後工作才是人臉辨識,Turk-Pentland 在 1991 年提出特徵人臉(eigenfaces)[50],在 人臉辨識上貢獻,就是利用主成分分析法(principal component analysis,PCA)計算一組 基底人臉的線性組合,重建人臉可以透過每個不同權重的特徵人臉加總起來,並有效地 將影像維度降低,不過,辨識率會隨著人臉表情的變化、髮型改變、角度不同、眼鏡或 圍巾遮掩物等因素而降低。 另外賈柏小波(Gabor wavelets)[52][53]在人臉辨識上貢獻,在於賈柏小波使用二維特 徵抽取,並結合類神經網路(neural networks)計算神經元的權重,進行人臉分類。通常, 賈柏小波的二維特徵向量取自五種尺寸、八個方向,來保留人臉像素前後左右的關係, 而重建人臉必須仰賴足夠多的特徵向量才不會大量失真,因此特徵維度很高,計算量也 比較大。為了降低特徵維度以及處理特徵向量最佳化,稀疏表述(sparse representation)[54] 提供了一個降低特徵維度的方法,針對人臉遭受 50%遮掩物,仍然有 87%的辨識率。

稀疏表述或稀疏編碼(sparse coding)[24][25]在辨識上貢獻,就是利用 -norm 最小 化,讓重建後影像的每個像素點跟原影像的誤差達到最小值,對於所屬訓練類別誤差最 小化,但是也盡量拉開跟其他類別的距離,這樣即使受到光線或遮掩物等干擾,辨識率 也不會快速下降[25],所以計算測試人臉在訓練類別上的每一組係數向量,就顯得很重

1

(17)

要了。此演算法目前在辨識正面人臉、表情些微變化或是明亮度微幅改變都有不錯的辨 識率,只不過還有一些限制條件,就是無法精準辨識非正面人臉,尤其是大角度的改變, 因為訓練樣本並沒有建構三維的人臉資料[24]。 本章節架構安排如下,2.1 節描述人臉位置偵測。2.2 節說明人臉正規化方法,包括 人臉定位、尺寸縮放以及濾波器正規化處理光線明亮度的方法。最後 2.3 節闡述人臉辨 識演算法。

2.1 人臉位置偵測

圖 2.1 是一張很典型的生活照,拍照的時候,有些人站在前面,有些人站在後面, 光線明暗度不一樣,雖然人臉傾斜一個角度,但還是屬於可辨識的範圍。本系統採用膚 色偵測方法[6]縮小人臉掃描範圍,使用類神經網路訓練人臉跟非人臉樣本,透過賈柏小 波[52]抽取特徵,找到人臉位置,如圖 2.1(a)長方形框起來的位置,主要有八個人臉,長 寬 像 素 都 不 一 樣 , 圖 2.1(b) 是 使 用 主 動 式 外 觀 模 型 (active appearance model , AAM)[9][10][47]擷取人臉外形,圖 2.1(c)也是使用主動式外觀模型將人臉旋轉及尺寸縮 放到相同比例,最右邊人臉是一個比較不理想的正規化,因為包括了背景雜訊。

2.1.1 膚色位置偵測

要在彩色生活照片尋找人臉,通常需要依序掃描每一個位置,檢查不同尺寸大小的 區域是否符合人臉條件,這樣的運算是相當耗時的,如果可以去除非膚色區域以減少運 算時間,將可增加搜尋速度。膚色特徵隨著光線照射角度、相機參數、人種和身體不同 位置而有不同的特性,所以選擇合適的膚色彩色空間才能分類好膚色跟非膚色區域。 RGB 用於數位影像的色彩空間,分別代表紅色、綠色和藍色,為了減少明亮度不 均勻還有不同人種等因素,通常會把RGB 正規化為R+G+B =1,具有低變化的特性, 有助於膚色偵測[6]。

(18)

(a) (b) (c) 圖 2.1 典型生活照,(a)偵測人臉位置;(b)擷取人臉外形;(c)人臉正規化。 R BC YC 是一個正交的色彩空間,分別表示流明、藍色色度和紅色色度,因為亮度被 獨立出來,也很適合膚色偵測[6],以下是RGB 轉換為YCBCR的式子, ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ + ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − − − − = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ 128 128 16 071 . 0 368 . 0 439 . 0 439 . 0 291 . 0 148 . 0 098 . 0 504 . 0 257 . 0 B G R C C Y R B , (2.1.1) 式子(2.1)的 R 、GB 三個數值都是從 0 到 255 的正整數。 HSV 偏向於人眼直觀的色彩空間,分別表示色相、飽和度和明度,色相可取 0 到 1 代表不同顏色的數值;飽和度數值越高表示顏色越純,數值越低表示逐漸變灰;明度數 值越高表示亮度越高。因為亮度被抽離出來,也適合膚色偵測[6],以下是RGB 轉換為

(19)

HSV 的公式,

(

) (

)

[

]

(

) (

)(

)

⎟⎟ ⎞ ⎜ ⎜ ⎝ ⎛ − − + − − + − = B G B R G R B R G R H 2 1 5 . 0 arccos , (2.1.2) ⎪ ⎩ ⎪ ⎨ ⎧ > ° − ≤ ° = G B H G B H H 若 若 , 360 1 , 360 1 1 , (2.1.3)

(

)

(

)

(

)

(

)

⎪⎩ ⎪ ⎨ ⎧ ≠ − = = 0 , , max , , , max , , min 1 0 , , max , 0 B G R B G R B G R B G R S 若 , (2.1.4)

(

)

255 , , max R G B V = , (2.1.5)

其中 arccos 表示反餘弦運算,max 表示取最大值的運算,min 表示取最小值的運算。 膚色跟非膚色的分類有很多方法[6],本論文使用邊界範圍來構成人臉膚色範圍,分 別是,105 ≤CR ≤ 200,105 ≤CB ≤210,0.01≤ H ≤0.1。膚色範圍比較大的缺點是輸 入影像的膚色面積隨之加大,造成搜尋人臉的時間也增加了,但優點是比較不容易遺漏 人臉偵測的位置,對於後段的人臉辨識是有幫助的。

2.1.2 人臉特徵抽取

二維的賈柏小波在訊號處理這塊領域受到廣泛的應用,兼具時域跟頻域的良好特 徵,也經常應用於人臉特徵抽取[53],式子表示如下, ) 2 exp( )] 2 exp( ) [exp( ) ( 2 2 2 , 2 , 2 2 , , σ σ σ z k z k j k z sd sd sd d s r r r r r r = ⋅ Ψ (2.1.6) 其中zr =(x,y),krs,d =ksexp( jθd), s s f k k = max θ π 8 d d = ,θd ∈[0,π)是屬於二維空間 的八個方向, 是最大頻率值, 是賈伯濾波器在頻域的間隔係數, 是控制賈伯濾 波器的尺寸,d是控制賈伯濾波器的方向, 是為了讓不同空間頻率的濾波器有大致相 等的能量, max k f s s k σ 是決定高斯窗(Gaussian window)的寬度和波向量的比例。

(20)

本論文採用五種尺寸(kmax =π , f = 2,s∈0,...,4)、八個方向(d∈0,...,7),以及 π σ = 的賈柏濾波器。一張二維的影像使用賈柏小波來抽取特徵的方法,就是執行旋積 (convolution)運算, ) ( ) ( , , z I z Guv sd r r = Ψ , (2.1.7) 其中 I 表示輸入的二維影像, s,d(z) r Ψ 可以從式子(2.1.6)得到的賈伯濾波器。

2.1.3 類神經網路

類神經網路有許多相互連結的處理單元,如同人類大腦的神經元,透過樣本的訓練 來展現學習、回想和歸類推演的能力,在處理圖形識別、資料分類和最佳化都有不錯的 效果。 本論文採用倒傳遞類神經網路,是屬於監督式的前饋(feed forward)類神經網路,網 路的所有神經元只有單一方向的向前傳遞,無向後傳遞或側向傳遞。倒傳遞類神經網路 的架構屬於多層感知器(multi layer perceptron),搭配誤差倒傳遞演算法(error back propagation)來訓練人臉跟非人臉樣本,以處理非線性的分類問題。 一般類神經網路可分為三層,如圖 2.2,輸入層表示輸入項,隱藏層的層數可以從 問題的複雜程度由一層增加到數層,輸出層表示輸出項,其中隱藏層函數為雙彎曲正切 函數 h h e e 2 2 1 1 − − + − ,輸出層函數為雙彎曲函數 h e− + 1 1 ,h=1﹐…﹐N 。 倒傳遞演算法的學習法則可分為正向傳遞跟反向傳遞兩種,在正向傳遞過程,輸入 訊號從輸入層到隱藏層經過雙彎曲正切函數運算,再傳向輸出層的雙彎曲函數運算,才 有輸出值,每一層神經元只影響下一層神經元的結果,若輸出層的輸出向量與目標向量 (標準答案)兩者誤差值過大的時候,則兩者的差異轉為反向傳遞,將誤差訊號沿著原來 的網路通道回傳,藉此修改每一層神經元的權重值,減小誤差值,再重新輸入訊號,如 此不斷地運算直到誤差值達到容忍的誤差範圍而停止運算。倒傳遞類神經網路雖然可以 處理非線性分類問題,但是學習結果還是會受到許多參數的影響,譬如隱藏層神經元的 數目和神經元非線性函數的選擇等等,通常需要透過幾次的試誤法來決定適當的參數。

(21)

圖 2.2 人臉與非人臉分類之類神經網路架構圖。

2.2

,以下兩個小 章節將分別說明如何利用主動式外觀模型和濾波器來達到正規化目的。 年 條由 個控制點組成得連續封閉曲線做為 snake 模型,然後用一個能量函數做為匹配程 輸入層 隱藏層 輸出層

人臉正規化

人臉正規化主要包含三個處理程序: 定位、尺寸縮放和明亮度一致化

2.2.1 主動式外觀模型演算法

先知道人臉位置,接下來就是把人臉外形擷取下來,使用主動式外觀模型(active appearance model,AAM)[10][47]可達到這個目的。主動式外觀模型的想法一開始來自於 1987 Kass 等人提出的 snake 方法,主要應用於邊界檢定與圖像切割,該方法使用一 n

(22)

度的評量函數,首先將模型設定在待測物預估位置的周圍,透過不斷疊代運算使能量函 數最小化,當內外能量達到平衡時即得到待測物的邊界與特徵。1989 年 Yuille 等人提出 使用參數化的可變形模板來代替 snake 模型,這也是主動型外觀模型的理論基礎。1995 年 Cootes 等人提出主動式形狀模型(active shape model,ASM)演算法[9],這是一個可以 定位和調整人臉大小的方法,首先準備訓練樣本,以手動方式描繪出人臉的形狀,也就

n個控制點,經過主成分分析法(principal component analysis,PCA)訓練後,自動調整

控制點,以找尋待測物可能的或符合的形狀,除此之外,主動式形狀模型也會考慮到人 臉灰階值而調整形狀的控制點,以便找出人臉正確的位置,尤其是眼睛部位。主動式形 共有 個形狀,訓練步驟描述如下: 這三個參數: 位置、尺寸縮放和旋轉角度。 算出合成模型跟待測物的最短距離,最後這個合成模型 的人臉形狀。主動式外觀模型演算法的步驟描述如下: N 狀模型演算法[9]的訓練樣本裡總

主動式形狀模型演算法

步驟一

旋轉角度、尺寸縮放和變換每一個形狀,來對齊第一個形狀。

步驟二

每一個形狀對齊後,計算全部形狀的平均形狀(mean shape)。

步驟三

正規化平均形狀的三個參數: 位置、尺寸縮放和旋轉角度。

步驟四

所有形狀重新對齊平均形狀,再調整

步驟五

回到步驟二,直到收斂條件成立。

步驟六

不斷計算合成模型,計 就是待測物最佳的人臉形狀。 1998 年 Cootes 等人在主動式形狀模型演算法基礎上提出主動式外觀模型[10][47], 除了利用待測物形狀(shape)資訊,也包含紋理(texture)資訊。主動式外觀模型利用主成 分分析法訓練樣本與平均形狀的形狀模型,訓練所有樣本的形狀因變形而更接近主要形 狀(main shape),將每個灰階點轉成向量,並計算出訓練樣本灰階向量跟平均外觀 (appearance)的變異量,主要有這三個參數: 位置、尺寸縮放和旋轉角度,在搜尋階段調 整此三個參數值,以便找出最佳

主動式外觀模型演算法

(23)

步驟一

計算灰階誤差向量ΔI,目標就是讓 盡量地小,使用待測物灰階向量 減 掉目前模型參數 的灰階向量 而得 2 | |ΔI Ii c Im Δ , I m i I I I = − Δ . (2.2.1)

步驟二

計算模型參數變異量Δc,因模型參數有很多個參數,這是一個高維度最佳化 問題,為了節省運算時間,實際上使用逼近法來求得最佳解,透過灰階誤差向量 IΔ 以 及矩陣A即可,而矩陣A是使用多重多變數線性回歸法計算已知樣本模型得來的, I A c= Δ Δ . (2.2.2)

步驟三

計算新的模型參數c,先給定一個外觀模型參數初始值 ,包含形狀跟灰階資 訊,由參數變異量 0 c c Δ 替換後得到新的模型參數c, 0 c c c=Δ + . (2.2.3)

步驟四

估算灰階誤差向量Δg0,透過新的模型參數c先計算新的形狀控制x和灰階控 制 g ,才得到正規灰階向量g ;而m gs則是利用形狀控制x擷取待測樣本的灰階向量, 兩者相減即得灰階誤差向量Δg0m s g g g = − Δ 0 . (2.2.4)

步驟五

計算目前的灰階誤差純量值,目的就 模型置換函數 ,矩陣 是得到最小的能量函數E , 0 2 0 0 g | E = Δ . (2.2.5)

步驟六

估算 | c Δ A 是透過多重多變數線性回歸法計算已知樣本模 型得來的, 0 g A c = Δ Δ . (2.2.6) 參數初始值 ,包含形狀跟灰階資 訊,由參數變異量 令k =1執行下一步驟,

步驟七

計算新的模型參數c1,先給定一個外觀模型 c0 c Δ 替換後得到新的模型參數, c1 =c0 −kΔc. (2.2.7)

步驟八

估算新的灰階誤差向量Δg1,透過新的模型參數c1先計算出形狀控制x1和灰階

(24)

控制g1,才得到正規灰階向量 gm;而gs1則是利用形狀控制x擷取待測樣本的灰階向 量,兩者相減即得灰階誤差向量Δg1s g gm g = − Δ 1 1 . (2.2.8)

步驟九

若符合收斂條件 0 2 1| |Δg < E . 就接受新的模型參數c1;若收斂條件不成立,則更換參數k =1.5,k =0.5,k =0.25… [55][56] 的位置參數。

2.2

餘弦轉換(DCT)正規化 分別描述如下: Jo 輸入影 佈於 0 到 25 中 回到步驟七分別重新計算,直到尋找適當的模型參數c1為止。 主動式外觀模型演算法在應用上有兩個值得留意的問題是,如何決定初始模型參數 0 c ?新的模型參數c1如何能夠收斂得更好?關於這兩個問題,也是一個不錯的研究工作 0 c ;然而,本系統採取的是適應性人臉偵測位置為初始模型參數 法,

.2 光線明亮度正規化

生活照片受到不同光線角度的影響,人臉光線明暗度通常是不一致的,本系統採用 八種濾波器正規化演算法[48][49],分別是單尺寸視網膜(SSR)正規化、多尺寸視網膜 (MSR)正規化、適應性單尺寸視網膜(ASSR)正規化、同形濾波(HOMOF)正規化、單尺寸 自商影像(SSSQI)正規化、多尺寸自商影像(MSSQI)正規化、離散 和可導引濾波器(SF)正規化等八種演算

一.單尺寸視網膜正規化演算法

單尺寸視網膜正規化演算 ngle scale retinex normalization algorithm),是參考

bson[51]演算法, 像 f(x,y)正規化分 5 正整數,其 法(si =1﹐…﹐M xy= ﹐…﹐1 NM = N 為偶數,輸出影像RSSR(x,y,σ)計算如下, )) , , ( log( ) 01 . 0 log ) , , (x y σ ( ( , ) Z x y σ RSSR = f x y + − , (2.2.9) 其中,log表示對數函數運算,Z(x,y,σ)求解過程如下,先建立濾波器G(x,y,σ), sumG y M y,σ) p(−((M /x)2 +( /2− )2)/σ2 x G( , =ex 2 )/ , (2.2.10) , 計算正規化參數sumG

(25)

) ) / ) ) 2 / ( ) 2 / (( exp( ( 1 1 2 2 2

∑ ∑

= = − + − − = M x N y y M x M sumG σ , (2.2.11) 本系統取σ =15,再求解Z(x,y,σ)= f(x,y)*G(x,y,σ),符號*表示旋積(convolution) 運算,若Z(x,y,σ)某一個像素等於零,則令為 0.01,以免取對數函數運算得到負無窮 大值。最後輸出影像RSSR(x,y,σ)由小到大排序讓每一個像素值都不一樣,因為像素值 超過 255,所以再做一次正規化,讓所有像素分佈在 0 到 255 正整數。

二.多尺寸視網膜之正規化演算法

多尺寸視網膜之正規化演算法(multi scale retinex normalization algorithm),也是參考 Jobson[51]演算法,主要由上面單尺寸視網膜正規化演算法延伸而來,本系統多尺寸視 網膜的σ 取三個值[7 15 21],單尺寸視網膜的σ 只有一個值 15,所以稍微改寫輸出影 像,分別計算三次結果加總起來即可,輸出影像RMSR(x,y)計算如下,

= = 3 1 ) , , ( ) , ( i i SSR MSR x y R x y R σ , (2.2.12) 其中 由式子(2.2.9)直接帶入即可,最後輸出影像 由小到大排序讓每一個像 素值都不一樣,因為像素值超過 255,所以再做一次正規化,讓所有像素分佈在 0 到 255 正整數。 SSR R RMSR(x,y)

三.適應性單尺寸視網膜之正規化演算法

適應性單尺寸視網膜之正規化演算法(adaptive single scale retinex normalization

algorithm)[57],輸入影像 f(x,y)正規化分佈於 0 到 255 正整數,其中x=1﹐…﹐ M , =1﹐…﹐ ,輸出影像 計算如下, y N R(x,y) ) 1 ) , ( log( ) 1 ) , ( log( ) , (x y = f x y + − L x y + R n , (2.2.13) 其中, log 表示自然對數運算。 計算說明如下,令初始值 ,疊 代十次計算 , ) , (x y Ln Lo(x,y)= f(x,y) ) , (x y Ln W y x L y x Ln( , )= o( , )* , (2.2.14) 符號*表示旋積(convolution)運算,並取最大值Ln(x,y),W 計算方式敘述如後,

(26)

)) , ( ), , ( max( ) , (x y L x y L x y Ln = n o , (2.2.15) 更新Lo(x,y)值, ) , ( ) , (x y L x y Lo = n , (2.2.16) 疊代十次計算式子(2.2.14)~式子(2.2.16), 其中W 計算如下,符號× 表示乘積運算, β α × = W , (2.2.17) ))) 1 . 0 / ) ( exp( 1 . 0 /( 1 /( 1 τ0.5 τ α = + × −mean , (2.2.18) ) ))) 10 / ) ( exp( 10 /( ( 1 /( 1 + I × −mean I 0.5 = β , (2.2.19) 5 . 0 2 2 ) (Gx Gy I = + , (2.2.20) 而 上 面 式 子 (2.2.18) 裡 面 的 exp 表 示 指 數 運 算 , mean 表 示 平 均 值 運 算 , 係 數 ) 2 / sin(τ π τ = CLI ,先計算τCLI ,由輸入影像 裡面取一個區塊三乘三像素點做運 算,對中心點計算出八個差異絕對值的總和,所有區塊計算完畢再除以九做平均。我們 舉一個區塊三乘三範例,如圖 2.3 所示,中心點像素值 15,周圍八個像素值減掉中心值, 取 絕 對 值 再 加 總 起 來 為 379 , 除 以 九 得 到 平 均 值 ) , (x y f 11 . 42 = CLI τ , 而 1719 . 0 ) 2 / sin( =− = τ π τ CLI 。 圖 2.3 區塊三乘三像素值計算範例。 上面式子(2.2.20) 和 分別是計算 x 方向和 y 方向的梯度(gradient),我們舉出一 個梯度 範例,如圖 2.4(a)是一個 為三乘三像素點範例,圖 2.4(b)是 往 x 方向位移兩個像素,圖 2.4(c)是 在 x 方向最右邊兩列像素為零,圖 2.4(d)得出梯 度 為圖 2.4 (b)減掉圖 2.4 (c),但只取中間列,不取第一列跟最後一列。 x G Gy x G f(x,y) ) , (x y ) , (x y f f x G 13 100 212 3 41 61 15 8 19

(27)

另外,我們再舉出一個梯度 範例,如圖 2.5(a)是一個 為三乘三像素點範 例,圖 2.5(b)是 往 y 方向位移兩個像素,圖 2.5(c)是 在 y 方向最右邊兩列 像素為零,圖 2.5(d)得出梯度為圖 2.5(b)減掉圖 2.5(c),但只取中間列,不取第一列跟最 後一列。 y G f(x,y) ) , (x y f ) , (x y f 最後輸出影像 由小到大排序讓每一個像素值都不一樣,因為像素值超過 255,所以再做一次正規化,讓所有像素分佈在 0 到 255 正整數。 ) , (x y R (a) (b) (c) (d) 圖 2.4 計算 x 方向梯度 範例,(a) 像素點;(b) 往 x 方向位移兩個像素; (c) 在 x 方向最右邊兩列像素為零;(d)梯度 為(b)減掉(c)。 x G f(x,y) f(x,y) x G ) , (x y f

四.同形濾波之正規化演算法

同形濾波之正規化演算法(homomorphic filtering normalization algorithm)[58],輸入影

f(x,y)正規化分佈於{0,1},其中x=1﹐…﹐M , y =1﹐…﹐ ,輸出影像 計算如下, N R(x,y) ))) ( ( exp( ) , (x y real IFFT F H R = × , (2.2.21) 8 15 13 100 212 3 41 61 19 13 100 212 3 41 15 61 8 19 0 0 0 0 0 0 13 100 212 3 41 15 61 8 19 0 0 0 0 0 0 28 -15 39 -5 -19 212 15 19 -212

(28)

(b) (c) (a) (d) 圖 2.5 計算 y 方向梯度 範例,(a) 像素點;(b) 往 y 方向位移兩個像素; (c) 在 y 方向最下面兩行像素為零;(d)梯度 為(b)減掉(c)。 y G f(x,y) f(x,y) y G ) , (x y f 其中, exp 表示指數運算, 表示只取複數裡面的實部,不取虛部,符號× 表示乘積 運算, real IFFT 表示二維反向傅立葉轉換(inverse FFT),FH 的計算說明如下,首先對 輸入影像做二維傅立葉轉換(FFT)

)) 01 . 0 ) , ( (log( + =FFT f x y F , (2.2.22) 其中, log 表示自然對數運算, FFT 表示二維傅立葉轉換, α α) 1/ / 1 1 ( − × + = HPF H , (2.2.23) 本系統取α =8,高通濾波器 HPF 由低通濾波器計算而來, LPF HPF = 1− , (2.2.24) 低通濾波器LPF 計算如下, )) ) / ) (( 1 /( 1 ( X2 Y2 0.5 CutOff 2n IFFTSHIFT LPF = + + , (2.2.25) 其中IFFTSHIFT 是二維反向傅立葉轉換位移運算,本系統取CutOff =0.12,n=2,X 8 15 13 100 212 3 41 61 19 8 15 13 100 212 3 41 61 19 0 0 0 0 0 0 8 100 212 61 3 15 13 41 19 0 0 0 0 0 0 48 -3 -15 -8 193 8 59 3 15

(29)

是二維矩陣拷貝N 個一維向量X 組合起來的,其中1 X 是一維向量具有1 1~M 個值平均 分佈在{-0.5,0.5};Y 是二維矩陣拷貝 M 個一維向量 1Y 組合起來的,其中Y 是一維向1 量具有 個值平均分佈在{-0.5,0.5}。最後輸出影像 由小到大排序讓每一個 像素值都不一樣,因為像素值超過 255,所以再做一次正規化,讓所有像素分佈在 0 到 255 正整數。 N ~ 1 R(x,y)

五.單尺寸自商影像之正規化演算法

單 尺 寸 自 商 影 像 之 正 規 化 演 算 法 (single scale self quotient image normalization

algorithm)[59],輸入影像 f( x,y)正規化分佈於 0 到 255 正整數,x=1﹐…﹐ M , = 1﹐…﹐ ,輸出影像 y R N SSSQI(x,y,σ,β)計算如下,本系統取高斯參數σ =1,區塊β =5, , ( /( ) , , (x y , )= f(x,y Z x y)+0.01) RSSSQI σ β , (2.2.26) ) , , , (x y σ β 若 RSSSQI 不是有限數值,則使用左邊像素值取代,因為計算過程是由左至右, 所以可以保證全部都是有限數值;其中Z(x, y)計算如下

∑ ∑

k h ) = = × = β β β 1 1 2 ) 1 ) G h Region y ( x,y,k,h) ) , h j , ( 1 k , ( x ( 5 Z Region , (2.2.27) 其中區域矩陣 表示在複製矩陣 裡面取一個區塊五乘五像素(因 為本系統取區塊 , , ,y k h x F( j ),k=1﹐…﹐ , =1﹐…﹐h = β β β , =1﹐…﹐ ,而複 製矩陣 就是先把二維影像 轉換成一維向量,再拷貝五次(區塊 N M × ) , (j h F f( x,y) β =5)形成 二維複製矩陣F( j,h);另外 G1 k( ,h)計算方式如下, G = ) G 2 ( 2 ) , ( 1 k h k SumG G , h)/ ) h , (2.2.28) ) h , ( 2 k G 如下式子取正規化, , ( , ( , ( 2 k h k Mask k G = × h), (2.2.29)

∑ ∑

= = β β 1 1 ) , 2 k h h k SumG = G2( 1 , (2.2.30) 而G(k, h)為高斯濾波器,本系統取σ = 的五乘五(β =5)矩陣

(30)

⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = 0030 . 0 0133 . 0 0219 . 0 0133 . 0 0030 . 0 0133 . 0 0596 . 0 0983 . 0 0596 . 0 0133 . 0 0219 . 0 0983 . 0 1621 . 0 0983 . 0 0219 . 0 0133 . 0 0596 . 0 0983 . 0 0596 . 0 0133 . 0 0030 . 0 0133 . 0 0219 . 0 0133 . 0 0030 . 0 G , (2.2.31) 遮罩矩陣 計算方式如下,先計算區域矩陣 裡面 25 個像素點 的平均值,若每個像素點大於等於這個平均值,則 標記為 1,否則為 0,遮 罩矩陣 計算範例可參考圖 2.6,圖 2.6(a)是在複製矩陣 裡面取一個區 域矩陣 ,計算所有像素的平均值為 27.8,比平均值大的地方標記為 1 而 得 到 圖 2.6(b) 遮 罩 矩 陣 ; 把 複 製 矩 陣 裡 面 所 有 區 域 矩 陣 計算完畢,由式子(2.2.27)得出 ,再由式子(2.2.26)推算輸出影像 ) , (k h Mask ) , (k h Mask , , (x y k Region ) , , ,y k h x ) , , ) , , , (x y k h Region ) , (k h Mask , ( j F ) , (j h F ) y ) h ) , h ) , (k h Mask ( , ( Region Z(x, β σ y x RSSSQI 。最後,輸出影像RSSSQI (x,y,σ,β)由小到大排序讓每一個像素值都不 一樣,因為像素值超過 255,所以再做一次正規化,讓所有像素分佈在 0 到 255 正整數。 (a) (b) 圖 2.6 五乘五遮罩矩陣計算範例,(a)先取一個五乘五區域矩陣;(b)計算後求得的遮罩矩 陣。

六.多尺寸自商影像之正規化演算法

多 尺 寸 自 商 影 像 之 正 規 化 演 算 法 (multi scale self quotient image normalization algorithm),主要由上面單尺寸自商影像(SSSQI)之正規化演算法延伸而來的,多尺寸自 17 15 14 13 12 1 100 212 3 41 15 61 7 8 19 0 18 9 20 23 9 3 42 8 25 0 0 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0

(31)

商影像(MSSSQI)有四組高斯參數σ =[1 1.2 1.4 1.6],分別對應四組區塊參數β =[3 5 11 15],單尺寸自商影像只有一組高斯參數σ =1,對應一組區塊參數β =5,所以稍微改 寫輸出影像,分別計算四次結果加總起來即可得到輸出影像RMSSQI (x,y),

= = 4 1 ) , , , ( ) , ( i i i SSSQI MSSQI x y R x y R σ β , (2.2.32) 最後,輸出影像 由小到大排序讓每一個像素值都不一樣,因為像素值超過 255,所以再做一次正規化,讓所有像素分佈在 0 到 255 正整數。 ) , (x y RMSSQI

七.離散餘弦轉換之正規化演算法

離 散 餘 弦 轉 換 之 正 規 化 演 算 法 (discrete cosine transform normalization

algorithm)[60],輸入影像 f(x,y)先進行自然對數運算 f(x,y)=log(f(x,y)+1) ) , (x y f ,其中, 每個像素加一的目的是避免自然對數計算後出現負無窮大值,然後 再正規化分 佈於 0 到 255 正整數,x=1﹐…﹐ M , y =1﹐…﹐N ,輸出影像R(x,y)計算如下, ) ( ) , (x y IDCT Df R = , (2.2.33) 其中 運算,表示二維反向離散餘弦轉換運算;先計算 f 二維離散餘弦轉換 運算(DC 算), IDCT T ) , (x y 的 運 )) , ( (f x y DCT Df = , (2.2.34) 經過二維離散餘弦轉換運算後得到 ,為了讓影像低頻非零係數排列在高頻係數之 前,於是使用 ZigZag(蜿蜒)排列(範例如圖 2.7),使得低頻非零係數排列在二維影像的左 上角,令 前 20 筆為零(不全然屬於低頻係數),由式子(2.2.33)再推算輸出影像 。最後,輸出影像 由小到大排序讓每一個像素值都不一樣,因為像素值 超過 255,所以再做一次正規化,讓所有像素分佈在 0 到 255 正整數。 Df Df ) , (x y R R(x,y)

八.可導引濾波器之正規化演算法

可導引濾波器之正規化演算法(steerable filter normalization algorithm)[61],輸入影像 先進行自然對數運算 ) , (x y f f(x,y)=log(f(x,y)+1),其中,每個像素加一的目的是避 免自然對數計算後出現負無窮大值,然後 f(x,y)再正規化分佈於 0 到 255 正整數,x

(32)

圖 2.7 六乘六矩陣之 ZigZag(蜿蜒)排列範例。 1﹐…﹐ 21 16 17 15 14 13 12 11 1 2 3 4 5 6 7 8 9 10 18 19 20 23 29 32 34 24 28 25 26 27 33 22 30 31 35 36 M , y =1﹐…﹐ ,輸出影像 計算如下, , (2.2.35) 其中,符號*表示旋積(convolution)運算,濾波器 計算如下 N R(x,y)

= 8 ( , )* ) , (x y f x y Gj R =1 j j G y j j G j G G =cos(( −1)π /8) x +sin(( −1)π /8) , (2.2.36) j 其 中 = 1 ﹐ … ﹐ 8 ,在 二 維 平 面{0,π} 取 八 等 份 , 由 原 先 高 斯 對 稱 方 式 , y x 程 ,經過一階微分 推導出下面兩個方向的基本濾波器 和 , (2.2.38) , (2.2.39) , (2.2.40) 其中 )) ( exp( ( x2 2 G = − y G , ) + y [61], Gx )) 2 /( ) ( exp( 2X X2 Y2 σ2 Gx =− − + , (2.2.37) )) 2 /( ) ( exp( 2Y X2 Y2 σ2 Gy =− − + ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − − − = 1 0 1 1 0 1 1 0 1 X ⎥⎦ ⎢⎣1 1 1 ⎥ ⎥ ⎤ ⎢ ⎢ ⎡− − − = 0 0 0 1 1 1 Y X 和 Y 分別是x 軸方向跟 y 軸方向的邊緣偵測,本系統取σ =0.5,透過式子(2.2.36)

(33)

則可計算出濾波器G ,再由式子j (2.2.35)推算出輸出影像 。最後,輸出影像 由小到大排序讓每一個像素值都不一樣,因為像素值超過 255,所以再做一次正規化, 讓所有像素分佈在 0 到 255 正整數。 ) , (x y R R(x,y) 1 l

2.3 人臉辨識

直覺上,稀疏編碼(sparse coding)[24][25][62]的參數求解就是以 -norm 來量測(計算 一個向量裡非零的個數),但這是一個非確定性多項式(NP-hard)問題,所以一般以 -norm 最小值逼近求解 -norm 最小值,成立條件是誤差值 足夠稀疏(sparse)[25],也就是讓 重建後影像的每個像素點跟原影像整體的誤差達到最小值。 0 l 0 l e 圖 2.8 舉例二十張訓練樣本(共十類),來說明稀疏編碼的作用,目的就是計算出訓練 樣本(圖 2.8(b))二十個係數的每一個係數(圖 2.8(c)),利用每一個係數乘上每一個訓練樣 本,線性組合加總起來,就得到重建人臉(圖 2.8(d))。稀疏編碼的係數向量計算就是使 用 -norm 最小化逼近求解,透過一張待測人臉跟二十張訓練人臉,得到二十個係數。 l1 通常稀疏編碼問題可表示如下, e Xα 22 ≤ 找出 min α 1 α , 使得 Y − , (2.3.1) 其中 Y 是一個已知訊號, X 表示資料庫編碼原子,α 表示編碼向量, 是一個常數 純量。從另外一個角度來看,方程式(2.3.1)裡的 0 > e Y 也可以表示標準答案, X 表示訓練樣 本,我們就是要去找到一組盡可能小的編碼向量α ,讓正數誤差值 也盡量地小。 e 找出 min α 22 α YX , 使得 α 1 ≤σ , (2.3.2) 上面式子(2.3.2)成立的條件是,殘餘值ε =YXα分佈型態就是高斯(Gaussian)分佈,而 最小平方估測(LSE)解其實就是相當於最大粗略估測(MLE)解,其中 是一個已被編碼的訊號, , 表示資料 庫行向量的第 n ℜ ∈ n y y y Y =[ 1; 2;...; ] X =[x1;x2;...;xm]∈ℜn×m xj j 個編碼原子,α 表示編碼向量,σ >0是一個常數純量。

(34)

(a) (d) (b) (c) 圖 2.8 (a)待測人臉;(b)訓練樣本;(c)稀疏編碼計算二十個係數;(d)重建後的人臉。 下面式子(2.3.3)成立的條件是,殘餘值ε =YXα 分佈型態就是拉氏(Laplacian)分 佈,而最小平方估測(LSE)解其實就是最大粗略估測(MLE)解

找出 min α 1 α YX , 使得 α 1 ≤σ , (2.3.3) 實際上,殘餘值ε 分佈型態既不是高斯分佈,也不是拉氏(Laplacian)分佈,特別是人 臉受到遮掩物或光線等干擾的時候,所以光是使用這三個式子(2.3.1) ~ (2.3.3),辨識率 還是不夠高的。 接下來改寫 X ,讓 ,目的就是將式子(2.3.3)改寫為式子 (2.3.4), 表示資料庫列向量的第 i 個編碼原子,而且 m n n d d d X =[ 1; 2;...; ]∈ℜ × i d ε =YXα =[ε1;ε2;...;εn],所以 每一個殘餘值ε 可表示為εi = yidiα ,i=1,2,...,n

(35)

找出 min 1ρθ( α) α i i n i yd

= , 使得 α 1 ≤σ , (2.3.4) 上面式子(2.3.4)裡的ρθ 是屬於ε1,ε2 ,…,εn 彼此獨立、分佈均勻的機率密度函數 (PDF),在此並不會直接求解,而是透過疊代運算找出越來越小的權重值ωθi),也就 是將式子(2.3.4)近似於下面式子(2.3.5), 找出 2, 使得 2 2 / 1 || ) ( || min α α W YX α 1 ≤σ , (2.3.5) 其中對角複製矩陣Wi,i =ωθ(ε0,i)=ρ'θ (ε0,i)/ε0,i,權重方程式選擇如下, ))) 1 / ( exp( 1 /( 1 ) (ε = + μδ ε2 δ − ωθ i i , (2.3.6)

= = n i i n 1 2 1 ε δ , (2.3.7) 其中μ 和δ 都是正數純量,取μ = c/δ =1/δ ,令c=1常數純量;上面式子(2.3.7)δ 取 所有殘餘值的平均值,當每個殘餘值都很接近δ ,ωθi)趨近於 0.5 表示稀疏編碼足夠 稀疏;當每個殘餘值遠大於δ ,ωθi)趨近於 0 表示權重的代表性不足;當每個殘餘值 遠小於δ ,ωθi)趨近於 0.7 也可以表示權重的代表性不足。 接下來說明式子(2.3.5)的由來,如下, 令 ( ) ( ) ( ),由第一階泰勒(Taylor)在 1 i n i X Y F Fθ ε = θ − α =

= ρθ ε ε0展開式得到的近似值為 ,其中 ) ( 1 ~ ε Fθ(ε)=Fθ0)+(ε −ε0)TF'θ0)+ℜ ℜ1(ε)是高階微分項,F'θ0)是Fθ(ε)對 ε 一 次 微 分 後 在 ε0 的 值 , 而 ρ'θ 是 ρθ 的 一 次 微 分 , 所 以 )] , 0 n F'θ (ε0)=[ρ'θ (ε0,1);ρ'θ (ε0,2);...;ρ'θ (ε ,其中ε0,i表示ε0的第 個元素。 i 稀疏編碼通常希望是一個任意兩點連線的集合,皆包含在原集合內的問題(strictly convex),所以高階微分項近似於 ,其中 為對角複製矩 陣,因為 ) ( ) ( 5 . 0 ) ( 0 0 1 ε = ε −ε ε −ε ℜ TW W i ε 跟εj彼此獨立,且無交叉變數,其中i≠ 。j Fθ(ε)在ε

=0

可以達到最小值

0

, 所以 (ε)在 ~ θ F ε

=0

也可以達到最小值

0

。而Wi,iθ0,i)=ρ'θ0,i)/ε0,i屬於正純量,因 為ρ'θ (εi)跟εi不是同時為正數,就是同時為負數。 W +b, 2 2 2 / 1 || ε F ≈ℜ1 ~ ( ) (ε θ ε)≈ 0.5||

(36)

其中純量b是由ε0決定的,且ε =YXα 代入後就得到式子(2.3.5)。 稀疏編碼在進行疊代演算法前,必須先決定第一個殘餘值 ,以及收斂條件。因 為一開始並不知道測試樣本是比較靠近哪一個類別,所以測試樣本值減掉平均訓練樣本 值就是第一個殘餘值,表示如下, ) 1 ( ε

= − = − = − yr(1) yj = n i i j j x n y y y 1 ) 0 ( ) 1 ( 1 ε , (2.3.8) 收斂條件除了達到最大疊代次數以外,也可以訂定權重變化量小於門檻值γ 就停止 疊代運算,表示如下, γ < − 2 ) 1 ( || || / ||W − − 2 W t ) 1 ( ) ( || t t W . (2.3.9)

(37)

第三章 人臉辨識系統

本系統定位為小型的人臉辨識系統,大約是十個類別,可應用於家庭生活照之分類 工作,或是搜尋特定成員的所有生活照。 本章節架構安排如下,3.1 節說明人臉位置偵測的方法。3.2 節提出本系統使用的正 規化濾波器。最後 3.3 節闡述人臉辨識使用的稀疏編碼(sparse coding)演算法。

3.1 人臉位置偵測方法

以下是人臉偵測演算法的步驟,可參考圖 3.1 的流程圖,

步驟一

計算彩色生活照的膚色位置。

步驟二

決定多重尺寸視窗搜尋點,使用已知的平均人臉與偵測到的膚色區域做旋 積運算,取區域內的極大值當做人臉搜尋的中心點。

步驟三

找出可能的人臉尺寸,由搜尋尺寸長寬20×20,每次增加 1.2 倍,直到搜 尋視窗超過膚色區域為止。

步驟四

在判斷人臉與非人臉之前,必須先手動建立人臉與非人臉資料庫當做訓練 樣本,使用賈柏小波抽取特徵,再透過倒傳遞類神經網路來訓練已分類好的人臉跟非人 臉兩個類別,調整權重讓人臉的目標輸出值為 1,非人臉的目標輸出值為-1,當隱藏層 的所有權重值能夠讓均方誤差值小於 4,即表示訓練結果趨於收斂。 10−

步驟五

當一張擷取後的影像經過特徵抽取後,輸入到已訓練好的倒傳遞類神經網 路,若輸出值越接近目標值 1 表示人臉的可能性越高,反之,若輸出值越接近目標值-1 表示非人臉的可能性越高。

步驟六

最後人臉的位置可能有好幾個不同尺寸或好幾個不同位置交錯在一起,所 以必須做合併的動作。當小尺寸的位置屬於大尺寸的一小部份,取輸出值比較大的當做 人臉位置及對應的尺寸;若兩個相同座標有不同尺寸的人臉,代表人臉可能性越高,可 以取尺寸的平均值當做新的人臉尺寸;若相似大小的人臉尺寸交疊在一起,可以使用區

(38)

域比較法,剃除輸出值比較小的人臉位置,留下輸出值最大的人臉位置為最後人臉偵測 結果。 生活照片輸入 圖 3.1 人臉位置偵測流程圖。 人臉搜尋點(藍色顯示) 膚色位置(黑色顯示) 類神經網路的人臉偵測 人臉搜尋的範圍 人臉偵測後的位置

(39)

3.1.1 多重尺寸視窗搜尋

利用上述的膚色偵測方法,在這個膚色區域內粗略地標記出可能的人臉位置,使用 事先算好的平均人臉(圖 3.2)與膚色區域做旋積運算,取區域內的極大值當做人臉搜尋的 中心點。由搜尋視窗長寬 ,每次增加 1.2 倍,直到搜尋視窗超過膚色區域為止。 我們的目標就是把所有人臉全部找出來,盡量降低錯誤偵測。 20 20× 圖 3.2 平均人臉。

3.1.2 訓練類神經網路

訓練類神經網路的流程,首先輸入灰階的訓練影像樣本,經過直方圖等化來增加影 像特徵的明顯程度;然後與賈伯濾波器做旋積運算,產生一組特徵輸入向量;經過降維 後再送進類神經網路做訓練。

本論文使用的影像訓練樣本來自於卡內基美隆大學(Carnegie Mellon university)機器 人協會所建立的 PIE 資料庫[63],此資料庫共有 68 個人、41,368 張人臉照片,包括 13 種拍攝角度(人臉姿態)、43 種不同明亮度的拍攝條件,以及 4 種不同表情。本論文任意 選取 PIE 資料庫中的 600 張人臉,包括 15 個人、5 種不同姿態和 8 種照明環境;另外任 意選取 AR 資料庫[64]中的 200 張人臉,包括 20 個正面姿態以及 10 種照明環境;在網 際網路任意選取 200 張亞洲東方人臉;所以共有 1,000 張人臉,再加上 2,000 張非人臉 樣本,總共 3,000 張影像做訓練。非人臉樣本是在網際網路任意選取無人臉的彩色生活 照,包括衣服、風景照、建築物等等樣本,經本系統擷取後做類神經網路訓練的,不選 取人臉部份五官(耳、眉、眼、鼻、口)當做非人臉樣本。 每張影像都使用賈伯小波抽取特徵向量為2430×1,中間隱藏層為一層共 35 個維 度,輸出值為一個純量,若輸出值越接近目標值 1 表示人臉的可能性越高,反之,若輸

(40)

出值越接近目標值-1 表示非人臉的可能性越高。當隱藏層的所有權重值能夠讓均方誤差 值小於 ,即表示訓練結果趨於收斂。讓類神經網路學習得更正確的做法,就是準備 正確的訓練樣本、足夠多的樣本數量以及樣本間的差異性越大越好。 4 10−

3.2 光線明亮度正規化濾波器

為了處理人臉受到光線不均勻照射而降低辨識率,本論文使用八種濾波器,分別測 試哪一種濾波器可以得到最好的辨識率,分別是單尺寸視網膜(SSR)之正規化演算法 [51]、多尺寸視網膜(MSR)之正規化演算法[51]、適應性單尺寸視網膜(ASSR)之正規化演 算法[57]、同形濾波(HOMOF)之正規化演算法[58]、單尺寸自商影像(SSSQI)之正規化演 算法[59]、多尺寸自商影像(MSSQI)之正規化演算法[59]、離散餘弦轉換(DCT)之正規化 演算法[60]和可導引濾波器(SF)之正規化演算法[61]共八種。 圖 3.3 最左邊的原始人臉是從 AR 資料庫[64]取出的一個人臉範例,光線主要從左臉 進來,不是從正面進來,尤其可以從圖 3.3 最左邊數過來第四個(ASSR 適應性單尺寸視 網膜正規化)跟第五個(HOMOF 同形濾波正規化)看出來,光線的確從左臉進來。 圖 3.3 最左邊是原始人臉,其他經過明亮度濾波器處理後的結果,由左而右分別是 SSR, MSR,ASSR,HOMOF,SSSQI,MSSQI,DCT 和 SF。

3.3 稀疏編碼權重更新疊代演算法

人臉辨識使用的稀疏編碼(sparse coding)權重更新疊代演算法,收斂條件除了達到最 大疊代次數以外,也可以訂定權重對角矩陣跟上一次的變化量相比較值,小於 5%就停 止疊代運算,表示如下, % 5 || || / || ||W(t) −W(t−1) 2 W(t−1) 2<γ = . (3.3.1)

(41)

為了降低 -ls[62]運算量,在式子(2.3.6) ,對 做 十等份平均統計,去除最大極端分佈值,只取剩餘九等份的權重做運算,如圖 3.4 最左 邊人臉圈圈部分表示選擇權重的位置點,標記為統計法 1;另外,去除頭尾兩個極端分 佈值,只取中間八等份的權重做運算,如圖 3.4 中間人臉圈圈部分表示選擇權重的位置 點,標記為統計法 2;而圖 3.4 最右邊人臉顯示,刪除權重位置點的條件是 , 權重數量遠比左邊兩個方式多,標記為門檻法。 1 l ωθi)=1/(1+exp(μδ(εi2/δ −1))) ωθ(εi ) 1 . 0 )< i ε ( ωθ 圖 3.5 是兩種權重選擇統計法在辨識率上面的比較,整體而言,統計法 2 的辨識率 比統計法 1 來得好,尤其是訓練樣本數目在四個以下,而測試條件是使用稀疏編碼加上 可導引濾波器正規化。統計法 2 可以減少稀疏編碼的權重數目為原來的 60%,除了降低 系統運算量,同時特徵向量仍然具有代表性。 接下來的實驗將會採用圖 3.4 中間的統計法 2 運算來刪除極端值,當每個殘餘值遠 大於δ ,ωθi)趨近於 0 表示權重的代表性不足,可以去除。當每個殘餘值遠小於δ , ) i (ε ωθ 趨近於 0.7 也可以表示權重的代表性不足,可以去除。若ωθi)趨近於 0.5 表示 殘餘值接近δ ,稀疏編碼足夠稀疏,這些權重就相當具有代表性了。 (a) (b) (c) 圖 3.4 選擇權重位置比較圖,(a)統計法 1;(b)統計法 2;(c)門檻法。 接下來,我們整理稀疏編碼權重更新疊代演算法,如下所示︰

稀疏編碼權重更新疊代演算法

參考文獻

相關文件

From the existence theorems of solution for variational relation prob- lems, we study equivalent forms of generalized Fan-Browder fixed point theorem, exis- tence theorems of

The purpose of this talk is to analyze new hybrid proximal point algorithms and solve the constrained minimization problem involving a convex functional in a uni- formly convex

Tekalp, “Frontal-View Face Detection and Facial Feature Extraction Using Color, Shape and Symmetry Based Cost Functions,” Pattern Recognition Letters, vol.. Fujibayashi,

Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp... Annealed

Wang, and Chun Hu (2005), “Analytic Hierarchy Process With Fuzzy Scoring in Evaluating Multidisciplinary R&amp;D Projects in China”, IEEE Transactions on Engineering management,

Soille, “Watershed in Digital Spaces: An Efficient Algorithm Based on Immersion Simulations,” IEEE Transactions on Pattern Analysis and Machine Intelligence,

Zhang, “A flexible new technique for camera calibration,” IEEE Tran- scations on Pattern Analysis and Machine Intelligence,

Lin, “Automatic Music Genre Classification Based on Modulation Spectral Analysis of Spectral and Cepstral Features”, IEEE Trans.. on