• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
59
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

結合特徵點與雙向辨識演算法的人臉辨識 技術

Face Recognition Technology Based on the Feature-Point and Bidirectional Recognition

Algorithm

系 所 別:資訊工程學系碩士班 學號姓名:M10002035 陳宣有 指導教授:黃雅軒 博士

中華民國 103 年 7 月

(2)

i

摘要

本論文提出一種權重式區域向量圖形(Weighted Local Vector Pattern, WLVP)的辨識模組和雙向辨識演算法(Bidirectional Recognition, BR)的人臉 辨識技術,藉由人臉上有明顯紋理且較具有鑑別性的特徵點,來提升整個辨 識系統的辨識效能。首先,利用能夠抗光影變化的局部向量 圖形(Local Vector Pattern ,LVP)針對人臉進行特徵擷取運算,再使用權重式相似度演算 法淘汰與輸入影像之人臉整體結構較不相似的人,接著再以雙向辨識演算法 從剩餘的候選人當中,根據特徵點的區塊紋理對應程度與彼此之間幾何結構 分布的關係,進而判斷出最後的辨識結果。我們將針對三套人臉資料庫 (Banca 人臉資料庫、Feret 人臉資料庫和 Yale 人臉資料庫)進行辨識運算與 效 能 驗 證 , 單 獨 使 用 WLVP 模 組 進 行 辨 識 所 得 到 的 辨 識 率 分 別 為 Banca:89.69%、Feret:90.44%和 Yale:90.64%,而加入雙向辨識(BR)演算法後,

所得到的辨識率分別為 Banca:99.98%、Feret:99.59%和 Yale:100%。這顯示 出本論文提出的雙向辨識(BR)演算法具有良好的局部性特徵辨識效能,當 再與 WLVP 辨識模組進行搭配時,則可達到高準確度的辨識效能。

關鍵詞:人臉辨識、特徵點、局部向量模式、雙向辨識

(3)

ii

Abstract

A Face Recognition Technology Based on Weighted Local Vector Pattern (WLVP) and Bidirectional Recognition Algorithm (BR) is proposed. The significant texture of feature points is used to enhance the recognition performance of recognition system.

First, Local Vector Pattern (LVP) is used to extract the face feature, and using weighted similarity algorithm to eliminate the person whose overall structure of face less the same with input image. Then, according to bidirectional recognition algorithm (BR), we can calculate the block matching score and the distribution with feature points to determine the final recognition result. We focused on three sets of face database (Banca face database, Feret face database and the Yale face database) for performance verification. The recognition rate that only accounting the WLVP recognition model in three sets of database are Banca: 89.69%, Feret: 90.44% and Yale: 90.64%. Both WLVP recognition model with Bidirectional Recognition algorithm (BR), the recognition rate are Banca: 99.98%, Feret: 99.59% and Yale:

100%. This shows that our recognition technology with the LVP weighted similarity algorithm and bidirectional recognition algorithm can achieve high accuracy of recognition performance.

Keywords: face recognition; feature point; Local Vector Pattern (LVP); Bidirectional

Recognition (BR)

(4)

iii

致謝

感謝指導教授 黃雅軒博士,在我的研究所生涯中給了我許多寶貴的建議。

在課業上常常用引導的方式,讓學生自主思考。每次報告論文的時候,邏輯上有 想不通的地方,老師都會很有耐心地指出並給予適當的解法。老師也讓我了解到 學術研究應有的態度與精神。老師也常常分享學生時代做研究時的一些心得,讓 我能夠從這些經驗談中學習,獲益匪淺。感謝實驗室的學長劉偉成、顏華慶、張 倞禕、許廷嘉、李允善、歐志鴻與陳冠豪在多方面的指導與幫助,還有感謝學長 莊順旭、陳禹仲與彭國達,在我研究的路途上有困難時,都會有耐心地、適時的 給予我意見和心得。另外特別感謝學長林啟賢,和我一起經歷了研究生活的酸甜 苦辣,即使再忙也會花時間解答我研究上的難題,也常常給予我許多關於研究上、

生活上的寶貴意見,實在是惠我良多。以及感謝學弟林子鶴、葉子軒、黃育甫與 陳偉倫的協助,讓我能更迅速的完成手邊的研究工作。最後感謝我可愛的家人與 朋友,感謝他們給我打氣與支持。也特別感謝我的父母,讓我在就學期間不用擔 憂生活的吃住問題,才能夠更專注地投入在自己的研究工作上。謹以此文獻給我 摯愛的親人朋友。

(5)

iv

目錄

摘要...i

Abstract...ii

致謝...iii

目錄...iv

表目錄...vi

圖目錄...viii

第一章 緒論...1

1.1 研究背景與動機...1

1.2 相關研究...2

1.3 論文架構...6

第二章 人臉辨識模組架構...7

第三章 影像前處理、特徵點偵測與匹配...8

3.1 影像前處理 A 與 B...8

3.1.1 前處理 A...8

3.1.2 前處理 B...10

3.2 特徵影像轉換與特徵點偵測...11

3.2.1 特徵影像轉換...11

3.2.1.1 SURF 特徵轉換...11

3.2.1.2 LBP 特徵轉換...12

3.2.2 特徵點偵測...13

3.2.2.1 SURF 特徵點偵測...13

3.2.2.2 LBP 特徵點偵測...14

3.3 特徵點匹配運算...16

(6)

v

第四章 第一階段辨識...19

4.1 區域向量圖形...19

4.2 權重式相似度計算...24

第五章 第二階段辨識...26

5.1 特徵點雙向辨識演算法...28

5.1.1 索引式幾何模型...31

5.1.2 最長幾何模型...32

5.1.3 全域性幾何模型...34

5.1.4 辨識分數整合...35

第六章 系統實驗與分析...36

6.1 Banca 人臉資料庫...36

6.2 Yale 人臉資料庫...37

6.3 Feret 人臉資料庫...37

6.4 實驗結果與分析...38

6.4.1 實驗一...39

6.4.2 實驗二...40

6.4.3 實驗三...41

6.4.4 實驗四...42

6.5 實驗總結...42

第七章 結論與未來展望...43

參考文獻...45

附錄 A...49

(7)

vi

表目錄

表 6-1 LVP 使用權重與 GDA 辨識實驗結果...40

表 6-2 雙向辨識模組中分別使用三種幾何模型結構的辨識率實驗結果...41

表 6-3 WLVP+BM 與其他方法的辨識率實驗結果...42

表 6-4 整體分數與區域分數的實驗結果...43

(8)

vii

圖目錄

圖 2-1、人臉辨識演算法流程圖...7

圖 3-1、影像前處理 A 比例示意圖...8

圖3-2、傾斜 𝜃 角之人臉影像...9

圖 3-3、經過正規化後之人臉影像...10

圖 3-4、人臉區域定義 B...10

圖 3-5、SURF 特徵轉換示意圖...12

圖 3-6、LBP 計算方法...13

圖 3-7、LBP 特徵影像...13

圖 3-8、三個影像尺度之 blob response map 範例...14

圖 3-9、p 點與周遭 16 個點之範例圖...14

圖 3-10、p 點與周遭 16 個點的比較結果...15

圖 3-11、統計圖 10 連續 T 個數的結果...15

圖 3-12、漢明距離範例...16

圖 3-13、人臉特徵點比對示意圖...17

圖 3-14、特徵點匹配示意圖...18

圖 4-1、 𝑉𝐵,𝐷(𝐺𝑐)與周圍鄰居的關係示意圖...20

圖 4-2、參考點與八個鄰居像素點...21

圖 4-3、16 種角度之 LVP 特徵影像...23

圖 4-4、臉部權重示意圖...24

圖 5-1、第二階段辨識架構的流程圖...26

圖 5-2、雙向辨識模組處理架構...27

圖 5-3、特徵點種類圖...28

圖 5-4、雙向辨識中(α, β) = (0°, 0°)角度配對的 LVP 特徵影像...29

(9)

viii

圖 5-5、特徵點匹配對應圖...30

圖 5-6、幾何模型示意圖...31

圖 5-7、索引式幾何模型的可能缺點範例...33

圖 5-8、最長幾何模型...33

圖 6-1、BANCA 人臉資料庫中 3 種不同環境下的影像...36

圖 6-2、Yale 資料庫部分影像...37

圖 6-3、Feret 資料庫部分影像...38

圖 A-1、鄰居𝐺7,𝑅的β方向之 LVP 編碼示意圖...49

(10)

1

第一章 緒論

1.1 研究背景與動機

我們可以追溯一下過去的時光,從早期資訊產業中的第一台超級電腦問世以 來,全球的科技技術進步速度一直都是處於非常迅速的階段。而我們所使用的認 證方式,有傳統的身分證以及金融業常用的金融晶片卡都使用了晶片技術,負責 儲存或記憶一些較為重要的個人資訊,當作用來辨識個人身份的重要依據,但是 若是遺失了這些貴重物品或是密碼不小心忘記或遺失,非常有可能會造成相當大 的錢財損失以及諸多的生活不便。為了改善這些狀況的發生,業界與學者紛紛提 出了所謂的生物識別技術,也就是利用人體身上獨特擁有的生物特徵(人臉五官、

虹膜以及指紋等)作為身分確認的重要依據,這些類別的生物特徵是與生俱有且 不易仿造又可以隨身攜帶的,這樣的特性將可以大幅降低遺失、損毀與被竊取的 狀況發生。因此,這種對於人體生物特徵辨識的研究也越來越多,而人臉辨識更 是其中被廣泛研究的重要研究方向。從早期的人工保安系統,隨著科技進步逐漸 傾向轉型為自動化的身分確認系統,學術界關於人臉辨識技術已經研究了數十年,

畢竟人臉辨識的應用層面甚廣,例如重要機構或地方的門禁系統、學生上課的自 動點名系統、公司上下班打卡簽到的辨識系統以及到最近非常流行的智慧型手機 都是使用人臉辨識技術很好的例子。除了上述所描述的例子外,在安全監控、嫌 犯追蹤等應用領域,許多政府機構也使用了人臉辨識技術來監控國家的安全,由 此可知人臉辨識技術將擁有很大的發展空間與其重要性。早期的電子產品使用人 臉辨識系統的有筆記型電腦,但隨著時間推進,慢慢演變成行動裝置,像是智慧 型手機,雖然攜帶方便,但是為了防止手機中重要敏感的訊息被他人窺見或竊取,

進而使用了人臉辨識技術達到手機隱私保護的效果。因此如何透過人臉辨識來達 到保護個人隱私或是達到監控安全,一直以來都是我們需要研究的重要課題,所 以本論文的研究希望能提升人臉辨識的技術效能,並且增進人臉辨識的準確率。

(11)

2

1.2 相關研究

近年以來,關於電腦視覺相關的研究越來越多,其中包含人臉辨識的技術也 越來越進步。不管是學者、業界甚至是ㄧ般民眾都認為人臉辨識的應用甚廣,但 是要如何準確且快速的辨識人臉是一個非常重要的議題,學者研究了多方面的人 臉辨識,為了就是要改進人臉辨識的精確度。一張人臉影像較常見到的問題,就 是辨識率經常會受到環境的光源影響,以及影像特徵的維度過高等問題。因此要 如何有效的使得辨識系統具有抗光源的特性以及如何讓特徵維度降低,是一個很 重要的議題。在人臉辨識領域中,學術 界常用的傳統方法有主成份分析法 (Principal Component Analysis, PCA)[1]、線性鑑別分析法(Linear Discriminant Analysis, LDA)[2] 以 及 正 交 局 部 保 持 投 影 法 (Orthogonal Local Preserving Projection, OLPP)[3]。PCA 是透過人臉影像找出共同存在的主要成分影像,也 就是要找到經過資料投影後,使得變異量相對較大的基底向量,再利用所找到的 這些主要成分影像來簡化原始影像的表達方式。LDA 則是另一種常見的演算法,

其作法是增加不同類別間特徵的差異性,並且同時降低同個類別中不同影像之間 的特徵差異性,藉此將可提升辨識的準確率。OLPP 所建立出的特徵空間基底,

具有彼此正交的性質,更完整的保持住原始資料的多方面結構性。除了上述所說 的線性降維技術以外,另外還有一些屬於非線性的降維演算法,例如基於核 (Kernel)[4][5] 的 方 法 或 是 局 部 線 性 嵌 入 演 算 法 (Locally Linear Embedding, LLE)[6]等。核方法的原理在於將原始資料映射到高維度空間,使得資料在此空 間中能夠呈現線性可分割的狀態,但並不是每個核函數對每種資料都適用,所以 核方法的關鍵在於如何選擇適當的轉換函數;LLE 是一種局部的映射方法,它保 持資料局部幾何特性,此微小的區域上仍具有線性的特徵,透過 LLE 就能保持 鄰近資料點間的結構,並達到降維的效果。保持結構的降維方法(例如:LPP、

LLE)皆面臨到相同的問題,那就是無法有效地將同類別的資料做有效的分類。

為了有效的達到資料維度的縮減,同時在不同類別之間的資料有明顯的差異性,

(12)

3

Baudat G.提出了廣義鑑別分析法(Generalized Discriminant Analysis ,GDA)[7],

GDA 是一種使用核函數的非線性區別分析,它將原始資料向量映射到高維度特 徵空間,而在這個高維度的特徵空間上資料分佈盡量形成線性可分割,所以可獲 得更好的分類效果。特徵擷取在人臉辨識上扮演著非常重要的角色,特徵擷取的 好對於辨識率會有相對的提升。在眾多人臉特徵擷取的方法中,有一個類型的擷 取方法稱之為區域特徵鑑別子,尤其最近幾年來,區域特徵分析在人臉辨識領域 達到了不錯的效果,會有這樣的結果可以簡單的歸類出幾項理由: (1)區域特徵 可以將臉部具有重要個人識別的細節資訊做分類;(2)有些區域特徵是針對抗光 線變化的特性做設計,像是有名的 Local Binary Patterns(LBP)[8];(3)區域特徵 的統計式直方圖常用來當作臉部鑑別子,對於區域特徵的局部變化有著不錯的強 健性;(4) 區域式的方法對於人臉識別的遮蔽問題,提供了更多的彈性空間。局 部二元圖形(Local Binary Pattern, LBP)以遮罩運算的方式,針對其中心與周圍八 個鄰近的值計算他們之間的相關性,並且由此產生一串的二位元代碼,將這 8-bit 二位元代碼轉換成十進制即得可到 LBP 的影像特徵。LBP 對光影變化具有一定 程度的容忍能力,這表示即使在相同場景不同光線環境下所拍攝的不同影像中,

擷取得到的 LBP 特徵影像相比較之下是差距不大的。區域導數圖形(Local Derivative Pattern, LDP)[28]由 Zhang 等人提出。LDP 是一個臉部表示的高階導 數描述子,是從 LBP 延伸出來的,原作者的實驗結果也證實了,二階導數與一 階導數圖形相比之下,二階導數圖形能截取更多的細節資訊,所以作者認為 LDP 比 LBP 更能成功地截取更多鑑別性的人臉資訊。LDP 編碼是在給定的高階導數 方向使用”0”與”1”來進行比較參考像素點與其區域鄰居像素點的導數值。

Murala 等人[9]提出了一個二階導數方向圖形(Local Tetra Pattern,LTrP)的方法,

來產生有效可用的人臉資訊,並使用參考點與周圍四個象限的 tetra 圖形來進行 編碼,當其他 tetra 圖形編碼為”0”時,就有可能代表損失了潛在的資訊。區域 向量圖形(Local Vector Pattern, LVP)[10]是一種新穎的圖形描述子表示方法,

(13)

4

LVP 可以從一個區域結構中,產生人臉特徵的資訊,並利用了多角度的方向特性 取代原來普遍的灰階人臉影像,LVP 使用了兩鄰居像素向量的四種配對方向來編 碼,利用參考點向量的配對方向產生一種比較的空間轉換的比率,可以截取更有 彈性且更具有鑑別性的區域特徵。不僅如此,LVP 可以延伸成多階導數,LBP 則是屬於一階式的圖形描述子。根據作者實驗顯示,使用二階的 LVP 進行人臉 特徵擷取所呈現出的辨識效果最好,這樣的結果顯示二階的結構關係可以得到比 一階更有彈性的微圖形,在人臉影像的辨識應用上,可以得到更多的人臉細節資 訊。方向邊緣尺度圖形(Patterns of Oriented Edge Magnitudes, POEM)由[11]等人 提出,POEM 使用了梯度量測取代了傳統 LBP 計算參考點與周圍鄰居像素點間的 結構方式,並累積運算每個”cell”中所有 pixel 的梯度方向區域直方圖,運算完 cell 之後,根據每個 cell 為中心,並與周圍其他八個 cell 形成一種新的結構關係,

稱之為”Blcok”。根據這樣的結構關係進行編碼,就可以得到 POEM 的特徵資訊,

我們會於實驗中與此方法進行效能比較。最近幾年以來,特徵點偵測在電腦視覺 領域中不僅扮演著一個非常重要的角色,也是主要的研究課題。物件辨識領域常 使用的特徵點偵測方法也逐漸使用於人臉辨識的領域,其中常見的方法有:尺度 不變特徵轉換(Scale-Invariant Feature Transform, SIFT )[12]和 Speed-Up Robust Feature(SURF)[13]。SIFT 於 2004 年被 Lowe 提出且成功的應用於物件辨識領域,

其認為影像在經過高斯模糊之後,可以表示影像在不同尺度下放大縮小的結果,

來改進更早之前 Harris 角點偵測法本身非尺度不變的缺點,而 SIFT 特徵有一定 的穩定性和強健性,但由於其特徵點維度過大,比對時間複雜度過高,加上攝影 機畫素的解析度提升,讓 SIFT 處理時間相對的不理想。為了解決 SIFT 的缺點,

Brown 和 Lowe[14]提出藉由霍夫轉換(Hough Transform)濾除錯誤的特徵點,來 減少不必要的比對,但效果仍有限。SURF 特徵成功的改進 SIFT 不理想的部分,

利用積分影像(Integral Images)來計算逼近高斯的一階和二階導數數值,達到降 低複雜度的目的;而 SIFT 將影像放大縮小的方式改進成調整 Filter 大小以達到相

(14)

5

同的目的;在比對方面,加入了 Hessian Matrix 的前處理,減少比對時間。本論 文的人臉特徵點偵測方法採用了 SURF 以及 LBP 的特徵影像來達到特徵點偵測 的效果,對於環境的光線變化具有相當的容忍性,且能將影像中鑑別度較高的紋 理特徵點偵測出來,與一般的角點偵測方法相比之下,可以偵測出更多的特徵點。

在實作以及應用上,當灰階影像的亮度值對比不強時,使用角點偵測方法來過濾 影像平滑區域的 SURF 特徵點,將可能會發生整張影像中擷取到的 SURF 特徵點 數量過少的情況,這樣會導致於後續辨識應用資料量不足的問題,因此我們同時 使用 SURF 和 LBP 兩個演算法來進行特徵點偵測,使偵測出來的特偵點更加的 穩定。除此之外,我們利用雙向辨識的區域特徵特性以及幾何結構,完成人臉辨 識的應用,且經由實驗結果可知搭配特徵點偵測的人臉辨識系統有著不錯的準確 率。

(15)

6

1.3 論文架構

本論文共分為七個章節,各章節內容安排如下:

第一章說明本論文的研究動機與近年來電腦視覺比較熱門的研究課題以及 人臉辨識領域的相關研究。本論文的主要技術將分為第一階段和第二階段的兩階 段式人臉辨識,它們將分別於第四章、第五章進行說明。第二章會介紹整個人臉 辨識系統的演算法流程以及架構,並簡要的說明各階段的處理步驟。第三章會介 紹本論文使用到的演算法和技術,如影像前處理(A、B)、特徵點偵測以及特徵 點匹配演算法。前處理步驟中,我們會從原始輸入影像擷取出可供辨識使用的人 臉區域,並進行傾斜影像轉正與正規化。特徵點偵測的部分會使用 LBP 以及 SURF 的特徵影像偵測特徵點。特徵點匹配演算法會針對偵測到的特徵點,使用 漢明距離計算參考影像與匹配影像之間的特徵點差異性,進而找到相似的特徵點。

第四章會介紹第一階段辨識的 WLVP 辨識模組。首先,會先詳細說明如何使用 LVP 演算法擷取人臉特徵,接著再說明如何透過權重式相似度的計算,來篩選出 與測試者相似的 M 名候選者。第五章會介紹第二階段辨識中的雙向辨識模組 (BR)。雙向辨識模組是以特徵點為基礎的人臉雙向辨識演算法,針對正規化後 的人臉影像,經過特徵點偵測演算法找出特徵點之後,再進行特徵點匹配運算與 雙向辨識運算,找出最相似的人臉。第六章為實驗結果,本論文使用三套人臉資 料庫(Banca 人臉資料庫、Feret 人臉資料庫、Yale 人臉資料庫)進行效能驗證,先 分別簡介三種資料庫的內容之後,再針對這三個資料庫進行詳細的實驗與效能分 析。第七章為結論和未來展望,並總結本論文的研究成果,且對未來可繼續改進 及可繼續研究的方向做一個說明。

(16)

7

第二章 人臉辨識模組架構

此章節介紹本論文人臉辨識技術的整體架構,並針對每個模組進行簡單的說 明,圖 2-1 為本論文所提出的演算法流程圖。人臉影像輸入進來之後,影像經過 人臉資訊擷取模組找到人臉的初步位置以及眼睛瞳孔的位置後,隨即進入第一階 段的辨識模組。首先,本論文會利用瞳孔的座標點在前處理 A 模組中進行人臉 的轉正與擷取,接著透過 WLVP 模組對正規化的人臉進行 LVP 特徵轉換,並利 用權重式相似度的運算,找出資料庫中與輸入影像相似的 M 名候選人進行第二 階段的辨識運算。為了因應第二階段辨識的特徵點雙向辨識模組,在前處理 B 模組中會重新抓取人臉區域影像並對此影像進行特徵點偵測。接著於特徵點雙向 辨識模組中利用這些特徵點的幾何分布資訊進行特徵點匹配,透過比對影像找到 輸入的參考特徵點所對應的匹配特徵點,將比較參考特徵點與匹配特徵點的差異 作為相似判斷的依據,進而得到最後的辨識結果。

圖 2-1、人臉辨識演算法流程圖 輸入人臉影像

辨識結果 人臉資訊擷取

產生 M 名相似候 WLVP 辨識模組 選人

前處理 A 第一階段辨識

特徵點雙向辨識 前處理 B 模組

第二階段辨識

(17)

8

第三章 影像前處理、特徵點偵測與匹配

3.1 影像前處理 A 與 B

一開始輸入人臉影像之後,本論文採用較有名且常被使用的 AdaBoost 來進 行人臉偵測,AdaBoost 透過訓練的分類器偵測出人臉之後,為了找到眼睛瞳孔 點使用了輻射型對稱性轉換(Radial Symmetry Transform)[15]方法,經過輻射型 對稱性轉換產生可能的眼睛候選點之後,再使用支持向量機 (Support Vector Machine, SVM)從這些候選點中篩選出較為可能正確的眼睛位置,若是眼睛位置 符合偵測的條件,接著輸出眼睛點位置,並利用得到的眼睛點位置重新定義出人 臉區域,再將此區域的人臉影像進行正規化。

3.1.1 前處理 A

圖 3-1、影像前處理 A 比例示意圖

如圖3-1,我們認為兩眼瞳孔是較為穩定的臉部特徵點,所以將兩眼瞳孔位 置之間的距離d定義為人臉區域的比例尺。人臉區域的寬度及高度皆定義為1.6 倍眼距,瞳孔距離左右邊界為0.3倍眼距,而瞳孔高度為0.3倍眼距。頭髮及嘴巴 部位我們認為並不是穩定的臉部特徵,因此本論文定義的人臉區域上方邊界大約 只取至眉毛附近的位置,而下方邊界則是大約取至上嘴唇附近的位置。

(18)

9

圖3-2、傾斜 𝜃 角之人臉影像

如圖3-2所示,θ是由雙眼瞳孔點所連成的直線與影像水平線的夾角,我們可以 將人臉影像透過夾角θ來進行影像轉正處理。先根據雙眼瞳孔位置計算出臉部矩 形區域的四個邊角座標,再由矩形區域上方的邊線與水平線之間夾角,即可得知 將傾斜之人臉轉正所需要的旋轉角度。知道人臉影像傾斜的角度後,可透過幾何 轉換將影像旋轉至水平的位置,二維的線性轉換可由下列公式來表示

[𝑥, 𝑦] = [𝑥, 𝑦] [ 𝛼 𝑐𝑜𝑠 𝜃 𝛼 𝑠𝑖𝑛 𝜃

−𝛼 𝑠𝑖𝑛 𝜃 𝛼𝑐𝑜𝑠 𝜃]

= [𝛼(𝑥 𝑐𝑜𝑠 𝜃 − 𝑦 𝑠𝑖𝑛 𝜃), 𝛼(𝑥 𝑠𝑖𝑛 𝜃 + 𝑦 𝑐𝑜𝑠 𝜃)]

其中 𝛼 是縮放因子(Scale Factor),而 𝜃 是旋轉角度。除了傾斜所造成的影像外,

影像大小不一也會造成後續處理上的困難,因此我們同時也要將人臉區域影像正 規化到固定的大小,縮放因子 𝛼 可計算選定區域大小與目標大小的比例得知,然 後即可透過幾何公式將輸入影像轉成正規化影像,本論文最後是將輸入影像正規 化為64×64的影像大小,如圖3-3。

(19)

10

圖3-3、經過正規化後之人臉影像

3.1.2 前處理B

前處理 B 與前處理 A 一樣會針對人臉影像進行影像轉正,但為了考慮到特 徵點有可能位於人臉輪廓邊緣的位置,因此我們需要保留較大的人臉範圍,來進 行正規化以及擷取相關的人臉特徵資訊,如圖 3-4 所示。

圖 3-4、人臉區域定義 B

(a) (b) (c)

(d) (e) (f)

(20)

11

在此我們使用雙瞳孔點以及嘴角點來定義出人臉區域範圍,以雙瞳孔點之間的距 離 d 定義為人臉比例尺。瞳孔點與左右邊界的距離為 0.5 倍眼距,兩眼中心與上 方邊界的距離為 0.7 倍眼距,兩嘴角中心與下方邊界的距離為 0.6 倍眼距。

3.2 特徵影像轉換與特徵點偵測

本論文使用 SURF 與 LBP 特徵點二種特性的特徵點進行研究,3.2.1 節介紹 特徵影像的轉換,而 3.2.2 節介紹特徵點偵測。

3.2.1 特徵影像轉換

3.2.1.1 SURF 特徵轉換

SURF 的特徵轉換是使用 Hessian Matrix 來表示,如下式所示, H(x,𝜎) 定義 為影像 x 點在高斯 scale 大小為σ的 Hessian Matrix,其中𝐿𝑥𝑥、𝐿𝑦𝑦與𝐿𝑥𝑦分別為水 平、垂直與 45 度方向的 Gaussian Second Order Derivative,如圖 3-5 的 a、b、c 子圖所示,再與它們近似的 box filter (如圖 3-5 的 d、e、f 子圖所示)進行 convolution 運 算 , 得 到𝐷𝑥𝑥、𝐷𝑦𝑦與𝐷𝑥𝑦的 運 算 結 果 , 來 達 到 Laplacian of Gaussian Approximations 的目的。

𝐻(𝑥, 𝜎) = [𝐿𝑥𝑥(𝑥, 𝜎) 𝐿𝑥𝑦(𝑥, 𝜎) 𝐿𝑥𝑦(𝑥, 𝜎) 𝐿𝑦𝑦(𝑥, 𝜎)]

由於這樣的 box filter 實作方法,需要大量累加影像上矩形區域的灰階值之後再 進行相減,為了增加效能,所以再搭配使用 Viola and Jones 所提出的 Integral Image 方法[16]來減少計算量;再針對近似後的 Hessian Matrix 進行 determinant 計算,如下所示:

𝑑𝑒𝑡(𝐻𝑎𝑝𝑝𝑟𝑜𝑥) = 𝐷𝑥𝑥𝐷𝑦𝑦− 𝑤(𝐷𝑥𝑦)2

(21)

12

圖 3-5、SURF 特徵轉換示意圖(a)(b)(c)為 Gaussian Second Order Partial Derivative;(d)(e)(f)為趨近 Gaussian Second Order Partial Derivative 的 box filter. 圖

中灰色區域權重值為 0.

經過 determinant 計算後就能得到每個像素點的響應強度,且利用不同高斯尺度 大小的 box filter,來計算出固定大小影像中每個像素點的響應強度,並將每個像 素點計算後的結果儲存在 blob response map 中,在 3.2.2.1 節將會利用 blob response map 來進行 SURF 特徵點的偵測。

3.2.1.2 LBP 特徵轉換

Local Binary Pattern (LBP)在電腦視覺領域中,針對影像紋理特徵資訊的擷取 應用,已有相當不錯的成果,其計算的方法是從灰階影像上進行 3x3 的遮罩運算 所產生的結果,而 3x3 的遮罩運算方法是比較遮罩中心點位置亮度值與周遭 8 個像素點亮度值的大小關係。

(𝑥𝑐, 𝑦𝑐)為 LBP mask 的中心點, s(x)為二元判斷函式.

𝐿𝐵𝑃(𝑥𝑐, 𝑦𝑐) = ∑ 𝑠(𝑔𝑝− 𝑔𝑐)2𝑝

7

𝑝=0

(a)

(e) (f) (d)

(c) (b)

1 1

1

1 1

1 -1 -1 -2

-2

(22)

13

s(x) = {1, if x > 0 0, if x ≤ 0

圖 3-6、 LBP 計算方法

圖 3-6 為一個 LBP 特徵影像點的計算方法,最後計算出每個灰階影像像素點的 LBP 特徵值,其結果如圖 3-7 所示。

圖 3-7、LBP 特徵影像

3.2.2 特徵點偵測

影像經由特徵轉換後,利用所抽取出來的特徵資訊,使用特徵點偵測方法來 將特徵點的位置偵測出來。3.2.2.1 節將說明 SURF 特徵點偵測演算法、3.2.2.2 節說明 LBP 特徵點偵測演算法。

3.2.2.1 SURF 特徵點偵測

將 原 始 灰 階 影 像 經 過 SURF 特 徵 轉 換 後 , 針 對 Hessian Matrix 進 行 determinant 計算後可得到每個像素點的響應值,再將許多不同影像尺度所計算的

(a) (b) (c)

(23)

14

響應值儲存在 blob response map 中。

圖 3-8、三個影像尺度之 blob response map 範例

圖 3-8 表示為使用 33 大小的 block 針對連續 3 個不同尺度大小的影像進行 Non-Maximum Suppression 方法的判斷[17],當某一個位置X在影像尺度為 0.6 的 blob response map 之強度響應值比周遭 8 個鄰近位置的強度響應值都大,且也比 影像尺度為 0.4 與 0.8 的 blob response map 之 18 個鄰近位置強度響應值都大時,

則此位置即被偵測為一個 SURF 特徵點。然後使用 Brown 與 Lowe[18]所提出的 Invariant Features from Interest Point Groups 方法,將該尺度所偵測到的特徵點位 置與大小轉換到原始的 image space 中,如此一來就可以在多個影像尺度中都能 偵測到 SURF 特徵點。

3.2.2.2 LBP 特徵點偵測

針對每一張 LBP 特徵影像來找出 LBP 特徵點,在 7x7 的範圍內,如下圖 3-9 的右圖所示。

圖 3-9、p 點與周遭 16 個點之範例圖

(24)

15

在中心點位置 p,計算 p 點位置的 LBP 值與周遭 16 個位置點的 LBP 值之漢明距 離,設定一臨界值 t,𝐻𝑝→𝑥為 p 點到 x 位置的 LBP 值之漢明距離,且x ∈ {1 … 16};

在 x 集合裡,當𝐻𝑝→𝑥 > 𝑡連續有 n 個𝑝 → 𝑥成立,且 n 大於臨界值 B,則定義此 p 點為我們所要擷取的紋理特徵點,因為當𝐻𝑝→𝑥 > 𝑡表示 x 位置與中心點 P 差異 較大,而當影像為平滑區域時其𝐻𝑝→𝑥 < 𝑡,又𝐻𝑝→𝑥 > 𝑡的連續個數 n 表示此特徵 點紋理的幾何角度程度,若 n 越大其角度越小,在這裡利用此參數來區分與剔除 比對時容易比對錯誤的直線邊緣點。由於在中心點 p 的周遭可能伴隨著雜訊,如 果我們只有使用 Hpi > t 的個數來判斷這一點是否為特徵點將會是很不穩定的,

所以我們加入了”連續成立”的條件,當 Hpi 在 1≤i≤16 需要連續成立,且次數要 大於 B,如此一來 p 點才會被認定為我們所偵測的 LBP 特徵點。下圖 3-10 為 p 點與周遭 16 個點計算後的結果,在每一次比對我們判斷 Hpi 是否大於 t,如果 大於 t 則計算結果標記為’T’,否則標記為’F’

圖 3-10、p 點與周遭 16 個點的比較結果

圖 3-11(a)是針對圖 3-10 統計出連續’T’個數的結果(i.e. 8, 2 and 2)。如果當比較 的開頭與節尾都為’T’時,則將開頭與節尾連續 T 的個數進行相加,如圖 3-11(b),

最後我們得到了 10 與 2 的連續 T 個數. 一般的情況,我們會將 B 臨界值設定為 8,

所以在這個例子當中,此 p 點將會被判定為 LBP 特徵點。

(a) 原始統計連續 T 個數的結果

(b) 最後統計連續 T 個數結果 圖 3-11、統計圖 10 連續 T 個數的結果

8 0 2 0 2

10 0 2 0

(25)

16

一般傳統常見的特徵點偵測方法,如角點偵測,當特徵點的中心與周遭像素 點亮度對比不夠大時,能量的反應值將會很低,則此特徵點將不會被偵測出來。

本論文所提出的 LBP 特徵點偵測方法,對於環境的光線變化具有相當的容忍性,

且能將影像中鑑別度較高的紋理特徵點偵測出來,而此方法是以灰階影像在不同 方向的亮度對比結構作為特徵,並進行能量值計算。在實作以及應用上,因為人 臉平滑區域的角點較少,我們將 SURF 的 threshold 降低來找出更多的特徵點,

為了找出更穩定的特徵點,我們使用 LBP 特徵點偵測來輔助找出更具有重要性 的特徵點,只有當 SURF 特徵點附近存在有 LBP 特徵點時,此 SURF 特徵點才 會被採用做為後續辨識的特徵點。

3.3 特徵點匹配運算

當我們得到參考影像及匹配影像特徵點位置之後,接著就以漢明距離 (Hamming Distance)計算的方式,來找出參考影像的特徵點在匹配影像中的對應 位置。漢明距離使用互斥(XOR)的邏輯運算,將兩個要比對的像素點進行二進制 的 8 位元比對,其中只有 1 對 1 與 0 對 0 才會有 0 的比對結果,否則皆為 1。而 XOR 運算結果中位元值為 1 的個數,即為兩個像素點間的漢明距離。當 1 的個 數較多時,其漢明距離較大,也就是像素點間的差異度較大,圖 3-12 為一個漢 明距離為 3 的範例。

圖 3-12、漢明距離範例

(26)

17

圖 3-13、人臉特徵點比對示意圖

在圖 3-13 中,我們以參考影像特徵點的位置為中心(如左圖影像的紅色特徵 點),在搜尋範圍內(如藍色方框區域)取適當大小的特徵區塊(如綠色方框區域)來 進行比對,統計出區塊內漢明距離的總和,做為兩個特徵點區塊相似程度的依據。

在漢明距離計算的實作上,兩個特徵值會先進行 XOR 邏輯運算而產生出一個 8 位元數值 X,再進行 BIT[X]運算,以查表的方式來得到 X 中位元值為 1 的個數。

此查表的方法是先建立一個 8 位元的表格,而此表格包含了 256 種 0 與 1 的組合 以及它們所對應的漢明距離值。假設 𝐼𝑡 為參考影像、𝐼 為匹配影像、(x,y)為一 個參考影像特徵點位置、(u,v)為此參考影像特徵點在匹配影像中可能的位移向量,

而 B 為以特徵點為中心所建立之特徵點區塊的半徑。將座落於(x,y)位置的參考影 像區塊與匹配影像中(x+u ,y+v)位置的區塊進行漢明距離計算,即可得到這兩個 區塊間的影像差異量𝐻(𝑥,𝑦)(𝑢, 𝑣),其數學表示式為

𝐻(𝑥,𝑦)(𝑢, 𝑣) = ∑ ∑ 𝐵𝐼𝑇[𝑋𝑂𝑅(𝐼𝑡(𝑥 + 𝑖, 𝑦 + 𝑗), I(𝑥 + 𝑢 + 𝑖, 𝑦 + 𝑣 + 𝑗))]

𝐵

𝑖=−𝐵 𝐵

𝑗=−𝐵

假設 R 為特徵點匹配的搜尋範圍半徑,則參考影像特徵點(x,y)會在匹配影像中的 搜尋區域內各影像點所對應的區塊逐一地計算它們的差異度,然後找出在搜尋區 域內有最小差異度的一組位移量(u,v),即可得到最佳的位移量(u, v),即

𝐻(𝑥,𝑦)(𝑢, 𝑣) = 𝑎𝑟𝑔 𝑚𝑖𝑛−𝑅≤𝑢≤𝑅

−𝑅≤𝑣≤𝑅

𝐻(𝑥,𝑦)(𝑢, 𝑣)

(27)

18

若匹配影像與參考影像是屬於同一人,則參考影像的每個特徵點於匹配影像之對 應點的位移量(u,v)會相當地一致,也就是會有相似的位移大小以及位移方向。但 如果匹配影像與參考影像不屬於同一人,則參考影像的每個特徵點所得到的對應 點之位移量一般會呈現出不一致的現象,如圖 5-6 所示。

圖 3-14、特徵點匹配示意圖(a)同一人樣本的特徵點匹配結果、(b)不同人樣本 的特徵點匹配結果

(a) (b)

(28)

19

第四章 第一階段辨識

輸入人臉影像經過前處理 A 的運算,可先找到眼睛點位置並重新定義出人 臉區域,然後將此區域的人臉影像進行正規化,再將正規化後的人臉影像經由 WLVP 辨識模組,找出最相似的 M 名候選人。

4.1 區域向量圖形(Local Vector Pattern, LVP)

區域向量圖形(Local Vector Pattern) 特徵是由 Tsung-Yung Hung,Kuo-Chin Fan 等人於 July 2014 中的 IEEE Trans. Image Process.期刊中[10]提出,簡稱為 LVP 特徵。LVP 是描述影像局部區域中,參考像素點與其鄰近點在不同配對方向之亮 度變化的比較關係,而這種關係會經由一種比較空間轉換(CST)的編碼機制來產 生影像的紋理特徵。圖 4-1 代表一個子區域I,假設𝐺𝑐為參考像素點,β代表方向 的索引角度,D 代表沿著β方向的鄰近像素點與參考點的距離,黃色區塊表示 D 為 1 的鄰近點,綠色區塊表示 D 為 2 的鄰近點,藍色區塊則表示 D 為 3 的鄰近 點,𝐺𝛽,𝐷表示為在參考點𝐺𝑐之β方向而距離為 D 的鄰近像素點,𝑉𝛽,𝐷(𝐺𝑐)表示為鄰 近點與參考像素點的亮度差距,即 𝑉𝛽,𝐷(𝐺𝑐) = 𝐼(𝐺𝛽,𝐷) − 𝐼(𝐺𝑐)。根據𝑉𝛽,𝐷(𝐺𝑐)的 式子運算,分別求出參考點𝐺𝑐與其𝛽 + 45°鄰近點的亮度差距以及鄰近像素點𝐺𝑝,𝑅 與其𝛽 + 45°的亮度差距,再經由比較的空間轉換(Comparative Space Transform, CST)[10] 𝑆2(∙,∙)進行編碼,即可得到參考點與鄰近像素點之間的二元編碼結果。

𝑆2(∙,∙)的定義如下:



 

   

else.

, 0

0 ) ( )

( ) )

( ) ( (

if , 1

)) ( ),

( ), ( ),

( (

, , 45 ,

, ,

, 45

, 45 ,

, , 45 ,

, 2

R p D R

p D c

D c D

c D c

D R p D R

p D

G V

G G V

V

G V

G V

G V G V

G V S

𝑆2(∙,∙)是一種轉換函式,針對參考點的

V

,D

( G

c

)

V

45,D

( G

c

)

來計算比值,再用此 比值乘鄰居在(β)方向的亮度差異值

V

,D

( G

c

)

,然後將此乘積與

V

45,D

( G

p,R

)

進行 比較,小於 0 則給予編碼 1,而大於或等於 0 則給予編碼 0。

(29)

20

圖 4-1、 𝑉𝛽,𝐷(𝐺𝑐)與周圍鄰居的關係示意圖1

參考論文[24]-[27]提到在灰階影像中,完整的二元編碼對於光線變化非常敏感,

而在[10]中分析了使用 CST 進行編碼的實驗,當鄰居的

V

45,D

( G

p,R

)

於正與負之 間轉換時,可以觀察到在 CST 架構的情況下,二元編碼仍然可以保持相當的穩 定度(參見附錄 A 的說明)。 R 為參考點𝐺𝑐與周圍八個鄰居點的像素點距離,預 設為 1。 𝐺𝑝,𝑅表示參考點𝐺𝑐周圍的八個鄰居點,𝑝為鄰居索引,而其值為 1 到 8(如 圖 4-2)。因此𝐿𝑉𝑃𝑃,𝛽(𝐺𝑐)在𝐺𝑐參考點對應著β角度的編碼可以表示成

}

)) ( ),

( ), ( ),

( ( ...,

)), ( ),

( ), ( ),

( (

)), ( ),

( ), ( ),

( (

{ ) (

, 45 ,

, , 45 ,

, 2

, 45 ,

, 2 , 45 ,

2 , 2

, 45 ,

, 1 , 45 ,

1 , 2

,

c D c

D R P D R

P D

c D c

D R D R

D

c D c

D R D R

D c P

G V

G V G V

G V S

G V

G V G V

G V S

G V

G V G V

G V S

G LVP

1

經過作者同意引用此圖。來源: Tsung-Yung Hung, Kuo-Chin Fan , ”Local Vector Pattern In

High-Order Derivative Space For Face Recognition”

(30)

21

圖 4-2、參考點與八個鄰居像素點

最 後 , 在 參考 點

G

c的 LVP 特 徵 ( 即

LVP ( G

c

)

) 可 以定義 成 由 四 個 8bit 的

)

,

(

c

P

G

LVP

所組成的 32 位元編碼,即

} 135 , 90 , 45 , 0

| ) ( {

) (

,

    

P c

c

G LVP

G LVP

另外,LVP 特徵可以將一階 LVP 特徵延伸到二階 LVP 特徵,而且經過[10]的實 驗結果顯示,二階 LVP 特徵效果在人臉辨識的應用上比一階 LVP 特徵效果來得 更好。我們的實驗測試也證實了二階 LVP 特徵在人臉辨識上,其辨識效果確實 比一階或三階的辨識效果更好,所以下面僅說明二階 LVP 特徵的作法。讓灰階 影 像 的 像 素 點 沿 著

0  , 45  , 90  , 135 

這 四 個 角 度 , 依 據 不 同 的α 值 ( α =

 , 45 , 90 , 135

0

)對應不同的鄰居點,分別各自計算參考點與其鄰居點在β方向的

一階亮度差異,然後將它們的一階亮度差異相減,則可得到在β方向的二階亮度 差異 ˆ1 ( )

,

G

c

V

,即

) ( )

( )

ˆ (

) ( )

( )

ˆ (

) ( )

( )

ˆ (

) ( )

( )

ˆ (

, ,

4 , 1

135 ,

, ,

3 , 1

90 ,

, ,

2 , 1

45 ,

, ,

1 , 1

0 ,

c D R

D c

c D R

D c

c D R

D c

c D R

D c

G V G

V G V

G V G V G V

G V G

V G V

G V G V G V

(31)

22

接著,

LVP

P2,,

( G

c

)

在𝐺𝑐參考點對應著β, α角度的編碼為

}

)) ˆ (

), ˆ (

), ˆ (

), ˆ (

( ...,

)), ˆ (

), ˆ (

), ˆ (

), ˆ (

(

)), ˆ (

), ˆ (

), ˆ (

), ˆ (

(

{ ) (

1 , 45 1

, , 1

, 45 ,

1 , 2

1 , 45 1

, , 2 1

, 45 ,

2 1

, 2

1 , 45 1

, , 1 1

, 45 ,

1 1

, 2

, , 2

c c

R P R

P

c c

R R

c c

R R

P c

G V

G V G V

G V S

G V

G V G V

G V S

G V

G V G V

G V S

G LVP

 

 

   

else.

, 0

0 ) ˆ (

) ˆ (

) ˆ (

) ˆ (

if , 1

)) ˆ (

), ˆ (

), ˆ (

), ˆ (

(

, 1

, 45 ,

1 1 ,

, 1

, 45

1 , 45 1

, , 1

, 45 ,

1 , 2

R p R

p c

c

c c

R p R

p

G V

G V G V

G V

G V

G V G V

G V S

最後,由於編碼中的參數 α 和 β 都有著四種角度(即

0  , 45  , 90  , 135 

)的變化,

因 此 參 考 點

G

c的 二 階 LVP 特 徵 ( 即

LVP

2

( G

c

)

) 定 義 為 由 十 六 個 8 位 元 的

)

,

(

, 2

P

G

c

LVP

所組成的 128 位元編碼,即

} 135 , 90 , 45 , 0

; 135 , 90 , 45 , 0

| ) ( {

) (

, , 2 2

c

 

P c

G LVP

G LVP

二階 LVP 特徵轉換完成之後,由於角度參數α 和 β 都各有四個角度的變化,因 此每個像素點有 16 種角度變化得到的特徵編碼,如圖 4-3。所以對一張64 × 64 的人臉影像而言,就會有64 × 64 × 16維度的特徵大小。接著本論文將64 × 64的 人臉影像依據4 × 4的大小切割成 256 個子區域(64×644×4 ),而每個子區域會分別統 計出直方圖。每個像素點雖然有 16 種角度的編碼,但在進行直方圖統計的時候,

並不會區分角度,而是將 16 種角度編碼全部統計成一個 0~255 範圍的直方圖,

每個子區域的直方圖總票數為 256(4 × 4 × 16)。直方圖統計完之後,每個子區域 特徵維度為 256,故整張影像的特徵維度就是256 × 256。

(32)

23

本論文為了降低特徵的維度,採用了 Uniform Pattern[29]的描述方式,將子區域 的特徵維度從 256 降低到 59,所以最後得到的一張影像之特徵維度為256 × 59。

β = 0° β = 45° β = 90° β = 135°

圖 4-3、16 張 LVP 角度配對之特徵影像

所謂的 Uniform Pattern 是指在二元編碼中 bit 變化次數最多只有兩次的編碼,像 是 00000000(0 次)、01110000(2 次)和 11001111(2 次)都是屬於 Uniform Pattern,

而像是 11001001(4 次)和 01010011(5 次)就不是 Uniform Pattern。假設(x, y)分別 為特徵影像的水平座標和垂直座標,k 為 Uniform Pattern 的類別編號(0 ≤ 𝑘 ≤ 58),

則某一角度的特徵影像𝐿𝑉𝑃𝛽×452 °,𝛼×45°(𝑥, 𝑦)會透過𝑢𝑛𝑖𝑓𝑜𝑟𝑚函式將該像素點的編 碼轉換為 Uniform Pattern,再利用 SAME 函式判斷該像素點是否為第 k 類的 Uniform Pattern,並針對每個像素點的 16 種 LVP 角度配對(α, β)逐一地統計其第

k 類別的票數,則像素點(x,y)中 16 種 LVP 角度配對的第 k 種 Uniform Pattern 個

數(即𝑏𝑥,𝑦𝑘 )之計算方式如下

𝑏𝑥,𝑦𝑘 = ∑ ∑ 𝑆𝐴𝑀𝐸(𝑈𝑛𝑖𝑓𝑜𝑟𝑚(𝐿𝑉𝑃𝛽×452 °,𝛼×45°(𝑥, 𝑦)), 𝑘)

3

𝛽=0 3

𝛼=0

(33)

24

其中

𝑆𝐴𝑀𝐸(a, b) = {1,當𝑎 = 𝑏 0,當𝑎 ≠ 𝑏

在區塊的 Uniform Pattern 票數統計中,i為水平方向的區塊編碼,j為垂直方向的 區塊編碼,𝐵𝑖,𝑗𝑘 則為(i, j)區塊所有像素點在各方向配對中第 k 種 Uniform Pattern 的總個數,即

𝐵𝑖,𝑗𝑘 = ∑ ∑ 𝑏𝑥,𝑦𝑘

(4×𝑗)+3

𝑦=4×𝑗 (4×𝑖)+3

𝑥=4×𝑖

4.2 權重式相似度計算

完成二階 LVP 特徵轉換之後,根據[19]提出的方法,我們將特徵影像切割 成 256 個子區塊(每個子區塊為4 × 4的大小),並針對每個子區塊統計直方圖,

而每個子區域直方圖的 bin 數為 59,因此整張影像的 bin 數總共為256 × 59。由 於每個子區域對應著臉部中不同的部位,而它們對人臉辨識而言,應該會具有不 同程度的重要性,因此我們對不同的子區域則給予不同的權重值。

圖 4-4、臉部權重設定示意圖,黑色正方形設定為 0.0,

深灰為 1.0,亮灰為 2.0 及白色為 4.0。

圖 4-4 是一張將人臉切成 7X7 個子區域的示意圖,其中區塊顏色越亮,代表權重 值越大,而區塊顏色越黑則代表權重值越小。本論文採用了四種顏色(即黑色、

深灰色、亮灰色和白色),而它們相對的權重值分別為 0、1、2、4。這樣的權重 設計目的,是希望能降低臉部中比較容易因表情變化而改變外型的區域以及較平 滑的區域的重要性,同時提高臉部中較有紋理且不會因表情而改變之區域的重要

(34)

25

性。如此一來,則可在進行人臉辨識時,較可以避免因表情變化而導致降低辨識 正確率的不良結果。設定好權重值之後,根據輸入影像與訓練影像的每個區塊直 方圖,來計算差異性。差異性計算公式如下。其中𝑥𝑖,𝑗表示為輸入影像特徵第 j 個區塊直方圖的第 i 個 bin,𝜉𝑖,𝑗則表示為訓練影像第 j 個區塊直方圖的第 i 個 bin,

𝜔𝑗則是指定的權重值。計算出差異性分數之後,會使用此分數來篩選出 M 位相 似的候選人。

差異性計算公式:

𝜒𝑤2(𝑥, 𝜉) = ∑ 𝜔𝑗(𝑥𝑖,𝑗− 𝜉𝑖,𝑗)2 𝑥𝑖,𝑗+ 𝜉𝑖,𝑗

𝑗,𝑖

假設測試影像與資料庫所有人的影像差異分數計算出來後,得到一個差異分數集 合

F

如下:

} ,..., ,

{ f

1

f

2

f

N

F

其中

f

n表示測試影像與第 n 個人之最小訓練影像的差異分數,N 表示為資料庫 中的類別總數。本論文將所有人的差異分數由小至大作排序,取前 M 個較小差 異分數所對應的類別,當作相似候選者,假設T為第 M 個最小的差異分數,則候 選者篩選公式如下:

} 1

,

|

{ n f T n N

Candidate

M

n

  

篩選出來 M 個差異最小的候選者之後,將針對這 M 個候選人進行第二階段的雙 向辨識模組運算。

(35)

26

第五章 第二階段辨識

針對第一階段 WLVP 辨識模組篩選出來的 M 位候選人,我們將進行第二階 段的特徵點雙向辨識模組運算,而圖 5-1 為此階段的主要流程圖。首先將灰階人 臉進行前處理 B 模組的運算,將需要正規化的人臉範圍擷取出來之後,再進而 得 到 人 臉 有 用 的 人 臉 特 徵 資 訊 。 特 徵 資 訊 的 擷 取 方 法 我 們 使 用 了 知 名 的 SURF(Speed Up Robust Feature)[13]和 LBP(Local Binary Pattern)[8]兩種演算法。

經過這兩個特徵擷取演算法運算完之後,藉由特徵點偵測尋找人臉上具有代表性 的特徵點,然後雙向辨識模組根據找到的特徵點進行特徵點匹配運算,接著再計 算特徵點間的幾何模型差異性,來產生出最後的辨識結果。

圖 5-1、第二階段辨識架構的流程圖 特徵點偵測

辨識結果 人臉測試影像

特徵點偵測

雙向辨識器 人臉影像資料庫

(36)

27

圖 5-2、雙向辨識模組處理架構

由於雙向辨識模組是本論文主要貢獻之一,我們將詳細說明其中的處理步驟,如 圖 5-2 所示。雙向辨識模組中包含了順向辨識與逆向辨識兩種運算。在進行順向 辨識的時候,我們將測試影像偵測出的人臉特徵點與資料庫影像(即訓練影像),

透過辨識模組運算處理後,可以得到一個順向辨識分數;逆向辨識的時候,我們 將資料庫影像偵測出的人臉特徵點與測試影像,透過辨識模組運算處理後,可以 得到一個逆向辨識分數。最後將這兩個順向、逆向辨識分數加總,即得到測試影 像與資料庫影像之間的綜合辨識分數。在順向辨識時,參考影像為輸入影像,而 資料庫影像為匹配影像;同理,在逆向辨識時,則參考影像為資料庫影像,而匹 配影像則為輸入影像。利用特徵點匹配技術,則參考影像的特徵點可於匹配影像 中,找到相對應的匹配特徵點和匹配差異性強度,接著將參考影像特徵點集合與 所找到的匹配特徵點集合進行幾何模型比對,產生幾何模型誤差分數。最後,將 幾何模型誤差分數與平均匹配差異性強度經由函數結合,即可得到一個單向辨識 分數。5.1 小節將詳細說明特徵點匹配與幾何模型差異計算。

辨識模組 順向辨識分數

測試影像

資料庫影像

辨識模組 逆向辨識分數

資料庫影像 特徵點

測試影像

辨識結果

(37)

28

5.1 特徵點雙向辨識演算法

本章節將會詳細介紹雙向辨識中以特徵點為基礎的三種幾何模型結構。在事 前訓練方面,訓練資料庫人臉影像經由特徵點偵測處理,會將所偵測到的特徵點 資訊以及正規化後的人臉影像,儲存於訓練資料庫模型中,以供後續的測試辨識 使用。在測試方面,測試人臉影像經由特徵點偵測運算,找出測試影像上具有鑑 別性的特徵點後,再與資料庫訓練模型進行雙向辨識運算。本研究的特徵點根據 其位於人臉的位置不同將會給予不同的權重值,若特徵點位於人臉輪廓處或是嘴 巴附近則給予較低的權重值,因為這些地方容易受到邊緣環境以及人臉的情緒表 情所影響。圖 5-3 為一張特徵點權重示意圖,其中綠點為一般性的特徵點,而白 點為較容易受到表情或背景影響的特徵點。

圖 5-3、特徵點種類圖

在特徵點偵測完成之後,則進入雙向辨識系統進行測試比對。以順向辨識為例,

將測試影像的特徵點資訊於資料庫影像中進行特徵點匹配運算,來尋找於資料庫 影像中具有最小差異性的區塊和它所對應的像素點(即匹配像素點)。讓 𝐼𝑟𝑛為第 n 種角度配對的參考 LVP 特徵影像,𝐼𝑚𝑛為第 n 種角度配對的匹配 LVP 特徵影像,

(x,y)為參考影像特徵點的位置,(u,v)為位移量,而 B 為區塊半徑。為了因應雙向 辨識,第二階段會採用比第一階段辨識更大的範圍來進行正規化處理,因此需要

(38)

29

針對此正規化影像再重新進行 LVP 特徵轉換(如圖 5-4 所示)。

圖 5-4、雙向辨識中(α, β) = (0°, 0°)角度配對的 LVP 特徵影像

因為二階 LVP 有 16 種角度配對之 LVP 特徵影像,所以本論文會分別針對這 16 種特徵影像進行區塊式漢明距離計算,然後再將 16 種角度配對的距離相加,所 得到的值即代表兩個像素點間的 LVP 特徵差異量。假設第 n 種角度配對之參考 影像上以(x,y)為中心的區塊和匹配影像上以(𝑥 + 𝑢, 𝑦 + 𝑣)為中心的區塊之間的 影像差異量𝐻(𝑥,𝑦)𝑛 (𝑢, 𝑣)為

𝐻(𝑥,𝑦)𝑛 (𝑢, 𝑣) = ∑ ∑ 𝐵𝐼𝑇[𝑋𝑂𝑅(𝐼𝑟𝑛(𝑥 + 𝑖, 𝑦 + 𝑗), 𝐼𝑚𝑛(𝑥 + 𝑢 + 𝑖, 𝑦 + 𝑣 + 𝑗))]

𝐵

𝑗=−𝐵 𝐵

𝑖=−𝐵

則 16 種角度配對的 LVP 特徵影像差異量總和𝐷(𝑥,𝑦)(𝑢, 𝑣)為

𝐷(𝑥,𝑦)(𝑢, 𝑣) = ∑ 𝐻(𝑥,𝑦)𝑛 (𝑢, 𝑣)

16

𝑛=1

當此差異量越小時,表示所對應的區塊影像相似度越高;反之差異量越大時,則 表示對應的區塊影像之相似度越低。假設 R 為特徵點匹配的搜尋範圍半徑,則 參考影像特徵點(x,y)會在匹配影像中的搜尋區域內各影像點所對應的區塊逐一 地計算它們的 LVP 差異量,然後找出在搜尋區域內有最小差異量的一組位移量 (u,v),即可得到最佳的位移量(u, v),即

(39)

30

𝐷(𝑥,𝑦)(𝑢, 𝑣) = 𝑎𝑟𝑔 𝑚𝑖𝑛−𝑅≤𝑢≤𝑅

−𝑅≤𝑣≤𝑅

𝐷(𝑥,𝑦)(𝑢, 𝑣)

當找出最佳的位移量以後,即可得知最佳的匹配位置 P 和其匹配差異 MD,即 𝑃 = (𝑥 + 𝑢, 𝑦 + 𝑣)

MD = 𝐷(𝑥,𝑦)(𝑢, 𝑣)

由於表情會造成特徵點不同程度的位移量,我們會針對每個特徵點而給予權重值

w。由於輪廓、嘴巴及其附近的特徵點相較於其他部位較容易受到人臉的表情影

響,所以本論文利用眼睛點和嘴角點定義出二個區域,即輪廓區域和嘴巴區域,

而在此二區域內的特徵點會給予較低的權重值 0.6,而其餘區域內的特徵點則給 予較高的權重值 1.0。假設參考影像中總共有 K 個特徵點,而𝑀𝐷𝑖表示第 i 個特 徵點的匹配差異,則其平均匹配差異(AMD)為

𝐴𝑀𝐷 = ∑𝐾𝑖=1𝑤𝑖× 𝑀𝐷𝑖

𝐾𝑖=1𝑤𝑖

圖 5-5 為特徵點匹配的結果,其左半部影像所標記的紅點為參考影像中所偵測的 特徵點位置,而右半部影像中的紅點是參考影像特徵點在匹配影像中所匹配到的 最佳對應點位置。

圖 5-5、特徵點匹配對應圖

當所有的參考影像特徵點都以特徵點匹配運算得到了它們在匹配影像上的最佳 對應點位置之後,我們會根據這二組特徵點位置來建構出二個幾何模型,由參考 影像特徵點所建構的幾何模型稱為參考幾何模型(Reference Geometry Model,

參考文獻

相關文件

Soille, “Watershed in Digital Spaces: An Efficient Algorithm Based on Immersion Simulations,” IEEE Transactions on Pattern Analysis and Machine Intelligence,

The dynamic feature points are roughly clustered by the C-means algorithm and then a spatial-temporal shortest spanning tree is proposed to segment each

Jones, &#34;Rapid Object Detection Using a Boosted Cascade of Simple Features,&#34; IEEE Computer Society Conference on Computer Vision and Pattern Recognition,

The results showed that, on the part of patent analysis, the United States in four categories of face recognition technology, they know one another on the patent number

Tseng (1997), “Invariant handwritten Chinese character recognition using fuzzy min-max neural network,” Pattern Recognition Letter, Vol.18, pp.481-491.. Salzo (1997), “A

programming, logic/reasoning, signal processing, computer vision, pattern recognition, mechanical structure, psychology, and cognitive science, to well control or to represent

Based on the insertion of redundant wires and the analysis of the clock skew in a clock tree, an efficient OPE-aware algorithm is proposed to repair the zero-skew

Our experimental results show that when using the same set of training and test data, the proposed multi-angle hand posture recognition method can achieve