2. HySxON 1. e rcchen@cyut.edu.tw Tzt H| lu_0819@163.com H| lhpjx@ies.ustb.edu.cn j _j _j a c BP HyytHyO

(1)

基於人臉座標系統的人臉識別

陳榮昌朝陽科技大學

資訊管理系 rcchen@cyut.edu.tw

盧菁北京科技大學

信息學院 lu_0819@163.com

劉賀平北京科技大學

信息學院 lhpjx@ies.ustb.edu.cn

摘要

傳統的人臉識別技術通常高度依賴人臉影像的圖元值，較少利用人臉的獨立特徵等先驗知識。本文提出了人臉座標的概念，透過建立人臉座標系統，將人臉的各個特徵，有系統的利用座標系統來表示。因此，人臉各個特徵之間的相關性，可以直接利用現成的數學方法取得，人臉識別相關的應用，也可以更容易達成。本文並具體提出基於人臉座標系統的人臉識別方法，利用人臉特徵向量的比對，不但可以更有效率的進行人臉特徵的識別，更可以進行人臉辨識、人臉表情辨識等關於人臉生物特徵的識別。

關鍵詞：人臉識別、人臉座標、人臉特徵向量、人臉辨識

1. 前言

人臉識別是指藉由人臉視覺特徵對身份進行辨識的一種電腦技術。因為人臉識別有得天獨厚的優點，所以被廣泛的運用到門禁系統、特徵辨認等設施中[1]。

傳統的人臉識別可分為基於整幅人臉影像的圖像識別和基於人臉特徵的特徵識別兩大類[6]。基於圖像識別是指將彩色的人臉影像轉化為灰階的人臉影像，然後利用各種成熟的技術進行訓練分類，

常見的代表性技術如主成元分析（Principle Component Analysis, PCA）[4] 等。這類方法的不足之處有以下幾點：1. 辨識效果容易受光源變化的影響，強韌性(robustness)較差。2. 辨識效果易受臉部表情變化的影響。3. 無法識別不同的表情動作。

4. 當人臉出現遮蓋物(如眼鏡、口罩等)的時候，將會嚴重影響辨識效果，因此辨識的靈活性較差。

另外，第一類方法只基於影像的數值，容易受

雜訊影響，第二類方法也缺乏特徵之間的相關資訊。因此，本文提出了人臉座標系統，將人臉固有的自然屬性融入此座標系統中，並能利用數學方法來求出特徵之間的相關資訊，如此更能有效的幫助人臉識別的進行。

此方法將關鍵的人臉特徵點映射到人臉座標系統中，由各個特徵點之間的相對位置就可以找到人臉特徵之間的相關資訊，此方法也克服了PCA 等統計學方法對圖元值(pixel value)過於敏感的缺點，

因為人臉固有的自然屬性可以用來輔助特徵點的定位(例如，鼻子不會在嘴巴下面、眼睛兩邊通常會對稱等)。人臉座標系統的另一個創新點在於將現有的人臉識別技術、人臉特徵識別技術、表情識別技術全部整合在一起，用一個整體的觀念去看待這些識別問題，用全域的觀點(global view)分析問題，打破了以往以某些局部資訊看待問題的弊端，只是識別人臉的某一部分，而不能相互參照，如此豐富了識別中的資訊量。

本文的結構如下：第二節將介紹人臉特徵相關的識別技術，第三節將介紹本文提出的人臉座標系統，第四節介紹人臉座標系統在人臉識別中的具體運用，最後，第五節為結論。

2. 人臉特徵相關的識別技術

在過去的研究中，已經有許多文章提出對人眼、鼻子、嘴巴和人臉輪廓進行識別的方法。為了取得人臉的一些重要的特徵點，我們首先對這些特徵點取得的方法做一些探討。

2.1 人眼的識別

人臉位置的確定，通常取決於人眼的位置，人眼識別的精確程度直接影響到了人臉識別的表現。文章[2]提出了一種人眼識別的方法，因為在人臉彩色

(2)

RGB 影像中，人眼中綠色的元素與其皮膚的綠色元素在數值上有著很大的不同，因此僅僅分析人臉影像中間的綠色成份，在綠色頻域中，用 canny 方法找到眼睛的邊緣線，這些邊緣線有可能是斷斷續續分段式的，然後藉由文章[5]提供的方法，將眼睛與皮膚之間的邊緣線用橢圓來逼近。總而言之，眼睛的邊緣線可以用一個橢圓來逼近。

2.2 鼻子的識別

參考文章[7]，鼻子的特徵是以鼻孔兩側以及鼻尖這三點作為頂點構成的三角形當作鼻子的位置，把影像經過模糊（Blur）處理與邊緣偵測（Edge Detection），並以眼睛往鼻子兩邊向外做邊緣逼近

（Edge Approximation），就能找到兩個鼻孔的 X 座標。再以眼睛的Y 座標加上兩眼距離為起點，向下做邊緣偵測（Edge Detection），找到兩個鼻孔的 Y 座標。在兩個眼睛中間的位置做邊緣偵測，找到鼻尖的座標。偵測完鼻尖以及鼻孔兩邊的位置後，

我們將這三點作為三角形的三個頂點，將鼻子近似成一個三角形。

2.3 嘴巴的識別

參考文章[9]，因為嘴巴在顏色方面具有鮮明的特色，因此可以先將彩色影像在紅頻上進行分解，然後將影像在對X 方向求偏導數，因為嘴巴和正常人臉皮膚在顏色上具有很大的不同，因此在嘴巴和皮膚的交界處，偏導數將會出現很大的數值，

我們便取最大兩個偏導數對應的X 座標值，得到嘴巴兩端的橫坐標。同理，用同樣的方法在縱座標進行搜尋，可以得到垂直方向的坐標，並且嘴巴可以很精確的進行長度和位置的定位。最後通過找尋多個邊界點，將這些離散的邊界點近似成一個橢圓。

2.4 人臉輪廓的識別

根據先驗的知識，人臉的外形輪廓可以近似於一個八邊形，技術的關鍵是如何準確的找到這個八邊形[8]。我們可以先在影像中取一個最大的八邊形，使它充滿整個影像，以確保人臉必定存在於這個八邊形之內，然後將此八邊形進行收縮，每一條邊收縮至偵測到皮膚為止，這樣從外圍得到了人臉的輪廓，此八邊形記為polygonouter。然後在影像中

確定一個一定小的八邊形，使得人臉必定包含此八邊形，然後將此八邊形慢慢擴大，直到偵測到非皮膚為止，因此可以從內部得到八邊形的輪廓，此八邊形記為 polygoniner 。如果 polygonouter 與 polygoniner 的差異小於一個門檻值 β，那麼，我們就可以polygoniner 為人臉輪廓。

3. 人臉座標系統的提出

現有的技術都已經可以做到人臉識別、表情識別以及人臉特徵識別，但是這些識別都是一種孤立的識別，彼此之間並沒有多大的聯繫，本文特提出了人臉座標系統(簡稱人臉座標)，使得人臉的各個特徵可以透過座標系統整合在一起，不僅可以進行人臉識別，而且還可以通過人臉特徵的局部的細微變化進行表情識別。

3.1 原點與座標軸的確定

首先，為了定位這些重要的特徵點，我們先定義人臉座標系統。如圖 1，假設我們所面對的是一張正面平視的人臉，我們用 2.1 節所敘述的方法找到兩顆眼睛並用兩個橢圓來逼近。假設我們把左右兩眼的兩個橢圓的中心分別定義為

E

₁和

E

₂(如圖 1

所標示），其中右眼

E

₂是指在影像中右邊的眼睛(實

際上為人的左眼)，我們定義

E

₁

E

₂ 線段的中點為人

臉座標的原點O（0, 0），

E

₁

E

₂ 左右無限延伸形成人

臉座標的第一個座標軸(X 軸) ，

OE

₂為 X 軸正方 向。我們定義人臉座標為一直角座標系統，所以 Y 軸即

E

₁

E

₂的中垂線，他與 X 軸正交於原點 O，向

上的方向為正。我們以

E

₁

E

₂的1/2 為單位長度。因此，

E

₁的座標為(-1,0)，

E

₂的座標為(1,0)。如此建立了二維的人臉座標系統X。Y，即 X。Y = {(x,y) |

x,y ∈

R}。

(3)

圖1 人臉座標解說圖例

因此，所有人臉重要的特徵點，皆可以用座標點來描述。例如圖1 中，人臉右邊眼睛上方的特徵點可以用

( x

₁₃

, y

₁₃

)

來表示。

3.2 座標點及座標點間距離的定義

雖然真實的人臉並非平面所能描述，但一般的影像資料都已經是平面化的人臉影像資料了，因此，我們定義的人臉座標用來表示人臉正面平視投影的影像，即前視圖所呈現的影像。所以，我們仍然以平面座標來定義人臉座標。假設P 為人臉圖像上任一點，若過P 的鉛直線與人臉座標的 X 軸交於 a，過 P 的水平線與人臉座標的 Y 軸交於 b，則我們定義P 點的座標為（a, b）。因此，人臉圖像上的每一個點都可以在人臉座標中找到一個座標點與之對應。若座標系上有兩點

P

₁

( x

₁

, y

₁

)

和

P

₂

( x

₂

, y

₂

)

，我們定義他們之間的距離為

2 2 1 2 2 1 2

1

, ) ( ) ( )

( P P x x y y

d = − + −

（1）

因為人臉座標所使用的單位長度是一種相對的尺寸 (以兩眼之間的距離的一半為單位長度)，所以對於同一個人在不同時間所取得的正眼平視的照片，只要兩張照片的表情一樣，他們的特徵點的座標值會是一樣的。

3.3 標準人臉重要特徵點的建立

當我們得到了一張人臉影像後，先將人臉中的

兩個眼睛識別出來[2]，各用一個橢圓來表示，兩個橢圓的中心分別記為

E

₁及

E

₂，依前一小節的定義

單位長度 d=1/2*

E

₁

E

₂，因此，在二維影像上所測

量出來的任一長度

d

^'，在人臉座標中的長度為

d

d '

，影像中長度為 1.5d 的線段在座標系中的長度

為 1.5。

E

₁ 的座標為

( − ¹ ^, ⁰ )

，因為

E

₁

, E

₂關於原點

對稱，所以

E

₂的座標為

( )

1 。當眼睛的座標值固定,0 後，人臉影像中的每一個點都能夠找到其相應的座標，並且座標值是唯一固定的。因為我們所定義的人臉座標是一種相對的座標系統，所以原始影像的縮放並不會影響其在座標系統的座標值。並且當影像中人臉為非標準方向的時候，也可以將非標準方向影像經過座標旋轉變成標準方向的影像。

理論上，人臉影像包含了無窮多個點，因此每個人臉可以得到無窮多對座標，但是這樣過大的資訊量顯然不便於我們去辨識人臉，並且這樣做也沒有實際的意義。我們只需要從人臉中選取一些較為重要的特徵點，就可以表示每一個人的人臉屬性。我們採用人臉自然特徵包含眼睛、鼻子、嘴巴和外部輪廓的重要特徵點來當作人臉特徵點。這些特徵點，我們可以追尋過去學者的研究來得到，例如文章[8]指出人臉輪廓可以由正八邊形進行近似、

文章[6]將人眼用橢圓形描述、文章[9]將鼻子以三角形逼近。因為嘴巴的形狀與眼睛類似，我們也以橢圓來近似嘴巴的形狀。基於以上的選特徵的原則，

我們將人臉的各個重要的特徵點用人臉座標上的特徵點進行描述，我們共選取了23 個能夠代表人臉特徵的點(如圖 1)。

以下我們將敘述這23 個特徵點取得的方式，

我們先使用 2.1 節中眼睛識別的方法找出兩顆眼睛 [2][5]，將眼睛用一個橢圓的輪廓進行表述，分別取橢圓長軸以及短軸的兩個端點(共四個點)來當作眼睛的四個特徵點，兩個眼睛共八個特徵點(如圖 1 之

) ,

( x

₉

y

₉ ~

( x

₁₆

, y

₁₆

)

)。接著我們用一個三角形來定位鼻子[9]，三角形的頂點方向為 Y 軸的正方向，用三角形的三個頂點作為鼻子的特徵點(如圖 1 之

) ,

( x

₁₇

y

₁₇ ~

( x

₁₉

, y

₁₉

)

)。嘴巴用橢圓來描述，取

(4)

橢圓的長軸和短軸端點當特徵點，共四個座標(如圖 1 之

( x

₂₀

, y

₂₀

)

~

( x

₂₃

, y

₂₃

)

)。最後，我們使用八邊

形來代表人臉的外部輪廓 (如圖 1 之

( x

₁

, y

₁

)

~

) ,

( x

₈

y

₈ )。如此，一張人臉總共需要 23 個座標點來描述。

我們定義人臉的雙眼連線

E

₁

E

₂ 與影像底邊的夾角為傾斜角度Ө，當 Ө=0 時，代表這張人臉影像為標準方向。當影像中人臉的方向不是標準方向時，我們可以下面的步驟將影像標準化，如此可以提高其精確值。步驟如下：

1. 辨識雙眼以得到雙眼之間的連線。

2. 計算傾斜角度 Ө。

3. 將影像進行旋轉，旋轉的公式為

 

 



 



 



 −

 =



 





' '

cos sin

sin cos

y x y

x

θ θ

θ

(2)

綜上所述，人臉重要特徵點座標取得的基本步驟如

下：

step 1. 取得包含人臉的影像。

step 2. 取得眼睛的特徵點的位置。

step 3. 得到人臉座標系統的原點、X 軸及 Y 軸。

step 4. 求出影像的傾斜角度Ө 並將影像標準化。

step 5. 取得鼻子、嘴巴以及人臉外部輪廓曲線等特徵點的位置。

step 6. 取得各特徵點所相對應的人臉座標系統座標值。

每一張人臉影像，其特徵點的座標值的大小僅僅決定於人臉本身，並不受影像本身大小以及拍攝角度的影響，因此，每張不同的人臉就會有其固定的 23 個特徵點所對應的座標。因為這個唯一性，

我們就可以利用這固定的 23 個特徵點來進行人臉識別。

3.4 人臉特徵向量

如前一小節所述，我們將人臉中選取的23 個特徵點，組成了人臉特徵向量

) , , ,

( P

₁

P

₂

K P

₂₃

=

Γ

，其中

P

_i

= ( x

_i

, y

_i

)

，i=1,2,…, 23，為23 個特徵點。因此，每一張人臉可以對應著唯一的特徵向量。如果任兩張人臉的所有特徵點（眼睛、鼻子、嘴巴、外部輪廓的所有特徵點）都相同，

這兩張人臉所對應的特徵向量才會相等。然而，要這23 個特徵點都相同是相當不容易的。如果兩個向量不相等，它們之間的距離代表著兩張人臉不相像的程度。

假設特徵向量

Γ

₁

= ( P

₁_,₁

, P

₁_,₂

, K , P

₁_,₂₃

)

與

) , , ,

(

₂_,₁ ₂_,₂ ₂_,₂₃

2

= P P K P

Γ

代表兩張不同照片的人臉

特徵向量，那麼，只要比對這兩特徵向量就可以知道是否兩張照片是否為同一個人。若考慮到測量的誤差的話，可以當特徵向量距離

ε

≤

= Γ

Γ ∑

=

23 1 i

2 i, 2 i, 1 2

1

, ) ( P , P )

( d

D

(3) 時才視為同一個人，其中我們稱

ε

^{為允許誤差，它}

是一個很小的數。另外，考慮到不同特徵點的重要性不同，我們定義加權特徵向量距離為

∑

=

= Γ

Γ

₁

,

₂

)

²³_i₁

( P

₁_i,

, P

₂_i,

)

²

( W d

DW

_i (4) 其中，

W

_i

∈ R

,

i = 1 L , 2 , , 23

, 為第 i 個特徵點的

權重值。根據實際情況我們可以設定不同的

W

_i，當

每個

W

_i^都為1 時，加權特徵向量距離 DW 就會等於特徵向量距離D。

4. 基於人臉座標系統的人臉辨識

下面我們將以基於人臉座標系統的人臉辨識來當作我們所提出的人臉座標系統之應用說明例。我們首先建立基於標準人臉座標系統的資料庫，在資料庫中，我們分別建立每個人的喜、怒、哀、樂以及正常等5 個表情的特徵向量，當輸入一張人臉影像時，只要依照前面的演算法取得該張影像的人臉特

(5)

徵向量，就可以直接和資料庫中各個表情的特徵向量比較，快速取得最接近的人臉影像。

建立的步驟如下：

Step 1. 將每張影像編號，

I

_n_,_i表示第 n 個人的第 i 表情影像，

1 ≤ n ≤ N

,

1 ≤ i ≤ 5

，依不同 的數值 i，分別表示喜(1)、怒(2)、哀(3)、樂 (4)和正常表情(5)。

Step 2. 找出每張影像的人臉特徵向量

Γ

_n,_i ，

N n ≤

≤

1

,

1 ≤ i ≤ 5

。

一般來說，同一個人的不同表情之間的特徵向量距離遠小於不同人的特徵向量距離。當我們得到一張人臉影像之後，先求其人臉特徵向量

Γ′

，然後計算

Γ′

與資料庫中每個人的人臉特徵向量

Γ

_n,_i的距離，

如果其距離低於某一門檻值就算找到。

具體辨識的步驟如下：

Step 1. 輸入人臉影像，先求出該影像的人臉特徵向量

Ρ

_input

= ( p

₁

, p

₂

,..., p

₂₃

)

,

) , (

_j _j

j

x y

p =

，

j = 1 , 2 ..., 23

^，

p

_j^表示該人 臉的第 j 特徵點的座標值。我們取人臉中 23 個特徵點作為人臉特徵向量。如果人臉中出現遮蓋物，我們也可以將被遮住的特徵點捨去，降低特徵向量的維度，如此可以更靈活。

Step 2. 分別計算

Ρ

_input與資料庫中各種表情的人臉

特徵向量的距離

Γ

_n,_i， n=1, 2, …, N，

5 1 ≤ i ≤

，N 為資料庫中人臉的存儲量。如果要強調各特徵點之間的重要性，也可以使用加權特徵向量距離，即計算

) ,

DW( Γ

_n,_i

Ρ

_input 。

Step 3. 當資料庫中，第 k 號人臉和我們的輸入人臉

input

P

最接近時，即

DW

_k

( Γ

_k,_i

, Ρ

_i_nput

)

為所有

) , (

_j,_i _nput

j i

DW Γ Ρ

，

1 ≤ j ≤ N

，之最小值時，

我們認為

P

_input最可能為第k 號人物的人臉。

上述步驟中，加權特徵向量距離中的加權值可以根

據先驗知識來制定，也可以讓系統自動學習得到。

5. 結論

在本論文中，我們提出了人臉座標系統的概念，此座標系統不但有效地整合了過去人臉識別相關研究的成果，並能夠藉由幾何運算的工具讓人臉識別的應用更容易達成。透過座標空間的描述，任何人臉的特徵都可以清楚地定位，各特徵之間的關係也可以很容易地透過幾何運算的工具來取得。另外，為了將人臉固有的自然屬性融入此座標系統中，我們將眼睛、鼻子、嘴巴和人臉輪廓的23 個重要特徵點組合成人臉特徵向量。因為對每張人臉的影像而言，人臉特徵向量對平移、旋轉及放大縮小都具有不變性，所以，基於人臉特徵向量的人臉識別就可以簡化為向量距離的比對，變得非常容易。

在未來的研究中，我們將朝下面三方面努力：

1. 將現有人臉識別技術以此座標系統來表述，並與之比較。2. 有效地利用幾何運算工具及特徵點之間的關係來幫助人臉辨識相關研究。3. 在應用的突破上，特別重視對於遮蓋物和雜訊的避免。這些研究將可以讓人臉座標系統發揮更大的效用，對未來人臉識別相關的研究也會更有幫助。

參考文獻

[1] Aamer Mohanmed,Ying Weng, “ Face Detection based Neural Networks using Robust Skin Color Segmentation,” in 5^th International Multi-Conference on Systems, Signals and Devices, 2008.

[2] A. Hadid, “Color-Based Face Detection using Skin Locus Model and Hierarchical Filtering,” in 16th International Conference on Pattern Recognition, Vol. 4, pp 40-46.

[3] Ara V. Nefian and Monson H. Hayes,

“Maximum likelihood training of the embedded HMM for face detection and recognition”, IEEE International Conference on Image Processing 2000.

[4] Matthew A. Turk, “Face Recognition Using Eigenfaces,” in Computer Vision and Pattern Recognition, Vol. 3-6 Jun

(6)

1991, pp 586 - 591.

[5] Maurizio Pilu, “Ellipse-specific direct least-square fitting,” in Proceedings of International Conference on Image Processing, Vol 3, Sep 1996,pp 599-602.

[6] Ming-Jung Seow, “Neural Network Based Skin Color Model For Face Detection,” in Proceedings of Applied Imagery Pattern Recognition Workshop 2003, 32^nd Vol., 15-17 Oct 2003, pp 141 – 145.

[7] QI Ying , “Mouth Recognition Based on Gabor Wavelet and Fuzzy Support Vector Machine,” In Journal of Human University of Arts and Science, 2007, Vol.

19.

[8] Tang Bin, “High Performance Face Recognition System By Creating Virtual Sample,” in Proceedings of the 2003 International Conference on Neural Networks and Signal Processing, Vol 2,14-17 Dec, 2003, pp 972- 975.

[9] Wenhao Zhu, “Nose Detection based Feature Extraction on both Normal and Abnormal 3D faces,” in 8th IEEE International Conference on Computer and Information Technology, 8-11 July 2008, pp 312-316.

[10] Yang Kun, “ Human Face Detection Based on SOFM Neural Network, ” in Proceedings of the 2006 IEEE informational Conference on information Acquisition, Aug 2006, pp 1253-1257.