• 沒有找到結果。

結合音訊與視訊之多模組身分確認之研究─子計畫三:利用人臉表情及唇形動態資訊進行身分確認之研究(2/3)

N/A
N/A
Protected

Academic year: 2021

Share "結合音訊與視訊之多模組身分確認之研究─子計畫三:利用人臉表情及唇形動態資訊進行身分確認之研究(2/3)"

Copied!
8
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 期中進度報告

子計畫三:利用人臉表情及唇形動態資訊進行身分確認之研

究(2/3)

計畫類別: 整合型計畫 計畫編號: NSC93-2213-E-002-037- 執行期間: 93 年 08 月 01 日至 94 年 07 月 31 日 執行單位: 國立臺灣大學資訊工程學系暨研究所 計畫主持人: 洪一平 計畫參與人員: 江岳軒、柯政宏、楊惠菁 報告類型: 精簡報告 處理方式: 本計畫可公開查詢

中 華 民 國 94 年 6 月 1 日

(2)

行政院國家科學委員會補助專題研究計畫期中精簡報告

結合音訊與視訊之多模組身分確認之研究 - 子計畫三:

利用人臉表情及唇形動態資訊進行身分確認之研究(2/3)

計畫類別:□個別型計畫 ■整合型計畫

計畫編號:NSC -93-2213-E-002-037

執行期間:93 年 8 月 1 日至 94 年 7 月 31 日

計畫主持人:洪一平

本成果報告包括以下應繳交之附件:

□ 赴國外出差或研習心得報告一份

□ 赴大陸地區出差或研習心得報告一份

□ 出席國際學術會議心得報告及發表之論文各一份

□ 國際合作研究計畫國外研究報告書一份

執行單位:國立台灣大學資訊工程學系暨研究所

中 華 民 國

94 年 5 月 30 日

(3)

1

行政院國家科學委員會專題研究計畫期中精簡報告

結合音訊與視訊之多模組身分確認之研究 - 子計畫三:

利用人臉表情及唇形動態資訊進行身分確認之研究(2/3)

Biometric Person Authentication

Using Dynamic Information of Facial Expression and Lip Tracking

計畫編號:NSC-93-2213-E-002-037 執行期限:93 年 8 月 1 日至 94 年 7 月 31 日 主持人:洪一平 計畫參與人員:江岳軒、柯政宏、楊惠菁 一、中文摘要 本子計畫的目標在於結合人臉表情與 唇形追蹤等動態資訊進行身分確認。在傳 統利用靜態資訊的方法中,由於影像中人 臉的大小、方位,以及取像時的背景、光 線均存在極大的變異性,因此使得人臉辨 識的困難度變得比較高。在本子計畫中, 我們嘗試利用使用者的臉部動態表情中所 蘊含的資訊來進行身分確認。在動態唇形 身分確認中,每一個使用者分別用一個外 觀 高 維 曲 面(appearance manifold) 來 表 示,而每一個外觀高維曲面則由一群姿勢 高維曲面(pose manifold)來表示。為了建立 這複雜且非線性的外觀高維曲面,對於一 個 使 用 者 的 連 續 影 像 , 首 先 我 們 利 用 K-means 分群演算法將其分成數群影像集 合,並利用主成份分析法(PCA)來求得一 個近似的主成份平面。為了將唇形在時間 軸上的變化列入考量,我們計算唇形影像 在其所屬的姿勢高維曲面彼此之間的轉變 機率。而為了解決取像時,光線變異性對 系統的影響,在此計畫中我們採用對光源 環 境 作 彈 性 分 類(soft classification of lighting conditions)加上局部線性鑑別分析 (locally linear discriminant analysis)的機制 解決光源的問題。此方法首先會求出最佳 的光源環境類別,再將訓練影像經過彈性 光源分類,最後配合彈性分類的結果進行 局部線性鑑別分析。 關鍵詞:身分確認、生物測定學、人臉表 情、唇形追蹤、外觀高維曲面、姿勢高維 曲面、光源環境的彈性分類、局部線性鑑 別分析。 Abstract

The goal of this project is to combine dynamic information of human face, such as facial expression and lip tracking, for person authentication. In the traditional methods that only utilize static information, the large variations in face size, face pose, lighting and background increase the difficultly of face verification. Therefore, in this research project, we will use the dynamic information contained in face expressions for person authentication. To investigate the dynamic lip information extracted from the image sequences, each person is represented by an appearance manifold, which consists of a collection of pose manifolds. To construct this complex nonlinear appearance manifold for each person, we apply the K-means algorithm to cluster the image sequences of the talking lip for each person. We represent each cluster as a plane, which is computed by principal component analysis (PCA). To take the dynamic information of the talking lip into account, the transition probability between the pose manifolds is computed from the image sequences. On the other

(4)

hand, to solve the lighting variation problem for face recognition, we adopt soft classification of lighting conditions (SCLC) with locally linear discriminant analysis (LLDA) in this sub-project. The basic idea of SCLC+LLDA is to find the optimal lighting condition classes which best describe the lighting variation, and then apply a soft lighting classification to each training image. With the soft classification result, a locally linear transformation would be applied to find the global optimal subspace for face recognition.

Keywords: Person Authentication,

Biometrics, Facial Expression, Appearance Manifold, Pose Manifold, Soft Classification of Lighting Conditions, Locally Linear Discriminant Analysis.

二、緣由與目的 隨著科技的進步,自動身分確認已成 為 一 個 愈 來 愈 重 要 的 問 題 。 基 於 憑 證 (token-based)或基於知識(knowledge-based) 的方法已經愈來愈不敷安全及便利的需 求。因此,利用生物特徵的身分確認系統 在近年來是一個非常熱門的課題。在各種 生物特徵中,人臉是最明顯的外露特徵。 就人類視覺而言,在相當遠的距離時我們 便可藉由人臉來分辨出對方的身分,因此 人臉辨識與確認一直是電腦視覺領域持續 關注探討的問題。 所 謂 的 「 人 臉 身 分 確 認 」 (face authentication) , 與 「 人 臉 識 別 」 (face recognition)並不是完全相同的工作,前者 是要針對處理對象所宣稱的身分做出確認 的動作,後者則是要判斷處理對象的身分 是誰。這兩種工作在決策方式與評估方法 不盡相同。相關的研究大致可以根據人臉 特徵的資訊來源分成兩大類,一類使用人 臉的靜態資訊,這一類的方法會希望所處 理的人臉盡量不要有表情變化;另一類則 是利用人臉的動態資訊,這一類的方法希 望所處理的人臉最好能有一些表情或唇形 變化。 在本年度的計畫中,我們的研究方向 分成兩個部分,一個是利用動態唇形的資 訊來做身分確認;另一個是利用光源環境 的彈性分類和局部線性鑑別分析來解決人 臉影像拍攝時,光線變異性對辨識系統的 影響。我們分別在第三和第四小節介紹我 們對這兩個部分的研究方法。 三、使用外觀高維曲面來做動態唇形身分 確認 過去做動態唇形影像身分確認的方法 中,Broun 等人[1][2]利用色調和飽和度來 取出唇形影像,並利用影像切割的方法來 取出嘴唇部分的長、寬等資訊,最後利用 分類器來做身分確認。Luettin 等人[3]利用 主成份分析法來取得唇形影像的投影,此 外同時採用唇形輪廓來當分類器的輸入。 但是這些方法在處理唇形於時間軸上的動 態變化都沒有彈性,因此正確率在先天上 便會有所限制。在這裡,我們參考人臉辨 認領域裡常用的方法。Lee 等人[4]提出利 用外觀高維曲面來對影片中動態的人臉做 辨識。在此計畫中,我們利用類似的概念, 來對動態的唇形影像做身分確認。 在動態唇形身分確認上,我們先建立 唇形影像資料庫,對每一個使用者,我們 錄製數段使用者說出特定語彙時的唇形變 化影像 (如《圖一》)。 《圖一》使用者的唇形影像:某一使用者

唸 “image processing and pattern

recognition”時的某五張唇形變化影像。 1. 研究方法 為了考量不同的人說出同一句特定語 彙在時間軸上所造成的不同特徵,每個人 會擁有一個能描述自己唇形影像變化的外 觀高維曲面 (appearance manifold)。當得 到屬於每個人的外觀高維曲面後,對某張

(5)

3 測試唇形影像 I ,我們根據和 I 最接近的 外觀高維曲面來判斷 I 的身分。唇形影像 I 的身份k 可以利用下面式子決定: * ). , ( min arg * k H k d I M k = 其中dH代表唇形影像 I 和外觀高維曲面 k M 的最小距離。 每一個外觀高維曲面是由m個姿勢高 維曲面 (pose manifold)

{

m

}

C C ,...,1 組成。 對於每一個使用者,這方法使用下面三個 步驟來得到他的外觀高維曲面:首先,我 們收集有此使用者數段的連續唇形變化影 像,並利用K-means 分群演算來將這些連 續的唇形變化影像分成m個互斥子集合

{

S ,...,1 Sm

}

。之後,對每一個互斥子集合 k S ,我們對其使用主成分分析法,來得到 近 似 於 姿 勢 高 維 曲 面 k C 的 主 成 分 平 面 k L 。在得到所有姿勢高維曲面的近似後, 我們計算姿勢高維曲面之間的轉變機率。 此轉變機率可用來描述唇形影像在時間軸 上的變化。這方法定義轉變機率 ( j| i) C C p 為:

= − ∈ ∈ Λ = l q q i q j i j S I S I C C p( | ) 1 2δ( 1 )δ( ), 其中當Iq∈ 時,Sj δ(IqSj)=1,否則為 0。在此,Λ 的目的是為了確保對任一個姿 勢高維曲面 i C 而言,

= = m j i j C C p 1 1 ) | ( 。 接著,定義 ki C 為外觀高維曲面M 中k 的第 i 個姿勢高維曲面;並定義L 為利用ki 主成份分析法得到的用於近似姿勢高維曲 面 ki C 的主成份平面。給定一張唇形影像 I,它與外觀高維曲面M 之間的距離為與k 姿勢高維曲面的距離期望值:

= = m i ki H ki k H I M p C I d I C d 1 ) , ( ) | ( ) , ( 此外,我們用 I 與主成分平面L 之間的距ki 離來近似 I 與姿勢高維曲面 ki C 之間的距 離: ) , ( ) , ( ki H ki H I L d I C d ≈ . 同時,為了使p(Cki |I)能加入時間先 後的資訊,在每一個時間點 t,都將之前 在時間點為 0 到 t-1 的唇形影像都列入考 慮,即 ( | t, 0:t1) ki I I C p 。我們可以將此考 慮時間先後因素的事後機率寫成遞迴型 式: ∆ = − ) * ( | )* | ( , 0: 1 ki t t t t ki C I p I I C p α 其中

= − − − − = ∆ m j t t kj t kj t ki t C p C I I C p 1 2 : 0 1 1 1) ( | ) | ( 當 t=0 時,我們令∆=0。機率可能函數 為: ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Λ = 2 2 ˆ * 2 1 exp 1 ) | ( ki ki ki d C I P

σ

。 由上述方法,依事後機率: ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Λ = 1 exp 1 ( , ) ) | ( 2 2 dH I Mk I k p

σ

即可將此待辨識的唇形影像 I 辨識為 ) | ( max arg * I k p k k = 。 2. 待解的問題 在實作的過程中,此一方法目前仍有 下面三個問題尚待解決。 a. 距離定義的選擇問題: 《圖二》外觀高維曲面示意圖 x 為唇形影像 I 投影到主成分平面 後的點 (如《圖二》所示)。計算

(

,

ki

)

H

I

L

d

時,計算方法如下: B A ki H I L d d d ( , )=α* +(1−α)* 其中dA即為 I 與 x 之間的歐氏距離,dB為 x 與主成分平面中點的距離。目前我們設

(6)

定參數α 為 0,意即未將dA列入考慮,且 B d 的計算方法是使用歐氏距離。未來希望 可 以 使 用 瑪 氏 距 離 (Mahalanobis distance),將資料分布的特性加入計算, 期望能更精準地估計出 I 到姿勢高維曲面 的距離。 b. 取樣頻率問題: 當唇形變化影像的取樣頻率不夠高 時,外觀高維曲面沒辦法維持其連續的特 性。實驗結果通常沒辦法得到滿意的辨識 率。在未來的一年中,我們將設法利用影 像形變(image morphing)的方法來解決此 一問題。 c. 對位問題: 在拍攝唇形影像時,人臉的位置難免 有所移動,因此唇形的位置也會跟著移 動。我們目前並沒有去處理此一現象所帶 來的影像對位問題。當唇形影像沒有經過 正確的對位,會導致影像之間上下或是左 右差距數個像素,這問題會影響到之後辨 識的結果。在未來的一年中,我們將設法 解決此一問題。 四、光源環境的彈性分類與局部線性鑑別 分析(SCLC+LLDA) 光源對影像的影響是人臉辨識中最困 難的問題之一。如之前所提及的,此方法 首先會求出最佳的光源環境類別,再將訓 練 影 像 經 過 彈 性 光 源 分 類 (soft

classification of lighting conditions),最後配 合彈性分類的結果進行局部線性鑑別分析 [6] (locally linear discriminant analysis)。 1. 研究方法 給 定 一 組 N 維 的 影 像

}

{

z z zJ Z = 1, 2,..., ,每一個影像都屬於L 個 光源環境類別

{

Z1,Z2,...,ZL

}

中的一個。其 中任兩個光源環境類別的距離定義如下: j j j T i j i m m m m Z Z D( , )=1− 其中m 代表第 i 個光源環境類別的平均影i 像。 接著,我們可以定義最佳的一組光源 環境類別GK =

{

GK1,GK2,...,GKK},它可以 將G 和K GK間的距離縮到最小:

∉ = K j K Z G j K G OPT K D G Z G argmin ( , ) ) , ( min ) , ( i j G Z j K Z D Z Z G D K i∈ = 然而尋找最佳的一組光源環境類別是 屬於NP-Complete 的問題。以下的機制可 以求得一個近似解: 1. 以空集合初始化GK

}

{

φ = K G 2. 用一個索引值k1 執行到 K ,在每一 個回合都選擇最佳的GKk

∉ ∉ ∪ = K j K i Z G j i K G Z Kk D G Z Z G argmax ( , ) 《圖三》是我們實驗結果中K =14最 佳的光源環境類別,而《圖四》是光源環 境關係程度圖。 《圖三》在 K=14 中最佳的一組光源環境 類別:此圖顯示了最佳光源環境類別的平 均影像。 給定另一組 N 維的人臉訓練影像

}

{

x x xM X = 1, 2,..., 、每一張都屬於C 個人臉 類別

{

X1,X2,...,XC

}

中的一個,而對光源環 境的彈性分類結果vi =

{

vi1,vi2,...,viK

}

是一 個 K 維的向量,它的定義如下: ⎪⎩ ⎪ ⎨ ⎧ ≥ ⋅ = otherwise m x m x m x m x N v k i T i k i T i j ik 0 | || | 0 | || | 1 其中N 是一個正規化的常數: k

= = = K k ik k v N 1 1

(7)

5 《圖四》光源環境類別的光源環境關係程 度圖:圖中的第一行和第一列是索引,上 面放的是所對應的光源環境類別的平均影 像,而剩下的影像則是光源環境關係影 像。影像越白的圖表示所對應的兩個類別 關係程度高,反之則低。由上圖可知所得 的最佳光源環境類別彼此不相像,此正交 的關係更適合於表示所有光源的影響。 有了光源環境的彈性分類結果,我們 就可以將局部線性鑑別分析的轉換向量

{

k1, k2,..., kN} k u u u U = 列式如下:

= − = K k k i T k ik i v U x y 1 ) ( µ 而第k 個光源環境的平均影像µk定義如 下:

= = = M i M i ik i ik k v x v 1 1 ) /( ) ( µ 所有轉換過的向量的總體平均m~為:

∑∑

= = = − = = M i K k k i T k ik M i i v U x M y M m 1 1 1 ) ( 1 1 ~ µ 而含有M 個資料的第c c個類別的平均定 義為:

= ∈ = = K k ck T k X x c c y U m M m c 1 1 ~ 其中m 為第ck c個類別中屬於第k 個光源 環境類別的平均:

∈ − = c i X x k i ik c ck v x M m 1 ( µ ) 我們重新定義轉換後的類別間分散矩 陣及類別中的分散矩陣:

= − − = C c T c c c B M m m m m S 1 ) ~ ~ )( ~ ~ ( ~

∑ ∑

= ∈ − − = C c x X T c W c m y m y M S 1 ) ~ )( ~ ( ~ 而所求的轉換向量則是將以下的式子最大 化的解: W B S S J =(1−α)~ −α⋅ ~ 將Ju 偏微後可得到: kn

(

)

(

)

(

)

(

)

≠ = − − + − − = ∂ ∂ K k i i in ki ki kn k k kn u W B u W B u J , 1 2 1 2 2 1 2 α α 其中

= = C c T ck ck c k M m m B 1 、

= = C c T cj ci c ij M m m B 1 ( )( ) ( ) (( )( ) ) ∑ ∑ = ∈ − − − − = C c x X T ck k ck k k c m x x k p m x x k p W 1 | | µ µ ( )( ) ( ) (

(

)

(

)

)

∑ ∑ = ∈ − − − − = C c xX T cj j ci i ij c m x x j p m x x i p W 1 | | µ µ 運用微分的結果,我們可以用以下的 步驟得到一組最佳的u ,從kn n=1執行到 Nk =1到 K : 1. 隨機初始 K 個單位向量u 。 kn 2. 計算 kn u J ∂ ∂ ,並以適當的更新速率η更新 kn u : kn kn u J u ∂ ∂ ← ∆ η 3. 保持每一組解的正交性:

(

)

= − ← n i ki ki T kn kn kn u u u u u 1 4. 將所求的向量標準化: kn kn kn u u u ← 《圖五》則是我們求出的幾組u kn

(8)

《圖五》幾組所求的u :每一列最左方的kn 圖是所對應的類別的影像,剩下的圖則是 其前八個u 。 kn 2. 實驗結果 我們使用BANCA [7]人臉資料庫測試 我們的實驗結果。BANCA 資料庫中共有 1560 張人臉影像、26 個人。每人分 12 次 取像、一次取5 張,12 次取像中共有三種 光源環境。以下的實驗結果顯示我們的方 法所獲得的辨識率可高達93.3%。 《表一》BANCA 人臉資料庫的測試結果 FAR = FRR Min(FAR+FRR) Error Rate (%) FA FR TE FA FR TE PCA+LDA 21.0 20.5 20.8 21.2 15.5 18.4 SCLC+LLDA 14.0 12.6 13.4 7.9 8.7 8.3 SCLC+LLDA with best LCCs 9.5 8.7 9.1 9.3 4.1 6.7 五、計畫成果自評 在本年度的計畫中,我們的研究主要 是想利用人說話時嘴唇的動態資訊來進行 身份確認的工作。目前我們所採用的方法 是,針對待辨識的每一個人,將一連串的 唇形動態序列影像建成一個外觀高維曲 面,並使用主成分分析法來近似構成外觀 高維曲面的姿勢高維曲面,以節省資料庫 的存放空間。雖然目前仍有一些待解問 題,但此方法能彈性的抓取時間軸上的動 態資訊以達到高辨識率,是很值得繼續深 入研究的方向。下一年度我們將著重在解 決目前發現的待解問題,並擴大唇形資料 庫。而在解決光線變異性的問題上,我們 使用的局部線性方法同時擁有了線性方法 中的高效能和非線性方法中的高正確率。 但是目前的光源類別只考慮了單一光源的 情況,而多個光源的影像仍得靠對光源的 彈性分類來達成。下一年度我們會嘗試在 光源類別上增加非單一光源的資料,以及 嘗試其他求 SCLC+LLDA 轉換向量的解 法。 六、參考文獻

[1] Xiaozheng Zhang and C. C. Broun, “Using Lip Features for Multimodal Speaker Verification”,

In A Speaker Odyssey - The Speaker Recognition Workshop, Crete, Greece, June 2001.

[2] C. C. Broun, X. Zhang, R. M. Mersereau, M. Clements, “Automatic Speechreading with Application to Speaker Verification”, In Proc. ICASSP, Orlando, May 2002.

[3] Juergen Luettin, Neil A. Thacker, Steve W. Beet, “Speaker Identification by Lipreading”, in Proceedings of the 4th International Conference on Spoken Language Processing (ICSLP'96), 1996.

[4] K. C. Lee, J. Ho, M. H. Yang, D. Kriegman, “Video-Based Face Recognition Using Probabilistic Appearance Manifolds”,

Proceedings of the 2003 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2003), pp. 313-320, vol. 1, Madison, June, 2003.

[5] A.S. Georghiades and D.J. Kriegman, “Illumination Cone Models for Face Recognition under Variable Lighting and Pose”, IEEE Trans. on Pattern Analysis

and Machine Intelligence, vol. 23, no. 6, 2001, pp

643-660.

[6] Y.-K. Kim, J. Kittler, “Locally Linear Discriminant Analysis for Multimodally Distributed Classes for Face Recognition with a Single Model Image”, IEEE

Trans. Pattern Analysis and Machine Intelligence,

Vol. 27, no. 3, March 2005.

[7] Bailly-Bailliere, S. Bengio, and K. Messer et al. “The BANCA Database and Evaluation Protocol”,

International Conference on AVBPA, 2003, pp.

參考文獻

相關文件

Harrington (1994) 認為倫理規範的目的在闡明責任,其研究透過責任的否 認 (Denial of Responsibility, RD) 這項人格特質與倫理規範的互動來進行測 量,並以資訊系統相關的軟體盜拷

• 與資訊科技科、常識科、視藝科進行跨 科合作,提升學生資訊素養能力。圖書

電機工程學系暨研究所( EE ) 光電工程學研究所(GIPO) 電信工程學研究所(GICE) 電子工程學研究所(GIEE) 資訊工程學系暨研究所(CS IE )

認為它注重對四大師的研究而忽視支援這些大師布教活動的庶民之信仰的研 究。[13]

本研究將針對 TFT-LCD 產業研發單位主管與研發人員進行 探討,並就主管於研發人員對職能重視程度作差異性分析。因此

A digital color image which contains guide-tile and non-guide-tile areas is used as the input of the proposed system.. In RGB model, color images are very sensitive

本研究主要以 But-for 崩塌竣工時程分析技術為基礎進行理論推導,確認此延遲分析技術 計算邏輯之問題與完整性,之後提出修正之計算邏輯,使

譚志忠 (1999)利用 DEA 模式研究投資組合效率指數-應用