• 沒有找到結果。

人臉辨識系統,包括人臉的追蹤、截取與辨識。本實驗是在人臉辨識的領域 上做分析與探討,因此必須在假設影片中的人臉都有好的「追蹤」與「截取」的 情形下,而後再將追蹤與截取到的人臉影像來進行本研究方法之實驗。

本章之目的在於藉由實驗值的估算,來驗證本研究所提出的新方法 (a

Probabilistic Graphical Model)可在一串有序影像上之人臉辨識有所加強與改進。

另一方面,並和現有的技術比較,以歸結出本研究之方法的優勢之處與適用之環 境。

5-1 Honda/UCSD 資料庫

Honda/UCSD 資料庫中[36]有 20 人,每個人皆有兩段以上不同的影片,共 有 52 段影片。每段影片皆是在室內的環境下由 SONY EVI D30 所錄製,每秒有 15 張影像,而影像之解析度為

640 480 ×

,每段影片的長度至少 20 秒以上。

Honda/UCSD 資料庫之特點在於每段影片人的頭部皆有重大的 2-D 和 3-D 之 旋轉,如圖 5-1(a)、圖 5-1(b)和圖 5-1(c)所示。在每段影片中的前 15 秒內,人的 頭部通常都會有穩定的速度和規律的轉動,而剩餘的時間,人的頭部除了有較大 的轉動外,也會有表情的改變,如圖 5-1(d),與部份遮蔽的情況發生,如圖 5-1(e)。

Honda/UCSD 資料庫包含了許多真實世界的情況,是目前在影片上之人臉辨識 上最普遍且最具代表性的資料庫。

(a) Harsh 之人臉影像

(b) Hide 之人臉影像

(c) James 之人臉影像

(d) Chia 之人臉影像

(e) Jeff 之人臉影像

圖 5-1 在 Honda/UCSD 資料庫中,原始影像的一些例子

5-2 本研究使用 Honda/UCSD 資料庫之實驗

我們選取 Honda/UCSD 資料庫中 40 段影片,每個人皆有兩段不同的影片,

一段當訓練用的資料,另一段則是當測試用之影片,如圖 5-2。

圖 5-2 在 Honda/UCSD 測試用之資料庫中,截取出人臉影像的一些例子 5-2.1 訓練流程

在我們選取 Honda/UCSD 資料庫中 40 段影片,每個人皆有兩段不同的影片 且每段影片的長度皆大於 20 秒。每段影片經由追蹤與截取所得到的人臉資料都 必需縮放成一定的大小,如圖 5-2。從實驗結果得知,如表 5-1,若影像解析度 太高,容易受到雜訊的干擾,若解析度太低,又會使得影像失真過於嚴重,因此

縮放成 100x90 之像素大小能擁有最好的辨識結果。

表 5-1 影像解析度之大小對辨識率的影響

另一方面,為了將光線不同所造成的影響降至最低,所有縮放至相同大小的

影像在訓練前,必須先經過前處理。我們做過以下兩種嘗試,如表 5-2,分別為 直方圖等化(hist equalization)和正規化(normalization:

( ) , :

new

( )

method normalization histogram equalization Accuracy 69.54% 80.17%

當所有訓練用之人臉影像縮放至相同大小並且做完直方圖等化後,接下來依 Resolution 80x72 100x90 150x135 200x180 Accuracy 79.05% 80.17% 78.84% 78.62%

中提到,相鄰兩張影像,我們必須計算出人與人的相似機率,即是當資料被降至 低維後,採用 Eq.(20)和 Eq.(21) 所估算出來的 20x20 的遞移矩陣 ( ,0TTij ≤ 。 1)

表 5-3 使用 2DLDA 將高維資料降至低維後的辨識率 dim

accuracy 3x3 4x4 5x5 6x6 7x7 8x8 9x9 2DLDA 63.80% 74.23% 80.17% 78.43% 76.86% 73.91% 69.44%

0

表 5-4 從訓練用之人臉影像所計算出的不同人之姿勢遞移機率表

最後再對 20 人的姿勢遞移機率取平均,即為屬於此 20 人的人臉姿勢變化的 遞移機率表,如表 5-5 所示。

表 5-5 人臉姿勢變化的遞移機率表 t

t-1 左- 90 左- 45 正 右- 45 右- 90 上 下 左- 90 0.8144 0.1257 0.0258 0.0078 0.0024 0.0012 0.0227 左- 45 0.0786 0.7158 0.1487 0.0048 0.0035 0.032 0.0166 正 0.0011 0.0235 0.9154 0.0261 0.0018 0.0152 0.0169 右- 45 0.0086 0.0001 0.1588 0.6805 0.1034 0.0392 0.0095 右- 90 0.0001 0.0027 0.0387 0.0894 0.82 0.0443 0.0048

0.0024 0.0361 0.0705 0.0322 0.0167 0.821 0.0211 下 0.0044 0.0406 0.1275 0.0218 0.0015 0.0198 0.7843 5-2.2 辨識結果分析

本小節,將我們在第四章提出的論點分成二個部份來驗證。

第一個部份為將章節 4-3.1 所提出之「人與人的遞移機率(person transition)」

加入單張人臉影像辨識中。表 5-6 為單張人臉影像辨識(without transition)以及加 入人與人的遞移機率(person transition)之比較,當資料採用二維線性鑑別分析法 (2DLDA)降至5 5× 維後,若加入「人與人的遞移機率」可將先前時間點的辨識結 果保留住並且修正了大部份零星的錯誤,因此提高了 7.16%的辨識率,對一串有

序影像之人臉辨識有著很大的幫助。

表 5-6 單張影像之人臉辨識與加入人和人的遞移機率之比較 transition type

(dim= 5 5× ) without transition person transition Accuracy 80.17% 87.33%

第二個部份為將章節 4-3.2 中所提出的「人臉姿勢變化的遞移機率(pose

transition)」再加入第一部份的實驗中。研究發現,大部份影像在辨識錯人的情 況下,姿勢都不會判錯,也就是說,若出現連姿勢也辨識不正確的重大錯誤情況 時,人臉姿勢變化的遞移機率便可將辨識結果修正為正確的結果。

當此串影像在某個時間點產生錯誤的辨識結果時,主要是因為此錯誤的辨識 結果與正確的辨識結果很像,我們可以將「很像」分成兩類來說明:(一) 不同 人在同個姿勢很像 : 表示在此時間點,錯誤與正確的辨識結果都可辨識出相同 的姿勢,因此需靠此張影像與他們各別的相似度以及人與人的遞移機率來修正結 果;(二) 不同人在不同個姿勢很像 : 表示在此時間點,錯誤與正確的辨識結果 會辨識出不同的姿勢,此時即可藉由姿勢轉換的遞移機率來修正結果。由表 5-7 所示,加入人與人的遞移機率(person transition)可以修正大多數單張影像之人臉 辨識的錯誤情況,若再加入姿勢轉換的遞移機率(pose transition),則是在檢查整 串影像是否有連姿勢也判斷錯誤的情況發生,而予以修正,因此可再提升 3.34%

的辨識率。實驗結果說明了,加入兩種遞移機率(person and pose transition)可比 傳統的單張影像的人臉辨識高出 10.5%的準確度,也可得知一段影片中,相鄰影 像間資料相關性的重要性。

表 5-7 單張影像之人臉辨識與加入兩種遞移機率之比較 transition type

(dim= 5 5× ) without transition person transition person and pose transition Accuracy 80.17% 87.33% 90.67%

只會有一個辨識結果,因此我們必需對欲測試用之人臉影像以固定的大小裁切成 一段段較短的影片[27][15],若裁切的大小(window size)越大,即表示在每小段影 片中,保留下較多先前影像的辨識結果,因此一般來說會得到較高的辨識率。如 表 5-8 可發現隨著裁切大小(window size)變大,辨識率也會逐漸上升,但裁切大 小也不能過大,否則會造成少數結果決定整體辨識率的情況,本實驗之辨識率估 算皆是採用裁切大小為 110,將 20 段欲測試用之影片分成 58 小段來估算的辨識 結果。

表 5-8 不同的 window size 所測出的辨識率

5-2.4 機率分佈圖之探討

本實驗把影片上之人臉影像辨識過程分成三個小部份來研究,在章節 4-2、

章節 4-3、章節 4-4 有詳加描述。圖 5-6 為描述此人M 由正臉(Fr)到出現右臉(6 R90 ) 的有序影像,在四個時間點

t = 52

t=55,t=57,

t = 59

時的機率分部情況。

第一行表示當下時間點,此待測之人臉影像和M ,1 M ,6 M 這三個人的相似度;10 第二到四行分別表示當下時間點,此待測之人臉影像屬於M ,1 M ,6 M 的哪一10 個姿勢;第五行為使用本研究提出之方法,從第一張影像累積到當下時間點之辨 識結果。由實驗結果發現,原先,在時間點

t = 52

時,屬於M 的機率最高,在10 時間點t=55時,M 的姿勢判斷錯誤,由10 R45 判斷成 Fr ,而後在時間點t=57 時,M 和6 M 有相近的相似度之情況下,由於10 M 有正確的姿勢判斷,因此有較6

window size 70 90 110 Accuracy 89.58% 90.25% 90.67%

高的姿勢遞移機率,因此在時間點t=57時,屬與M 的機率會最高,即得到正6 確的辨識結果,而後在時間點

t = 59

時,也會藉由人與人之遞移機率保留先前的 正確辨識結果,因此屬與M 的機率也會最高。 6

圖 5-5 在四個時間點的機率分部情況

5-3 單張影像上人臉辨識技術之比較

本節的實驗為將傳統的單張影像之人臉辨識技術和本研究方法做比較,以歸 納出加入相鄰影像間的時間資訊後,能比單張影像之人臉辨識技術擁有更高的辨 識率[22]。而比較的技術其一為廣為大家使用的「特徵臉(EigenFaces)」,使用主 要成份分析法(PCA)將所有訓練用之影像從高維(9000 維)降維至 30 維之子空間 中;其二為「費雪臉(FisherFaces)」,使用了線性鑑別分析法(LDA),將所有訓練

用之資料降維至 19 維之子空間中(線性鑑別分析法(LDA)因為不同組間散佈矩陣 之限制,最多只能降至類別數減一維);而最後一種為「最近鄰居法(Nearest

Neighbor)」,即是不需要任何降維動作,直接將資料在 9000 維的高維空間中做 比對,而本研究所提出之方法,則是採用二維的線性鑑別分析法(2DLDA)將影像 降至 5 5× 維之子空間中,並且加入遞移機率。表 5-9 為使用 Honda/UCSD 資料 庫,在各個技術上與我們提出的方法做比較,驗證出本研究所提出之方法因加入 了相鄰影像之重要資訊,因此能比單張影像之人臉辨識技術提升近 10%的辨識 率。

表 5-9 本研究方法和三種單張影像之人臉辨識技術之比較

Method Accuracy EigenFaces(30-dim) 69.30%

FisherFaces(19-dim) 74.50%

Nearest Neighbor 81.60%

Only 2DLDA 80.17%

Our propose method(25-dim) 90.67%

5-4 使用 VIPlab 資料庫之辨識結果

VIPlab 資料庫有 20 個人,每個人皆有兩段影片,共 40 段影片。每段影片皆 是在室內的環境下由 Panasonic DMC-TZ3 所錄製,每秒有 10 張影像,而影像之

解析度為

320 240 ×

,每段影片至少 15 秒以上。VIPlab 資料庫之特點在於每段影

片除了人的頭部有重大的 2-D 和 3-D 之旋轉外,還在頭部旋轉的過程中加上表 情的變化,如圖 5-7(a)、圖 5-7(b),或者是加上手的遮蔽和物體的遮蔽,如圖

5-7(c)、圖 5-7(d),以及一些現實中會發生的情況,如圖 5-7(e)。

VIPlab 資料庫和 Honda/UCSD 資料庫有兩個不同的地方: (一) 在 VIPlab 資 料庫的測試影片中,某個時間點常會碰到兩個以上問題同時發生的情況,例如:

表情的變化與頭部的旋轉、遮蔽與頭部的旋轉等等,而 Honda/UCSD 資料庫當 有表情的變化或者是遮蔽的情況時,通常人的頭部都是正臉的;(二) VIPlab 資料 庫的所有訓練與測試之影片,都是在同一天,同個環境下完成的,因此降低光線 的影響,而 Honda/UCSD 則有一部份人的訓練與測試不是在同天拍攝的。

(a) Asilverfox 之人臉影像

(b) Sibevin 之人臉影像

(c) Jarway 之人臉影像

(d) Yichia 之人臉影像

圖 5-6 在 VIPlab 資料庫中,原始影像的一些例子

(e) Jiya 之人臉影像

圖 5-6 在 VIPlab 資料庫中,原始影像的一些例子

表5-10為本研究方法在VIPlab資料庫與Honda/UCSD資料庫上之辨識率。

由此可看出,在不同條件下,我們依舊可以達到90%以上的辨識率,因此可證 明本研究方法的強健性。

表 5-10 使用本研究方法於 VIPlab 資料庫與 Honda/UCSD 資料庫上之辨識率

dataset VIPlab Honda/UCSD

Accuracy 92.4% 90.67%

第六章 結論與未來展望

本研究在影片上之人臉辨識上套用本論文所提出的演算法,一方面使用二維 影像直接降維來保留原始影像的空間資訊,另一方面,建構 PGFR 模型,並且藉 由兩個遞移機率來包含相鄰影像間的時間資訊,使得辨識結果在加入本論文所提

本研究在影片上之人臉辨識上套用本論文所提出的演算法,一方面使用二維 影像直接降維來保留原始影像的空間資訊,另一方面,建構 PGFR 模型,並且藉 由兩個遞移機率來包含相鄰影像間的時間資訊,使得辨識結果在加入本論文所提

相關文件