中華大學碩士論文

(1)

中華大學碩士論文

偵測與追蹤無縫隙結合的多人臉追蹤技術 Seamless Integration of Multi-Face Detection

and Tracking Method

系所別：資訊工程學系碩士班學號姓名：M09502065 張倞禕指導教授：黃雅軒博士

中華民國 100 年 8 月

(2)

摘要

本論文提出一種與人臉偵測處理緊密結合的人臉追蹤技術。一開始得到人臉區域之後，會先隨機取樣並使用隨機產生的海爾特徵來計算特徵值，接著利用結合多實例學習及 Online-AdaBoost 等概念的 Online-MILBoost 演算法來訓練人臉追蹤模型，

然後使用訓練出來的追蹤模型來進行人臉的追蹤。為了避免在追蹤時錯誤的持續累積，我們在追蹤到的人臉區域附近，進行人臉偵測處理，當偵測到人臉時，則利用人臉偵測結果的位置和人臉大小來取代追蹤的資訊，以達到更好的追蹤效果。本論文也對多人臉追蹤時的遮蔽狀況進行改善處理，首先，會利用遮蔽判斷流程來判斷是否有人臉被遮蔽，若遮蔽情形發生，則會在遮蔽者的附近產生候選區域，並利用連續性差異影像(Temporal difference image)結合膚色偵測(Skin color detection)的結果來從候選區域中進行初步篩選，再利用被遮蔽者被遮蔽前的臉部顏色及人臉追蹤模型，來判斷其是否重新出現，若被遮蔽者重新出現，則在其出現的位置上繼續進行追蹤。

實驗所採用的資料庫是本實驗室自己所建立的，該資料庫中，包含單一人臉資料庫以及多人臉資料庫。單一人臉資料庫具有各種角度、方向及大小的人臉，而在多人臉資料庫中，則有各種不同的遮蔽情況。本論文所提出的方法，對單一人臉的追蹤，在有限制角度(< ±90^°)的追蹤情形下，可以得到高達 94.1%的正確率，而無限制角度的追蹤仍有 87.9%的正確率；對多人臉的追蹤，於正面遮蔽的情形下，在總共 33 次重疊中，當他們分離時，有 26 次可以正確的還原追蹤，於側面遮蔽的情形下，在 30 次重疊中仍有 20 次可以還原追蹤。這些實驗顯示本論文所提出的多人臉追蹤技術，具有相當優異的執行效果。

關鍵字: 人臉追蹤、多實例學習、遮蔽偵測、遮蔽還原

(3)

ABSTRACT

This paper presents a face detection process and integration of face tracking technology.

Face region to get started after a random sampling will be randomly generated and used to calculate the characteristic features of the value of Haar, and then use with

multi-instance learning and Online-AdaBoost concepts such as Online-MILBoost face tracking algorithm to train the model, then use of trained tracking model for face tracking.

In order to avoid the continued accumulation of tracking error, we track the face region in the vicinity, the face detection processing, when the detected face, then use the results of face detection and face the size of the position to replace tracking, in order to achieve better tracking results. The paper also covered when people face tracking to improve the status of processing, first of all, will determine the use of masking process to determine whether the face was obscured, if the occlusion to happen, it will produce in the shelter near the candidate's area, and the use of temporal difference image with skin color detection the results from the preliminary screening of candidate regions, recovery of occluded faces were ^occludedbefore the color and face tracking model to determine whether reappear, if they are covered by the reappear, appear in the position to continue its track.

Database used in the experiments of this laboratory established themselves, the database, the database contains a single face, and people face database. Single face database with a variety of angles, direction and size of the face, but many people face in the database, there are a variety of shelter situation. The method proposed in this paper, a single face tracking in a restricted angle(< ±90^°) tracking the case, can be as high as 94.1%

accuracy rate, but there is still unlimited angle of track 87.9 % accuracy; for more than face tracking, in the case of the front shield, a total of 33 overlapping, when they

(4)

separated, there 26 can restore the right track, in the sheltered side of the case, in 30 overlap, there are still 20 tracks can be restored. These experiments showed that more than proposed in this paper face tracking technology, excellent execution with considerable effect.

Keywords: Face Tracking, Multi-Instance Learning, Occlusion Detection, Occlusion Recovery

(5)

致謝

首先誠摯感謝我的恩師黃雅軒博士，在課業研究上給予我相當多的指導和鼓勵，

不時的討論並指點我正確的方向，使我在研究所的期間獲益匪淺。在老師的身上我看見了對學問的執著，也很希望將來的自己能對該堅持的事情有所堅持，不為外在的環境而屈服。

感謝實驗室的學弟莊順旭、許廷嘉、陳禹仲、王勻駿、彭國達、李允善、歐志鴻、陳冠豪、林啟賢和吳東懋，在一同研究時互相幫助和砥礪，並從旁提供了我寶貴的建議，給予我在研究過程中很多幫助，讓我能更快速的完成研究。

最後感謝我最愛的家人與親戚朋友，感謝他們給我的關心、支持與鼓勵。特別感謝我的父母，讓我在就學期間不用擔憂生活，能專心致力於研究工作。僅以此文獻給我摯愛的親人朋友。

(6)

表目錄

表 4-1、更新率設定方式 ... 21

表 5-2、系統實驗環境 ... 31

表 5-3、固定更新率與動態更新率正確率比較表 ... 35

表 5-4、加入第二個停止機制正確率 ... 36

表 5-5、加入適應性搜尋範圍正確率 ... 36

表 5-6、效能比較表 ... 38

表 5-7、正面遮蔽之遮蔽還原的實驗結果 ... 39

表 5-8、側面遮蔽之遮蔽還原的實驗結果 ... 39

表 5-9、追蹤錯誤情形比較表 ... 42

(9)

圖目錄

圖 3-1、擷取樣本示意圖 ... 8

圖 3-2、傳統海爾特徵示意圖 ... 8

圖 3-3、隨機海爾特徵示意圖 ... 9

圖 3-4、積分圖像示意圖 ... 10

圖 3-5、積分圖像計算特徵值示意圖 ... 10

圖 3-6、Online-MILBoost 演算法... 12

圖 3-7、物件追蹤最佳位置判斷流程圖 ... 14

圖 4-1、單一人臉追蹤系統流程圖 ... 18

圖 4-2、人臉影像取 HSV-Hue 示意圖 ... 23

圖 4-3、多人臉追蹤系統流程圖 ... 25

圖 4-4、人臉重疊示意圖 ... 26

圖 4-5、連續影像相減示意圖 ... 27

圖 4-6、膚色偵測示意圖 ... 28

圖 4-7、連續影像相減結合膚色偵測示意圖 ... 29

圖 4-8、候選區域示意圖 ... 30

圖 4-9、最後挑選出的候選區域示意圖 ... 30

圖 5-1、單一人臉追蹤資料庫 ... 32

圖 5-2、多人臉追蹤資料庫 ... 34

圖 5-3、無遮蔽追蹤區域與正確解答重疊示意圖 ... 34

圖 5-4、單一人臉追蹤系統執行結果 ... 38

圖 5-5、多人臉追蹤系統執行結果 ... 41

圖 5-6、單一人臉追蹤錯誤情形 ... 42

圖 5-7、多人臉追蹤錯誤遮蔽判斷情形 ... 43

(10)

第一章緒論

1.1 研究動機

由於經濟蓬勃發展及犯罪率攀升，使得保全系統越趨重要，然而早期常用如密碼、

磁卡作為身份確認有其缺失，如密碼破解、卡片遺失等風險；故使用生理特徵來作為保全機制，如人臉、指紋、虹膜、語音等，用這些生理特徵來作為保全系統的認證機制會較為可靠。而人臉識別辨識的先決條件，就是如何在影像中，過濾掉不必要的雜訊 ( 背景及前景中非人臉部分等 )，尋找出需要的人臉區域並標定出正確的位置，

以作為移動追蹤、身份確認之應用。

多數利用人臉的認證系統前置作業為人臉偵測，而所偵測到的人臉位置正確與否，

將會影響辨識人臉演算法整個系統的效能，然而，人臉偵測還是存在許多問題需要解決，如：人臉的角度限制、人臉的大小、背景及光源的影響等，若此時，利用人臉追蹤技術來輔助人臉偵測處理，將可提升人臉偵測的效果。

在各種的辨識系統中，可以得知使用者的身份，但卻無法得知使用者何時出現在何地以及紀錄使用者所移動過的路徑，若希望得知使用者更詳細的動作及歷程，就必須使用追蹤技術，以得知使用者的所有行動。

而在一般的監視系統中，監視攝影機的裝設位置都是固定的，只能監視單一視角，

若畫面中有人臉出現並移動中，很快的就會從畫面中消失，若希望能夠監視更廣泛的區域，就必須架設大量的攝影機，但同時也會耗費大量金錢。此時若使用可動式攝影機並結合追蹤技術，將可提升攝影機的監視範圍，也減少了架設多攝影機所產生的浪

(11)

費。

1.2 論文架構

本論文總共分為七章，各章節內容安排如下：

第一章說明本論文的研究動機與論文架構。第二章介紹人臉追蹤的相關研究。第三章介紹所使用的主要追蹤技術，首先會對整個追蹤模型的概念作介紹，接下來介紹本論文所使用的隨機取樣方式，當得到所需的樣本之後，會利用隨機產生的海爾特徵進行特徵值的計算，並以 Online-MILBoost 演算法訓練出人臉追蹤模型來進行追蹤，

之後，再以此追蹤到的物件來更新追蹤模型，以讓接下來的影像繼續追蹤。第四章為本研究的主要核心技術，除了包含人臉偵測的追蹤處理、單一人臉追蹤技術的改善與多人臉追蹤等相關技術，也包含在多人臉中所產生的遮蔽問題及如何從遮蔽中還原的處理方法。第五章為實驗與分析，本論文採用本實驗室所建立的資料庫來進行效能驗證。第六章為結論和未來展望，它總結本論文的研究成果，並對未來可繼續研究的方向做一個說明。

(12)

第二章相關研究

移動物件追蹤近年來已經有許多的研究與方法被提出來，追蹤移動物件的步驟主要分成兩個部分，第一部分主要的關鍵在於找出頁框中移動的區域透過這些資訊來將影像分成前景和背景，第二部份則是將這些移動資訊透過一些特徵轉換以及比對的方法在畫面與畫面間找出移動物件的所在位置。

第一部分前、背景分離方面，最簡單常見的方式就是利用一張背景影像和目前畫面相減的背景相減法(Background Subtraction) [1]，以得到有變化的前景。其他還有光流法(Optical Flow Method)[2]，透過計算物體運動資訊，結合由空間中物體移動而產生亮度變化以及相鄰視訊畫面之像素差值進行分析以偵測移動物件的區域。另外，時間-空間梯度法(Temporal-spatial method)則是利用移動物件的邊緣來分割出移動物件。

以上的方法中，背景相減法因實作很簡單，是多數人會採用的方法。然而，對於會變動之背景，此方法卻無法精確的擷取運動物體。因此，後來就有不少人提出透過建立背景模型的方式配合進行動態的更新作業，來取代使用固定靜態背景影像當參考背景方法。也有一些方法是透過畫面與畫面間各像素的改變，訂定一個規則去建立或更新出新的背景以分離前景與背景。

第二部分有關物件的追蹤和比對方面，大致上方法可分成兩個主要類別。一種是利用前後畫面經過比對的方式找出影像中具有變動的區域，然後再利用這些區域去組何出所追蹤物件的對應位置。如[3]所提出的使用區塊比對演算法(Block Matching Algorithm)來追蹤移動物件。首先找出運動物件的對應區域，再計算位於運動區域中每一塊區塊的運動向量，統計出現次數最多的運動向量代表該物體的運動向量，再依此運動向量估計物件大概的位置，藉此可以降低追蹤物件的複雜度。另一種是先定出

(13)

所要追蹤物件的一些假設，然後再針對影像去找出是否存在假設的物件，像是以模組為基礎的追蹤方法，或是以樣版為基礎的追蹤方法，而 Mean Shift[4]、粒子濾波器 [5][6](Particle Filter)及 Online-MilBoost 演算法[10]是屬於此類且目前最常見的三種追蹤方法。

Mean Shift 是一種遞迴的物件追蹤方法，它的概念是根據前個畫面所在位置當起始點，然後在目前的畫面透過計算周圍差異值的大小，找出差異在目前畫面中遞減的方向，然後在該方向上找到一個位置當成新的起始點，再重覆此動作一直找尋，直到差異值不再改變或是變動小於某個門檻值就停止，最後找到的位置就是追蹤的結果。

粒子濾波器通常是用在複雜環境中的物件追蹤方法。假設我們已知要追蹤的物件目標區域，一開始會針對這個目標區域加上隨機變動即可產生新的樣本集合，每一個新的樣本都可視為下個畫面中物件可能的目標區域，這些樣本就是所謂的「粒子」

(Particle)。有了新樣本的集合後，在下一個畫面中，每一個樣本所定義的可能目標區域所對應的影像都會經過適當的幾何轉換以及特徵抽取，然後與預先儲存的目標樣版進行比對，比對後，每個樣本目標區域即可得到一個與樣版之間的相似度大小值。取得每個樣本目標區域與目標樣版的相似度之後，每一個樣本即可根據其相似度計算出一個權重，這些樣本的權重會依線性調整的方式使其總和為 1。各樣本有了各自的比重，就可以用加權和(Weighted Sum)的方式，利用每個樣本的位置和權重的加權和算出一個最後的目標區域，而此算出的目標區域就是目前這個畫面的新目標位置。

Online-MilBoost[10]為結合 Online-AdaBoost[7]與 Multiple-Instance Learning[8]概念的一種演算法。它是藉由疊代訓練的過程中，挑選出理想的特徵，並使用這些特徵，

來建構偵測模型，論文[9]中，顯示出此偵測方法具有相當優異的偵測效果。近年來

(14)

以偵測為基礎的追蹤常被應用在物件追蹤問題上，當得到物件的初始位置後，會訓練偵測模型，並在新的畫面中，利用偵測到的結果，來當成我們追蹤到的新位置。

(15)

第三章以多實例學習為基礎的物件追蹤方法

多實例學習（Multiple-Instance Learning, MIL）是將大量具有混淆(Ambiguity)性質的樣本範例(Instance)，依所給予的標籤(正向或負向)來訓練並從中學習的一個理論，

類似於監督式學習。訓練過程中，樣本是以集合的形式被呈現，在此稱為 bag。在追蹤系統中，只將 bag 分為正向 bag 與負向 bag 兩種類別。

一個負向 bag 中，表示 bag 內所有的 instances 都不是我們感興趣的物件，而正向 bag 中，則至少會有一個 instance 是我們感興趣的。當得到正向 bag 與負向 bag 後，

主要的目標在於從訓練過程中，以疊代處理的方式，陸續找出於正向 bag 中的 instances 彼此相近且與負向 bag 的 instances 完全相異的特徵，這些特徵即是最接近使用者所要之理想特徵，也是我們用來建構追蹤模型的依據。

本論文中的人臉追蹤技術，是採用了 B. Babenko、M.-H. Yang 和 S. Belongie 所提出的追蹤演算法[10]。此演算法利用當下被追蹤物件的位置，於其附近範圍隨機取樣多個有意義的正向訓練樣本，並於較遠的範圍中也隨機取樣出多個負向樣本。然後在這些正向和負相的樣本中使用隨機產生的海爾特徵[20]，來計算不同位置及不同大小的區塊特徵值，而計算特徵值時會以積分圖像(Integral Image)的轉換來加速特徵值的計算。最後使用了結合多實例學習及 Online-AdaBoost 等概念的 Online-MILBoost 演算法來訓練人臉追蹤模型。當追蹤時，會給定一個搜尋區域，然後從搜尋區域中隨機取樣，並利用前面所訓練出來的追蹤模型來計算所擷取樣本的分數，再將分數最高的樣本位置當成我們追蹤到的位置，最後從得到的新位置來更新追蹤模型，再據以做為後續的追蹤使用。

(16)

3.1 隨機樣本取樣方式

由於在即時追蹤系統中，我們能夠取得的樣本數量有限，當樣本數量過少，所得到的資訊量就不足，追蹤模型就不容易強健(Robust)，而 MIL 理論中，也是從多樣本當中，找出理想的特徵，所以我們利用目前位置區域隨機取樣的方式來增加追蹤及訓練時所需的樣本數，擷取的樣本包含正向 bag 與負向 bag，擷取方式如下：

正向 bag：

𝑋^𝑟 = {𝑥 | 𝑟 > ‖ 𝑙(𝑥) − 𝑙_𝑡^∗ ‖ } (3.1)

負向 bag：

𝑋^𝑟,𝛽 = {𝑥 | 𝛽 > ‖ 𝑙(𝑥) − 𝑙_𝑡^∗ ‖ > 𝑟} (3.2)

其中 𝑙_𝑡^∗ 為物件原始位置，x 為一個影像點，𝑙(𝑥)為 x 影像點的位置，r 是一個整數半 徑，β 是另一個比例的整數半徑。

所以在經過人臉偵測得到人臉位置(如圖 3-1 中之黃色框) 𝑙_𝑡^∗ 後，我們可以得到 位移 r pixels 內影像為 positive sample (如圖 3-1 中之綠色框)及位移介於 r 和 β 之間 的影像為 negative image (如圖 3-1 中之紅色框)。

(17)

圖 3-1、擷取樣本示意圖

3.2 隨機海爾特徵( Randomized Haar Features )

AdaBoost[11][12]為近幾年來，相當熱門的一種特徵選取演算法，在訓練前必須先決定採用哪些特徵來給予挑選，傳統的海爾特徵在一張樣本中，不同位置、方向、

角度以及大小可以組合出無限多種組合，但是在追蹤系統中，由於必須即時訓練及運算，所以訓練樣本必須要在有限個數內以達到即時運算的要求，傳統的海爾特徵如圖 3-2 所示。

圖 3-2、傳統海爾特徵示意圖

若使用傳統的海爾特徵，當限制了特徵的種類，這些特徵可能無法很有效的代表整張影像的特徵，所以在本論文中，我們使用了隨機產生的海爾特徵，它能夠產生有限且

(18)

較能代表整張影像的特徵組。隨機海爾特徵產生方式如下：

𝑓(𝑥) = Σ_𝑖=1^𝑛 𝑤_𝑖 ∙ 𝑅𝑒𝑐𝑡_𝑖(𝑥) 𝑛 = 𝑅𝑎𝑛𝑑(𝑝, 𝑞)

𝑤_𝑖 = 𝑅𝑎𝑛𝑑(−1,1)

𝑅𝑒𝑐𝑡_𝑖 = 𝑅𝑎𝑛𝑑(x, y, image_width, image_height) (3.3)

其中，f(x)為產生的一組特徵值，每組特徵由 n 個特徵所組合起來，其個數為 p 至 q 中隨機產生；𝑤_𝑖為每個特徵的權重值，其值由-1 至 1 之間隨機產生；而𝑅𝑒𝑐𝑡_𝑖為一個特徵的位置及長寬，其位置及長寬由樣本影像中隨機產生。隨機海爾特徵如圖 3-3 所示：

圖 3-3、隨機海爾特徵示意圖

3.3 積分圖像( Integral Image )

在計算特徵值時，由於追蹤位置可能會出現在影像中任何區塊的位置，造成必須計算相當龐大數目的特徵值。如此一來，如何提升特徵的計算速度，就變成了重要的

(19)

議題。為了解決計算量的問題，Viola 和 Jones[21]提出了積分圖像的計算方式如下：







y y x x

y x i y

x ii

' , '

) ' , ' ( )

,

( (3.4)

其中，i( yx, )為原始影像中座標( yx, )的影像點灰階值，而ii( yx, )為積分圖像中座標 )

,

( yx 的影像點值，代表從座標(0,0)到座標( yx, )所對應矩形區域的原始影像之影像灰階值總和，如圖 3-4 所示。圖 3-5 為一張積分圖像，而區域Ｄ的影像值總和的計算方式為 4-2-3+1，所以在積分圖像中任何矩形區域的影像灰階值總和，只需用一次四則運算即可求得。

圖 3-4、積分圖像示意圖

圖 3-5、積分圖像計算特徵值示意圖

(20)

3.4 Online-MILBoost 演算法

AdaBoost 近幾年來主要的應用是用來進行物件偵測，如人臉偵測、眼睛偵測和嘴角偵測等[13][14][15][16]。AdaBoost 主要是由 Boost 改良而來，Boost 的想法是利用後面的分類器來補足前面分類器辨識的不足，概念如下：

H_𝑘(𝑥) = ∑^𝐾_𝑘=1ℎ_𝑘(𝑥) (3.5)

其中，x 為一張影像中的一個區域，ℎ_𝑘(𝑥)是第 k 個弱分類器(Weak Classifier)，H_𝑘(𝑥)為 K 個弱分類器所組成的強分類器，而每個弱分類器ℎ_𝑘(𝑥)，是由隨機海爾特徵以及四個參數(𝜇₀, 𝜎₀, 𝜇₁, 𝜎₁)所組成，定義如下：

ℎ_𝑘(𝑥) = log [^𝑝_𝑝^𝑡^{(𝑦=1 | 𝑓}^𝑘^(𝑥))

𝑡(𝑦=0 | 𝑓_𝑘(𝑥))] (3.6)

其中，

𝑝_𝑡(𝑦 = 1 | 𝑓_𝑘(𝑥)) = exp (−^(𝑥−𝜇_2𝜎^𝑘1⁾²

𝑘12 ) 𝑝_𝑡(𝑦 = 0 | 𝑓_𝑘(𝑥)) = exp (−^(𝑥−𝜇_2𝜎^𝑘0⁾²

𝑘02 ) (3.7)

此時，𝜇_𝑘1與𝜎_𝑘1為第 k 個弱分類器中正向樣本特徵模型的平均值與標準差，𝜇_𝑘0與𝜎_𝑘0則 為第 k 個弱分類器中負向樣本特徵模型的平均值與標準差，而 y 為正向或負向的標籤 (y = 1 為正向，y = 0 為負向)。

由於傳統的 Adaboost 訓練模型時會耗費大量時間，無法用於須要即時訓練及更新的追蹤系統上，Online-AdaBoost 則改進此一缺點，利用隨機選取的有限個特徵來建構弱分類器，並藉由疊代訓練過程中，挑選出最好的一些弱分類器，最後使用更新

(21)

弱分類器的方式，使其演算法來適應新的樣本。在本論文中，使用的是結合了 Multiple-Instance Learning 與 Online-Adaboost 等概念的 Online-MILBoost 演算法來進行人臉追蹤。

在開始追蹤之前，我們必須先訓練出一組追蹤模型，在訓練的時候使用的是 Online-MILBoost 演算法來進行訓練，其詳細的演算法流程如圖 3-6 所示。

圖 3-6、Online-MILBoost 演算法

(22)

一開始會給定 N 個 bag 的訓練樣本， Xi為第 i 個 bag，其類別標籤 yi為 0 或 1，

分別代表負向樣本與正向樣本標籤，Pi為 Xi中樣本張數，Xi = {𝑥_𝑖1, 𝑥_𝑖2, … 𝑥_𝑖𝑗}_𝑗=1^𝑃^𝑖 ，其 中 x_ij為 X_i中的第 j 張樣本。接下來會先給定 M 個弱分類器，每個弱分類器對應一組 隨機產生的海爾特徵，並利用一開始給定的樣本集(Xi ~XN)，分別計算出每個弱分類 器正向樣本與負向樣本模組特徵的平均值與標準差，接著進行 K 次的疊代訓練，每 次疊代訓練分別計算出樣本 x_ij對應第 m 個弱分類器的分數 𝑝_𝑖𝑗^𝑚、樣本集 X_i對應第 m 個弱分類器的分數 𝑝_𝑖^𝑚以及第 m 個弱分類器的誤差率ℒ^𝑚，每一次疊代完成時會選出 一個最小誤差率的弱分類器，並將它加入強分類器 H(x)的建構中，最後我們可以經由 多次疊代，得到由 K 個弱分類器組成具有最佳辨識效果的強分類器。

3.5 物件追蹤最佳位置的判斷流程

在訓練完追蹤時所須的追蹤模型後，我們依據以下流程來進行追蹤。詳細流程圖如圖 3-7 所示。

(23)

圖 3-7、物件追蹤最佳位置判斷流程圖

當新影像進來時，會依據追蹤模型中物件區域的長寬比例給予一個搜尋範圍，並利用隨機取樣的方式從搜尋範圍中，擷取出候選區塊影像，同時對這些候選影像利用先前訓練的追蹤模型所採用的特徵，計算出這些候選區塊影像的特徵值，然後分別將這些特徵值帶入強分類器，以便計算此候選區塊與追蹤物件相似的分數，並從這些分數中，挑選出最高追蹤分數的影像區塊位置，來成為追蹤的結果。

由於被追蹤物件的影像大小和其各種特徵區塊的位置與範圍，都和此物件於第一次進行追蹤模型訓練時所用的資訊相同，所以只能追蹤固定大小影像區塊，當使用者走近或走遠時，就無法得到很好的追蹤效果，在第四章中，我們會對此缺點提出改善的方法。

3.6 追蹤模型更新

在即時人臉追蹤系統中，我們必須更新追蹤模型來適應新的狀況(包含人臉的轉向以及光線和場景的變化)，當追蹤完成後，我們利用新的位置所取得的影像序列 {(𝑥_𝑖, 𝑦_𝑖), … , (𝑥_𝑛, 𝑦_𝑛)}來進行追蹤模組的更新，定義如下：

𝜇₁ ← (1 − 𝛾)𝜇₁+ 𝛾 ∙¹_𝑛∑_𝑖|𝑦_𝑖₌₁𝑓_𝑘(𝑥_𝑖) (3.8)

𝜎₁ ← (1 − 𝛾)𝜎₁+ 𝛾 ∙ √¹_𝑛∑_𝑖|𝑦_𝑖₌₁(𝑓_𝑘(𝑥_𝑖) − 𝜇₁ )² (3.9)

其中，𝛾為更新率。𝜇 與𝜎 的更新方式與𝜇 與𝜎

(24)

在完成追蹤模組的更新後，會以原來的特徵來重新訓練得到 M 組的弱分類器，

然後在其中逐次挑選出最好的 K 組弱分類器來組成新的強分類器，以做為下一次追 蹤時使用。

(25)

第四章人臉追蹤方法

4.1 結合人臉偵測的追蹤處理

在人臉追蹤方法中，本論文提出了一個與人臉偵測密切結合的演算法。由於一般單純使用追蹤的方法，隨著時間過去，會逐漸的讓追蹤物件的位置產生偏移，造成追蹤上的誤差，而這些誤差若持續累積，最終會造成完全追蹤不到目標物件的結果。近年來，人臉偵測技術已經發展的非常成熟，所以我們在此利用人臉偵測的結果來適時的取代追蹤物件的資訊，以改善誤差累積所產生的偏移現象，達到更好的追蹤效果。

本系統在偵測人臉部份使用傳統 AdaBoost 所訓練的偵測器來對輸入影像進行人臉偵測。使用 AdaBoost 偵測出可能的人臉後，接著會經過輻射型對稱性轉換(Radial Symmetry Transform)產生眼睛瞳孔候選點；再從這些候選的點當中，使用 SVM 來過濾出可能的眼睛位置，若是符合眼睛點偵測的條件，則將 AdaBoost 偵測出來的結果判斷為人臉。

4.2 單一人臉追蹤

單一人臉追蹤並不是指在一張影像中，只能存在一個人的情況下來進行追蹤，而是在追蹤的過程中，當人臉未與其他人臉或物件發生遮蔽情形時當下的追蹤方法。在本節中，首先會介紹單一人臉追蹤的整個系統流程，並且提出適應性搜尋範圍計算與追蹤模型更新率之動態計算等改善機制，最後，再介紹人臉追蹤所使用的停止機制。

(26)

4.2.1 單一人臉追蹤之處理流程

圖 4-1 為本論文所提出的單一人臉追蹤流程圖，其中，包含八個步驟，分別如下：

步驟一、取得輸入影像。

步驟二、確認是否處於追蹤狀態，若不是在追蹤狀態中，則代表尚未偵測到人臉，

所以也就尚未進行過追蹤模型的訓練，則跳到步驟三，而若是在追蹤狀態，

則跳到步驟五。

步驟三、進行整張影像的人臉偵測處理，以確認畫面中是否存在人臉。若無法偵測到人臉，則跳回步驟一，否則跳到步驟四。

步驟四、進行追蹤模型的訓練，訓練完成後，跳回步驟一。

步驟五、進行追蹤，並在追蹤到的物件區域附近進行人臉偵測。若有偵測到人臉，

則跳到步驟六，否則跳到步驟七。

步驟六、計算追蹤到的物件位置與人臉偵測到的位置之間的距離，當此距離小於門檻值時，則跳到步驟七，否則使用人臉偵測所偵測到的位置來進行追蹤模組更新，在更新完成後，跳到步驟八。

步驟七、使用追蹤到的位置來進行追蹤模組更新。

步驟八、確認是否符合追蹤停止條件，若不符合停止條件，則跳回步驟一，否則停止追蹤並將系統改為未追蹤狀態，然後跳回步驟一。

步驟五對追蹤物件位置的附近區域進行人臉偵測，其目的是要利用人臉偵測的結果，

來修正追蹤中可能產生的偏移。由於被追蹤物件的影像大小和其各種特徵區塊的位置與範圍，都和此物件於第一次進行追蹤模型訓練時所用的資訊相同，所以在步驟六中，

若人臉偵測出來的人臉區塊大小與追蹤到的物件區塊大小不相同，則會對追蹤模型中的各種特徵區域與其位置進行正規化處理，讓追蹤模型的特徵可以適應到所偵測的人

(27)

臉範圍內，並將追蹤模型的追蹤影像區塊大小更改為偵測到的人臉大小，這樣即可改善原本 Online-MILBoost 只能追蹤固定大小區塊的缺點。

圖 4-1、單一人臉追蹤系統流程圖

4.2.2 適應性搜尋範圍計算機制

由於一般固定大小的搜尋範圍，可能因為電腦執行速度較慢，使得處理中的前後兩張影像之時間間隔較大，而導致被追蹤物件具有大的位置移動，甚至超出追蹤範圍

(28)

而造成追蹤失敗的結果。若電腦執行速度較快，則一般物件於前後兩張影像的位移通常不大，只需要較小的搜尋範圍，所以固定大小的搜尋範圍則會造成時間上的浪費。

另外，對於移動速度不同的物件而言，若是使用固定大小的搜尋範圍，對於移動速度較快的物件，因其位移量較大，可能超出追蹤範圍而造成追蹤失敗的結果，而對於移動速度較慢的物件，因其位移量較小，只需要較小的搜尋範圍，所以固定大小的搜尋範圍會造成時間上的浪費。所以我們針對系統執行的速度與物件移動的速度來定義兩種搜尋參數，即物件移動速度搜尋參數與系統執行速度搜尋參數，計算方式分別如下：

物件移動速度搜尋參數：

對於人臉的移動速度，首先要利用前後張影像所追蹤到的位置，來估測人臉的移動速度，而在得到人臉的移動速度後，對於移動速度較慢的人臉，給予較小的搜尋參數值，而對於移動速度較快的人臉，則給予較大的搜尋參數值，最後將搜尋參數正規化成搜尋比例。

系統執行速度搜尋參數：

對於系統執行速度較快的電腦，每張影像處理速度較快，對相同移動速度的人來說，在畫面中只會有較小範圍的移動，所以應該只需給予較小的搜尋參數值，而系統執行速度較慢的電腦則需給予較大的搜尋參數值。

當計算出物件移動速度參數與系統執行速度的搜尋參數後，由於希望追蹤時物件不會超出搜尋範圍，所以我們將兩個搜尋參數取最大值Ω，並設定兩個門檻值，一個最大搜尋參數門檻值 A，一個最小搜尋參數門檻值 I。A 的目的在於希望不要因為系統執度過慢，導致搜尋範圍無限制的變大使得系統變的更慢，而 I 的目的在於希望不要因為物件停滯且突然加速移動，而導致搜尋範圍太小造成追蹤錯誤。Ω需介於 A

(29)

與 I 之間。如果Ω大於 A 則以 I 來取代Ω，而如果Ω小於 I，則以 I 取代Ω，最後將算出來的搜尋參數乘上影像寬度(我們所偵測的人臉長與寬的點數是相同的)則為搜尋區域，其定義如下：

Ω= Max(𝑠 𝛽,𝑜

𝑏)

∆= (Max(I , Min( A , Ω))

SR = ∆ ∙ 𝜌 (4.1)

其中，s 為物件移動速度，𝛽為手動設定物件移動速度基準值，𝑜為系統執行速度，𝑏為手動設定的系統速度基準值，I 為最小搜尋參數門檻值，A 為最大參數範圍門檻值，𝜌為影像寬度，而 SR 為最後計算出來的搜尋範圍。

4.2.3 追蹤模型更新率之動態計算機制

由於一般的更新，都是使用固定的更新率，這樣的方式對於即時追蹤系統而言，

可能因為雜訊、背景或是突然的燈光變化…等等影響，而使得追蹤分數下降並產生不穩定甚至錯誤的追蹤結果。另外，由於我們在追蹤時結合了人臉偵測的結果，因此是否能夠偵測到人臉也可以做為更新率的設計參考。根據上述的原則，我們設計了一套動態更新率來對追蹤模型進行更新，以提高追蹤的正確性。

首先，會將追蹤分數切割成多個區間，並依照分數高低給予由大到小的更新率，

對於追蹤分數較高的，因其追蹤可靠度較高，給予較大的更新率，而追蹤分數較低的則因其追蹤可靠度較低，所以給予較小的更新率。在利用人臉偵測來取代追蹤資訊時的更新時，因其可靠度比追蹤時高，所以會給與比追蹤分數高時更大的更新率。在此，

(30)

更新率的設定依據實驗得到最好的更新率，詳細更新率設定如表 4-1 所示：

表 4-1、更新率設定方式分數範圍更新率

< 0 0.8 0~20 0.65 21~40 0.5 41~60 0.35 61~80 0.2

≥81 0 有偵測到人臉時 0.85

4.2.4 停止追蹤機制

由於我們的多人臉追蹤系統，希望能夠隨時新增或刪除人員，或是在追蹤中可能因為各種不同的因素而導致追蹤錯誤，所以必須要有一個機制能夠判斷出追蹤的人臉是否離開了畫面或是已經追蹤錯誤，在此，我們設定了兩種停止機制來對追蹤系統停止追蹤，分別如下：

停止機制一：

當追蹤分數小於追蹤分數門檻值，則將分數計數器加 1，否則將分數計數器歸零，

而當分數計數器大於分數計數器門檻值，就會停止追蹤。在這個機制下，假設分數計數器門檻值設定為 10，則當追蹤分數連續 10 個畫面小於追蹤分數門檻值，就會停止追蹤。

這個分數計數器門檻值的目的是希望在追蹤時，不會突然因某一時刻受到燈光或雜訊的影響，造成追蹤分數過低而馬上停止追蹤。在追蹤時，必須有超過分數計數器門檻值影

(31)

像張數的追蹤分數都小於追蹤分數門檻值時，才會停止追蹤。

停止機制二：

當人臉移動速度非常緩慢且出現遮蔽物的時候，可能因為追蹤分數沒有下降太快，

而逐漸的更新到非人臉區域，造成使用分數來判斷的停止機制無法發生作用，所以我們設計了第二個追蹤停止機制，它利用顏色資訊來判斷追蹤框中的物件是否與我們所要追蹤的人臉顏色相近，再經由眼睛點的驗證，來確認追蹤框中的物件是否為人臉影像。由於 RGB 的色彩空間較容易受到光影變化的影響，所以我們會將 RGB 的色彩空間轉換到 HSV 色彩空間[17]，並取較不會受外在的光影變化影響而改變其值的色調(Hue)。

首先，在確認人臉範圍後，會取縮小一定比例範圍的人臉影像 (如圖 4-2 (b))，

再將此影像由 RGB 色彩空間轉換到 HSV 色彩空間，並從其中只取出 Hue 的資訊，

然後計算其分佈直方圖 A(如圖 4-2 (c))。在追蹤時，也會對追蹤框中的物件計算直方圖 B，然後針對 A 和 B 計算它們之間每個 bin 的差異，當差異 bin 數小於 Hue 差異門檻值時，則認定追蹤框中的物件與人臉顏色相近，並繼續追蹤；當差異 bin 數大於 Hue 差異門檻值時，則會再利用眼睛點偵測模組來驗證追蹤框內物件是否為人臉影像，

其目的是希望當 Hue 顏色資訊受到雜訊影響而產生過大變化時，可以利用追蹤區域是否存在左右兩個眼睛點，來判斷它是否為人臉影像區域，而若無眼睛點，則將 Hue 計數器加 1，否則將 Hue 計數器歸零。當 Hue 計數器大於 Hue 計數器門檻值時，則停止追蹤。

(32)

(a) 原始影像 (b)縮小比例後影像

(c)Hue 顏色分佈直方圖

圖 4-2、人臉影像取 HSV-Hue 示意圖

4.3 多人臉追蹤

在多人臉追蹤中，首先會先介紹多人臉追蹤的系統流程，接著會對多人臉追蹤的遮蔽問題作處理，當確認發生了遮蔽的狀況後，則會利用遮掩還原流程來繼續追蹤。

4.3.1 多人臉追蹤之系統流程

圖 4-3 為本論文所提出的多人臉追蹤系統流程圖，在多人臉追蹤中，每一個在追

(33)

蹤狀態的人臉物件當沒有與其他物件發生遮蔽時，其追蹤的處理與單一人臉的追蹤方式相同，而與單一人臉追蹤不同的是，每隔數個 Frame，我們會對整張影像進行人臉偵測運算，並將所有偵測到的人臉位置與每個追蹤模型追蹤到的位置計算雙方距離的差異。當任何一個偵測到的人臉對所有追蹤中的人臉距離差異都大於門檻值時，則會認定此人臉是一個新進的人臉，並訓練此新進人臉的追蹤模型，否則，此人臉會被歸屬為追蹤中的人臉，並以偵測到的人臉資訊去更新其歸屬人臉物件的追蹤模型。接下來，會確認所有追蹤模型的追蹤框是否有重疊，若是重疊，則會進行遮蔽偵測以確認哪一個人臉為遮蔽者，而哪一個人臉為被遮蔽者。當一個人臉被判斷為被遮蔽者時，

則會進行遮蔽的還原處理，以期能還原它被遮蔽前的狀態。

(34)

圖 4-3、多人臉追蹤系統流程圖

4.3.2 人臉遮蔽偵測

人臉遮蔽偵測，是要確認當兩個追蹤中的人臉有重疊時，哪個人臉為遮蔽者以及

(35)

哪個人臉為被遮蔽者，以利於當被遮蔽者與遮蔽者分開時，被遮蔽者能不會被認定為是新進人臉，而且能以被遮蔽前的舊模型來繼續追蹤，詳細的遮蔽偵測流程如下：

1. 當兩個追蹤人臉區域的重疊部分大於兩個人臉區域平均值的 5%時，會停止兩個人臉的模型更新，目的是防止重疊時逐漸更新到對方的人臉區域資訊，

而造成無法判斷哪個追蹤模型所追蹤到的人臉為被遮蔽者，人臉重疊情形如圖 4-4 所示。

2. 當兩個追蹤模型重疊區域大於兩個人臉區域平均值的 30%時，則判斷為發生遮蔽狀況，再比較兩個追蹤模型的追蹤分數，並將追蹤分數低的人臉判斷為被遮蔽者，而將分數高的人臉判斷為遮蔽者。

3. 當確認發生遮蔽時，則會開始遮蔽者追蹤模型的更新，並停止被遮蔽者的追蹤和保留其追蹤模型。

圖 4-4、人臉重疊示意圖

4.3.3 人臉遮蔽還原

當判斷有人臉被遮蔽後，我們會利用連續性差異影像結合膚色偵測[18][19]的結

(36)

果，在遮蔽者的附近候選區域中判斷是否有足夠移動中且為膚色的影像點，若有足夠影像點，再利用被遮蔽者被遮蔽前的 Hue 直方圖及人臉追蹤模型，來判斷其是否重新出現，若被遮蔽者重新出現，則在其出現的位置上繼續進行追蹤。接下來，會分別對(1)差異影像，(2)膚色偵測，(3)連續性差異影像與膚色偵測之結合，和(4)人臉遮蔽還原流程分別作介紹。

(1) 差異影像

差異影像是將連續的兩張影像或是連續間隔 N 張的兩張影像，以對應點為基礎 (Pixel-based)或區塊為基礎(Region-based)做相減並將影像二值化。由於此方法所使用的兩張相減影像為連續影像，因此能夠即時反應出環境的變化，而對於輕微的晃動與雜訊的影響則利用形態學的技術處理後便能有效的避免。然而，差異影像容易受到過去影像的影響而留下過去影像的殘影，造成所產生的差異影像也包含了靜態的背景資訊，如圖 4-5(b)所示，圖中白色點為前景影像點，其像素值為 0，而黑色點為背景影像點，其像素值為 1。

(a)原始影像 (b)差異影像處理結果圖 4-5、差異影像示意圖

(37)

(2) 膚色偵測

膚色偵測中，主要就是要將膚色部分從影像中偵測出來，在本論文中使用 YCbCr 色彩空間，取代原本影像 RGB 色彩空間表示法。這是因為人的膚色與背景顏色通常有一定的區別，若使用 RGB 色彩空間，並不容易將膚色和背景分離，而根據一些研究結果[19]顯示，膚色和背景在 YCbCr 色彩中有較好的區隔特性，也就是膚色在此色彩空間中有其獨特性，且在 Cb 和 Cr 兩個色彩平面上有群聚的特性，能夠較容易的偵測出膚色區域。然而在背景中，可能因為受到背景物件顏色與膚色相近的關係，造成膚色偵測後會得到非膚色的區塊，如圖 4-6(b)所示，圖中白色點為經膚色偵測得到的前景影像點，其像素值為 0，而黑色點為背景影像點，其像素值為 1。

(a)原始影像 (b)膚色偵測結果圖 4-6、膚色偵測示意圖

(3) 連續影像相減結合膚色偵測

基於差異影像與膚色偵測都有其各自的缺點，所以我們結合了上述兩種方法，以利於接下來的遮蔽還原處理。首先，將差異影像與膚色偵測的結果以 0 跟 1 來表示，

(38)

畫面中黑色點像素值為 0，白色點像素值為 1，接著，將兩張影像中，同時存在像素值為 1 的影像位置，將其像素值設定為 1，為前景影像點，其它則為背景影像點，其值為 0，兩種方法結合的結果影像如圖 4-7 所示，左邊的人由左至右移動，而右邊的人接近靜止狀態，可以看出，結果影像對移動中且為膚色的影像區域較為完整。

(a)原始影像 (b) 差異影像結合膚色偵測結果圖 4-7、連續影像相減結合膚色偵測示意圖

(4) 人臉遮蔽還原流程

當被遮蔽偵測判斷為被遮蔽者時，我們會利用以下流程來從之前保存的追蹤模型來繼續追蹤，詳細流程如下：

1. 利用被遮蔽者被遮蔽前的影像大小與位置從遮蔽者周圍選出候選區域，由於被遮蔽者不可能出現在遮蔽者的前方，所以此候選區域產生在遮蔽者的左邊、右邊及上面，如圖 4-8 所示，藍色框為被遮蔽者被遮蔽前的位置，綠色框為遮蔽者，每個白色框為與藍色框相同大小的候選區域框。

2. 對每個候選區域，利用差異影像結合膚色偵測的結果，判斷是否具有足夠在移動中且為膚色的像素點數目。

(39)

3. 如果候選區域內有足夠點數，則會與被遮蔽者保留下來的模型做 Hue Histogram 判斷候選區域顏色與舊模型顏色是否相近。

4. 若顏色相近，則會利用之前保存的 MILBoost 追蹤模型對符合顏色的多個候選區域計算分數，並選出分數最高的候選區域(如圖 4-9 紅色框所示)。

5. 將選出的候選區域當成被遮蔽後重新出現的位置，並以之前保存的追蹤模型繼續追蹤。

6. 將遮蔽後繼續追蹤的追蹤模型狀態改為非遮蔽狀態，並開始追蹤模型的更新。

(a)原始影像 (b)候選區域圖 4-8、候選區域示意圖

圖 4-9、最後挑選出的候選區域示意圖

(40)

第五章實驗與分析

5.1 系統實驗環境

本實驗的硬體設備及系統開發環境如表 5-2 所示。

表 5-2、系統實驗環境系統的實驗硬體設備

CPU Intel Core i5 750 2.67GHz

RAM 4.0GB

系統開發環境

作業系統 Microsoft Windows 7 開發環境 Visual Studio.NET 2008

使用函式庫 OpenCV library

Intel^®Integrated Performance Primitives (Intel^® IPP library)

5.2 人臉追蹤資料庫

在資料庫方面，我們使用了實驗室自行拍攝的資料庫，包含(1)單一人臉資料庫及(2)多人臉資料庫。

單一人臉資料庫分為兩類，拍攝人數共 7 個人，第一類為角度有限制的無遮蔽人

(41)

臉影像，人臉角度在±90^°旋轉角度內，影像段落有 23 段，總張數為 3577 張；第二類為無遮蔽且無限制的自由移動人臉影像，影像段落有 22 段，總張數為 3716 張。圖 5-1 顯示著單一人臉追蹤資料庫中的兩段影像範例，它們是由不同人在不同環境下拍攝的影像序列，其中，圖下的編號為影像序列中第幾個畫面數。

#1 #23 #58 #65

#93 #102 #106 #114 (a)

#1 #25 #60 #85

#93 #99 #121 #159 (b)

圖 5-1、單一人臉追蹤資料庫

(42)

面遮蔽情形與 30 次側面重疊次遮蔽情形，每次遮蔽情形都包含一序列的影像，由開始重疊、遮蔽中與逐漸分開等三種狀況的影像而構成。圖 5-2 為多人臉追蹤資料庫的影像範例，圖中為兩人在畫面中，被遮蔽者由左至右移動，大約在畫面中間被前方使用者所遮蔽，最後又出現在前方使用者的右邊。

(a) 正面被遮蔽情形

(b) 側面被遮蔽情形

(43)

圖 5-2、多人臉追蹤資料庫

5.3 實驗設計

本實驗設計分成兩部分，第一部分為單一人臉追蹤實驗，主要目的為測試無遮蔽時的追蹤效能；第二部分為多人臉追蹤實驗，主要目的為測試多人追蹤時，人臉遮蔽後還原的追蹤效能。

單一人臉追蹤實驗中，追蹤區域與正確解答如圖 5-3 所示，紅色框為追蹤區域，

綠色框為手動框選的正確人臉區域，而藍色框為追蹤區域與正確人臉區域的重疊區域。

圖 5-3、無遮蔽追蹤區域與正確解答重疊示意圖

正確解答與追蹤位置重疊率計算公式如下：

重疊率 (%) = Blue_Area / (( Red_Area + Green_Area ) /2 ) * 100 (5-1)

當重疊率>70%，則視為追蹤正確。

(44)

多人臉追蹤實驗中，我們是以遮蔽次數來做效能的統計，而一次的遮蔽是包含開始重疊、遮蔽中與逐漸分開等三種狀況的影像而構成。遮蔽分開後，不但要能繼續追蹤且其追蹤編號要與遮蔽前相同者才能算為追蹤正確，若遮蔽分開後未能繼續追蹤或者繼續追蹤但其編號與遮蔽前不同，則為追蹤錯誤。實驗中，會分別針對正面被遮蔽及側面被遮蔽情形來做測試。

5.4 實驗結果

為了測試所提出各項技術的有效性，我們以相同影像並使用不同條件來分別做測試。由於追蹤時必須要有停止機制，否則只要追蹤錯誤，之後的影像也會全都錯誤，

這樣所做的實驗會變的不具意義。所以在單一人臉追蹤的第一個實驗中，我們只使用了第一種追蹤分數停止機制，主要的目的是來比較固定更新率與動態更新率在進行追蹤模型更新中的有效性，而表 5-2 顯示本實驗的測試結果，可看到動態更新率比固定更新率具有更好的追蹤效果。

表 5-3、固定更新率與動態更新率正確率比較表 單人無遮蔽有限制的一般移動 (23 段影像，總共 3577 張)

更新方式 正確率

固定更新率 89.01418%

動態更新率 91.10987%

單人無遮蔽完全自由的一般移動 (22 段影像，總共 3716 張)

更新方式 正確率

固定更新率 74.91418%

動態更新率 76.80302%

(45)

單一人臉追蹤的第二個實驗中，加入使用 Hue Histogram 第二個停止機制，並延續使用前一個實驗正確率較高的動態更新率來進行追蹤模型的更新，而表 5-3 顯示本實驗的測試結果，可看到經由第二個停止機制，更加改善了第一個停止機制無法停止追蹤錯誤的情況。

表 5-4、加入第二個停止機制正確率

單人無遮蔽有限制的一般移動 單人無遮蔽完全自由的一般移動

正確率正確率

92.2066% 79.65554%

單一人臉追蹤的第三個實驗中，使用了與第二個實驗相同的實驗條件，並加入適應性搜尋範圍機制，而表 5-4 顯示本實驗的測試結果，可看到適應性搜尋範圍機制可有效的決定追蹤時的搜尋範圍大小，使追蹤物件不會因超出搜尋範圍而導致追蹤錯誤。

表 5-5、加入適應性搜尋範圍正確率

單人無遮蔽有限制的一般移動 單人無遮蔽完全自由的一般移動

正確率正確率

94.12916% 87.91711%

單一人臉追蹤系統執行結果如圖 5-4 所示，圖中紅色框為有偵測到人臉時的追蹤結果，而粉紅色框為無偵測到人臉時的追蹤結果。

(46)

#1 #6 #35

#44 #53 #57

#62 #80 #91 (a)

#1 #10 #83

(47)

#107 #116 #125

#134 #210 #334 (b)

圖 5-4、單一人臉追蹤系統執行結果

在此，針對相同的測試資料，本論文也以 Camshift[22]與 Kalman Filter[23]來進行測試比較，表 5-5 列出與本論文相比較的人臉追蹤正確率，可看到本論文所提出的方法明顯地可得到較好的追蹤正確率。

表 5-6、效能比較表

方法正確率

Camshift 85.219%

Kalman Filter 65.154%

Proposed method 90.964%

(48)

第二階段為多人臉追蹤實驗，首先針對被遮蔽者在正面被遮蔽的情形來統計追蹤正確性，正確性如表 5-6 所示：

表 5-7、正面遮蔽之遮蔽還原的實驗結果

總遮蔽次數 正確還原次數

33 26

接下來，針對被遮蔽者在側面被遮蔽情形來統計追蹤正確性，正確性如表 5-7 所示：

表 5-8、側面遮蔽之遮蔽還原的實驗結果

總遮蔽次數 正確還原次數

30 20

多人臉追蹤系統執行結果如圖 5-5 所示，圖中綠色框為有偵測到人臉時的追蹤結果，

粉紅色框為無偵測到人臉時的追蹤結果，白色框為被遮蔽者被遮蔽前最後追蹤到的位置，每個人臉框左上角的數字為使用者的編號。圖 5-5(a)為被遮蔽者為正面被遮蔽情形，被遮蔽者從遮蔽者後面由左至右移動，當被遮蔽一半時，會偵測不到人臉，再到了幾乎完全遮蔽的時候，則會停止追蹤並利用遮蔽還原的流程來進行還原追蹤，最後當他們再次的分離以後，他們的編號仍然是與遮蔽之前的編號相同，完成了一次正確的遮蔽還原追蹤處理。圖 5-5(b)為側面被遮蔽情形，為兩個使用者轉為側面後才發生遮蔽情形，可以看出在他們再次分離以後，經由遮蔽還原流程則又能得到正確的追蹤結果。

(49)

(a)正面遮蔽還原情形

(50)

(b)側面遮蔽還原情形圖 5-5、多人臉追蹤系統執行結果

系統執行速度在影像解析度 640 *480 的情況下，單人時每張影像 69 ~ 98ms，2 人時每張影像 145 ~ 203ms。

5.5 分析與討論

從實驗中可看出，本論文所提出的方法，對單一人臉的追蹤，在有限制角度 (< ±90^°)的追蹤情形下，可以得到高達 94.1%的追蹤正確率，而無限制角度的追蹤仍有 87.9%的正確率；對多人臉的追蹤，於正面遮蔽的情形下，在總共 33 次遮蔽中，

當他們分離時，有 26 次可以正確的還原追蹤，而於側面遮蔽的情形下，在 30 次遮蔽中仍有 20 次可以還原追蹤。這些實驗顯示本論文所提出的多人臉追蹤技術，具有相當優異的執行效果。

在追蹤錯誤的情況下，我們將追蹤錯誤情形歸納出四種主要的錯誤類別，這些錯誤類別的比例顯示在表 5-8 中。

(51)

表 5-9、追蹤錯誤情形比較表光線改變影像模糊入鏡時影像模糊

(偵測不到人臉)

未以正面入鏡 (偵測不到人臉)

其他

27.8% 34.19% 14.06% 17.25% 6.7%

光線突然改變如圖 5-6(a)所示，移動速度過快導致影像模糊如圖 5-6(b)所示。

(a) 光線突然改變

(b) 移動速度過快導致影像模糊圖 5-6、單一人臉追蹤錯誤情形

在多人臉追蹤的錯誤分析，同樣也是容易因為光線突然改變造成於重疊前追蹤不穩定而導致重疊判斷上的錯誤，如圖 5-7 中，白色框為遮蔽者被誤認為被遮蔽者而導致遮蔽還原的錯誤。

(52)

圖 5-7、多人臉追蹤錯誤遮蔽判斷情形

(53)

第六章結論與未來研究方向

本論文結合人臉偵測的追蹤處理概念，提出一種利用人臉偵測的結果來取代追蹤資訊的多人臉追蹤方法，可以改善傳統追蹤方法中，容易隨著時間而產生追蹤偏移的現象。在單一人臉追蹤中，利用人臉偵測到的結果來取代追蹤時的資訊，可以有效的改善只使用追蹤方法來追蹤人臉時的準確率，而從實驗結果也可以發現，本論文所提出的方法對於單一人臉追蹤具有高度的穩定性，而在多人臉追蹤中，遮蔽還原的處理也具有相當優異的效果。

儘管所提出的方法已經改善了傳統追蹤方法的缺點，但對光線上的影響，仍有改善的空間，在未來我們可以使用光線補償或是使用較不受光源影響的 LBP 特徵等方法來改善。而在多人遮蔽上，因為目前的遮蔽判斷是只針對兩人的遮蔽而設計，在未來我們可以從多人被遮蔽前建立個人獨立外觀模型，並在重疊分開後，以這些獨立外觀模型來判斷還原的人臉到底是屬於被遮蔽的哪一個人，這樣應該能大幅度地增進多人臉追蹤的執行效能。

(54)

參考文獻

[1] A. M. Elgammal, D. Harwood, and L. S. Davis, “Non-parametric model for background subtraction,” in Proceedings of the 6th European Conference on Computer Vision (ECCV '00), pp. 751–767, 2000.

[2] B. Horn and B. Schunck, “Determining optical flow,” Artificial Intelligence, vol. 17, pp. 185-203, 1981.

[3] S. Zhu and K. K. Ma, “A new diamond search algorithm for fast block-matching motion estimation”, IEEE Trans. Image Processing, vol. 9, pp. 287-290, Feb. 2000.

[4] D. Comaniciu, and P. Meer, “Mean Shift: A Robust Approach toward Feature Space Analysis,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, no. 5, pp.

603-619, May 2002.

[5] K. Nummiaro, E. Koller-Meier, and LV Gool, “An Adaptive Color-Based Particle Filter,” Image and Vision Computing,vol. 21, pp. 99-110, 2003.

[6] Breitenstein, M., Reichlin, F., Leibe, B., Koller-Meier, E., Gool, L.V. “Robust tracking-by-detection using a detector confidence particle filter,” ICCV 2009.

[7] H. Grabner and H. Bischof. “On-line boosting and vision,” In Proc. CVPR, volume 1, pages 260–267, 2006.

[8] T. G. Dietterich, R. H. Lathrop, and L. T. Perez. Solving the multiple instance problem with axis parallel rectangles. Artificial Intelligence,pages 31–71, 1997.

[9] P. Viola, J. C. Platt, and C. Zhang. “Multiple instance boosting for object detection,”

In NIPS, pages 1417–1426, 2005.

[10] B. Babenko, M.-H. Yang, and S. Belongie. Visual Tracking with Online Multiple

(55)

[11] Sin-Yu Chen; Jun-Wei Hsieh, 2008, “Boosted road sign detection and recognition”, IEEE International Conference on Machine Learning and Cybernetics, pp.3823-3826 [12] P. Viola and M. Jones, 2001, “Rapid Object Detection using a Boosted Cascade of

Simple Features”, IEEE Computer Society Conference on Computer Vision and Pattern Recognition,vol.1, pp.511-518

[13] B. Frba and A. Ernst, “Face Detection with the Modified Census Transform”, Proc.

IEEE Int. Conf. on Automatic Face and Gesture Recognition (AFGR), Seoul, pp.

91-96,2004.

[14] P. Wilson and J. Fernandez, “Facial feature detection using Haar classifiers,” Journal of Computing Sciences in Colleges, 21, pp. 127-133, 2006.

[15] D. Cristinacce and T. Cootes, “Facial feature detection using AdaBoost with shape constraints,” British Machine Vision Conference, 2003.

[16] Y. Freund and R. E. Schapire, “A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting,” Journal of Computer and System Sciences, vol. 55, pp. 119-139, 1997.

[17] A. R. Smith, “Color gamut transform pairs,” ACM SIGGRAPH Computer Graphics, Proceedings of the annual conference on Computer graphics and interactive techniques, vol. 12, issue 3, 1978.

[18] R.L. Hsu, M. Abdel-Mottaleb, A.K. Jain, "Face Detection in Color Images," IEEE Transactions on Pattern Analysis and Machine Intelligence ,vol. 24, no. 5, pp.

696-706, May, 2002.

[19] P. Peer, J. Kovac, J. and F. Solina, ”Human skin colour clustering for face detection”, In: submitted to EUROCON –International Conference on Computer as a Tool , 2003.

[20] P. Dollár, Z. Tu, H. Tao, and S. Belongie. “Feature mining for image classification”, In CVPR, June 2007.

(56)

[21] Schapire R E. “The Strength of weak Learnability”, Machine Learning, 5: 197-227, 1990.

[22] Allen J G, Xur Y D, Jin J S. Object tracking using Camshift algorithm and multiple quantized feature spaces[D]. Sydney:University of Sydney, 2006, 3-7.

[23] S. K. Weng, C. M. Kuo, and S. K. Tu, “Video object tracking using adaptive Kalman filter,” Journal of Visual Communication and Image Representation, vol. 17, pp.

1190-1208, 2006.

中 華 大 學 碩 士 論 文