文獻探討 - 用於人臉資訊分析的視訊資料集和視訊相似度之分析

2.1 人臉偵測(Face Detection)

人臉偵測是所有臉部分析與處理演算法的基石。人臉偵測的目標是從任意給定的一張影像中，找出是否有一個或是多個人臉存在於其中，並回傳人臉的位置以及範圍。人臉偵測的工作對人類來說不過是一件非常簡單而直覺的事情，但對電腦卻是一件困難的任務與挑戰。近年來較為熱門且常用的人臉偵測方法為 Viola & Jones 所提出的 Viola-Jones face detector[1]。此方法的特點在於速度快，

可以實時運行(run in real time)，因此被廣泛的使用。

2.2 人臉校正(Face Alignment)

在進行人臉辨識或是其他臉部分析處理的演算法之前，若有對影像作校正結果會有非常明顯的差距，例如對人臉的朝向、姿勢等進行校正。要對人臉朝向和姿勢進行校正，首先需要有五官甚至更細微的臉部資訊，例如[2]就是簡單的偵測出人臉五官的位置，而[3]除了偵測出五官位置外，還偵測出整個臉部和五官的輪廓等，相對地也需耗費更多的計算時間。利用臉部五官甚至輪廓等方法都有一個問題，就是無法保證偵測出來的五官等資訊的正確性。後來有人提出用紋理擷取的方法來判別臉部的方向，如[4]利用 GWT(Gabor Wavelet Transform)擷取人臉的紋理資訊，再用 PCA(principal components analysis)投影，即可將不同角度的人臉分別出來。[5, 6]中也都有利用 GWT 來加強辨識成功率。

2.3 人臉辨識(Face Recognition)

根據 Zhao 等人在[7]中的統整，人臉辨識的工作可以分成兩大類：第一類是針對靜止影像(still images)，第二則是針對影片(video)或影像集(image

set/sequence)。

 以靜止影像為基礎的人臉辨識(Image-based Face Recognition)

早期人臉辨識大多都是針對靜止影像(still images)的研究。而其方法大致上可以分成以下幾類：

1. 整體匹配方法(Holistic matching methods)

此類方法是直接將整個人臉影像輸入辨識系統進行辨識。有很多人臉辨識方法都利用 PCA(principal-component analysis)發展而來，例如由 Turk 等人在[8]提出著名且常見的方法─Eigenfaces；由 Belhumeur 等人提出利用的 Fisherfaces[9]；

FLD(Fisher’s Linear Discriminant)/LDA(Linear Discriminant Analysis)[10]；及對區域特性能有較佳表現的 2D-PCA[11]等。

2. 基於特徵的匹配方法(Feature-based (structural) matching methods)

此類方法則是將一些區域性的特徵如眼睛、嘴巴、鼻子等資訊取出，再利用這些資訊進行辨識。例如 HMM(Hidden Markov Model)[12]。

3. 混合方法(Hybrid methods)

此類方法則是融合前兩種方法，就像是人類在辨識時會同時對整個臉部的範圍以及區域的特徵進行比對。

除了以上幾種方法之外，較著名的還有 Gabor Wavelet[5, 6]。以及 Ahonen 等人[13]利用 LBP(Local Binary Patterns)作為描述臉部影像的工具。

 以影片為基礎的人臉辨識(Video-based Face Recognition)

此類型的方法是針對一群人臉影像(face image set)或是從影片中取出連續的臉部影像串列(face image sequence)進行辨識的工作。從影片中擷取連續的人臉影像牽涉到人臉追蹤(face tracking)，如 Kim 等人就在[14]利用人臉追蹤的方法來提高辨識率。此外有人提出將聲音的訊息也當作辨識的依據之一，如 Bigun 等人提出的 Multi-modal method[15]。

以影片為基礎的人臉辨識方法大致上可以分成以下幾類：

1. 直接擴展靜止影像的方法(direct extension of still-image-based recognition) 從人臉影像集(face image set)或人臉影像串列(face image sequence)中隨機或某些數學方法選出一張到數張代表臉(Representative Face)，然後再用以靜止影像為基礎的方法對代表臉進行人臉辨識，甚至搭配多數決等方法。

2. 建立三維人臉模型(3D Face model)

利用人臉影像集(face image set)或人臉影像串列(face image sequence)建立 3D 模型，進行比對時再以貼圖的方式將人臉影像貼在模擬出來的 3D 模型上。

如[16-18]。

3. 影片對影片的相似度(video to video similarity)

這類型較著名的有 MSM(Mutual Subspace Method)[19, 20]、

MMD(Manifold-manifold Distance)[21]、由 Cevikalp 等人在[22]中提出的

AHISD(Affine Hull based Image Set Distance)和 CHISD(Convex Hull based Image Set Distance)、SANP(Sparse approximated nearest points)[23]、Dictionary-Based method[24]等。

MSM 是由主成分分析法計算其線性子空間之間的夾角來決定相似性。

AHISD 和 CHISD 則是用一個 affine hull 和 convex hull 來代表一個影像集。SANP 則是在兩個影像集各自的影像所形成的點中算出最短距離。

2.4 人臉分群(Face Clustering)

人臉分群主要是利用人臉資訊作為分群的依據。人臉分群和人臉辨識的差別在於，人臉辨識是將某一測試人臉影像或人臉影像集(testing face image or face image set)經過辨識系統後將其認定為某一已知的身分，而人臉分群則是將一群相似的人臉影像或人臉影像集分成同一群。利用分群的資訊，可以將影片中各個人物出現的片段標示出來，方便使用者可以針對想看的人物進行選擇性的瀏覽。

實際進行人臉分群的時候，時常會因為人臉角度、光源等因素而造成人臉影像差異過大，進而造成分群效果不佳。因此有人提出可利用一些額外的資訊來增加分群效能，如在[25]中就利用了影片中的聲音做為額外的資訊；在[26]中則利用演員嘴型的變化來判斷聲音是屬於哪位演員，進而利用這些關係來做分群；在 [27, 28]中則使用了身體或衣服的色彩資訊作為輔助。在[29]中則使用姿勢(pose

out-of-plane rotation)分辨方式將人臉依據不同角度分類，並以同類角度的人臉作

為群和群結合的依據，這麼做的原因在於：「相同腳色、不同姿勢」比「不同腳

色、相同姿勢」更為相似，所以用相同姿勢的人臉來分群會有較佳的結果。除了人物本身的資訊之外，在[30]中則使用了場景資訊，藉由人臉所在場景的特性以提升分群之效能。

2.5 資料集(Dataset)

一個公開的資料集是非常重要的，因為這可以提供在這領域的眾多研究者一個可以比較研究成果的基準。資料集主要分為兩大類，以影像(image)為基礎和以影片(video)為基礎。由於本文主要著重在影片上，因此以下只介紹幾個較為著名且被廣為使用的影片資料集(video data set)：

2.5.1 Honda/UCSD

這是目前被廣為使用的影像資料集(video dataset)，由 Kuang-Chih Lee 等人 [31]所提供。此資料集會在後面的章節 3.1 做詳細說明。

2.5.2 CMU Mobo(motion and body)

此資料集是由 Ralph 等人[32]所提供。這個資料集中共含有 96 段影片，其中有 24 個不同的人在跑步機上進行一些不同的運動。這個資料集原本是為了人類動作姿勢辨識(human pose recognition)而建造的，但是也有許多人臉辨識的相關文獻利用此資料集進行實驗。

2.5.3 YouTube Celebrities Face Tracking and Recognition Dataset

此資料集是由 Kim 等人[14]所提供。這個資料集中共有 1910 段影片片段 (video sequences)，其中共有 47 個不同的人。每個人各有 3 段原始的影片，每個影片再進一步的切割成數段片段(video sequences)。這些影片是從 YouTube 下載

的人臉資訊(包含位置和範圍)，用來當作臉部追蹤的種子。這個資料集的特色在於非常低解析度以及很高的壓縮比(compression ratios)，難度也比前面兩個資料集高出許多。

2.5.4 YouTube Faces Database

此資料集是由 Lior 等人[33]所提供。這個資料集包含了 3425 個從 YouTube 下載而來的影片，其中有 1595 個不同的人。這個資料集和它的基準(benchmarks) 是依照 LFW(Labeled Faces in the Wild)資料集[34]的模式來設計和建造的。這個資料集的主要任務是判斷任意的一對影片(a pair of videos)中的人臉是否屬於同一個人。

在文檔中用於人臉資訊分析的視訊資料集和視訊相似度之分析 (頁 13-19)