第五章 實驗結果
5.1 人臉影像集相似度計算方法比較
在此小節的實驗中,主要是測試並比較各種人臉串列相似度計算方法的效能 優劣,將依序在四個資料集「Honda/UCSD」、「Sinica Face Video Dataset」(只取 成人部分)、「Friends」、「Raymond」上分別進行實驗,在這四個實驗中人臉偵測 的方法都是使用 Viola-Jones Face Detector。對人臉影像的前處理方法是使用 Histogram Equalization。由於「Honda/UCSD」和「Sinica Face Video Dataset」的 每一個影像集的影像數量較多,為了節省計算時間,對每一個影像集各隨機取樣 50 張人臉影像。
在本小節的實驗中都沒有使用「PCA+voting」這個方法,因為畫 ROC 曲線 的時候需要有明確的兩影像集之間距離,而此方法只是用多數決決定身分,並沒 有一個明確的距離值,因此改用「PCA+AvgDist」。另外在這四組資料集中只有
「Honda/UCSD」裡面有使用「SANP」這個人臉影像集相似度的計算方法,因 為在實驗的過程中發現「SANP」在計算影像集之間的距離時難以達到收斂,幾 乎都是達到限制次數之後才停止,因此造成時間消耗過久,是其他方法的數百甚 至數千倍的運算時間,所以只有在「Honda/UCSD」這個最小的資料集中進行試 驗。
從圖 5-1 中會發現在「Honda/UCSD」這個資料集中每種方法皆有非常好的 表現,尤其以「SANP」的辨識效果最好,但是和「LAHISD」的效果比起來並
的情況。在資料集「Raymond」中是「LAHISD」和「PCA+AvgDist」的效果比 較好「MSM」的效果則明顯落後許多。整體來看,排除「SANP」不談,「LAHISD」
在四個資料集上皆有較佳的表現,是所有方法中效果最好的,而剩餘的三個方法 則互有勝負,但是「MSM」的效果似乎較為落後一點。
(a) (b)
(c) (d)
圖 5-1: 數種人臉影像集相似度方法的 ROC 曲線。(a)資料集「Honda/UCSD」的 ROC 曲線。(b) 資料集「Sinica Face Video Dataset」的 ROC 曲線。(c) 資料集
「Friends」的 ROC 曲線。(d) 資料集「Raymond」的 ROC 曲線。
綜合圖 5-1 的這些實驗可以發現資料集的難度由簡單到困難依序是
「Honda/UCSD」→「Raymond」→「Friends」→「Sinica Face Video Dataset」。
在「Honda/UCSD」中每種方法都有趨近於完美的結果,因此在此資料集中不容
易分別出方法的好壞。在「Sinica Face Video Dataset」中則是難度過高,所有方 法的效果都不理想,在「Friends」中也有類似的情形。從「Raymond」這個資料 集的結果來看,各種方法之間有比較明顯的差距,因此這個資料集比較適合用來 比較不同方法的優劣。
接下來的實驗要比較使用時間資訊是否會對效能有所影響。時間資訊的使用 方式為,當兩個人臉影像集(或人臉影像串列)之間在時間上有重疊的部分,則將 這兩個人臉影像集的距離設為無限遠(即相似度為 0)。實驗結果見圖 5-2。
(a) (b)
(c) (d)
圖 5-2: 使用時間資訊的 ROC 曲線比較圖。(a)資料集「Friends」無使用時間資
比較圖 5-2 的(a)和(b)小圖,可以發現不論有無使用時間資訊,在資料集
「Friends」上看不出明顯的差別。比較圖 5-2 的(c)和(d)小圖,可以發現在資料集
「Raymond」上也有相同的狀況。推測會產生這種結果是因為影片中有重疊的人 兩個資料集「Honda/UCSD」和「Sinica Face Video Dataset」(只取成人部分)上進 行測試。此實驗的人臉偵測使用「Viola-Jones Face Detector」來取得人臉影像,
再使用 Histogram Equalization 做前處理。在「Sinica Face Video Dataset」上的實 驗為了節省計算時間,對影像集進行隨機取樣,每一個影像集各取樣 100 張人臉 影像。
資料集「Honda/UCSD」原本就有區分訓練用資料和測試用資料,因此直接 使用。資料集「Sinica Face Video Dataset」則沒有進行區分,因此這裡使用 three-fold cross-validation 進行辨識。本實驗分割「Sinica Face Video Dataset」的資料作為 訓練用和測試用有兩種方式:Separated Video 和 Mixed Video。Separated Video 的作法是,從每個人的三部影片中選擇其中兩部作為訓練用,剩下一個是測試用。
Mixed Video 的做法是,訓練用資料包括了每個影片中三分之二的影像,剩下三