人臉辨識用資料集

第三章實驗用資料集

3.1 人臉辨識用資料集

3.1.1 Honda/UCSD

這個資料集是由 Kuang-Chih Lee 等人[31]所提供。此資料集中共有 59 個影片(video)，其中包含了 20 個不同的人。影片的解析度為 640×480。每一個影片 (video)中都只有單一的人物，並且包含了一些臉部表情(facial expression)、朝向 (orientation: in-plane rotation)和姿勢(pose: out-of-plane rotation)的變化。此資料集的拍攝環境是在背景單純且幾乎相同的室內，沒有光照的變化。在原始的標準協議(standard protocol)中用 20 個影片(每個人一個)做為訓練，剩餘 39 個影片則為測試用。圖 3-1 為 Honda/UCSD 的數張範例截圖。

圖 3-1: Honda/UCSD 的範例截圖。

3.1.2 Sinica Face Video Dataset

這個資料集中的影片都是從網路上下載而來，大部分是來自 YouTube 和 Flickr，由[35]所蒐集。此資料集的每一部影片中都只有一人，共 100 個人，包含

40 個小孩，30 個成年男人和 30 個成年女人，每個人各有 3 部影片，共 300 個影片。在本文的實驗中除了年齡辨識外，皆只有使用成人的影片。此種分布的特性使得這個資料集可以用在性別和年齡辨識(辨識為成人或小孩，可應用在嬰幼兒戒護系統上)。影片的解析度為320 × 240，畫面更新率為每秒 30 張影像(frame rate

= 30 fps)。這個資料集裡面有複雜的背景、光影變化，不同的臉部表情、姿勢和朝向等，有時臉部還可能被衣物或手等物體遮住。圖 3-2 為 Sinica Face Video Dataset 的數張範例截圖。

圖 3-2: Sinica Face Video Dataset 的範例截圖。

有些原始影片中的某些片段可能完全沒有人物出現或是含有除了目標以外

(segment)的長度約在 10 到 30 秒之間。整個資料集中共有 1236 個影片片段(video segment)。

人臉偵測和追蹤是更進一步的人臉辨識和其他人臉分類任務的必要先決條件。然而沒有一個現存的公開影片資料集(video dataset)中有提供完整的人臉資訊。

而本資料集提供了所有視訊畫面(frame)的人臉偵測的 ground truths，也就是人臉在視訊畫面中的位置和範圍資訊。因此我們的資料集使得以下的研究成為可能：

 使人臉辨識或其他類型的高階處理可以獨立於人臉偵測和追蹤的結果來進行最佳化。

 我們可以比較用自動偵測和手動校正的人臉集合(face set)的辨識效能，並得知辨識演算法在不正確或不準確的人臉偵測下是否依然強健(robust)。

 可以使用 ground truths 來評估以影片為基礎(video-based)的人臉偵測和追蹤演算法是否準確。

接下來將描述如何產生人臉偵測的 ground truths 的過程。首先，我們使用 Viola-Jones face detector[1]取出大部分的人臉，每一個視訊畫面至多一個臉。這邊要注意的是，雖然每一個視訊畫面都一定包含一個人物，但是當有過大的姿勢、

角度改變或遮擋(occlusion)時，有可能會偵測不到人臉。

在資料集中的影片包含了成千上萬的視訊畫面，為了加速人工檢查和校正自動偵測的人臉的過程，我們開發了一個標記用程式來解決這個問題，圖 3-3 為標記用程式的銀幕截圖。這個標記用程式讓使用者可以在不同的在不同的畫面更新率(frame rates)下檢查影片片段(video segment)的視訊畫面。如果使用者覺得有必要校正一些自動化偵測的人臉結果，可以依照以下程序進行：

 首先使用者選擇一個視訊畫面，在此稱為關鍵視訊畫面(key frame)，並且在此視訊畫面中手動調整人臉範圍。

 接著使用者可以在關鍵視訊畫面(key frame)之前或之後的任意視訊畫面中選擇另一個視訊畫面，此視訊畫面以及關鍵視訊畫面(key frame)之間的所有視訊畫面為使用者所要更正的範圍。

 由關鍵視訊畫面(key frame)開始，在選取的範圍內使用 Template-match based face tracking 來更正人臉範圍。這邊程式只使用了簡單的 tracker，在 5%縮放範圍內尋找差距最小的部分作為新的人臉範圍，差異是由前後兩張影像的像素值(pixel values)的歐氏距離(Euclidean norm)來決定。

 最後使用者決定是否接受更正後的結果。

上述的方法可以讓數十甚至數百個人臉偵測結果在短短幾步驟內就更正完成。以上的程序可以反覆執行直到使用者滿意影片片段中校正後的人臉範圍。

圖 3-3: 標記用程式的銀幕截圖。黃色的圓圈代表自動化偵測的人臉範圍，綠色的方框代表要進行校正的範圍，綠色圓圈代表校正後的估計人臉區域。紅色圓圈

為人工選取或是經過追蹤校正後的人臉範圍。

在文檔中用於人臉資訊分析的視訊資料集和視訊相似度之分析 (頁 20-24)

第三章 實驗用資料集

3.1 人臉辨識用資料集

3.1.1 Honda/UCSD

3.1.2 Sinica Face Video Dataset

第三章實驗用資料集