• 沒有找到結果。

一、 簡介

1.2 章節概要

在第二章會依序介紹在各個階段的方法以及其改良,與其他文章中所使用的方法做 比較,並且在本實驗中詴圖找出最佳的方法。第三章中則開始進行實驗的內容的介紹,

從影像的切割,演員串列的建立,及影像前處理的方法比較,最後整合人臉以及身體的 資訊來做分群。在文章最後會將所有實驗中不同方法比較以表格方式秀出,方便讀者了 解各方法的優劣。

第二章 文獻探討

2.1 人臉偵測

在早期的人臉偵測,大部分是使用膚色作為判斷依據,Czirjek[1]提出的方法也是先 以膚色偵測為基礎,再加上面積計算,旋轉等方法來修正。[2][3]都是屬於再影片中作 人臉辨識分群的文章,因是接近近代的文章,在硬體及軟體都能跟得上的條件下,他們 使用了需要大量計算的臉部器官偵測。一般而言是以眼睛、鼻子及嘴巴為主,但通常偵 測臉部器官除了驗證此區域是否為人臉外,大多使用器官之間的距離與角度來做為校正 臉部的依據。而近年來較為熱門的人臉偵測方式為 Haar-like[4]的特偵選取,透過計算人 臉特殊的陰影來進行人臉偵測,雖然誤判的機會不小,但速度快,因此也廣泛被使用。

2.2 人臉辨識

人臉辨識長久以來就是一直被研究的議題,除了最常見的Eigenfaces[5]以外,

[6][7][8][9] 之中也使用FLD(Fisher’s Linear Discriminant)、LDA(Linear Discriminant Analysis)、SVD(Singular Value Decomposition),並針對各種2DPCA(2-Dimensional Principle Component Analysis)[10]變化進行實驗結果比較。而Ahonen[11]的LBP(Local Binary 5 Patterns)除了在性別辨識上有很好的效果外,人臉辨識之中也常常使用此方法作為紋理的 擷取。

2.3 人臉校正

在進行人臉辨識之前,有無對影像作校正會有非常明顯的差距,因此是否要對人臉 的位置及角度進行正規化,已經有需多文章證明了校正的優異性。如[12]是一個比較標 準的新聞主播辨識與分類,其中使用了計算最正接近正臉的人臉影像以提高辨識結果,

顯示了正面的臉含有較多的資訊。在[13] 中使用 affine invariant 來避免臉部姿勢角度對 辨識結果的影響,但[14][15]更進一步利用偵測到的五官位置來模擬一個粗糙的 3D 模型,

並且在進行人臉辨識比對時,以貼圖的方式將人臉圖像貼在模擬出來的,此兩篇所實驗 結果所得到的數據非常優秀,但技術需求及計算量非常高。較為一般常見的方法是事先 做人臉器官偵測,如[16][17][18][19][20]的實驗過程都需要事先偵測五官的位置,再利 用這些資訊作臉部的校正工作。但利用臉部器官的方法都有同樣的問題,就是無法確保

五官偵測的穩定性是否對後續有重大的影響,並且也需要大量的計算。直到最近幾年來,

有人提出了利用紋理擷取的方法來實現臉的方向判別,[21]之中提出 PES(Pose Eigen Space)的技巧,利用 Gabor Wavelet Transform 對人臉進行紋理擷取後,再投影至 3 維度 空間,即可將不同角度的人臉依照左側到右側順序在此三度空間分布。[22]也是採用此 方式來做為校正的依據。

2.4 人臉分群

人臉分群也就是使用人臉資訊作為分群的依據,但由於人臉的變化可能會因角度、

光源或是時間而有所變化,因此往往在進行分群時會搭配額外的資訊,如在[23][24][25]

中除了使用影像之外,還加上了不同的資訊來提高辨識結果,像是聲音或是文字等額外 資訊,利用演員的嘴型是否有變化來判斷此時刻的聲音是屬於哪位演員,在進而利用這 些相互關係來對人臉影像做分群,但由於牽涉過多技術,以至於效果有限,像是聲音變 的分辨程度,影音是否同步,或是演員嘴型變化是否有正確被偵測出都是環節中問題的 一部份。

[26]則是使用了身體的色彩資訊,除了使用不同的人臉辨識的技術外,希望能夠整 合影片中演員的身上衣物特徵,通常是使用顏色做為比較一句,利用不同的權重比例來 整合臉部與身體的顏色特徵。此方法效率很高,因一般影片中,演員不會在短時間內多 次變換身上的衣物,因此身體的色彩資訊若是比重調整得宜,便可以得到大幅度的正確 率提升,反之,此參數也必頇視影像的類型來決定比重參數,故若是需要時做全自動的 系統,則必頇有最佳化參數的方法。而在[18]之中使用了[21]所提出的姿勢分辨方式來 將人臉分為不同角度種類,進而在將群結合時使用同一類型的臉做為比較依據,並且在 結合兩個人臉的群組時,加上群與群之間的額外限制,會令兩非常不相像的子人臉群不 因為連結其他人臉的群而互相結合為一群。其中主要的方法也是利用 PES 來將人臉大致 上分為三個主要角度,左側臉、正面臉及右側臉。在上一節提到有使用人臉器官偵測的 文章中,也有部分文章僅利用這些臉部器官的位址將人臉的角度分類,而不是直接將圖 像做位移、旋轉角度或是變形,此類方式的好處是不破壞原圖的幾何形狀,利用影片中 包含大量不同角度人臉的特性來達到提高分群效率的目的。

第三章 實驗方法

本章節首先會將整個實驗流程以圖表方式秀出,其中會將各階段的方法及細節在小 節中逐一介紹。圖 3-1 即為本實驗流程圖,從一開始的原始影片輸入,到最後輸出的標 記位置。

圖 3-1:實驗流程步驟流程圖。

輸入影片

演員偵測,場景轉換偵測

演員串列的建立與篩選

人臉影像之前處理

投影及相似度計算

演員串列的分群

輸出標記結果

3.1 前置作業

在開始進行一連串的實驗步驟之前,需要先做四個前處理步驟,從一開始的將影片 剪裁成數張影像,接著進行人臉偵測,其中在抓取到可能的人臉區域時,會直接進行膚 色偵測,將膚色區域過少的候選區塊篩選掉。而分鏡偵測是透過分鏡劇烈的顏色變化來 找到可能發生的分鏡切換,在下個小節的演員串列建立即會用來切割正確的串列。

3.1.1 畫面擷取

這裡我們利用 DVDVideoSoft.com 所提供的免費軟體“Free Video To JPG Converter ” [27]來使切割影片更為便捷。也因為在進行各種實驗中需要不斷重複存取影像片段,因 此在實驗過程中我們事先將所有切割後的影像存檔起來,以加速實驗流程。在實驗中,

我們採取每秒擷取 5 張影像的頻率來進行影像切割,此數值相較於一般影片的每秒 30 張,可達到減少資料量,但不值於影響整體影片的流暢,經測詴後此數據在本實驗可容 許範圍之內。

3.1.2 人臉偵測

在前面已提過的各種人臉偵測,而近年來較受學者們青睞的一個方法是“Harr-like feature”也就是本實驗中所使用的方法。Intel Corporation [28] 所開發之 OpenCV(Open Source Computer Vision) Library 人臉偵測所用的方法即是 Harr-like 的方法。本實驗中所 著重的地方並非在人臉偵測,因此使用此函式庫來節省實驗的時間,不再自行收集和分 析人臉資料。

3.1.3 膚色偵測

在使用 OpenCV 時,由於函式中所使用的人臉特徵並不包含顏色,進行人臉偵測時 往往會有些誤判,將不屬於人臉的區塊判定為人臉。為了篩選掉這些不屬於人臉的錯誤 偵測區塊,我使用了[29]所用的膚色偵測。

此方法中所提出的公式中忽略了亮度的 Y 值,僅使用 Cb 及 Cr 作為判斷的依據。

公式(1)為此膚色偵測的判定公式, 向量代表受測像素的 Cb 以及 Cr 數值,而 及 為將人類膚色統計資料分析後所得的固定參數,此參數主要是針對不同人種膚

色的分佈範圍作些許調整。而下列公式P值為計算後之膚色之數據,此數值越高代表越 接近膚色,介於 0 到 1 之間。此處的 與 參數是以白種人作為預設值,若需要不同 的人種參數可參閱[29]所提供的數據。圖 3-2 為膚色偵測的部位,以藍色表示之。

P= (1)

(a)

f

(b)

圖 3-2 :用膚色偵測來篩選非人臉的區塊,(a) 在正常人臉情況下的膚 色偵測,可以順利的通過檢測。淺藍色表示膚色偵測所抓取的區域。

(b) 透過膚色偵測正確的將非人臉的誤判刪除。

3.1.4 影像前處理

在做影像處理之前,由於影像有許多不定因素如不同光線強度、不同角度光源、鏡 頭對焦距離、抑或是攝影器材的差異都會造成影像處理時莫大的影響。因此不論對於何 種實驗,對於資料的前處理都希望能將資料的條件一致化。在我實驗中,亦會將所有圖 片做前置處理,之後在計算基底的維度、相似值時便可減少這些不定因子對實驗結果的 影響。圖 3-3 展示了流程的分區部分,顯示了無論在做何種特徵選取或是投影,都會將 影像前處理擺在第一步驟,然而針對我實驗內容會細分為兩部分,一是人臉辨識,另外 一部分則是姿勢的相似度辨識。在以下的章節會進一步介紹。

圖 3-3 前處理與辨識的運作流程圖。

在前處理的部分,可以簡單分為兩階段,一是光影的平衡,二是雜訊的過濾。一般 而言會先處理光線的問題,再將處理完的影像作雜訊過濾的處理。在此我也照此順序來 介紹。

光影平衡 ( Luminance Normalization ),其實有許多不同的做法,如白平衡 ( White Balance ) 也是一種對光源變化的校正。在本實驗中所使用的方法與[32]相同,分別對 於影像的三個圖層進行同樣的處理動作,首先計算此圖層的平均值與標準差,在使用公 式(2)代入參數,將所有影像的標準差調整至相同。目的是將影像三個圖層的亮度調整相 同。其中公式(2)中 及 分別代表所有影像欲調整的目標,而 及 分別為被 調整影像的標準差以及平均值。

。 (2) 調整完成後接下來利用 Band-Pass Filter 頻率濾波器來過濾掉影像中低頻及高頻的

。 (2) 調整完成後接下來利用 Band-Pass Filter 頻率濾波器來過濾掉影像中低頻及高頻的

相關文件