• 沒有找到結果。

二、 文獻探討

2.4 人臉分群

人臉分群也就是使用人臉資訊作為分群的依據,但由於人臉的變化可能會因角度、

光源或是時間而有所變化,因此往往在進行分群時會搭配額外的資訊,如在[23][24][25]

中除了使用影像之外,還加上了不同的資訊來提高辨識結果,像是聲音或是文字等額外 資訊,利用演員的嘴型是否有變化來判斷此時刻的聲音是屬於哪位演員,在進而利用這 些相互關係來對人臉影像做分群,但由於牽涉過多技術,以至於效果有限,像是聲音變 的分辨程度,影音是否同步,或是演員嘴型變化是否有正確被偵測出都是環節中問題的 一部份。

[26]則是使用了身體的色彩資訊,除了使用不同的人臉辨識的技術外,希望能夠整 合影片中演員的身上衣物特徵,通常是使用顏色做為比較一句,利用不同的權重比例來 整合臉部與身體的顏色特徵。此方法效率很高,因一般影片中,演員不會在短時間內多 次變換身上的衣物,因此身體的色彩資訊若是比重調整得宜,便可以得到大幅度的正確 率提升,反之,此參數也必頇視影像的類型來決定比重參數,故若是需要時做全自動的 系統,則必頇有最佳化參數的方法。而在[18]之中使用了[21]所提出的姿勢分辨方式來 將人臉分為不同角度種類,進而在將群結合時使用同一類型的臉做為比較依據,並且在 結合兩個人臉的群組時,加上群與群之間的額外限制,會令兩非常不相像的子人臉群不 因為連結其他人臉的群而互相結合為一群。其中主要的方法也是利用 PES 來將人臉大致 上分為三個主要角度,左側臉、正面臉及右側臉。在上一節提到有使用人臉器官偵測的 文章中,也有部分文章僅利用這些臉部器官的位址將人臉的角度分類,而不是直接將圖 像做位移、旋轉角度或是變形,此類方式的好處是不破壞原圖的幾何形狀,利用影片中 包含大量不同角度人臉的特性來達到提高分群效率的目的。

第三章 實驗方法

本章節首先會將整個實驗流程以圖表方式秀出,其中會將各階段的方法及細節在小 節中逐一介紹。圖 3-1 即為本實驗流程圖,從一開始的原始影片輸入,到最後輸出的標 記位置。

圖 3-1:實驗流程步驟流程圖。

輸入影片

演員偵測,場景轉換偵測

演員串列的建立與篩選

人臉影像之前處理

投影及相似度計算

演員串列的分群

輸出標記結果

3.1 前置作業

在開始進行一連串的實驗步驟之前,需要先做四個前處理步驟,從一開始的將影片 剪裁成數張影像,接著進行人臉偵測,其中在抓取到可能的人臉區域時,會直接進行膚 色偵測,將膚色區域過少的候選區塊篩選掉。而分鏡偵測是透過分鏡劇烈的顏色變化來 找到可能發生的分鏡切換,在下個小節的演員串列建立即會用來切割正確的串列。

3.1.1 畫面擷取

這裡我們利用 DVDVideoSoft.com 所提供的免費軟體“Free Video To JPG Converter ” [27]來使切割影片更為便捷。也因為在進行各種實驗中需要不斷重複存取影像片段,因 此在實驗過程中我們事先將所有切割後的影像存檔起來,以加速實驗流程。在實驗中,

我們採取每秒擷取 5 張影像的頻率來進行影像切割,此數值相較於一般影片的每秒 30 張,可達到減少資料量,但不值於影響整體影片的流暢,經測詴後此數據在本實驗可容 許範圍之內。

3.1.2 人臉偵測

在前面已提過的各種人臉偵測,而近年來較受學者們青睞的一個方法是“Harr-like feature”也就是本實驗中所使用的方法。Intel Corporation [28] 所開發之 OpenCV(Open Source Computer Vision) Library 人臉偵測所用的方法即是 Harr-like 的方法。本實驗中所 著重的地方並非在人臉偵測,因此使用此函式庫來節省實驗的時間,不再自行收集和分 析人臉資料。

3.1.3 膚色偵測

在使用 OpenCV 時,由於函式中所使用的人臉特徵並不包含顏色,進行人臉偵測時 往往會有些誤判,將不屬於人臉的區塊判定為人臉。為了篩選掉這些不屬於人臉的錯誤 偵測區塊,我使用了[29]所用的膚色偵測。

此方法中所提出的公式中忽略了亮度的 Y 值,僅使用 Cb 及 Cr 作為判斷的依據。

公式(1)為此膚色偵測的判定公式, 向量代表受測像素的 Cb 以及 Cr 數值,而 及 為將人類膚色統計資料分析後所得的固定參數,此參數主要是針對不同人種膚

色的分佈範圍作些許調整。而下列公式P值為計算後之膚色之數據,此數值越高代表越 接近膚色,介於 0 到 1 之間。此處的 與 參數是以白種人作為預設值,若需要不同 的人種參數可參閱[29]所提供的數據。圖 3-2 為膚色偵測的部位,以藍色表示之。

P= (1)

(a)

f

(b)

圖 3-2 :用膚色偵測來篩選非人臉的區塊,(a) 在正常人臉情況下的膚 色偵測,可以順利的通過檢測。淺藍色表示膚色偵測所抓取的區域。

(b) 透過膚色偵測正確的將非人臉的誤判刪除。

3.1.4 影像前處理

在做影像處理之前,由於影像有許多不定因素如不同光線強度、不同角度光源、鏡 頭對焦距離、抑或是攝影器材的差異都會造成影像處理時莫大的影響。因此不論對於何 種實驗,對於資料的前處理都希望能將資料的條件一致化。在我實驗中,亦會將所有圖 片做前置處理,之後在計算基底的維度、相似值時便可減少這些不定因子對實驗結果的 影響。圖 3-3 展示了流程的分區部分,顯示了無論在做何種特徵選取或是投影,都會將 影像前處理擺在第一步驟,然而針對我實驗內容會細分為兩部分,一是人臉辨識,另外 一部分則是姿勢的相似度辨識。在以下的章節會進一步介紹。

圖 3-3 前處理與辨識的運作流程圖。

在前處理的部分,可以簡單分為兩階段,一是光影的平衡,二是雜訊的過濾。一般 而言會先處理光線的問題,再將處理完的影像作雜訊過濾的處理。在此我也照此順序來 介紹。

光影平衡 ( Luminance Normalization ),其實有許多不同的做法,如白平衡 ( White Balance ) 也是一種對光源變化的校正。在本實驗中所使用的方法與[32]相同,分別對 於影像的三個圖層進行同樣的處理動作,首先計算此圖層的平均值與標準差,在使用公 式(2)代入參數,將所有影像的標準差調整至相同。目的是將影像三個圖層的亮度調整相 同。其中公式(2)中 及 分別代表所有影像欲調整的目標,而 及 分別為被 調整影像的標準差以及平均值。

。 (2) 調整完成後接下來利用 Band-Pass Filter 頻率濾波器來過濾掉影像中低頻及高頻的 部分,低頻的部分包含不變的背景或是過於平滑的表面,而高頻的部分包含了雜訊以及 影像交界處。實際操作的方法是利用兩組反向的二維高斯函式組合成頻帶濾波器 ( Band-Pass Filter ) 。本實驗嘗詴不同的高斯函式之標準差,來實驗不同頻帶影響影像

臉部影像

Luminance Normalization Band-Pass filtering

統一調整至 40x40 大小

投影至設定基底 Gabor Wavelet Transform

使用係數計算彼此的相似度

(人臉,姿勢) 投影至一維基底

的結果。圖 3-4 顯示了幾組不同的參數,在經過觀察後,影響並不大,因此本實驗採取 了 d0=10 ( 反向 ) ,d1=20 ( 正向 )的參數。

圖 3-4 同一張臉在不同的 d0 與 d1 之間作頻率域濾波的結果。

在作頻帶濾波時,不同的邊界影響程度的大小在允許範圍內並不會有太大落差,d0 越大表示所要過濾的低頻範圍越大,d1 越小表示要過濾的高頻範圍越大,可從圖中看到 細節。由於若頻寬帶選取過小,可能會遺失過多的資訊,因此根據圖像中選取較不失真 但可將雜訊或無意義資訊過濾的選擇。

(a)

Ff

3.2 演員串列建立

影片與影像最大的不同點就在與時間的連續性,在影片中,時間是非常重要的資訊 之一,若能善用分鏡切換偵測,即能將每一幕分鏡內角色視為一個單位,也就是演員串 列。製作演員串列的優點很多,除了能透過時間與座標偏移量來建立非常精確的演員串 列外,得到的演員串列中可能包含了不同的背景、光線、姿勢等等。這些包含在演員串 列中的資訊都是在做分群比對時重要的資訊,也因此在做影像分析處理之前,會先建立

所有的演員串列。

圖 3-5 為簡易彩色直方圖的示意圖,表 3-1 為以 Jaccard 直方圖相似比(介於 0 到 1,

1 表示完全相同)作為製作演員串列時所用的分鏡切換偵測。Jaccard 相似度是將兩個影 像之直方圖的距離放在分子,而取較大的放在分母所計算出的簡略相似值。此表格所使 用的影片為“firends”,而演員串列建立的演算法在後面章節會詳加介紹,在演員串列建 立後,最後會將影格數目小於等於三個的串列刪除,因此類串列大多數是在人臉偵測時 留下的誤判物體,並非正確人臉,而本實驗依據不同色彩空間以及分區塊大小作了 ROC Curve,並且決定在色彩空間 YCbCr 中,可以較低 False negative 情況下取得較大的 True positive。而區塊大小對於 32 和 16 之前並沒有太大的差異,因此在後續實驗我採用區塊 切割大小為 16 作為固定參數,而在分鏡偵測所用的色彩空間則一致使用 YCbCr。

(a) (b)

(c) (d) 圖 3-5 : 簡易直方圖之示意圖(block size=4)

(a) 原圖,(b)為 RGB 三個個別圖層 (c)為三個個別圖層的直方圖

(d)將三組直方圖組合成彩色直方圖

3.2.2 人臉追蹤

經過 OpenCV 的人臉偵測,我們得到每個影格中的各個人臉區域位置及大小,但若 是直接使用這些資料,除了資料量太過於龐大外,並沒有善加利用影片中的時間軸資訊,

也就是影片中演員連續動作之間,人臉的大小以及移動位置並不會有太大的改變。依據

也就是影片中演員連續動作之間,人臉的大小以及移動位置並不會有太大的改變。依據

相關文件