章節介紹 - 前言 - 非監督式主播影像偵測於新聞故事分段之研究

第一章前言

1.4 章節介紹

在以下章節中，第二章首先介紹人臉偵測與其相關研究，從中選擇一個適當的人臉偵測演算法；第三章介紹本論文如何以人臉偵測為基礎來偵測主播影像，

同時介紹如何利用人臉追蹤來加速人臉偵測的時間，還有在偵測主播影像之後如何做新聞故事切割；第四章是第三章所提出的新聞主播影像偵測與新聞故事切割方法的實驗結果，以驗證其可行性與效能；第五章是結論及對未來的展望。

第 2 章

人臉偵測之相關研究

在一張影像中偵測人臉是一個被研究多年的題目，已有許多種方法被提出。

Yang 等人【3】將這些方法分成四類。

2.1 由上而下的以知識為基礎的方法 (Knowledge-Based Top-Down Method)

以知識為基礎的方法建立在研究者對人臉的認識，一個人臉通常有兩個對稱的眼睛，一個鼻子跟一個嘴巴等特徵，這些特徵間有相對的位置跟距離，可當成人臉驗證的規則，例如眼睛、嘴巴還有鼻子排列成一個Ｔ字形。在影像中找出這些人臉特徵，驗證特徵間的位置與距離是否符合已經定義好的規則就能確定找到的特徵是否組成一張人臉，同時也知道其所在。

以知識為基礎的方法困難的地方在於如何決定驗證人臉特徵的規則，如果規則訂的太嚴格，則會有許多人臉偵測不到，但如果訂的太鬆，則許多不是人臉的物件會被判斷成人臉。而且還有一個困難在於規則的決定主要是針對正面的人臉，那麼對於低頭及側面的人臉就會不適用。然而以知識為基礎的方法對於正面

且周圍沒有複雜背景的人臉是偵測得到的。

(Feature-Based Bottom-Up Method)

人臉通常不是正面，有可能有不同的姿勢，例如側面，低頭等，還有不同影

(1)膚色(Skin Color)

膚色已經被證實可當成是偵測與追蹤人臉的有效特徵，藉由判斷影像中那些

選好代表膚色的顏色空間後，接下來就是要建立膚色模型，最簡單的膚色模型就是直接規定顏色範圍【11】，例如當選用的顏色空間為 YCbCr，統計收集的膚色像素來規定 Cb 的範圍是[Cb₁,Cb₂]，Cr 的範圍是[Cr₁,Cr₂]。如果一個測試像素的 Cb 與 Cr 值都落在這兩個範圍內，則認為此像素的顏色是膚色。

Ｃrowley 和 Coutaz 【12】用長方條代表的統計圖 (histogram) 來建立膚色模型，令h ,

( )

r g 代表在 RGB 顏色空間中收集的膚色像素的 RG 值等於

( )

r,g 的長方條高度，同時規定長方條高度的門檻值τ。若測試像素的 RG 值為

(

r1, g1

)

且h

(

r1, g1

)

＞τ，則認為此測試像素的顏色是膚色。

除了非參數的方法外，單一高斯模型【13】與高斯混合模型【6】也有人用來建立膚色模型。單一高斯模型的參數只有一個平均值與一個共變異數矩陣，

這兩個參數可由收集的膚色像素計算得到，至於高斯混合模型的參數有高斯元件的個數、每個高斯元件的平均值與共變異數矩陣與權重，這些參數可用 EM 演算法來計算得到。至於用長方條代表的統計圖(histogram)或用高斯混合模型來建立膚色模型比較好沒有一定的標準答案，陳等人【14】則認為當收集的膚色像素比較少且具代表性時，用高斯混合模型來建立膚色模型較好；當收集的膚色像素很多且在顏色空間的範圍很廣時，用長方條代表的統計圖來建立膚色模型較好；Jones 等人【15】則認為用長方條代表的統計圖(histogram) 來建立膚色模型較好，並有佐以實驗證明。

另外，Chow 等人【16】則認為一個像素一個像素的去判斷是不是膚色並不適當，因為眼睛、眉毛、頭髮等不是膚色的地方加上臉部有些小地方可能不會被判斷成膚色，造成判斷出的人臉區域會是破碎分離的，這時還要再用形態上的運算(morphological operation)去做處理，把破碎的人臉區域合併成一個完整的人臉區域，但是形態上的運算有其缺點，因為若破碎的人臉區域分隔的有點遠，

則無法被合併，又或是有些小區域根本不屬於人臉區域也被合併到人臉區域。所以 Chow 等人提出了一個以區域為主(Region-Based)的膚色判斷方法，首先把測試影像做降取樣(downsampling)，例如從 640×480 的大小降取樣成 80×60，然

後以 Comaniciu 等人【17】提出的均值移動分段（Mean Shift Segmentation）

把影像分割成好幾個顏色相同的區域，然後再做升取樣 (upsampling) 回 640× 480 的大小，降取樣(downsampling)的目的除了加速影像分段(Image Segmentation) 外，最重要的作用是把眼睛、鼻子以及嘴巴區域都併入膚色，因為這些臉部特徵在降取樣的影像中會變的很小，以至於在影像分段(Image Segmentation)時會被合併到與臉部其他部分屬於同一個分段(區域)。將測試影像做完分段後，因為每個分段(區域)有相同的顏色，所以測試影像中同個分段可同時用膚色模型去判斷是否為膚色。

(2)臉部特徵(Facial Feature)

Chetverikov 和 Lerch 【18】提出一個簡單的人臉偵測方法，他們認為人臉可用兩團暗點代表眼睛，三團亮點代表兩頰與鼻子，並且可用條紋來代表人臉、

眉毛和嘴唇的輪廓，所謂的條紋是由相近的邊界(edge)所組成。首先降低影像的解析度並通過拉普拉斯濾波器(Laplacian Filter)，接下來偵測影像中所有聚集成一團的亮點或暗點，然後取任意兩團暗點與三團亮點，判斷兩個條件，第一個條件是這兩團暗點是否與其中一團亮點形成一個三角形，第二個條件是這三團亮點是否形成另一個三角形且這兩個三角形同方向；如果兩個條件都成立的話，最後再驗證三件事，第一件事是三團亮點中是否只有一團亮點被條紋所包圍，第二件事是兩團暗點的上方是否都有細長狀的條紋，第三件事是是否有一個橢圓形的條紋包圍這五團亮點與暗點，若全都符合的話則認為這兩團暗點與三團亮點形成人臉。

Han 等人【19】認為人臉中最不易被其他因素影響而可靠的特徵是眼睛，

因為眼睛部份的灰階值比其附近的灰階值低，所以影像中在包含眼睛與其附近的區域的灰階值形成一個山谷， Han 等人利用形態上的運算 (morphological operation) ，包括關閉 (closing) 、相減 (clipped difference) 、門檻值 (thresholding)等取出可能是眼睛的像素，然後把相鄰的眼睛像素連接形成眼睛部份，將所有的眼睛部份兩個兩個配對，在配對的同時可估計人臉的範圍區域，

最後用一個訓練好的類神經網路去驗證此範圍區域是否為人臉。

2.3 樣板比對方法(Template Matching)

樣板比對方法使用一個事先準備好的人臉樣板，人臉樣板的取得是以人工的方式從灰階影像中剪下人臉的區域(通常是正面的人臉)，有其固定的大小。利用這人臉樣板與測試影像中可能是人臉的區域做比對，計算相關值，若相關值越高，則越有可能是人臉，反之，則不是。樣板比對方法的優點在於實作簡單，不過當測試影像中人臉的姿勢、大小、形狀與樣板不同時就有可能偵測不到。

Sakai 等人【20】使用樣板比對的方法偵測人臉，他把人臉樣板分成眼睛、

鼻子、嘴巴、人臉輪廓四個樣板，其中人臉輪廓樣板主要是由線段組成的人臉輪廓。首先在影像中尋找邊界(edge)，邊界就是灰階值有明顯變化的地方，接下來用人臉輪廓樣板去比對所有找出的邊界，如果相關值很高，則該線段圍成的區域很有可能是人臉，進一步的用眼睛、鼻子與嘴巴樣板去比對該區域中可能是眼睛、鼻子與嘴巴的位置，如果計算出的相關值都很高，則認為該區域的確是人臉。

Sinha 【21】認為不應該直接使用灰階影像中的人臉當成樣板，因為這樣當測試影像中的人臉被光照改變亮度時人臉樣板就不能用了。他把樣板分成好幾個相鄰的區域，只定義相鄰區域的灰階值關係，如圖 2-1。圖 2-1 把人臉分成 16 個區域，箭頭方向代表相鄰區域的明暗關係，被箭頭指到的區域表示該區域較暗。當影像中的人臉被光照改變亮度時，使用此種新定義的人臉樣板仍能偵測到影像中的人臉是因為人臉中各個區域的亮度相對關係不會受到光照的影響。

圖 2-1 人臉樣板示意圖

當測試影像中的人臉角度或大小與事先定義的人臉樣板不同時，樣板比對的人臉偵測方法可能會失效。為了解決這個問題，Miao 等人【22】把測試影像從 -20 度每次轉 5 度到 20 度且調整測試影像成幾個不同的大小。這個方法很直覺，

可是很花時間，因為本來是只要偵測一張影像中的人臉，現在等於要偵測好幾張影像中的人臉。

2.4 以表面跡象為基礎的方法(Appearance-Based Method)

以表面跡象為基礎的方法也有使用樣板，不過所用的樣板是從許多訓練影像中學習得來，而且還有用非人臉樣板。一般來說，以表面跡象為基礎的方法主要是從訓練影像中進行統計分析來學得人臉樣板與非人臉樣板的特性。這些特性以機率模型或區別函數(discriminant function)來表示後可用來做人臉偵測。

一張n×m 的人臉影像或非人臉影像可當成是一個 n×m 的特徵向量 (feature vector)，如果以機率模型來表示人臉影像或非人臉影像的分布，則一個特徵向量可看成是一個隨機變數x，令 ^p

(

^x^| ^face

)

^和 ^p

(

^x^|^nonface

)

^{分別代表人}

臉影像與非人臉影像的條件機率函數，用貝式分類器或最大相似度(maximum likelihood)即可判斷在測試影像中的某個位置是否為人臉。不過，代表人臉影

像或非人臉影像的特徵向量維度通常很高使得^p

(

^x^| ^face

)

^和^p

(

^x^|^nonface

)

^兩個函

式的參數型不易求得，所以只能以p

(

x| face

)

和p

(

x|nonface

)

的近似參數型來實作判斷一張影像是否為人臉的貝式分類器。

除了以機率模型來表示人臉影像或非人臉影像的分佈外，找出人臉影像或非人臉影像在特徵向量空間的區別函數(discriminant function) 【23】，或稱決定表面(decision surface)，有了決定表面後就可以由測試影像是在決定表面的那一邊來判斷該測試影像是不是人臉。實作上為了計算速度上的考量，一般照慣例的作法是先把人臉影像和非人臉影像的特徵向量投影到低維度空間，然後去尋

在文檔中非監督式主播影像偵測於新聞故事分段之研究 (頁 12-0)

章節介紹

第一章 前言