由下而上的以特徵為基礎的方法

第二章人臉偵測之相關研究

2.2 由下而上的以特徵為基礎的方法

人臉通常不是正面，有可能有不同的姿勢，例如側面，低頭等，還有不同影

(1)膚色(Skin Color)

膚色已經被證實可當成是偵測與追蹤人臉的有效特徵，藉由判斷影像中那些

選好代表膚色的顏色空間後，接下來就是要建立膚色模型，最簡單的膚色模型就是直接規定顏色範圍【11】，例如當選用的顏色空間為 YCbCr，統計收集的膚色像素來規定 Cb 的範圍是[Cb₁,Cb₂]，Cr 的範圍是[Cr₁,Cr₂]。如果一個測試像素的 Cb 與 Cr 值都落在這兩個範圍內，則認為此像素的顏色是膚色。

Ｃrowley 和 Coutaz 【12】用長方條代表的統計圖 (histogram) 來建立膚色模型，令h ,

( )

r g 代表在 RGB 顏色空間中收集的膚色像素的 RG 值等於

( )

r,g 的長方條高度，同時規定長方條高度的門檻值τ。若測試像素的 RG 值為

(

r1, g1

)

且h

(

r1, g1

)

＞τ，則認為此測試像素的顏色是膚色。

除了非參數的方法外，單一高斯模型【13】與高斯混合模型【6】也有人用來建立膚色模型。單一高斯模型的參數只有一個平均值與一個共變異數矩陣，

這兩個參數可由收集的膚色像素計算得到，至於高斯混合模型的參數有高斯元件的個數、每個高斯元件的平均值與共變異數矩陣與權重，這些參數可用 EM 演算法來計算得到。至於用長方條代表的統計圖(histogram)或用高斯混合模型來建立膚色模型比較好沒有一定的標準答案，陳等人【14】則認為當收集的膚色像素比較少且具代表性時，用高斯混合模型來建立膚色模型較好；當收集的膚色像素很多且在顏色空間的範圍很廣時，用長方條代表的統計圖來建立膚色模型較好；Jones 等人【15】則認為用長方條代表的統計圖(histogram) 來建立膚色模型較好，並有佐以實驗證明。

另外，Chow 等人【16】則認為一個像素一個像素的去判斷是不是膚色並不適當，因為眼睛、眉毛、頭髮等不是膚色的地方加上臉部有些小地方可能不會被判斷成膚色，造成判斷出的人臉區域會是破碎分離的，這時還要再用形態上的運算(morphological operation)去做處理，把破碎的人臉區域合併成一個完整的人臉區域，但是形態上的運算有其缺點，因為若破碎的人臉區域分隔的有點遠，

則無法被合併，又或是有些小區域根本不屬於人臉區域也被合併到人臉區域。所以 Chow 等人提出了一個以區域為主(Region-Based)的膚色判斷方法，首先把測試影像做降取樣(downsampling)，例如從 640×480 的大小降取樣成 80×60，然

後以 Comaniciu 等人【17】提出的均值移動分段（Mean Shift Segmentation）

把影像分割成好幾個顏色相同的區域，然後再做升取樣 (upsampling) 回 640× 480 的大小，降取樣(downsampling)的目的除了加速影像分段(Image Segmentation) 外，最重要的作用是把眼睛、鼻子以及嘴巴區域都併入膚色，因為這些臉部特徵在降取樣的影像中會變的很小，以至於在影像分段(Image Segmentation)時會被合併到與臉部其他部分屬於同一個分段(區域)。將測試影像做完分段後，因為每個分段(區域)有相同的顏色，所以測試影像中同個分段可同時用膚色模型去判斷是否為膚色。

(2)臉部特徵(Facial Feature)

Chetverikov 和 Lerch 【18】提出一個簡單的人臉偵測方法，他們認為人臉可用兩團暗點代表眼睛，三團亮點代表兩頰與鼻子，並且可用條紋來代表人臉、

眉毛和嘴唇的輪廓，所謂的條紋是由相近的邊界(edge)所組成。首先降低影像的解析度並通過拉普拉斯濾波器(Laplacian Filter)，接下來偵測影像中所有聚集成一團的亮點或暗點，然後取任意兩團暗點與三團亮點，判斷兩個條件，第一個條件是這兩團暗點是否與其中一團亮點形成一個三角形，第二個條件是這三團亮點是否形成另一個三角形且這兩個三角形同方向；如果兩個條件都成立的話，最後再驗證三件事，第一件事是三團亮點中是否只有一團亮點被條紋所包圍，第二件事是兩團暗點的上方是否都有細長狀的條紋，第三件事是是否有一個橢圓形的條紋包圍這五團亮點與暗點，若全都符合的話則認為這兩團暗點與三團亮點形成人臉。

Han 等人【19】認為人臉中最不易被其他因素影響而可靠的特徵是眼睛，

因為眼睛部份的灰階值比其附近的灰階值低，所以影像中在包含眼睛與其附近的區域的灰階值形成一個山谷， Han 等人利用形態上的運算 (morphological operation) ，包括關閉 (closing) 、相減 (clipped difference) 、門檻值 (thresholding)等取出可能是眼睛的像素，然後把相鄰的眼睛像素連接形成眼睛部份，將所有的眼睛部份兩個兩個配對，在配對的同時可估計人臉的範圍區域，

最後用一個訓練好的類神經網路去驗證此範圍區域是否為人臉。

在文檔中非監督式主播影像偵測於新聞故事分段之研究 (頁 14-17)

第二章 人臉偵測之相關研究

2.2 由下而上的以特徵為基礎的方法

( )

( )

(

)

(

)

第二章人臉偵測之相關研究