第三章 人臉辨識系統
3.2 特徵抽取
圖3.2 為特徵抽取流程圖,首先將輸入影像做膚色偵測,除去不包含人臉的部份;
接下來是多重解析度視窗搜尋(multiresolution window scanning),將有可能為人臉的部分 做各種大小的區塊截圖;然後再將截圖做直方圖等化,以增加影像的對比程度,使得人 臉的特徵更為明顯;接著將影像轉換成賈伯小波表示法以產生一個向量;然後再使用區 域保留投影對此向量降維,產生影像特徵向量以便於接下來的人臉分析。
圖3.2 特徵抽取流程圖。
3.2.1 膚色偵測
首先介紹特徵抽取的第一個步驟,也就是膚色偵測。為了減少在相片中搜尋人臉的 時間,先對輸入影像做膚色偵測,以除去不包含人臉的部份,可以有效的增進系統搜尋 的效率。在第二章已經介紹過好幾種膚色偵測所選用的色彩空間以及膚色分類的模型,
本論文的選用色彩空間是正規化後的 RGB 色彩空間,因為膚色分佈比較集中;使用膚
色分類的模型是橢圓邊界模型[17],從各種不同人種及不同照明環境的相片中取得了一
(a) (b)
(c) 圖3.3 膚色偵測的結果,(a)原始相片,(b)經過膚色偵測後的結果,(c)再經過消除雜
訊後的結果。
長度大致相等;「五眼」指的是兩眼之間寬度為一眼及眼外側至髮際間的寬度亦為一眼。
取樣點之間的距離是依照人臉的尺寸而定,寬度為人臉的十分之一,高度為人臉的 六分之一。根據實驗結果,這樣不但可以大幅減少執行搜尋的時間,同時也能夠保留足 夠分析的資訊。
圖3.4 三庭五眼示意圖。
3.2.3 直方圖等化
直方圖等化的目的是增強影像的對比,讓臉上的特徵更明顯,可以在一定的程度上 減少照明變化的影響。本論文是對灰階影像做直方圖等化,其理論在2.3 節已經提過,
圖3.5 是一張人臉影像做完直方圖等化後的結果及其直方圖,可以看出做完直方圖等化 後的人臉,臉部的特徵變得更為清楚,更能將人臉的特徵表現出來,因而有利於輸入類 神經網路做訓練或是分析。
3.2.4 賈伯小波轉換
經過直方圖等化後的影像,如果直接輸入到類神經網路的話,並沒有什麼意義,所 以要先經過賈伯小波轉換,使人臉的各部位特徵變得明顯。相關的理論在2.4 節已經提 過,本論文使用三種尺寸( 5
, 2, 0,..., 4
max 4
k = π f = s∈ )、八個方向(d∈0,...,7),並設定 σ=2π的賈伯濾波器來得到人臉影像的特徵。將寬為29 像素、高為 35 像素的影像經過 24 種賈伯濾波器,會得到總共 24360 個維度的向量,這樣的維度過於龐大,難以做分析,
所以先要經過降維,降維的方法是使用區域保留投影,將在下個小節中做介紹。
(a) (b)
(c) (d) 圖3.5 經過直方圖等化後的結果,(a)原始影像,(b)原始影像的直方圖,(c)經過直方
圖等化後的影像,(d)直方圖等化後的直方圖。
3.2.5 區域保留投影
區域保留投影的主要目的是將輸入資料做降維,以便於輸入到類神經網路中做分 析。其理論與優點在2.5 節已經提過,本論文使用 k-相近來建構出相鄰無向圖,因為在 實際應用中,要定義出最好的 ε 值比較因難;權重的選擇則是使用熱核心。寬為 29 像 素、高為 35 像素的影像就有 1015 個維度,再經過 24 種賈伯濾波器會得到總共 24360 個維度的向量,過於龐大所以要降維。由於影像在經過每種賈伯濾波器後都會變成比較
簡單的圖形,因此本論文對於24 種賈伯濾波器分別做 24 次的區域保留投影,每次只針 CMU)的機器人學會(robotics institute)所建立的姿勢、照明及表情(pose, illumination, and expression, PIE)資料庫[32][33],總共包含了有 70 個人、42490 張照片,並分成 13 種不 同的姿勢(也就是人臉角度)、43 種不同的照明環境及 3 種不同的表情。圖 3.7 為架設環