第二章 文獻探討
近年來,自動化性別辨識已成為一個熱門的研究主題。為了使電腦認知人類 的性別,越來越多學者提出各種新穎的方法。隨著硬體的高度發展,部分學者為 了提升精確度與實用性,開始研究資料量更大更複雜的分析方法,並且應用在各 種性別辨識的研究中。在本章中我們將介紹以步態影像以及人臉影像為參考基準 的相關文獻,以探討不同特徵擷取方法應用在性別辨識的差異。
2.1 以步態影像為基準的性別分類
在大多數的論文中,前處理部份幾乎是大同小異,最大的差異在於時間模板 (Temporal Templates)對影像靜態與動態部分的結合方式不同。時間模板的概念是 描述如何將多張二值化的輪廓影像壓縮成單張灰階影像,並且還要能保留住主要 的姿態資訊。接下來我們將探討以 GEI 為主結合不同特徵擷取的方法與以非 GEI 為主結合不同特徵擷取方法應用於性別辨識的相關文獻。
2.1.1 以步態能量影像為基準的性別分類
Shan 等人[2]認為只單獨考慮步態影像或是臉部影像的資訊是不夠的,所以 將步態影像與臉部紋理的特徵結合。但是,人臉的特徵與步態的特徵是有差異性 的,直接將兩者的特徵進行串接仍是不夠完善。所以提出了以典型相關分析 (Canonical Correlation Analysis, CCA)建立關聯性後再進行特徵結合,送交 SVM 進行性別分類。
Wang 等人[3]提出了一個新的紋理描述方法稱為區域區塊差異圖樣 (Local Block Difference Pattern, LBDP) , LBDP 是 從 多 重 區 塊 區 域 二 元 之 圖 樣 (Multi-Block Local Binary Pattern, MBLBP)[4]衍生而來。Wang 以 LBDP 對 GEI 進行特徵擷取後送交 SVM 進行性別分類。因為傳統的 LBP 是像素點與像素點間 的比較,LBDP 是以區塊對區塊的紋理進行比較,而且 LBDP 對雜訊有不錯的容
4
忍度,實驗結果證明了 LBDP 結合 GEI 能獲得不錯的辨識效果。
Zhang 等人[5]、和 Zhang 與 Wang[6]提出將不同角度之步態影像合成 GEI,
並利用多重線性主成份分析法(Multilinear Principal Component Analysis, MPCA) 對 GEI 提取特徵值,最後在 CAISA Gait Dataset B 和自行蒐集的步態視訊上以留 一交叉驗證法(Leave One Out Cross Validation, LOOCV)進行驗證。
Guan 等人[7]則是用主成分分析法(Principal Component Analysis, PCA)[8]結 合線性鑑別分析法(Linear Discriminant Analysis, LDA)[9]應用在 GEI 影像上,並 用 LOOCV 進行驗證。 播(Affinity Propagation, AP)分成多個群集,來獲得基於群集的平均步態圖像 (Cluster-Based Averaged Gait Image, C-AGI),以 PCA 降低維度後,用基於稀疏重 建的度量學習(Sparse Reconstruction Based Metric Learning, SRML)最小化同性間 的誤差,最大化異性間的誤差,並利用辨別信息來進行性別辨識。
2.1.2 以其他步態影像為基準的性別分類
Hu 和 Wang[15]提 出了一 種步態影像 為主成分步態影像法 (Gait Principal Component Image, GPCI),他們的 方法是先用局部線性內嵌法 (Locally Linear Embedding, LLE)[16]提取步態週期,再用 PCA 放大身體不同部位的動態變化,
最後將生成的 GPCI 影像以 K-最近鄰域法(K-Nearest Neighbor, K-NN)[17]進行辨 識。Wang 和 Yu[18]則是分別算出空間與時間的 GPCI 紋理矩陣,並將其融合送 入 K-NN 進行辨識。
5
Oskuie 和 Faez[19]等人 將步態影 像轉 換為平均步態能量影 像 (Mean Gait Energy Image, MGEI)[20]之後,結合雷登轉換獲得雷登轉換平均步態能量影像
(
Radon Transform of Mean Gait Energy Image, RTMGEI),之後再對處理後的影像 以利用澤爾尼克矩[21]做運算,最後送交 SVM 分類。Lu 等人[22]使用平均步態影像(Averaged Gait Image, AGI),以 K-means 分群 演算法尋找最佳特徵值,並用 PCA 降低特徵維度,最後再以 K-最近鄰域分類演 算法進行分類。
Eltaher 等人[23]是以 Microsoft Kinect 收集人類步態的剪影,因 Juang 等人[24]
認為影像中樹幹形狀或髮型外觀白色的部分是區分性別差異的重要特徵,因此將 GEI 進行去噪獲得只剩黑白的去噪能量影像(Denoised Energy Image, DEI)[24],並 對 DEI 影像特徵降維,送入 SVM 進行分類。
Arai 和 Asmara[25]覺得步態能量運動(Gait Energy Motion, GEM)只有空間資 訊,缺乏了時間資訊,因此將 GEM 作為空間特徵,速度作為時間特徵提取,並 使用 SVM 進行分類,發現處理空間和時間資訊比只處理空間信息效果還好。
Makihara 等人[26]將步態輪廓體積(Gait Silhouette Volume, GSV)以一維離 散傅里葉轉換(One-Dimensional Discrete Fourier Transformation, DFT)檢測步態週 期。並用奇異值分解(Singular Value Decomposition, SVD)降低維度,最後以 KNN 進行分類。
Sudha 和 Bhavani[27]用空間特徵運算與二元特徵運算對人體上半身、下半身 與全身擷取特徵,並以 K-NN、SVM 分別進行分類,比較不同區塊的辨識效果。
Devi和Shebiah[28]用Microsoft Kinect收集人類步態的剪影,並以澤爾尼克矩和 HU矩對動作歷史影像(Motion History Image, MHI)擷取特徵,最後交由SVM進行 分類。
Arai和Andrie[29]預先處理每個序列要使用的動作參數[30],用背景相減法獲 得輪廓剪影,並以二維離散小波轉換(2D Discrete Wavelet Transform, 2D-DWT)
6 特徵串接後,用粒子群優化(Particle Swarm Optimization, PSO)結合遺傳演算法 (Genetic Algorithm, GA)來選擇出具有辨識能力之特徵集合,減少維度大小。然後 將優化後的特徵送交 SVM 進行分類。
Moeini 和 Mozaffari[33]是將 LFW、Feret、groups 這三個資料庫的影像透過 LBP[34]進行特徵擷取後,送交用於性別分類的稀疏字典學習(Separate Dictionary Learning for Gender Classification, SDL-GC) 和 用 於 性 別 分 類 的 字 典 學 習 (Dictionary Learning for Gender Classification, DL-GC)來建立模組,再對現實世界 中的人臉影像以 LBP 擷取特徵後,送交稀疏表示分類器(Sparse Representation Classification , SRC)[35],與建立好的模型進行比較與分類。
7
Co-occurrence Matrix, GLCM)、離散餘弦變換(Discrete Cosine Transform, DCT),
對眉毛與眼睛區域進行特徵擷取,並送交 SVM 進行性別辨識。
Ullah 等人[38]以 DWT 將人臉影像分成三個高頻子帶及一個低頻子帶,以 SLBP 對不同子頻帶的影像進行特徵擷取,以 FFS(Feature subset selection)方法選 取出較佳的特徵降低維度,最後以最小距離分類器進行分類。
Mirza 等人[39]先將整張人臉影像以 PCA 或 2D-DWT 進行特徵擷取當作全域 特徵,再將經過 LBP 處理的人臉影像分成多個子區塊,並對各個子區塊以 DCT 擷取特徵並串接成單一個直方圖當作區域特徵,最後將全域與區域特徵結合送交 K-NN 分類與辨識。
Li 等人[40]將人臉中的五個部位前額、眼睛、鼻子、嘴巴與下巴以 LBP 擷 取特徵後,再將頭髮和衣服以 LBP 擷取特徵並結合,最後以 SVM 不同的核函數 進行分類並比較。
Ylioinas 等人[41]覺得人臉在不同角度下會影像其辨識效果,因此先對其影 像作變異數運算後將其統計成直方圖進而獲得對比資訊,再將影像以 LBP 擷取 特徵後統計成直方圖,最後以對比度的直方圖和 LBP 的直方圖進行串接後送交 SVM 分類與辨識。
8