第二章 第二章
第二章 相關研究與文獻探討 相關研究與文獻探討 相關研究與文獻探討 相關研究與文獻探討
2.1 人形與人群的區域特徵 人形與人群的區域特徵 人形與人群的區域特徵 人形與人群的區域特徵
區域特徵為一個人形中的某個部份(Part)或某個部位(Block)的特徵向量,藉由蒐集多 個向量來代表一個人形。在 2000 年時,Papageorgiou 與 Poggio [23]提出了由 Haar Wavelet 轉變為使用於人臉偵測的區域特徵 Haar-Like,該特徵用以代表一個人形在各種位置 (Location)、大小(Scales)和梯度方向(Orientations)的區域強度差異,Haar-Like 在目前都 還是人臉辨識的研究非常熱門的區域特徵。而 Viola 等人[ 18] 於 2005 年時的研究中,
提出加入了正負 45 度的梯度方向等類似 Haar-Like 的區域特徵搭配 AdaBoost 演算法,
並首次將 Haar-Like 區域特徵的概念應用於人形偵測。Monteiro 等人[24]於 2006 年時,
提出將原始的 Haar-Like 區域特徵搭配 AdaBoost 演算法應用於行人偵測。因為人形姿勢 多變與複雜的輪廓,導致 Haar-Like 區域特徵的辨識效果有限,而在後幾年的人形或行 人偵測的相關研究中,Cui 等人[25]則是因應人形的複雜度而提出增強與修改 Haar-Like 的區域特徵。
Dalal 與 Triggs[16]於 2005 年時,提出了梯度方向直方圖(Histograms of Oriented Gradients,HOG) 的方法,以邊緣或梯度結構的區域形狀特徵,描述身體各不同位置與 大小的區塊部位(Block),其效果非常好,所以在之後人形偵測與人群切割的相關研究中 被其他研究者廣泛的使用[26][ 27]。Zhu 等人[17]在 2006 年時,將 HOG 搭配 AdaBoost 演算法,而且還更進一步的引用串級(Cascade)方式加以改善效能。Enzweiler 與
Gavrila[28]的研究將 Haa-Like 與 HOG 兩種特徵分別加入 AdaBoost 演算法來比較兩種區 域特徵間的計算速度與辨識效果,同時也證明了 AdaBoost 能夠有效的提升系統的辨識 效能。
Wojek 與 Schiele[27]所提出的方法不同於使用 AdaBoost 改善區域特徵的方法,而是 將 HOG 加入物體了外形辨識描述的形狀內涵(Shape Context , SC),這種方法的目的也 是可以降低計算成本,但因為人體外形過於複雜導致結果不如單純使用 AdaBoost 來的 有效。還有一些不同於上述而較為常見的區域特徵,如 Shapelet[29]、Edgelet[30]、
11
Adaptive Contour Features[31]與 Local Binary Patterns(LBPs)[ 32]等。此外,Tuzel 等人[33]
則是於 2008 年時提出了新型態的特徵,這個特徵仍以區塊(Block)為基本,而進一步計 算出影像特徵的協方差(Covariance),但其被廣泛使用的程度尚不及 HOG 來的多。
2.2 人形與人群的全域特徵 人形與人群的全域特徵 人形與人群的全域特徵 人形與人群的全域特徵
全域特徵通常為代表一個人整體的外形或輪廓(Contour Shape or Silhouette),使用這 種特徵對於人體被遮蔽(Occluded)的情況比區域特徵通常會有更好的效果。在毛君[19]
的研究中是以平均梯度大小(Mean Magnitude)的方式建立出一個代表整體人形的樣板,
其藉由大量站立正面的行人樣本影像(Image Sample),分別計算所有樣本影像其梯度大 小後,再相加並除以樣本影像總數,得到平均梯度大小,最後給定一個門檻值(Threshold) 操作以獲得站立正面行人的樣板。蔡君[34]與張君[7]也是使用相同的方法建立樣板,但 蔡君只以人形的頭肩部做為其研究中的全域特徵;張君則是建立出三種不同行人方向的 樣板,分別為正面樣板、面左側 45 度與面右側 45 度,其三種行人方向中分別又有三種 不同大小的樣板,共有九種樣板。上述三人的研究皆以距離轉換演算法(Distance Transform)[35]進行樣板比對,其比對的方式最早是由 Gavrila 與 Philomin 於 1999 年時 提出[36],用在汽車偵測應用方面。
近幾年的許多研究為了改善人體被遮蔽的情況,採用了基於多重部位(Multiple Part-Based or Part-Based)的樣板分別代表人體的各個部位。如文獻[21],[28],[37],[38]
與[39]皆使用多重部位的樣板來改善人體被遮蔽的情形,其中[21]與[37]更是將其樣板細 分至不同方向的人形對應到不同部位的肢體形狀。文獻[22]與[6]則是採用了 3D 樣板,
對應至畫面中行人不同方向的姿勢與行人與鏡頭之間的距離遠近,藉由行人與鏡頭的遠 近不同便可分辨出前後行人間的相互遮蔽關係。
2.3 區域與全域特徵整合與應用方向 區域與全域特徵整合與應用方向 區域與全域特徵整合與應用方向 區域與全域特徵整合與應用方向
目前許多人形偵測與人群切割相關的研究已經將區域及全域特徵整合使用,以提高 辨識效果與其系統的效能。我們將這些相關的文獻分為單一人形偵測(Single Human Detection)及人群偵測與切割(Crowd Detection and Segmentation)兩個單元,分別描述它
12
們的使用方法及應用方向。單一人形偵測的研究大多因為沒有完全解決人物重疊時相互 遮蔽的問題,因此無法直接有效的引用在人群切割的領域上。對於人群偵測與切割來說,
大多數方法使用身體的某一部分做為偵測器(Detector)以便能找出不完整的人形或行人 部位,如此對於人群中的相互遮蔽現象具有較高的適應性。
2.3.1 單 單 單一人形偵測 單 一人形偵測 一人形偵測 一人形偵測
Wojek與Schiele提出Shape Context(SC)與HOGs相互結合[27],將影像邊緣做隨機取 樣,以直方圖統計取樣點與其他取樣點之間的距離與角度,評估相似程度(Similarity)做 為全域特徵。再透過結合HOGs區域特徵偵測器,以便最終取得一個權重(Weight)關係進 行辨識人形。蔡君[34]以全域特徵驅動區域特徵分類器的基本構想,將全域特徵以人形 特有的頭肩部輪廓作為單一樣板,再以距離轉換演算法進行樣板比對。而後進一步觀察 出於訓練樣本中被全域特徵分類出人(Human)與非人(Non Human)的分數分佈,找出兩 者間樣板比對後分數相似的數學模型,以便順利的選出分類的門檻值。如此藉由全域特 徵的分類,驅動改變AdaBoost中的HOGs向量SVM弱分類器的分類標準。當頭肩資訊非 常可靠的時候放寬所有弱分類器的標準,反之則是讓標準更加嚴格,以此達到全域與區 域特徵整合的概念。
採用與[34]相同的概念來整合全域及區域特徵,毛君[19]進一步加強以全域特徵驅動 區域特徵分類器的研究。該研究以全身行人的正面樣板做為全域特徵,而後以距離轉換 演算法(DT)進行樣板比對,並手動設立一個辨識全域特徵的門檻值用以區分為人或非人。
當全域特徵分類為人時,將會驅動區域特徵的HOGs向量SVM弱分類器於某個區間中找 出最佳的降低分類標準,意即提高被分類為人的機會;反之,若全域特徵分類為非人時,
則會於HOGs向量SVM弱分類器的某個區間中找出最佳的提高分類標準,意即降低被分 類為人的機會。如此以全域與區域特徵相互搭配驅動的方式達到更精準的弱分類器效果,
進而提高AdaBoost演算法學習(Learning)的功效。
13
2.3.2 人群偵測與切割 人群偵測與切割 人群偵測與切割 人群偵測與切割
對於人群偵測來說,大多數方法使用身體的某一部分做為偵測器(Detector),用以解 決人群中人與人重疊時發生的相互遮蔽現象。Lin 與 Davis [21]的研究中使用的區域特 徵為 HOGs 向量以搭配 AdaBoost 演算法,而全域特徵為將身體部位樣板分為多層次身 體部位樣版比對(Hierarchical Part-Template Matching);由單一頭肩樣板開始向下分支,
接著分為側面及正背面的身體軀幹樣板,再個別從兩種身體軀幹樣板分支出多種行人腳 部樣板的不同角度與姿勢,以這種多層次身體部位的樣版比對方式找出正確的行人姿勢 與角度。Lin 與 Davis 的全域與區域特徵整合的概念是藉由區域特徵偵測(Detection)人形 所在位置,再以多層次身體部位樣版比對的全域特徵,將人形正確的姿勢輪廓切割 (Segmentation)出來。Hao 等人[40]則是與 zhu 等人使用相同的 Cascade 架構做為區域特 徵的驗證偵測,並且加入使用大量的人形樣本(Sample)圖片建立出機率頭肩樣板,再以 DT 進行樣板比對找出人形或行人與機率頭肩樣板相似程度最高的部位。利用此種方式 結合區域特徵與全域特徵,來達到正確的標示人形或行人的效果。
不同於[40],[27],[21],[34]與[19]的研究,Wu 與 Nevatia[30]使用了 Edgelet 做為 區域特徵。但全域特徵的部份與[21]使用相同的概念,將人形分為多個部位的階層式樣 板個別比對。這種身體部位樣板(Part-Template)的概念是為了有效的解決人體遮蔽的問 題,並且共通點都在於必須要求人形顯現完整的頭肩部份。Leibe 等人[41]相對於上述 文獻中區域特徵的使用概念,反而是以局部的身體外觀做為區域特徵解決人群相互遮蔽 的問題,並且與全域行人的外觀輪廓(Silhouette)相結合,藉由行人外觀輪廓的比對方式,
正確的切割出人群畫面中的各個行人。而在參考文獻[42]中,Ramanan 以大量的樣本圖 片建立人形的輪廓遮罩樣板,再以輪廓遮罩樣板進行全域分割(Global Segmentation)找 出偵測區域,並於驗證階段過程中將輪廓遮罩樣板與區域特徵結合進行分類。