1
應用立體視覺與
HOG 及幾何特徵於行人偵測之研究
陳昱宏 李建德 長庚大學電機所 長庚大學電機所 [email protected] [email protected] 鄭國祥 工研院機械與系統研究所智慧車輛組安全感測控制技術部 [email protected] 摘要 – 行人偵測功能是智慧型駕駛輔助系統不可或缺的 功 能 之 一 。 本 論 文 以 立 體 視 覺 為 基 礎 , 結 合 Geometry-based 特徵與 HOG 特徵,並以改良型 Adaboost 分類器完成行人偵測任務,並可同時得出行人之距離遠 近,作為行車判斷之依據。首先,本系統以 MIT 與 INIRA 的行人資料庫進行特徵轉換,並使用事前訓練好的改良型 Ada-Boost 分類器進行分類判斷。經由實驗證明,經由多 種行人特徵(HOG 及 Geometry)及多階分類器組合,行人 偵測正確率可達 85%,效能優於單獨只用 Harr-Like 特徵 (準確率 78.37%)、HOG 特徵(準確率 80.64%) 。且處理速 度每張影像僅需 70ms,將可滿足實際應用之要求。 關鍵詞 – 立體視覺、圖像校正、HOG、AdaBoost、 V-Disparity一、 前言
目前在行人偵測的研究中,根據所使用的 感測器,大致可分為三類,第一種是利用可見 光攝影機取像,但其缺點為夜間會因為光源不 足而造成無法成像的缺點。第二種是利用紅外 線攝影機取像[1-4],它可以應用於夜間偵測行 人;其成像原理是使用不可見光的紅外線當作 夜間補充光源,使得在夜間光源不足造成無法 成像的問題獲得改善,相較於可見光攝影機, 紅外線攝影機在白天不開啟紅外線補充光源的 時候,與一般可見光攝影機並無差異,而夜間 可以藉由不可見光的紅外線作為補充。第三種 是用主動式感測器取像,例如:雷達[5]或雷射 [6];這種主動式感測器,提供物體跟攝影機的 距離,所以有利於執行車子行進中路況的規劃 或是駕駛安全性的判斷;而且它不受光線或天 氣的影響,即使在晚上或下雨天也可以偵測行 人,但是缺點是比較難區分行人和其他物體。 因此,考慮上述各項取像的優劣,本研究採用 紅外線攝影機作為行人偵測系統的取像裝置。 在行人偵測演算法部分,目前雖已有不同的 演算法被提出,例如:經由機器學習獲得的分 類器:Adaboosting[7-9]、類神經網路(Neural Network)[10-11]、支援向量機(Support vector Machine) [12-13]、馬可夫模型(Markov)[14] 等。但這些方法大都無法提供行人對車子的相 對位置資訊,這對智慧型駕駛系統而言,將無 法提供避免撞擊行人的閃躲策略開發。有鑑於 此,本研究使用雙攝影機,依據立體視覺之基 本特性架構出三維場景。並在此三維場景之中 偵測出行人與攝影機之相對距離。本研究採用 雙攝影機的外極線校準,使攝影機取得的影像 資訊具有一定的對應關係。對應的左右影像因 對應位置相同,因此在對應的位置週遭會具有 相同之特徵,以此特徵為基準進行視差計算, 可算出一張完整的視差圖。 從視差圖提供的資訊可以計算出該圖像中 場景與攝影機的相對距離位置,以此為基準進 行三維重建。三維場所提供的資訊可以彌補二 維場中不足的資訊,以此為基準進行行人偵測。二、 系統與方法
(一) 系統流程 本研究之系統流程如圖1 所示。首先以校 正後的左右圖像作為運算的基底,由於校正後2 的左右圖像具有相同起始與結束位置。因此在 左右圖像尋找各個可能封閉區塊,進行視差值 計算,將可快速判定是否為左右對應區塊。 圖1 系統流程圖 此外,為減少分類器必須處理的圖像資 料,使運算速度得以提升。本研究將左右影像 輸入在立體視覺基礎上進行 U&V 的視差圖統 計,對預選區間進行檢測,再以左右影像的預 選區間是否重疊做一次的雜訊濾除,確保預選 區間的正確性。 決定的預選區間後再以左影像為主體做 HOG 與 Harr-Like 特徵空間轉換,並用事前訓練 好的Ada-Boost 分類器進行分類判斷。若左影像 偵測無行人則進入右影像偵測,左右影像皆無 人則確定無行人,若其中一邊影像發現有行人 則提出通報。 本研究在行人偵測部分,主要以行人特徵 為辨識之依據,故為有效提升系統之辨識率, 必須先以大量行人圖像訓練本系統的分類器。 因此本研究所用之行人影像資料庫包含 MIT, DaimlerChrysler,與 INRIA 等知名資料庫,如 圖 2 所示,作為行人正樣本的分類器資料庫。 另考量HOG 對於圖像轉置的強健性不佳,因此 本研究以上述三類資料庫為基底進行 HOG 與 Harr-Like 特徵空間轉換,並結合在相同的特徵 空間,以產生更高維度的特徵向量。用以解決 HOG 對於圖像轉置強健性不佳的缺點。 圖2 MIT 資料庫 (二) 圖像校正 圖像校正目的在計算攝影像之外部參數與 內部參數。根據David Fern´andez Llorca [4]所 提出的立體視覺硬體系統,考量該硬體架設方 式與地面有一距離,且與地面有一夾角關係, 因此本研究以放置於地面的棋盤格樣本對其進 行高度校準,如圖 3 所示。 圖3 左右影像示意圖 此外,為了使樣本具有精確的深度資訊, 必須使樣本具有不同的轉角,再對該樣本進行 連續取像作為校準之依據影像。以連續的樣本 影像對攝影機進行校準,如圖 4 所示。
3 設定樣本的正規化向量ni → 。考慮仰角內積 計算如式(1) : 1 c o s c o s ( ) i i i i o n o n o n α − ⋅ = = > ⋅ r uur r ur r ur (1) 圖4 棋盤格取像在不同三維位置圖 總計 N 張影像,則平均所有圖像後,取得 如下較為穩定的數值 : 1 1 1 1 1 (cos ( )) N i i N i i N o n N α α = − = = = > ⋅
∑
∑
r ur (2) 提出的高度校準計算方式定義如下。假設 ( , , ) i xi yi zi T = t t t , 則 轉 換 後 的 向 量 則 為 ( , , ) i i i i n = a b c ur 表示。正規化之後的向量用來表 示三維點座標定義如式(3): ( ) ( ) ( ) 0 i xi i yi i zi i i i i xi i yi i zi a x t b y t c z t a x b y c z a t bt c t − + − + − = => + + = + + (3) 影像平面定義表示 z=0。則根據式(3)定義 線方程式如下 : i i i xi i yi i zi i i i a x b y a t bt c t a x b y d + = + + => + = (4) 當 di = a ti xi + bti yi+ c ti zi 根據式(5)導出 兩線相交的平面光學中心點定義為p=(0,0,0)。 2 2 2 2 i i i i i xi i yi i zi i i d h a b a t b t c t a b = + + + => + ( 5 ) 則計算後真實的h
'
從式(4),(5),可導出如 下 : ' cos i i i h = h α (6) 最後可以獲得N 個物體真實的平均高度h
'
如下 : 1 2 2 1 1 ' ' 1 ( cos ) N i i N i i i i i h h N d N a b α = = = => +∑
∑
( 7 ) ( ) cos 0 sin 1 0 0 [ ](cos sin 0) 0 1 0 0 cos sin [ ] sin 0 cos 0 sin cos [ ]
cos 0 sin 1 0 0 [ ]
(0 0 1) 0 1 0 0 cos sin sin 0 cos 0 sin cos
W X W Y W Z im W x X i T Y i T Z i T f x s X i Y ϕ ϕ φ φ ϕ ϕ ϕ ϕ ϕ ϕ ⎛ ⎞ ⎛ ⎞⎛ ⎞ ⎛ ⎞ ⎜ ⎟ ⎜ ⎟⎜ Ψ Ψ⎟ +⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜− ⎟⎜ − Ψ Ψ⎟⎜ ⎟ ⎜ ⎟ ⎝ ⎠⎝ ⎠⎝ ⎠ ⎝ ⎠ = − ⎛ ⎞⎛ ⎞ ⎜ ⎟⎜ Ψ Ψ⎟ ⎜ ⎟⎜ ⎟ ⎜− ⎟⎜ − Ψ Ψ⎟ ⎝ ⎠⎝ ⎠ ( ) 0.5 [ ] [ ] cos 0 sin 1 0 0 [ ]
( sin cos 0) 0 1 0 0 cos sin [ ] sin 0 cos 0 sin cos [ ] cos 0 s (0 0 1) x X W Y W Z W X W Y W Z im x o T i T Z i T X i T Y i T Z i T f y s ϕ ϕ φ φ ϕ ϕ ϕ ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ + + ⎟ ⎜ ⎛ ⎞ ⎛ ⎞ ⎟ ⎜ ⎟ ⎜ +⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎜ ⎟⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎝ ⎠ ⎝ ⎠ ⎟ ⎝ ⎠ ⎛ ⎞ ⎛ ⎞⎛ ⎞ ⎛ ⎞ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ − ⎜ ⎟⎜ Ψ Ψ⎟⎜ ⎟+⎜ ⎟ ⎜− ⎟⎜ − Ψ Ψ⎟⎜ ⎟ ⎜ ⎟ ⎝ ⎠⎝ ⎠⎝ ⎠ ⎝ ⎠ = − 0.5 in 1 0 0 [ ] 0 1 0 0 cos sin [ ] sin 0 cos 0 sin cos [ ]
x W X W Y W Z o X i T Y i T Z i T ϕ ϕ ϕ ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ + + ⎟ ⎜ ⎛ ⎞⎛ ⎞⎛ ⎞ ⎛ ⎞ ⎟ ⎜ ⎟ ⎜ ⎜ ⎟⎜ Ψ Ψ⎟ +⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎜⎜ ⎟⎜⎟⎜ ⎟⎟ ⎜ ⎟⎜ ⎟ ⎟ ⎜ ⎟ ⎜ ⎝− ⎠⎝ − Ψ Ψ⎠⎝ ⎠ ⎝ ⎠ ⎟ ⎝ ⎠ (8) 最後再以式(8)進行後續的實際大小換算, 以獲得更精準的實際數值。 定義內參數如下 : 焦長 : f , 點大小 : sx , sy , 影像中心 : ox , oy , 非線性失真係數 : k1 , k2…。 定義外參數如下 : 旋轉係數 : φ, ,ψ。 轉換矩陣 : T。
4 根 據 式(3) 假 設 的 Ti = ( txi , tyi , tzi) 假設的座標點位置應用於連續 N 張影像解內外 參數的聯立方程式(8)。 (三) 視差影像 本 研 究 採 用 的 視 差 圖 計 算 法 則 是 以 Graph-based 的方式對左右影像同一區間的視 差數值進行計算。其示意圖如圖 5 所示。 正常假設目標物的色彩值與週遭環境有所 差異的情況下。使用左影像中同一區間的色彩 值作為一類別,與右影像對應,可以在灰階度 當中計算其視差數值。其流程如圖 6 所示 圖5 雙攝影機視差計算示意圖 圖6 Graph-based 視差圖流程 首先初始化視差圖區間且設定掃描的視窗 大小為 3x3 或 7x7,將左影像中色彩值分割出 來,且進行標記用於對應右影像之用。 在此,被標記的區塊以集合方式表述如 下 : 設 f()為標籤函數, p 為點資訊, k 為標 記。則集合為式(9)所示。
{
}
: ( ) ( , , ) , 0 1 ... p I f p f x yv k k N ∀ ∈ = = ∈ (9) 令S 為提取層之左影像集合,則式(9)可轉 為式(10)。{
}
: ( ) , 0 1 ... s S f s k k N ∀ ∈ = ∈ (10) 左右對應之色彩分隔標記圖用以提取相同 區間暫存。 由於在色彩分界處會有數值變異的高頻雜 訊問題。在此對提取層的視差圖做低通濾波, 將其數值平滑降低邊緣造成的雜訊,其低通濾 波核結構如式(11)。 ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ 3 3 3 3 1 3 3 3 3 25 1 1 1 1 1 1 1 1 1 1 9 1 or (11) 將相同色彩值對應的區間轉入灰階圖像中 做左右相減,計算其區塊的視差值(如式 12), 且相減後的數值圖經過低通濾波將數值平滑之 後,即為該視差圖。 1 1 | | N M Lij Rij i j S A D I I = = =∑ ∑
− (12) 由於產生的數值在-127 至 128 之間,因此 配合正常成像格式為 0 至 255 之間,因此將數 值正規化至 0 至 255 之間。如式(13)所示。 2* , ( , ) ( , ) ( , ) , ( , ) ( , ) x y x y if n k I x y g n n I x y if n k I x y g n n ∈ = ⎧ =⎨ ∈ = ⎩ (13)(四) V-Disparity 與 U-Disparity 影像
5 以往Labayrade and Aubert[14]曾提出利用 V-Disparity 觀念偵測障礙物候選者。其研究主 要在立體照像機的平面中,把四周環境的情 況,分割成水平平面、垂直平面和任何物件平 面(傾斜或垂直於地面),如圖 7 所示。在攝影機 的光學軸鏡頭中的剖面圖,任何一個平面都可 以投影成一直線。定義平面是為了找出一個最 有效的特徵,例如:地平面或是障礙物平面。 偵 測 到 這 些 特 徵 就 為 V-Disparity 影 像 和 U-Disparity 影像萃取出的垂直、水平線段。 圖7 空間平面圖 由於計算影像座標(u,v)視差圖 v 軸上的每 一個像素值,所以稱之為V-Disparity[14]。圖 8 經由式(14),我們可以求出 V-Disparity 影像, 它是累加沿著視差圖 v 軸上相同的視差值而產 生,所以V-Disparity 可提供行人候選者最頂端 和最底端的邊界,如圖九所示。
∑
> − = =image width u u v d g d I 0 ) ( ) , ( ( 1 4 ) 其中 ⎩ ⎨ ⎧ = otherwise v u I whemd d g DM 0 ) , ( 1 ) ( ,Iv(v,d)為V-Disparity 影像;IDM(u,v)為視差圖;d 為視差
值 ; image→width 為 影 像 的 寬 度 ; image→height為影像的高度。由圖9 所示,即 可找出行人候選者及其高度。 圖 8 經由式(15),即可求出 U-Disparity 影 像,它是累加沿著視差圖 u 軸上相同的視差值 產生的,所以U-Disparity 可提供行人候選者最 左側和最右側的邊界,如圖10 所示。
∑
−> = =image width u u v d g d I 0 ) ( ) , ( (15) 其 中 ⎩ ⎨ ⎧ = otherwise v u I whemd d g DM 0 ) , ( 1 ) ( ,Iu(u , d) 為 U-Disparity ,IDM(u,v)為視差圖;d 為視差值;image→width為影像的寬度;image→height
為影像的高度。
6 圖9 V-Disparity示意圖 由圖 10 所示,即可得知行人候選者及 其寬度。 圖10 U-Disparity 示意圖 綜上所述,V-Disparity 影像中的垂直線 代表為行人候選者的高度;U-Disparity 影像 中的水平線代表為行人候選者的寬度,結合 這些資訊後,我們就可以用紅色線把行人候 選者框出來,如圖11 所示。 圖11 行人候選者區塊選定
(五) 改良型 HOG 演算法
以 Navneet Dalal[15]與藤吉弘亘[16]所提 出之行人特徵描述演算法 HOG (Histograms of Oriented Gradients)為本研究描述行人之主體特 徵。 所謂HOG 是指對於一個樣本資料取微分統 計量,如式(16)所表。 m(u,v)= fu(u,v)2+ fv(u,v)2 (16) 將式(16)所取得的樣本圖像數值以式(17)做 一比值轉換,令其數值較具安定性。 ) , ( ) , ( tan ) , ( 1 v u f v u f v u u v − = θ (17) 其中 與 個別為式(18)。7 ⎩ ⎨ ⎧ + − + = − − + = ) 1 , ( ) 1 , ( ) , ( ) , 1 ( ) , 1 ( ) , ( v u I v u I v u f v u I v u I v u f v u (18) 考量模組化的角度為 0~180 度,因此必須 將轉換後的角度做一正規劃之動作。如式(19) 所示。 2 2 ε + = k v f v (19) 將資料庫中之樣本圖像做 HOG 轉換,其結 果如圖 12 所示。圖 13 則表示該樣本的區域 HOG 統計量。 另考量HOG 特徵描述本身雖對於光亮變化 具有強健性,但是對影像旋轉卻不具強健性。 以往Tomoki Watanabe[17]等人曾提出 Co-HOG 的高維HOG 特徵配對,改善此問題,該 Co-GOH 轉換如圖14 所示。但是其運算速度不盡理想, 無法達到即時應用需求。 有鑑於此,本研究提出一種改良型HOG 演 算法,以Geometry-based 特徵描述與 HOG 特徵 描 述 結 合 為 同 一 特 徵 空 間 , 並 採 用 改 良 型 Ada-Boost 演算法進行樣本的分類訓練。 由於HOG 轉換後的特徵值對於光亮變化具 有不錯的強健性。因此,本研究採用以此種轉 換為行人辨識的最主要特徵值。部分樣本圖像 經由此轉換所得的HOG 特徵值如圖 15 所示。 圖 12 全域HOG 統計量示意圖 圖 13 區域HOG 統計量示意圖 圖14 全域 Co-HOG 統計量示意圖 所謂 Geometry-based 特徵描述是指對於式(16)
8 中的m(u,v)的二維座標位置計算質心,且納入 寬高比等元素,使得HOG 可以獲得幾何上的特 徵向量。 對於所有圖像預選區間中的強健邊緣相對 於質心的統計量與各自的寬高比統計量,我們 可以將其視為一種幾何性質的特徵,其描述方 式如式(19) 所示。 其中es 表示邊緣佇列,m 表示質心,V 為 邊緣與質心的方向向量。 Vem = e(i,j)−m(x,y) (19) 經上述法則運算後的特徵如圖 16 所示。 圖15 HOG 樣本示意圖 圖16 幾何特徵轉換示意圖 圖 16 中的高亮白點為質心的表示點,其餘 的為強邊緣的表示點,再將其點套用式(19)計算 出方向向量,並與寬高比結合成為一特徵向量。
三、 實驗結果
參考Bo Ling [1], Ignacio Parra Alonso [2], Bertozzi [3]…等人所提出之立體視覺架構,本研 究採用光軸平行的架構作為立體視覺的主要硬 體架構如圖 17。 以光軸平行的雙攝影機進行取像,其中兩 台攝影機需要具備有相同的焦長,鏡面係數, 光圈大小,以及相同的編碼模式。此外,考慮 兩攝影機間之基線須有一定距離,方能使其影 像具有較多的可對應區間,同時考量攝影機鏡 頭的成像大小與鏡像失真效應,故本研究設定 基線長為 15cm。其實際硬體如圖 15 所示。接 著,本研究採用棋盤格樣本作為攝影機校準之 標準圖像。 圖 17 本研究所建構之立體視覺系統 另外,在本研究的硬體配置條件下,考量 攝影機規格參數(如表 1),其焦長為 4.3mm 且最 遠照射距離約為 20m。但最遠照射距離並不等同 於最遠有效距離,因此實際測試後發現,該攝 影機之最遠有效成像距離為 15m,對應校準後的 視差值具有一定的誤差。視差值對應回相對距
9 離的公式如式(20)所示。 b R f d ⎛ ⎞ = × ⎜ ⎟ ⎝ ⎠ (20) 表 1 攝影機規格 型號 焦長 編碼 有效 距離 最低照度 YST-65 E 4.3mm NTSC:5 37*505 15m 0.01Lux/F1. 2 LUX(IRON) 如圖 18 所計算出的視差圖,各點所對應的 數值換算回原始距離的對應如表 2。 圖 18 左右影像與視差圖 另考量硬體架設時基線為 15cm,攝影機規 格 焦 長 為 4.3mm , 計 算 出 最 遠 可 視 距 離 為 14.6773m。最小為 0.0043m。其測試的平均誤差 如表 3 及表 4 所示。 表 2 距離與誤差對應表 實際有效距 離 0(m) 15(m) 計算有效距 離 0(m) 14.67(m) 誤差率 0% 2.22% 表 3 平均距離誤差 測試資料 1800 平均誤差 3.72% 最大誤差 6.91% 圖 19 輸入之左右影像與視差圖結果 以圖 19 為例,計算出雙攝影機之視差影像 後對該視差圖進行 U&V 視差圖計算,並以左右 影像的重疊區塊加強確認預選區間。結果如圖 20 所示。取得 U&V 的統計圖表後,以連續的線 段區塊表示大量同數值出現的位置,並將其圈 選後作出標記,如圖 21 所示。 圖 20 視差圖與 V-Disparity 圖
10 圖 21 U&V 重疊區塊 從圖 21 中我們取得了重疊的預選區塊在二 維影像上的座標位置,以此標記好的位置做為 分類器迭代的起始位置,開始進行分類。以 MIT 與 INRIA 資料庫訓練好的 HOG 分類器為例進行 重疊區塊的篩選,其結果如圖 22 所示。 圖 22 左影像重疊區塊確認 此外,本系統為了加快行人辨識速度性, 因此判斷順序設定為:若左影像偵測行人成 功,則放棄右影像的偵測。這樣既能節省時間 亦能提高準確度。系統執行介面如圖 23 所示。 圖 23 運行範例圖 本論文訓練用的分類器是以MIT 與 INRIA 的 樣 本 資 料 庫 為 基 準 之 HOG,Harr-Like 與 Geometry-based 個別特徵,並且以此分類器對待 測的影像進行測試,其結果如表4、表 5 所示。 表 4 自訂環境測試表
資料庫 Pos Neg Features Test
(張) 準確率 (%) Task (張 /ms) MIT 924 700 HOG 1800(D) 79.53 65.71 MIT 924 700 HOG,Ge 1800(D) 81.26 67.35 MIT 924 700 Harr-Like 1800(D) 73.92 71.74 MIT 924 700 Ge-based 1800(D) 76.71 37.38 MIT 924 700 HOG,Ge, Harr 1800(D) 83.31 86.77 MIT 924 700 HOG 2400(N) 86.94 62.12 MIT 924 700 HOG,Ge 2400(N) 90.41 66.75 MIT 924 700 Harr-Like 2400(N) 81.63 73.91 MIT 924 700 Ge-based 2400(N) 80.11 38.13 MIT 924 700 HOG,Ge, Harr 2400(N) 91.87 88.14 INIRA 2416 700 HOG 1800(D) 80.64 65.93 INIRA 2416 700 HOG,Ge 1800(D) 85.47 69.74 INIRA 2416 700 Harr-Like 1800(D) 78.37 75.67 INIRA 2416 700 Ge-based 1800(D) 72.13 39.27 INIRA 2416 700 HOG,Ge, Harr 1800(D) 89.57 89.38 INIRA 2416 700 HOG 2400(N) 85.11 63.13 INIRA 2416 700 HOG,Ge 2400(N) 92.51 71.24 INIRA 2416 700 Harr-Like 2400(N) 76.98 78.79 INIRA 2416 700 Ge-based 2400(N) 81.48 34.58 INIRA 2416 700 HOG,Ge, Harr 2400(N) 91.18 87.61 表 5 實際環境測試表
Database Pos Neg Features Test
(frame) Accuracy (%) Task (frame/ ms) MIT 924 700 HOG 3600(N) 88.37 67.82 MIT 924 700 HOG,Ge 3600(N) 92.74 69.34 MIT 924 700 Harr-Like 3600(N) 83.31 69.56 MIT 924 700 Ge-based 3600(N) 78.69 38.37 MIT 924 700 HOG,Ge, Harr 3600(N) 93.87 83.21 INIRA 2416 700 HOG 3600(N) 87.11 62.93 INIRA 2416 700 HOG,Ge 3600(N) 92.51 69.75 INIRA 2416 700 Harr-Like 3600(N) 79.98 74.72 INIRA 2416 700 Ge-based 3600(N) 81.48 37.66 INIRA 2416 700 HOG,Ge, Harr 3600(N) 93.18 88.32
11 由表4 可看出,以 MIT 資料庫而言,可明 顯 看 出 使 用 改 良 型 的 HOG 特 徵( 準 確 率 81.26%),相較於單獨只用 Harr-Like(準確率 73.92%)、HOG 特徵(準確率 79.53%),可得較好 的行人偵測準確率。以 INRIA 資料庫做比較, 可 明顯 看出 使 用改良 型 的 HOG 特 徵(準確率 85.47%),相較於單獨只用 Harr-Like(準確率 78.37%)、HOG(準確率 80.64%)特徵,可得較好的 行人偵測準確率。
四、 結論
本論文提出一種新的行人偵測架構,利用 立體視覺演算法,進行U&V 視差統計產生侯選 區域後,結合HOG 與 Geometry 做特徵空間轉 換,並使用事前訓練好的Ada-Boost 分類器進行 分類判斷。本研究採用光軸平行的架構作為立 體視覺的主要硬體架構,並利用MIT 與 INRIA 作為樣本的資料庫測試 1800 張的影像,比較 HOG+Geometry、Harr-Like 和 Geometry-based 的實驗結果後,顯示 HOG+Geometry 具有較高 的準確率,且處理速度每張影像僅需 70ms。五、 參考文獻
[1] Bo Ling , Michael I. Zeifmana, David R.P.
Gibson, “Multiple Pedestrians Detection Using IR LED Stereo Camera,” Proc. of SPIE, Vol. 6764, 67640A-1,2007.
[2] Ignacio Parra Alonso, David Fernández
Llorca, Miguel Ángel Sotelo, “Combination of Feature Extraction Methods for SVM Pedestrian Detection,” IEEE Trans. Intelligent Transportation Systems, Vol. 8, No. 2, pp. 292-307, 2007.
[3] M. Bertozzi,A. Broggi,C. Caraffi,M. Del
Rose,M. Felisa,G. Vezzoni,“Pedestrian detection by means of far-infrared stereo
vision,” Computer Vision and Image Understanding, Vol. 106, pp. 194–204, 2007.
[4] David Fern´andez Llorca, “Stereo Vision
Based Pedestrian Detection System For Assisted Driving,” University Of Alcala Escuela Polit ´EcniaA Superior Department of Electronics PhD THESIS (Summary), 2008.
[5] Bastian Leibe , Aleš Leonardis , Bernt
Schiele, “Robust Object Detection with Interleaved Categorization and Segmentation,” Int. J. Computer Vision, Vol.
77, pp. 259–289, 2008.
[6] Philip Kelly, B.A. (Mod), “Pedestrian
Detection and Tracking Using Stereo Vision Techniques,” Dublin City University School of Electronic Engineering Supervisor: Dr. Noel E. O’Connor, 2007.
[7] Yingping Huang ,and Ken Young, “Binocular
Image Sequence Analysis: Integration of Stereo Disparity and Optic Flow for Improved Obstacle Detection and Tracking,” EURASIP Journal on Advances in Signal Processing, Vol , pp. 1-10, 2008.
[8] Hern’an Badino and Rudolf Mester
“Stereo-based Free Space Computation in Complex Traffic Scenarios,” Proceeding of SSIAI , pp. 189-192, 2008.
[9] Zhifeng Liu ,and Reinhard Klette ,“Dynamic
Programming Stereo on Real-World Sequences,” The .enpeda.. Project, The University of Auckland, New Zealand.
[10] Rapha,el Labayrade, DidieI Aubert,
Jean-Philippe Tare1, “Real Time Obstacle Detection in Stereovision on Non Flat Road Geometry Through V-disparity Represent at
12 ion,” Proceeding of SSIAI, pp. 646-651 , 2008
[11] Philip Kelly, “Pedestrian Detection in
Uncontrolled Environments using Stereo and Biometric Information,” Proceeding of VSSN’, pp. 161-169, 2008.
[12] Hong Wang, Qiang Chen, Wenchao Cai,
“Shape-based Pedestrian/Bicyclist Detection via Onboard Stereo Vision,” IMACS Multiconference on "Computational Engineering in Systems Applications,"(CESA) October 4-6, pp. 1776-1780 , 2006.
[13] Rafael Mun˜oz-Salinas, Miguel
Garcı’a-Silvente, Rafael Medina Carnicer, “Adaptive multi-modal stereo people tracking without background modeling,” J. Vision Communication Image Representation, Vol.
18, pp. 75–91, 2008.
[14] Xia Liu and Kikuo Fujimura, ”Pedestrian
Detection Using Stereo Night Vision,” IEEE Trans. On Vehicular Technology, Vol. 53, No. 6, pp. 1666-1678, 2004.
[15] Dalal, N. Triggs, B. ,” Histograms of
Oriented Gradients for Human Detection,” Computer Vision and Pattern Recognition, CVPR. IEEE Computer Society Conference Vol.1, pp. 886-893, 2005
[16] 藤吉弘亘. "Gradient 特徴抽出 – SIFT 及
HOG - ," 情報處理學會 研究報告 CVIM 160, pp. 211-224, 2007.
[17] T. Wada, F. Huang, and S. Lin , ”
Co-occurrence Histograms of Oriented Gradients for Pedestrian Detection,”,(Eds.): PSIVT, LNCS 5414, pp. 37–47, 2009.