• 沒有找到結果。

Histogram of Oriented Gradient 特徵萃取

第二章 人員影像偵測與辨識

2.3 Histogram of Oriented Gradient 特徵萃取

由 Navneet Dalal 的博士論文中[21],可以得知 HOG 是一套俱有抗多姿態、

複雜背景、不固定光源且穩定的特徵萃取演算法,圖 2.4 為 HOG 演算法的整體 架構。當我們得到欲辨識的區域後,即為圖 2.4 中的辨識視窗(detection window),

就會對每一個欲辨識的區域中的像素(pixel)做梯度運算,梯度運算會包含梯度方 向和梯度大小,對每一個細胞(cell)做梯度方向及強度的統計,再來對每一個區 塊(block)裡面的梯度強度做正規化(normalization),當整個辨識區域都做完時會得 到一個向量式來表示它的特徵,下面會依據此演算法流程做詳細介紹。

圖 2.3 辨識區域框選示意圖。(a)原始影像與辨識結果 (b)移動目標物前景 (c)第 一次的影像投影 (d)框選區域留白 (e)第二次的影像投影

13

2.3.1 辨識視窗大小

由於我們取出的欲辨識區塊的大小都是不固定的,但這邊所使用的 HOG 特 徵萃取方式必須要使最終特徵向量的維度相等,故在這邊要將所有的辨識區塊正 規化成相同的辨識視窗大小,根據圖 2.5 中所測詴的三種辨識視窗大小,其中以 64pixels*128 pixels 的辨識率最佳,故我們在取特徵時會將欲辨識區域都正規化 成 64pixels*128 pixels 大小的辨識視窗來做萃取。

圖 2.4 方向梯度直方圖演算法整體架構圖[21]

圖 2.5 不同辨識視窗大小之效能[20]

14

2.3.2 梯度運算

在運算每個像素的梯度強度和方向時,Dalal 測詴了許多不同的遮罩性能[21],其 中包含了 uncentred [-1,1],centred [-1,0,1],cubic-corrected [1,-8,0,8,-1],3*3 Sobel masks 和 2*2 diagonal ones , 。比較準確率如表 2.1,可以看到 1-D centred [-1,0,1]的效能是最佳的,故我們令水平遮罩 Gh = [-1,0,1]垂直遮罩 Gv

= [-1,0,1]T,使用這兩個遮罩我們可以在點(x,y)得到水平像素差分(horizontal difference) dh(x,y)和垂直像素差分(vertical difference) dv(x,y),而(x,y)的梯度強度 為 mag(x,y),梯度方向為 θ(x,y),其中

(2-1)

(2-2)

2.3.3 特徵點統計

由梯度運算我們已經知道辨識視窗中所有像素的梯度大小和方向,接著將辨 識視窗影像分成大小為 8*8 像素且互不重疊的細胞(cell),如圖 2.6(a)所示,由於 梯度方向相差 180 度可視為同一方向來統計,因此將每個細胞依梯度方向在 0o 到 180o分成 9 個方向的統計箱(bin),也就是 0o到 20o為 bin1,20o到 40o為 bin2 依此類推到 bin9,每個細胞內所有像素分別對其所屬的方向統計箱做投票統計,

所投的票數為該像素的邊緣強度,這九個方向的資訊可用 9 維的向量來代表,如 圖 2.6(b)所示,最後,區塊(block)用其內 4 個細胞方向的統計箱來描述訓練影像 在該位置的局部邊緣資訊,可以 36 維向量代表,如圖 2.6(c)所示。

表 2.1 不同梯度遮罩之效能比較表[21]

15

2.3.4 區塊正規化(Block normalization)

將每個區塊(Block)得到的 36 個向量資訊做正規化(normalization),Dalal[20]

有比較過各種常見的方法,例如 L2-norm、L2-Hys、L1-sqrt 和 L1-norm 等等,

其中,L2-norm、L2-Hys、L1-sqrt 的性能相較於其他方法都比較好,見圖 2.7,

故在這邊我們使用 L2-norm 來做正規化。L2-norm(式 2-3),中 v 為未正規化的特 徵向量,||v||k為特徵向量的 k-norm,ε為很小的常數。

(2-3) 圖 2.6 特徵點統計方式示意圖。(a)圖片分割成細胞(cell),對 cell 內的像素 做梯度運算 (b)將 cell 內的像素分成 9 個方向的統計箱(bin)做投票統計 (c) 由 4 個 cell 組成一個區塊(block),一個 block 可由 36 維的向量表示。[22]

16

2.3.5 HOG 特徵描述

將區塊正規化後,每個區塊和前一個區塊重疊一個細胞來選取特徵,如圖 2.8 所示,一個辨識視窗(detection window)會有 7*15 個區塊,每個區塊有 36 個 特徵,故一個辨識視窗會有 3780 個特徵,結果如圖 2.9 所示,最後,要將 3780 個特徵表示成特徵向量的方式來計算(式 2-4),其中 bin1_1 代表第 1 個 block 中 的第 1 個角度值所統計的梯度強度,bin105_36 代表第 105 個 block 中的第 36 個 角度值所統計的梯度強度。

(2-4) 圖 2.7 各種不同正規化法的效能比較圖[20]

圖 2.8 區塊重疊取樣示意圖

17

相關文件