• 沒有找到結果。

第二章 人員影像偵測與辨識

2.4 SVM 分類器訓練

2.4.2 訓練資料庫說明

在訓練資料庫方面,如圖2.11,本論文使用INRIA Person dataset以[32]及MIT Pedestrian Database[33]取出了各一千筆的人形與非人形的訓練資料,來訓練出一 組SVM分類器,再使用同資料庫中另外各一千筆的人形和非人形的測詴資料來 測詴此分類器的準確度,其準確度如表2.2所示,人形測詴資料中的準確率為 96.8%,而非人形誤判為人形的誤判率只有1.5%,所以利用此訓練資料所訓練出 來的SVM分類器的效能是可以被使用的。

測詴資料 人形 非人形 準確率

人形1000筆 968 32 96.8%

非人形1000筆 15 985 98.5%

表 2.2 SVM 對測詴資料庫測詴之準確率

圖 2.11 INRIA person dataset 及 MIT Pedestrian Database 部份人形與非人形影像

20

2.5 討論

本章討論有關人員偵測的方法,可分為兩部份,一為人員偵測辨識,另一為 SVM分類器訓練,利用已知的人形及非人形的資料庫,資料庫中影像的大小皆 為64pixels*128pixels,將所需要的SVM分類器訓練出來,接著,利用在2.3節當 中提到的人員辨識區域框選方法,將欲辨識的區塊抓出來,然後正規化成 64pixels*128pixels大小,取出其方向梯度直方圖特徵,最後利用已訓練好的SVM 分類器去辨識是否為人形。

將人辨識出來之後,根據物體運動連續性,前後兩張影像之移動物體區塊移 動小於50pixels,就視為同一物體,並且對移動後的區塊持續做人員偵測,若移 動後的區塊小於50pixels且偵測為人形,就視為同一個人,吾人即可以對目標人 員做持續的追蹤,得到此人在畫面中停留的時間及在影像平面上的座標。

21

第三章 人體姿態辨識

在第二章我們討論了如何在環境中辨識人員及其所在的位置,本章的目的是 要將環境中人的姿態辨識出來。本研究參考 Fujiyoshi and Lipton[3]所提出的星狀 骨架來對人類姿勢做代表性的描述以及陳宣勝[4]所提出利用隱藏式馬可夫模型

22

Pose Symbols series Training of Hidden Markov Model

λ1λ2λn

Skeleton feature vectors F = ƒ1,ƒ2,…,ƒT

23

24

25

所以我們可以算得此 HMM 會產生此可見符號序列 O 的機率為:

(3-3) 之後,對每個姿態的λ 都做式(3-1)到式(3-3)的運算,就可以求出此序列 O 最有 可能的姿態。最後,根據人體星狀骨架的辨識可以判對出影片中每張影像所屬的 動作,將每一個動作都以一個字元符號(Symbol)來編碼,即本論文中編碼書中的 動作編碼(Motion No.)。因此,一段影片中連續的影像動作的變化可用字元符號 編碼的變化代表之,下一節我們將要介紹如何萃取出辨識人體動作的星狀骨架特 徵,來作為訓練的樣本。

3.3 特徵萃取

本論文採用星狀骨架特徵,此為參考陳宣勝所使用之方法[4]。人體姿態是 由一連串的動作序列所組合而成的,而描述這些動作的方法就是利用人體的輪廓 形狀。然而,當周圍的其他邊緣和人體動作邊緣很相似時,利用整個人體的輪廓 去描述人體動作的效能是很差的,雖然有像主成份分析(principle component analysis, PCA)的方式去去除一些冗餘的特徵點,但是整體的計算量還是非常的 大。另一方面,一些簡單的資訊像是寬度和高度可能可以粗略的描述一些動作,

但光有這樣的資訊還是不夠準確描述一些相似的動作,而星狀骨架就是一種典型 的特徵萃取方式,來描述人體的動作,它具有簡單、即時且穩固的特點,因此本 論文選用星狀骨架來當作動作描述的特徵。

3.3.1 星狀骨架特徵描述

將從人體中心點到人體輪廓邊緣局部的向量極值定義為特徵向量,稱之為星 狀向量[4]。人體頭部、兩手、及兩腿是在人體輪廓中常見的突出點,因此它們 可以適當的描述人體形狀的資訊。因為它們通常是星狀骨架中局部向量的最大

26

值,本論文定義此向量為五維向量。但有些動作像是兩腳重疊或一手被遮蔽,此 時的星狀骨架向量維度就會低於五維,就會有零向量加入星狀骨架的向量描述當 中。同樣地,有可能會取到超過五個以上的極值,此時,可以調整低通濾波器來 減少人體動作局部極值,控制在五個以內的顯著的極值即可。星狀骨架的概念就 是由人體輪廓的中心點連接到四肢所組成的特徵向量,為了找出人體輪廓的四 肢,必須計算從人體中心到輪廓的每個點的距離,而四肢就會位於這些距離值的 局部極值當中。當中可能會因為雜訊增加了定出四肢的難度,所以可以使用一些 平滑濾波器或是低通濾波器讓距離值的訊號變的平滑,以利準確的找出極值。星 狀骨架就是將這些極值點連接到人體中心所建構出來的,星狀骨架的處理流程,

如圖 3.3 所示,而點 A、B、C、D、E 就是這些距離值的局部極值。

星狀骨架演算法整理如下

輸入:人員輪廓(Human contour)

輸出:星型骨狀圖(A skeleton in star fashion) 1. 計算人體輪廓的中心點(Xc,Yc)

(3-4) (3-5)

圖 3.3 星狀骨架流程圖[3]

27

五點與中心點連起來,由(式 3-7)差分方程式的 zero-crossings 找出 (i)局部極 值的點。

28

29

表的編碼序列建立編碼書,最後,利用隱藏式馬可夫模型去建構站、走、蹲、坐,

四種姿態的模型。當輸入一連串的動作時,會比對在編碼書中所代表的編號,轉 換成編碼序列輸出,將者些編碼序列代入由四種姿態所建立其個別的馬可夫模型 當中,算出最有可能的姿態。

Star-Skeleton features

Motion No. 1 2 3

Pose Stand

Star-Skeleton features

Motion No. 4 5 6 7 8 9 10 11 12

Pose Walk

Star-Skeleton features

Motion No. 13 14 15 16 17 18 19 20 21

Pose Squat

1. Stand

2. Walk

3. Squat

圖 3.4 各姿態所包含的動作編號編碼

30

Star-Skeleton features

Motion No. 22 23 24 25 26 27 28 29

Pose Sit

4. Sit

圖 3.4(續) 各姿態所包含的動作編號編碼書

31

32

4.1.1 環境邊界設定流程圖

環境邊界設定之步驟說明如圖 4.2 及圖 4.3 所示,其流程圖如圖 4.4 所示,包 含目標物體辨識和邊界標定兩個部份。目標物辨識部份,當影像從攝影機擷取之 後,透過加速強健特徵點演算法(Speed Up Robust Feature, SURF)特徵點比對的方 式將我們欲辨識的目標物找出來。因為目標物的特徵點分布可能在影像平面上的 任何位置,於是為了得到穩定的參考點,我們將比對成功的特徵點利用

homography 的方式去算平面轉換矩陣,因為這個平面轉換矩陣包含著縮放及旋 轉因子,所以我們可以由這個平面轉換矩陣框出目標物在影像平面中的區域。由 於在目標物辨識中已經得到影像平面中目標物的區域,所以在邊界標定部份,要 先計算出目標物與環境邊界的關係式。當攝影機移動時,就可以透過此關係式來 估測出環境邊界。

環境邊界設定流程步驟:

Step1) 將輸入的影像畫面利用 SURF 找出欲辨識物體與資料庫的 Matching Point。

Step2) 將比對成功的特徵點利用 Homography 找出目標物在影像平面四個角的 座標。

Step3) 利用目標物與環境邊界的相對關係式,找出目前影像畫面中的環境邊界。

圖 4.2 環境邊界設定流程步驟(辨識)

(a) (b)

圖 4.1 影像平面移動前後所改變的目標物大小和環境邊界位置(a)移動前 (b)攝影機往前移動後

33 法,在本論文中選用 SURF[28]來當做特徵擷取的方法,SURF 和 SIFT[15]一樣 具有尺度不變且抗旋轉的優點,但 SURF 的運算上較 SIFT 快速。由 SURF 擷取

圖 4.4 邊界設定流程圖

Image Sequence

Matching point

Boundary Setting Object recognition

{corner[0],corner[1],corner[2]corner[3]}

Calaulate for the relative position of object and boundary

Environmental boundary Homography estimation

Boundary estimation SURF extraction

34

出特徵點後,再利用最近鄰居演算法(Nearest neighborhood algorithm)找到與資 料庫比對成功的目標物特徵點,利用比對成功的特徵點透過 Homography 找出目 標物在影像平面上的位置。

4.1.2.1 SURF 特徵擷取

SURF [28]為 Bay et al.所提出的一種新的尺度不變且抗旋轉的特徵點偵測及 描述法。這個方法的設計概念在於發展出一套重複性、獨特性以及強健性優於現 存方法的特徵點擷取演算法,且能夠有更快的運算速度。在計算過程中,有使用 到積分影像(Integral image)的運算,它是讓 SURF 能快速計算的關鍵[29]。圖 4.5 即為資料庫影像利用 SURF 所擷取到的特徵點。

4.1.2.2 環境目標物特徵點比對

當計算出影像平面中的特徵點後,便可以透過與資料庫中所儲存的特徵點資 訊進行比對,藉此得以判斷當前影像中是否存在所需的目標物。本論文利用最近 鄰居演算法(Nearest neighborhood algorithm),如 (4-1)式,其中Desc(i)代表當 前影像中該特徵描述向量的第i個元素,Desd(i)代表資料庫影像中該特徵描述向 量的第i個元素。藉由比較當前影像中所有特徵點描述向量與資料庫中現存的特 徵點描述向量,尋找其兩點距離最短的,則其本身則可能為相同的特徵點。

(4-1)

圖 4.5 被偵測到的特徵點

35

4.1.2.3 Homography

單應矩陣(Homography)[35]的功用在於找到兩個影像平面中,點跟點之間的 對應關係。在影像平面上,一組對應的特徵點之間,存在著一種線性變換的關係,

而Homography定義為其中一個影像平面上的點Pa轉換到另一個影像平面上的點 Pb之間的線性轉換。Homography 是由一3*3的非奇異矩陣(Non-singular)矩陣所 決定,因為具有縮放因子ω'的關係,能夠反映出目標物在影像平面上,跟資料庫 影像相比,尺度大小的變化倍率。它具有8個自由度(degree of freedom),因為平 面上一個點(x, y)具有兩個自由度,所以決定一個Homography至少需要四點以上 的對應關係。

P'b=HabPa,其中Pa,Pb є P2, H為3*3的Homography matrix

(4-2)

(4-3)

(4-4)

轉換矩陣H共有9個未知數,由於齊次座標轉換有比例相等的關係,於是假設轉 換矩陣H中的某一個未知數固定(如: h33 =1),如此一來待解的參數變成8個,而平 面上一組對應點可提供2個線性獨立的方程式,因此8個未知數需要4組對應點提 供8個線性獨立的方程式,而這4組對應點是從所有的對應點中任意選出的,所以 要得到一個轉換矩陣至少要4組對應點。當求得轉換矩陣後,可算出每個對應點 的誤差,因此符合最小誤差的對應矩陣極為我們所需要的對應矩陣。我們可以將

36

(4-4)改寫成(4-5)。

(4-5)

當我們算出轉換矩陣之後,就可以經由(4-6)來驗證特徵點之間的轉換關係跟 此轉換矩陣的關係是否一致。將資料庫影像中的特徵點代入(4-10)中,可以得到 資料庫中的特徵點對應在目前影像平面上的特徵點位置。

(4-6)

因為homography具有對應旋轉及尺度變化的特性,所以即使目標物在不同距 離或是不同角度,我們都可以準確的框出目標物在目前影像平面上的位置。如圖

因為homography具有對應旋轉及尺度變化的特性,所以即使目標物在不同距 離或是不同角度,我們都可以準確的框出目標物在目前影像平面上的位置。如圖

相關文件