• 沒有找到結果。

應用步態分析於身份鑑別之研究

N/A
N/A
Protected

Academic year: 2021

Share "應用步態分析於身份鑑別之研究"

Copied!
84
0
0

加載中.... (立即查看全文)

全文

(1)

國立交通大學

電控工程研究所

碩 士 論 文

應用步態分析於身份鑑別之研究

An Efficient Individual Recognition Using

Gait Analysis

研 究 生 :張婷婷

指 導 教 授 :林昇甫 博士

(2)

應用步態分析於身份鑑別之研究

An Efficient Individual Recognition Using Gait Analysis

研 究 生 :張婷婷

Student: Ting-Ting Chang

指 導 教 授 :林昇甫 博士

Advisor: Dr. Sheng-Fuu Lin

國立交通大學

電控工程研究所

碩士論文

A Thesis

Submitted to Institute of Electrical Control Engineering College of Electrical Engineering

National Chiao Tung University in Partial Fulfillment of the Requirements

for the Degree of Master

in

Electrical Control Engineering July 2012

Hsinchu, Taiwan, R.O.C 中華民國一Ο一年七月 

(3)

應用步態分析於身份鑑別之研究

學生:張婷婷

指導教授:林昇甫 博士

國立交通大學電控工程研究所

摘要

本論文提出一個自動的身份識別系統,主要目的在於減少人力成本的耗損,並提 高監控系統的安全性與可靠性。不同於其他的生物識別系統,例如人臉辨識、指紋辨 識、虹膜辨識等等,利用姿態進行身份識別不需與使用者互動、不需近距離拍攝、也 不需要太精密的攝影器材即可進行分析,因此步態分析一直是視覺監控領域的熱門研 究主題。但由於步態辨識遠距離即可完成,因此相對其他生物識別系統來說受到外在 因素的影響也較大,例如:戴帽子、穿著不同等等,所以步態辨識仍然是一個很受挑 戰的領域。 在此,本論文的貢獻有兩點:第一,本論文結合多種方法,使用多面向與多角度 來分析姿態,不僅平均抽取人體各個部位的特徵,更進一步將特徵分為靜態特徵與動 態特徵,以確保本系統面對衣著變因的影響時,還能保持一定的辨識率;第二,本論 文提出兩階段式的身份鑑別系統。第一階段主要是利用外輪廓、手部擺動和腳掌離地 角度三個特徵來進行候選人篩選,而篩選的目的在於減少候選人,以提高整體辨識 率;第二階段則是將輸入的步態影像與第一階段篩選出來的候選人進行匹配,並針對 每種特徵不同的重要性對這些候選人進行不同的權重給分,分數最高的即表示與輸入 的人物最為相似。從實驗結果來看,本系統確實有不錯的身份識別結果。

(4)

An Efficient Individual Recognition Using

Gait Analysis

Student

:

Ting-Ting

Chang Advisor:

Dr.

Sheng-Fuu

Lin

Institute of Electrical Control Engineering

National Chiao Tung University

ABSTRACT

This thesis is a study on individual recognition using gait analysis. In order to reduce the human resource cost on one hand and improve the security and reliability of the surveillance system on the other, we propose an automated individual identification system which can not only recognize identities of individuals but also detect strangers automatically. Different from other biometric systems, such as human face detection, fingerprint identification, iris recognition, etc., the proposed system uses gait to recognize identities of individuals. In addition, the proposed system needs no interaction with people, nor close sensing distance, nor fancy equipment. Because of these advantages, gait analysis has always been a popular research topic.

Furthermore, there are two contributions in this thesis. First, features in this thesis are extracted averagely from head to toe to alleviate the factor of clothing which would cause the distortion of appearance on an individual. Second, we use a two-stage method to recognize identities of individuals. The first-stage is designed to reduce candidates. In the second-stage, we match the individual extracted from the video with candidates selected from the first-stage, and assign weighted scores to the candidates based on their similarities. The candidate who gets the highest score is the most similar one to the individual extracted from the video. According to the results of experiments, the method proposed in this thesis has a good performance.

(5)

誌 謝

首先,我非常感謝我的指導教授林昇甫博士在這兩年間對我的教導,感謝老師的 諄諄教誨與細心指導。同時也要感謝我的家人,一直在背後默默支持我和鼓勵我,使 我得以在精神與生活上無後顧之憂,順利完成學業。另外,我要感謝所有幫助我,讓 我拍攝做為實驗資料庫的所有人,包含實驗室學長俊偉、裕筆、逸章,一起奮鬥的同 學柏宏、俊良、植諺,實驗室學弟妹雅君、明揚、炳晟、兆傑、衍澄,以及朋友們鈞 鈞、巧桐、喆夫、甫尊、仲傑、奕君、薇雅、方菱等等,由於你們的幫忙,才能讓我 順利建立實驗的資料庫,也由於你們的討論與協助,才能讓我順利完成論文研究。

(6)

目錄

中文摘要 ... i  英文摘要 ... ii  誌謝 ... iii  目錄 ... iv  圖目錄 ... vii  表目錄 ... xi  第一章  緒論 ... 1  1.1  生物識別方法介紹 ... 1  1.2  相關研究之探討 ... 2  1.3  研究動機 ... 6  1.4  論文主體與貢獻 ... 7  第二章  相關技術與原理 ... 8  2.1  前景背景切割法 ... 8  2.2  靜態特徵 ... 10  2.2.1  步態能量影像 ... 10  2.2.2  傅立葉描述子 ... 12  2.3  動態特徵 ... 14  2.3.1  主成份分析法 ... 14  2.3.2  哈里斯(Harris)角點偵測法 ... 16  2.4  身份鑑別法則 ... 20  2.4.1  最近鄰居法 ... 20 

(7)

2.4.2  KD tree ... 22  第三章  系統流程 ... 25  3.1  整體系統架構與流程 ... 25  3.2  提取前景 ... 27  3.3  週期估測 ... 28  3.4  靜態特徵 ... 32  3.4.1  外輪廓特徵 ... 33  3.4.2  手部擺動幅度特徵 ... 34  3.5  動態特徵 ... 35  3.5.1  頭部特徵 ... 35  3.5.2  腳掌特徵 ... 38  3.5.3  膝蓋特徵 ... 40  3.5.4  步伐大小特徵 ... 43  3.6  分類法則 ... 45  3.6.1  身份鑑別法則 ... 47  3.6.2  安全監控法則 ... 48  第四章  實驗結果與分析 ... 51  4.1  實驗機制 ... 51  4.1.1  實驗場景與設備 ... 51  4.1.2  實驗資料 ... 53  4.2  實驗結果 ... 54  4.2.1  身份鑑別結果與分析 ... 54  4.2.2  安全監控結果與分析 ... 57  4.2.3  特殊變因情況討論與分析 ... 59  4.3  分析比較 ... 60 

(8)

4.4  結果討論 ... 64  第五章  結論與未來發展 ... 67  參考文獻 ... 69 

(9)

圖目錄

圖 1.1 文獻[2]性別辨識相關影像。(a)序列側影影像;(b)主成份步態影像(GPCI)。 . 2  圖 1.2 文獻[4]性別辨識相關影像。(a) 人體步態能量影像;(b)將人體姿態分成 7 區 域之示意圖。 ... 3  圖 1.3 文獻[6]身份鑑別相關影像。(a)將人體姿態影像分為七部分之示意圖;(b)利用 橢圓去表示此七區域之示意圖。 ... 4  圖 1.4 文獻[8]身份鑑別相關影像。(a)人體六區域示意圖;(b)人體骨架示意圖。 .... 4  圖 1.5 文獻[9]身份鑑別相關影像。(a)長度特徵;(b)寬度特徵;(c)面積特徵;(d)對角 角度特徵。 ... 5  圖 1.6 文獻[10]身份鑑別相關影像。(a)人體步態輪廓示意圖;(b)動態輪廓影像(motion contour image, MCI)。 ... 6 

圖 2.1 高斯分布示意圖 ... 9  圖 2.2 利用 GMM 擷取前景範例。(a)輸入影像;(b)經過 GMM 前景提取後的結果。 ... 10  圖 2.3 步態能量示意圖。(a) 步態序列影像;(b)步態能量影像;(c) 步態序列影像; (d) 步態能量影像。 ... 11  圖 2.4 Moravec 偵測邊角範例。(a)搜尋視窗在平面時之示意圖;(b)搜尋視窗在邊界時 之示意圖;(c)搜尋視窗在轉角時之示意圖。 ... 17  圖 2.5 特徵值分布情形。 ... 20  圖 2.6 KNN 演算法示意圖。 ... 21  圖 2.7 KD-tree 示意圖。 ... 22  圖 2.8 KD-tree 樹狀圖。 ... 24  圖 3.1 本論文系統流程圖。 ... 26  圖 3.2 提取前景範例。(a)灰階背景影像;(b)灰階輸入影像;(c)背景相減後前景影像。

(10)

(d)人體步態影像,即本論文欲處理的步態影像。 ... 27  圖 3.3 B. DeCann 和 A. Ross[16]方法中,抽取靜態特徵之方法示意圖。 ... 28  圖 3.4 文獻[16]中特徵抽取範例。(a)起步時vminvmaxvter三點的相對位置範例;

(b)半週期時vminvmaxvter三點的相對位置範例;(c) 背背包時vminvmaxvter 三點的相對位置範例。 ... 29  圖 3.5 本論文週期估測方法示意圖。(a)本論文尋找 A、B 和 C 三點之示意圖;(b)本 論文用來估測週期的角度示意圖。 ... 30  圖 3.6 週期估測範例。 ... 31  圖 3.7 一週期內步態影像範例。 ... 32  圖 3.8 本論文靜態特徵中的外輪廓特徵示意圖。(a)步態能量影像示意圖;(b)步態能 量影像二值化後結果;(c)步態能量影像外輪廓特徵;(d)利用 16 維的傅立葉描述 子來描述外輪廓特徵之示意圖。 ... 33  圖 3.9 本論文手部擺動幅度特徵示意圖。(a)步態能量影像手部特徵示意圖;(b)手部 特徵曲線圖。 ... 34  圖 3.10 擷取頭部區域流程示意圖。(a)人體步態影像;(b)擷取人體步態影像最上方七 分之一的區域影像圖;(c)裁剪頭部區域示意圖;(d)最終擷取出來的頭部區域影 像。 ... 36  圖 3.11 頭部特徵抽取結果示意圖。(a)沒戴帽子的原始影像;(b)沒戴帽子的頭部特徵 抽取結果;(c)戴帽子的原始影像;(d) 戴帽子後的頭部特徵抽取結果。 ... 36  圖 3.12 頭部傾斜角度變化曲線範例。(a)第一段步態影像頭部傾斜角抽取結果;(b) 第 二段步態影像頭部傾斜角抽取結果;(c) 第三段步態影像頭部傾斜角抽取結果; (d) 第四段步態影像頭部傾斜角抽取結果。 ... 37  圖 3.13 擷取腳掌區域示意圖。 ... 38  圖 3.14 擷取腳掌特徵範例示意圖。(a)原始輸入步態影像;(b)腳掌區域影像;(c)後 腳掌區域影像;(d)後腳離地角度擷取結果示意圖。 ... 39  圖 3.15 腳掌離地角度一周期變化範例。 ... 40 

(11)

圖 3.16 擷取腿部區域範例。 ... 40  圖 3.17 擷取膝蓋特徵之流程圖。 ... 41  圖 3.18 前膝蓋特徵抽取範例。(a)原始側影影像;(b)腿部區域影像;(c)腿部區域前 曲線示意圖;(d)前膝蓋特徵點偵測結果。 ... 42  圖 3.19 後膝蓋特徵抽取範例。(a)原始側影影像;(b)腿部區域影像;(c)腿部區域後 曲線示意圖;(d)後膝蓋特徵點偵測結果。 ... 42  圖 3.20 前後腿部膝蓋角度變化。(a)前膝蓋角度變化;(b)後膝蓋角度變化。 ... 43  圖 3.21 偵測步伐距離大小示意圖。 ... 44  圖 3.22 步伐大小特徵範例。(a)一週期內步伐最大之步態影像範例;(b)一週期步伐距 離大小變化圖。 ... 45  圖 3.23 本論文所使用的靜態特徵範例。(a)外輪廓特徵;(b)手部擺動特徵。 ... 46  圖 3.24 本論文所使用的動態特徵範例。(a)頭部特徵;(b)腳掌特徵;(c)前膝蓋特徵; (d)後膝蓋特徵;(e)步伐特徵。 ... 46  圖 3.25 身份鑑別法則流程圖。 ... 47  圖 3.26 閥值選定示意圖。 ... 49  圖 3.27 閥值選定示意圖。 ... 50  圖 3.28 安全監控法則流程圖。 ... 50  圖 4.1 實驗場景圖。 ... 52  圖 4.2 程式執行所使用的個人電腦。 ... 52  圖 4.3 測試資料影像範例。(a)(b)為普通正常行走的影像;(c)(d)為加入變因,穿外套 的行走影像;(e)(f)為加入變因,戴帽子的行走影像。 ... 53  圖 4.4 本系統辨識錯誤範例說明。(a)身份 A 的腳掌離地最大角度步態影像圖;(b) 身 份 B 的腳掌離地最大角度步態影像圖;(c)身份 A 之腳掌離地角度曲線變化圖; (d) 身份 B 之腳掌離地角度曲線變化圖。 ... 55  圖 4.5 身份 A 在其他筆資料中,腳掌離地角度變化範例。(a)身份 A 的第一段步態資 料中腳掌離地最大角度之影像圖;(b)身份 A 的第二段步態資料中腳掌離地最大

(12)

角度之影像圖;(c)利用身份 A 的第一段步態資料分析腳掌離地角度之曲線變化 圖;(d) 利用身份 A 的第二段步態資料分析腳掌離地角度之曲線變化圖。 ... 56

(13)

表目錄

表 3-1 本論文所使用的全部特徵、維度、權重大小整理表 ... 46  表 4-1 本論文之身份鑑別系統辨識率 ... 54  表 4-2 本論文之安全監控系統辨識率 ... 58  表 4-3 模擬人穿長裙情況之系統辨識率 ... 59  表 4-4 本論文方法與其他文獻方法之身份鑑別辨識率比較 ... 61  表 4-5 各方法優缺點比較 ... 62  表 4-6 單一特徵身份辨識率 ... 63 

(14)

第一章 緒論

安全監控在現代化社會的發展日趨重要,使用鑰匙、認證卡進出公司與家門主要 都是為了讓人們安心。若不幸發生公司資料或器材遭到竊盜,甚至家裡遭小偷時,監 視設備便成了唯一的線索來源。因此,監控系統已經成為人類不可或缺的基本配備。 而本論文主要是將攝影機拍攝到的人進行分析與身份辨識,藉由分析每個人步態之間 的差異,提供一個準確性高的自動監控系統。當發現陌生人出現的時候,便可以立刻 通知警衛前往關切。此系統不僅可以讓警衛不必二十四小時緊盯著監控攝影機,更增 加監控的安全性。 由於步態辨識遠距離即可完成,因此相對其他生物識別系統來說受到外在因素的 影響也較大,例如: 戴帽子、穿著不同等等。因此,如何擷取有效的特徵將會是本論 文的研究重點。本章共分成四節,1.1 先概略介紹目前生物識別上有哪些方法及優缺 點,1.2 介紹目前相關研究領域有哪些做法,1.3 闡述本論文的研究動機,1.4 則是本 論文之貢獻。

1.1 生物識別方法介紹

生物識別方法有很多,包含指紋識別、掌紋識別、虹膜識別、人臉辨識和步態辨 識等等。在這麼多生物識別方法中,本論文選擇步態來進行身份鑑別的原因在於指 紋、掌紋和虹膜辨識都需要近距離接觸才能進行身份鑑定,但是犯罪者本身當然不會 自己去接觸辨識系統。而利用人臉辨識來進行身份鑑別則非常受到影像品質的影響, 若欲偵測者在距離攝影機較遠的地方,辨識率就往往無法達到我們所期望的準確。 步態是指人們行走時的方式,這是一種複雜的行為特徵,因此也提供了充足的信 息來鑑別每個人的身份。步態分析主要是針對一段行走的影像序列來做處理,但是, 由於序列影像的數據量較大,人體外觀也很容易受到外在衣著的影響,因此步態鑑別 的計算複雜性比較高,處理起來也比較困難。而利用步態來進行身份鑑別的優點在於

(15)

擷取資料的過程中不具有侵入性、不須近距離拍攝,亦可以在不讓受辨識者得知的情 況下進行身份辨識進而達到安全監控。除此之外,步態辨識的應用很廣,例如:居家 照護,藉由監控老人小孩的行動,分析其姿態與步態,達到自動偵測意外事件與安全 監控的功能;阻止犯罪,將公司大樓攝影機拍到的人,藉由分析其步態進行身份鑑別, 自動偵測陌生人並通知警衛前往關切,以期降低犯罪率。

1.2 相關研究之探討

近年來,步態分析一直是視覺監控的熱門研究領域,步態分析後的資訊可以用來 偵測很多事件,例如跌倒偵測、行動不便人士偵測、行為怪異人士偵測、性別辨識和 身份鑑別等等。由此可知,基於步態分析的結果可以應用在很多人和很多地方上。 在姿態分析應用在性別鑑別上,文獻[2]提出主成分步態影像法(Gait Principal Component Image, GPCI),主要就是先算出影像的共變異矩陣,再藉由特徵值、特徵 向量與參數的轉換,最後可得 GPCI,即為特徵,如圖 1.1 所示。

(a)

(b)

(16)

文獻[2]主要就是使用圖 1.1 (b)中 GPCI 影像的二維矩陣做為分類與身份鑑別的 特徵,最後使用近鄰法(k-nearest neighbor, KNN)來進行分類。 文獻[3]和[4]則是先把一周期內的影像全部疊加並取得步態能量影像後,再將人 體全部分為七個部分,頭、臂、身體、大腿、前後腿和腳,如圖 1.2 所示: (a) (b) 圖 1.2 文獻[4]性別辨識相關影像。(a) 人體步態能量影像;(b)將人體姿態分成 7 區 域之示意圖。 文獻[4]主要是針對圖 1.2(a)中每一個區塊的影像進行支持向量基(support vector machine, SVM)分類,最後統計結果以鑑別身份。 在性別識別上,大多數都是採取將一序列影像全部混和、疊加或取平均等等後, 再進行特徵抽取。這些特徵在分析性別上確有顯著的效果,但是不同於性別辨識只分 為兩大類,身份鑑別要區分的類別更多,所以不僅需要這些靜態特徵,也需要再加入 更多動態的、有效的以及具有鑑別力的特徵。 在姿態分析應用在身份鑑別上,早期文獻[5]先找出人體質心位置,再找出整張 影像中的主方向和第二大方向,以質心為圓心畫橢圓,質心座標、長短軸長度大小和 橢圓角度為特徵來進行身份鑑別。文獻[6]則是文獻[5]的進化版,將人體姿態分為七 個橢圓來表示,如圖 1.3 所示:

(17)

(a) (b) 圖 1.3 文獻[6]身份鑑別相關影像。(a)將人體姿態影像分為七部分之示意圖;(b)利用 橢圓去表示此七區域之示意圖。 文獻[6] 主要就是針對圖 1.3 (b)中的每個橢圓都使用同樣的特徵抽取法則,即每 個橢圓的質心座標、長短軸長度大小和橢圓的偏移角度。對一周期中所有影像皆進行 特徵抽取,最後再將這 7 個橢圓的序列特徵利用 SVM 來進行分類與身份鑑別。 文獻[7]和文獻[8]則是利用形態學的方式不斷侵蝕(Erosion)與斷開(Opening)來找 出每一張步態影像的骨架圖,再將骨架圖分成六個區域,頭、軀幹、前後腿和前後腳, 分別找出各區域的彎曲角度即為特徵,如圖 1.4 所示: (a) (b) 圖 1.4 文獻[8]身份鑑別相關影像。(a)人體六區域示意圖;(b)人體骨架示意圖。

(18)

在文獻[8]的方法中,主要就是透過計算圖 1.4(b)中人體姿態骨架圖上每一個關節 點的角度,將這些角度當作特徵,最後使用模糊近鄰法(fuzzy k-nearest neighbor)將這 些特徵進行分類與身份鑑別。 根據文獻[5]到文獻[8]的方法,都是將人體姿態分為幾個區域來抽取主方向、角 度等特徵,但這些特徵都很容易受到變因的影響,例如:穿長裙或外套等等。一旦產 生變因之後,人體姿態的部分影像區塊範圍改變,就例如穿長裙子,此時根據文獻[5] 到文獻[8]的方法,必須分出下半身的兩隻腳,但此時從人眼只能看到一大片裙子, 無法正確得知雙腳的位置,因此下半身腳部區域特徵的準確性就很容易受到影響,而 辨識率也必然無法達到預期的成效。 文獻[9]是動態記錄每一張側影影像方框的長度、寬度、面積和方框對角角度來 做為特徵,如圖 1.5 所示: (a) (b) (c) (d) 圖 1.5 文獻[9]身份鑑別相關影像。(a)長度特徵;(b)寬度特徵;(c)面積特徵;(d)對角 角度特徵。 圖 1.5 為文獻[9]演算法中,抽取特徵的示意圖。這些特徵主要都是依靠在一周 期中每一張側影姿態的方框大小,雖然相對其他方法來說,抽取這些特徵的複雜度是 較低的,但方框取的好壞便決定了特徵的準確性,而在擷取方框得過程中又很容易受 到影像中雜訊的影響,因此就辨識效能來說穩定性還不夠。 文獻[10]先將一周期序列中的輪廓影像相加,得到動態輪廓影像(motion contour

(19)

image, MCI)後,如圖 1.6 所示:

(a)

(b)

圖 1.6 文獻[10]身份鑑別相關影像。(a)人體步態輪廓示意圖;(b)動態輪廓影像(motion contour image, MCI)。

經由事先的訓練算出動態輪廓影像的投影矩陣,進入測試階段後,只要將輸入的 動態輪廓影像乘上投影矩陣即為特徵。其中投影矩陣的主要目的在於使影像特徵降 維,儘管如此,此特徵的維度依然很大,就此文獻的紀錄,其特徵維度大小為 17*40。

1.3 研究動機

在社會新聞中,罪犯在犯罪時常常都會替自己喬裝,不讓自己身上的任何東西甚 至是頭髮掉在犯案現場,但有樣東西是很難隱瞞的,那就是走路的姿勢,即步態。因 此,本論文希望能藉由分析步態的不同來進行身份鑑別,進而達到自動安全監控的功 能。

(20)

在相關文獻中步態分析在特徵抽取方面大多都是從同一角度進行分析,例如使用 步態能量影像(gait energy image,GEI)分析者,就將一周期的序列影像全部疊加在 一起,但此時便失去了分析序列中每一張影像的重要動態變化資訊;相反的,使用人 體骨架圖分析者,大部分就只針對動態變化的資訊來進行分析與研究,此時,便失去 了靜態特徵的重要資訊。 因此,為了使身份鑑別系統更加強健,本系統不僅結合靜態與動態特徵進行分析 與研究,更針對人體姿態的不同區域使用相對應適合的分析方法,平均分散特徵於人 體各個部位,主要目的便是希望能更加提高步態辨識之身份鑑別的準確度。

1.4 論文主體與貢獻

在進行人體姿態分析的時候,系統的流程主要可以分成四個步驟:前景切割、週 期估測、特徵抽取,以及分類辨識。本論文將在第二章介紹相關技術及原理,在第三 章則介紹本論文將提出的系統流程,第四章說明本系統的實驗結果與相關領域論文方 法之比較與分析,第五章則是結論與未來展望。 在本論文的研究中,將會把重點集中在特徵抽取,以及分類辨識上,本論文所達 成的貢獻有兩點,如下所示: 1. 本論文結合多種方法,使用多面向與多角度來分析姿態,針對人體不同區域的特 性,提出相對應適合的分析方法。不僅將姿態特徵分為動態與靜態兩大特徵來分 別討論,更將特徵平均分散在人體的各個部位,以確保本系統面對衣著變因的影 響時,還能保持一定的辨識率。 2. 本論文提出兩階段式的身份鑑別系統。第一階段主要是利用外輪廓、手部擺動和 腳掌離地角度三個特徵來進行候選人篩選,而篩選的目的在於減少候選人,以提 高整體辨識率;第二階段則是將全部特徵針對第一階段篩選出來的候選人進行權 重給分,分數最高的即表示與此人最為相似。從實驗結果來看,本系統確實有不 錯的身份識別結果。

(21)

第二章 相關技術與原理

本章節將會介紹與本論文有關的知識與理論,因此,本章共分為四節,在 2.1 節 介紹本論文所使用的前景背景分割法;在 2.2 節介紹靜態特徵的抽取方法;在 2.3 節 介紹動態特徵的抽取方法;2.4 節則是介紹本論文用來做身份鑑別的主要演算法。

2.1 前景背景切割法

在視覺監控的研究中,前景背景的切割對後續影像處理的結果影響最劇,因此, 如何準確地將前景切割出來便成為步態辨識的主要關鍵。而背景前景分割法主要分成 三 大 類 : 時 間 差 法 (temporal differencing) 、 光 流 法 (optical flow) 和 背 景 相 減 法 (background subtraction)。 使用時間差法來提取前景的速度較快,但是擷取出的前景目標容易較破碎與不完 整;使用光流法能夠在事先不知道場景的條件下擷取出獨立運動的目標,但是其計算 複雜、耗時,不容易達到即時性的要求;而背景相減法只需在事先訓練並建立背景模 型,在之後處理中,只要將輸入影像減去背景模型後即可擷取出前景目標影像。因此, 在綜合所有因素之後,本論文在這邊是採用高斯混和模型來訓練背景,並利用背景相 減法的方式來提取前景,以期盡量保存前景目標的完整性。

在背景相減法中,高斯混和模型(Gaussian mixture model,GMM)是一種較為常用 的演算法,且該方法在擷取出前景目標的完整性都有不錯的表現。高斯分布,也就是 常態分布。對於隨機變數 x,其機率密度函數為: 2 2 ( ) ( ) 2 1 ( , , ) 2 x p x e         (2-1) 其中為高斯分布的平均值, 為高斯分布的標準差。如果一組數據符合高斯分布, 那麼這些數據大多數會集中在以為中心的2 到2 範圍內。其分布函數曲線如圖

(22)

2.1 所示:  2 2  ( , , ) p x   圖 2.1 高斯分布示意圖 對於某一場景的視訊影像,如果其背景相對為靜止狀態,那麼背景中的每個像素 點在一段時間序列中的排列就可以用一個高斯分布來描述。但是實際上,對於戶外場 景,由於受到各種雜訊的干擾,其背景變化較大,會出現樹枝搖動,光線變化等不同 情況。因此用一個高斯分布不能完全描述實際的背景,這種情況下就需要採用多個高 斯模型來描述動態的背景,為不同的狀態建立不同的高斯模型。將 k 定義為建立高斯 模型的數目,那麼當前觀測點像素值的機率密度為: , , , 1, , 1, 1 ( ) ( , , ) k t i t i t i t k i t k i p x w p x  

 (2-2) 其中,w 是每個單一高斯模型的權重值,i t,i t, 1, k為第 i 個單一高斯模型的平均值, , 1, i t k 為第 i 個單一高斯模型的標準差。 接著,先對一段背景序列影像進行訓練,透過以上的運算過程計算出平均值、標 準差和權重等參數來做為背景影像模型的參數。藉由一段序列影像訓練出來的背景模 型可以減低背景中擾動因素的影響,而訓練的序列影像越多,背景模型的精確度也越 高,但相對在訓練時間上也會愈長。

(23)

最後,利用背景相減法,將輸入影像減去由高斯混合模型訓練出來的背景,即可 完成前景提取的動作,如圖 2.2 所示: (a) (b) 圖 2.2 利用 GMM 擷取前景範例。(a)輸入影像;(b)經過 GMM 前景提取後的結果。

2.2 靜態特徵

在這邊的靜態特徵,主要是針對一周期序列影像中的統計平均影像來做分析,所 以在抽取靜態特徵之前必須先得到步態能量影像。藉由疊加所有步態序列影像可以得 到步態能量影像,接著從步態能量影像中觀察每個人在一周期走路中身體整個外輪廓 前後移動的形狀、手部擺動的幅度等等。由於每個人的習慣不同,所以每個人在步態 能量影像中的表現也不同。 在本論文中,主要是分析步態能量影像來擷取靜態特徵,其中包含步態能量影像 的外輪廓特徵與手部擺動幅度。因此,在本節中,主要又分為兩小節,2.2.1 主要介 紹步態能量影像的計算方式與其優缺點;2.2.2 介紹傅立葉描述子的計算過程,在這 邊主要是利用傅立葉描述子來描述步態能量影像的外輪廓特徵。

2.2.1 步態能量影像

步態能量影像(gait energy image, GEI),也叫平均步態影像,這是一種屬於統計上 的特徵。最初是由 Bobick 和 Davis [11]所提出,Han 和 Bhanu [12]將此方法應用在 姿態辨識上,而 X. Li, S. J. Maybank, S. Yan, D. Tao 和 D. Xu[4]更進一步將步態能量影

(24)

像應用在性別鑑別上。 步態能量的計算方式如下: 1 1 ( , ) ( , ) N t t G x y B x y N  

(2-3) 其中B 為單張步態影像,N 為一週期序列影像中的影像數目,x 和 y 為二維影像中的t 座標位置。 在進行影像疊加之前,會先將每一張步態影像B 正規化成一樣的高度,在本論文t 中是將人體步態影像正規化成 140 的高度,且等比例的縮放寬度大小。例如:現在輸 入的步態影像大小為 274*72,將長度正規化成 140 的大小後,接著寬度大小則會被 正規化成(140/274)*72=37,所以整張步態影像就會被正規化成 140*37 的大小。因為 在進行正規化時是等比例的縮放原始影像,所以並不會改變原始輸入影像的體態大 小。對每一張步態影像都進行正規化之後,接著以每張步態影像的水平中心線為基準 線來進行影像疊加的動作以獲得步態能量影像。 步態能量影像主要是將一周期中的序列影像全部相加再取平均,如圖 2.3 所示: (a) (b) (c) (d) 圖 2.3 步態能量示意圖。(a) 步態序列影像;(b)步態能量影像;(c) 步態序列影像; (d) 步態能量影像。

(25)

步態能量影像累積了人在行走中的所有姿態,而像素值較高的區域即表示此人在 行走中頻繁使用到的位置。圖 2.3 中(a)和(c)為兩個不同的人之步態序列影像,從(b) 和(d)的步態能量影像中即可察覺此二人的不同處,例如:(d)在手部擺動的幅度上明 顯較(b)來的大、在下半身腳步區域的能量分布圖也不同。由此可知,步態能量的最 大優點在於能在單張影像中就表現出人在走路一周期過程中的主要輪廓形狀與變化。

2.2.2 傅立葉描述子

在進行影像目標的識別時,首先必須要做的就是抽取目標的特徵,然後用適當的 數學表示對目標進行描述。對目標特徵提取的算子稱為目標檢測子(detector),對目標 描述的算子稱為描述子(descriptor)。一般來說,目標描述子需要具備以下四個性質: 1. 完備性:僅僅只有當兩個目標有相同的形狀時,其描述子才會是相同的。 2. 一致性:相似的兩個目標物,其描述子也應該是相似的。 3. 不變性:描述子對目標的幾何變換必須具有不變性,例如平移、旋轉和尺度伸縮 等等必須保持不變性。 4. 緊湊性:越好的目標物描述子可以用越少的係數來表示目標的特性。 在所有描述子中,傅立葉描述子(Fourier descriptor, FD)最常用來表示封閉曲線的 形狀特徵。其基本的原則[18]就是將目標輪廓曲線轉換成一維序列,對該序列進行一 維的傅立葉變換,並從中獲得一系列的傅立葉係數,用這些係數來描述目標物的輪廓。 使用傅立葉描述子的優點在於計算簡單,而計算原理簡單可以讓特徵提取更為穩 定,所以在計算過程中,不需要設置大量控制參數就可以獲得結果。此外,由於任何 一段序列影像輪廓經過傅立葉變換後,其能量主要都會集中於少數幾個低頻傅立葉係 數上,因此採用極少的傅立葉係數就可以描述該序列的特徵。而隨著傅立葉係數的增 多,該序列的細節特徵得以更好的被描述。因此,傅立葉描述子對目標物輪廓有非常 好的描述能力。 由於人體步態的輪廓線也是一條封閉的曲線,所以在本論文中主要是利用傅立葉

(26)

描述子來描述姿態能量影像的外輪廓曲線。首先,把輪廓邊界上每一點都看成一個向 量,用複數形式表示如下: , = 0,1, , 1 i i i z  x jy iN (2-4) 其中 N 為輪廓點數,步態輪廓的質心座標為 ( ,x yc c): 1 0 1 N c i i x x N   

(2-5) 1 0 1 N c i i y y N   

(2-6) 選定某個點為起點,本論文中是選擇最右下方的點為起點,沿逆時針方向展開並 計算步態輪廓上每一點與質心的距離d : i 2 2 ( ) ( ) , 0,1, , 1 i i c i c dxxyy i  N (2-7) 將一個序列的二維輪廓影像經過方程式(2-7)的轉換,對應成一序列的一維距離信 號。此時,特徵序列D{ ,d d0 1,,dN1}。接著,對特徵序列 D 進行離散傅立葉變換 (discrete Fourier transform, DFT),可得到離散傅立葉變換係數a ,如下所示: n

1 2 / 0 1 , 0,1, , 1 N j ni N n i i a d e n N N     

   (2-8) 方程式(2-8)運算出來的傅立葉係數為複數型態an njn,接著我們取出這些 係數的數值大小 2 2 2 |an| n n 來做為特徵,最後再以 2 0 |a | 為基準進行正規化處理:

(27)

2 * 2 0 | | , 0,1, , 1 | | n n a a n N a     (2-9) 進行正規化的原因在於:正規化後的傅立葉描述子具有尺度、平移和旋轉的不變 性。而正規化後的這一序列係數即代表此封閉曲線的傅立葉描述子(Fourier descriptors, FD)如下所示: * * * 0 1 1 [a a aN]  FD  (2-10) 而此傅立葉描述子即為本論文中用來描述步態影像的外輪廓特徵之方法。

2.3 動態特徵

在這邊的動態特徵,主要是對一序列影像中每一張步態影像都去進行抽取特徵的 動作。由於每個人習慣上的不同,例如在走路過程中有人習慣低頭走路,有人喜歡抬 頭走路、有人走路步伐距離較大、有人走路步伐距離較小等等。由於這些習慣性的小 動作造就每個人獨特的走路特色,而本論文就是藉由分析這些小動作來進行身份的鑑 別。 在本論文中,動態特徵的部分又分為頭部傾斜角、膝蓋彎曲角度、腳掌離地角度 和步伐大小距離,在擷取這些特徵的過程中,主要使用到的方法有主成分分析法 (principal components analysis, PCA )和哈里斯角點偵測法(Harris corner detector)。因 此,在本節中,又分了兩小節,2.3.1 介紹主成分分析法,主要是用在分析頭部傾斜 角和腳掌離地角度;2.3.2 介紹哈里斯角點偵測法,主要是用在分析膝蓋彎曲角度。

2.3.1 主成份分析法

主成份分析由 K. Pearson 於 1901 年提出,後來由 Hotelling 在 1933 年再以發展。 在統計分析中,主成份分析(principal components analysis, PCA)是一種分析、簡化數 據的方法。其主要目的在於希望用較少的變數去解釋原來資料中的大部分變異,也就

(28)

是希望能將資料中許多相關性很高的變數轉換成彼此互相獨立的變數。在圖形辨識 中,主成份分析算是比較快速又準確的方式之一,他可以對抗圖形平移旋轉的現象, 在多個特徵資訊中擷取最主要的幾個來做為特徵依據。 主成份分析法的數學定義是:一個正交化線性變換,把數據變換到一個新的座標 系統中,使得所有數據投影的第一大變異數在第一個座標(稱為第一主成分)上,第二 大變異數在第二座標(第二主成分)上,依此類推。例如現在有 N 組的資料向量 1 2 N X , X ,, X ,每個輸入向量都具有 D 個維度,利用主成分分析可以將整體輸入向 量的維度降低到 S,其中 S<D。主要做法流程如下, 1. 將輸入資料向量X , X ,1 2, XN組合成一個D N 的輸入矩陣: [ ]  1 2 N X X XX (2-11) 2. 計算矩陣 X 的平均向量 u: 1 1 N i i N  

u X (2-12) 3. 將每個X 扣除平均向量 u 後,可得到結果i B :i i i B = X - u (2-13) 4. 計算其共變異矩陣 C: 1 1 N T i i i N  

C B B (2-14) 5. 找 出 共 變 異 矩 陣 C 的 特 徵 值 (eigenvalue) 1, 2,dd  ,D, 和 特 徵 向 量

(29)

(eigenvector) v 。 接 著 取 出 最 大 的d S 個 特 徵 值 與 相 對 應 的 特 徵 向 量 1, 2, , s sS v,  ,將每一個特徵向量除以自己的長度後會形成一組對應的基底 向量(basis vector),而其中每一組基底向量則對應到一個特徵空間(eigenspace)。 6. 將這 S 個正規化的特徵向量合成一個D S的轉換矩陣 W,即: 1 2 1 2 [ S ] Sv vv W || v || || v || || v || (2-15) 7. 最後用 Y 來代表主成分分析的輸出: TY W X (2-16) 最後輸出的 Y 為一個 S N 的矩陣,其中每個行向量就是相對於X , X ,1 2, XN主成分分析的結果。經由這些步驟之後,不僅可以把最具代表性的 S 個維度保留下 來,同時也可以達到資料降維的目標。

2.3.2 哈里斯(Harris)角點偵測法

Harris[13]於 1988 年提出一個區域角點偵測的演算法,此方法是基於 Moravec[14] 在 1980 年提出的角點偵測進行衍生後的結果。 Moravec 的方法主要是使用一個方形的搜尋視窗(window)在影像中做小距離的移 動,並算出移動前後視窗內影像強度變化的量,即視窗內所有像素值的梯度變化總 值,如方程式(2-17)所示: 2 , ( , ) ( , )[ ( , ) ( , )] x y E u v

w x y I x u y  v I x y (2-17) 其中 I 為影像,w 代表影像搜尋視窗。點(x, y)為影像座標點位置,點(u, v)為移動視窗 座標點位置。

(30)

Moravec 主要是透過E u v( , )的大小來判斷視窗掃描到的區域為平面(flat)、邊界 (edge)或轉角(corner)中的哪一種情況,在這邊參考[19]的說法針對這三種情況會產生 的現象來進行分析,如下所述: (1) 平面(flat): 視窗往任何方向移動其E u v( , )值的結果都很小,表示此區域的梯度 變化不明顯,在影像上屬於較平滑的區域。 (2) 邊界(edge): 若視窗順著邊界的方向移動,則E u v( , )值很小;反之,若視窗移動 的方向與邊界垂直,則E u v( , )值很大。 (3) 轉角(corner):不論視窗往哪個方向移動,其E u v( , )值都很大。根據位移後得到最 大的梯度變化值就可以偵測出轉角的位置。 (a) (b) (c) 圖 2.4 Moravec 偵測邊角範例。(a)搜尋視窗在平面時之示意圖;(b)搜尋視窗在邊界時 之示意圖;(c)搜尋視窗在轉角時之示意圖。 Moravec 希望能找出所有E u v( , )值都很大的影像座標點(x, y),但是在權衡準確度 與運算速度後,Moravec 只做了八個方向的位移,從這八個方向的運算中找出最小的 ( , ) E u v 值 , 然 後 產 生 一 張 影 像 , 並 在 這 張 影 像 中 最 小 的E u v( , ) 找 區 域 最 大 (local maxima),而此點就是我們要找的特徵點。但是 Moravec 演算法還是有一些缺點,如 下所述: (1) 只檢測了視窗函數在八個基本方向上移動的強度變化,不能很準確地找出全部的 角點。

(31)

(2) Moravec 沒有對影像進行任何降低雜訊的處理,所以此方法很容易就會受到雜訊 的影響。 (3) Moravec 對於邊界的響應很敏感,相對其E u v( , )值都很大,因此很難從中辨別是 邊界還是角點。 Harris[13]主要就是針對 Moravec 偵測法中的三個缺點加以改良: (1) 由於偵測視窗的移動並未兼顧每個方向,所以 Harris 等人利用泰勒展開式(Tylor expansion),考慮所有最小的變化,忽略方程式(2-17)的高次項後可以表示成方程 式(2-18)和(2-19)的樣子: 2 , 2 2 2 , ( , ) ( , )[ ( , ) ( , )] ( , )[ ( , )] x y x y E u v w x y I x u y v I x y w x y xX yY I x y       

(2-18) 2 2 ( , ) 2 E u vAxCxyBy (2-19) 其中,A 為 X 方向的梯度平方值,B 為 Y 方向的梯度平方值,C 為 XY 方向梯度,如 下所述: 2 , ( , ) x( , ) x y A

w u v I x y (2-20) 2 , ( , ) y( , ) x y B

w u v I x y (2-21) , ( , ) x( , ) ( , )y x y C

w u v I x y I x y (2-22) 所以根據線性代數的原理,可以將E u v( , )重新定義為:

(32)

( , ) u E u v u v M v        (2-23) 2 2 , ( , ) x x y x y x y y I I I A C M w x y I I I C B             

(2-24)

(2) 在降低雜訊干擾的方法中,Harris 等人是選擇高斯平滑(Gaussian smooth)來做改 善: 2 2 2 ( ) 2 ( , ) u v w x y e     (2-25) (3) 在針對利用E u v( , )最小值的比較法難以準確辨別出邊界或角點的缺點上,在這邊 頂多只能設置一個門檻值(threshold)去定義角點或不是角點。 根據方程式(2-24)的算法,M 可由影像本身得到,然後我們針對 M 去求出其特徵 值(eigenvalue) 1和2,接著將方程式(2-23)改寫為:

1 2 0 ' E(u',v')= ' ' 0 ' u u v v               (2-26) 由方程式(2-26)可以推得,在位移時,若1和2都很大,表示E u v( , )不管位移角度 為何,都會讓E u v( , )很大,也就表示此區域為角點的區域;相反的,若1和2呈現一 大一小的狀態時,表示當位移其中一個方向時會使得E u v( , )很小,也就表示此區域為 邊界的區域;若1和2都很小,表示不管如何位移E u v( , )都很小,也就表示此區域為 平面的區域。詳細的分布情形如圖 2.5 所示:

(33)

2 1   2 1   1  2 1  2 圖 2.5 特徵值分布情形。

2.4 身份鑑別法則

本論文的身份鑑別方法主要是先建立資料庫,最後再將輸入資料與資料庫資料做 比對,找出最相似的人以完成身份辨識。在這邊最直覺的想法就是選擇使用最近鄰居 法(k-th nearest neighbor, KNN)來進行分類,首先算出資料庫中每個點到該點的距離 後,再找出距離最近的 k 個點。但是利用這樣的方法來做 k 個鄰近點搜尋時,會出現 一個很大的問題,即速度非常緩慢,必須算出資料庫中每個點到該點的距離後,再搜 尋出最近的 k 個點,這樣的計算量是相當龐大且沒效率的。 考慮以上的因素,本論文在這邊選擇使用 KD-tree 的方式來搜尋鄰近點,以改善 傳統 KNN 做法的缺點,並提升身份辨識的效率。因此,在本節中又分了兩小節來做 介紹,2.4.1 主要介紹傳統的最近鄰居法(k-th nearest neighbor, KNN);2.4.1 則是介紹 KD-tree 的演算法流程。

2.4.1 最近鄰居法

最近鄰居法(k-th nearest neighbor, KNN),意思就是找出 k 位最接近的鄰居,是一

(34)

種屬於類神經網路的演算法。類神經網路是一種仿生物神經網路的結構與功能的數學 模型,是一種能夠學習、能夠總結歸納的系統,而它主要又分成兩種學習方式:監督 式學習和非監督式學習。 監督式學習,是指在輸入訓練資料的時候同時也包括了輸出資料,即在訓練過程 中,每一筆資料都會有一個對應的正確答案,而類神經網路在學習以後,會依據答案 來調整自己的內部參數。非監督式學習,是指在輸入訓練資料的時候並沒有給輸出結 果,即每一筆資料並沒有正確答案。所以在輸入新的測試資料時,類神經網路只會依 據訓練出來的模型,來判斷和哪一類比較相似。 KNN 在類神經網路中是屬於監督式學習,在經過事先產生資料庫模型後,輸入 一筆新的測試資料,如圖 2.6 所示: 圖 2.6 KNN 演算法示意圖。 圖中紅點為新輸入的測試資料。KNN 演算法中計算新輸入點和資料庫模型中每一點 的距離公式主要是使用歐幾里得距離法,如下所示:

(35)

2 1 ( , ) || || ( ) n i i i dis x y x y x y    

 (2-27) 其中 x 為新輸入的資料,y 為資料庫中的訓練資料點,n 為資料點的維度大小。若現 在令 k=3,即找出新輸入資料點的最近 3 個鄰居,搜尋結果如圖 2.6 中橘色圓圈所示, 三個鄰居中有兩個鄰居屬於 data2,一個屬於 data1,所以在本範例中此輸入資料將會 被判屬於 data2 那一類。若現在是要找最近的 k 個鄰居,則以此類推。

2.4.2 KD tree

KD tree 最早是由 Jon Louis Bentley 所提出[15],在本論文中,主要是在資料庫中 尋找鄰近點來進行身份鑑別,為了改善 KNN 的缺點,提高分類的效率,我們採用 KD-tree 的方法來解決速度上的問題。KD 一詞即為 K 維的意思,是可用於高維度資 料的樹狀資料結構。圖 2.7 是一個針對二維資料進行 KD-tree 分類的範例圖,令 X 為 第一維度,Y 為第二維度: 0 1 2 3 4 5 6 7 8 9 10 10 0 1 2 3 4 5 6 7 8 9

x

1 2

x

3

x

4

x

5

x

6

x

7

x

8

x

X

Y

圖 2.7 KD-tree 示意圖。

(36)

KD-tree 做法是以第一維度的中位資料為界線,將資料以第一維度一分為二,再 以第二維度的中位資料將資料分為兩大類,依序執行到 K 維後,再回到第一維,重 複以上動作,直到每個小區塊都只有一筆資料為止。其中,中位資料是指將數據按大 小順序排列起來,形成一個數列,居於數列中間位置的那個數據,例如:有一筆資料 為[6, 2,7,1, 4],經排列後得[1,2,4,6,7] ,則中位資料等於 4。 在這邊舉例說明如何將二維資料建立成一顆 KD-tree,其法則如下所述: 二維資料點:x1(1,9),x2(6,2),x3(3,1),x4(8,3),x5(2,7),x6(4,5),x7(9,4),x8(7,2) 第一層: 根據資料的第一維度找出中位資料。 第一維度資料有[1,6,3,8,2,4,9,7],經由排列可以得到[1,2,3,4,6,7,8,9],在資料 為偶數筆時,選擇較大資料的來進行二分法,所以在此範例中選擇x2 (6, 2) 來做為第一層。 第二層: 以 x2做為分界,將資料分為第一維度較 6 小的一群 A:(x1,x3,x5, x6),以及較 6 大的一群 B:(x4,x7,x8) 。其中,  在 A 群中,利用第二維度資料排序後得[1,5,7,9]。因為資料為偶數筆, 所以選擇較大的資料來進行二分法,而 7 屬於 x5,所以選擇 x5來進行 第二層的二分法,因此樹狀圖左半邊第二層得到 x5=(2,7)。  在 B 群中,利用第二維度資料排序後得[2,3,4]。而中位資料 3 屬於 x4, 選擇 x4來進行二分法,因此樹狀圖右半邊第二層得到 x4=(8,3)。 第三層: 以 x5為左半邊的分界,將第二層步驟中 A 群剩餘的資料中,找出第一維度 較 2 小的一群 Aa:(x1),較 2 大的一群:Ab:(x3, x6);以 x4為右半邊的分界, 將第二層步驟中 B 群剩餘的資料中,找出第一維度較 8 小的一群 Ba:(x8), 較 8 大的一群:Bb:(x7)。其中,  在 Aa群中,因為 x1的第一維度數值 1 小於 x5的第一維度數值 2,所以 將 x1放在 x5左半邊。  在 Ab群中,還有兩個資料點 x3和 x6還沒二分完成。由於資料點為偶數, 所以在這邊選擇較大的數值 4 來進行二分,而 4 屬於 x,所以在這邊選

(37)

擇 x6來進行第三層的二分法。  在 Ba群中,因為 x8的第一維度數值 7 小於 x4的第一維度數值 8,所以 將 x8放在 x4左半邊。  在 Bb群中,因為 x7的第一維度數值 9 大於 x4的第一維度數值 8,所以 將 x7放在 x4右半邊。 第四層: Abb中還有一個資料點 x3還沒二分完成。由於本範例的資料為二維,所以 第四層又回到以第二維度資料來進行二分法。其中,因為 x3第二維度數值 1 較 x6的第二維度數值 5 還小,所以 x3放在 x6的左邊。 最後得到的結果如圖 2.8 所示: 5(2, 7) x 1(1,9) x x6(4, 5) 3(3,1) x 8(7, 2) x

x

7

(9, 4)

2(6, 2) x 4(8, 3) x X Y X Y 第一層 第二層 第三層 第四層 圖 2.8 KD-tree 樹狀圖。

(38)

第三章 系統流程

考慮姿態變因對於身份鑑別準確度影響之劇,本論文提出一個結合多種方法,使 用多面向與多角度來分析姿態,更針對人體不同區域的特性,提出相對應適合的方法 來抽取特徵,以期提高單一特徵的辨識率,進而提高整體身份鑑別的辨識率與強健性。 本章共分為五節,先說明整體系統流程,再進一步說明特徵抽取對象與方法及分 類辨識策略;3.1 節介紹整體系統架構與流程;3.2 和 3.3 節說明在進入正式的特徵抽 取分析前,所需要進行的預處理,包含前景提取與週期估測;3.4 節介紹系統架構中 的靜態特徵分析與抽取方法;3.5 節介紹系統架構中的動態特徵分析與抽取方法;3.6 節則是關於分類決策樹的建立。

3.1 整體系統架構與流程

本論文在進行主流程前會先抽取一段背景影像,利用高斯混和模型(Gaussian mixture model, GMM)訓練背景影像模型。之後只要將輸入的影像和背景影像模型相 減之後,即可獲得本系統預分析的前景影像。 接著,由於人走路是透過左腳和右腳不斷往前行走的循環所構成的,所以其具有 週期性,且人在一周期內的走路方向通常是直線的。因此,在獲得一序列的前景影像 後,本系統利用頭與雙腳在走路期間角度的變化來估測週期,並只從一序列影像中擷 取一周期影像出來進行以下的分析與特徵抽取。 得到一周期影像之後,將進行特徵抽取,所使用的特徵主要又分為兩種,靜態特 徵與動態特徵。靜態特徵分別為:外輪廓特徵和手部特徵;而動態特徵分別為:頭部 傾斜角、膝蓋特徵和步伐大小。 擷取特徵後,便進入身份的分類與辨識階段,本系統是使用 KD-tree 搜尋鄰近點 來進行身份鑑別。使用 KD-tree 的目的在於增加系統的效率,系統首先會先建立一個 決策樹:k 維樹(KD-tree)。之後再將特徵丟進去分類時,系統就會依照 KD-tree 的分

(39)

類順序來尋找最相似的人。以下為本系統的架構流程圖:

背景模型訓練流程圖

輸入背景序列影像 GMM訓練背景參數 輸出背景影像模型 輸入影像序列 提取前景 週期估測 提取其中一週期影 像出來進行處理 特徵抽取 建立KD-tree 訓練特徵權重參數 資料庫比對 輸出辨識結果 輸入影像序列 提取前景 週期估測 提取其中一週期影 像出來進行處理 特徵抽取

資料庫訓練流程圖

主系統執行流程圖

圖 3.1 本論文系統流程圖。

(40)

3.2 提取前景

在前景背景切割中,本論文是使用高斯混和模型來描述背景狀態。首先輸入一段 背景序列影像,接著利用高斯混和模型來訓練背景參數,最後會產生一個背景模型, 即為背景影像。詳細的做法流程如 2.1 節所描述的。圖 3.2 為利用高斯混和模型的方 法擷取前景之範例。圖 3.2 (c)為利用前景背景相減之後的二值化前景影像,之後我們 對(c)進行一次形態學的膨脹,再將人的步態影像擷取出來如圖 3.2 (d)所示,而(d)即 為本論文欲處理的序列影像範例。 (a) (b) (c) (d) 圖 3.2 提取前景範例。(a)灰階背景影像;(b)灰階輸入影像;(c)背景相減後前景影像。 (d)人體步態影像,即本論文欲處理的步態影像。 本論文之系統即是透過以上的流程,將當前輸入的每一張影像序列與事先訓練好 的背景影像模型相減,以得到本系統接下來所要分析的一序列前景影像,即人體步態 影像。

(41)

3.3 週期估測

人的走路行為是由左腳右腳不斷循環的往前走所構成的,所以人的走路是有週期 性的。為了降低整體資料量與提升程式執行效率,本論文在得到一序列的前景步態影 像後,在這邊只會擷取一周期影像出來分析與抽取特徵。扣除人的異常行為之外,只 提取一週期序列影像出來分析還有一個優點,即人在一周期內的走路方向通常是直線 前進的,所以在分析過程中不需考慮人在行走中是否稍微偏移了幾度角。 在步態分析中,大家最常使用來估測週期的方法為:利用二值步態影像中前景像 素值的總和變化來進行週期估測。但是這方法的風險在於若前景背景在切割時沒有切 的很乾淨,像素值的總和變化會忽大忽小,但這忽大忽小的變化是來自雜訊而不是真 的步態周期變化,此時就無法估測出真正的週期變化,並會影響到後續特徵抽取與身 份鑑別的準確度。 有鑑於上面提到的缺點,本論文在這邊參考文獻[16]的方法,將其抽取特徵的方 式加以改良,並將其應在週期估測上,因此,接下來會先就文獻[16]中本論文所參考 的部分加以做介紹。在 B. DeCann 和 A. Ross[16]的方法中,抽取靜態特徵的方式首先 是先找出三個點,如圖 3.3 所示: min

v

ter

v

v

max 圖 3.3 B. DeCann 和 A. Ross[16]方法中,抽取靜態特徵之方法示意圖。

(42)

其中vmin {ivmin,jvmin};vmax {ivmax,jvmax};vter {ivmax,jvmin},i 為影像中的縱座標 位置,j 為影像中的橫坐標位置。所以vmin所代表的意思為:整張二值影像中像素值 為 1 之最左上方的點,約為人頭頂的點;vmax所代表的意思為:整張二值影像中像素 值為 1 之最右下方的點,約為人在走路過程中,前腳腳跟的位置;v 所代表的意思ter 為:整張二值影像中在vmin正下方像素值為 1 之最下方的點。找出每一張影像中這三 點的位置後,藉由這三點的變化定義出步態曲線,即為特徵。 在本論文中,主要就是利用以上的方法加以做改良來進行週期估測的動作,不同 於 B. DeCann 和 A. Ross[16]的方法,本論文在vminvmaxv 三點的取法上做了些ter 微的修改,在vmin的部分,本論文更改成取頭頂正上方的點,並令為 A 點,即二值影 像中最上面不為零那一行的中心點,如圖 3.5 所示。在文獻[16]的方法中,vminvter 是分別屬於二值影像中同一行的最上方與最下方的點,所以vmaxvter的相對位置有 時候會因為雜訊的干擾而產生前後互換的現象,如圖 3.4 所示:

(a) (b) (c)

圖 3.4 文獻[16]中特徵抽取範例。(a)起步時vminvmaxv 三點的相對位置範例;ter (b)半週期時vminvmaxv 三點的相對位置範例;(c) 背背包時ter vminvmaxvter

(43)

從圖 3.4 中可得知vmaxv 的位置有可能會一直呈現交換的現象,這就在估測ter 週期這部份來說不是一個好的方法。因此,針對vmaxvter的部分,本論文改良了文 獻[16]的方法,將人體平分為左右兩部份,分別針對左半邊去找出最左下方的點,並 令為 B 點,針對右半邊去找出最右下方的點,並令為 C 點,如圖 3.5 所示: (a) (b) 圖 3.5 本論文週期估測方法示意圖。(a)本論文尋找 A、B 和 C 三點之示意圖;(b)本 論文用來估測週期的角度示意圖。 找出一序列影像中每張步態影像的 A、B 和 C 三點,如圖 3.5(a)所示,接著算出 CAB的角度大小,如圖 3.5(b)中的 角。其中 角就是人在走路時,兩腳不斷開合 所形成的夾角,而本論文就是利用這一序列的 角變化來進行周期的估測。 圖 3.6 為本論文估測週期的範例,經由觀察圖中曲線的變化和其相對應的步態影 像,可以得知本論文所使的週期估測方法具有不錯的估測效果。估測出一序列影像的 周期變化後,本論文在這邊只擷取出其中一段週期的序列影像出來進行後續的分析。 如圖 3.6 範例所示,本論文在這邊只取出第一週期的影像,即序列影像中的第 11 幀 到第 42 幀之間的影像出來進行後續的處理,如圖 3.7 所示。

(44)

18 36 49 67 11 26 42 56 degree 圖 3.6 週期估測範例。

(45)

圖 3.7 一週期內步態影像範例。

3.4 靜態特徵

本論文在抽取特徵的部分主要又分成了兩大部分,靜態特徵與動態特徵。在本節 中,將針對靜態特徵的部分來加以說明與介紹。在靜態特徵的部分,本論文主要的處 理對象為步態能量影像(gait energy image, GEI),並針對人體姿態中的外輪廓與手部擺 動幅度來進行分析。因此,在本節中又分了兩小節來進行介紹,3.4.1 介紹本系統的 外輪廓特徵;3.4.2 介紹本系統的手部擺動幅度特徵。

(46)

3.4.1 外輪廓特徵

首先將一週期內的所有步態影像疊加在一起,目的在於得到步態能量影像。接 著,取出步態能量影像的外輪廓,利用傅立葉描述子(Fourier descriptor, FD)來進行描 述,傅立葉描述子詳細作法流程如 2.2.2 所述,在這邊本論文是統一將影像正規化成 140 像素的高度。在利用傅立葉描述子描述外輪廓的部分,為了盡量降低特徵維度大 小並保留特徵的精確性,我們參考人體黃金比例[20]大致為 1:1.618 的說法,推算人 大致為七頭身的高度,因此將人立體的前後各取 7 點加上頭頂與腳底共 16 點。本論 文之系統在這邊是選擇維度為 16 的傅立葉描述子來進行外輪廓描述。如圖 3.8 所示: (a) (b) (c) (d) 圖 3.8 本論文靜態特徵中的外輪廓特徵示意圖。(a)步態能量影像示意圖;(b)步態能 量影像二值化後結果;(c)步態能量影像外輪廓特徵;(d)利用 16 維的傅立葉描述子來 描述外輪廓特徵之示意圖。 因此,在外輪廓特徵的部分其特徵維度大小為 1*16 的大小。

(47)

3.4.2 手部擺動幅度特徵

取得步態能量影像之後,本論文在這邊主要是利用雙手擺動幅度大小距離、手抬 起的縱座標高度位置和手與身體之間的距離來做為特徵,如圖 3.9 所示: (a) (b) 圖 3.9 本論文手部擺動幅度特徵示意圖。(a)步態能量影像手部特徵示意圖;(b)手部 特徵曲線圖。 圖 3.9 中的紅色曲線為步態能量影像中手部身體區域的前曲線;藍色曲線為步態 能量影像中手部身體區域的後曲線;A 點為前曲線中最左邊的點,即為人在往左前進 的一周期影像中手部抬起最高幅度的位置;B 點為前曲線中最右邊的點,即在一周期 影像中,幾乎沒有任何擺動位置,即為身體區域;C 點代表的則是在後曲線上最右邊 的點,意即手部擺動到身體後方時的位置。 關於手與身體之間的距離、雙手擺動幅度大小距離和手抬起的縱座標高度位置的 計算方法如方程式(3-1)到(3-3)所述: 2 2 _ | | hand bodyba (3-1) 2 2 _ | | hands distanceca (3-2) 1 _ hand high (3-3) a 因此,在手部特徵的部分其特徵為度大小為 1*3 的大小。

(48)

3.5 動態特徵

動態特徵與靜態特徵最大的差別在於,靜態特徵是對單一張的步態能量影像來做分 析,動態特徵則是針對一周期中每一張影像進行分析,例如:現在有行人 A 的步態序列影像, 其週期長度為 32 張影像,靜態特徵就是將這 32 張影像全部疊加在一起,產生步態能量影像 後再進行特徵抽取;動態特徵則是對這 32 張中的每一張都做一次特徵抽取,因此動態特徵 其實就是紀錄一序列的數值變化。 在本節中,將針對動態特徵的部分來加以說明與介紹。本論文在動態特徵的部分 又分成四部分,分別為頭部、膝蓋、腳掌與步伐大小。因此,本節又分了四小節來做 介紹,3.5.1 介紹頭部與垂直線的夾角特徵抽取法則;3.5.3 介紹膝蓋彎曲角度的特徵 抽取法則;3.5.2 介紹腳掌離地角度的特徵抽取法則;3.5.3 則是說明步伐大小距離的 估測方法。

3.5.1 頭部特徵

有人在走路的時候習慣低頭看前方地面,有人走路時喜歡抬頭,有人喜歡直視前 方前進。走路的樣子有各式各樣不同的變化,但是每個人都會不自覺的傾向於使用自 己最舒服、最習慣的姿勢來行走。因此,本論文在這邊也將頭部與垂直線的夾角當作 特徵之一,希望藉由多重特徵的搭配組合來提升整體身份的鑑別率。 在本論文中,主要是參考人體黃金比例[20]為 1:1.618,推算人的身材大致為七頭 身的說法來將頭部區域單獨抽取出來,意即將人體整張步態影像中的最上面七分之一 部份擷取出來,並定義此區域為頭部區域。得到頭部區域影像後,考量所有可能影像 頭部影像的變因,歸納其影響最劇的首推「戴帽子」,其中又以鴨舌帽對影像的影響 最大。因此,在進行特徵抽取之前,必須先對影像做一些預處理,以降低變因的影響。 在預處理的部分,本論文將已經擷取出來的頭部區域影像再重新做一次修正。將 頭部再上下等分為兩份,以此分割線,即鼻子位置附近區域為基準,將頭部影像的左 右區域重新裁切,如圖 3.10 所示:

(49)

(a) (b) (c) (d) 圖 3.10 擷取頭部區域流程示意圖。(a)人體步態影像;(b)擷取人體步態影像最上方七 分之一的區域影像圖;(c)裁剪頭部區域示意圖;(d)最終擷取出來的頭部區域影像。 在取得頭部區域的影像後,本論文接下來採用主成分分析法(principal components analysis, PCA)對頭部影像進行分析。主成分分析法的詳細做法原理如 2.3.1 節所述, 而本論文在這邊主要是拿來估測頭部二值影像中資料點的主要分布方向,即頭部傾斜 的角度與方向。 圖 3.11 中的(b)和(d)是同一個人的頭部特徵抽取結果,差別只在於一個沒戴帽 子,一個有戴帽子。圖中綠色的線表示為垂直地面的方向,紅色的線表示頭部傾斜的 方向。就圖 3.11 中的範例來看,紅色線在綠色線前方,表示此人為低頭的狀態。 (a) (b) (c) (d) 圖 3.11 頭部特徵抽取結果示意圖。(a)沒戴帽子的原始影像;(b)沒戴帽子的頭部特徵 抽取結果;(c)戴帽子的原始影像;(d) 戴帽子後的頭部特徵抽取結果。

(50)

在頭部特徵的部分,若是往下看的情況時,本論文將角度設為正角度值,若頭部 是上仰的情況時,則將角度值設為負角度值,此步驟主要是為了區分屬於往下或往上 的情況。考量到人在行走時,頭部可能會忽上忽下的看,因此本論文在這邊是選擇採 用人在行走時頭部與垂直線的平均夾角,意即將一週期影像的全部頭部傾斜角取平均 做為特徵之一。圖 3.12 為同一人之不同步態序列的一週期頭部傾斜角度變化曲線, 由圖中可得知,雖然頭部傾斜角曲線在一週期內的分布不太一樣,但是平均角度卻幾 乎分布在同一範圍之中。如圖 3.12 的範例,此人的頭部傾斜角度大致會落在 14 度到 17 度之間。 平均角度 :15.16度 (a) (b) (c) (d) 圖 3.12 頭部傾斜角度變化曲線範例。(a)第一段步態影像頭部傾斜角抽取結果;(b) 第 二段步態影像頭部傾斜角抽取結果;(c) 第三段步態影像頭部傾斜角抽取結果;(d) 第 四段步態影像頭部傾斜角抽取結果。

(51)

另外,考量到每個人的頭部長寬不太一樣,所以本論文亦將頭部影像的平均質心 座標位置當做特徵之一。因此,頭部特徵包含頭部平均傾斜角和頭部質心座標位置, 其維度大小為 1*3。

3.5.2 腳掌特徵

平常在路上,常常不小心就會聽到有人在走路時鞋子拖地所發出的聲音,進而觀 察每個人在走路時,有些人習慣性走路不將腳掌抬起,有些人則是一步一步抬起往前 走。因此,本論文從此方向下手,偵測每個人在走路時腳掌離地的角度。 本論文主要是先偵測人體步態影像中下半身區域最後一行不為零的位置,以此為 基準來擷取腳掌區域影像,如圖 3.13 所示: 圖 3.13 擷取腳掌區域示意圖。 擷取出腳掌區域影像後,接著會利用分群的方法,進一步判斷此區域內為一個物 體或兩個物體。若判斷為一個物體,表示此時雙腳呈現合併的狀態;若判為兩個物體, 則表示此時雙腳呈現打開的狀態。在這邊我們只處理雙腳張開的情況,因為當雙腳合 併時,除了雙腳原地站立外,就是前腳完全著地,後腳完全離地的情況。而我們主要 目的是為了抽取腳掌離地的角度,所以在這邊我們只討論兩個物體,即雙腳張開的情 況。

(52)

一旦偵測到腳掌區域為兩個物體時,在這邊我們只分析後腳掌離地的角度,所以 仿照頭部傾斜角的取法,利用主成份分析法(principal components analysis, PCA)來對 後腳掌區域影像進行角度估測。圖 3.14 為實際的腳掌特徵抽取範例,其中(d)中的綠 線為與地面平行的水平線,紅線即腳掌的抬起角度,因此,在這邊所說的腳掌與地面 之間的角度就是指紅線與綠線之間的夾角。 (a) (b) (c) (d) 圖 3.14 擷取腳掌特徵範例示意圖。(a)原始輸入步態影像;(b)腳掌區域影像;(c)後 腳掌區域影像;(d)後腳離地角度擷取結果示意圖。 由於每個人走路時腳掌抬起的高度都不同,在這邊本論文將一序列腳掌離地角度 數據中最大的角度抽取出來當作特徵,如圖 3.15 所示。由於一周期步態中包含左腳 右腳各一次的往前走,因此,在圖 3.15 中的腳掌離地角度變化會有兩次的峰值,一 次為左腳的離地角度,另一次則為右腳的離地角度。在圖 3.15 範例中,此人的腳掌 離地角度為84.29。 另外,考量到每個人走路速度都不一樣,因此在這邊我們將速度也加入特徵中。 主要是透過計算每個人在一周期影像中腳掌離地的影像張數多寡,即角度不為零的影 像張數總和來代表這個人走路時腳移動的速度。在圖 3.15 的範例,腳移動的速度為 16 幀。

(53)

因此,腳掌特徵包含腳掌離地之最大角度與雙腳移動速度,其維度大小為 1*2。 84.29 圖 3.15 腳掌離地角度一周期變化範例。

3.5.3 膝蓋特徵

有些人在走路的時候會習慣性將前腳蹲一下或後腳往上勾一下,膝蓋的彎曲角度 也相對地比較大。由此可知,每個人由於走路習慣上的不同,在膝蓋部分的表現也不 太一樣。因此,本論文將膝蓋特徵分成前膝蓋與後膝蓋來進行特徵抽取。 參考人體黃金比例的標準[20],上下半身的標準比例為 1:1.618,即下半身佔全身 的比例為 0.618,約為 3/5。因此,在本論文中在擷取腿部區域影像的標準即是將人體 步態影像中的 3/5 到腳掌區域影像最上方擷取出來,如圖 3.16 所示: (a) (b) 圖 3.16 擷取腿部區域範例。

(54)

觀察人在走路時膝蓋的循環變化,發現前膝蓋的最大彎曲程度會發生在雙腳合併 剛要踏出去往前走的時候;後膝蓋的最大彎曲程度則是發生在雙腳打開的時候。因 此,為了提高本論文的效率,避免不必要的處理過程,在抽取腳掌特徵的時候,當判 斷雙腳為合併時會才會偵測前膝蓋特徵,偵測到雙腳打開的時候才會偵測後膝蓋特 徵。擷取膝蓋特徵的流程如圖 3.17 所示: 圖 3.17 擷取膝蓋特徵之流程圖。 依據圖 3.17 的流程所述,擷取出腿部區域後,接著我們將偵測此區域的前曲線 與後曲線,最後再利用哈里斯角點偵測(Harris corner detection) 分別找出前後曲線的 轉角處,即膝蓋彎曲的地方,詳細的哈里斯角點偵測方法流程如 2.3.2 所述。

(55)

在抽取前膝蓋角度特徵的範例如圖 3.18 所示;抽取後膝蓋角度特徵的範例如圖 3.19 所示: (a) (b) (c) (d) 圖 3.18 前膝蓋特徵抽取範例。(a)原始側影影像;(b)腿部區域影像;(c)腿部區域前 曲線示意圖;(d)前膝蓋特徵點偵測結果。 (a) (b) (c) (d) 圖 3.19 後膝蓋特徵抽取範例。(a)原始側影影像;(b)腿部區域影像;(c)腿部區域後 曲線示意圖;(d)後膝蓋特徵點偵測結果。 經過圖 3.18 和圖 3.19 的流程可得膝蓋的三個特徵點,最上面和最下面的點為曲 線上的第一個點與最後一個點,膝蓋區域的彎曲點則是由哈里斯角點偵測所偵測出來 的點。藉由這三點的位置,即可算出膝蓋的彎曲角度,如圖 3.20 所示:

數據

圖 1.1 文獻[2]性別辨識相關影像。(a)序列側影影像;(b)主成份步態影像(GPCI)。
圖 1.6 文獻[10]身份鑑別相關影像。(a)人體步態輪廓示意圖;(b)動態輪廓影像(motion  contour image, MCI)。
圖 3.4 文獻[16]中特徵抽取範例。(a)起步時 v min 、 v max 和 v 三點的相對位置範例; ter (b)半週期時 v min 、 v max 和 v 三點的相對位置範例;(c)  背背包時ter v min 、 v max 和 v ter 三
圖 3.7 一週期內步態影像範例。
+6

參考文獻

相關文件

– One of the strengths of CKC Chinese Input System is that it caters for the input of phrases to increase input speed.. „ The system has predefined common Chinese phrases, such

• One of the strengths of CKC Chinese Input System is that it caters for the input of phrases to increase input speed.  The system has predefined common Chinese phrases, such

(2) We emphasized that our method uses compressed video data to train and detect human behavior, while the proposed method of [19] Alireza Fathi and Greg Mori can only

For the application of large size flat panel display such as LCD TV, Notebook, Monitor etc, the correlation color temperature can be adjusted via the color image processing circuit

The second part is to the interactions between the brightness, color temperature, and other performance of the bulb and the fabricating parameters such as: the filling volume of

In the processing following action recognition, this paper proposes a human behavior description model to describe events occurring to human and exerts as decision and

Jones, &#34;Rapid Object Detection Using a Boosted Cascade of Simple Features,&#34; IEEE Computer Society Conference on Computer Vision and Pattern Recognition,

according to set up the relevant measure on the hardware aspects, such as management and administration, etc. But suches, setting of relieve disaster tactics and mechanism, etc.