第四章 模組化設計之即時人形偵測器
4.1 人形偵測器概述
在介紹人形偵測器(Human Detector)之前,為了避免混淆,需先對人形偵測器 與人形偵測系統(Human Detection System)作說明,人形偵測器運作於人形偵測系 統底下,而人形偵測器是由許多進行人形偵測不可或缺且重要的演算法模組所構 成,其功能是進行基本單位為一張 Frame 的人形偵測,而影片是由連續的 Frame 所組成,所以若應用於影片,需要連續以人形偵測器對所有 Frame 進行偵測。人 形偵測系統即為包含人形偵測器運作所需要的所有軟體與硬體裝置的整套設備。
以個人電腦(PC)版的人形偵測系統為例,包含了利用 C 語言撰寫完成的人形偵測 器軟體,以及個人電腦主機、螢幕、USB 攝影機,以及運作所需的鍵盤滑鼠等。
圖 4-1 為本研究所開發的人形偵測器進行單張 Frame 偵測之偵測階段流程圖。
本章節將會針對其中重要的模組進行原理與演算法的描述與介紹。包含偵測視窗 掃描(Detecting Window Scanning),讀取事先建立的參數檔案掃描所有偵測視窗候 選的座標位置;人形偵測器前處理(Pre-Processing),包含灰階化(Grey Scale)與背景 切割(Background Segmentation);偵測視窗切割(Detecting Window Segmentation),
根據背景切割的結果,切割出需要進行分類的偵測視窗候選;偵測視窗縮放 (Detecting Window Scaling),將切割出的偵測視窗候選縮放至 64x128,輸入進人形 分類器進行分類;人形分類器(Human Classifier)偵測階段,是使用在第二章所提到 的四種進行偵測視窗候選分類的方法之其中一種進行偵測視窗候選的分類,四種 方法的運算流程在第二章均有詳細的介紹;人形偵測器後處理(Post-Processing),
採用了顏履安[40]文中所述的方法,即非極大值抑制(Non-maximum suppression,
NMS)與平均偏移(Mean-Shift,MS)的方法。另外為了能讓我們的人形偵測系統運 作完畢的結果能夠有一些視覺化的分析方式,我們另外為人形偵測系統引入熱區 圖(Heat Map),作為人形偵測的分析與應用範例。
53 Start
End for i = 0; i < |DW|; i++
i
Detecting Window Scaling
Human Classifier (四種方法其中一種)
if Result >=0 Yes Record
(Coordinates & Size &
Predict Value) No Pre-Processing
(Grey Scale &
Background Segmentation) Detecting Window
Scanning
Detecting Window Segmentation
if exist Yes
No Post-Processing (NMS & MS)
Draw Results on Frame
Output : Detecting Results (BMP File & Txt File)
|DW|是指經由偵測視窗掃描之後得到的 偵測視窗候選總數量
Input : 1.分類器相關檔案 2.偵測視窗掃描參數
3.Frame(BMP or Camera)
Human Classifier : 1.Dalal
2.HOG-AdaBoost 3.GDguiding AdaBoost 4.HOG-AdaBoost-LFV
圖 4-1 人形偵測器進行單張 Frame 偵測流程圖
另外,我們在個人電腦(PC)(i7-3770)上使用 Dalal(Method 1)與我們(Method 4) 的方法,進行人形偵測器(Frame Based)的建立與各個模組耗時分析。人形偵測器的 建立上採用無背景切割以及有背景切割兩種方法。經過測試,結果如表 4-1 與表 4-2 所示,可以發現 HOG 所佔的運算時間百分比都是最高的,這也是我們進行 HOG 硬體化的主要原因。而次耗時的模組是進行偵測視窗縮放的 DW Scaling 模組,但 其所花費的時間百分比遠遠小於 HOG 的運算。
54
表 4-1 人形偵測器模組耗時分析(Dalal, Method 1)
Module
Pre Processing (Grey Scale)
w/t Background Segmentation
0.551%
Background Segmentation
w/o Background Segmentation
DW Segmentation (|DW|) DW Scaling
HOGs (|DW|x105)
Post Processing (Mean-Shift) Draw Results Output Results (BMP and TXT)
LSVM Frame Input
(BMP)
0.518%
0.653% 3.187%
0.034% 0.170%
- 1.264%
1.356%
(1640/1640)
1.235%
(314/1640)
2.394% 2.635%
94.415% 88.154%
0.0000249% 0.0001621%
0.0005351% 0.0016850%
0.589% 2.831%
Total 100%
(9231.286069 ms)
100%
(1892.987269 ms)
表 4-2 人形偵測器模組耗時分析(Our, Method 4)
Module
Pre Processing (Grey Scale)
w/t Background Segmentation
0.585%
Background Segmentation
w/o Background Segmentation
DW Segmentation (|DW|) DW Scaling
HOGs (|DW|x38)
Post Processing (Mean-Shift) Draw Results Output Results (BMP and TXT)
LSVM Frame Input
(BMP)
0.476%
2.059% 8.758%
0.110% 0.468%
- 3.473%
4.275%
(1640/1640)
3.394%
(314/1640)
7.543% 7.240%
83.488% 67.966%
0.0000785% 0.0003047%
0.0015905% 0.0046731%
1.935% 8.217%
Total 100%
(2929.743069 ms)
100%
(689.045669 ms)
55