研究成果與討論 研究成果與討論 研究成果與討論
本章節為實驗分析與結果,系統的實驗環境皆在 Windows 7 作業系統下執行,此系統以 Borland C++ 6.0 撰寫而成;硬體環境為個人電腦,使用 Intel Core i5 的中央處理器(CPU),容量 2GB 的記憶體,
其系統介面如圖 26。
(a) (b)
圖 26 (a)系統介面(b)輸出結果。
本系統在目標追蹤上使用方框來框選影片中每一時刻目標的位置。系統框選的好壞間接影響到我 們使用序列中心化後特徵值的準確度。因此,對於演算法在每一時刻框選目標的準確度,我們使用非 重疊區域比(Non-overlapping domain)進行評估[12],其定義公式如(35)。
= 1 −2|G_∩ _|
(35)
其中,|G_| 表示第 t 時刻估計出的大小;| _| 表示第 t 時刻目標物實際的大小;|G_∩ _| 表示兩 交集的面積; _ 數值介於 0 到 1 之間 , _越小代表追蹤結果越準確。非重疊區域比可以分為以下四種 狀況:
(a)0 < _< 1 (b) _ = 0
(c) _ = 1 (d) 0 < _ < 1 圖 27 非重疊區域比的四種情況。
本實驗使用了兩部我們自己所拍攝的影片進行模擬,畫面解析度為 320×240,畫面速率(frame rate) 為 30fps。其中影片(一)特點是背景在教室中,由於黑板與牆磚造成背景強烈的對比,一般的背景相減 法經過相減二值化後,容易造成目標物分割錯誤的情況。影片(二)背景較為複雜,許多的椅子會產生雜 訊,時間的變化也會使燈的光度產生些微的變化。其本系統輸出的結果如圖 28、29。
(a) (b)
(c) (d)
圖 28 影片(一)本系統執行追蹤的結果。(a)第 64 畫面;(b)第 177 畫面;(c) 第 266 畫面;(d)第 336 畫面。
(a) (b)
(c) (d)
圖 29 影片(二)本系統執行追蹤的結果。(a)第 243 畫面;(b)第 328 畫面;(c) 第 529 畫面;(d)第 825 畫面。
圖 28、29 中可看出本系統的方法再目標進不同的行為時,框選的位置都很精確,有利於序列壓縮 中心化特徵的建立。我們統計兩部影片的平均重疊誤差比和平均每一時刻所消耗的時間如表 1 所示。
表 1 本計畫在兩部影片執行追蹤的結果
影片序列 平均重疊誤差比/% 平均時間 ms 總畫面張數 影片(一) 0.134±0.076 33.359±3.63 388 影片(二) 0.159±0.093 34.293±4.77 1087
表 1 本計畫在兩部影片執行追蹤的結果顯示,平均重疊誤差比皆有不錯的效果,而計算每張畫面 的平均時間維持 33-34ms 左右,符合現實系統所需求的每秒三十張畫素。
執行追蹤後,本實驗使用 1.3 小節所提到之特徵擷取之方法,最後在應用倒傳遞神經網路結合比 例共軛梯度法來進行行為辨識,在資料庫部分使用四部我們拍攝的影片做為訓練樣本,其中資料庫的 人體行為包含了站立(Standing)、向左走、向右走(Walking)、蹲下(Squat)、舉手(Hand-Waving)、臥倒(Lie down)六種動作,如圖 30,其中 S1、S2、S3、S4 表示在不同情境下所拍攝的影片。
站立 向左走 向右走
S1
S2
S3
S4
舉手 蹲下 臥倒
S1
S2
資料庫完整的介紹後,實驗部分利用類神經網路作為辨識的系統,因此必須先介紹本實驗一些系 統的基礎設定,本實驗的設定值如表 2 所示,其中隱藏層轉移函數、輸出層轉移函數此量兩項參在本 實驗中使用的是正切雙彎曲轉移函數如圖 31,其原因能夠在輸出值趨近於正負無窮大時,使其函數值 能夠落於一個常數值,其函數值在[1,-1],其圖形如圖 28 所示而其作用之公式(36)中為其運算方式。
表 2 人體行為資料庫之神經網路參數設定表
學習參數 設定值
類神經演算法 BP+ SCG
隱藏層神經元數目 70
最小性能梯度 1E-6
誤差目標值 0
學習最大循環次數 1000
隱藏層轉移函數 正切雙彎曲轉移函數
輸出層轉移函數 正切雙彎曲轉移函數
在本實驗中學習最大循環次數設定在 1000 次,其原因在於因比例梯度下降法一般在迭代次數上並 不會太大,而使用傳統的最陡坡度法,收斂次數依問題難易度,其收斂次數有可能達到 2000 至 3000 次非常可觀的數目,數度慢很多。
S3
S4
圖 30 資料庫情境和行為圖
圖 31 正切雙彎曲轉移函數
@ = @A b A (36)
經過表 2 之參數設定過後,本實驗中由 4 部短片進行行為序列特徵擷取後,每段影片都有多個行 為樣本做為訓練樣本(包含驗證樣本)。最後利用倒傳遞神經網路學習並使用比例共軛梯度演算法尋找最 佳值,此實驗以比例共軛梯度演算法訓練,因模擬環境屬於隨機抽取樣本數理面之訓練樣本與測試樣 本屬於隨機決定,所以本計畫中每部影片必須進行 20 次的實驗在經過平均才可獲得較為準確之值。
表 3 影片(一)人體行為辨識率(總畫面張數:388) 輸出
輸入 站立 向左走 向右走 舉手 蹲下 臥倒
站立 94.88 2.825 2.68 3.12 0 1.33
向左走 2.63 94.41 3.29 0 0 0
向右走 2.49 2.765 94.03 0 0 0
舉手 0 0 0 95.67 1.92 0
蹲下 0 0 0 1.21 96.47 1.82
臥倒 0 0 0 0 1.61 96.85
平均辨識率 95.385
表 4 影片(二)人體行為辨識率(總畫面張數:1087) 輸出
輸入 站立 向左走 向右走 舉手 蹲下 臥倒
站立 94.52 3.35 3.28 3.54 2.13 1.01
向左走 2.37 93.23 3.66 0 0 0
向右走 3.11 3.42 93.06 0 0 0
舉手 0 0 0 95.53 0.98 0 Understanding, 73(1), pp. 82-98, 1999
[2] J. K. Aggarwal and Q. Cai, “Human Motion Analysis: a Review,” Computer Vision and Image Understanding, 73(3), pp. 428-440, 1999.
[3] R. T. Collins, A. J. Lipton, T. Kanade, H. Fujiyoshi, D. Duggins, Y. Tsin, D. Tolliver, N. Enomoto, O.
Hasegawa, P. Burt and L. Wixson, “A system for video surveillance and monitoring,” Tech. Rep., The Robotics Institute, Carnegie Mellon University, 2000. CMU-RI-TR-00-12
[4] I. Haritaoglu, D. Harwood, and L. S. Davis, “W4: Real time surveillance of people and their activities,”
IEEE Trans. Pattern Anal. Machine Intelligence, 22, pp. 809-830, 2000
[5] P. Remagnino, T. Tan, and K. Baker, “Multi-agent visual surveillance of dynamic scenes,” Image and Vision Computing, 16(8), pp. 529-532, 1998