結論與未來工作 - 利用多觀察值型隱馬可夫模型進行人體動作辨識

6.1. 結論

本研究試著將Hidden Markov Model with Multiple Feature Streams 的多特徵觀念，

應用在人體動作的分析上；並嘗試去解決無法辨識的情況。

以實驗結果來看，在有足夠的訓練資料的情況下，將HMM/MFS 應用在動作分析上，的確可以使的單一攝影機、固定視角，對於多個動作能有不錯的辨識率。而對於模擬的3D 資料，也有相當的辨識成功率。

對於訓練資料不足，或分群數目不恰當的情形產生的無法辨識的資料，在實際資料測試時，「拋棄無法對應的部份觀察值」和「拋棄權重小的部份觀察值」這兩種利用多觀察值性質來找近似對應狀態的方法，都可以將辦識的正確性提升到一定的程度；

而以模擬資料測試時，則由於資料的性質，是以「忽略無狀態轉移可能性的時刻」有較好的結果。

6.2. 未來工作

針對目前所使用的HMM/MFS 中，實際上還存在不少還可以進行修改的地方；其中比較重要，或比較可以加入的觀念，大致有下列幾點：

1. 改用連續型的隱馬可夫模型（Continuous Hidden Markov Model）

目前所使用的HMM 模型都是以離散型為基礎的，所以要先將連續的數值資料轉換為離散的符號；再這個轉換過程中，其實已經有失去一些資訊，同時也會造成機率為0 的問題。而使用連續性的數值資料來當觀察值，應該能解決這方面的問題。

2. 起始參數B的估計

目前的方法是使用亂數當作起始的參數，但是這樣的缺點就是每次計算出的結果不會相同，也會影響到訓練完後的可能性。因此，最好是可以有辦法可以利用訓練資料就先行對起始參數計算出一個夠好的估計，以增加之後訓練時的效果。

3. 各觀察值權重的計算方式

目前是以「提高模型與訓練資料的可能性」為前提、而非以「提高模型間的差異性」來計算的；如果改以「提高模型間的差異性」為前提來計算，相信也能提高辨識的正確性。

4. 考慮狀態的時間長度

現在的方法中，對於動作內各段小動作的時間其實是完全不去在乎的，有考慮的，只有之間轉換的過程。如果能將時間長度的比例也考慮進去，或許也會有所幫助。

5. 考慮對於狀態的額外處理

主要有兩種，一個是無用狀態的刪除、一個是同意義狀態的合併。降低狀態數目可以有效的減低運算的複雜程度。

而對於特徵的資料來源，可以考慮由其他更好的特徵來進行；目前的構想中，大致有下面幾個方向可以繼續做嘗試：

1. 以「基礎動作」（primitive motion）來進行

也就是本研究3D 模擬資料的部份。先行利用 2D 或 3D 推斷人體的姿勢，而後由姿勢的連續變化，分析出人體的各肢節的基礎動作，然後再將各肢節的基礎動作當作特徵，用在HMM/MFS 中來進行訓練、辨識。

2. 以「相對特徵」來進行

目前的特徵都是只考慮當下的時間的資料而已，或許可以嘗試考慮以和上一刻的差異、相對關係來做；比如果手的位置是「提高」、「往前」這一類的相

也還是要經過實驗才知道。

3. 以「多視角影像」進行

原則上還是以2D 的影像來進行，不過可以利用多視角的資訊。先由各不同視角的影像，判斷出最接近訓練時所使用的視角，並以此視角的資料拿做辨識。如此，應該可以在某種程度上解決目前的方法無法利用在不同視角的問題。

4. 加入其他獨立特徵

可以考慮加入其他可以代表行為的特徵，比如說移動的路徑；利用多觀察值型隱馬可夫模型各觀察值獨立的特性，應該可以同時處理不同、沒有關聯性的資料。而同時考慮移動的方法和本身的動作，應該可以再對動作辨識做一些延伸。

參考文獻

[1] L. Wang, W. Hu, and T. N. Tan, “Recent developments in human motion analysis”, Pattern Recognition, 36(3), pp. 585–601, 2003.

[2] J. K. Aggarwal, Q. Cai, “Human Motion Analysis: A Review”, Computer Vision and Image Understanding, 73(3), pp. 428–440, 1999.

[3] Christopher D. Manning, Hinrich Schűtze, Foundations of Statistical Natural Language Processing, Fourth printing, The MIT Press, 2001.

[4] L. R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, Proc. of IEEE, 77(2), pp. 257-285, February 1989.

[5] I. Haritaoglu, D. Harwood, and L. S. Davis, “Ghost: A human body part labeling system using silhouettes”, Proc. of International Conference on Pattern Recognition, pp. 77-82, 1998.

[6] Tz-Hau Tzeng, “A Model-Based Human Motion Analysis System in Multiple-Views”, 國立清華大學電機工程學系, 碩士論文, 2003.

[7] J. Yamato, J. Ohya, and K. Ishii, “Recognizing Human Action in Time-Sequential Images Using Hidden Markov Model”, Proc. of IEEE Conference on Computer Vision and Pattern Recognition, pp. 379–385, 1992.

[8] T. Mori, Y. Segawa, M. Shimosaka, and T. Sato, “Hierarchical Recognition of Daily Human Actions Based on Continuous Hidden Markov Models”, Proc. of Sixth IEEE International Conference on Automatic Face and Gesture Recognition, pp. 779-784, May 2004.

[9] I-Cheng Chang, Chung-Lin Huang, “Skeleton-based Walking Motion Analysis Using Hidden Markov Model and Active Shape Models”, Journal of Information Science And Engineering, 17, pp. 371-403, 2001.

[10] M. Brand, N. Oliver, and A. Pentland, “Coupled Hidden Markov Models for Complex Action Recognition”, Proc. of IEEE Computer Vision and Pattern Recognition, pp. 994–999, 1996.

[11] A. F. Bobick, J. Davis, “Real-Time Recognition of Activity Using Temporal Templates”. Proc. of IEEE CS Workshop on Applications of Computer Vision, pp.

39-42, 1996.

[12] M. Zimmermann, H. Bunke. “Hidden Markov Model Length Optimization For Handwriting Recognition Systems”, Proc. of the 8th International Workshop on Frontiers in Handwriting Recognition, pp. 369–374, 2002.

[13] R. I. A. Davis, B. C. Lovell, and T. Caelli “Improved Estimation of Hidden Markov Model Parameters from Multiple Observation Sequences”, International Conference

[14] P. M. Baggenstoss, “A modified Baum–Welch algorithm for hidden Markov models with multiple observation spaces”, IEEE Trans. Speech Audio Processing, 9, pp.

411–416, May 2001.

[15] P. Somervuo, “Speech Recognition Using Context Vectors And Multiple Feature Streams”, Helsinki University of Technology, Master Thesis, 1996.

[16] L. Xie, S-F. Chang, A. Divakaran, and H. Sun, “Structure analysis of soccer video with Hidden Markov Models”, Interational Conference on Acoustic, Speech and Signal Processing, May 2002.

[17] J. J. Lee, J. Kim, and J. H. Kim, “Data-Driven Design of HMM Topology For Online Handwriting Recognition”, International Journal of Pattern Recognition and Artificial Intelligence, 15(1), pp. 107–121, 2001.

[18] S. Tao, R. Guerin, “On-line Estimation of Internet Path Performance: An Application Perspective”, Proc. of IEEE INFOCOM, March 2004.

在文檔中利用多觀察值型隱馬可夫模型進行人體動作辨識 (頁 76-80)