相關研究 - 緒論 - 利用多觀察值型隱馬可夫模型進行人體動作辨識

一. 緒論

1.2. 相關研究

1.2.1. 資料類型

動作辨識的主要方法，就是將時序資料拿來做分類；而時序資料的來源，主要則是分成2D 和 3D 兩種：

1. 利用 2D資訊[7][10][11]

利用在單一視角上的人體形狀來當作主要的資訊來源。

像以論文 “Recognizing Human Action in Time-Sequential Images Using Hidden Markov Model”[7]的方法，就是針對單一視角的網球影片，去擷取出特徵（Mesh feature），並以特徵向量（feature vector）的變化來做分類的依據。

這樣的優點在於只需要一台攝影機，設備成本低、架設簡單。缺點則是大多只能處理特定視角，而且能得到的資訊實際上算是相當有限；此外，對於被遮蔽的部份，很難有良好的解決方法，所以大多只能分別差異比較大的動作。

2. 利用 3D資訊[6][8][9]

先利用動作捕捉（motion capture）的技術，將人體的各部位的 3D位置找到，

並以此為主要的資訊。

以論文“A Model-Based Human Motion Analysis System in Multiple-Views”

[6]來說，就是先使用Model Base的方法先去找出人體的所有關節角度，然後以這些角度構成的向量來做為分類的資料。

這樣做的優點則是可以利用多視角的特點，降低遮蔽等問題，對於姿勢的判定，可以得到的資訊也更多。但是主要問題在於資料的取得；要取得人體各部位的3D位置，大多必須要使用多視角的攝影機或其他設備，不但在架設、

計算上較為複雜，成本也相對提高許多。

1.2.2. 人體動作辨識的方法

在取得資料後，接著要做的，就是對取得的資料進行辨識的動作。目前一般對於動作的辨識，主要可以分為下面兩類[1][2]：

1. 樣本比對(Template matching) [11]

為每一種動作去建立他的標準範本，在要辨識時，就拿要辨識動作去和各範本比較。

論文“Real-Time Recognition of Activity Using Temporal Templates”[11]所使用的方法，就是使用他們所定義的MEI（motion energy image）和MHI（motion history images）來當作動作的樣本。

他的優點是計算簡單，也容易實做；缺點則是容易受到動作雜訊或時間差異干擾。同時，他對於不同視角的動作也很難做處理。

2. State-Space Approaches[6][7][8][9][10]

將每個靜態的姿勢定義為一個狀態（state），並利用各狀態之間的轉移，來描述一個連續的動作。這類的方法中，最常被拿來使用的就是以隱馬可夫模型

（Hidden Markov Model，簡稱HMM）為基礎所衍生出的各種方法。

這類的方法的優點在於可以克服動作雜訊或時間差異的干擾；但是相對起來，他的計算量就較為複雜，而狀態數目與特徵的選取，也是很大的問題。

在此，我們選擇以第二個方法中的HMM 為基礎來處理我們的問題。

1.2.3. Hidden Markov Model 的沿革

Hidden Markov Model[3][4][12][13][14][15]（HMM）是由Markov Model衍伸而來的。

Markov Model 是一種利用狀態的轉移機率，來描述一個系統運作的隨機程序

（stochastic process）；每個狀態都對應到實際可以觀察到的事件、現象；而對於一個系統，就利用這些狀態的轉換來描述。而在狀態轉移時，則利用機率的概念，讓他的轉移可以比較自由；而在考慮狀態轉移的機率時，每一刻的狀態只會和上一刻的狀態

有關係，和其他更早的資訊都不相關，這也就是「Markov Property」。

但是由於在Markov Model 中，每一個狀態都是對應到特定的事件、現象，所以他的應用其實相當的限制性；因此，就衍生出Hidden Markov Model。在 HMM 中，將現象、事件這種可以直接觀測到的資訊稱為「觀察值」（observations）；同時，也把狀態和觀察值分開，觀察值對應到現實中的現象，而將狀態視為無法觀察到的部份，形成了雙重內嵌隨機程序（double embedded stochastic process）。而狀態無法被觀察到的這個特性，也就是HMM 中 hidden 的觀念。HMM 利用無法觀察到的狀態轉移，以及狀態呈現的觀察值來描述一個系統；而藉著這種hidden 的觀念，使的 HMM 的應用範圍大為提升。而由於將觀察值和狀態分開，也使的HMM 對於可以處理的資料類型更為廣泛。

在文檔中利用多觀察值型隱馬可夫模型進行人體動作辨識 (頁 11-14)