一. 緒論
1.2. 相關研究
1.2.1. 資料類型
動作辨識的主要方法,就是將時序資料拿來做分類;而時序資料的來源,主要則 是分成2D 和 3D 兩種:
1. 利用 2D資訊[7][10][11]
利用在單一視角上的人體形狀來當作主要的資訊來源。
像以論文 “Recognizing Human Action in Time-Sequential Images Using Hidden Markov Model”[7]的方法,就是針對單一視角的網球影片,去擷取出 特徵(Mesh feature),並以特徵向量(feature vector)的變化來做分類的依據。
這樣的優點在於只需要一台攝影機,設備成本低、架設簡單。缺點則是大多 只能處理特定視角,而且能得到的資訊實際上算是相當有限;此外,對於被 遮蔽的部份,很難有良好的解決方法,所以大多只能分別差異比較大的動作。
2. 利用 3D資訊[6][8][9]
先利用動作捕捉(motion capture)的技術,將人體的各部位的 3D位置找到,
並以此為主要的資訊。
以論文“A Model-Based Human Motion Analysis System in Multiple-Views”
[6]來說,就是先使用Model Base的方法先去找出人體的所有關節角度,然後 以這些角度構成的向量來做為分類的資料。
這樣做的優點則是可以利用多視角的特點,降低遮蔽等問題,對於姿勢的判 定,可以得到的資訊也更多。但是主要問題在於資料的取得;要取得人體各 部位的3D位置,大多必須要使用多視角的攝影機或其他設備,不但在架設、
計算上較為複雜,成本也相對提高許多。
1.2.2. 人體動作辨識的方法
在取得資料後,接著要做的,就是對取得的資料進行辨識的動作。目前一般對於 動作的辨識,主要可以分為下面兩類[1][2]:
1. 樣本比對(Template matching) [11]
為每一種動作去建立他的標準範本,在要辨識時,就拿要辨識動作去和各範 本比較。
論文“Real-Time Recognition of Activity Using Temporal Templates”[11]所使 用的方法,就是使用他們所定義的MEI(motion energy image)和MHI(motion history images)來當作動作的樣本。
他的優點是計算簡單,也容易實做;缺點則是容易受到動作雜訊或時間差異 干擾。同時,他對於不同視角的動作也很難做處理。
2. State-Space Approaches[6][7][8][9][10]
將每個靜態的姿勢定義為一個狀態(state),並利用各狀態之間的轉移,來描 述一個連續的動作。這類的方法中,最常被拿來使用的就是以隱馬可夫模型
(Hidden Markov Model,簡稱HMM)為基礎所衍生出的各種方法。
這類的方法的優點在於可以克服動作雜訊或時間差異的干擾;但是相對起 來,他的計算量就較為複雜,而狀態數目與特徵的選取,也是很大的問題。
在此,我們選擇以第二個方法中的HMM 為基礎來處理我們的問題。
1.2.3. Hidden Markov Model 的沿革
Hidden Markov Model[3][4][12][13][14][15](HMM)是由Markov Model衍伸而來的。
Markov Model 是一種利用狀態的轉移機率,來描述一個系統運作的隨機程序
(stochastic process);每個狀態都對應到實際可以觀察到的事件、現象;而對於一個 系統,就利用這些狀態的轉換來描述。而在狀態轉移時,則利用機率的概念,讓他的 轉移可以比較自由;而在考慮狀態轉移的機率時,每一刻的狀態只會和上一刻的狀態
有關係,和其他更早的資訊都不相關,這也就是「Markov Property」。
但是由於在Markov Model 中,每一個狀態都是對應到特定的事件、現象,所以 他的應用其實相當的限制性;因此,就衍生出Hidden Markov Model。在 HMM 中,將 現象、事件這種可以直接觀測到的資訊稱為「觀察值」(observations);同時,也把狀 態和觀察值分開,觀察值對應到現實中的現象,而將狀態視為無法觀察到的部份,形 成了雙重內嵌隨機程序(double embedded stochastic process)。而狀態無法被觀察到的 這個特性,也就是HMM 中 hidden 的觀念。HMM 利用無法觀察到的狀態轉移,以及 狀態呈現的觀察值來描述一個系統;而藉著這種hidden 的觀念,使的 HMM 的應用範 圍大為提升。而由於將觀察值和狀態分開,也使的HMM 對於可以處理的資料類型更 為廣泛。