人體姿態辨識

第二章、研究方法與執行成果

第二節人體姿態辨識

建構於前項研究的基礎上，我們可以將「人體姿態辨識」視為一種人機互動介面。以電腦視覺為基礎的人機互動介面，可以讓使用者在無需利用傳統輸入裝置的情況下，自然且充分地使用肢體動作下達指令。我們設定使用者操作此介面時，以正面面對相機，視覺系統會偵測出人臉以及手臂在 2D 影像中的位置與姿態。於去年的研究中，我們利用單一相機來達成人體姿態的估算，但為了提升人體姿態估算的準確度，並達到可以即時應用的效能，今年我們採用兩台相機之影像來並採用以多樣本為主之演算法達成人體姿態估算的演算法。

(一) 系統概述

於人體姿態估算技術，我們提出一個結合靜態辨識和動作資訊以範例為基礎之方法，其中主要包含三個主要的部份，包括靜態姿勢辨識、動作為基礎的姿態辨識和結果整合(如圖十六所示)。採用兩台相機所擷取之影像來估算人體姿態，其主要的優點在於可以避免一些遮蔽 (Occlusion)，和在單一相機中常會遭遇到辨識結果模稜兩可(Ambiguity)的問題。首先，藉著比較從兩台相機中擷取之的剪影(Silhouette)和資料庫的範例(Examples)來做靜態辨識，資料庫儲存多樣化的人物動作組態和相對於相機的 2D 人物外型，在這裡我們利用 shape context 來描述人物外型。我們比對範例並且找到最相似的當作答案候選人。接著，透過推算出運動資訊，然後這些運動資訊被用來推算哪一個結果比較好。這個方法使用顏色強度的變化來推算運動資訊，可以和以剪影為基礎的辨識系統互補，因為剪影捨去了光影強渡資訊。而這個方法也克服了在傳統上用預測方法所造成的錯誤預測(Error Prediction)問題。最後我們結合在兩台相機上靜態姿態辨識和以運動為基礎的姿態辨識的結果，我們提出一個權重和的方式來作結果整合，最整合所得的結果就是我們方法最後所辨識出的結果。

圖十六：人體估算系統架構圖

(二) 靜態姿態辨識

靜態姿態辨識就是只用目前的影像來辨認現在的姿勢而不會用到過去的資訊，我們提出利用剪影以範例為基礎的方法。剪影是一種常被用來辨識重建 3D 人物的方法，因為它包含豐富的人物的姿態資訊，而且不會被人物衣服的顏色和紋路影響。我們利用觀察到的剪影去跟資料庫裡合成的剪影做比較，我們將最相似的剪影所對應的姿態當作我們所判斷的。

在剪影為基礎的方法中，我們使用兩台相機當作輸入。原因是因為剪影只有一個物體 2D 外型的資訊而沒有了 3D 結構的資訊。為此我們利用不同角度的相機去觀察使用者，如此使用者的姿態較容易被辨認出。例如圖十七，在圖十七(a)中我們很難利用剪影去判斷人左臂的位子，但是如果我們有另一個在不同角度相機所觀察到的剪影如圖十七(b)，我們可以很容易知道左臂是否有伸直。但是，當手臂靠近身體的時候，有可能兩台相機的視野皆被遮蔽到，

這是仍然很難判斷位置，我們將利用動作的資訊去解決這個問題。圖十八為我們方法的流程。

首先描述剪影的階段，我們從輸入的影像擷取出剪影，剪影的外型再經由 shape contexts 來描述。然後，我們在利用輸入的剪影去跟範例做剪影比對。為了節省時間，我們在選取答案候選人時使用串接方式。一開始我們比對第一台相機，刪去比對分數太高的範例。之後再比對第二台相機，一樣刪去分數太高的範例。最後剩下的範例當作答案候選人供之後估算。

(a) (b)

圖十七：不同視角之兩台相機影像擷取圖

圖十八：靜態辨識的流程圖

(三) 以運動為基礎的辨識方法

雖然剪影對於人類動作的辨認提供豐富和直覺的資訊，並已經被廣泛應用在人體姿態估算技術上，然而其卻忽略了剪影內部的資訊(如圖十九所示)，在影像中左前臂在身體區域，

雖然在兩張影像中左前臂的位置是不一樣的，但是再剪影中卻看起來一樣。因為有許多候選人有相似的剪影而他們似乎都是適合的答案，這個問題將會造成以剪影為基礎地辨識方法不能夠找到真正的姿勢。基於上述考量，我們提出一個方法利用運動資訊的演算法來克服這個問題，如圖十九所示，僅使用剪影，前臂的位置是無法被正確估算出來。然而，假設我們知道從上一張影像到目前這張影像的動作，我們可以使用這些資訊來估計現在的動作，例如圖二十，我們可以很容易區分出有相同剪影的兩個不同動作。假設姿勢在前一張影像是一樣的，

而之後兩個姿勢的動作不同，因為動作的資訊是從影像顏色強度改變所，而這部份被剪影捨

棄，因此我

圖二十一：以運動為基礎辨識方式的流程.

(四) 姿態估算結果整合

在獲得靜態辨識和以動作為基礎的辨識之後，下一個步驟極為如何從辨識結果中找最適合現在姿勢的答案。最直覺的方法就是使用以動作為基礎辨識系統的具有最小動作距離的範例。因為以動作為基礎的辨識只比較利用靜態辨視所選出的答案候選人，因此在動作為基礎的辨識方式中最好的答案，應該在靜態辨識中也是好的答案。在某些情形下，若只使用以動作為基礎的辨識方式，不能夠辨識出正確的姿勢，例如：當超過一個範例有相同且最小的動作距離，因此我們想要使用靜態辨識的結果來幫助找到較好的答案，亦或輸入影像所觀測到的動作資訊不足，導致無法辨識姿勢，而且太少的動作資訊很容易雜訊影響，導致上一張辨識結果有一些錯誤發生，那麼將會影響姿態估算之正確性，因此結合靜態和以動作為基礎的兩種辨識會是比較好的方式。一種簡單的整合方法，是假設兩類辨識結果是獨立的，在這種假設下，我們可以兩類辨識所得到的距離加起來，數值最小的當作我們的結果。然而，並非所有情形下，兩種辨識系統重要性皆相同。因此我們給予不同辨識方法和相機的結果不同權重，使用權重和的方式整合結果。

為計算目前影像中一種辨識方法在一台相機上的結果有多可靠，我們引入一個評量標準稱為可靠度(Reliability)。可靠度值介於 0 到 1 之間，他表示使用這個辨識方法的辨識結果為真實姿勢的機率。既然我們有兩種方法和兩台相機，對每一張影像可以得到四個辨識結果r 、₁ r 、2 r 和₃ r 。給定在現在時間影像的辨識結果₄ r ，我們想要估測可靠度_k R 。我們的想法是最_k 好的結果範例和輸入影像的距離可以表示辨識結果的可靠度。例如，假設在靜態辨識中，若最好的辨識結果r 的範例跟輸入剪影有很小的剪影距離 10，和另一個最好的辨識結果_A r 的範_B 例跟輸入剪影有很大的剪影距離 200，我們認為r 較為可靠，因為它跟輸入的剪影很相似。_A 如果最好範例跟r 一樣距離很大，這種情形代表在資料庫中沒有跟輸入相似的範例，有可能_B 是不好的剪影擷取或者是某些身體部位有遮蔽的情形，因此我們用在結果中最小的距離來估計靜態辨識的可靠度。我們想要估計的可靠度函數可以表示成Γ_static(d_min)，d_min為在r 中_k d_{k j}_, 最小的值。估算以動態為基礎的辨識方式地結果可靠度，不能僅僅考慮最小的動作距離，還要考慮從輸入影像中擷取出來的動作向量個數。這是因為動作資訊多寡可能會影響動態辨識結

果的可靠度，假設動作向量數目很少，代表我們只有一點點動作資訊，所以我們可能會找到

圖二十三：我們方法的結果，這張圖顯示兩台相機的輸入和辨識的結果

在文檔中人性化電腦整合智慧型環境(3/3) (頁 20-25)

第二章、 研究方法與執行成果

第二節 人體姿態辨識

第二章、研究方法與執行成果

第二節人體姿態辨識