研究背景

第一章、計畫緣由

第一節研究背景

(一) 無間隙人形追蹤系統

無間隙追蹤系統可同時整合了多個相機的觀測範圍，形成一組在廣大區域的目標偵測系統，系統擴大的偵測範圍取決於同時設置並啟用的相機個數，相機個數越多可以創造出越大的偵測範圍。無間隙追蹤系統的好處在於，應用此種影像系統在人性化電腦整合智慧型環境中，可使系統偵測到環境中人形目標物的確切位置、姿態甚至運動軌跡，另外當目標進行大範圍的運動，即使由一個相機的視野切換至另一個相機的視野當中，該系統仍然可以透過辨識目標物特徵的機制，判定相鄰兩相機視野中的目標為同一個目標物，一般而言，廣大區域的目標追蹤會有多個目標物需同時追蹤，無可避免的，更由於目標物間彼此會有交互重疊的情形，因此問題的複雜度比單一目標物的追蹤要來的困難，需要發展不同於單一目標追蹤的演算法方能達此目的。影像系統與其他感測系統最大的差異在於，能夠完整偵測人形在環境中之位置與行為姿態，在多目標無間隙人形追蹤系統中，我們預期利用多個影像設備，

以涵蓋所有智慧型環境空間，並進一步有效偵測與追蹤多個人形在環境中之位置與運動軌跡，

整個系統架構如圖一所示。

圖一：多相機無間隙追蹤系統示意圖

多相機的影像系統中，最大的挑戰在於如何找出各相機影像之相對應關係，以重建出目標物在運動空間中的影像。常用的技術大致上可分為兩類，一為傳統之校正技術，主要是計算出相機之間的轉換關係[1]，這種技術最大的缺點在於校正的過程十分繁雜。另一類的技術主要是利用最佳化的方式，找出兩個影像之間的對應關係，這類的方法，主要被應用在全景影像的重建技術上[2]。一般而言，用於辨識人形之電腦影像技術依據所採用的影像資訊不同，

可區為以外觀為主之人形偵測(Appearance-Based Approach)以及以運動為主之人形偵測 (Motion-Based Approach)。

1.外觀為主之人形偵測

以外觀為主之人形偵測主要是利用人在單一影像中的外觀特徵，以偵測影像中人形的存在，此類人形偵測技術主要透過一些影像特徵點(Low-Level Features)來表示人之可能外觀，

經由標準圖形辨識(Pattern Recognition)的技術來達到人形偵測目的。此方法中，最直接的方式 即透過搜尋影像中人形特徵點，Broggi et al. [3] 利用人形在影像中所呈現之垂直邊對稱性，

來偵測影像中人形的位置與大小，圖二為所提出之垂直邊對稱性之計算過程。Hayfron [4] 則是偵測空間與時間軸上的對稱性(Spatio-Temporal Symmetry)(如圖三所示)來偵測人形的存在。

Wu 和 Yu [5] 提出一個結合 Boltzman 模型與 Markov 模型的二階統計模型( Two-Layer

Statistical Field Model)，可對人體不規則的外型作特徵的描述，由於引入機率分佈去衡量比對的相似性，當人體某部份重疊或遮蔽時，仍然可以成功地偵測到人體，除外，二階統計模型可以對影像中所觀察到的資料做更有彈性的描述。

圖二: 垂直邊對稱性計算流程圖圖三: 空間與時間軸上的對稱性示意圖

另一種方式則是將人形偵測的問題，轉換成樣板比對的問題，首先建構不同角度以及姿 勢的人形，接著透過樣板比對的方式來偵測人形存在，在人形外觀特徵的表示上，Gavrila et al.[6][7] 以及 Liu et al.[8] 利用人體的輪廓(Silhouette)或邊緣影像(Edge Image)來表示人形，

人形樣板皆被轉換成 DT(Distance Transform) 影像。 Oren [9] 為了更有效克服物體位移 (Translation)、比例(Scale)與旋轉(Orientation)變化，採用 Harr Vertical 與 Horizontal wavelets 計算出微波係數（Wavelet Coefficients）的人形特徵圖(如圖四所示)。於[10][11]研究中，旋轉強度之統計長條圖(Histogram of Oriented Gradients)(如圖五所示)被用來表示人形之特徵，

透過 SVM(Supported Vector Machine)機器學習的方式，所得之分類器(Classifier)可有效的表示此類特徵，並作為影像中之人形偵測。

圖四: 微波係數特徵圖

圖五: 旋轉強度之統計長條圖

圖六:Mohan et al. 人形偵測架構圖圖七:Edgelet 特徵點

然而上述之技術，主要想法是將人於影像中所呈現外觀視為一完整物體(Object)，經由比對的方式來達到人形偵測的目的。但這種方式的主要缺點在，其無法克服人形與影像中彼此遮蔽(Occlusion)的問題，因此目前有許多研究提出基於透過辨識人體各個部份肢體(Body Part) 的方式，最後根據人體幾何結構性(Geometric Property)或其他特性，來達到人形辨識的目的。

Mohan A. et al. [12] 提出了一個階層式架構分類器，Adaptive Combination of Classifiers(ACC)，

首先在影像中偵測身體各部位，最後再用一個 SVM 結合各個部位以辨識出人形，圖六為其 人形偵測之架構圖。D. Ramanan et al. [13] 提出一個以人體各部位為基礎的姿態模型，再針 對各種人體姿態在影像中比對是否有符合此人體姿態的人形，再藉由偵測每一張影像中的模型做到追蹤人形的功能。Wu 與 Nevatia [14]使用所謂的 Edgelet(如圖七所示)去表示人形部分 外觀，在偵測每個人體部分後，採用貝氏機率架構結合各分類器所偵測的結果。Leibe et al. [15]

則採用一個 Implicit Shape Model (ISM)去描述人形不同肢體與人體中心點的關係，透過投票的演算法來偵測人形。

2. 以運動為主之人形偵測

第二類為以運動為主之人形偵測，其主要運用原理是根據觀察人於影像中通常會造成影像變化。此類技術最直接的方式是去學習人形運動所造成之影像圖形(Pattern)，Viola et al. [16]

採用連續兩張影像之間上下左右位移影像差，作為人移動時之特徵，其計算方式如下方程式所示，而學習的過程則採用 Adaboost。

) ( − ₊₁

∆ abs I_t I_t U =abs(I_t −I_t₊₁↑) )

( − ₁←

=abs I_t I_t₊

L R=abs(I_t−I_t₊₁→) )

( − ₁↓

=abs I_t I_t₊

其中I_t與I_t₊₁分別表示於時間t與t+1連續兩張影像，而符號↑↓→←則表示往上下左右四各方向位移的運算元。Little 與 Boyd [17]則是經由計算連續兩張影像的光流(Optical Flow)，作為人運動時之特徵點，再經由運動週期性的分析來確定影像中人形之存在。於[18]所提出之方法中，則透過區域追蹤(Region Tracking)的方式，來找出不同時間點之對應區域，並採用時間延遲類神經網路(Time-Delay Neural Network)，來偵測所觀察區域之寬度是否呈現週期變化，

進而達到人形偵測的目的。

根據影像觀察得知，人於運動過程中的步伐(Gait)有很明顯的特徵，也因此於目前研究 中被廣泛應用來作為人之存在偵測。Cunado et al. [19] 對於步伐有詳細的描述與定義(如圖八 所示)，並提出一個鐘擺的模型(Pendulum Model)來描述人行走的過程。Niyogi 與 Adelson [20]

計算人行輪廓於 XYT 軸上的變化，進而分析出人行走時的步伐圖形，以作為步伐的偵測。Y.

Ran et al. [21][22]根據所提出雙鐘擺模型(Twin-Pendulum Model)(如圖九所示)去表示行人步伐，

接著透過影像處理的技術，找尋雙腳分開角度極大與極小的圖形，分別對應至圖九中標示紅色之兩各步伐圖示，作為分析週期之特徵。

圖八: 行走步伐描述圖九: 雙鐘擺模型

(二) 人體姿態辨識

人體姿態的視覺辨識，是我們在規劃「人性化電腦整合智慧型環境」裡提供使用者友善的「人機互動介面」與「行為分析」兩主題中最重要的一環。長久以來其也一直是電腦科學中活躍的研究主題之一。由於視覺感測器於現今電腦上的普及，也由於在日常生活中，人與人之間的溝通即主要依靠著語言、文字並適當結合手勢、身體姿勢與面部表情等來傳遞，因此視覺訊息在於我們的系統，可說是傳統語音與自然語言理解之外，最能有效補充人機介面效能的新方向。而另一方面，在智慧型環境中，人體姿態的辨識其最終的目標在輔助電腦對使用者行為作適當的理解與描述，乃至於近一步的預測與學習，故其更是全自動化服務系統中不可或缺的技術。隨著電腦影像技術的日趨成熟，投注於人體姿態辨識之研究也與日俱增，

人體姿態辨識主要的目的在於估算出各別身體軀幹於影像中的狀態，其中包含位置與角度，

以做為進一步分析行為動作感測的依據。關於分類與概述人體姿態辨識之技術發表於 [23][24][25]，姿態辨識的技術依據使用人體模型的差異，大致上可分為三類：

1、沒有明確形狀模型的二維方法：

此類方法通常沒有模型的觀念，僅直接對影像中的像素作低階影像處裡的演算，進而擷取出諸如：外觀、輪廓、顏色或其他重要肢體特徵等參考樣本，來判斷人體姿態或手勢，他們通常無法很精準描述我們期望的結果，但能迅速有效率的偵測出近似值。此類方法變化性繁複沒有一特性的共通點，因此較著名的一些影像方法：如 SNAKE 、 AAM (ACTIVE APPEARENCE MODEL)、SVM、PCA (PRINCIPLE COMPONENT ANALYSIS)或WAVELET

等都曾被使用於此範疇。

2、擁有明確形狀模型的二維方法：

為克服精準描述的上述問題，很多研究者傾向提供一明確人體模型來作為偵測的輔助工具，這方面的研究主要在追蹤身體每個區段於影像中的位置。利用事先形狀模型的知識可以提供我們人體運動上的限制資訊，減低搜尋空間與錯誤判斷率。在此人體模型通常藉由一些簡單的幾何形狀來表現人體各個部位，也可能僅使用一些簡單的線段或曲線來表達，然遮蔽的問題是其先天無法克服的缺陷。此類方法能於 [23] 中找到更詳細的說明。

3、三維方法：

三維的方法本質上類似於上個類別，需要使用者提供一明確三維模型來輔助辨識，程式透過模型 3D 投影與所擷取的影像來擷取匹配的人體或手勢姿態。然在此方法中利用多台相機追蹤人體，可以賦予事先我們對動作的知識。因此這類的演算法大部分包含幾項重要的步驟：人體模型的建立、特徵點對應的尋找與三維人體姿態的攫取與持續追蹤。O'Rourke [26] 與 Badler 給予這項研究一個主要的方法，他們將辨識系統分為一些重要的元件，如圖十所示。

圖十：三維演算法架構圖

(三) 使用者喜好與多感測器之客制化服務

『智慧型家庭系統』的研究領域包括系統架構設計、資訊家電、家庭看護等等，但是的目前的這些研究都是屬於被動的提供服務而不是主動的提供服務，並且目前這些研究的領域

在文檔中人性化電腦整合智慧型環境(3/3) (頁 7-13)

第一章、 計畫緣由

第一節 研究背景

第一章、計畫緣由

第一節研究背景