第一章、 計畫緣由
第一節 研究背景
(一) 無間隙人形追蹤系統
無間隙追蹤系統可同時整合了多個相機的觀測範圍,形成一組在廣大區域的目標偵 測系統,系統擴大的偵測範圍取決於同時設置並啟用的相機個數,相機個數越多可以創造出 越大的偵測範圍。無間隙追蹤系統的好處在於,應用此種影像系統在人性化電腦整合智慧型 環境中,可使系統偵測到環境中人形目標物的確切位置、姿態甚至運動軌跡,另外當目標進 行大範圍的運動,即使由一個相機的視野切換至另一個相機的視野當中,該系統仍然可以透 過辨識目標物特徵的機制,判定相鄰兩相機視野中的目標為同一個目標物,一般而言,廣大 區域的目標追蹤會有多個目標物需同時追蹤,無可避免的,更由於目標物間彼此會有交互重 疊的情形,因此問題的複雜度比單一目標物的追蹤要來的困難,需要發展不同於單一目標追 蹤的演算法方能達此目的。影像系統與其他感測系統最大的差異在於,能夠完整偵測人形在 環境中之位置與行為姿態,在多目標無間隙人形追蹤系統中,我們預期利用多個影像設備,
以涵蓋所有智慧型環境空間,並進一步有效偵測與追蹤多個人形在環境中之位置與運動軌跡,
整個系統架構如圖一所示。
圖一:多相機無間隙追蹤系統示意圖
多相機的影像系統中,最大的挑戰在於如何找出各相機影像之相對應關係,以重建出目 標物在運動空間中的影像。常用的技術大致上可分為兩類,一為傳統之校正技術,主要是計 算出相機之間的轉換關係[1],這種技術最大的缺點在於校正的過程十分繁雜。另一類的技術 主要是利用最佳化的方式,找出兩個影像之間的對應關係,這類的方法,主要被應用在全景 影像的重建技術上[2]。一般而言,用於辨識人形之電腦影像技術依據所採用的影像資訊不同,
可區為以外觀為主之人形偵測(Appearance-Based Approach)以及以運動為主之人形偵測 (Motion-Based Approach)。
1.外觀為主之人形偵測
以外觀為主之人形偵測主要是利用人在單一影像中的外觀特徵,以偵測影像中人形的存 在,此類人形偵測技術主要透過一些影像特徵點(Low-Level Features)來表示人之可能外觀,
經由標準圖形辨識(Pattern Recognition)的技術來達到人形偵測目的。此方法中,最直接的方式 即透過搜尋影像中人形特徵點,Broggi et al. [3] 利用人形在影像中所呈現之垂直邊對稱性,
來偵測影像中人形的位置與大小,圖二為所提出之垂直邊對稱性之計算過程。Hayfron [4] 則 是偵測空間與時間軸上的對稱性(Spatio-Temporal Symmetry)(如圖三所示)來偵測人形的存在。
Wu 和 Yu [5] 提出一個結合 Boltzman 模型與 Markov 模型的二階統計模型( Two-Layer
Statistical Field Model),可對人體不規則的外型作特徵的描述,由於引入機率分佈去衡量比對 的相似性,當人體某部份重疊或遮蔽時,仍然可以成功地偵測到人體,除外,二階統計模型 可以對影像中所觀察到的資料做更有彈性的描述。
圖二: 垂直邊對稱性計算流程圖 圖三: 空間與時間軸上的對稱性示意圖
另一種方式則是將人形偵測的問題,轉換成樣板比對的問題,首先建構不同角度以及姿 勢的人形,接著透過樣板比對的方式來偵測人形存在,在人形外觀特徵的表示上,Gavrila et al.[6][7] 以及 Liu et al.[8] 利用人體的輪廓(Silhouette)或邊緣影像(Edge Image)來表示人形,
人 形 樣 板 皆 被 轉 換 成 DT(Distance Transform) 影 像 。 Oren [9] 為 了 更 有 效 克 服 物 體 位 移 (Translation)、比例(Scale)與旋轉(Orientation)變化,採用 Harr Vertical 與 Horizontal wavelets 計算出微波係數(Wavelet Coefficients)的人形特徵圖(如圖四所示)。於[10][11]研究中,旋 轉強度之統計長條圖(Histogram of Oriented Gradients)(如圖五所示)被用來表示人形之特徵,
透過 SVM(Supported Vector Machine)機器學習的方式,所得之分類器(Classifier)可有效的表示 此類特徵,並作為影像中之人形偵測。
圖四: 微波係數特徵圖
圖五: 旋轉強度之統計長條圖
圖六:Mohan et al. 人形偵測架構圖 圖七:Edgelet 特徵點
然而上述之技術,主要想法是將人於影像中所呈現外觀視為一完整物體(Object),經由比 對的方式來達到人形偵測的目的。但這種方式的主要缺點在,其無法克服人形與影像中彼此 遮蔽(Occlusion)的問題,因此目前有許多研究提出基於透過辨識人體各個部份肢體(Body Part) 的方式,最後根據人體幾何結構性(Geometric Property)或其他特性,來達到人形辨識的目的。
Mohan A. et al. [12] 提出了一個階層式架構分類器,Adaptive Combination of Classifiers(ACC),
首先在影像中偵測身體各部位,最後再用一個 SVM 結合各個部位以辨識出人形,圖六為其 人形偵測之架構圖。D. Ramanan et al. [13] 提出一個以人體各部位為基礎的姿態模型,再針 對各種人體姿態在影像中比對是否有符合此人體姿態的人形,再藉由偵測每一張影像中的模 型做到追蹤人形的功能。Wu 與 Nevatia [14]使用所謂的 Edgelet(如圖七所示)去表示人形部分 外觀,在偵測每個人體部分後,採用貝氏機率架構結合各分類器所偵測的結果。Leibe et al. [15]
則採用一個 Implicit Shape Model (ISM)去描述人形不同肢體與人體中心點的關係,透過投票 的演算法來偵測人形。
2. 以運動為主之人形偵測
第二類為以運動為主之人形偵測,其主要運用原理是根據觀察人於影像中通常會造成影 像變化。此類技術最直接的方式是去學習人形運動所造成之影像圖形(Pattern),Viola et al. [16]
採用連續兩張影像之間上下左右位移影像差,作為人移動時之特徵,其計算方式如下方程式 所示,而學習的過程則採用 Adaboost。
) ( − +1
=
∆ abs It It U =abs(It −It+1↑) )
( − 1←
=abs It It+
L R=abs(It−It+1→) )
( − 1↓
=abs It It+
D
其中It與It+1分別表示於時間t與t+1連續兩張影像,而符號↑↓→←則表示往上下左右四各方 向位移的運算元。Little 與 Boyd [17]則是經由計算連續兩張影像的光流(Optical Flow),作為 人運動時之特徵點,再經由運動週期性的分析來確定影像中人形之存在。於[18]所提出之方 法中,則透過區域追蹤(Region Tracking)的方式,來找出不同時間點之對應區域,並採用時間 延遲類神經網路(Time-Delay Neural Network),來偵測所觀察區域之寬度是否呈現週期變化,
進而達到人形偵測的目的。
根據影像觀察得知,人於運動過程中的步伐(Gait)有很明顯的特徵,也因此於目前研究 中被廣泛應用來作為人之存在偵測。Cunado et al. [19] 對於步伐有詳細的描述與定義(如圖八 所示),並提出一個鐘擺的模型(Pendulum Model)來描述人行走的過程。Niyogi 與 Adelson [20]
計算人行輪廓於 XYT 軸上的變化,進而分析出人行走時的步伐圖形,以作為步伐的偵測。Y.
Ran et al. [21][22]根據所提出雙鐘擺模型(Twin-Pendulum Model)(如圖九所示)去表示行人步伐,
接著透過影像處理的技術,找尋雙腳分開角度極大與極小的圖形,分別對應至圖九中標示紅 色之兩各步伐圖示,作為分析週期之特徵。
圖八: 行走步伐描述 圖九: 雙鐘擺模型
(二) 人體姿態辨識
人體姿態的視覺辨識,是我們在規劃「人性化電腦整合智慧型環境」裡提供使用者友善 的「人機互動介面」與「行為分析」兩主題中最重要的一環。長久以來其也一直是電腦科學 中活躍的研究主題之一。由於視覺感測器於現今電腦上的普及,也由於在日常生活中,人與 人之間的溝通即主要依靠著語言、文字並適當結合手勢、身體姿勢與面部表情等來傳遞,因 此視覺訊息在於我們的系統,可說是傳統語音與自然語言理解之外,最能有效補充人機介面 效能的新方向。而另一方面,在智慧型環境中,人體姿態的辨識其最終的目標在輔助電腦對 使用者行為作適當的理解與描述,乃至於近一步的預測與學習,故其更是全自動化服務系統 中不可或缺的技術。隨著電腦影像技術的日趨成熟,投注於人體姿態辨識之研究也與日俱增,
人體姿態辨識主要的目的在於估算出各別身體軀幹於影像中的狀態,其中包含位置與角度,
以做為進一步分析行為動作感測的依據。關於分類與概述人體姿態辨識之技術發表於 [23][24][25],姿態辨識的技術依據使用人體模型的差異,大致上可分為三類:
1、沒有明確形狀模型的二維方法:
此類方法通常沒有模型的觀念,僅直接對影像中的像素作低階影像處裡的演算,進而擷 取出諸如:外觀、輪廓、顏色或其他重要肢體特徵等參考樣本,來判斷人體姿態或手勢,他 們通常無法很精準描述我們期望的結果,但能迅速有效率的偵測出近似值。此類方法變化性 繁 複 沒 有 一 特 性 的 共 通 點 , 因 此 較 著名 的 一 些 影 像 方 法 : 如 SNAKE 、 AAM (ACTIVE APPEARENCE MODEL)、SVM、PCA (PRINCIPLE COMPONENT ANALYSIS)或WAVELET
等都曾被使用於此範疇。
2、擁有明確形狀模型的二維方法:
為克服精準描述的上述問題,很多研究者傾向提供一明確人體模型來作為偵測的輔助工 具,這方面的研究主要在追蹤身體每個區段於影像中的位置。利用事先形狀模型的知識可以 提供我們人體運動上的限制資訊,減低搜尋空間與錯誤判斷率。在此人體模型通常藉由一些 簡單的幾何形狀來表現人體各個部位,也可能僅使用一些簡單的線段或曲線來表達,然遮蔽 的問題是其先天無法克服的缺陷。此類方法能於 [23] 中找到更詳細的說明。
3、三維方法:
三維的方法本質上類似於上個類別,需要使用者提供一明確三維模型來輔助辨識,程式 透過模型 3D 投影與所擷取的影像來擷取匹配的人體或手勢姿態。然在此方法中利用多台相 機追蹤人體,可以賦予事先我們對動作的知識。因此這類的演算法大部分包含幾項重要的步 驟:人體模型的建立、特徵點對應的尋找與三維人體姿態的攫取與持續追蹤。O'Rourke [26] 與 Badler 給予這項研究一個主要的方法,他們將辨識系統分為一些重要的元件,如圖十所示。
圖十:三維演算法架構圖
(三) 使用者喜好與多感測器之客制化服務
『智慧型家庭系統』的研究領域包括系統架構設計、資訊家電、家庭看護等等,但是的 目前的這些研究都是屬於被動的提供服務而不是主動的提供服務,並且目前這些研究的領域
『智慧型家庭系統』的研究領域包括系統架構設計、資訊家電、家庭看護等等,但是的 目前的這些研究都是屬於被動的提供服務而不是主動的提供服務,並且目前這些研究的領域