本章分為兩大部份,第一部分先介紹有關影像處理的背景知識,以及如何 將這些技術應用至人群計數及人頭偵測方面。第二部份再介紹連續影像中,移動 物體的追蹤的相關研究。
2.1 以灰階梯度為基礎的人頭偵測
如何偵測視訊或影像中人的位置,以及計算人的數量,是近年來國內外熱 門的研究課題。其中人頭為最明顯且辨認性高的特徵,故常用來當作人所在位置 的標的。底下我們就介紹幾種常見的人頭偵測方法,以及目前人頭偵測方法所遇 到的問題。
在人頭偵測方面,常見的做法為利用頭髮及人臉顏色[1,4,10]與利用人頭的 形狀[2,3,4,5,6,7,8,9]兩種方式。前者的做法相當直觀,先收集頭髮與人臉的顏色 資訊,作為訓練資料建立起頭髮及皮膚的色彩模型(color model)[4,10]。並利用預 先建立好的色彩模型,對於影像中的像素進行色彩相似度(likelihood)的計算,以 色彩相似度高的地方認為是人頭。對這樣的做法來說,如何建立一個好的色彩模 型是最重要的課題,色彩模型的好壞直接影響著偵測的準確度。故為了得到較好 的色彩資訊,此方法對於環境的亮度非常敏感,若亮度不足,色彩的資訊不夠時,
將會影響到偵測的效果。
另一方面,由於此方法必須建立在影像中的人具有相同的膚色及髮色的假 設之上,若有髮色或膚色與預先設定的色彩模型不同的人出現,即無法偵測出 來。雖然可以建立多個不同髮色及膚色的模型來解決,但同時也增加了錯誤偵測 的機率。並且對於人臉朝向不同的角度時,偵測的效果也會受到影響。如背對攝 影鏡頭時,由於沒有人臉膚色的資訊,對於偵測來說將相當的不利。
而利用人頭邊緣的形狀當作特徵來進行偵測的方法,則是利用在 45 度俯角 的攝影視角下,人頭的形狀通常為一直立的橢圓形(ellipse)[2,3,7]作為辨認人頭的 特徵。做法為先利用灰階梯度(grey-level gradient,詳見附錄 A)或其他的邊緣偵 測方式,尋找出物件的邊緣。再與一橢圓形的人頭模型進行比較,找出影像中邊 緣形狀接近橢圓的區域,即認為是所謂的人頭。與利用顏色資訊的不同之處為,
人頭形狀的資訊不受髮色與膚色的影響(如圖 2.1)。並且不論人臉面向哪一個方 向,人頭的形狀均是近似於橢圓形的,故也沒有人臉角度上的問題。除了橢圓的 人頭模型之外,另外還有將肩膀的上緣一起考慮進去的Ω(omega)型人頭模型[8]。
圖 2.1 橢圓模型的人頭偵測
(引用自[3],原始MPEG影片可於http://vision.stanford.edu/~birch/取得)
以形狀做為特徵來偵測人頭,雖然有不受人臉面向影響的優點,但卻容易 因為相似形狀的物體,造成錯誤的偵測。或是因為附近背景與人頭的顏色相近,
灰階梯度所形成邊緣不夠明顯,導致無法符合預先設定的人頭模型,而沒有準確 的偵測出來。雖然可以配合色彩的資訊來加以改善[3,4],但是色彩模型對於不同 髮色與膚色的問題仍然存在,所能增進的效果有限。
不論利用色彩或是形狀的資訊,由於攝影機角度的關係,在不同的位置上 的人,在影像上將呈現出不同的大小。故如何對於不同大小的人頭,均能夠準確 偵測,是一個重要的課題。
另一個困難的問題是,在以單一攝影機進行拍攝時,位置距離攝影機較遠 的人,將會被位置距離攝影機較近的人所遮蔽,使其無法完整的出現在影像中,
稱為遮蔽效應(occlusion effect)。圖 2.2 為一個遮蔽效應的示意圖,A、B 為此空
度俯角所拍攝到的影像。由於距離攝影機的遠近不同,在影像中 B 的某個部份 被 A 所遮蔽。遮蔽效應增加了人群計數與追蹤的困難性。若是少部分的遮蔽,
也許還有機會偵測出來,但若大部分,甚至是完全的遮蔽,就幾乎是無法偵測出 來了。而在像車站這種擁擠的環境中,完全的遮蔽勢必是無法避免的。
Camera
B A A B
(a) (b) 圖 2.2 遮蔽效應示意圖
(a) 空間中攝影機與人的所在位置 (b)以 45 度俯角所拍攝到的影像
對於遮蔽效應,目前尚未有一個很好的解決方式。可能的解決方式,就是 將攝影機的角度提高,來減少遮蔽效應的發生[11]。若將攝影機以垂直地面的方 式進行攝影,則在一般情況下(空中無遮蔽物時),均可有效的避免掉人頭被遮蔽 的機會。
2.2 移動物體的追蹤
移動物體的追蹤(tracking)主要分成兩大部分。一為利用感測器(sensor)等方 式,追蹤物體在 3D 空間的運動。另一即為利用一連串連續的影像中,追蹤物體 在影像中的位置。而在本節及本論文中所討論的追蹤即為後者。
一個最簡單的追蹤機制為,選定一個欲追蹤的物體,紀錄此物體之特徵(如形 狀、色彩等),在下一張影像中,以這些特徵來追蹤此物體在影像中的位置。這 樣的追蹤機制僅限於特定物體的追蹤,並且欲追蹤的物體個數為已知[1,2,3,4]。
但在許多情況,我們並無法事先得知物體的初始位置,也無法得知物體的個數有 多少。在這種情況下,即必須先透過偵測的方式,來取得物體的初始位置以及個 數,才有辦法對物體進行追蹤。由於追蹤的目標是經由偵測而來,故稱為以偵測 為基礎的追蹤方式(detection-based tracking)[12]。
以偵測為基礎的追蹤機制如下所述:對於每一張影像,均當作獨立的影像來 進行偵測。當偵測到欲追蹤的物體出現在影像中時,追蹤隨即開始。經由分析過 去與現在的偵測結果之間的關係,來追蹤目標物在影像中的移動。這樣的追蹤機 制較適合於場景中同時有多個物體在移動,並且個數及位置均為未知的狀況之 下,如我們先前所提到的車站或機場等環境。
物體的追蹤與偵測的關係是相輔相成的。透過追蹤的結果,可以驗證偵測結 果的正確性。例如一偵測出的物體,若無法在之後的偵測結果中找到相近的物 體,即有可能為一錯誤的偵測。或是在某一張影像中,一個物體未被偵測出來,
但經由下一張影像的偵測結果,此物體仍可正確的被追蹤。圖 2.3 為一個以偵測 為基礎的移動物體追蹤示意圖。
Miss detection
Initialization
False detection
i i+1 i+2 i+3 i+4 i+5
影像:
:偵測結果
圖 2.3 以偵測為基礎的移動物體追蹤
在移動物體的追蹤中,最常也最廣泛被利用的即為色彩的資訊[1,3,4]。其方 式為將欲追蹤的物體的色彩資訊記錄下來,在下一張影像中尋找色彩最為接近的 區域或是物體。以人的追蹤來說,就是利用其衣著的色彩。另外物體的外觀形狀 與大小[1,2,3],也是經常用來當作追蹤的依據,通常使用在物體的形狀改變並不 劇烈的時候。但在多人的環境中,可能會有兩人穿著相似色彩的衣服,故衣著色 彩的資訊並不足夠。同時人在移動時,形狀的改變也相當大,其大小也因為離攝 影機的遠近而並非固定。由此可知,人的追蹤與其他物體相比,更加的複雜且困 難。
在色彩與形狀的資訊之外,通常也會在加入移動路徑(trajectory)的分析[12],
若物體的移動路徑不平滑(smooth)或是出現不合理的移動(如瞬間的移動距離過 大),則此路徑即有可能為一個錯誤的追蹤。在移動物體的追蹤中,移動路徑的 分析是一個非常重要的動作,其提供了一個在物體本身的特徵之外,客觀的驗證 追蹤正確性的方式。