相關研究 - 擁擠環境中的人群偵測與追蹤

本章分為兩大部份，第一部分先介紹有關影像處理的背景知識，以及如何將這些技術應用至人群計數及人頭偵測方面。第二部份再介紹連續影像中，移動物體的追蹤的相關研究。

2.1 以灰階梯度為基礎的人頭偵測

如何偵測視訊或影像中人的位置，以及計算人的數量，是近年來國內外熱門的研究課題。其中人頭為最明顯且辨認性高的特徵，故常用來當作人所在位置的標的。底下我們就介紹幾種常見的人頭偵測方法，以及目前人頭偵測方法所遇到的問題。

在人頭偵測方面，常見的做法為利用頭髮及人臉顏色[1,4,10]與利用人頭的形狀[2,3,4,5,6,7,8,9]兩種方式。前者的做法相當直觀，先收集頭髮與人臉的顏色資訊，作為訓練資料建立起頭髮及皮膚的色彩模型(color model)[4,10]。並利用預先建立好的色彩模型，對於影像中的像素進行色彩相似度(likelihood)的計算，以色彩相似度高的地方認為是人頭。對這樣的做法來說，如何建立一個好的色彩模型是最重要的課題，色彩模型的好壞直接影響著偵測的準確度。故為了得到較好的色彩資訊，此方法對於環境的亮度非常敏感，若亮度不足，色彩的資訊不夠時，

將會影響到偵測的效果。

另一方面，由於此方法必須建立在影像中的人具有相同的膚色及髮色的假設之上，若有髮色或膚色與預先設定的色彩模型不同的人出現，即無法偵測出來。雖然可以建立多個不同髮色及膚色的模型來解決，但同時也增加了錯誤偵測的機率。並且對於人臉朝向不同的角度時，偵測的效果也會受到影響。如背對攝影鏡頭時，由於沒有人臉膚色的資訊，對於偵測來說將相當的不利。

而利用人頭邊緣的形狀當作特徵來進行偵測的方法，則是利用在 45 度俯角的攝影視角下，人頭的形狀通常為一直立的橢圓形(ellipse)[2,3,7]作為辨認人頭的特徵。做法為先利用灰階梯度(grey-level gradient，詳見附錄 A)或其他的邊緣偵測方式，尋找出物件的邊緣。再與一橢圓形的人頭模型進行比較，找出影像中邊緣形狀接近橢圓的區域，即認為是所謂的人頭。與利用顏色資訊的不同之處為，

人頭形狀的資訊不受髮色與膚色的影響(如圖 2.1)。並且不論人臉面向哪一個方向，人頭的形狀均是近似於橢圓形的，故也沒有人臉角度上的問題。除了橢圓的人頭模型之外，另外還有將肩膀的上緣一起考慮進去的Ω(omega)型人頭模型[8]。

圖 2.1 橢圓模型的人頭偵測

(引用自[3]，原始MPEG影片可於http://vision.stanford.edu/~birch/取得)

以形狀做為特徵來偵測人頭，雖然有不受人臉面向影響的優點，但卻容易因為相似形狀的物體，造成錯誤的偵測。或是因為附近背景與人頭的顏色相近，

灰階梯度所形成邊緣不夠明顯，導致無法符合預先設定的人頭模型，而沒有準確的偵測出來。雖然可以配合色彩的資訊來加以改善[3,4]，但是色彩模型對於不同髮色與膚色的問題仍然存在，所能增進的效果有限。

不論利用色彩或是形狀的資訊，由於攝影機角度的關係，在不同的位置上的人，在影像上將呈現出不同的大小。故如何對於不同大小的人頭，均能夠準確偵測，是一個重要的課題。

另一個困難的問題是，在以單一攝影機進行拍攝時，位置距離攝影機較遠的人，將會被位置距離攝影機較近的人所遮蔽，使其無法完整的出現在影像中，

稱為遮蔽效應(occlusion effect)。圖 2.2 為一個遮蔽效應的示意圖，A、B 為此空

度俯角所拍攝到的影像。由於距離攝影機的遠近不同，在影像中 B 的某個部份被 A 所遮蔽。遮蔽效應增加了人群計數與追蹤的困難性。若是少部分的遮蔽，

也許還有機會偵測出來，但若大部分，甚至是完全的遮蔽，就幾乎是無法偵測出來了。而在像車站這種擁擠的環境中，完全的遮蔽勢必是無法避免的。

Camera

B A A B

(a) (b) 圖 2.2 遮蔽效應示意圖

(a) 空間中攝影機與人的所在位置 (b)以 45 度俯角所拍攝到的影像

對於遮蔽效應，目前尚未有一個很好的解決方式。可能的解決方式，就是將攝影機的角度提高，來減少遮蔽效應的發生[11]。若將攝影機以垂直地面的方式進行攝影，則在一般情況下(空中無遮蔽物時)，均可有效的避免掉人頭被遮蔽的機會。

2.2 移動物體的追蹤

移動物體的追蹤(tracking)主要分成兩大部分。一為利用感測器(sensor)等方式，追蹤物體在 3D 空間的運動。另一即為利用一連串連續的影像中，追蹤物體在影像中的位置。而在本節及本論文中所討論的追蹤即為後者。

一個最簡單的追蹤機制為，選定一個欲追蹤的物體，紀錄此物體之特徵(如形狀、色彩等)，在下一張影像中，以這些特徵來追蹤此物體在影像中的位置。這樣的追蹤機制僅限於特定物體的追蹤，並且欲追蹤的物體個數為已知[1,2,3,4]。

但在許多情況，我們並無法事先得知物體的初始位置，也無法得知物體的個數有多少。在這種情況下，即必須先透過偵測的方式，來取得物體的初始位置以及個數，才有辦法對物體進行追蹤。由於追蹤的目標是經由偵測而來，故稱為以偵測為基礎的追蹤方式(detection-based tracking)[12]。

以偵測為基礎的追蹤機制如下所述：對於每一張影像，均當作獨立的影像來進行偵測。當偵測到欲追蹤的物體出現在影像中時，追蹤隨即開始。經由分析過去與現在的偵測結果之間的關係，來追蹤目標物在影像中的移動。這樣的追蹤機制較適合於場景中同時有多個物體在移動，並且個數及位置均為未知的狀況之下，如我們先前所提到的車站或機場等環境。

物體的追蹤與偵測的關係是相輔相成的。透過追蹤的結果，可以驗證偵測結果的正確性。例如一偵測出的物體，若無法在之後的偵測結果中找到相近的物體，即有可能為一錯誤的偵測。或是在某一張影像中，一個物體未被偵測出來，

但經由下一張影像的偵測結果，此物體仍可正確的被追蹤。圖 2.3 為一個以偵測為基礎的移動物體追蹤示意圖。

Miss detection

Initialization

False detection

i i+1 i+2 i+3 i+4 i+5

影像：

：偵測結果

圖 2.3 以偵測為基礎的移動物體追蹤

在移動物體的追蹤中，最常也最廣泛被利用的即為色彩的資訊[1,3,4]。其方式為將欲追蹤的物體的色彩資訊記錄下來，在下一張影像中尋找色彩最為接近的區域或是物體。以人的追蹤來說，就是利用其衣著的色彩。另外物體的外觀形狀與大小[1,2,3]，也是經常用來當作追蹤的依據，通常使用在物體的形狀改變並不劇烈的時候。但在多人的環境中，可能會有兩人穿著相似色彩的衣服，故衣著色彩的資訊並不足夠。同時人在移動時，形狀的改變也相當大，其大小也因為離攝影機的遠近而並非固定。由此可知，人的追蹤與其他物體相比，更加的複雜且困難。

在色彩與形狀的資訊之外，通常也會在加入移動路徑(trajectory)的分析[12]，

若物體的移動路徑不平滑(smooth)或是出現不合理的移動(如瞬間的移動距離過大)，則此路徑即有可能為一個錯誤的追蹤。在移動物體的追蹤中，移動路徑的分析是一個非常重要的動作，其提供了一個在物體本身的特徵之外，客觀的驗證追蹤正確性的方式。

在文檔中擁擠環境中的人群偵測與追蹤 (頁 15-20)