基於消失點的快速多攝影機人物定位

(1)

國立交通大學

資訊科學與工程研究所

碩士論文

基於消失點的快速多攝影機人物定位

Fast Multi-Camera People Localization Based on

Vanishing Points

研究生：周致傑

指導教授：莊仁輝教授

(2)

基於消失點的快速多攝影機人物定位

Fast Multi-Camera People Localization Based on Vanishing Points

研究生：周致傑 Student：Chih-Chieh Chou

指導教授：莊仁輝 Advisor：Jen-Hui Chuang

國立交通大學

資訊科學與工程研究所

碩士論文

A Thesis

Submitted to Institute of Computer Science and Engineering College of Computer Science

National Chiao Tung University in partial Fulfillment of the Requirements

for the Degree of Master

In

Computer Science June 2011

Hsinchu, Taiwan, Republic of China

(3)

i

基於消失點的快速多攝影機人物定位

學生：周致傑指導教授：莊仁輝博士

國立交通大學

資訊科學與工程研究所碩士班

摘要

以視覺為主軸的人物定位與追蹤，一直都是個重要的課題，而這些不斷發展的技術也提供了廣泛的應用。近年來，多人物定位追蹤方法不斷的被提出，目的都是為了要有效的處理遮蔽的問題，而本篇論文以垂直於地平面的消失點做為基礎，對前景區域建立二維樣本線段，並透過 cross ratio 對各視角之間的二維樣本線段進行分析過濾，以減少後續人物定位所要的計算。而我們的方法，也改善了 [11]所需的計算花費，進而達成即時的人物三維定位。實驗證明我們能在多人且遮蔽嚴重的環境下，改善了兩倍的效能，並且沒有犧牲正確性與定位之精確性。

(4)

ii

Fast Multi-Camera People Localization Based on

Vanishing Points

Student：Chih-Chieh Chou Advisor：Dr. Jen-Hui Chuang

Institute of Computer Science and Engineering

National Chiao Tung University

Abstract

People localization and tracking has always been an important and challenging task in vision-based surveillance system, and the growing number of developed techniques has created a lot of applications. In recent years, a lot of approaches of people localization and tracking have been proposed to deal with occlusion problem effectively using multiple cameras. In our work, algorithms based on vanishing points are adopted to generate 2D line samples of foreground images. The 2D line samples from all of views can be filtered via the proposed cross ratio analysis between each pair of cameras so that the computation of people localization can be reduced. In particular, the method developed in [11] is improved to achieve real-time 3D people localization. Experiment results show that our method can speed up the original method by two times without losing correctness and precision.

(5)

iii

致謝

本篇論文得以順利完成，最需要感謝的就是我的指導教授莊仁輝博士，在整個研究中無論是架構上，亦或是相關的技術層面，都要感謝老師不斷的指點迷津，讓我在研究的路上少走了很多冤枉路，也得以順利的完成我的研究。同時也感謝口試委員李嘉晃、顏嗣鈞以及賴飛羆教授所給予的諸多指教及意見，讓我見識到許多新的觀點，也使得論文內容得以更加充實。也特別感謝實驗室學長羅國華以及林泓宏，在我的研究之路上出現疑惑或是瓶頸時，都會提出許多珍貴的好建議，給予我許多的幫助，無論是在研究的方法上，或是程式的實作上，都多虧了你們的幫忙才能讓我得以順利過關。另外更要感謝實驗室的諸多好夥伴們，感謝同屆的國濂、怡廷、沛怡、暐晴，還有隔壁的好夥伴而益、智愷、士元、俊憲，在兩年的研究生涯中給予我諸多的幫助，以及許許多多的歡笑，讓研究所生活一路走來從不寂寞，而且順順利利的一起畢業。同時也感謝所有的學弟妹們，常常挪出時間來幫助我做實驗，沒有實驗室的你們，這篇論文也無法順利的完成。最後，感謝我的父母以及所有的家人朋友，你們一直以來的支持，讓我能夠順利完成研究所的學業，謹在此表達我最誠摯的謝意。

(6)

iv

第一章緒論 ... 1 1.1 研究背景與動機 ... 1 1.2 論文架構 ... 3 第二章影像前處理 ... 5 2.1 找尋消失點 ... 5 2.2 建立二維樣本線段 ... 6 2.3 在二維影像中的攝影機位置 ... 8 第三章跨攝影機的 Cross Ratio 驗證 ... 11 3.1 cross ratio 簡介 ... 13 3.2 cross ratio 階層式計算方式 ... 16 第四章三維模型重建與確認 ... 20 4.1... 20 4.2 返回前景確認 ... 21 4.3 人物定位 ... 22 第五章實驗結果 ... 23 第六章結論與未來展望 ... 38 6.1 總結 ... 38 6.2 未來展望 ... 38

(7)

v

圖目錄

圖 1.1 人物定位流程圖。 ... 3 圖 1.2 利用[12]的方法完成前景切割。 ... 4 圖 2.1 由四根校正桿在影像上的延伸線交點，可以得到垂直於地平面方向的消失點。... 6 圖 2.2 (a)(b)透過消失點對前景區域產生的樣本線段。 ... 7 圖 2.3 三維空間中的樣本線段對應。 ... 7 圖 2.4 在一號攝影機所見到的畫面中，其他攝影機的位置。 ... 8 圖 2.5 以攝影機 Ci為主要視角的畫面中，透過 P1′、L1以及 P2′、L2的連線交點，得到攝影機 Cj在此畫面中所在的位置。 ... 9 圖 2.6 此為三號攝影機的視角，兩黃色點表示所選定的校正桿頂端。 ... 10 圖 2.7 此為一號攝影機的視角，兩紅色線的交點，即為三號攝影機在一號攝影機的視角影像中所在之二維位置。 ... 10 圖 3.1 (a)中的紅色樣本線段與(b)中的綠色樣本線段彼此對應。 ... 11 圖 3.2 對應圖 2.2 的輸入影像，(a)中的紅色樣本線段與(b)中的綠色樣本線段並無彼此對應。 ... 12 圖 3.3 (a)為圖 3.1 中兩條樣本線段交錯的情形。(b)為圖 3.2 中兩條樣本線段交錯的情形。 ... 12 圖 3.4 說明圖 2.3 投影在二維空間計算 cross ratio 的型式。 ... 13 圖 3.5 二維視角中的樣本線段對應。 ... 15 圖 3.6 僅用 A, B’, C 與 D’即可計算 cross ratio(A, B, C, D)。 ... 15 圖 3.7 依不同狀況來進行階層式的 cross ratio 計算。 ... 16 圖 3.8 兩樣本線段之間沒有相交的情況示意圖。 ... 17 圖 3.9 兩樣本線段之間僅一端重合且互相包含的示意圖。 ... 18 圖 3.10 在現實場景中，圖 3.9 的樣本線段配對仍有可能代表同一人物。 ... 19 圖 3.11 (a)圖 3.1 之所有的二維樣本線段配對，進行三維樣本線段的重建後，其在監控區域的頂視圖，(b)只使用透過 cross ratio 過濾後的二維樣本線段配對(僅餘 6.3%)，進行三維樣本線段重建之頂視圖。 ... 19 圖 4.1 以二維樣本線段建構三維樣本線段的示意圖。 ... 21 圖 4.2 在圖 3.11(b)經過濾後，對應於人物的三維樣本線段。 ... 21 圖 4.3 圖 4.2 的三維樣本像段進行分群後，透過加權平均計算的主軸。 ... 22 圖 5.1 (a)為第一段影片中攝影機 1 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 23 圖 5.2 (a)為第一段影片中攝影機 2 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 23 圖 5.3 (a)為第一段影片中攝影機 3 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 24

(8)

vi 圖 5.4 (a)為第一段影片中攝影機 4 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 24 圖 5.5 每一條與實際的前景驗證過的人物軸線會群聚而集結出前景人物的雛形。 ………..………. 25 圖 5.6 從每一群的人物軸線集合找到各別的中心位置，即可對人物進行定位。 …………..………. 25 圖 5.7 第一段影片中，圖 5.1~圖 5.4 的攝影機畫面用外接長方體重繪的定位結果。 ... 26 圖 5.8 (a)為第二段影片中攝影機 1 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 28 圖 5.9 (a)為第二段影片中攝影機 2 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 28 圖 5.10 (a)為第二段影片中攝影機 3 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 29 圖 5.11 (a)為第二段影片中攝影機 4 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 29 圖 5.12 第二段影片中與實際前景對應驗證過的人物軸線。 ... 30 圖 5.13 第二段影片中從人物軸線集合的中心位置對人物進行定位。 ... 30 圖 5.14 第二段影片中，圖 5.8~圖 5.11 的攝影機畫面用外接長方體重繪的定位結果。 ... 31 圖 5.15 (a)為第三段影片中攝影機 1 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 33 圖 5.16 (a)為第三段影片中攝影機 2 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 33 圖 5.17 (a)為第三段影片中攝影機 3 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 34 圖 5.18 (a)為第三段影片中攝影機 4 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 ... 34 圖 5.19 第三段影片中與實際前景對應驗證過的人物軸線。 ... 35 圖 5.20 第三段影片中從人物軸線集合的中心位置對人物進行定位。 ... 35 圖 5.21 第三段影片中，圖 5.15~圖 5.18 的攝影機畫面用外接長方體重繪的定位結果。... 36

表目錄

表 5.1 第一段影片使用 cross ratio 分析後之結果比較。 ... 27 表 5.2 第二段影片使用 cross ratio 分析後之結果比較。 ... 32 表 5.3 第三段影片使用 cross ratio 分析後之結果比較。………37

(9)

1

第一章

緒論

1.

1.1 研究背景與動機

以視覺為主軸的人物定位與追蹤，一直都是個重要的課題，而這些不斷發展的技術也提供了廣泛的應用，特別是在監控產業這方面，對人物進行定位追蹤的需求更是龐大，不斷的在技術上力求發展。近年來，多種人物定位追蹤方法不斷的被提出，目的都是為了要解決遮蔽的問題。相關的研究中，可以分成使用單攝影機和多攝影機兩類，而過去的方法中，如同文獻[1,2,3,4]，多是採用單攝影機的方法，在[1]，使用位置和影像強度來建立人物模型，讓我們可以在灰階影像中，透過與目標物比對，達到人物追蹤的效果。在[2]中，色彩的資訊被用來建立人物模型，而一個人物模型由許多塊相似的色塊組合而成，則作者以貝氏架構(Bayesian framework)來處理追蹤時發生遮蔽的情況。在[3]中，透過粒子濾波器結合輪廓資訊被用來追蹤人的頭部。在[4]，粒子濾波器結合橢圓區域內的顏色直方圖，可以有效的處理局部遮蔽的情況。然而，以上這些方法在發生嚴重的人物遮蔽的情況下，定位和追蹤的效果都會大受影響。單攝影機無論是進行人物定位或追蹤，都受限於從單一畫面上所獲取的資訊來做分析，當有部分甚至嚴重遮蔽的情況發生時，將會很難處理人物定位追蹤的問題，也因此許多攝影機的方法被提出。不同於單攝影機的做法，佈置得宜的多攝影機避免了許多死角的位置，擷取從各個角度所拍攝的不同資訊，較有機會可以解決單攝影機所難以解決的嚴重遮蔽問題。也因此，許多以視覺為主軸的定位或追蹤的文獻，這幾年也開始趨向使用多攝影機。在[5]使用多重平面轉換(multiple homography)，和單層的平面轉換有所不同，能利用各個高度平面上的資訊建立三維的模型，使得對整個人物的形體、

(10)

2 身高都更能加以掌握。[6]在建立背景模組之後，使用平面投影轉換(homography) 矩陣將所找到的人物主軸投影至地平面做定位，並使用粒子濾波器達到追蹤的效果。在[7,8]中，作者提出的方法是用人的主軸來估計在影像中的立足點。此方法需要先把每一個獨立的個體從一群人之中分離出來，並計算每個人各別的主軸，來進行人物定位。然而此方法會因為嚴重的遮蔽，使得前景難以區分，以至於不易找到良好的人物主軸，影響在定位追蹤上的表現。[9,10]中，提出從多個參考平面上定位的方法，來追蹤被遮蔽住的人們。從不同的視角擷取出前景區域的資訊，透過投影再合併到各個參考平面上，產生人物在空間中占有的機率。透過來自不同視角中的這些機率統計，我們可以用圖形切割(graph cut)的演算法來找到人在每個畫面中的軌跡。此方法可以處理有密集人群的影像且效果很好，然而這種從多個視角蒐集資訊再對應到多個平面上的方法需要大量的計算，若是沒有特殊硬體的支援，並不適合用在即時處理的應用程式。多攝影機的方法中，必頇要在各個攝影機的同步調整與相互資訊的對應有所著墨，才能夠準確的提供正確的資訊，卻也因此造成運算相對較多，不易達成即時運算的處理。然而其中[11]所提出的方法，不同於[9,10]，採用透過垂直於地平面直線的消失點做為基礎，對前景區域建立樣本線段，並經由平面轉換將影像上的樣本線段投影到不同高度的參考平面來形成交點，而這些交點經連線後形成三維的樣本線段。再經由各個攝影機影像的前景資訊驗證過濾後，即對應於場景中人物的三維樣本線段。找出這些對應到場景中人物的三維樣本線段後，可再根據其聚集的特性，使用分群方式達成人物定位。然而，當場景中人物增加時，建立的三維樣本線段的數量將會大幅增加，而需要花費大量的運算。為了更有效率的處理這個問題，本篇論文將提出一套方法來有效減少需要做重建的三維樣本線段的數量，以提升[11]的速度，並維持定位結果的正確性。本篇論文的貢獻在於，可以即時且正確的對人物進行定位。利用cross ratio

(11)

3 的概念來進行分階段的分析，使得人物之間，因為彼此遮蔽而產生的不良樣本配對能夠排除。此一分層過濾的架構，大幅降低了人物定位時的運算負擔，也正是讓整體運算速度獲得提升的關鍵，也確保了能夠利用此方法進行即時的定位，且在快速之餘仍不會損失其正確性。

1.2 論文架構

本篇論文的目標在於從計算效率上改善現存的方法，對多個攝影機的影像做前置分析，免除後續多餘的運算，進而對整體的運算速度達到提升的效果，並維持相同的正確率。本節將簡單介紹整體方法的流程圖，其中(1)是[11]所採用的方法，(2)則是本篇論文所增加的改善方法，我們將對這些過程予以說明。圖 1.1 人物定位流程圖。

(12)

4 前景資訊的部份，我們採用[12]所提出的方法，如圖1.2，對不同視角的攝影機所取得的影片資料，找出前景區域，並找到每一個視角中垂直於地面方向直線之消失點。透過消失點所在的位置，對前景區域掃描，並取樣形成二維樣本線段。之後經由平面投影轉換的方式，找出每台攝影機各別在其他攝影機畫面中的對應位置，搭配先前所擷取的樣本線段，採取流程圖1.1中(2)的方式，即利用cross ratio 的概念來進行各個視角之間的交叉分析，也正是本篇論文的主要研究重點，如此一步一步從各對攝影機中的二維資訊進行過濾，主要是希望排除諸多不合理的樣本線段配對，只留下最接近真實場景的部分，使後續需要進行三維重建的計算量可以大量被減輕，進而實現即時的多人三維定位。而在三維模型重建的部分，我們透過平面投影轉換矩陣，將經過篩選的少數樣本線段投影到地平面上，再與攝影機的三維位置搭配計算，我們即可得知先前輸入的二維樣本線段配對，在三維空間中重建的樣貌，此時只要利用在三維空間中人物的樣本所擁有的性質進行過濾，即可重建出在實際場景中人物的三維位置，且可以明顯的看出由樣本線段堆疊出的人物雛形。將所有的樣本線段進行最終的分析，並透過分群運算後即可完成人物的定位。圖 1.2 利用[12]的方法完成前景切割。

(13)

5

第二章影像前處理

2. 本章將介紹如何取得二維樣本線段，以及在各視角影像中取得其他攝影機之位置。2.1節將介紹如何尋找垂直於地面直線的消失點，而2.2節說明如何利用該消失點對前景區域取得二維樣本線段，再進一步地由這些樣本線段建構成對應人物的三維樣本線段。2.3節會說明在各個攝影機之間，如何互相找尋彼此在二維畫面中的位置，建立攝影機之間的相對關係。

2.1 找尋消失點

因為透視投影的關係，三維空間中平行的線會在二維影像中交於一點，這種類型的交點稱之為消失點。在本篇論文中，我們先在場景中擺放四根垂直於地面的校正桿，以取得校正的基礎資訊，將每一個攝影機畫面中所見的校正桿加以延伸，產生的交點即為垂直於地面直線的消失點，如圖2.1所示。

(14)

6 圖 2.1 由四根校正桿在影像上的延伸線交點，可以得到垂直於地平面方向的消失點。

2.2 建立二維樣本線段

得到影像中前景區域資訊之後，我們由消失點出發，對前景區域進行取樣，若取得的二維樣本線段過短，則該線段將被排除。與其他文獻不同的部分，是我們並非以一個人物的主軸為概念，如圖2.2所示。也因此省去如[7]中需要使用前景資訊來計算主軸的處理時間，而只需要處理掃描線段上的資訊，因此節省大量的分析所需之時間。而以消失點為基礎的好處，在於由任兩張影像之消失點所產生的一對掃描線，所重建的三維樣本線段本身就具有垂直於地面的特性，如圖2.3 中A、B、C、D點連線上的線段 BC ，較能與直立行走的人物符合。

(15)

7 (a)

(b)

圖 2.2 (a)(b)透過消失點對前景區域產生的樣本線段。

(16)

8

2.3 在二維影像中的攝影機位置

為了進行後續的cross ratio分析，我們需要估計各視角影像中其他攝影機的位置。例如以1號攝影機(C1)的畫面來說明，我們的目標是估計出其他攝影機(C2, C3, C4)在1號畫面中的位置。我們的攝影機所見的二維影像將如同圖2.4所示。圖 2.4 在一號攝影機所見到的畫面中，其他攝影機的位置。 參考圖 2.5，假設我們以攝影機 i 的畫面為主，把攝影機 j 畫面中的標竿頂端標 示為 P1 、P2，則藉由攝影機 j 對地面的平面投影轉換，以及地面對攝影機 i 的平 面投影轉換做運算，即可得到 P1、P2在攝影機 i 畫面上所對應的投影座標 P1′、 P2′，而原本攝影機 i 畫面中的兩個校正桿頂端定為 L1、L2，分別將 P1′、L1兩點相連得到P L₁ ₁，以及 P2′、L2兩點連線得到P L2 2，這兩條線所產生的交點，即是 在攝影機 i 的畫面中攝影機 j 所在的位置。

(17)

9 圖 2.5 以攝影機 Ci為主要視角的畫面中，透過 P1′、L1以及 P2′、L2的連線交點，得 到攝影機 Cj在此畫面中所在的位置。而實際的情形就如圖2.6及圖2.7所示：圖2.6為攝影機三號所見到的畫面，我們選定其中兩個校正桿(以黃色點作標示)，而這兩個校正桿在透過平面投影轉換到一號攝影機的畫面後，如圖2.7所示。兩黃色點分別與一號攝影機中對應的校正桿頂端連線，所產生兩條直線的交點即三號攝影機於一號攝影機視角中的位置。運用同樣方法，我們即可找到各視角影像中其他攝影機的二維位置。而下一章我們將說明如何藉由攝影機的二維位置，對圖2.3中的三維樣本線段進行cross ratio 的分析。

(18)

10

圖 2.6 此為三號攝影機的視角，兩黃色點表示所選定的校正桿頂端。

圖 2.7 此為一號攝影機的視角，兩紅色線的交點，即為三號攝影機在一號攝影機的視角影像中所在之二維位置。

(19)

11

第三章跨攝影機的 Cross Ratio 驗證

3. 此章節是本篇論文的主要重點，由於每對來自不同視角影像的二維樣本線段，都可以被重建成三維的樣本線段，在經過適當的過濾後會對應於場景中的人物。然而將所有的配對都建成三維樣本線段將會使得後續的運算變得相當耗時，因此本章的目標是將不正確的二維樣本線段配對加以過濾，減少後續所建構錯誤的三維樣本線段之數量，並希望在人物互相遮蔽的情況下仍可保留所有正確的樣本配對，以重建出正確的三維樣本線段。如圖 3.1(a)的紅色樣本線段和圖 3.1(b)中的綠色樣本線段，其實來自相同的前景區域，所以這一組樣本線段的配對應被予以保留。而圖 3.2(a)的紅色樣本線段和圖 3.2(b)中的綠色樣本線段，則是來自不同攝影機畫面的樣本線段，這一組樣本線段配對其實並不是來自相同的前景區域，對於之後的人物定位將會重建出錯誤的三維樣本線段，因此需要被濾除。我們將 圖 3.1 中紅綠兩條樣本線段，根據圖 2.3 的概念，繪於圖 3.3(a)中，可以發現 A、 B 兩點很靠近，且 C、D 兩點也很靠近，代表經由這兩條樣本線段所重建出的三 維樣本線段BC是正確的，同樣的，將圖 3.2 兩樣本線段繪於圖 3.3(b)中，則會發 現 A、B 兩點相距很遠，且 C、D 兩點也很遠，則經由這兩條樣本線段重建出三 維樣本線段會是錯誤的。 (a) (b) 圖 3.1 (a)中的紅色樣本線段與(b)中的綠色樣本線段彼此對應。

(20)

12 (a) (b) 圖3.2 對應圖2.2的輸入影像，(a)中的紅色樣本線段與(b)中的綠色樣本線段並無彼此對應。 (a) (b) 圖 3.3 (a)為圖 3.1 中兩條樣本線段交錯的情形 (b)為圖 3.2 中兩條樣本線段交錯的情形。 從圖 3.1 和圖 3.2 中的樣本線段配對所建立的三維樣本線段 A、B、C、D 連 線，我們即可根據AC與BD兩線段的交疊關係判斷此三維樣本線段是否正確，但若是能在二維影像上就能夠加以判斷，就不需要進行三維樣本線段的重建。本章將會在 3.1 節中介紹 cross ratio 的概念與運算方式，以及如何應用在二維的影像上，在計算上述兩線段 cross ratio 的過程中，就過濾掉許多不適合的樣本線段配對。一旦樣本線段配對的數量減少，之後的三維人物定位所需的時間也就可被

(21)

13 大幅的降低。3.2 節則是提出階層式的計算流程，來因應樣本線段的配對在利用 cross ratio 做分析時可能會遇到的不同情形，以進一步提升計算速度。

3.1 cross ratio 簡介

為了判斷圖3.3中樣本線段配對的好壞，cross ratio是可以對所有可能的二維樣本線段配對進行過濾的主要工具，其公式如下：



 





 



( , , , ) OA OB OC OD CrossRatio A B C D OB OC OA OD      (1) 而可由圖3.4來做說明之。(1)中每一項的大小各代表兩向量所夾的三角形面積， 其中O為空間中任一點，我們依照同一直線上 AC 與BD四點的關係訂定cross ratio，其意義在於若AC 與BD近乎重合時，此比值會非常接近0，如圖3.3(a)所示。反之則會依照線段交疊情形的不同，而有大小正負之分。圖 3.4 說明圖 2.3 投影在二維空間計算 cross ratio 的型式。

(22)

14 若是從二維的影像中就能夠判斷配對的好壞，則我們就不需要進行三維樣本線段的重建。且因為cross ratio的透視投影不變性，我們可以對於影像中的人物樣本線段做類似於圖3.4的cross ratio分析。例如圖3.5中，黃色衣服的目標人物身上有一條紅色樣本線段，而我們從另一個視角中，可得到來自同一人物的綠色樣本線段，並透過平面轉換投影到此一畫面中，將綠色線段投影在地平面上的兩端點B D' '_{，與其來源攝影機在此畫面中的二維位置做連線，則會在紅色線段的沿} 線上產生交點BD_{，而我們可以透過線段上的A、B、C、D四個交點，得到此一} 樣本線段配對的cross ratio值。然而，實際上並不需要計算B、D的位置，因為我 們可以透過圖3.6以及下列的推導，得知兩者是等價的。



 





OA OBOB OC

 

OC ODOA OD



    (2) OAB OCD OBC OAD  (3)





1 3 2 1 2 3 sin sin sin sin OA OB OC OD OB OC OC OD          (4)



1 3



2 1 2 3 sin sin sin sin          (5)





' ' 1 3 ' ' 2 1 2 3 sin sin sin sin OA OB OC OD OB OC OC OD          (6) ' ' ' ' OAB OCD OB C OAD  (7)



 





 



' ' ' ' OA O OC O OB OC O B D D A O      (8)

(23)

15

圖 3.5 二維視角中的樣本線段對應。

圖3.6 僅用A, B’, C與D’即可計算cross ratio(A, B, C, D)。

藉由上述(2)~(8)推導的結果，我們也將公式(1)化成(8)的型式，其中，透過向量外積所計算的三角形面積，因為三角形等高可以化簡成底邊，也代表將兩條樣本 線段 AC 、B D' '在二維平面上的cross ratio運算關係，會等同於 AC 、BD兩線段 之間的關係。因此，可用(8)的公式就可以免除運算B、D之二維位置，若是兩條 樣本線段重合度很高，則cross ratio會很接近0，也代表兩條樣本線段來源很有可

(24)

16 能是同一個前景人物。而我們不需得知兩樣本線段之間的對應關係，即可以cross ratio過濾不正確的樣本線段配對。

3.2 cross ratio 階層式計算方式

透過3.1節所述的方法，我們建立一套透過cross ratio來分析過濾每一對樣本線段，找出不可能在實際場景中對應到同一個人物的配對，予以排除。我們可以圖 3.7 依不同狀況來進行階層式的 cross ratio 計算。用流程圖3.7來說明階層過濾的方式。圖中共有三種不同的終止狀態，包括 “錯誤/不良對應”、 “很有可代表同一目標人物” 和“完美對應”等情況。其中為了方便解釋，我們將cross ratio的公式改用△bb、△tt、△tb1和△tb2來表示，對應如公式(9)。



 





 



1 2

'

tt bb tb tb

B

D

B

OA O

OC O

CrossRatio

O

C

O

A O

D



_{ }



 



(9)

(25)

17 而流程圖中的每一個情況，都可以對應到我們所使用 cross ratio 的計算，而經由計算 cross ratio 的分子、分母的過程之中，即可對所有二維層面上的樣本線段兩兩之間的關係有所了解，並對其做出判斷，而不需要做完整的計算。透過這種分層過濾的方法，我們可以有效率的得知哪些是我們所需要的二維樣本線段。 在判斷1之中，所對應的情形如圖3.8，當 AC 、BD並沒有相交時，△tb1和 △tb2兩個在分母的值，都有可能為負數。所以只要cross ratio的分母有一個為負數，就可以從流程圖中判斷這兩條樣本線段在現實場景中並沒有相交，也代表兩者來自同一個人物的可能性是很低的，被分配到“錯誤/不良對應”的樣本線段也就不需要再多做分析。在本論文的實驗中，此項判斷經常可以濾除大約一半的二維樣本線段配對。圖 3.8 兩樣本線段之間沒有相交的情況示意圖。

(26)

18

在判斷2中，考慮的另一種特殊情況是當 AC 、BD的其中一端發生重合，且某一條完全包含了另一條樣本線段，如圖3.9及圖3.10所示。而這種情況也使得 cross ratio的分子△tt、△bb會有一者為0，導致整體cross ratio的值為0，但其實兩

樣本線段的配對在實際場景中，可能是因為遮蔽的關係才導致此一結果，如同仍然存在兩樣本線段代表同一人物軸線的可能性，因此我們將僅有一端重合的樣本線段配對送到判斷4，透過給定的cross ratio標準來進行過濾。而判斷3則是對一端重合的樣本線段進行更進一步的判斷，若是兩端皆重合，則代表兩個樣本線段確實來自同一個人物。然而此一流程圖中，一端重合以及兩端重合的現象是非常罕見的，絕大多數的樣本線段配對都是根據前述的判斷來進行過濾。圖 3.9 兩樣本線段之間僅一端重合且互相包含的示意圖。

(27)

19 圖 3.10 在現實場景中，圖 3.9 的樣本線段配對仍有可能代表同一人物。透過上述cross ratio的分子、分母之間的階層式分析運算，我們得以快速且有效的將大部分不適合的樣本線段配對加以排除，只留下很可能對應到真實人物的三維樣本線段。由於採用分層的過濾，實際上僅有少量的樣本線段配對需要進行完整的cross ratio運算。而經過濾後僅有少數的樣本線段配對會建成三維的樣本線段，如圖3.11所示，這也將有效提升後續的定位速度。而在第五章的實驗結果中，也將輔以數據來說明分析的成效。 (a) (b) 圖 3.11 (a)圖 3.1 之所有的二維樣本線段配對，進行三維樣本線段的重建後，其在監控區域的頂視圖，(b)只使用透過 cross ratio 過濾後的二維樣本線段配對(僅餘 6.3%)，進行三維樣本線段重建之頂視圖。

(28)

20

第四章三維模型重建與確認

4. 本章簡述[11]的作法，由於我們已知四個校正桿在實際場景中的位置，又擁有每個攝影機畫面中，四個校正桿在二維影像上的座標資訊，透過這四組對應的點對運算之後，即可找到每一個畫面對於地平面的平面投影轉換(homography)矩陣。

4.1 利用幾何特性之過濾

在經過第三章的 cross ratio 分析過濾之後，我們可以得到經過篩選後的二維樣本線段配對結果，並依此將來自各台攝影機中的二維樣本線段都透過平面投影轉換的運算投影到地平面，其中每一條樣本線段與攝影機在三維空間中的位置會連線形成一個三角平面，如圖 4.1 所示。假設場景中僅有一個目標時，經由至少兩個攝影機的三角平面在空間中的交線，就可以建構產生在三維空間中可能代表該目標的三維樣本線段。然而只要每兩條樣本線段的配對，就可以形成兩個三角平面產生交線，因此，若是在前一個步驟未能夠對這些樣本線段的配對進行篩選，之後將產生眾多在三維空間中的交線。特別是當場景中人物增加甚至產生遮蔽的情況時，計算每一個三角平面之間的交線，再將諸多交線進行如下節所討論的與原前景對照所進行的過濾，將會耗費大量的計算時間。而[11]透過三維空間中的幾何特性，若是這些交線有下列異常之幾何特性，則代表這些交線是不合理的狀況，可以藉此加以排除。 1.交線的底部懸浮在空中 2.交線長度過短 3.交線頂端的高度過低，無法代表一個人該有的高度

(29)

21 圖 4.1 以二維樣本線段建構三維樣本線段的示意圖。

4.2 返回前景確認

當我們透過幾何規則過濾之後，為了確認在前景之中確實有包含三維樣本線段，我們把在各個參考平面上的交點反投影回影像上。當人物確實出現在監控場景時，這些反投影的點就會被包含在前景區域中。舉例來說，若是影像上所有經由三維樣本線段反投影的點，都包含在前景區域之中，則平均前景包含率 (Average Foreground Coverage Rate)就會是100%，如同圖4.1中綠色的交線，都被包含在各個視角的前景區域。而平均前景包含率過低的三維樣本線段，如同圖4.1 中的灰色交線，並不包含在各視角的前景區域中，此時[11]將根據一個標準予以濾除，例如圖3.11(b)經過濾後的三維樣本線段如圖4.2所示。

(30)

22

4.3 人物定位

過濾後的三維樣本線段，我們可以看出其在監控區域中以一群一群的型式出現，因此可以對每一個三維樣本線段的座標資訊進行分群。得到分群的三維樣本線段之後，再將所有視角影像中每一個群集的軸線頂點座標進行加權平均的計算，即可找出單獨代表人物的主軸，如圖 4.3 所示，並由此得到人物之高度及定位的位置。圖 4.3 由圖 4.2 的三維樣本像段進行分群後，透過加權平均計算的主軸。

(31)

23

第五章

實驗結果

5. 本章將透過第三章所述的方法，使用三段實際的實驗影片，並透過數據統計來證實前面章節所提的方法，在整體定位的速度上能夠有所提升，而不損失其正確性。其中實驗影片解析度為360×240，以frame rate為30的連續圖片來進行實驗。實驗所用的硬體規格，CPU為2.53GHz，RAM為4GB，作業系統採用Windows 7。第一段影片中的拍攝場景在室內進行，一共使用了四台攝影機的畫面，影片中出現人物總共9人，圖5.1至圖5.4是四台攝影機同時拍攝的場景，以及前景建立後用消失點劃分出來的樣本線段。樣本線段之間的間隔為4個單位。以下範例圖片是採用圖片編號12451的畫面。 (a) (b) 圖 5.1 (a)為第一段影片中攝影機 1 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 (a) (b) 圖 5.2 (a)為第一段影片中攝影機 2 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。

(32)

24 (a) (b) 圖 5.3 (a)為第一段影片中攝影機 3 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 (a) (b) 圖 5.4 (a)為第一段影片中攝影機 4 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。這些樣本線段先經過第二章所說明的方法，計算出攝影機彼此在對方畫面中的二維位置，接著進行三章所介紹的分析，其中我們決定cross ratio的值以0為基準，保留在±0.01差距的樣本線段配對，來認定為對定位有所幫助的樣本線段配對。圖5.5所顯示的這些配對，是經過第四章所述的重建與確認之後，所獲得的人物軸線，再對於群集的線段，依照4.3節的作法，找到該人物的身高及定位，如圖5.6所示。而各個定位完成的人物我們也以外接長方體在圖5.1~圖5.4的攝影機畫面中做標示，如圖5.7所示。

(33)

25

圖 5.5 每一條與實際的前景驗證過的人物軸線會群聚而集結出前景人物的雛形。

(34)

26

(35)

27 此一場景在透過cross ratio分析後所過濾的程度為93.7%，僅留下很少部分的二維樣本線段配對進行三維模組的重建，並利用這些資訊對場景中的人物加以定位，並使用實際場景資訊(ground truth)來比對定位結果的正確性，我們與沒有經過cross ratio分析的方法來比較兩者在各方面的差異性，如表5.1所示。其中，miss detection表示前景中實際上有該人物，但未能偵測的，false alarm表示定位處並沒有人物存在該處但卻錯誤判定為有人。recall表示正確率，precision表示偵測準確率，而error average則表示定位結果與實際場景資訊的誤差，以公分(cm)為單位。由數據可以看出，無論是在正確度和準確率上都有所提升，且速度上的提升更是顯著的改善，確立此方法能夠即時的定位。然而，為了確認此本篇論文所提出的方法在遮蔽相當嚴重時仍可以有效的進行人物定位，在下一段實驗影片中將提升人物遮蔽的程度。表 5.1 第一段影片使用 cross ratio 分析後之結果比較。 frames 數量正確偵測 miss detection false alarm

recall precision error avg

FPS avg 使用 CR 分析 691 5985 234 480 0.9623 0.9257 10.88 128.64

(36)

28 第二段影片和前一段影片的拍攝場景相同，一樣在室內進行，使用四台攝影機，影片中出現人物總共9人，是四台攝影機同時拍攝的場景，以及前景建立後用消失點劃分出來的樣本線段。與前者不同之處在於人物是隨機進行漫步，所以發生人物遮蔽的情形會更加嚴重，也藉此測試此方法在嚴重遮蔽時的過濾效果以及正確性。以下範例圖片圖5.8~圖5.11為採用圖片編號16616的畫面。 (a) (b) 圖 5.8 (a)為第二段影片中攝影機 1 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。 (a) (b) 圖 5.9 (a)為第二段影片中攝影機 2 號的畫面，(b)為透過消失點來對前景區域做取樣的樣本線段。

(37)

29 (a) (b) 圖 5.10 (a)為第二段影片中攝影機 3 號的畫面， (b)為透過消失點來對前景區域做取樣的樣本線段。 (a) (b) 圖 5.11 (a)為第二段影片中攝影機 4 號的畫面， (b)為透過消失點來對前景區域做取樣的樣本線段。

利用這些樣本線段進行cross ratio分析，其中cross ratio的值我們仍以0為基準，保留±0.01差距的樣本線段配對，來認定是對定位有幫助的二維樣本線段配對，重建三維模型，如圖5.12即為第二段影片中，利用第四章所述方法找出的人物軸線，以及圖5.13所顯示的是透過4.3節所述的方法來進行人物定位。圖5.14則是第二段影片中圖5.8~圖5.11的攝影機畫面，將所定位的人物用外接長方體標示的結果。

(38)

30

圖 5.12 第二段影片中與實際前景對應驗證過的人物軸線。

(39)

31

(40)

32 此一場景的過濾程度為92.3%，也是相當大量的過濾。同樣的，我們與未經過cross ratio分析的方法來做比較，如表5.2所示。透過表格可以看出，整體的方法成效都有所提升，速度上的提升更是顯著，代表此一分析方法即使是在人物嚴重遮蔽的時候，仍然能提供有效的過濾，使定位結果更佳準確且更為快速。在下一段實驗影片中，我們將再增加遮蔽的複雜度來進行實驗。表 5.2 第二段影片使用 cross ratio 分析後之結果比較。 frames 數量正確偵測 miss detection false alarm

FPS avg 使用 CR 分析 775 6722 262 427 0.9624 0.9402 9.53 121.01

(41)

33 為了增加人物的複雜度，此段影片中採用上一段影片的架構，並再增加人數，使遮蔽的情況更加嚴重。本實驗影片使用四台攝影機，出現人物總共 12 人，在偵測範圍內隨機進行漫步。以下範例圖片圖 5.18~圖 5.21 採用圖片編號 19312 的畫面，是四台攝影機同時拍攝的場景，以及前景建立後用消失點劃分出來的樣本線段。 (a) (b) 圖 5.15 (a)為第三段影片中攝影機 1 號的畫面， (b)為透過消失點來對前景區域做取樣的樣本線段。 (a) (b) 圖 5.16 (a)為第三段影片中攝影機 2 號的畫面， (b)為透過消失點來對前景區域做取樣的樣本線段。

(42)

34 (a) (b) 圖 5.17 (a)為第三段影片中攝影機 3 號的畫面， (b)為透過消失點來對前景區域做取樣的樣本線段。 (a) (b) 圖 5.18 (a)為第三段影片中攝影機 4 號的畫面， (b)為透過消失點來對前景區域做取樣的樣本線段。

(43)

35

圖 5.19 第三段影片中與實際前景對應驗證過的人物軸線。

(44)

36

(45)

37 此一場景的過濾程度為93.3%，也是把相當大量的樣本線段配對進行了過濾。同樣的，我們與未經過cross ratio分析的方法來做比較，如表5.3所示。在定位結果的正確度上，透過分析過後的定位結果仍然有較佳的表現。在運算的速度上，也由於人物彼此之間遮蔽的情形相當嚴重，並不如第一、第二段影片的實驗結果那麼好。然而，在使用cross ratio分析以及未使用兩個方法的比較上，基於同樣的比較基礎，本實驗在定位過程中所使用的參數採用原始的數據，若是經過持續的參數調整後，也許誤判的情況也能夠獲得改善。而我們也從以上的實驗結果可以發現，透過cross ratio的過濾，的確可以在不失正確性的前提下，將定位的速度大幅提升。表 5.3 第三段影片使用 cross ratio 分析後之結果比較。 frames 數量正確偵測 miss detection false alarm

FPS avg 使用 CR 分析 271 3094 158 398 0.9514 0.886 10.33 85.36

(46)

38

第六章

結論與未來展望

6.1 總結

本篇論文所提出的方法，可以即時且正確的對人物進行定位，首先我們以消失點為基礎從影像上取得二維樣本線段，並透過平面轉換矩陣估計出各台攝影機的二維位置，再將所有的二維樣本線段配對，利用cross ratio的運算來進行階層式的分析過濾，使得因人物彼此遮蔽所產生的不良樣本線段配對，能夠藉此加以排除。然而，此一階層式過濾的架構，也是能夠讓整體計算速度大幅提升的關鍵，僅僅在第一個層次，就可以過濾掉約50%的樣本線段，而不需要多耗費時間做完整的cross ratio計算。實驗結果顯示，在經過cross ratio分析的過濾之後，至少92% 以上的樣本線段配對可以被排除掉，大幅減少之後定位的運算負擔，使得FPS大幅提升，確保能夠利用此方法進行即時的定位，而且在快速之餘仍不會損失其正確性。

6.2 未來展望

本論文的特點在於只需透過二維影像中的樣本線段資訊，就可以達到大幅過濾的效果，減少後續步驟的資料量，以達到即時人物定位之目的。然而，隨著監控場景的更換，亦或是畫面中光影的變化，都會造成畫面中人物定位的結果產生影響，而需要因應不同的畫面進行細部參數上的調整，才能夠達到最佳的定位效果。未來希望能夠找到一組在面對大部分場景都能夠適用的參數，使本篇論文所提的方法能夠更加廣泛的應用。而這些即時快速定位的結果，也可以搭配其他相關文獻的追蹤方法，迅速的提供定位的資訊，來進行對場景中人物的後續追蹤，應該能夠達到更好的追蹤效果。

(47)

39

參考文獻

[1] Q. Cai and J.K. Aggarwal, “Tracking Human Motion in Structured Environments Using a Distributed-Camera System,” IEEE Trans. Pattern Recognition and

Machine Intelligence, vol. 21, no. 11, pp. 1241-1247, Nov. 1999.

[2] S. Khan and M. Shah, “Tracking People in Presence of Occlusion,” Asian

Conference on Computer Vision, pp. 1132-1137, 2000.

[3] M. Isard, and A. Blake, “Condensation—conditional density propagation for visual tracking,” International Journal of Computer Vision, vol. 29, no. 1, pp. 5-28, 1998.

[4] K. Nummiaro, E. Koller-Meier, and L. V. Gool, “An Adaptive Color-Based Particle Filter,” Image and Vision Computing, vol. 21, no. 1, pp. 99-110, 2002. [5] M. Taj and A. Cavallaro, ” Multi-view Multi-object Detection and Tracking”

Computer Vision Studies in Computational Intelligence, vol. 285, pp. 263-280,

2010.

[6] K. Kim and L. S. Davis, “Object Detection and Tracking for Intelligent Video Surveillance” Multimedia Analysis, Processing And Communications Studies in

Computational Intelligence, vol. 346, pp. 265-288, 2011.

[7] W. M. Hu, T. N. Tan, L. Wang, and S. J. Maybank,” Principal Axis-Based Correspondence between Multiple Cameras for People Tracking” IEEE Trans.

Pattern Recognition and Machine Intelligence, vol. 28, no. 4, pp .663-671, Apr.

2006

[8] W. M. Hu, T. N. Tan, L. Wang, and S. J. Maybank, “A Survey on Visual Surveillance of Object Motion and Behaviors” IEEE Trans. Systems, Man and

Cybernetics, Part C: Applications and Reviews, vol. 34, no. 3, pp. 334-352, 2004.

[9] S. Ali and M. Shah, “Floor Fields for Tracking in High Density Crowd Scenes”

(48)

40

[10] S. Ali and M. Shah ,” Tracking Multiple Occluding People by Localizing on Multiple Scene Planes” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 31, no. 3, pp. 505-519, Mar. 2009.

[11] K.-H. Lo and J.-H. Chuang, “Vanishing Point-Based Line Sampling For Efficient Axis-Based People Localization” IEEE International Conference on Image

Processing, pp. 11-14, Sep. 2011.

[12] H.-H. Lin, T.-L. Liu and J.-H. Chuang, ” Learning a Scene Background Model via Classification,” IEEE Transactions on Signal Processing, vol. 57, no. 5, pp. 1641-1654, 2009.

[13] J.-S. Liu and J.-H. Chuang, ” A Geometry-based Error Estimation for Cross-ratios”

Pattern Recognition, vol.35, pp. 155-167, 2002

[14] L. Sun, H.-J. Di, L.-M. Tao and G.-Y. Xu, “A Robust Approach for Person Localization in Multi-camera Environment” International Conference on Pattern

Recognition, pp. 4036-4039, 2010

[15] C.-H. Cui, W.-X. Yang and K.-N. Ngan, ” M2Tracker: A Multi-View Approach to Segmenting and Tracking People in a Cluttered Scene Using Region-Based Stereo” European Conference on Computer Vision, vol. 2350, pp. 18-33, 2002. [16] H. Wang, D. Suter, K. Schindler, C.-H. Shen, “Adaptive Object Tracking Based

on an Effective Appearance Filter,” IEEE Trans. Pattern Analysis and

基於消失點的快速多攝影機人物定位

國 立 交 通 大 學

資訊科學與工程研究所

碩 士 論 文