• 沒有找到結果。

第一章 緒論

1.2 問題描述

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3

對應點追蹤錯誤的問題,雖然有學者提及一些解決的方法[15][21][24],但其對光 照程度的敏感度還是相當的高,在此若能將這些極小錯誤的點使用群體力量來導 正,不是以單一對應點的關係做追蹤,而是以物件的觀點來追蹤,將可使得追蹤 的準確度提升,我們希望能提出一個強健式(robust)的演算法來改善此問題。

另外,在上述提及之應用都是以追蹤對應點為基礎,希望能在準確率高及即 時追蹤對應點良好的演算法上建構相關應用。在此 Taehee Lee and Tobias

Ho¨llerer[26]提出使用 SIFT 以及光流法(optical flow)的混合方式來追蹤影像的對 應點,但其尋找對應點的計算處理上相當耗時間,無法直接使用於需要即時呈現 的應用上,例如擴增實境,因此,若能解決上述計算時間的問題或是使用精確度 與 SIFT 相當但速度較快的方法,將會具有很高的研究價值。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4

第二章 相關研究

視覺追蹤(Visual Tracking)在電腦視覺領域中為相當重要的研究議題,在許多的應 用上都需要結合視覺追蹤的幫助,例如擴增實境、虛擬實境、動作追蹤…等,但 視覺追蹤的過程中,我們所觀測的資料中仍然有許多錯誤資料(outlier),造成這 些錯誤資料的原因有物體旋轉、位移過大、光照改變量過大以及其他外在環境因 素,這些將會造成視覺追蹤上的錯誤,因此,我們需要使用一個強健式(robust) 的方法抗拒這些錯誤資料,其中,追蹤的物體大部分為剛體,由於剛體具有一定 的結構性,在追蹤的過程中其剛體的移動、旋轉…動作(motion)將具有很高的關 聯性,我們可以從該剛體的其他部分得到追蹤物體的相關連性,只要追蹤到這些 相關連性強的部份,我們將可以從這些強關聯度的追蹤點推測出該追蹤物體的點,

有學者提出來稱為支持者(supporters),此外,將物體及時做追蹤呈現也是我們必 頇要考慮的重要因素,接下來將介紹與本研究有關之研究。

2.1 視覺追蹤

視覺追蹤(Visual Tracking)已經廣為使用至物件辨識、自動監控、擴增實境、人 機互動應用之中,而這項技術為這些應用的基礎。視覺追蹤的方法大致為將要追 蹤的物體,辨識出具有代表性的特徵,根據這些特徵來達到追蹤物體的效果,這 些特徵經常是物體的顏色、輪廓、紋理、特徵點…等,透過這些屬性,來過濾出 與環境背景不同的區域,進而找出追蹤物。

夫轉換(Generalized Hough Transformation , GHT)為基礎,來維持支持者集合,也 就是維持與追蹤物相關以及非相關支持者的方法。由於支持者會不斷的改變狀態, 此觀念,作者使用泛化霍夫轉換(Generalized Hough Transformation , GHT)作為物 件的分類的偵測,在前處理階段,作者將區域影像存於資料庫中並使用區域影像 比對特徵點。接著,使用隱含形狀模型(Implicit Shape Model , ISM)來學習分類規 則,在經過大量標籤局部區域的資料庫訓練後,這個模型將可以用來偵測影像中 的物件,並且擷取出特徵點。將每個從資料庫比對出來的區域影像做特徵點的萃 取,每個特徵點進行投票(voting),選出最有可能為欲追蹤目標物件之追蹤點,

其估測的方法為下式

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6

(𝑥| ) ∝ 𝑆 = ∑𝐼𝜖𝐹 (𝑥|𝑓) (𝑓| ) ... ( 2 ) 其中S為估算為追蹤點的分數,F為特徵點的集合, (𝑓| )為在影像I找到特徵點f 的機率, (𝑥|𝑓)為特徵點f投給目標點x的機率,當估算追蹤點S分數S越高,越有 可能是追蹤目標點,換句話說,整個投票空間(voting space)最高點(peak)即為追 蹤目標點。在此,作者提到的方法和一般使用ISM方法不同,由於

支持者(supporters)會不斷隨時間變化而有所改變,因此必頇不斷更新貢獻特徵集 合以及支持者到目標點位置。

圖 1 Helmut Grabner 使用支持者(supporters)追蹤示意圖 (此圖引用至[14])

2.2 擴增實境

擴增實境(Augmented Reality, AR)為視覺追蹤的應用,也是虛擬實境的延伸,

其概念是希望能夠創造出虛擬物件與現實世界作到人機互動的想法,希望使用者 在真實的環境中能與虛構的物件作互動,也就是透過電腦或是手持裝置進行物件 辨識以及定位,將虛擬物件套疊到真實環境影像的定位點上,讓使用者看到真實 環境與虛擬物件套疊過後的影像,並且根據使用者型態的改變,讓對應的虛擬物 件也能有所互動,因此,擴增實境是擴充了現實,作為現實世界與虛擬世界連通 的橋樑,而非虛擬實境的概念是用虛擬世界完全取代了現實世界。Azuma(1997)[3]

指出擴增實境頇具備的三項特性:

本研究與 ARToolKit 的方法有部分相關,本節將針對 ARToolKit 做方法以及流 程上的討論。

(3) 接著使用聯通單元法(Connected Components)將雜訊過濾 (4) 偵測影像中相似於矩形的位置

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10

下圖(圖 3)為 ARToolKit 之流程圖

圖 3 ARToolKit 運作流程(此圖引用至http://www.hitl.washington.edu)

ARTag 簡介

ARTag 為 M. Fiala(2004)受到 ARToolKit 的啟發的想法,ARTag 於辨識的方法 強調的是數位編碼方法,希望能解決 ARToolKit 辨識標記圖形採用相關係數造成 錯誤判斷的比率,特別是錯誤辨識率(false positive rate)以及內部辨識混淆錯誤率 (inter-marker confusion rate),並且增加了錯誤偵測以及更正的功能,能在部分被 遮蔽的狀況下還能做正確的辨識,ARTag(圖 4)採用 ARToolKit 的標記圖形概念,

使用簡單的矩形作為辨識的標記圖形,外框採用黑色邊框,能快速定位四個角落,

但 ARTag 不同於 ARToolKit 的偵測方式為使用以邊為導向的偵測模式,藉由找 出影像上的邊線,將其邊線延長,交於四點中的矩形極有可能為欲辨識的標記圖 形,以邊為導向的方法之優點在於儘管有部分遮蔽,也能找出可能為標記圖形的 區域,另一個不同在於內部判別的方法,不需要建立模板來比對相似度,也就是 說不用存放數量龐大的模板來比對其相似度,ARTag 採用的是數位編碼的做法 (圖 5),將內部 6x6 大小的像素轉換成「0」、「1」的二元代碼,並且將 36 個 bits 的資訊分為 10bits 的編號(ID),16bits 的循環多餘檢查碼(CRC-16)以及 16bit 的前 向糾錯(FEC),扣除幾個容易辨識錯誤的編碼,將有 2002 個獨特的標記圖形可以

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

11

使用。

圖 4 ARTag 標記圖形 (此圖引用至[8])

圖 5 ARTag 編碼以及解碼流程(此圖引用至[8])

ARTag 採用循環多餘檢查碼來自我檢測是否有錯誤的資訊並且透過前向糾錯 來矯正錯誤的資訊,這也是和 ARToolKit 最大的不同之處,具有容忍部分遮蔽的 能力(圖 6),但由於採用的是數位編碼的方式,使用者將不能自行設計標記圖形,

需要遷就於編碼的方法採用與該方法相同的標記圖形。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

圖 6 ARTag 具有部分抗遮蔽的能力(此圖引用至[8])

總結來說,使用標記圖形來追蹤在目前的技術已經逐漸屈於成熟,大部分的作 法為,藉由設計具有強烈特徵的標記圖形,來追蹤標記圖形上的特徵,用來辨識 追蹤畫面中那一個區塊為標記圖形,例如 ARToolKit、ARTag 皆是以此概念為出 發點,通常在標記圖形追蹤的方法上,會先以特徵圖形中最容易區分的特徵開始 著手,特徵的顏色通常是最常被使用來區分的一個強烈特徵,藉由偵測出環境中 與特徵相似的顏色,通常會定義一個範圍值來取類似此特徵的區塊,將這些具有 與特徵相似的區塊選取出來後,進而進行內部特徵辨識,在內部特徵辨識中,有 許許多多種辨識的方法,通常在這過程中會利用到特徵的形狀來加以辨識,例如 去偵測上述得到可能的特徵區塊中是否含有矩形、直線、圓形…等與特徵相似的 形狀,作第二步的過濾,接著將篩選出來的區塊,作更進一步的比對方法,這裡 通常是各種不同的標記圖形演算法著墨的重點,以 ARToolKit 來說則是使用到相 似度比較的方法,來取得相機拍攝畫面中可能為標記圖形的影像與作為樣板的標 記圖形的差異性,相似度比較的方法有 NCC、ZNCC…等方法,又或是如 ARTag 採用替標記圖形編碼的方法,能從影像中取得編碼的標記圖形,利用解碼的方法 來追蹤標記圖形。通常以標記圖形作追蹤的方法準確度較不使用標記圖形要來的 高,因為在追蹤的過程中,使用的是受到變因較小且特徵與環境相比之下最明顯 的辨識的標記圖形,比非標記圖形要來的容易辨識。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

13

2.2.2 無標記系統

無標記系統採用自然特徵追蹤(Nature Feature Tracking),藉由擷取環境或物件 上具有強特徵性的特徵點,例如物體的顏色、紋理、輪廓等,使用視覺追蹤匹配 的方法來追蹤這些強特徵性的特徵點。無標記系統開發較為複雜以及困難,無標 記系統往往需要許多複雜的計算用於萃取特徵點,如使用 Harris Corner、SIFT、

SURF[4]…等特徵點擷取的方法,並且於影像序列上找尋特徵點的對應,然而這 些對應的方法,常常會因為外在環境的變化,使得特徵量有所增減而造成對應上 的錯誤,又或者是一些對應方法本身的限制,例如使用區域匹配(Block Matching) 的方法,由於擷取出的特徵因為角度的旋轉、位移、縮放,使得兩對映像素資訊 往往不處於同樣的位置,而造成比對上的誤差,如圖所示(圖 7)。另外,有些無 標記系統於定位追蹤上,需要使用到一些模板來做特徵點的比對,需要建立一些 而外的成本花費,也就是針對不同的運用,需要使用到不同的模板來做訓練。

然而無標記系統需要更複雜的特徵擷取以及比對的步驟才能取得適合的定位點,

但其直接擷取環境物體的特徵,這樣就不頇額外使用到標記圖形,而且應用層面 更加廣泛。

使用無標記系統來做擴增實境的研究也相當多樣,例如[13][22][25][26] , 2009年Taehee Lee[26]所提出使用多執行序(Multithreaded)追蹤並且使用不頇標 記圖形定位(marker)的方式來呈現,稱為無標記擴增實境(Markerless Augmented

圖 7 Block Matching 比對錯誤示意圖,每個方格對應的物體區塊不相同

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14

Reality),使用「手」取代標記圖形,這邊稱之手部擴增實境(Handy AR),手部 擴增實境(Handy AR)會使用到六度相機點,如圖(圖8)所示,接下來將手部以膚色 分類與直方圖方式去偵測特徵點,取得指尖位置後並建立三維座標系統(圖9)。

Reality),使用「手」取代標記圖形,這邊稱之手部擴增實境(Handy AR),手部 擴增實境(Handy AR)會使用到六度相機點,如圖(圖8)所示,接下來將手部以膚色 分類與直方圖方式去偵測特徵點,取得指尖位置後並建立三維座標系統(圖9)。

相關文件