第二章 文獻探討
2.1 立體視覺
立體視覺為兩個或多個攝影機所構成,其主要藉由兩攝影機的像素來進行特 徵匹配以及計算深度值,為了減少左右兩影像特徵匹配上的難度,通常假設兩影 像的光軸為水平對齊的,然而不論硬體加工多精密,都會有些許誤差,因此必須 透過軟體來進行修正。
2.1.1 攝影機校正
在 3D 電腦視覺中,攝影機校正 (Camera Calibration) 指的是求取攝影機的 內在參數 (Intrinsic Parameters) 與外在參數 (Extrinsic Parameters)。前者可以用來 描述攝影機座標 (Camera Coordinates) 與影像座標 (Image Coordinates) 之間的 轉換關係,一般而言,攝影機內部機構與鏡頭不變動則內在參數是固定的;後者 則是用來描述世界座標 (World Coordinates) 其與攝影機擺放的位置和方向有關,
意指如果移動攝影機,其外在參數就必須再重新校正一次。一旦有了內外參數,
就可以從影像座標去推算三維資訊。
目前已發表過許多校正方法 (Zhang, 1999; Tsai, 1987),依據使用的校正物不 同而主要可分成四類:使用三維物體校正、自我校正、使用二維平面校正、使用 一維長度校正。
三維物體校正主要是使用 2 或 3 個互相垂直的平面來校正,由於校正物體在 三度空間須提供長寬高的幾何特性因此此種校正方法可以獲得非常精密的校正 結果,但缺點是需製作校正參考物體。
自我校正方法在 1997 年由 Hartley (1997) 提出,其方法只需一個固定場景,
不須利用任何校正物,而是以自然環境中至少三張影像中獲得的平面上對應的特
6
徵點,並分析其不同影像中的位置來校正。
二維平面校正是目前較常使用的方法 (Sturm and Maybank, 1999; Zhang, 1999),其製作的平面須不會任意扭曲,精準的棋盤方格平面,比起三維參考物可 說是簡易許多,使用者僅需拍攝該平面在各個不同角度的旋轉或位移所產生的影 像,即有足夠的資訊可求得攝影機的內外參數。
一維校正物是利用一長度已知的物體,固定一端並移動另一端來估測攝影機 的參數。其最大優點是對二維或三維校正當需要同時校正多台交互重疊之攝影機 參數時會需要校正點同時可以讓多組攝影機看到,較不易達成,而對一維校正法 來說固定端並不需要同時被多組攝影機看到,因此實際運用限制較少,此方法是 由 Zhang (1999) 提出。
以上所提及的四種校正方法,主要目的都是為了得到左右兩個影像平面之間 的旋轉、平移關係,再投影使之同時滿足光軸平行對齊的幾何限制以方便正確計 算出立體視差。
2.1.2 圖像比對
圖像比對主要是通過找出左右兩影像之對應關係,其技術被普遍認為是立體 視覺中最困難也最關鍵的問題,主要原因是左右影像有:光學失真、平滑表面的 鏡面反射、投影縮減、透視失真、低紋理、重複紋理、透明物體、重疊和非連續 的差異等問題。因此,是否找出正確的對應特徵點將直接影響最後計算視差的結 果,而後有許多研究都是針對對應點匹配的演算法做討論。
演算法依據其搜尋對應特徵點的範圍可分為區域性與全域性,區域性的方法 在比對時僅考慮特徵點附近的像素,處理速度較快但對於沒有滿足同軸幾何限制 的影像,容易發生比對錯誤;全域性則是搜尋整張影像的像素,相對的計算時間 較久,但適應性較好,較可修正誤差。
區域性方法中,匹配代價是圖像比對的基礎,實際是對不同視差進行灰階相 似性測量,常見的有灰階差的平方 SD (Squared intensity differences)、灰階差的絕
7
對值 AD (Absolute intensity differences),另外在求匹配代價時可設定一個上限值,
來降低之後累加的過程中因錯誤匹配造成的影響。疊加的目的是為增強匹配代價 的可靠性,而根據原本的匹配代價不同,可分為 SAD (Sum of squared intensity differences) 、SSD (Sum of absolute intensity differences)、NCC (Normalized cross-correlation)等,其中 NCC 是進行捲積運算,直接找出特徵值。在完成累加之後即 可獲得視差值,只需在一定範圍內選取累加匹配代價最好的點 (SAD 和 SSD 取
8
面中心 x 的座標
yL
C 則是左攝影機校正後畫面中心的 y 座標,f 為左攝影機之焦 距。