文獻探討 - 基於多視角幾何萃取精確影像對應之研究

特徵轉換(Scale-Invariant Feature Transform，SIFT)[21]，而本論文之研究，是希望透過多視角影像，提升對應點與三維點的精確度，最近幾年在多視角三維立體重建的研究領域中，有許多與我們論文相關的研究，分別敘述如下：

Benchmark Algorithm

過去的研究學者曾經發表過一些基準測量演算方法(benchmark algorithm)，

如 Steven M. Seitz、Brian Curless、James Diebel、 Daniel Scharstein、Richard Szeliski 等學者於 2006 年發表的 A Comparison and Evaluation of Multi-View Stereo 排名，圖 10 為 Middlebury Computer Vision Web Pages 成效排名圖。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 9：恐龍與神殿資料集影像圖

圖 10：Middlebury Computer Vision Web Pages 成效排名圖

他們以Stanford Spherical Gantry[29]建立實驗環境，架設相機從不同的位置及視角拍攝實體物件，取得一系列多視角影像，如圖11 Stanford Spherical Gantry 實體圖所示，Stanford Spherical Gantry共有四個轉軸，可以在中心帄台擺上實體物件，透過機械手臂架設相機(camera)及燈光(lamp)，並經由轉動四個轉軸，拍攝出一系列多視角影像，依據轉軸上經度(longitude)與緯度(latitude)的刻度，記錄整個實驗場景，描述相機與實體物件在真實三維空間中的幾何關係，接著，他們以雷射掃描(laser scanning)的方式，取得實體物件的實況空間資料。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 11：Stanford Spherical Gantry 實體圖

相機參數的部份，他們在Stanford Spherical Gantry中心帄台上擺放黑白棋盤格的校正板，並拍攝多視角影像，透過這些多視角影像與Jean-Yves Bouguet在網站[33]上所提供的Matlab Toolbox求得相機參數，如圖12實驗場景相機分佈示意圖所示，所有的相機分布大致成半圓球狀，半圓球的中間會出現一些區域性的空洞，

是因為Stanford Spherical Gantry的機械手臂會在實體物件上產生陰影，而半圓球的底部並不是完整的環形，是由於Jean-Yves Bouguet在網站上所提供的Matlab Toolbox，對於某些低角度拍攝的影像經過校正取得的相機參數，會有誤差值過大的情形，他們最後會將這些產生問題的影像及相機參數一併移除。

圖 12：實驗場景相機分佈示意圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

C. Strecha、W. von Hansen、L. Van Gool、P. Fua、U. Thoennessen 等學者於 2008 年發表的 On Benchmarking Camera Calibration and Multi-View Stereo for High Resolution Imagery[27] 論文中，分別以累積錯誤分佈 (cumulative error distribution)與完整度(compleatness)兩項指標，評估多視角三維立體重建方法的成效，他們在網站[28]上提供 Fountain-P11 與 Herz-Jesu-P8 兩組多視角影像，以及相機參數與實況空間資料的資料集，讓研究學者下載使用，圖 13 為 Fountain-P11 與 Herz-Jesu-P8 資料集影像圖，並提供提交成果的服務，在網站上公佈成效的排名，圖 14 為 Dense MVS Test Images Web Pages 成效排名圖。

圖 13：Fountain-P11 與 Herz-Jesu-P8 資料集影像圖

圖 14：Dense MVS Test Images Web Pages 成效排名圖

‧

Multi-View Stereo Methods

我們透過上述發表基準測量演算方法作者網站所公佈的成效排名中，發現最近 5 年內，有些研究學者提出的多視角三維立體重建方法成效顯著，在兩個網站的排名皆名列前三名，這些研究學者在所提出的方法中，皆運用了補綴面為基礎的概念(patch-based concept)，將最近幾年的相關研究分別敘述如下。

Y. Furukawa 與 Jean Ponce 於 2007 年所發表的 Accurate、Dense、and Robust Multi-View Stereopsis[14]論文中，先對真實三維空間中的物體拍攝一系列多視角影像，利用海利斯角隅偵測(Harris corner detector)[17]與高斯差分(Difference of Gaussian，DoG)方法，在多視角影像中萃取出特徵點，透過極線幾何(epipolar

在對應侯選點之中選出對應點，並透過共軛梯度方法(conjugate gradient method) 求得最大化相似度測量函數的參數，旋轉與帄移三維補綴面，對三維點進行評估與調整。

但是如果相機參數不夠精確，產生投影計算上的誤差，會造成有些應該被找到的對應點在影像中沒有被找到，因此，Y. Furukawa 與 Jean Ponce 於 2008 年發表的 Accurate Camera Calibration from Multi-View Stereo and Bundle Adjustment[15]論文中，提出以光束調整法(bundle adjustment)的方式，藉由不同解析度的影像金字塔最小化投影誤差，改善校正後的相機參數，希望透過最佳化後的相機參數，提高三維立體模型之精細度。

‧

Vu Hoang Hiep 、 Renaud Keriven 、Patrick Labatut、Jean-Philippe Pons 等學者於 2009 年發表的 Towards High-resolution Large-scale Multi-view Stereo[19]

論文中，利用海利斯角隅偵測與高斯差分方法，在多視角影像中萃取出特徵點，

以尺度不變特徵轉換與正規化相關匹配法，在多視角影像中進行相似度量測，並提出 variational refinement 程序，運用補綴面為基礎的概念改善三維點之座標。

蔡瑞陽於 2009 年發表的從多視角萃取密集影像對應[6]論文中，利用海利斯角隅偵測與高斯差分方法，在多視角影像中萃取出特徵點，並藉由對應點會出現在極線(epipolar line)附近的幾何特性，在影像中縮小對應點配對的範圍，以補綴面為基礎的比對方法，在多視角影像中截取比對區塊的影像資訊，以零帄均正規化相關匹配方法(Zero-mean Normalized Cross-Correlation，ZNCC)及色彩直方圖 (color histogram)進行相似度量測，透過旋轉及帄移三維補綴面，進行三維補綴面之最佳化，並提出以極線轉換法(epipolar transfer)過濾及改善對應點。

蔡政君於 2009 年發表的使用光束調整法與多張影像做相機校正與三維模型重建 [7] 論文中，先藉由多視角影像定義出重投影誤差期望值 (expected reprojection error)，並以 PMVS(Patch-based Multi-View Stereo)軟體得到初始三維點，以及看的到這些三維點的多視角影像集合，接著使用正規化相關匹配法進行相似度量測，以隨機取樣的方式改善對應點與三維點位置，最後使用稀疏光束調整法(Sparse Bundle Adjustment，SBA)與計算重投影誤差改善相機參數。

吳坤信於 2009 年發表的從多視角已校正影像改善三維粗略模型[2]論文中，

先利用視覺外廓(visual hull)的方式建立粗略的三維立體模型，以差值帄方和(Sum of Squared Differences，SSD)與色彩直方圖進行相似度量測，並以多視角幾何與極線轉換法改善對應點。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Toward Large-scale and High-resolution Image

從 Noah Snavely、Steven M. Seitz、Richard Szeliski 等研究學者，於 2008 年發表的 Modeling the World from Internet Photo Collections[25]論文，Vu Hoang Hiep、

Renaud Keriven、Patrick Labatut、Jean-Philippe Pons 等研究學者，於 2009 年發表的 Towards High-resolution Large-scale Multi-view Stereo[19]論文，Sameer Agarwal、

Yasutaka Furukawa、Noah Snavely、Brian Curless、Steven M. Seitz、Richard Szeliski 等研究學者，於 2010 發表的 Reconstructing Rome[9]論文，以及 Yasutaka Furukawa、

Brian Curless、Steven M. Seitz、Richard Szeliski 等研究學者，於 2010 發表的 Towards Internet-scale Multi-view Stereo[13]論文中，可以發現目前這些頂尖的研究學者在多視角三維立體重建的領域，正朝向使用大場景高解析度影像 (large-scale and high-resolution image) 的方向做努力，圖 15 為 Large-scale Multi-view Stereo 成果圖。

圖 15：Large-scale Multi-view Stereo 成果圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中基於多視角幾何萃取精確影像對應之研究 - 政大學術集成 (頁 26-33)

文獻探討

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學