• 沒有找到結果。

1.1 研究動機與目標

由於這五年來利用 multi-view 影像建立 3D 風行,尤其是 Goesele[1]以 Middlebury dataset[2]進行 benchmark 之後,更是引起許多研究學者的討論風氣,因此現在 multi-view stereo 很熱門,也因熱門的關係,讓我有做這方面的動機。

本論文在於利用多張已校正影像,透過特徵擷取、對應的過程,得到多視圖影像之 間的特徵對應關係。透過對一個已校正內部參數的相機所拍攝的影像,進行外部參數的 校正,並進行場景或物體的稠密式三維重建。

在進行稠密式三維重建時,需要使用到影像一致性(photo consistency)測詴,以得到 非前述特徵點的影像區域之空間位置,然而傳統在計算影像一致性時,皆採用兩兩影像 之間的比對計算,最後再一併考慮各影像兩兩之間的計算結果,以得到該影像點最後的 空間估測位置,本研究提出一個基於多視圖影像資訊的重建方法,而非僅合併許多兩兩 影像所重建的部份結果而已,此方法將能增加三維重建的準確性。

另一方面,本研究以小塊平面區塊為出發,並逐漸擴張到原本就有的整個平面,可 快速又精準得到屬於共平面的物體表面,而不像 Furukawa 等人[3]以固定的 window size (非如 21 x 21 pixels)的 image patch 當重建單位,一旦該 window 未對應單一平面,則無 法找到對應的對象,容易變得支離破碎。屬於平面較多的物體時,此方法將能有效且正 確的重建出物體的表面,尤其當該平面是具有稀疏紋理(texture-less)區域時,傳統以固定 的 window size 在影像中重建的方式將不易重建出此類區域,這將在實驗中得到印證。

本方法以疊代式地對物體做細部的稠密式重建之後,再貼上材質貼圖即能得到物體的高 擬真三維模型。

1.2 相關研究

Multi-view stereo 的三維重建方法大致可分為 calibrated 及 uncalibrated 兩種大類型,

前者較多針對室內靜態物體進行三維重建,後者則常為針對戶外大型場景多視圖影像進 行重建。

為了要判斷重建出來的 3D 幾何是否正確,許多學者提出了不同的演算法,但在絕 大部份的 scene-space 方法中皆是利用不同影像之間對應區域的關聯程度(correlation)來 判斷重建結果的優劣,而這種方法即是 multi-view 相關技術的主要核心技術,通常被稱 為顏色一致性(photo-consistency)的量測[4, 5, 6]。如果各張影像對於場景中物體表面上的 某一點觀察到的 intensity 相同,就說這個點是 photo-consistent 的。

使用 photo-consistency 能降低尋找影像之間點對應的難度,Dyer[8]與 Szeliski[9]皆 提到使用 photo-consistency 有下列的優點:

(1) 在某些情況下要取得正確的點對應是非常困難的,尤其是在比對區域內的 intensity 值幾乎一模一樣時。然而 photo-consistency 只使用到正向投影(forward projection)以及比對 pixel 的步驟。因此在給定一個 3D 場景模型時,計算 photo-consistency 時只需判斷在各影像上的投影結果是否一致,因此不需要個 別的點對應關係。

(2) 因為要取得「稠密式」的點對應是非常困難的,所以若是使用點對應的演算 法來重建場景 3D 模型,就必須捨棄影像中點對應正確性較低的點,而建出較 稀疏(sparse)的 3D 資訊,否則點對應錯誤的部份會導致建置出具較差品質的 3D 模型。

Hernandez[10]先計算每張影像的 depth map,再將其結果進行合併成一個 cost volume。之後再從初始的 visual hull 開始對 mesh 進行疊代變形(deform),以此找到最接 近物體的表面,因此可以定義一個 optimal surface 來對 global energy  做最小化:

) ( ) ( ) ( )

(Stex Ssil Sint S

   

S 是3上的一 surface,要找出一 S 可以將 energy(S)最小化,式中的tex(S)是物 體本身 texture 的 energy term,sil(S)是 silhouette 的 energy term,int(S)是表面模型 (surface model)的 regularization term。目前國際上的 multi-view 相關技術都有用到 texture 資訊,目的是利用各個不同視角影像中的 texture 資訊 back project 至空間中來確立該特 徵的 3D 位置。然而,雖然有 multi-view images,但大部份都是兩兩利用 NCC 或 SSD 來比較後,再最後計算後做為 multi-view stereo 結果,其實並沒有真正一次同時考慮到 所有的 view。而 Hernandez[10]則是少數同時考慮到所有影像的 texture & silhouette 資訊,

列成一個 optimization equation,再進行最佳化。

接下來將針對 calibrated 的情況進行文獻探討,Furukawa[3]提出了一種方式來重建

稠密式的 3D 物體模型,此方法不需事先知道物體的 bounding volume,其主要步驟為:

Step 1: Matching:利用 Harris 或是 Difference-of-Gaussians 來擷取影像上的特徵點,

然後在各個角度的影像中計算特徵點對應關係,再以此做為 sparse 的對應區塊。接著再 一直重覆下列兩步驟,直至建立出完整的 3D 模型。

Step 2: Expansion:從前一步驟所計算出來的對應區塊開始由鄰近的 pixel 往外擴張,

以得到較 dense 的對應區塊。

Step 3: Filtering:利用 visibility 的限制來去除不正確的對應區塊。

Habbecke[11, 12]也是利用類似的方式來重建物體的三維模型,首先[11]提出了疊代 式的平面法向量最佳化的演算法,透過事先指定的平面區域,再透過多視圖影像進行平 面法向量的最佳化。之後 Habbecke 則在[12]中提出以 seed disk 逐漸往外擴張的方式重 建,步驟如下:

Step 1: 利用 homography 對應關係,在兩張影像中計算 seed disks 當做初始對應區 域,並利用 plane fitting algorithm,綜合其他影像兩兩計算 homography 對應關係的結果 來做修正。

Step 2: 利用上一步驟找出的 seed disks 以 greedy growing 的方式來擴展物體表面的 區塊。一直擴展直至物體於所有影像中可見的部份都被 disks 覆蓋為止。

在拍攝戶外場景的建築物重建三維模型時,除了特徵點外的區域若要進行三維空間 的估測,必須利用前述的 photo consistency 來進行比對。然而,建築物本身經常是缺乏 紋理資訊(texture-less)的,在此情況下使用 photo consistency 會導致比對分歧(ambiguity) 的發生。

另外,Furukawa[18]則假設建築物都是由三個不同互相垂直方向的平面所構成,也 就是所謂的 Manhattan World。首先利用 Furukawa[]重建具紋理物的方法去重建較具方向 的點(oriented points),利用這些點估算出主要座標軸,再由前述已重建出具紋理的點來 計算延著各軸的 density peak,最後透過 MRF 及 graph cuts 來指定三個可能的平面給予 每一個影像中的點,以完成各視角影像的深度圖。

1.3 研究方法介紹

本論文乃透過已知多視角相機內、外部參數及影像建構出三維模型。下圖是本論文 建構三維模型的流程:

圖 1 論文方法流程

1.4 論文架構

本論文第二章首先簡單說明特徵偵測與對應,接著於第三章介紹 Iterative plane parameter optimization 的流程與概念,並於第四章介紹稠密式三維重建,再來於第五章 呈現最後的建模結果及進行一些的模型的正確性驗證,最後第六、七章式結論以及未來 發展。

開始 取像與相機校正 特徵擷取與對應 計算初始平面參數

運用Iterative optimization 找出最佳平面參數 稠密式三維模型重建

結束

相關文件