實驗流程與變因

第三章遮蔽對視差估算的影響

5.1 實驗架構

5.1.2 實驗流程與變因

(b) (c) (d)

入影像的架構才能估算出完整的視差圖。

圖 5.4: 實驗流程圖 Experimental

images

Input structure

2-input-image 4-input-image

Matching cost pixel-based stereo matching

SWP window-based

Stereo matching

Disparity value

WTA symmetric stereo

algorithm basic global

optimization

disparity

maps rendering

Output image

5.2 視差估算實驗結果

在這一節當中，我們採用 Middlebury College 的立體影像進行實驗。比較了採用兩張與四張輸入影像的架構、以不同的立體匹配方法計算 SSD、以 WTA 與動態規劃進行的視差值決策，對於視差圖正確性的影響。

為了於評估一張程式估算出來的視差圖的正確性，我們的方法是採用 Middlebury College 提供的視差圖當中所有視差值非零的畫素與我們的程式所估算的視差圖當中相對應的畫素計算方均誤差。均方誤差越小則越準確。

5.2.1 由兩張輸入影像擴展至四張輸入影像架構

在第三章中，我們觀察了 EPI 在遮蔽區域的特性，並且以簡單的輸入影像對各種立體匹配方法進行測試。最後提出了以四張輸入影像的架構取代傳統立體影像域中常見的兩張輸入影像架構。因此在這一小節當中，我們以圖 5.4 中 input structure 區塊為操作變因進行實驗，並以實驗數據證實四張立體影像在視差估算上的優勢。另外我們也比較了不同的立體匹配演算法從兩張輸入影像擴展至四張輸入影像之後，視差估算準確率提升的比例。

圖 5.5 到圖 5.7 是基於畫素的立體匹配、基於視窗的立體匹配以及 SWP 在兩張與四張輸入影像架構之下搭配 WTA 決策，在十五組輸入影像當中的視差值均方誤差所作的直方圖。表 5.1 則是三種立體匹配方法在十五組輸入影像中的均方誤差的平均值。

pixel-based stereo matching with WTA

index of scenes

MSE of disparity

2-input-image

window-based stereo matching with WTA

index of scenes

MSE of disparity

2-input-image 4-input-image

圖 5.6: 基於視窗的立體匹配搭配 WTA 估算差圖的均方誤差 比較圖 5.6 與圖 5.5 我們發現，由於基於視窗的立體匹配由於參考的範圍

大於基於畫素的立體匹配，在無紋理區域中抗誤力較高。整體而言誤差小於基於畫素的立體匹配。然而基於視窗的立體匹配無法迴避掉半邊雜訊的特性，使得它在推廣至四張輸入影像的架構下準確度比起兩張輸入影像的架構並沒有顯著的提升。

SWP with WTA

index of scenes

MSE of disparity

2-input-image

Pixel-based Window-based SWP 3.744 2.618 2.595

輸入影像的架構下表現相若。那是因為在參考相同的畫素數的前題之下，基於視 matching cost calculation 區塊的變因對此三者進行實驗，計算比較三者的均方誤差。

圖 5.8: 基於畫素的立體匹配搭配總體最佳化估算視差圖的均方誤差

pixel-based stereo matching with global optimization

index of scenes

MSE of disparity 2-input-image

basic global optimization 4-input-image

symmetric stereo algorithm

圖 5.8 是以基於畫素的立體匹配搭配兩張與四張輸入影像的基本總體最佳

window-based stereo matching with global optimization

index of scenes

MSE of disparity

2-input-image basic global optimization 4-input-image

symmetric stereo algorithm

圖 5.10: SWP 配搭配總體最佳化估算視差圖的均方誤差

window-based stereo matching with global optimization

index of scenes

MSE of disparity

2-input-image basic global optimization 4-input-image

symmetric stereo algorithm

表 5.2: 三種立體匹配方法搭配總體最佳化在各場景視差估算的均方誤差

由表 5.2 我們可以發現基於視窗的立體匹配是最不適合搭配總體最佳化決策的。同時參考多個畫素的優勢僅止於搭配 WTA 決策的架構之下。在遮蔽區域當中，因為受到半邊干擾資訊的影響而無法以正確的視差值計算出低的 SSD，因而使得動態規劃無法做出正確的決策。反觀基於畫素的立體匹配，雖然很多可能的視差值計算都會得到很低的 SSD，然而動態規劃卻極可能從這些有可能是正確的候選視差值當中挑出正確的那個。因此基於畫素的立體匹配搭配總體最佳化其實是很好的視差估算方法。至於兼具了其它兩者長處的 SWP，在準確度的表現上依然是最好的，而且對於各種不同特性的場景都能維持一定的準確度，不會有偶發的劇烈誤差。

5.3 image-based rendering 的實驗結果

在本節中，我們以三組 Blender 合成的影像 image-based rendering。每一組影像都合成兩張影像，輸入影像與輸出影像的視點位置如圖 5.12 所示，在空間座

Pixel-based Window-based SWP

2-input-image basic global optimization

1.919 2.063 1.710

4-input-image basic global optimization

1.497 1.423 1.107

Symmetric stereo algorithm 1.164 1.631 1.080

圖 5.12: 輸入與輸出影像的視點

1:SWP 2:window-based 3:pixel-based

PSNR X=1.4

X=1.8

(b)

basic global optimization

1:SWP 2:window-based 3:pixel-based

PSNR X=1.4

X=1.8

0 1 1.4 1.8 2 3 x Viewpoint of Input

Viewpoint of output

(c)

symmetric stereo algorithm

0 5 10 15 20 25 30 35 40

1 2 3

1:SWP 2:window-based 3:pixel-based

PSNR X=1.4

X=1.8

圖 5.13: 場景一，各種決策方式的 PSNR: (a) WTA (b) 基本總體最佳化 (c) 對稱立體演算法

由圖 5.13 可以發現除了以 WTA 進行的決策產生的輸出影像 PSNR 較低之外，不論那種立體匹配方法搭配了兩種以動態規劃加速的總體最佳化決策方式都得到了不錯的影像品質，PSNR 在 33dB 之上。原因是視差值的錯誤只影響輸入影像的畫素最終落在輸出影像上的位置，然而在這種紋理反差不大的場景中並不足以造成輸出影像嚴重的誤差。圖 5.14 是 SWP 搭配動態立體演算法合成的 X=1.4 的輸出影像以及 Blender 合成的理論影像的以及兩者之間的誤差圖。可以發現誤差主要是發生在輪廓的位置。

(b)

(c)

圖 5.14: 場景一的影像合成實例: (a) 理論影像 (b) 合成結果(c) 誤差

5.3.2 場景二的實驗結果

有別於場景一，這個馬雅祭壇的場景立體架構較為簡單也沒有鏡面的形情，

然而和一般簡單的虛擬影像類似，場景二產生的影像的紋理反差很大。可以想見視差的誤判將會導致嚴重的錯誤。圖 5.15 是場景二的 PSNR 圖表。

WTA

1:SWP 2:window-based 3:pixel-based

PSNR X=1.4

X=1.8

(a)

basic global optimization

1:SWP 2:window-based 3:pixel-based

PSNR X=1.4

X=1.8

(b)

symmetric stereo algorithm

PSNR X=1.4

X=1.8

搭配基於畫素的立體匹配所得到的 PSNR 明顯的較場景一為低。，圖 5.16 是場景二當中基於畫素的立體匹配搭配對稱立體演算法的輸出景像、輸出影像理論值，誤差圖以及視差圖。

(a)

(b)

(c)

圖 5.16: 場景二中的: (a) 理論輸出影像 (b) 實際輸出影像 (c)誤差 (d)視差圖 圖 5.16 視差圖中的錯誤是導致 PSNR 偏低的主要原因。但是紋理明顯的非遮蔽區域理論上是最容易計算視差的，不應該發生錯誤。後來經過觀察，發現在輸入影像當中，有很多不被遮蔽的畫素並沒有在其它輸入影像當中找到很匹配的畫素。圖 5.19 的白色點是 X=1 的輸入影像當中，最低的 SD 值(以 2.12 式計算)大

圖 5.17: 場景二當中最低 SD 值大於一千的畫素分布圖

1:SWP 2:window-based 3:pixel-based

PSNR X=1.4

X=1.8

(a)

basic global optimization

1:SWP 2:window-based 3:pixel-based

PSNR X=1.4

X=1.8

(b)

symmetric stereo algorithm

0 5 10 15 20 25 30

1 2 3

1:SWP 2:window-based 3:pixel-based

PSNR X=1.4

X=1.8

(c)

圖 5.18: 場景三中各種決策方式的 PSNR (a) WTA (b) 基本總體最佳化 (c)對稱立體演算法

由圖 5.18 可以看得出來場景三的輸出影像 PSNR 明顯低於前兩者。而且兩種動態規劃並末能有效的降低誤差，表現只與 WTA 決策相若。圖 5.19 是場景三的實驗當中合成效果最好的 SWP 搭配基本總體最佳化所合成的輸出影像、理論輸出影像、誤差圖以及視差圖。可以發現影像中木紋變化劇烈的區域合成影像以及視差圖的誤差都很大。推測這種發生在空間結構簡單、紋理明顯的區域的視差估算錯誤應該是輸入影像取樣失真所造成。

(b)

(c)

(d)

圖 5.19 場景二中的 (a) 理論輸出影像 (b) 實際輸出影像 (c)誤差 (d)視差圖 由於各場景輸出影像的 PSNR 差異極大，不適合以平均值來總結並衡量各種方法的優劣。因此我們將各場景中不同的立體匹配方法與視差決策方式的 PSNR

都列在表 5.3 中以加以比較。

optimization

Symmetric stereo algorithm

pixel-based 24.82 34.97 31.02 window-based 28.53 33.72 33.72 Scene

SWP 26.78 34.71 34.70 Pixel-based 25.56 29.74 28.08 window-based 31.56 32.55 33.32 Scene

SWP 28.24 30.68 32.95 Pixel-based 20.77 20.77 22.40 window-based 25.50 25.50 25.73 Scene

SWP 25.61 25.61 26.07

第六章結論與未來工作

在這篇論文中我們總共提出了三個方法來改善傳統的立體匹配方法的效能。一是以四張輸入影像架構取代兩張輸入影像架構，二是以單邊視窗對立體匹配方取(SWP)代基於畫素的立體匹配以及基於視窗的立體匹配。三是以可搭配四張輸入影像架構修補遮蔽區域視差值的對稱立體演算法取代 winner-take-all (wta) 視差決策方法。經由實驗的結果我們發現以這三個方法取代傳統方法在視差估算以及 image-based rendering 方面有著下列的改善：

比起兩張輸入影像的架構，四張輸入影像的架構搭配基於畫素的立體匹配、基於視窗的立體匹配以及我們提出的 SWP，都夠降低視差估算的誤差。然而搭配基於視窗的立體匹配所得到的改善幅度較小。

只有從兩張輸入影像的架構推廣至四張輸入影像的架構，才能支援對稱立體演算法的遮蔽區域視差修補機制。而對稱立體演算法在各種情況、

各種目的之下效能都勝過 WTA。

比起 WTA 視差決策方法，對稱立體演算法搭配基於畫素的立體匹配、

基於視窗的立體匹配以及我們提出的 SWP，在視差估算方面都有獲得改善。平均來說以搭配 SWP 的情形準確度最高，而且對各種場景有穩定的表現。搭配基於畫素的立體匹配則改善幅度很大，準確度稍次於 SWP，穩定性較低。而搭配視窗的立體匹配改善程度很低，準確度最差，

遠遠落後前二者。

比起 WTA 視差決策方法，對稱立體演算法搭配基於畫素的立體匹配、

基於視窗的立體匹配以及我們提出的 SWP，在 image-based rendering 方

面都能夠獲得改善。輸出影像的品質以搭配 SWP 的情況最好，搭配基於視窗的立體匹配稍微次之，差異不明顯，而搭配基於畫素的立體匹配影像品質最差。

若單就 image-baser rendering PSNR 為考量，基於視窗的立體匹配搭配對稱立體演算法稍遜於 SWP 搭配對稱立體演算法，差距不明顯，可做為替代方案。但視差估算的均方誤差大約是 SWP 搭配對稱立體演算法的 1.5 倍。

若單就視差估算的均方誤差為考量，基於畫素的立體匹配搭配對稱立體演算法稍遜於 SWP 搭配對稱立體演算法，差距不明顯，可做為替代方案。但在 image-based rendering 的 PSNR 方面，SWP 搭配對稱立體演算法在各個場景中都有 3 到 4dB 的優勢。

綜合以上兩點，不論是追求 image-based rendering 的高畫質或是視差估算的高準確度高穩定度，對稱立體演算法搭配 SWP 都是最好的選擇。

雖然單就 image-based rendering 或是視差估算而言，都有著效果稍差計算複雜度稍低的替代方案，但是都不能同時兼顧 image-based rendering

在文檔中使用多重攝影機影像的立體視差估算 (頁 49-0)

第三章 遮蔽對視差估算的影響

5.1 實驗架構

5.1.2 實驗流程與變因

5.2 視差估算實驗結果

5.2.1 由兩張輸入影像擴展至四張輸入影像架構

5.3 image-based rendering 的實驗結果

5.3.2 場景二的實驗結果

第六章 結論與未來工作

第三章遮蔽對視差估算的影響

第六章結論與未來工作