i
基於三角形轉換映射的任意視點合成演
算法
研究生:李兆軒
指導教授:杭學鳴 博士
國立交通大學
電子工程學系 電子研究所碩士班
摘要
立體影像視覺顯影技術在多媒體通訊應用領域已經成為了非常熱門的研究 主題,其中又以任意視點合成技術為最主要的關鍵議題。在近年來,有許多任意 視點合成演算法已經被提出,通常都是利用多重影像以及其對應的深度資訊圖來 產生虛擬視點的影像以達到任意視點的效果。 在本篇論文中,我們利用計算特徵對應點架構達到較佳的三角化歪斜映射後 的結果。以及為了減少不自然的視覺感受,我們同時也利用多重頻段調合技術達 到較好的影像品質。在計算特徵對應點架構中,我們計算影像亮度資訊以及相對 應深度資訊圖上的梯度相關性來判定是否為特徵點。然而,三角化歪斜應射後的 結果往往會在合成影像的物體邊緣處產生人造的不自然現象。因此,我們利用中值濾波器以及多重頻段調合技術的概念以達到較佳的主觀視覺品質。當我們合成 影像的過程中,多重頻段調合技術幫助我們對於物體邊緣處有柔和化的效果。 我們首先利用影像紋理針對前景深的部份映射至目標影像,我們稱之為 TBTW 演算法。比起傳統的畫素對畫素映射演算法,TBTW 演算法的優點在於 可耗費較少的運算資源。然而,合成影像往往特別對於物體邊緣處都會產生瑕疵 現象。因此我們採用相似的流程僅對於景深圖使用三角映射的方式,我們稱之為 TBDMW 演算法。對於紋理合成的部份我們仍然使用傳統的畫素對畫素映射方式。 在本文獻的最後,我們也會針對我們提出的演算法顯示 MPEG 測試影像的合成 結果,實驗結果顯示我們的演算法達到與 MPEG 所提供的 VSRS 類似的效果。
iii
A Triangular-warping Based View Synthesis
Algorithm for FTV
Student: Chao-Hsuan Li
Advisor: Dr. Hsueh-Ming Hang
Department of Electrical Engineering &
Institute of Electronics
National Chiao Tung University
Abstract
The free viewpoint video technology or free-viewpoint television (FTV) is an
emerging research topic in multimedia processing. View synthesis is one key enabling
technique of FTV. Several view synthesis schemes have been proposed in the past a
few years. Typically, it uses multiple image views and depth maps to generate the
intermediate view at nearly any arbitrary viewpoint.
In this study, we adopt the triangular warping technique for either texture
mapping or depth map mapping. In the proposed scheme, we suggest a new feature
point extraction process and include a multiband blending technique for image
artifacts reduction. The new feature point extraction scheme makes the use of the
correlation between the gradients of the image luminance intensity and the depth map.
Sometimes, texture mapping using triangular warping may cause unnatural artifacts
map. Thus, the median filtering and the multi-band blending techniques are employed
to achieve better subjective image quality. The multi-band blending scheme provides
smooth transitions when mixing two (left and right) synthesized images.
We first apply the afore-described image warping method to the image texture
synthesis. It is called Triangular-based Texture Warping (TBTW) algorithm. It
requires much fewer calculations when compared with the traditional pixel-by-pixel
warping methods. However, the synthesized images may contain artifacts in the
complicated texture regions particularly along object boundaries. Then, we apply a
similar data processing flow to the depth map warping and call it, Triangular-based
Depth Maps Warping (TBDMW) algorithm. The texture synthesized part is using the
traditional pixel-by-pixel warping. Often, with a simpler processing structure the
proposed algorithm can provide an image quality comparable with that produced by
the more complex MPEG reference software. In this study, we also investigate the
v
誌謝
在交通大學的兩年研究生生涯中,首先我要感謝的是指導教授杭學鳴老師, 在研究過程中,老師除了在專業學術研究領域上給予我指導外,更教導我對於做 學問的方法以及求學的態度,老師也相當關心我們的生活近況。這兩年來,從老 師身上不僅僅只學到專業知識,更學會到如何的待人處事與同儕之間相互合作的 精神,我也堅信這對於我未來人生規劃有相當大的影響。 研究過程中,我首要感謝蔡彰哲學長的指導,從確定研究目標到完成實驗的 過程中,我經歷了不少挫折,而蔡彰哲學長總是不斷鼓舞我並且參與討論給予意 見;另一方面,我也非常感謝林鴻志學長的指導,不僅僅在專業科目上一直不斷 給予我一些寶貴的意見,也給予我許多幫助,使得我能夠在碩班生涯成熟不少。 除此之外,也非常感謝蔡家揚學長以及洪朝雄學長的幫忙,還有曉盈、威宇、郁 婷、俊言、智凱、卓翰、書瑋、偵源、復凱、凱翔、婉瑜、怡茹、頌文以及學弟 們的陪伴,讓我碩班生活更加精采豐富。 本篇論文得以完成要感謝我的家人以及依凡,在我求學生涯中不斷地鼓勵我。 在此,僅將論文獻給曾經幫助過我、支持我的師長以及友人們,有你們的溫暖是 我不斷前進的動力。目錄
摘要 ... i Abstract ... iii 誌謝 ... v 目錄 ... vi 圖目錄 ... ix 表目錄 ... xv 第 1 章 緒論 ... 1 1.1 研究背景 (Background)... 11.2 研究動機及貢獻 (Motivation and Contributions) ... 2
1.3 論文大綱 (Organization of the Thesis) ... 3
第 2 章 相關工作 ... 4
2.1 立體影像幾何概述 (Overview of Stereo Geometry) ... 4
2.2 針孔相機模型 (Pinhole Camera Model) ... 5
2.3 二維空間轉換映射 (2D Warping) ... 8
2.4 視點合成參考軟體介紹 (View Synthesis Reference Software) ... 12
2.4.1 軟體平台概述 (Overview of Software Platform) ... 12
2.4.2 品質測試指標 (Quality Metrics) ... 13
2.4.3 MPEG 測試影像介紹 (Introduction to MPEG Test Sequences) ... 14
第 3 章 傳統任意視點合成的演算法介紹 ... 16
3.1 傳統視點合成演算法概述 (Overview) ... 16
3.2 前向轉換映射問題 (Forward Warping Problem) ... 16
3.2.1 物體邊緣處產生的瑕疵現象 (Artifacts on Object Boundary)... 16
3.2.2 可信賴性模型 (Reliability Model) ... 19
3.2.3 三層互相連接之深度值的瑕疵現象分析 (Artifacts of Triple-layer Boundary) 20 3.3 使用可靠性的判別演算法設計 (Reliability Check Algorithm) ... 26
3.3.1 前向轉換映射 (Forward Warping) ... 26 3.3.2 線性比例疊合 (Linear Blending) ... 27 3.3.3 可靠性判別法則 (Reliable Check) ... 29 3.3.4 抑制瑕疵現象 (Artifacts Reduction) ... 29 第 4 章 基於三角化轉換映射可降低瑕疵現象的任意視點影像合成演算法設計 ... 32 4.1 三角映射視點合成演算法概述 (Overview) ... 32
vii
4.2 基於三角化映射的視點合成演算法(Triangular-based Warping View Synthesis
Algorithm) ... 33
4.2.1 擷取特徵點 (Extraction of Feature Points) ... 33
4.2.2 特徵點三角化 (Delaunay Triangulation) ... 35
4.2.3 三角化紋理投影映射 (Texture Mapping of Triangular) ... 35
4.2.4 使用後製濾波器修復裂痕 (Gap Reduction by Post-filtering ) ... 37
4.2.5 利用多率頻段疊合抑制瑕疵現象 (Artifacts Reduction by Using Multi-band Blending) ... 38
4.3 模擬與結果 (Simulation and Results) ... 41
4.3.1 實驗環境設定 ... 41 4.3.2 實驗模擬結果 ... 42 4.3.2.1 實驗第一部份:MPEG 測試影像提供的景深圖對於合成結果的表現 ... 42 4.3.2.2 實驗第二部份:景深圖的差異性對於合成結果的表現 ... 58 4.3.2.3 實驗第三部份:攝影機位置的差異性對於合成結果的表現 ... 73 第 5 章 基於三角形映射的景深圖資訊的任意視點合成演算法設計 ... 89 5.1 概述 (Overview) ... 89
5.2 傳統的任意視點合成演算法介紹 (Introduction to Conventional View Synthesis Algorithm) ... 89
5.2.1 利用畫素對畫素投影映射的視點合成演算法 (View Synthesis Algorithm by Using Pixel-by-pixel Warping) ... 89
5.2.2 利用三角形對三角形投影映射的視點合成演算法 (View Synthesis Algorithm by Using Triangle-by-triangle Warping) ... 90
5.3 基於三角映射的景深圖資訊的視點合成演算法 (View Synthesis Algorithm Based on Triangular Warped Depth Maps) ... 92
5.3.1 針對景深圖擷取特徵點 (Extraction of Feature Points for Depth Maps) ... 93
5.3.2 對於景深圖的特徵點三角化 (Delaunay Triangulation for Depth Maps) ... 93
5.3.3 景深圖經由三角形投影映射至目標影像位置 (Depth Maps Projection with Triangular Warping) ... 94
5.3.4 針對映射後的景深圖進行後續濾波器處理 (Post-filtering on the Projected Depth Maps) ... 95
5.3.5 利用景深資訊將參考影像映射至虛擬視點畫面 (Froward Warping to the Virtual View Based on Depth Maps) ... 96
5.3.6 左右兩張映射後的影像進行線性疊合 (Linear Blending of The Two Warped View) ... 97
5.3.7 影像邊緣擴張與影像修補 (Boundary Matting and Image Inpainting) ... 98
5.4 模擬與討論 (Simulation and Results) ... 101
5.4.1 模擬結果 ... 101
5.4.1.2 實驗第二部份:特徵點個數對於合成結果的影響與 PSNR 表現 ... 116 第 6 章 結論與未來工作 ... 132 6.1 結論 ... 132 6.2 未來工作 ... 133 參考文獻 ... 134 自傳 ... 137
ix
圖目錄
圖 2-1 立體影像幾何關係 ... 4 圖 2-2 相機針孔模型示意圖 ... 5 圖 2-3 相機外部參數轉換關係示意圖 ... 7 圖 2-4 目標影像與來源影像之間的三維轉換映射關係 ... 8 圖 2-5 影像空間對應光影射線關係 ... 9 圖 2-6 三維空間中的一齊次點座標與不同影像平面的對應關係示意圖 ... 9 圖 2-7 兩相機點座標與深度值的對應關係示意圖 ... 11 圖 2-8 VSRS 2.0 的程式設計平台設計架構 ... 12 圖 3-1 FB Pattern ... 17 圖 3-2 BF Pattern ... 17 圖 3-3 FBF 表示示意圖 ... 21圖 3-4 不同的瑕疵現象情況分析表示示意圖:(a) Case 2-FBLF, (b) Case 4-FBRB, (c) Case 6-BFLB, and (d) Case 8-BFRF ... 22
圖 3-5 三層不同深度值的正確映射方向表示示意圖 ... 23 圖 3-6 FB 的情況下可能產生的瑕疵現象映射過程示意圖 ... 25 圖 3-7 FB 的情況下可能產生的瑕疵現象映射過程示意圖 ... 25 圖 3-8 Yang 的演算法設計架構流程圖[16] ... 26 圖 3-9 合成影像由 (a)左邊 (b)右邊 參考視點所產生 ... 27 圖 3-10 待合成攝影機位置與左右兩邊的參考攝影機距離示意圖 ... 28 圖 3-11 依照左邊參考影像所產生的可依賴性二值化判別圖 ... 30 圖 3-12 Yang et al.[16]合成後產生破洞的影像結果(紅色區域) ... 31 圖 3-13 Yang et al.[16]最後影像合成結果 ... 31
圖 4-1 利用 Delaunay 三角化的方式將特徵點連結:測試影像 “Champagne Tower” (a)視點 39 (特徵點數目:1496) (b)視點 41 (特徵點數目:1658) ... 35 圖 4-2 在ZZnearnear與ZZf arf ar兩個夾擊平面中預測最佳化景深量化值示意圖[12] ... 36 圖 4-3 測試影像 “Champagne Tower”:(a) 由視點 39 所合成的虛擬視點 40 的目 標影像 (b) 由視點 41 所合成的虛擬視點 40 的目標影像 (c) 視點 39 合 成虛擬視點 40 所造成的遮蔽區域 (d) 視點 41 合成虛擬視點 40 所造成 的遮蔽區域... 37 圖 4-4 經過中值濾波法修復細小的遮蔽區域 ... 38 圖 4-5 擁有三個不同子頻帶的多率頻段疊合範例。其中k = 1; 2; 3k = 1; 2; 3的BBk¾k¾如同左邊 影像所示,右邊影像代表相對應被遮蔽區域的權重函數... 40 圖 4-6 測試影像 “Newspaper"由視點 04 與視點 06 所合成的虛擬視點 05 結果 比較圖... 44 圖 4-7 測試影像 “Newspaper"由視點 04 與視點 06 所合成的虛擬視點 05 細部 結果放大比較圖... 45
圖 4-8 不同的視點合成演算法在測試影像 “Newspaper"視點 05 的前 100 張影 像 PSNR 表現... 46 圖 4-9 不同的視點合成演算法針對測試影像 “Newspaper" 視點 05 的前 100 張影像上的平均 PSNR 表現... 46 圖 4-10 測試影像 “Kendo"由視點 03 與視點 05 所合成的虛擬視點 04 結果比 較圖... 47 圖 4-11 測試影像 “Kendo"由視點 03 與視點 05 所合成的虛擬視點 04 細部放 大結果比較圖... 48 圖 4-12 不同的視點合成演算法在測試影像 “Kendo"視點 04 的前 100 張影像 PSNR 表現... 49 圖 4-13 不同的視點合成演算法針對測試影像 “Kendo"視點 04 的前 100 張影 像上的平均 PSNR 表現... 49 圖 4-14 測試影像 “Champagne tower"由視點 39 與視點 41 所合成的虛擬視點 40 結果比較圖... 50 圖 4-15 測試影像 “Champagne tower"由視點 39 與視點 41 所合成的虛擬視點 40 細部放大結果比較圖... 51 圖 4-16 不同的視點合成演算法在測試影像 “Champagne tower"視點 40 的前 100 張影像 PSNR 表現... 52 圖 4-17 不同的視點合成演算法針對測試影像 “Champagne tower" 視點 40 的 前 100 張影像上的平均 PSNR 表現... 52 圖 4-18 測試影像 “Book arrival"由視點 08 與視點 10 所合成的虛擬視點 09 結 果比較圖... 53 圖 4-19 測試影像 “Book arrival"由視點 08 與視點 10 所合成的虛擬視點 09 細 部放大結果比較圖... 54 圖 4-20 不同的視點合成演算法在測試影像 “Book arrival"視點 09 的前 100 張 影像 PSNR 表現... 55 圖 4-21 不同的視點合成演算法針對測試影像 “Book arrival" 視點 09 的前 100 張影像上的平均 PSNR 表現... 55 圖 4-22 測試影像 “Newspaper"利用 DERS 4.9 產生的景深圖由視點 04 與視點 06 所合成的虛擬視點 05 結果比較圖... 59 圖 4-23 測試影像 “Newspaper"利用 DERS 4.9 產生的景深圖由視點 04 與視點 06 所合成的虛擬視點 05 細部結果放大比較圖... 60 圖 4-24 DERS 4.9 產生的景深圖對於視點合成演算法在測試影像 “Newspaper" 視點 05 的前 30 張影像 PSNR 表現... 61 圖 4-25 DERS 4.9 產 生 的 景 深 圖 對 於 視 點 視 點 合 成 演 算 法 針 對 測 試 影 像 “Newspaper"視點 05 的前 30 張影像上的平均 PSNR 表現 ... 61 圖 4-26 測試影像 “Kendo"利用 DERS 4.9 產生的景深圖由視點 03 與視點 05 所合成的虛擬視點 04 結果比較圖... 62
xi 圖 4-27 測試影像 “Kendo"利用 DERS 4.9 產生的景深圖由視點 03 與視點 05 所合成的虛擬視點 04 細部放大結果比較圖... 63 圖 4-28 DERS 4.9 產生的景深圖對於視點視點合成演算法在測試影像 “Kendo" 視點 04 的前 30 張影像 PSNR 表現... 64 圖 4-29 DERS 4.9 產 生 的 景 深 圖 對 於 視 點 視 點 合 成 演 算 法 針 對 測 試 影 像 “Kendo"視點 04 的前 30 張影像上的平均 PSNR 表現 ... 64 圖 4-30 測試影像 “Champagne tower"利用 DERS 4.9 產生的景深圖由視點 39
與視點 41 所合成的虛擬視點 40 結果比較圖... 65 圖 4-31 測試影像 “Champagne tower"利用 DERS 4.9 產生的景深圖由視點 39
與視點 41 所合成的虛擬視點 40 細部放大結果比較圖... 66 圖 4-32 DERS 4.9 產 生 的 景 深 圖 對 於 視 點 視 點 合 成 演 算 法 在 測 試 影 像 “Champagne tower"視點 40 的前 30 張影像 PSNR 表現 ... 67 圖 4-33 DERS 4.9 產 生 的 景 深 圖 對 於 視 點 視 點 合 成 演 算 法 針 對 測 試 影 像
Champagne tower" “視點 40 的前 30 張影像上的平均 PSNR 表現 ... 67 圖 4-34 測試影像 “Book arrival"利用 DERS 4.9 產生的景深圖由視點 08 與視
點 10 所合成的虛擬視點 09 結果比較圖... 68 圖 4-35 測試影像 “Book arrival"利用 DERS 4.9 產生的景深圖由視點 08 與視
點 10 所合成的虛擬視點 09 細部放大結果比較圖... 69 圖 4-36 DERS 4.9 產生的景深圖對於視點視點合成演算法在測試影像 “Book arrival"視點 09 的前 30 張影像 PSNR 表現 ... 70 圖 4-37 DERS 4.9 產生的景深圖對於視點視點合成演算法針對測試影像 “Book arrival" 視點 09 的前 30 張影像上的平均 PSNR 表現 ... 70 圖 4-38 測試影像 “Newspaper"利用 DERS 4.9 產生的景深圖由視點 04 與視點 06 所合成的虛擬視點 05 結果比較圖... 74 圖 4-39 測試影像 “Newspaper"利用 DERS 4.9 產生的景深圖由視點 04 與視點 06 所合成的虛擬視點 05 細部結果放大比較圖... 75 圖 4-40 DERS 4.9 產生視點 04 與視點 06 的景深圖對於視點合成演算法在測試影 像 “ Newspaper"視點 05 的前 30 張影像 PSNR 表現 ... 76 圖 4-41 DERS 4.9 產生視點 04 與視點 06 的景深圖對於視點視點合成演算法針對 測試影像 “Newspaper"視點 05 的前 30 張影像上的平均 PSNR 表現 76 圖 4-42 測試影像 “Kendo"利用 DERS 4.9 產生的景深圖由視點 02 與視點 05 所合成的虛擬視點 04 結果比較圖... 77 圖 4-43 測試影像 “Kendo"利用 DERS 4.9 產生的景深圖由視點 02 與視點 05 所合成的虛擬視點 04 細部放大結果比較圖... 78 圖 4-44 DERS 4.9 產生視點 02 與視點 05 的景深圖對於視點視點合成演算法在測 試影像 “Kendo"視點 04 的前 30 張影像 PSNR 表現 ... 79 圖 4-45 DERS 4.9 產生視點 02 與視點 05 的景深圖對於視點視點合成演算法針對 測試影像 “Kendo"視點 04 的前 30 張影像上的平均 PSNR 表現 ... 79
圖 4-46 測試影像 “Champagne tower"利用 DERS 4.9 產生的景深圖由視點 38
與視點 42 所合成的虛擬視點 40 結果比較圖... 80
圖 4-47 測試影像 “Champagne tower"利用 DERS 4.9 產生的景深圖由視點 38 與視點 42 所合成的虛擬視點 40 細部放大結果比較圖... 81 圖 4-48 DERS 4.9 產生視點 38 與視點 42 的景深圖對於視點視點合成演算法在測 試影像 “Champagne tower"視點 40 的前 30 張影像 PSNR 表現 ... 82 圖 4-49 DERS 4.9 產生視點 38 與視點 42 的景深圖對於視點視點合成演算法針對 測試影像 “Champagne tower"視點 40 的前 30 張影像上的平均 PSNR 表現... 82
圖 4-50 測試影像 “Book arrival"利用 DERS 4.9 產生的景深圖由視點 08 與視 點 11 所合成的虛擬視點 09 結果比較圖 ... 83
圖 4-51 測試影像 “Book arrival"利用 DERS 4.9 產生的景深圖由視點 08 與視 點 11 所合成的虛擬視點 09 細部放大結果比較圖 ... 84 圖 4-52 DERS 4.9 產生視點 08 與視點 11 的景深圖對於視點視點合成演算法在測 試影像 “Book arrival"視點 09 的前 30 張影像 PSNR 表現 ... 85 圖 4-53 DERS 4.9 產生視點 08 與視點 11 的景深圖對於視點視點合成演算法針對 測試影像 “Book arrival"視點 09 的前 30 張影像上的平均 PSNR 表現 ... 85 圖 5-1 畫素對畫素投影映射的視點合成演算法架構設計 ... 90 圖 5-2 三角形對三角形投影映射的視點合成演算法設計 ... 91 圖 5-3 基於三角映射的景深圖資訊的視點合成演算法介紹 ... 93 圖 5-4 利用 Delaunay 三角化重建三角平面模型:測試影像 “Newspaper” (特徵 點數目:5656) ... 94 圖 5-5 MPEG 測試影像 “Newspaper”經過三角映射後的景深圖,其中(a)由視點 04 經三角映射後的視點 05 的景深圖(b)由視點 06 經三角映射後的視點 05 的景深圖... 95 圖 5-6 MPEG 測試影像 “Newspaper”經過後續濾波器處理後的景深圖,其中(a) 由視點 04 三角映射後的視點 05 景深圖經過後續濾波器的處理結果,(b) 由視點 06 三角映射後的視點 05 景深圖經過後續濾波器的處理結果.... 96 圖 5-7 MPEG 測試影像 “Newspaper”由鄰近兩個攝影機視點位置正向投影映射 後的結果,其中(a)由視點 04 投影映射至視點 05 的目標影像結果以及(b) 由視點 06 投影映射至視點 05 的目標影像結果... 97 圖 5-8 MPEG 測試影像 “Newspaper”經由影像擴張處理之後的結果圖... 99 圖 5-9 待修補可靠度區域的梯度相關值示意圖 ... 99 圖 5-10 影像修補的步驟示意圖 ... 100 圖 5-11 未經過影像修補前的合成影像結果以及待修補的區域 ... 101 圖 5-12 經過影像修補後的合成影像結果 ... 101 圖 5-13 測試影像 “Newspaper”由視點 04 與視點 06 所合成的虛擬視點 05 結果
xiii 比較圖... 103 圖 5-14 測試影像 “Newspaper”由視點 04 與視點 06 所合成的虛擬視點 05 細部 結果放大比較圖... 104 圖 5-15 不同的視點合成演算法在測試影像 “Newspaper"視點 05 的前 30 張影 像 PSNR 表現... 105 圖 5-16 不同的視點合成演算法針對測試影像 “Newspaper"視點 05 的前 30 張 影像上的平均 PSNR 表現... 105 圖 5-17 測試影像 “Kendo”由視點 03 與視點 05 所合成的虛擬視點 04 結果比較 圖... 106 圖 5-18 測試影像 “Kendo”由視點 03 與視點 05 所合成的虛擬視點 04 細部結果 放大比較圖... 107 圖 5-19 不同的視點合成演算法在測試影像 “Kendo"視點 04 的前 30 張影像 PSNR 表現... 108 圖 5-20 不同的視點合成演算法針對測試影像 “Kendo"視點 04 的前 30 張影像 上的平均 PSNR 表現... 108 圖 5-21 測試影像 “Champagne tower”由視點 39 與視點 41 所合成的虛擬視點 40 結果比較圖... 109 圖 5-22 測試影像 “Champagne tower”由視點 39 與視點 41 所合成的虛擬視點 40 細部結果放大比較圖... 110 圖 5-23 不同的視點合成演算法在測試影像 “Champagne tower"視點 40 的前 30 張影像 PSNR 表現... 111 圖 5-24 不同的視點合成演算法針對測試影像 “Champagne tower"視點 40 的 前 30 張影像上的平均 PSNR 表現... 111 圖 5-25 測試影像 “Book arrival”由視點 08 與視點 10 所合成的虛擬視點 09 結果 比較圖... 112 圖 5-26 測試影像 “Book arrival”由視點 08 與視點 10 所合成的虛擬視點 09 細部 結果放大比較圖... 113 圖 5-27 不同的視點合成演算法在測試影像 “Book arrival"視點 10 的前 30 張 影像 PSNR 表現... 114 圖 5-28 不同的視點合成演算法針對測試影像 “Book arrival"視點 10 的前 30 張影像上的平均 PSNR 表現... 114 圖 5-29 TBTW 演算法在不同特徵點的數目下對於 MEPG 測試影像 “Newspaper" 的視點 05 合成目標細部放大圖... 118 圖 5-30 TBDMW 演 算 法 在 不 同 特 徵 點 的 數 目 下 對 於 MEPG 測 試 影 像 “Newspaper"的視點 05 合成目標細部放大圖 ... 119 圖 5-31 TBTW 演算法在不同特徵點的數目下對於 MEPG 測試影像" “Kendo" 的視點 04 合成目標細部放大圖... 121 圖 5-32 TBDMW 演算法在不同特徵點的數目下對於 MEPG 測試影像 “Kendo"
的視點 04 合成目標細部放大圖... 122 圖 5-33 TBTW 演 算 法 在 不 同 特 徵 點 的 數 目 下 對 於 MEPG 測 試 影 像 “Champagne tower"的視點 40 合成目標細部放大圖 ... 124 圖 5-34 TBDMW 演 算 法 在 不 同 特 徵 點 的 數 目 下 對 於 MEPG 測 試 影 像 “Champagne tower"的視點 40 合成目標細部放大圖 ... 125 圖 5-35 TBTW 演算法在不同特徵點的數目下對於 MEPG 測試影像 “Book arrival"的視點 09 合成目標細部放大圖 ... 127 圖 5-36 TBDMW 演算法在不同特徵點的數目下對於 MEPG 測試影像 “Book arrival"的視點 09 合成目標細部放大圖 ... 128
xv
表目錄
表 1 MPEG 測試影像介紹表 ... 15 表 2 造成合成瑕疵現象的情況分析與深度值模式... 18 表 3 三層不同深度值邊緣表示法... 23 表 4 三層不同深度值可能造成的瑕疵現象分析表... 24 表 5 VSRS 2.0 環境參數設定 ... 41 表 6 MPEG 測試影像以及對應景深圖 ... 43 表 7 MPEG 測試影像前 100 張合成影像的平均 PSNR 效能表現 ... 57 表 8 DERS 4.9 產生的景深圖以及對應的視點位置 ... 58表 9 MPEG 測試影像 “Book arrival”對於不同的景深圖合成結果比較表 ... 71
表 10 MPEG 測試影像針對前 30 張合成影像的平均 PSNR 效能表現 ... 72 表 11 DERS 4.9 產生的景深圖以及新對應的視點位置 ... 73 表 12 MPEG 測試影像提供的景深圖對於前 30 張合成影像的平均 PSNR 效能表 現... 86 表 13 DERS 4.9 產生的景深圖對於前 30 張合成影像的平均 PSNR 效能表現 ... 87 表 14 MPEG 測試影像前 30 張合成影像的平均 PSNR 效能表現 ... 115
表 15 MPEG 測試影像 “Book arrival”對於不同演算法的細部放大結果比較圖 ... 116
表 16 演算法在不同特徵點的個數下對於 MEPG 測試影像 “Newspaper"的 PSNR 曲線變化圖... 117
表 17 演算法在不同特徵點的個數下對於 MEPG 測試影像 “Kendo"的 PSNR 曲線變化圖... 120
表 18 演算法在不同特徵點的個數下對於 MEPG 測試影像 “Champagne tower" 的 PSNR 曲線變化圖... 123
表 19 演算法在不同特徵點的個數下對於 MEPG 測試影像 “Book arrival"的 PSNR 曲線變化圖... 126
表 20 演算法在不同特徵點個數對於 MPEG 測試影像的 PSNR 表現 ... 129
第1章 緒論
1.1 研究背景 (Background)
在近年來,隨著硬體以及相關演算法的進步,同時伴隨著三維影像顯影技術
的成熟,自由視點顯影成像技術(Free Viewpoint Television)已經成為多媒體研究
領域上熱門的研究題目[18]。自由視點顯影成像技術主要目的是能夠提供使用者
使用有限的影像設備來精確合成三維空間中任意視點的場景資訊,並且能夠有效
的壓縮所記錄的資訊,以達到最小的傳輸量。
MPEG 國際標準會議(ISO/IEC Moving Picture Expert Group)在近年來也正式 制定了 3DAV(3D Audio-Video)標準文件,其目標是推廣現有的視訊標準,其中自
由視點顯影成像系統是一個新的互動式立體視訊(Interactive Video System)[21]。
自由視點顯影成像系統是一種建立影像場景成像(Image-based Rendering)的
方法。一般而言,建立影像場景成像是利用多台不同位置的攝影機擷取影像,並
且依據光學原理內插出不同視點所見的畫面,自由視點顯影成像系統包含了下列
功能單元,分別是擷取多重影像(Multi-view Video Capture)、影像校正(Image
Correction)[2][3] 、 場 景 景 深 預 估 (Depth Estimation)[1] 、 多 重 視 點 壓 縮 技 術
(Multi-view Video Codec)以及視點合成(View Synthesis)[16]。
在極線幾何(Epipolar Geometry)的估算之下,我們在一個攝影機陣列中,可 以利用極線幾何的特性產生三維擷取影像場景的景深圖(Depth Map),目前為止 預 測 景 深 圖 的 演 算 法 已 經 發 展 了 好 幾 種 , 其 中 使 用 能 量 最 小 化 (Energy minimization)的演算法預測的景深圖是最成功[1],但是景深圖仍有一些邊緣部分 不自然的現象有待改善,影像壓縮技術已被廣泛的應用在多媒體通訊上,我們可 以利用多重視點壓縮編碼與解碼技術有效減少三維場景資訊的傳輸量與儲存量, 其中視點合成對於自由視點顯影成像技術(FTV)是一個重要的技術,視點合成在 進行內插影像時,為了增加其合成影像品質我們會搭配景深圖當作參考,在近年
2
來,已經有許多研究者投入視點合成的技術,縱使預測的景深圖邊緣處並非完美,
但是我們希望能夠利用視點合成的演算法設計來改善合成出來的影像品質,在本
篇文獻中,我們也會專注於視點合成的演算法設計部分。
1.2 研究動機及貢獻 (Motivation and Contributions)
視 點 合 成 演 算 法 可 以 分 成 兩 大 部 分 , 第 一 個 部 分 為 紋 理 映 射 (Texture mapping),第二個部分為降低瑕疵現象(Artifact reduction),在本篇文獻中,我們 計算出梯度相關值來擷取新的特徵點,我們將這些特徵點利用 Delaunay 三角化 的方法連結起來,利用三角化大面積的型式去做紋理映射到目標影像的位置上。 在降低瑕疵現象(Artifacts)的部分,合成影像的邊緣處有可能因為曝光等原因, 我們可以使用多頻段混合(Multi-band Blending)的方式混合影像中的邊緣區域使 得細節較清晰,得到品質較佳的合成影像。 傳統的自由視點顯影成像系統大多都是使用排列密集的一維攝影機陣列來 擷取影像,自由視點顯影成像在進行影像合成顯影成像時,在多數的研究中,通 常 紋 理 映 射 的 部 分 大 都 是 使 用 畫 素 對 畫 素 的 方 式 進 行 映 射 (pixel-by-pixel warping)。然而,在本篇論文中我們使用的紋理映射方式是使用三角形對三角形 的映射方式(Region-by-region warping),如果可以精確的建立三角化模型的話, 三角形映射方式的確會得到一個較佳的合成影像品質。然而,所以事先選擇特徵 點的步驟扮演著一個相當重要的角色,因為選取特徵點的好壞會影響三角形映射 的目標影像品質,在本篇論文當中,我們也提出了一個有效的演算法架構並且獲 取好的特徵點。 另外,目前有許多研究也針對於合成影像的邊緣處產生不自然的人造現象 (Artifacts)提出許多不同的演算法以改善合成影像的品質。在本篇論文中,我們 提出了使用多頻段調和(Multi-band Blending)的方式混合影像中的邊緣區域使得 細節較清晰,得到品質較佳的合成影像,我們會在第四章之後解釋。
1.3 論文大綱 (Organization of the Thesis)
在本篇論文中,第二章將會簡單介紹極平面圖像與三維空間中的場景彼此之 間的關係,並利用該關係來合成虛擬視點影像。在第三章中,我們將會介紹傳統 的視點合成演算法設計流程以及前向映射可能會導致的錯誤問題。在本篇論文第 四章中,我們將會針對另外的前向映射方法提出新的演算法架構設計,並且加以 分析以及討論其合成結果的表現。在本篇論文的第五章,我們將結合傳統的視點 合成演算法與基於三角形映射的演算法的優點,成為一種新的視點合成演算法設 計架構,並且得到品質較佳的合成影像實驗結果。最後,第六章對本論文的未來 研究方向做個簡短的說明以及總結。4
第2章 相關工作
2.1 立體影像幾何概述 (Overview of Stereo Geometry)
當相機未校正的情況下,我們可以透過極線幾何特性的限制關係獲得相機內、
外部參數的求取,如圖 2-1 所示。表示一個三維空間中典型的立體影像系統示意
圖。我們使用兩個針孔成像攝影機來擷取影像資料,並將成像平面置於鏡頭前方。
兩台攝影機之間的連線我們稱之為基線(Baseline),其中基線和成像平面的交錯
處稱之為極點(Epipole),而空間中任一點 P 和兩台攝影機的基線所組成的平面稱
為極平面(Epipolar plane),極平面在成像平面上的相交線稱為極線(Epipolar line),
在極平面上的每一點都會投影到與其對應的極線上的點。
image plane 1 image plane 2 Epipolar plane Baseline P1 P2 Epipole Epipolar Line 圖 2-1 立體影像幾何關係 由於在極平面上的各點都會投影成每張影像上得到一條極線,因此對應到同 一張極平面上的兩條極線,其線上各點也都存在著幾何對應關係。當我們在兩張 影像上搜尋互相對應的點時,可藉由此特性將原本的搜尋範圍從在平面上的搜尋 轉換為僅在極線上的搜尋,可以針對極線上的對應點搜尋藉以大幅減少搜尋範圍,
在兩張以上的影像之間搜尋一給定的對應點時,我們只需要計算一次極平面即可,
這項特性稱之為極線限制(Epipolar constraint),更詳細的極線幾何定理介紹可以
參考[25]。
2.2 針孔相機模型 (Pinhole Camera Model)
近年來電腦視覺的蓬勃發展,相機校正的應用也越來越廣泛[2][3],在相機 校正的過程中,其主要目標為解決三維立體座標空間轉換成二維平面座標空間產 生的未知相機參數,一般而言,相機參數可以分成內部參數(Intrinsic Parameters) 與外部參數(Extrinsic Parameters),為相機模組中個座標系統間的相互轉換關係。 X Y Z f Image plane P(X,Y,Z) p(u,v) x y O 圖 2-2 相機針孔模型示意圖 內部參數與相機位置無關,其參數可視為針孔相機模型(Pinhole camera model),如圖 2-2 所示,針孔相機模型是利用相機鏡頭的鏡心當作針孔,作針孔 成像的轉換,內部參數矩陣包含焦距長、型變參數(Skew factor)、中心點(Principal point),現代數位變焦鏡頭其內部參數會隨著焦點不同而改變。 將 3D 座標系統上得點投影到Z = fZ = f的影像平面上,O 為相機中心點、f 為 相機焦距長,故座標系統屬於相機座標系統。依照 Z 與 f 的投影長度,可利用三
6 角的幾何關係獲得關係式如下式(2.1)表示: (x; y) = (Xf Z + uc; Y f Z + vc) (x; y) = (Xf Z + uc; Y f Z + vc) (2.1) 其中(u(ucc; v; vcc))為中心點、f 為鏡頭焦距長、Z 為深度值,我們將影像空間上的點與 三維空間的點用轉換關係式可表示成: s ¢ p = 2 4 sx sy s 3 5 = 2 4 fu 0 uc 0 0 fv vc 0 0 0 1 0 3 5 ¢ 2 6 6 4 X Y Z 1 3 7 7 5 = M ¢ P s ¢ p = 2 4 sx sy s 3 5 = 2 4 fu 0 uc 0 0 fv vc 0 0 0 1 0 3 5 ¢ 2 6 6 4 X Y Z 1 3 7 7 5 = M ¢ P (2.2) 其中 s 表示一純量、p 表示影像平面上的座標點、P 為三維空間中的對應座標點、 M 是一個 3x4 的矩陣,在這裡我們稱為投影矩陣(Projective matrix)。 承上式(2.2)可改寫成: p = A[I3x3j0]Pcam p = A[I3x3j0]Pcam (2.3) A = 2 4 fu ° u0 0 fv v0 0 0 1 3 5 3£3 A = 2 4 fu ° u0 0 fv v0 0 0 1 3 5 3£3 (2.4) 上述的投影矩陣在環境設定中,影像平面的 x 軸與 y 軸兩個方向的比例是相 同的,由於相機的鏡頭失真關係,一般而言,相機的 x,y 軸比例可能不一定相等, 可將焦距ff 分為ffuu與ffvv以代表 x 軸與 y 軸的不同焦距,內部參數包括了 skew factor ° °表示影像平面 x 軸與 y 軸夾角對於直角的歪斜程度,其內部參數矩陣可表示如 式(2.4)。 外部參數與相機的擺設位置與參考點制定有關,其作用為將視界座標轉換為 以相機鏡心為原點的座標,有旋轉矩陣與位移矩陣。如圖 2-3 所示。
[ R | t ] 圖 2-3 相機外部參數轉換關係示意圖 其中 R 為世界座標中心與相機座標中心的轉換關係矩陣,t 表示為一個位移向量, 可表示為下式(2.5): 2 4 Xcam Ycam Zcam 3 5 = Rcw 2 4 Xw Yw Zw 3 5 + tcw = £ Rcw j tcw ¤ ¢ 2 6 6 4 Xw Yw Zw 1 3 7 7 5 2 4 Xcam Ycam Zcam 3 5 = Rcw 2 4 Xw Yw Zw 3 5 + tcw = £ Rcw j tcw ¤ ¢ 2 6 6 4 Xw Yw Zw 1 3 7 7 5 (2.5) 藉由式(2.3)與式(2.5)可以得知,相機影像平面上的位置可以利用空間中的三 維座標經由內部參數以及外部參數得到下式(2.6): s ¢ ^p = A ¢ Pcam = A ¢ [Rcwjtcw] ¢ ^P = M ¢ ^P s ¢ ^p = A ¢ Pcam = A ¢ [Rcwjtcw] ¢ ^P = M ¢ ^P (2.6) ~ p = 2 4 u v 1 3 5 ~P = 2 6 6 4 Xw Yw Zw 1 3 7 7 5 ~ p = 2 4 u v 1 3 5 ~P = 2 6 6 4 Xw Yw Zw 1 3 7 7 5 (2.7) 其中 A 為內部參數、世界座標系統與相機座標系統利用旋轉矩陣 R 與平移向量 t 表示其轉換關係,其中 R 為旋轉矩陣、t 為位移向量。M 為一個3 £ 43 £ 4的投影矩陣, ~ p~ p代表在平面影像上的齊次座標點、P~P~則代表在三維空間中的其次座標點。 當我們了解相機參數後,便可以透過不同位移、角度甚至是不同焦距所擷取
8 的影像,依據彼此共同的對應點求得各影像間的對應點轉換關係。
2.3 二維空間轉換映射 (2D Warping)
在 3D 互動式圖學應用領域上,我們盡可能希望利用低成本的硬體設備來建 立複雜的幾何模型,三維空間轉換映射在 Image-based rendering(IBR)是經常使用 的技巧[7][11],在傳統的圖學應用中,藉由鄰近視角的影像資訊當作參考影像合 成得到我們合成視角的影像資訊,在轉換視角的過程中,如圖 2-4 所示,Warping的目的在於我們找出來源影像 f(x,y)與目的影像 g(x’,y’)的轉換關係式 T(x,y),3D
warping 的缺點是如果合成視角和來源視角的角度相差越大,這時候來源影像的 點經由轉換關係式轉換後,會因為遮蔽效應的問題(Occlusion)使得顯示的參考資 訊因此變少影響顯示影像產生不連續性的空洞,造成影像品質下降。
f(x,y)
g(x’,y’)
x
x’
T(x,y)
y
y’
圖 2-4 目標影像與來源影像之間的三維轉換映射關係 考慮一個以(^i; ^(^i; ^j ; ^j ; ^k)k)為基底向量的三維空間座標的方向向量dd,如圖 2-5 所示,我 們可以定義一個二維座標的影像平面,假設影像空間的原點在影像平面上的左上 角,那麼我們可以在影像平面上的齊次點座標與三維座標可以找到一個對應關係 式。其中在影像座標系統的座標軸我們以(u, v)表示,方向向量 d 代表對應射線 的方向性。映射矩陣 P 與向量 aa, bb, cc的關係如同式(2.8)所示,aa, bb, cc與 dd有相同的座標系統,其關係式如圖 2-6 所示、 aa, bb可以表示成一個以^s^s與^t^t為基底向 量的(^i; ^j; ^(^i; ^j; ^k)k)影像座標系統、cc代表從光線原點到影像平面原點的向量。 圖 2-5 影像空間對應光影射線關係 (x2,y2) (x1,y1) a2 a1 b2 b1 c2 圖 2-6 三維空間中的一齊次點座標與不同影像平面的對應關係示意圖 ¡ ! d = 2 4 di dj dk 3 5 = 2 4 ai bi ci aj bj cj ak bk ck 3 5 2 4 u v 1 3 5 = P 2 4 u v 1 3 5 ¡ ! d = 2 4 di dj dk 3 5 = 2 4 ai bi ci aj bj cj ak bk ck 3 5 2 4 u v 1 3 5 = P 2 4 u v 1 3 5 (2.8) 在一個三維空間座標系統中,兩個不同的針孔相機座標系統皆可對應於同一 個點。位於第一個影像平面座標系統的點xx11以CC__11當作原點可以決定為光線射線dd11, 其方向與點xx11的關係為dd11= P= P11xx11。相同地,位於第二個影像平面座標系統的點xx22
10 以CC__22當作原點可以決定為光線射線dd22,X_X_對應到兩個不同視角對應關係式如下式 (2.9)所表示: _ X = _C1+ (¡!a1x1+ ¡ ! b 1y1+ ¡!c1)=±1 = _C2+ (¡!a2x2+ ¡ ! b 2y2+ ¡!c2)=±2 _ X = _C1+ (¡!a1x1+ ¡ ! b 1y1+ ¡!c1)=±1 = _C2+ (¡!a2x2+ ¡ ! b 2y2+ ¡!c2)=±2 (2.9) 其中±±代表視差值(Disparity),通常我們會假設兩個影像平面都是平行排列的,如 圖 2-7 所示,我們可以表示成下式(2.10): 1 ±2 2 4 x2 y2 1 3 5 2 4 a2x b2x c2x a2y b2y c2y a2z b2z c2z 3 5 = ( _C1¡ _C2) + 1 ±1 2 4 x1 y1 1 3 5 2 4 a1x b1x c1x a1y b1y c1y a1z b1z c1z 3 5 1 ±2 2 4 x2 y2 1 3 5 2 4 a2x b2x c2x a2y b2y c2y a2z b2z c2z 3 5 = ( _C1¡ _C2) + 1 ±1 2 4 x1 y1 1 3 5 2 4 a1x b1x c1x a1y b1y c1y a1z b1z c1z 3 5 (2.10) 最後可以推出以下結果(2.11): (x2; y2) = ( k1x1+ k2y1+ k3+ k4±1 k9x1+ k10y1+ k11+ k12±1 ; k5x1+ k6y1+ k7+ k8±1 k9x1+ k10y1 + k11+ k12±1 ) (x2; y2) = ( k1x1+ k2y1+ k3+ k4±1 k9x1+ k10y1+ k11+ k12±1 ; k5x1+ k6y1+ k7+ k8±1 k9x1+ k10y1 + k11+ k12±1 ) (2.11) 其中 K 可表示成下式(2.12)與(2.13): K = 2 4 k1 k2 k3 k5 k6 k7 k9 k10 k11 3 5 = 2 4 a2x b2x c2x a2y b2y c2y a2z b2z c2z 3 5 ¡12 4 a1x b1x c1x a1y b1y c1y a1z b1z c1z 3 5 K = 2 4 k1 k2 k3 k5 k6 k7 k9 k10 k11 3 5 = 2 4 a2x b2x c2x a2y b2y c2y a2z b2z c2z 3 5 ¡12 4 a1x b1x c1x a1y b1y c1y a1z b1z c1z 3 5 (2.12) 2 4 k4 k8 k12 3 5 = 2 4 a2x b2x c2x a2y b2y c2y a2z b2z c2z 3 5 ¡1 ( _C1¡ _C2) 2 4 k4 k8 k12 3 5 = 2 4 a2x b2x c2x a2y b2y c2y a2z b2z c2z 3 5 ¡1 ( _C1¡ _C2) (2.13) 3D Warping 可以精確計算視角的旋轉與位移參數,然而我們在計算位移參 數的過程中可能會導致兩個問題,鄰近的畫素可以藉由 Warping 的過程中會移動 不同距離,因此影像重建將會是一個困難的問題;另一方面,所有的畫素雖然可 以經由 3D warping 對應到正確的目標位置,但參考影像被物體遮蔽後,參考影 像內本身並不存在的資訊則會造成遮蔽效應的問題(Occlusion),使得合成影像資 訊變少影響顯示影像產生不連續性的空洞,造成影像品質下降。
12
2.4 視 點 合 成 參 考 軟 體 介 紹 (View Synthesis Reference
Software)
2.4.1 軟體平台概述 (Overview of Software Platform)
MPEG 標準會議已經提供景深預測參考軟體(Depth Estimation Reference
Software) 以及影像合成參考軟體(View Synthesis Reference Software),我們使用 的影像合成參考軟體 2.0 版本(VSRS 2.0)是從日本名古屋大學的會員網頁下載當
作我們的演算法設計平台[19],其中圖 2-8 代表名古屋大學的程式架構,程式本
身需要外掛 OpenCV 才可以使用。在一開始,我們利用 viewsymthesis.cfg 檔案輸
入 相 機 參 數 以 及 測 試 影 像 與 深 度 影 像 的 路 徑 設 定 , main.cpp 檔 案 包 含 了
viewsynthesis 函式連結到 warping.cpp 檔案,在 viewsynthesis 函式中,首先我們 會先初始化相機參數矩陣,根據測試影像與深度影像的資訊加以計算合成影像。 本篇論文的最後,我們透過計算 PSNR 的方式來驗證原始拍攝影像與合成影像之 間的影像品質。 main.cpp warping.cpp viewsynthesis.cfg viewsynthesis(); projUVZtoXY(); cvexMedian();cvexBilateral(); cvexSetCameraParam(); projUVZtoXY.cpp
exSetCameraParam.cpp exMedian.cpp exBilateral.cpp
2.4.2 品質測試指標 (Quality Metrics) 在實驗過程中,為比較不同演算法的合成影像品質,我們採用計算 PSNR 的 方式來比較合成影像的品質。PSNR 是針對參考影像與合成影像之間的平方差異 值的一種度量定義,為最大值信號和平分差之間的一個比例值。經過影像壓縮之 後,輸出影像的訊號與原始影像的訊號會有不同,為了衡量處理後的影像品質, 我們常 PSNR 值來認定某個處理程序是否達到優良的效果。 在我們的演算法中,我們會利用左右的鄰近影像來產生中間的合成影像。在 測試時,合成影像的位置與實際拍攝影像的位置相同,用此可利用合成影像與參 考影像來計算 PSNR。一般而言,計算 PSNR 都會將 RGB 色彩空間轉換至 YUV 色彩空間,而我們通常只使用 Y 頻段來計算 PSNR,Y 頻段表示明亮度 (Luminance),RGB 與 YUV 之間的轉換關係式如下式(2.14)所示:
Y (u; v) = 0:299 ¢ R(u; v) + 0:587 ¢ G(u; v) + 0:114 ¢ B(u; v)
Y (u; v) = 0:299 ¢ R(u; v) + 0:587 ¢ G(u; v) + 0:114 ¢ B(u; v) (2.14)
其計算 PSNR 的方式如下式(2.15): P SN R = 255 2 M SE P SN R = 255 2 M SE (2.15) M SE = 1 W £ H W ¡1;H¡1X s;t=0 (Y (s; t) ¡ ^Y (s; t))2 M SE = 1 W £ H W ¡1;H¡1X s;t=0 (Y (s; t) ¡ ^Y (s; t))2 (2.16) 其中WW與HH分別代表影像寬與影像長,YY與Y^Y^分別代表參考影像與合成影像。
14
2.4.3 MPEG 測試影像介紹 (Introduction to MPEG Test Sequences)
FTV 從 MPEG 於 2002 年開始提出計畫案,至今 MPEG 標準會議已經開始 陸續針對多重影像的資料壓縮標準提出許多方案。在 2011 年 1 月,已經累積許 多來自世界各地的專家學者投注許多心血,集結多個 MPEG FTV 的測試影像 [20][21][22]。 2011 年 3 月 MPEG 委員會正式展開多重影像資料壓縮技術競賽標準(MVC), 所提供的測試影像是一維水平直線排列的攝影機陣列。事實上,由於數學模型的 精確度以及物理光學性質的限制,在拍攝的過程中仍有許多不確定的因素仍須克 服,因此針對每個不同的測試影像都必須要事先進行相機校正並且取得相機參 數。 MPEG FTV 的測試影像可以從 MPEG 會員網頁下載,更詳盡的資料可參考 [20][21]。較常使用來品質驗證的測試影像通常為以下四個測試影像:Champagne
表 1 MPEG 測試影像介紹表
Data set
Champagne tower
Kendo Book arrival Newspaper
Image size (Width x height) 1024 ££ 768 1024 ££ 768 1024 ££ 768 1024 ££ 768 Frame rate 30 30 16.67 30 Total frames 500 400 100 300 Input Corresponding Depth map Original Viewpoint Pair OL-OR 39-41 03-05 08-10 04-06 38-42 02-05 07-11 03-07 Synthesized Viewpoint 40 04 09 05 Participant Nagoya Univ. (Japan) Nagoya Univ. (Japan) HHI (Germany) GIST, Sumsung (Korea)
16
第3章 傳統任意視點合成的演算法介紹
3.1 傳統視點合成演算法概述 (Overview)
在多媒體領域當中,任意自由視點合成電視(FTV)已經成為一門熱門的研究
領域,現在不管產業界或者學術界皆已投入相當大的心力研發。過去已有許多視
點合成的演算法被提出,Mori et al.[9]的演算法是假設景深預估(Depth Estimation)
的景深圖是穩定且品質良好的,目前預測景深圖的演算法是使用立體視覺最佳化
的計算方式,其景深圖品質已經相當良好[1]。然而此演算法中,由於映射後的
景深圖會產生不連續性的裂痕與破洞,因此,在影像成像的過程前,Mori 使用
中值濾波器(Medium filter)以及雙閥值濾波器(Bilateral filter)將不連續性的裂痕修
復。Min et al.[10]的演算法假設景深圖是品質良好的,但即使使用立體視覺最佳 化的方法計算景深圖,景深圖仍然有可能會因為雜訊的關係進而推算錯誤,Min 利用簡單的中值濾波器以減少景深圖產生的破洞。然而,大部分的自然場景中總 是會包含兩層或者是更多層不同的景深,而這個現象使得預測景深圖的時候邊緣 以及不連續的地方容易產生不可採用的錯誤資訊。Yang et al.[16]針對遮蔽效應所 產生的空洞加以分析可信賴的邊緣區域,進而改善現有的視點合成演算法的設計 架構。
3.2 前向轉換映射問題 (Forward Warping Problem)
3.2.1 物體邊緣處產生的瑕疵現象 (Artifacts on Object Boundary)
首先,我們利用不同的景深模式將瑕疵現象(Artifacts)分類成不同的例子加以
分析。在實際場景成像的過程中,相較於景深圖的邊緣區域通常會包含兩種不同
的映射過程中容易導致許多肉眼可見的瑕疵現象。舉例來說,如果背景的畫素映 射到前景的位置上,則背景上會產生許多瑕疵現象。事實上,不論是參考影像或 是合成影像,我們都會假設其影像平面都是相互平行(Rectified),目前傳統上的 視點合成演算法,大部分前向映射(Forward Warping)通常都是利用左邊以及右邊 的參考影像資訊加以合成中間視點的影像。 正如我們所知,根據兩層不同深度值的邊緣有兩種不同的表示法,若是前景 位 於 左 半 邊 而 背 景 的 部 分 位 於 右 半 邊 , 我 們 稱 為 FB Pattern (Foreground
Background Pattern),我們用相同的概念,也可以得到 BF Pattern (Background
Foreground Pattern),其示意圖如圖 3-1 與圖 3-2 所示。 圖 3-1 FB Pattern 圖 3-2 BF Pattern 其中白色的圓代表是前景的畫素、黑色的圓代表是背景的畫素、灰色的圓代表是 無法預測的畫素,綠色實線的部分為正確的投影映射方向、綠色虛線的部分為遮 蔽效應造成的投影映射方向。前景的視差值假設為 3、背景的視差值設為 1,X 代表訊號強度與背景相似的畫素。更詳盡的說明如下: L: 來自左邊參考影像的畫素 (Left reference)
18 R: 來自右邊參考影像的畫素 (Right reference)
FD: 前景的視差值 (Foreground disparity)
BD: 背景的視差值 (Background disparity)
FG: 正確的前景視差值 (Ground truth disparity of foreground)
BG: 正確的背景視差值 (Ground truth disparity of background)
利用以上的定義方式註解兩層不同深度值的邊緣表示法,我們可以用五種不 同的深度值模式來分別表示八種可能產生 Artifacts 的例子,如表 2 所示:
表 2 造成合成瑕疵現象的情況分析與深度值模式
Boundary Reference Artifacts case Depth mode Artifacts
FB Pattern
Left view
Case 1-FBLB Mode 1:B D > F GB D > F G Background Case 2-FBLF Mode 2:F D < F G and B D < F GF D < F G and B D < F G Foreground
Complement Mode 4:BD · F G and F D ¸ F GBD · F G and F D ¸ F G none
Right view
Case 3-FBRF Mode 3:F D > F GF D > F G Foreground Case 4-FBRB Mode 2:F D < F G and B D < F GF D < F G and B D < F G Background
Complement Mode 5:F D · F G and BD ¸ F GF D · F G and BD ¸ F G none
BF Pattern
Left view
Case 5-BFLF Mode 3:F D > F GF D > F G Foreground Case 6-BFLB Mode 2:F D < F G and B D < F GF D < F G and B D < F G Background
Complement Mode 5:F D · F G and BD ¸ F GF D · F G and BD ¸ F G none
Right view
Case 7-BFRB Mode 1:B D > F GB D > F G Background Case 8-BFRF Mode 2:F D < F G and B D < F GF D < F G and B D < F G Foreground
Complement Mode 4:BD · F G and F D ¸ F GBD · F G and F D ¸ F G none
Pattern 都會各自有四種不同瑕疵現象的情況產生。而瑕疵現象大致上可分為由前 景以及背景產生的兩大種類,在不同的深度值模式下會造成不同的結果。若以 Case 1-FBLB 為例,Case 1 代表瑕疵現象的現象是產生在來自左邊參考影像的 FB Pattern 邊緣上,此瑕疵現象是從背景的部分產生。由觀察而得這八種可能產生瑕 疵現象的情形實際上大部分都集中在三種深度值模式,分別為:Mode 1、Mode 2、 Mode 3。其中 Mode 1:B D > F GB D > F G代表背景的預測視差值大於前景的真實視差值, 使 得 在 映 射 後 背 景 的 畫 素 可 能 會 造 成 瑕 疵 現 象 。 Mode 2 : F D < F G and B D < F G F D < F G and B D < F G代表前景與背景的視差值皆小於前景真實的視差值, 但背景預估的視差值通常都小於前景真實的視差值,使得映射過成前景的畫素可 能會造成瑕疵現象。Mode 3:F D > F GF D > F G代表前景的視差值皆大於前景真實的視 差值,使得映射過成前景的畫素可能會造成瑕疵現象。其餘兩種深度值模式 (Mode 4、Mode 5)在投影映射的過程中所產生的預測錯誤則不在我們的考慮範圍 內。事實上,在現在景深預測的運算過程中,由於視差值的幾何限制,因此背景 的視差值不可能大於真實的前景視差值,這也代表在 Mode 1 的景深模式下,Case 1 與 Case 7 其實是相同的。另外其它四種產生瑕疵現象的情況(Case 2, 4, 6, 8)都 是在 Mode 2 下發生的,代表著 Mode 2 是最常見的情形,我們會在之後的章節 詳細分析在 Mode 2 下可能會發生瑕疵現象的情況。 3.2.2 可信賴性模型 (Reliability Model) 一般而言,我們假設所有參考影像的影像平面都必須是平行的,因此所有景 深圖以及視差值皆是一維的純量。因此在猜測瑕疵現象的區域前,在景深估算的 過程中所拍攝的擷取影像與景深圖之間的影像邊緣未必一致。我們必須事先需要 知道景深圖的哪些邊緣區域在視點合成的過程中是錯誤的資訊,或者是不可信賴 的區域。然而,真實的場景合成影像上的瑕疵現象都是未知的,所以必須利用參 考影像上的資訊推導出一套判斷信賴區域的準則。
20 在圖 3-4 中,我們假設深度值模式 Mode 2 下合成中間視點影像的過程中, 可信賴的投影映射為綠色實線的畫素,以 R 表示;不可信賴的投影映射我們標 示為紅色虛線的畫素,以 UR 表示。事實上,通常只有靠近景深圖的邊緣部分一 半邊的畫素位置才是確實不可信賴的,而邊緣部分上另一半的畫素位置是假性不 可信賴的(Pseudo unreliable)。若我們能確切知道何者為背景或是前景的部分,則 將可信賴的標示範圍擴大,然而,由於每一層景深的深度值皆不相同,若將可信 賴的標示範圍擴大,可能使得位於邊緣區域的深度值產生預測錯誤的結果。 3.2.3 三層互相連接之深度值的瑕疵現象分析 (Artifacts of Triple-layer Boundary) 在章節 3.2.1 我們已經介紹兩層不同深度值的邊緣表示模型。在實際的自然 場景中,某些場景物體的面寬看起來十分細小,例如:樹枝、電線杆等。代表與 物體之間相對應的深度資訊值或是視差值擁有非常窄小的對應面積,導致了兩層 以上或多層不同深度值的邊緣變化。從景深圖的頻域角度來看,越多層不同深度 值的邊緣變化同時代表其高頻成份比起兩層深度值的情況下更為複雜許多。 由於多層不同深度值的邊緣情況十分複雜,故在本章節我們將原本複雜的情 況簡化成三層不同深度值的邊緣變化情況加以討論與說明。在這裡我們假設任何 景深圖的邊緣區域可以用兩層或者是三層不同深度值的邊緣模型表示。然而,現 有的景深預測的演算法至今仍沒辦法準確預測視差值的範圍。 理論上,三層的不同深度值的邊緣區域共包含以下三種不同部分:前景層、背景 層以及介於前景層與背景層之間的中間層,我們以MDMD代表中間層的視差值,中 間層的視差值與前景層以及背景層之間的視差值大小比較關係式如下式(3.1)所 示: BD < MD < FD BD < MD < FD (3.1) 同時也可以利用兩層不同深度值的邊緣表示法來簡化此概念。
兩層不同深度值的模型僅包含 FB Pattern 或 BF Pattern 兩種不同的表示法, 與兩層不同深度值的模型相反的是三層不同深度值的模型有六種不同的邊緣表 示法,分別為:MBFMBF、MFBMFB、FMBFMB、F BMF BM、BF MBF M以及BMFBMF。以 為 例, 代表中間層的視差值位於深度值的邊緣區域最左邊的部分、背景層位 於中間的部分、前景層則位於右邊的部分。 雖然在排列順序上這六種不同的邊緣表示法彼此不同,但是以上每種三層的 邊緣表示方法我們都可以簡化成由兩種兩層不同深度值的邊緣表示法所組成,如 表 3 所示,如果某一層擁有較小的視差值則可視為背景層。另一方面,若擁有 較大的視差值則可視為前景層,其中每種兩層不同深度值的邊緣部分我們都可以 利用 FB 或 BF Pattern 來表示。 若在三層不同深度值伴隨著不同顏色的情況下,我們在分析瑕疵現象的情況 下,則可以用兩層不同深度值的邊緣表示法表示。簡單來說,三層不同深度值的 邊緣表示模型中,位於左邊的深度值與位於右邊的深度值有著相同的顏色,但與 中間的部分顏色不同,則我們可以將此例子視為兩層不同深度值的邊緣表示。舉 例來說,在自然場景中,某些場景物體的面積寬看起來十分細小,其中BFBBFB是 最常見的表示法,BFBBFB中間部分則為此場景物體的前景深度值,可以視為分別 由 BF Pattern 與 FB Pattern 組合而成。 圖 3-3 FBF 表示示意圖 事實上,在FMBFMB與BMFBMF兩種不同的表示情況下,若前景部份的深度值與背景 部份的深度值的部分顏色相似時,我們也可以分別簡化成FBFFBF與BFBBFB的兩種不 同的表示方法,如圖 3-3 所示。 MBF MBF MBF MBF
22 (a) Case 2: FBLF
(b) Case 4:FBRB
(c) Case 6:BFLB
(d) Case 8:BFRF
圖 3-4 不同的瑕疵現象情況分析表示示意圖:(a) Case 2-FBLF, (b) Case 4-FBRB,
表 3 三層不同深度值邊緣表示法
Triple-layer Pattern Two-layer counter-part Simplification
MBF FB-BF FBF MFB BF-FB BFB FMB FB-FB FBM FB-BF FBF BFM BF-FB BFB BMF BF-BF 由於三層不同深度值的邊緣表示法可以經由簡化與拆解成兩層不同深度值 的邊緣模型表示,如表 2 所示。我們可以利用相同的深度值模式來加以分析, 其分析結果我們彙總於表 2。從表 2 中可以發現許多三層不同深度值的邊緣表 示法都可以簡化成兩層不同深度值的邊緣模型。若以BFBBFB pattern 為例,我們利 用左邊參考影像投影至中間的合成過程中來解釋瑕疵現象的發生情況,同樣也可 以利用相同的方式解釋其它瑕疵現象可能產生的情況,與兩層不同深度值的情況 相同,如下圖 3-6 與圖 3-7 所示,其中圖 3-5 代表正確的投影映射過程。(其中 紅色虛線代表錯誤的投影過程) 圖 3-5 三層不同深度值的正確映射方向表示示意圖 在圖 3-6 中,示意圖為深度值模式 Mode 1 與 Mode 2 的狀態下,在三層不 同深度值的邊緣模型下產生BF BBF B Pattern 所造成的瑕疵現象與兩層不同深度值 的邊緣模型下產生 FB Pattern 所造成的瑕疵現象比較結果圖,其中綠色實線為正
24
確投影映射的位置、紅色虛線為錯誤投影映射的位置。圖 3-7 則是代表 BF Pattern
所造成的 Artifacts 比較結果圖。從表 2 與表 4 中,我們可以發現不論是BFBBFB或
者是FBFFBF的邊緣表示模型都可以簡化成兩層不同深度值的模型。
表 4 三層不同深度值可能造成的瑕疵現象分析表
Boundary Reference Two-layer part Depth mode Artifacts
BFB
Left view
FB
Mode 1 Partial background
Mode 2 Same artifacts with two-layer model
BF
Mode 3 Same artifacts with two-layer model Mode 2 Partial background , new foreground
Right view
FB
Mode 3 Same artifacts with two-layer model Mode 2 Partial background , new foreground
BF
Mode 1 Partial background
Mode 2 Same artifacts with two-layer model
FBF
Left view
FB
Mode 1 Same artifacts with two-layer model Mode 2 Partial background , new foreground
BF
Mode 3 Partial background
Mode 2 Same artifacts with two-layer model
Right view
FB
Mode 3 Partial background
Mode 2 Same artifacts with two-layer model
BF
Mode 1 Same artifacts with two-layer model Mode 2 Partial background , new foreground
(a) Mode 1, two-layer artifacts at “F3”, “F1” and “F2” in center view.
(b) Mode 1, partial artifacts in triple-layer model at “F1”, “F2” in center view.
(c) Mode 2, two-layer artifacts at “B8”, “X2” in center view.
(d) Mode 2, same artifacts at “B8”, “X2” in center view.
圖 3-6 FB 的情況下可能產生的瑕疵現象映射過程示意圖
(a) Mode 3, two-layer artifacts at “B4”, “B5” in center view.
(b) Mode 3, same artifacts at “B4”, “B5” in center view.
(c) Mode 2, two-layer artifacts at “F1”, “F2” and “F3” in center view.
(d) Mode 2, partial artifacts in triple-layer model at “F1”, “F2”, new foreground artifacts at “X2”, “X1”.
26
3.3 使 用 可 靠 性 的 判 別 演 算 法 設 計 (Reliability Check
Algorithm)
在本節的一開始,我們會簡單描述 Yang[16]的視點合成的演算法架構,其演 算法的流程如圖 3-8 所示,其詳細步驟我們會在此章節說明。 T3. Reliability Check OutputCaptured Images and The Corresponding Depth Maps
Texture Mapping Artifacts Reduction T1. Forward Warping to Intermediate View T2. Linear Blending of The Two Warped View
T4. Artifacts Reduction 圖 3-8 Yang 的演算法設計架構流程圖[16] 3.3.1 前向轉換映射 (Forward Warping) 首先,我們必須將左邊視點的影像投影映射到右邊視點的影像平面上,反之, 也必須將右邊視點的影像投影映射至左邊視點的影像平面上,IILL(u(uLL; v; vLL))以及 IR(uR; vR) IR(uR; vR)各別代表左邊以及右邊的影像畫素,我們給定各別的視差值DDLL(u(uLL; v; vLL))
以及DDRR(u(uRR; v; vRR)),則我們可以正向投影映射後的結果表示如下式(3.2)以及(3.3)所 示: ILC(uL; vL ¡ DL(uL; vL)) = IL(uL; vL) ILC(uL; vL ¡ DL(uL; vL)) = IL(uL; vL) (3.2) IRC(uR; vR + DR(uR; vR)) = IR(uR; vR) IRC(uR; vR + DR(uR; vR)) = IR(uR; vR) (3.3) 其中IILCLC及IIRCRC分別代表由左邊以及右邊的參考影像投影映射至中間的合成影 像。 從圖 3-9 中,經由分別從左邊與右邊的參考影像平面正向投影映射至中間位 置的影像平面,綠色區域代表遮蔽效應所造成無法預測的空洞。 (a) (b) 圖 3-9 合成影像由 (a)左邊 (b)右邊 參考視點所產生 3.3.2 線性比例疊合 (Linear Blending) 在前向映射之後,IILCLC及IIRCRC是兩張由不同參考影像映射後的結果。我們將 這兩張影像進行®®比例線性疊合(Linear blending)的運算,在圖 3-10 中,根據中 間合成攝影機的位置與左右兩邊參考攝影機的位置差異值計算其比例關係得到 ® ®。
28 圖 3-10 待合成攝影機位置與左右兩邊的參考攝影機距離示意圖 其中®®的計算方式如下式(3.4)所示: ® = jtC ¡ tLj jtC ¡ tLj + jtC ¡ tRj ® = jtC ¡ tLj jtC ¡ tLj + jtC ¡ tRj (3.4) 其中ttcc代表中間影像的外部參數矩陣的位移位置,ttLL及ttRR代表左邊及右邊參考影 像的外部參數矩陣的位移參數。 (3.5) 在求得比例值®®後,若左邊或右邊視點投影映射至中間視點的影像平面上的 畫素位置因遮蔽效應的關係產生空洞、沒有任何色彩資訊時,則令Occ(u; v)Occ(u; v)為 1, 反之將設為 0,其數學表示式如下式(3.5)所示: dst(u; v) = 8 > > > < > > > :
(1 ¡ ®)ILC(u; v) + ®IRC(u; v) ; OccL(u; v) = 0 and OccR(u; v) = 0
ILC(u; v) ; OccL(u; v) = 0 and OccR(u; v) = 1
IRC(u; v) ; OccL(u; v) = 1 and OccR(u; v) = 0
0 ; OccL(u; v) = 1 and OccR(u; v) = 1
dst(u; v) = 8 > > > < > > > :
(1 ¡ ®)ILC(u; v) + ®IRC(u; v) ; OccL(u; v) = 0 and OccR(u; v) = 0
ILC(u; v) ; OccL(u; v) = 0 and OccR(u; v) = 1
IRC(u; v) ; OccL(u; v) = 1 and OccR(u; v) = 0
0 ; OccL(u; v) = 1 and OccR(u; v) = 1
(3.6) 在式(3.6)中,若是左邊視點產生的前向映射結果與右邊視點產生的前向映射 結果皆未產生無法預測的空洞時,則合成的目標影像畫素是採用線性疊合並輸出 最後影像結果;若左邊視點前向映射後的結果產生無法預測的空洞,而右邊視點 前向映射後的結果未因遮蔽效應產生空洞時,則合成的影像畫素採用右邊視點產 生的正向投影映射結果。另一方面,若右邊視點前向映射後的結果產生無法預測
的空洞,而左邊視點產生的前向映射結果未因遮蔽效應產生空洞時,則採用左邊 視點產生的正向投影映射結果;若左右兩個視點產生的前向映射結果皆產生無法 預測的空洞時,則將目標合成影像的畫素位置值設為 0。至此步驟目前出來的結 果我們稱為傳統的視點合成方法,而 Yang[16]提出改善的演算法架構我們會在之 後的章節詳細說明。 3.3.3 可靠性判別法則 (Reliable Check) 此節最主要的想法已經在節 3.2.2 介紹過,接下來我們將會介紹實作的方法, 與式(3.2)與(3.3)相似,我們可以得到分別從右邊與左邊前向映射之後產生的合成 參考影像結果I0 R I0 R與IILL00與章節 3.3.2 產生的合成影像,接下來我們會去計算原始影 像訊號強度與正向投影映射後的影像訊號強度之間的差異絕對值,其計算方式如 下式(3.7)與(3.8)所示: DifL(uL; vL) = jIR(uL; vL¡ DL(uL; vL)) ¡ IR0 (uL; vL¡ DL(uL; vL))j DifL(uL; vL) = jIR(uL; vL¡ DL(uL; vL)) ¡ IR0 (uL; vL¡ DL(uL; vL))j (3.7) DifR(uR; vR) = jIL(uR; vR+ DR(uR; vR)) ¡ IL0(uR; vR + DR(uR; vR))j DifR(uR; vR) = jIL(uR; vR+ DR(uR; vR)) ¡ IL0(uR; vR + DR(uR; vR))j (3.8) 最後若是差異值小於某個臨界閥值,則認定此畫素對應的深度值是可信賴的,反 之,對應的深度值則是不可靠的,如圖 3-11 所示。白色區域即為不可信賴的區 域,其中此運算的臨界閥值是可以任意調整的,如式(3.9)所示: Re(u; v) = (
true Dif (u; v) · threshold f alse Dif (u; v) > threshold Re(u; v) =
(
true Dif (u; v) · threshold
f alse Dif (u; v) > threshold (3.9)
3.3.4 抑制瑕疵現象 (Artifacts Reduction)
由於遮蔽效應的問題,我們可以利用在 3.2.2 提到的互補原則,重新定義由
30 代表是左右兩側的視點都是不可信賴的區域,其數學表示式如下式(3.10)所示: Inew(u; v) = 8 > > > < > > > :
ILC(u; v) ; ReLC = true and ReRC = f alse
IRC(u; v) ; ReLC = f alse and ReRC = true
Idst(u; v) ; ReLC = true and ReRC = true
hole ; otherwise Inew(u; v) = 8 > > > < > > > :
ILC(u; v) ; ReLC = true and ReRC = f alse
IRC(u; v) ; ReLC = f alse and ReRC = true
Idst(u; v) ; ReLC = true and ReRC = true
hole ; otherwise
(3.10)
其中ReReLCLC與ReReRCRC是由ReReLL與ReReRR投影映射到中間合成視點後的結果。
此演算法最後一個部分是處理無法預測的空洞。一般而言,破洞通常是因為 遮蔽效應在正向投影映射的過程中,導致無法預測影像平面上的畫素資訊,而遮 蔽效應的問題總是發生在某個視角無法看到的區域。事實上,雖然大部分的破洞 經由前面幾個步驟已經被修復,仍舊有少許部分的破洞仍需要被修復。最後我們 利用影像修補(Image inpainting)的技巧填補這些殘留的破洞[30],最後視點合成 的結果如圖 3-13。所示。 圖 3-11 依照左邊參考影像所產生的可依賴性二值化判別圖
圖 3-12 Yang et al.[16]合成後產生破洞的影像結果(紅色區域)