以垂直邊緣為基礎的自動景深估測方法之研究

全文

(1)國立屏東大學資訊工程學系碩士班碩士論文指導教授：黃鎮淇博士. 以垂直邊緣為基礎的自動景深估測方法之研究 An Automatic Depth Map Estimation System Based on Vertical Edge. 研究生：林哲男撰. 中華民國一百零四年六月.

(2) -2-.

(3) 誌謝結束碩士口考也意味著我的學生生涯即將告一段落了，從兩年前剛畢業的大學生蛻變成今天的碩士生，在求學的期間得到了許多貴人的幫助，讓我能夠如期的完成碩士學位。從大學一年級才開始踏進資訊領域中，很幸運的是能夠遇見恩師黃鎮淇教授，從一年級的啟蒙到三、四年級的實務專題以及研究所的論文皆是受到恩師的指導與鼓勵，從研究方向的選擇、觀念架構之建立、文獻的探討，以及本文之撰寫，老師不斷地予以耐心的帶領，適時的提點我，以及對初稿逐字修正與建議，使得本論文得以順利完成。也感謝在學期間所有老師的教導、讓我能夠有充分的能力完成本論文，在碩士班中認識了啟晉、俊霖以及元聖同學，還有研究室中的成員家瑜學姐、章儀和冠志學弟，能夠互相勉勵、切磋，當遇見瓶頸時能夠一起討論、一起解決問題，最重要的是能夠一起分擔壓力分享在學習中得到的喜悅，也豐富了我的研究生的生活。此外，承蒙口考老師劉旭榮教授以及黃振藝教授，在口考時給予我許多寶貴的意見及指正，謹致以最深的謝意。最後要感謝我的父母親、姊姊及所有家人，給予我很大的動力支持我完成碩士學位，不斷的給予我關懷與支持，讓我沒有後顧之憂的過完碩士班兩年的生活。一路上有許多人的支持才能讓我圓滿的完成碩士學位，也豐富了我這兩年的生活，在畢業後我將會盡我所能的幫助所有幫助我的人，也會抱持的謙卑的態度繼續學習、回饋社會大眾。. I.

(4) 以垂直邊緣為基礎的自動景深估測方法之研究校名：國立屏東大學系所：資訊工程系(所) 研究生：林哲男指導教授：黃鎮淇. 摘要人類的雙眼具有辨識影像深度的功能，立體顯示技術一直是顯示技術的主要發展目標，而立體顯示的觀賞效果取決於影像中物件與景物相對位置的呈現，也就是物體的深度資訊，因此圖像的景深估測是目前產業的發展重點。我們提出了一個以垂直邊緣為基礎的自動景深估測方法，將已有的 2D 左、右攝像機影像賦予其深度資訊，利用深度影像繪圖法 (DIBR ,Depth Based Image Rendering)轉換成立體顯示技術所需要的景深圖。首先，擷取左、右攝像機影像的垂直邊緣，接著使用聯通區域標記(CCL , Connected-Component Labeling)方法，再將每一段的垂直邊緣當作遮罩分割出來。將左攝像機影像分割出來的遮罩與右攝像機影像的垂直邊緣做相減比對，為了提高比對的準確度，利用 SAD 比對法，將左攝像機影像分割出來邊緣的四周原來灰階影像比對其相對應位置右攝像機影像四周的原來灰階影像，計算錯誤率，並且記錄錯誤率最低的移動量做為該邊緣的移動量，重複上述方法，找到每一個邊緣的移動量做為 II.

(5) 之後景深估測的預測點，目的是為了節省景深估測的運算量。經實驗證明，在單一物件、多物件、單純背景與複雜背景皆能以垂直邊緣做為預測每一個物件或景物的移動量，可以降低景深估測的運算量。關鍵詞：三維、立體視覺、景深估測、垂直邊緣、連通區域標記. III.

(6) Abstract The human eye has a depth image recognition functions, three-dimensional display technology has been a major display technology development goals, while viewing stereoscopic display effect depends on the image showing the relative positions of objects and scenes. That is the depth information of the object, so the image of the depth estimation is currently developing key industries. We propose an automatic depth estimation method based on the vertical edge of the existing 2D left and right camera image given its depth information.The depth-imaging cartography (DIBR, Depth Based Image Rendering) conversion founded crystal display technology FIG desired depth. First, capture the vertical left and right edges of the camera image, then use the Unicom regional mark (CCL, Connected-Component Labeling) method, and then the vertical edges of each segment as a mask carved out. Vertical edge of the left camera image segmentation mask out and do the right camera image subtraction comparison, in order to improve the accuracy of alignment, the use of SAD compared to law, will be left out of the camera image segmentation gray around the edges of the original image ratio its grayscale images corresponding to the original position around the right camera images to calculate the error rate, and record the lowest error rate as the amount of movement of the moving amount of the edge. Repeat the above method, find the amount of movement after each edge as depth of field estimated prediction point, the purpose is to save computation depth estimation. The experiment proved that a single object, multiple objects, simple background with complex background can use the vertical edge to forecast the amount of movement of every object.It can reduce the amount of computation to estimate the depth of field. Keywords: 3D, Stereo vision, Depth Estimation, Vertical Edge, Connected Component Labeling IV.

(7) 目錄. 誌謝............................................................................................................. I 摘要........................................................................................................... II ABSTRACT ............................................................................................ IV 目錄............................................................................................................ V 圖表目錄.................................................................................................... X 第 1.章. 緒論 ............................................................................................1. 1.1. 前言.................................................................................................1 1.2. 研究目的 ........................................................................................3 第 2.章. 研究背景 ....................................................................................4. 2.1.. 立體影像原理 ............................................................................4. 2.2. 雙眼視覺像差(BINOCULAR DISPARITY) ..........................................5 2.3.. 遮蔽點(OCCLUSION) .................................................................. 11. 2.4. 視差(PARALLAX) ...........................................................................12 2.5. 三維掃描器 ..................................................................................13 2.5.1.. 接觸式掃描 ..........................................................................14. V.

(8) 2.5.2.. 非接觸式掃描 ......................................................................14. 2.6. 垂直邊緣偵測 ..............................................................................15 2.7.. 通區域標記 ..............................................................................16. 2.8. 數學形態學(MATHEMATICAL MORPHOLOGY) ...............................17 2.8.1. 侵蝕(EROSION)..........................................................................18 2.8.2. 膨脹(DILATION) ........................................................................19 2.8.3. 開運算 ......................................................................................20 2.8.4. 閉運算 ......................................................................................21 2.8.5. 侵蝕結構 ..................................................................................22 2.9. 固定區域比對法 ..........................................................................24 2.10. 門檻值 ......................................................................................25 2.10.1. OTSU 自動門檻值決定演算法.................................................27 2.11.. 景深估測 ..................................................................................27. 2.12. 立體影像編碼技術 ..................................................................29 2.12.1. 立體影像對編碼技術 ..............................................................29 2.12.2. 2D+DEPTH 資料表示法 ............................................................30 2.13. OPENCV (OPEN COMPUTER VISION LIBRARY) ..........................31 2.14. 以連通區域標記為基礎的自動景深估測方法之研究 ..........32 第 3.章. 研究方法 ..................................................................................33. VI.

(9) 3.1. 圖像相減比對 ..............................................................................35 3.2. 錯誤率計算 ..................................................................................36 第 4.章. 研究結果 ..................................................................................38. 4.1. 幾何圖形實驗結果 ......................................................................38 4.1.1. 垂直邊緣偵測 ..........................................................................40 4.1.2. 開運算 ......................................................................................40 4.1.3. 連通區域標記 ..........................................................................41 4.1.4. 圖像相減比對與錯誤率計算 ..................................................43 4.1.5. 標準視差值與實際視差值 ......................................................44 4.1.6. 運算時間 ..................................................................................45 4.2. 標準影像實驗結果 ......................................................................46 4.2.1. TSUKUBA 標準測試圖 ..............................................................46 4.2.2. TEDDY 標準測試圖 ..................................................................50 4.3. 實際拍攝影像實驗結果 ..............................................................54 4.3.1. 場地配置 ..................................................................................55 4.3.2. 實體拍攝及三角測距(圖片大小 912*684).............................56 4.3.3. 多物件實體拍攝(圖片大小 912*684).....................................59 4.3.4. 圖片大小之誤差比較 ..............................................................62 第 5.章. 結論與未來工作 ......................................................................63 VII.

(10) 5.1. 結論...............................................................................................63 5.2. 未來工作 ......................................................................................64 參考文獻...................................................................................................65 附件...........................................................................................................68 附件 1 幾何圖形 ..................................................................................68 附件 1 .1 幾何圖形-垂直邊緣遮罩 .....................................................68 附件 2 TSUKUBA ...................................................................................70 附件 2 .1 TSUKUBA -垂直邊緣遮罩 .....................................................70 附件 2 .2 TSUKUBA-視差值 ..................................................................86 附件 3 TEDDY........................................................................................91 附件 3 .1 TEDDY-垂直邊緣遮罩...........................................................91 附件 3 .2 TEDDY-視差值 ..................................................................... 111 附件 4 實際拍攝影像(A) ................................................................... 116 附件 4 .1 實際拍攝影像(A)-垂直邊緣遮罩 ...................................... 116 附件 4 .2 實際拍攝影像(A)-視差值 .................................................. 117 附件 5 實際拍攝影像(B).................................................................... 117 附件 5.1 實際拍攝影像(B)-垂直邊緣遮罩 ....................................... 117 附件 5 .2 實際拍攝影像(B)-視差值 .................................................. 118 附件 6 實際拍攝影像(B).................................................................... 118 VIII.

(11) 附件 6.1 實際拍攝影像(B)-垂直邊緣遮罩 ....................................... 118 附件 6 .2 實際拍攝影像(B)-視差值 ..................................................120. IX.

(12) 圖目錄圖 2.1 紅藍眼鏡物件示意圖 ....................................................................5 圖 2.2 紅藍眼鏡示意圖 ............................................................................5 圖 2.3 雙眼視覺像差示意圖 ....................................................................6 圖 2.4 雙眼視覺像差示意圖 ....................................................................6 圖 2.5 雙眼視覺像差大小示意圖 ............................................................7 圖 2.6 景深換算示意圖 ............................................................................8 圖 2.7 水平視差示意圖-視點移動前 ..................................................... 11 圖 2.8 水平視差示意圖-視點移動後 .....................................................12 圖 2.9. 正視差 ......................................................................................13. 圖 2.10 零視差 ......................................................................................13 圖 2.11. 負視差 ......................................................................................13. 圖 2.12 ONE-PASS 示意圖...................................................................16 圖 2.13 ONE-PASS 示意圖...................................................................17 圖 2.14 TWO-PASS 示意圖 ..................................................................17 圖 2.15 結構元素及相對應位置 ..........................................................18 X.

(13) 圖 2.16 待測圖像 ..................................................................................19 圖 2.17 侵蝕運算結果 ..........................................................................19 圖 2.18 待測圖像 ..................................................................................20 圖 2.19 擴張運算結果 ..........................................................................20 圖 2.20 待測圖像 ..................................................................................21 圖 2.21 開運算結果 ..............................................................................21 圖 2.22 待測圖像 ..................................................................................22 圖 2.23 閉運算結果 ..............................................................................22 圖 2.24 景深估測流程圖 ......................................................................28 圖 2.25 多視角視訊示意圖 ..................................................................30 圖 2.26 2D+DEPTH 編碼方式 .............................................................31 圖 3.1 程式流程圖 ..................................................................................34 圖 3.2 圖像相減比對 ..............................................................................35 圖 3.3 誤判邊緣 ......................................................................................36 圖 3.4 錯誤率計算 ..................................................................................37 圖 4.1 幾何原圖 ......................................................................................38. XI.

(14) 圖 4.2 幾何景深圖 ..................................................................................38 圖 4.3 左攝像機影像 ..............................................................................39 圖 4.4 右攝像機影像 ..............................................................................39 圖 4.5 幾何圖形-左圖邊緣偵測 .............................................................40 圖 4.6 幾何圖形-右圖邊緣偵測 .............................................................40 圖 4.7 左圖開運算 ..................................................................................41 圖 4.8 右圖開運算 ..................................................................................41 圖 4.9 連通區域標記 ..............................................................................42 圖 4.10 幾何圖形的邊緣遮罩 ..............................................................43 圖 4.11. 標準圖-TSUKUBA ..................................................................47. 圖 4.12. TSUKUBA-標準景深圖 ..........................................................47 圖 4.13. TSUKUBA-左圖垂直邊緣偵測 ..............................................47 圖 4.14. TSUKUBA-右圖垂直邊緣偵測 ..............................................47 圖 4.15. TSUKUBA-左圖開運算 ..........................................................47 圖 4.16. TSUKUBA-右圖開運算 ..........................................................47 圖 4.17. TSUKUBA-連通區域標記 ......................................................48. XII.

(15) 圖 4.18. 標準景深圖主要物件切割 ......................................................48 圖 4.19. 邊緣遮罩-檯燈 .........................................................................48 圖 4.20. 邊緣遮罩-雕像 .........................................................................48 圖 4.21. 邊緣遮罩-雕像 .........................................................................49 圖 4.22. 邊緣遮罩-桌腳 .........................................................................49 圖 4.23. 邊緣遮罩-桌面上物品 .............................................................49 圖 4.24. 邊緣遮罩-攝影機 .....................................................................49 圖 4.25. 標準圖-TEDDY........................................................................50 圖 4.26. TEDDY -標準景深圖...............................................................50 圖 4.27. TEDDY -左圖垂直邊緣偵測...................................................50 圖 4.28. TEDDY -右圖垂直邊緣偵測...................................................50 圖 4.29. TEDDY -左圖開運算...............................................................51 圖 4.30. TEDDY -右圖開運算...............................................................51 圖 4.31. TEDDY -連通區域標記...........................................................51 圖 4.32. 標準景深圖主要物件切割 ......................................................51 圖 4.33. 邊緣遮罩-植物 .........................................................................52. XIII.

(16) 圖 4.34. 邊緣遮罩-前方玩偶 .................................................................52 圖 4.35. 邊緣遮罩-玩具屋頂 .................................................................52 圖 4.36. 邊緣遮罩-後方玩偶 .................................................................52 圖 4.37. 邊緣遮罩-背景 .........................................................................52 圖 4.38. 邊緣遮罩-背景 .........................................................................52 圖 4.39. FINEPIX REAL 3D W1 實體圖 ..............................................54 圖 4.40. 場地配置圖 ..............................................................................55 圖 4.41. 單一物件-左圖 .........................................................................56 圖 4.42. 單一物件-右圖 .........................................................................56 圖 4.43. 垂直邊緣偵測-左圖 .................................................................56 圖 4.44. 垂直邊緣偵測-左圖 .................................................................56 圖 4.45. 連通區域標記 ..........................................................................56 圖 4.46. 遮罩-2 層 ..................................................................................57 圖 4.47. 遮罩-4 層 ..................................................................................57 圖 4.48. 單一物件-左圖 .........................................................................57 圖 4.49. 單一物件-右圖 .........................................................................57. XIV.

(17) 圖 4.50. 垂直邊緣偵測-左圖 .................................................................58 圖 4.51. 垂直邊緣偵測-左圖 .................................................................58 圖 4.52. 連通區域標記 ..........................................................................58 圖 4.53. 遮罩-56 層 ................................................................................58 圖 4.54. 遮罩-58 層 ................................................................................58 圖 4.55. 多物件-左圖 .............................................................................59 圖 4.56. 多物件-右圖 .............................................................................59 圖 4.57. 垂直邊緣偵測-左圖 .................................................................59 圖 4.58. 垂直邊緣偵測-左圖 .................................................................59 圖 4.59. 連通區域標記 ..........................................................................59 圖 4.60. 遮罩-4 層 ..................................................................................60 圖 4.61. 遮罩-11 層 ................................................................................60 圖 4.62. 遮罩-19 層 ................................................................................60 圖 4.63. 遮罩-20 層 ................................................................................60. XV.

(18) 表目錄表 4.1. 幾何圖形圖像資訊-左攝像機影像 .............................................39 表 4.2. 幾何圖形圖像資訊-右攝像機影像 .............................................39 表 4.3. .實際與實驗視差值 .....................................................................44 表 4.4. 設備規格與運算時間 ..................................................................45 表 4.5. 相機規格 ......................................................................................54 表 4.6. 預測視差值 ..................................................................................57 表 4.7. 預測視差值 ..................................................................................58 表 4.8. 預測視差值 ..................................................................................60 表 4.9. 實際距離與換算距離 ..................................................................61 表 4.10. 圖片大小與換算距離比較 ......................................................62. XVI.

(19) 第1.章緒論 1.1. 前言在現代的生活中，人們對視覺上的要求越來越高，不僅是影像畫質上的提升、立體視覺更是越來越普遍，隨著 3D 電視的發展許多電影、動畫也開始加入了立體的效果，但是 3D 數位內容還是供不應求，雖然目前市面上已有 3D 影像拍攝系統，卻因軟體技術發展尚未成熟使得價格昂貴、普及率不高，導致無法迅速發展。然而立體視覺要達到多視角(Multiview)的目的，就必須計算或偵測出景深資訊。因此，景深資訊的取得，是目前產業界的技術發展重點。景深資訊需要透過三維掃描儀來取得，而三維掃描儀的技術分類為接觸式（contact）與非接觸式(non-contact)，接觸式是以實際觸碰待測物件所得之物件立體影像，接觸式測量在測量過程中必須接觸到待測物體，因此測量的結果都十分精準，但接觸的過程會有毀損的疑慮，且相較於其他測量方法接觸式的掃描時間較長，使接觸式量測技術無法普遍為一般人接受。反之非接觸式測量方式是不需要接觸待測物體，而是使用待測物本身所反射周遭之光線的特徵來完成測量，如紅外線與各類幅射現一般最常見最容易取得的光線就是可見光幅射，在測量可見光的情況下不會傷害到待測物件，也不需要過高的硬體規 1.

(20) 格成本低廉，較容易為大眾接受。本篇論文使用的非接觸式掃描法中的被動式立體視覺法，採用左右視差法來獲得圖片深度資訊，但此種方法需仰賴有效的圖片像素匹配分析（correspondence analysis），一般使用區塊比對（block matching）或對極幾何（epipolar geometry）演算法達成。立體視覺是建構在人類具有雙眼視覺像差(Binocular disparity)[1] 的基礎下所產生，由於人類的兩個眼睛集中在同一面，相較於大多數的動物，減少了視覺範圍卻增加了判斷距離、深度的能力。人類兩眼之間的距離平均為 6.5 公分，以至於同一個物體用不同眼睛看皆會得到不同的景像，這種現象即為雙眼視差，而視覺像差的程度與物體的距離有關，距離越遠視差越小、距離越近視覺像差越大。. 2.

(21) 1.2. 研究目的製做 3D 影像需要一個 2D 影像加上景深資訊[2]，景深資訊的取得可以透過人工方式將每一個景物填入適當的深度值，或者利用非人工的方式取得深度值，非人工的方式往往是將 2D 左、右攝像機影像透過影像處理來分析影像中物體的大小、顏色、清晰度、物體遮蔽性、相對位置…等，找出影像中的一些深度線索，再給予其深度值，例如：全域搜尋法（FS, Full Search），是使用地毯式的搜尋，理論上能找到最精確的移動向量（MV, Motion Vector）並獲得最好的影像品質，但是對於變化度不大的區域，視差值會趨近於零或者等於零、造成誤判，且由於是地毯式的搜尋全域搜尋法的運算量會比較大，其硬體成本也會比較高。因此我們希望以非人工的方式取得景深資訊來降低人力成本，提出一個方法是將左右眼攝像機影像的垂直邊緣，以水平移動比對來減少運算的複雜度。本論文採用了垂直邊緣偵測，是因為傳統的邊緣偵測方法，包含： canny[3]、sobel...等，這些方法主要是找出影像中所有的邊緣及輪廓，而垂直邊緣偵測可以去除掉水平的輪廓，不僅能保留較具有特徵的垂直輪廓、又能減少運算量。. 3.

(22) 第2.章研究背景 2.1. 立體影像原理立體影像的原理[4]牽扯到人類天生的兩個眼睛，人類雙眼的距離平均為 6.5 公分，如果兩個眼睛相隔太遠的畫看近物時就彷彿看平面，反之兩個眼睛相隔太近時就等同於同一個眼睛，這個距離讓人類具有辨識景物深度的功能，以左右眼分別近距離觀看景物時發現觀看的景物會有一小部分的不一樣，右眼看到的一小部分為左眼看不到的、左眼看到的一小部分為右眼看不到的，這剛好形成一個互補的作用，使得景物看起來是立體的，而且會使左右眼共同看的部分會更加清楚，現今的 3D 電影就是採用此原理來使物體看起來有立體的效果。一個十八世紀的科學家布-雷烏斯特(David Brewster)發現了這個原理，為了證明「人類會產生視線的錯覺」而畫了一幅圖畫，如圖 2.1 圖 2.2 所示在圖畫中某些部位的左邊圖上紅色線條、在某些部位的右邊塗上藍色線條，且在圖畫中背景的部分是模糊的，最後以一副左邊為紅色右邊為藍色的眼鏡來觀看圖畫，使得左眼只看得到紅色線條右眼只看得到藍色線條，以人工的方式來產生左右眼的視差，這樣一來觀賞者的大腦會設立一條基準線，模糊的背景成為了遠景，而紅藍線條會產生視差，讓觀測物凸顯出來，使得在二維空間的圖形會有 4.

(23) 三維的效果。. 圖2.1. 圖2.2. 紅藍眼鏡物件示意圖. 紅藍眼鏡示意圖. 2.2. 雙眼視覺像差(Binocular disparity) 人類看到的影像是由左眼和右眼接收到的圖像訊息，經由大腦的視覺系統推斷出第三個維度，而左眼右眼接收到的圖像訊息是同一個影像但是從不同角度的視角接收圖像訊息，擷取到的圖像訊息因而不 5.

(24) 同，如圖 2.3 所示。. 圖2.3. 雙眼視覺像差示意圖. 比對左眼所擷取到的影像與右眼擷取到的影像，得到左眼、右眼擷取到的影像會有些微的不同，如圖 2.4 所示，以黃色蘋果為基準，左圖紅色蘋果會有明顯的位移，接著比對左眼紅色蘋果與右眼紅色蘋果之間的距離，這就是雙眼視覺像差[1]。. 圖2.4. 雙眼視覺像差示意圖. 6.

(25) 雙眼視覺像差與立體影像有著密不可分的關係，立體影像的呈現是因為各個物體與攝像機的鏡頭有不同的距離而產生，雙眼視覺像差越大則物體與鏡頭距離越近、反之雙眼視覺像差越近則距離越遠，如圖 2.5 所示，圖中兩條虛線假設為無窮遠處的物品及三個不同距離的物品，從上到下分別為遠、中、近，以人的雙眼來觀看這四種不同的物品，在無窮遠處物品的像差為零，物品越近時像差會越來越大。. 圖2.5. 雙眼視覺像差大小示意圖. 利用雙眼視覺像差的特性加上已有的環境參數，可以換算物件景深的距離，如圖 2.6 所示如果已知兩個攝影機之間的位置參數、距離與焦距，在同一時間擷取的畫面就能夠推算出彼此之間的關係。 7.

(26) 圖2.6. 景深換算示意圖. 假設待測目標實際座標為 ( X ,Y, Z) ，對應到左右攝像機的座標分別是 ( xl , y l ). 、 ( xr , yr ) ，以三角形公式來推導可以得到下關係式：. xl X = f Z. (2.1). xr X − b = f Z. (2.2). 8.

(27) yl Y = f Z. (2.3). yr Y = f Z. (2.4). 其中 f 是影像中平面與攝像機鏡頭中心的距離，其次定義 ∆x 為 xl − xr，即是前一小節所提到的視覺像差，b 是兩鏡頭之間的間距，這麼一來可以得到圖像深度資訊為：. xl X =b ∆x. Y =b Z =b. (2.5). y. (2.6). ∆x f. (2.7). ∆x. 9.

(28) 推導公式： xl X = f Z. => Z =. xr X −b = f Z. f X ， xl. =>. f ( X − b) xr. Z =. Z=. f f X = ( X − b) xl xr. =>. Xx r = ( X − b) xl. =>. Xx r = Xxl − bxl. =>. bxl = Xxl − Xx r. =>. bxl = X ( xl − xr ). =>. X =. bx l ( xl − x r ). xl X = f Z. =>. X =Z. xl x =b l f ∆x. =>. Z∆x = bf. =>. X =Z. =>. X =b. xl ∆x. xl f. Z =b. f ∆x. 因此才能求得實際座標 ( X ,Y, Z)，其中 Z 值即是物件的畫面深度資訊。由上述數學式中可知，只要雙眼系統掌握一定的資訊量就可推算出物件距離資訊。. 10.

(29) 2.3. 遮蔽點(occlusion) 遮蔽點[5]是指一個視點(viewpoint)水平移動到另一個視點，移動後所觀看的影像會有些微的差異、且影像中的景物會因為觀看的視角不同而產生的遮蔽(occlusion)，如圖 2.7 所示，圖片內的黑點為物體表面的採樣點，箭頭的長度則是對應到採樣點的深度，視點經過水平移動後，如如圖 2.8 所示，移動後的視點對照到物體表面的採樣點產生出一個新影像，比照到原來的影像會發現有一些採樣點會被遮蔽。. 圖2.7. 水平視差示意圖-視點移動前. 11.

(30) 圖2.8. 水平視差示意圖-視點移動後. 2.4. 視差(Parallax) 視差(Parallax)[6]是指人們透過兩個眼睛左眼、右眼所看到目標位置因為視角不同造成的差異變化，與上一小節提到的雙眼視覺像差 (Binocular disparity)有異曲同工之妙，但視差一般用於呈現 3D 影立體影像，而雙眼視覺像差則是用在視網膜呈像，有了視差才能說服大腦在辨識該影像或影片中空間感的存在。基本上人類的眼睛可概分為遠、中、近三個層次，因此人眼會自動調整到一個適當的角度來觀看景物，不同的角度就會產生視差，不同的視差又可概分為正視差、零視差以及負視差。如圖 2.9 圖 2.12 圖 2.11 所示，我們將螢幕當作參考的基準面， 12.

(31) 比較眼睛觀看景物時視線對焦的位置，正視差時，視線的焦點在於基準面的後面;零視差時，視線的焦點會剛好落在基準面上;負視差時，兩眼會在基準面之前有焦點。. 圖2.9. 圖2.10 零視差. 正視差. 圖2.11 負視差. 2.5. 三維掃描器用來偵測並且分析現實世界中環境或物體的幾何構造與外觀資 13.

(32) 料。蒐集到的資料常被用來進行三維重建計算，三維掃描儀的製作並非仰賴單一技術，各種不同的重建技術都有其優缺點，成本與售價也有高低之分。目前可以分為接觸式掃描及非接觸式掃描。. 2.5.1. 接觸式掃描接觸式三維掃描儀經由實際觸碰物體表面的方式計算深度，然而因其在掃描過程中必須接觸物體，待測物有遭到探針破壞損毀之可能，此外接觸式掃描需要較長的時間。. 2.5.2. 非接觸式掃描非接觸式掃描是以測量由待測物表面反射周遭輻射線的方法，並不會發射任何輻射線來達到預期的效果。大部分這類型的掃描儀以偵測環境的可見光為主。因此大部分情況下，被動式掃描法並不需要規格太特殊的硬體支援，這類被動式產品往往相當便宜。本論文所提出的方法是以非接觸式掃描中的立體視覺法[7]來實現，傳統的立體成像系統是使用兩個放在一起的攝影機，平行注視待重建之物體。此方法建立在人類的雙眼視覺感知的概念上來推估深度，若已知兩個攝影機的彼此間距與焦距長度，而擷取的左右兩張圖片又能成功疊合，則深度資訊可迅速推得。此法須仰賴有效的圖片像素匹配分析，一般使用區塊比對（block matching）演算法達成。 14.

(33) 2.6. 垂直邊緣偵測垂直邊緣偵測[8]是利用二維色彩空間來進行影像邊緣偵測，目的是為了找出影像垂直的邊緣。垂直邊緣偵測是由影像的左上角開始，由左至右、上至下的方向處理，一開始以第一個像素點為基準，接著與右邊像素點比較灰階值差異是否相近，如果相近的話就判定兩點為同一個線段，將此像素點設為黑色，如果灰階差異值不相近，則判定為不同線段即是邊緣，將此像素點設為白色，依此類推將整個影像掃描過一次就可以得到該影像的垂直邊緣，以式(2.8)計算基準的像素點與其下一個像素點的差異值，判斷差異值是否小於門檻值來決定該點是否為同一線段的的像，這裡的門檻值(threshold)是以 otsu 演算法[9] 求得，otsu 演算法是以灰階影像來求得一個最佳的門檻值，且不會消耗大量的運算量就能以自動的方式求出一個最佳的門檻值。. | (GRAYn − GRAYn+1 ) |< th. 15. (2.8).

(34) 2.7. 通區域標記(Connected Component) 垂直連通區域(Connected Component)通常是指影像中位置相鄰具有相同像素值的前景像素點組成的圖像區域[10]。單一個連通區域是由具有相同像素值的鄰近像素點所組成的集合，傳統的連通區域分析算法 Two-Pass，是將影像掃描兩次就可以將影像中存在的所有連通區域找出來，並且給予標記。第一次掃描時就給予每一個像素位置一個標籤，如圖 2.12 圖 2.13 所示，且第一次掃描時同一個連通區域內的像素集合可能被賦予一個或是多個標籤，因此第二次的掃描就是將這些在同一個連通區域內具有不同標籤的像素點賦予相同標籤、歸類成同一個連通區域，如如圖 2.14 所示所示。. 圖2.12 One-Pass 示意圖. 16.

(35) → 1 3. 1. 2 1. 2. 1 4. 2. 1. 5. 2. 2. 圖2.13 One-Pass 示意圖. → 1 1. 1. 2 1. 2. 1 1. 2. 1. 2. 2. 2. 圖2.14 Two-Pass 示意圖. 2.8. 數學形態學(Mathematical morphology) 在 1964 年 Mathron 與 Serra 提出了數學形態學，這是一種用於影像分析的方法，可應用於邊緣偵測、雜訊去除、影像加強和分割。主要的運算有四種，侵蝕運算(Erosion)、膨脹運算(Dilation)、開運算 (Opening)及閉運算(Closing)，這些運算分為兩個部分一個稱為 Active Image 可視為待測物，而另一個則為結構元素(Structuring Element)(也稱作 Kernel)如圖 2.15 所示，形態學處理的結果取決於結構元素設計的優劣，通常膨脹運算可使影像擴張、侵蝕運算會使影像縮小、開運 17.

(36) 算與閉運算則是膨脹運算與侵蝕運算的合成，差異是閉運算先執行擴張運算後侵蝕運算，能將區域鄰近的小雜訊合併在一起；開運算則是反過來開運算反過來先執行侵蝕運算後擴張運算，會斷開用細線連接的兩個區塊。. 1. 1. 1. -1,-1. 0,-1. 1,-1. 1. 1. 1. 1,0. 0,0. 1,0. 1. 1. 1. -1,-1. 0,1. 1,1. 圖2.15 結構元素及相對應位置. 2.8.1. 侵蝕(Erosion) 利用侵蝕，我們可以消除在影像中的一些小雜訊，假設我們所使用結構元素為 B,如圖 8，待測物 A 如圖 2.16 所示，則侵蝕的運算可以表示為： E = A ⊗ B ，結果將如圖 2.17 所示。. 18.

(37) 圖2.16 待測圖像. 圖2.17 侵蝕運算結果 (圖片來源：(Fisher et al., 2000)). 2.8.2. 膨脹(Dilation) 用來填滿小洞和缺口，也就是說它主要的用途在於連接縫隙。如圖 2.18 所示為結構元素 B，運算結果如圖 2.19 所示。擴張的運算可以表示為： D = A ⊕ B 19.

(38) 圖2.18 待測圖像. 圖2.19 擴張運算結果 (圖片來源：(Fisher et al., 2000)). 2.8.3. 開運算開運算是對影像先侵蝕再擴張，主要被用來消除一些外在的雜訊。如圖 2.20 所示為結構元素，運算結果如圖 2.21 所示，開運算的算法可表示為： O = ( A ⊗ B) ⊕ B 20.

(39) 圖2.20 待測圖像. 圖2.21 開運算結果 (圖片來源：(Fisher et al., 2000)). 2.8.4. 閉運算使用結構元素為 B, 如圖 2.22 所示為待測物 A，閉運算是對影像先擴張再侵蝕，可用來填滿小洞和間隙，運算結果如圖 2.23 所示，閉運算的算法可表示為： C = A• B = ( A ⊕ B) ⊗ B 21.

(40) 圖2.22 待測圖像. 圖2.23 閉運算結果 (圖片來源：(Fisher et al., 2000)). 2.8.5. 侵蝕結構在 Opencv[11]我們利用 cvErode()和 cvDilate()函數來實現侵蝕及膨脹，完整的函數為：. 22.

(41) void cvErode( Iplimage* src,. 來源影像. Iplimage * dst,. 輸出影像. IplConvKernel* element=NULL,. 侵蝕結構. int iterations=1). 侵蝕次數. 主要探討的部分為侵蝕結構，可以依影像的需要來改變侵蝕的結構，完整的函數為：. IplConvKernel* cvCreateStructuringElementEx( 指定的遮罩有幾行. int cols, int rows,. 指定的遮罩有幾列. int anchor_x,. 遮罩 x 座標. int anchor_y,. 遮罩 y 座標. int shape,. 結構形狀. int* values=NULL ); 結構形狀會改變侵蝕的形狀，結構形狀可以分為三大類，矩形主要是處理角點的部分、十字交叉型則是與矩形相反、橢圓型是把直線的部分保留，那本論文是以垂直的邊緣的方式來進行，因此採用橢圓型的侵蝕結構，結構對應參數如下：矩形. CV_SHAPE_RECT 23.

(42) CV_SHAPE_CROSS. 十字交叉型. CV_SHAPE_ELLIPSE. 橢圓形. CV_SHAPE_CUSTOM. 自訂型態. 2.9. 固定區域比對法由於區塊比對演算法擁有簡單性與規則性這兩個優點，使得此演算法廣泛的使用在動量估測上。透過目前畫面和參考畫面 (reference frame) 的巨方塊交叉比對，在參考畫面中找出最符合的巨方塊的位置，一般實際的作法是將一張畫面分割成相同大小且不重覆 (Non-Overlapped)的巨集區塊(Macroblock, MB)，以此區塊為單位進行區塊比對(Block Matching)，在所定義的搜尋範圍(Search Range)內，找出最相似的比對區塊。一般具有最小均方誤差(Mean Square Error, MSE)、平均絕對誤差(Mean Absolute Error, MAE)、絕對誤差和(Sum Of Absolute Difference, SAD)的區塊即為最相似的比對區塊。假設區塊為 NxN，C ij 為目前區塊(Current Block)，R ij 為參考區塊(Reference Block)，計算方式依序如下所示：. 24.

(43) 1 MSE = 2 N 1 MAE = 2 N. N −1 N −1. 2 ( C − R ) ∑∑ ij ij. (2.9). i = 0 j =0. N −1 N −1. ∑∑ (C. − Rij ). (2.10). SAD = ∑∑ (Cij − Rij ). (2.11). i = 0 j =0. ij. N −1 N −1 i =0 j =0. 本文在錯誤率計算時採用 SAD 比對法，主要目的是為了比較左、右攝像機的垂直邊緣經過影像處理後的差異，以差異大小來判別是否為錯誤的視差值，SAD 比對法相較於其他兩種比對方法，SAD 比對法的運算量比較低，因此採用此比對方法。. 2.10. 門檻值圖像分割是由圖像處理到圖像分析的關鍵步驟，是一種基本的計算機視覺技術。圖像分割指的是把圖像分成各具特徵的區域並提取出感興趣目標的技術和過程。例如，像素的灰階或色彩值、小區塊像素的紋理或幾何結構、區塊的移動或變形…等。門檻值[12]是一種最簡單的圖像分割方法，目的通常都是要擷取 25.

(44) (extract) 出影像中的物件或瑕疵區域，只要這些物件或瑕疵區域的灰階或顏色與背景有差異，就可以用門檻值方法將這些物件或瑕疵上的點從背景分離出來。假設圖像只有目標和背景兩大類，那麼只需選取一個門檻值稱為單門檻分割，這種方法是將圖像中每個像素的灰度值與門檻值相比較，灰度值大於門檻值的像素為一類，灰度值小於門檻值的像素為另一類。其中 f 是原始灰階，g 是二值化後的數值，T 是門檻值:. 1, if f ( x, y) > T  g ( x, y) =   0, if f ( x, y) ≤ T . (2.12). 門檻值方法分類依照門檻値 (threshold value) 的選擇方法而定，分為以下三種: 1.當 T 僅與 f(x,y)有關，該門檻值被稱為全域性(global) 2.當 T 與 f(x,y)及 p(x,y) (目前像素的區域特徵 (local property))有關，該門檻值被稱為區域性(local) 3.當 T 與空間座標 x 及 y 有關，該門檻值被稱為動態性 (dynamic)或適應性 (adaptive). 26.

(45) 2.10.1. Otsu 自動門檻值決定演算法為了實現自動化，本論文採用 Otsu 演算法[9]自動取得門檻值， Otsu 演算法通常用於影像二值化上，但是也不全然都用在二值化，只要是門檻值的取得都能夠用此演算法。假設門檻值為 T，接著將影像區分成兩群，一群是影像像素值小於 T、另一群視影像像素值大於 T，Otsu 演算法就是求出一個門檻值，使得 A 群與 B 群之間有最大的群間變異數，如式 2.13 所示 Pa (t ) 代表像數值小於等於 T， Pb (t ) 代表像素值大於 T 的機率， µ a (t ) 代表影像灰度值小於等於 T 值機率的平均值，µ b (t ) 代表影像灰度值大於 T 值機率的平均值，最後將 256 個門檻值帶入找出最大值，就可以知道在哪個門檻值會使得群間變異數最大，該門檻值即為最佳門檻值。. Pa (t ) Pb (t )[µ a (t )µ b (t )]2. (2.13). 2.11. 景深估測影像由 2D 轉換成 3D 需要藉由單一個 2D 彩色影像加上該影像的深度資訊[2]，而深度資訊可以透過不同的深度估測方法求得，如圖 2.24 所示，主要分成：人工深度指派、半自動深度估測法，以及全自 27.

(46) 動深度估測法。人工深度指派是透過人類透過多個主觀的 3D 線索以及拍攝技巧的結構繪製規則，針對每一張影像逐張進行畫面的深度分析，最後透過繪圖工具繪製，這種方法可以提供最佳的深度品質，但需要消耗大量的成本，目前的自動深度估測探討文獻中，大多式計算影像、視訊中所能得到的深度線索來求得深度圖，本文所探討的是以垂直邊緣為基礎的自動景深估測方法。. 一般2D影像/視訊. 人工指派深度半自動深度估測全自動深度估測深度圖後處理平滑濾波器等立體影像合成 DIBR 立體影像/視訊圖2.24 景深估測流程圖. 28.

(47) 2.12. 立體影像編碼技術現在比較常見的 3D 顯視器的輸入格式有 2 種，第一種為 2D+depth，這種格式包含了一組彩色的影像及其對應的深度影像序列[13]，但這種顯示方式最主要的問題在於，其影像品質與深度資訊的準確度，所以該如何得到正確的深度資訊是 2D+depth 格式上一個主要的研究目標。另一種格式是由兩個通道的彩色資訊(左、右眼視訊)又稱立體影像對[14]，此種輸入格式需要以兩架平行擺設的攝影機來擷取影像，相較於第一種格式，此格式只適用於立體視訊的播放，無法用於多視角的影像合成。. 2.12.1. 立體影像對編碼技術多視角視訊(Multi-View Video)的做法：在同一個場景，如圖 2.25 所示對於不同的視角下拍攝的ｎ組視訊畫面可分為平行、弧形、聚集、背離四種。. 29.

(48) 平行. 弧形. 聚集. 背離圖2.25 多視角視訊示意圖. 虛擬視角的影像品質與多視角中攝影機的設定、數量有關，設置攝影機的位置、參數與增加攝影機的數量，達到更準確的 3D 效果[15]，但需要大量的處理資料，因此成本高昂。. 2.12.2. 2D+depth 資料表示法 2D+depth 編碼方式只需要一張 2D 的彩色影像加上一個相對應的灰階景深圖就可以達到 3D 的效果，相較於立體影像對處理的資料量與成本都降低不少，如圖 2.26 所示對應合成的方法稱為深度影像繪圖法 Depth Based Image Rendering (DIBR)[16]。. 30.

(49) 圖2.26 2D+depth 編碼方式綜合以上所述，在低成本以及低運算複雜度的前提下，要製作 3D 影像將是一個問題，本論文方就是利用 2D+depth 編碼來降低所需的成本，再利用雙眼視訊的特性以水平移動將左眼右眼影像比對，以及垂直邊緣偵測來降低運算的複雜度，來達到 2D 影像轉 3D 的效果。我們使用 OpenCV[11]進行實驗測試，方法與結果在下面章節呈現。. 2.13. OpenCV (Open Computer Vision Library) 本論文以 OpenCV[11]為主要的影像處理函式庫。OpenCV 是由 Intel 公司所發起並參與開發的開放原始碼電腦影像視覺函式庫 ( Open Source Computer Vision Library )，它是由一系列的 C 函數和少量 C++ 所構成，因此實現了影像處理和電腦視覺方面以及模式識別很多通用演算法。並且 OpenCV 擁有包括了 300 多個 C 函數的跨平臺的中、高階 API。它不必依靠於其它的外部函式庫，也可以使用某些外部函式庫。OpenCV 以 BSD 授權條款授權發行，可以在商業 31.

(50) 和研究領域中免費使用，大大的減低了因我們設計所帶來的成本。 OpenCV 支援 Windows、Android、Maemo、FreeBSD、OpenBSD、 iOS，Linux 和 Mac OS 等平台上執行。 OpenCV 支援的使用環境如下： •Linux •C++ Builder IDE •Visual C++ .net •Eclipse IDE •DevCpp IDE •Visual C++ and Microsoft's DirectShow. 2.14. 以連通區域標記為基礎的自動景深估測方法之研究以連通區域標記為基礎的自動景深估測方法之研究[17]其作法是將右圖像使用圖像色彩衰減(Color Reduce)，讓相近的顏色能分割到同一區塊。並且使用聯通區域標記，將相同亮度的區塊分割出來。再將分割的物件區塊分別儲存在 256 個階層的灰度圖像中，再利用每一階層的灰度圖像當作遮罩來分割出物件。最後將右圖分割出的物件區域與左圖像相同形狀的區域做相減比對，並記錄相減值趨近於零的像素(pixel)數量。重複上述方法，將左圖向左邊水平移動一個像素並與右圖相減，直到移動到邊界為止，同時將所有值紀錄下來，並找尋在紀錄中的像素數量最多的水平移動量，則可以計算出此物件區域在左右圖像間的水平視差值，再將視差值轉換成景深值。 32.

(51) 第3.章研究方法本論文的方法會將左攝像機影像與右攝像機影像各別處理，首先偵測左圖影像的垂直邊緣，分析影像中的像素資訊、擷取到影像中的垂直邊緣，接著為了減少雜訊點因此對左右圖的垂直邊緣影像分別進行開運算，再使用聯通區域標記(CCL , Connected-Component Labeling) 方法，將每一個垂直邊緣分別給予不同的像素值，接著把相同顏色亮度的邊緣分割出來、並且每一種顏色的邊緣個別儲存，每一種顏色的邊緣就等同於一個邊緣遮罩，這麼一來就得到了 n 個邊緣遮罩。接下來把右圖影像也做垂直邊緣偵測，得到右圖的垂直邊緣後就可以開始與左圖得到的遮罩做圖像相減比對。在比對的過程中會有一些重複的邊緣造成誤判，因此加上一個錯誤率的計算來避免誤判的情形，錯誤率是將比對到的邊緣擷取其四周的原始影像，透過 SAD(Sum Of Absolute Difference)與相對應右圖邊緣四周的原始影像比對，計算出錯誤率，保留錯誤率最小的為該邊緣的移動量，比對完 n 個邊緣就可以得到整張影像邊緣的移動量，流程圖如圖 3.1 所示。. 33.

(52) 右圖影像. 左圖影像. 垂直邊緣偵測. 垂直邊緣偵測. 開運算. 開運算. 連通區域標記圖像相減比對分割n個邊緣物件遮罩錯誤率計算第i個邊緣物件遮罩. 是. 是否達到邊界. 水平向左移動一個像素 move_i=move_i-1 否. 錯誤率最小者其移動量為邊界第i層的視差值. i>n. 否. 是顯示預測視差值. 圖3.1. 程式流程圖 34.

(53) 3.1. 圖像相減比對圖像相減比對是將固定右圖垂直邊緣影像，藉著移動左圖得到的邊緣遮罩來比對與右圖垂直邊緣的差異，如圖 3.2(a)所示，計算出在哪一個移動量的錯誤率最低者則當為視差值，每次向左移動一個像素，移動到圖像的邊界則替換下一個邊緣遮罩。如圖 3.2(b)-(f)所示。如圖 3.2(d)所示的移動量即為最佳的視差值。. 圖3.2. 圖像相減比對 35.

(54) 3.2. 錯誤率計算將邊緣遮罩與右圖邊緣座圖像相減比對可以初步的比對該影像的移動量，但是在某些影像的垂直邊緣太複雜因此產生了誤判的移動量如圖 3.3 所示，本篇論文為此設計了一個錯誤率的計算，這個算法是擷取左圖邊緣遮罩在左圖原圖得位置，再擷取右圖原圖中相對應左圖遮罩的位置，最後將擷取到的兩個圖形做相減得比對，得到錯誤率。. 圖3.3. 誤判邊緣. 首先將移動後第 i 個邊緣遮罩做膨脹運算，與左圖原圖做 AND 運算，得到左圖原圖在該邊緣遮罩位置的圖形，而右圖影像為了要與左圖對其，因此右圖影像必須移動 move_i 來與左圖相對應，接著與左圖膨脹後的遮罩做 AND 運算，就可以得到右圖原圖在左圖遮罩相 36.

(55) 對應的位置圖形，最後將兩個擷取到的圖形做相減比對，計算出錯誤率，錯誤率計算流程圖如圖 3.4 所示。. 右圖影像. 第i個邊緣遮罩移動move_i. 向左移動move_i. 膨脹運算. AND運算. AND運算. 左圖影像. 圖像SAD相減比對. 錯誤率是否小於當前錯誤率. 否. 不記錄. 是記錄目前最小值圖3.4. 是否達到邊界. 錯誤率計算. 錯誤率計算是將膨脹後的左圖右圖邊緣影像做圖像相減比對後，統計比對後的點數，除以左圖遮罩經過膨脹運算後的點數，目的是為了比較與原圖的差異值，保留錯誤率最小的移動量。 37.

(56) 第4.章研究結果 4.1. 幾何圖形實驗結果這裡模擬真實影像以繪圖軟體畫出了四個幾何圖形，並且再加上一個複雜背景如圖 4.1 所示，假設四個幾何圖形有不同深度資訊如圖 4.2 所示，並且模擬左、右攝像機影像在各個幾何圖形中賦予不同的水平位置(垂直位置、形狀，大小維持不變)，以左圖為基準，右圖的三角形的水平位置與背景相同設為 0，右圖的正方形往右移動 10 個像素，右圖的星形往左移動 20 個像素，右圖的心形往右移動 20 個像素，如圖 4.3 圖 4.4，表 4.1 表 4.2 所示。. 圖4.1. 幾何原圖. 圖4.2 38. 幾何景深圖.

(57) 圖4.3. 左攝像機影像. 圖4.4. 表4.1. 幾何圖形圖像資訊-左攝像機影像樣式. 座標位置. 圖形大小. 三角形. (80,50). 130X120. 正方形. (350,60). 120X120. 菱形. (90,240). 120X120. 心形. (330,200). 150X150. 表4.2. 幾何圖形圖像資訊-右攝像機影像樣式. 座標位置. 圖形大小. 三角形. (80,50). 130X120. 正方形. (360,60). 120X120. 39. 右攝像機影像.

(58) 菱形. (110,240). 120X120. 心形. (310,200). 150X150. 4.1.1. 垂直邊緣偵測本論文以垂直邊緣為基礎，首先將找出左、右攝像機影像的垂直邊緣，如圖 4.5 圖 4.6 所示可以看出幾何輪廓中的水平邊緣皆被濾除，只保留垂直邊緣，也可以看得出垂直邊緣的獨特性。. 圖4.5. 幾何圖形-左圖邊緣偵測. 圖4.6. 幾何圖形-右圖邊緣偵測. 4.1.2. 開運算得到垂直邊緣後，為了減少雜訊產生因此將左右圖的垂直邊緣進行開運算，如圖 4.7 圖 4.8 所示，但本實驗圖因為理想的模擬影像， 40.

(59) 因此無雜訊點的產生。. 圖4.7. 左圖開運算. 圖4.8. 右圖開運算. 4.1.3. 連通區域標記接著需要擷取出影像中每個邊緣做為遮罩，因此採用了連通區域標記，將不同的邊緣填入不同顏色，如圖 4.9 所示，接著將每種顏色亮度的邊緣分割出來，最後將分割的邊緣區塊各別儲存，如圖 4.10 所示，如圖 4.10(a)所示分割出來的遮罩分別是菱形，如圖 4. 10 (b)(c) 所示分割出來的遮罩為心形，如圖 4. 10 (d)(e)所示分割出來遮罩為正方形，如圖 4. 10 (f)所示分割出來的遮罩為三角形如。完整各階層遮罩實驗結果參考附件 1.1。. 41.

(60) 圖4.9. 連通區域標記. 邊緣遮罩(a). 邊緣遮罩(b). 邊緣遮罩(c). 邊緣遮罩(d) 42.

(61) 邊緣遮罩(e). 邊緣遮罩(f). 圖4.10 幾何圖形的邊緣遮罩. 4.1.4. 圖像相減比對與錯誤率計算擷取到邊緣遮罩便可以與右圖垂邊緣做圖像相減比對，遮罩每移動一個像素就會與右圖垂邊緣做圖像相減比對，為了增加相減比對的準確性，本論文設計了一個錯誤率計算，將左圖影像擷取的邊緣遮罩做膨脹運算，與左圖原圖影像做，目的是為了能擷取到左圖原圖中該遮罩邊緣的四周影像，以便於在後面的步驟中可以與右圖相對應的區塊做圖像相減比較，加以換算其錯誤率保留最小錯誤率的移動量視為視差值。. 43.

(62) 4.1.5. 標準視差值與實際視差值經過圖像比對以及錯誤率的計算後，得到的移動量就是預測視差值，這裡整理出每個遮罩得到的移動量，與實際的視差值比較，如表 4.3 所示，實際視差值正數代表往左移，負數代表往右移，另外三角型的移動量為 0 等同於影像的背景，實驗結果實際視差值與預測視差值相同，所以本論文在簡單的彩色圖像中，視差估測準確率為百分之百。. 表4.3. .實際與實驗視差值實驗影像. 實際視差值. 預測視差值. 三角形. 0. 0. 正方形. 10. 10. 菱形. 20. 20. 心形. -20. -20. 在該實驗中得到的五個邊緣遮罩皆能代表影像中各個物件的視差，也就是說在本論文的方法下能找到影像中各個物件的視差值，達到準確的預測效果。. 44.

(63) 4.1.6. 運算時間經過前幾個小節探討可以知道，利用本論文的方法可以在幾何圖形的影像中找到準確的視差估測值，接下來會比較本論文的方法與其他演算法的運算時間。本實驗的執行環境如表 4.4 所示，系統版本為 Windows7 旗艦版、處理器為 Intel Pentium T2370 1.73GHz*2Ｍ以及記憶體 2GB DDR2，本實驗統一以 4.1 節的幾何圖形為實驗影像，影像大小為 640*480 像素，分別以傳統的演算法 Full Search、連通標記法[17]以及本論文之演算法進行時間運算。如表 4.4 所示，傳統搜尋演算法的運算時間為 4297.59 秒，連通標記法的運算時間為 338.277 秒，本論文所執行的運算時間為 120.523 秒，得知本論文所花費的運算時間小於其他兩者，換言之本論文的方法的執行速度比其他兩者快。. 表4.4. 設備規格與運算時間電腦規格系統版本. Windows7 旗艦版. 處理器. Intel Pentium T2370 1.73GHz*2. 記憶體. 2GB DDR2. 圖片大小. 640*480 像素 45.

(64) 實驗方法. Full Search. 連通標記法. 本論文. 運算時間. 4297.59 s. 338.277s. 120.523s. 藉著本章節幾何圖形的實驗，能夠證明在本論文的方法下除了能找到正確的預測視差值，亦能縮短找尋景深時所花費的運算時間。. 4.2. 標準影像實驗結果利用本論文的方法實做公認的標準影像，本文採取 Middlebury 資料庫[18]，該資料庫中的影像包含不同前景與背景，並且提供標準視差圖用來與演算法生成的視差圖進行比對，因此我們可以正確的檢驗立體特徵點比對演算法的精度及適用範圍，本文採用 Tsukuba、Teddy 與 Plastic 標準測試圖來驗證演算法優劣。. 4.2.1. Tsukuba 標準測試圖 Tsukuba 標準影像前景是以台燈、雕像、桌子、攝影機為主如圖 4.11 所示，且背景的部份十分複雜，可以從垂直邊緣圖看得出偵測到的邊緣很複雜如圖 4.13 圖 4.14 所示，分割出來的遮罩可以將匹配出前景的移動量，移動量由大到小可以明確的分辨出景深的差異，如圖 4.19-圖 4.24 所示，完整各階層邊緣遮罩與預測視差值實驗結果參考 46.

(65) 附件 2。. 圖4.11 標準圖-tsukuba. 圖4.12. Tsukuba-標準景深圖. 圖4.13. Tsukuba-左圖垂直邊緣偵測. 圖4.14. Tsukuba-右圖垂直邊緣偵測. 圖4.15. Tsukuba-左圖開運算. 圖4.16. Tsukuba-右圖開運算. 47.

(66) 圖4.17. Tsukuba-連通區域標記. 移動量：-14. 移動量：-11. 移動量：-10. 移動量：-8. 移動量：-7. 移動量：-6. 圖4.18. 標準景深圖主要物件切割. 圖4.19. 邊緣遮罩-檯燈. 圖4.20. 邊緣遮罩-雕像 48.

(67) •. 圖4.21. 邊緣遮罩-雕像. 圖4.22. 邊緣遮罩-桌腳. 圖4.23. 邊緣遮罩-桌面上物品. 圖4.24. 邊緣遮罩-攝影機. 本論文估測之移動量：-16、-15、-14、-13、-12、-11、-10、-9、-8、-7、 -6、-5、-4. •. 標準移動量： -14、-11、-10、-8、-7、-6. 49.

(68) 4.2.2. Teddy 標準測試圖 Teddy 標準影像前景是以植物、玩偶、玩具屋為主，背景雖然沒有太多物件，但顏色比較花俏如圖 4.25 所示，從垂直邊緣圖來觀察影像顯得十分複雜如圖 4.27 圖 4.28 所示，分割出來的遮罩相對較多，且深度的範圍較為廣泛，因此匹配的移動量相較於單調的影像來得多，移動量由大到小可以明確的分辨出景深的差異如圖 4.33-圖 4.38 所示，完整各階層邊緣遮罩與預測視差值實驗結果參考附件 3。. 圖4.25. 標準圖-Teddy. 圖4.26. Teddy -標準景深圖. 圖4.27. Teddy -左圖垂直邊緣偵測. 圖4.28. Teddy -右圖垂直邊緣偵測. 50.

(69) 圖4.29. Teddy -左圖開運算. 圖4.30. Teddy -右圖開運算. 圖4.31. Teddy -連通區域標記. 移動量：-43. 移動量：-33. 移動量：-22. 移動量：-32. 移動量：-16. 圖4.32. 標準景深圖主要物件切割 51.

(70) •. 圖4.33. 邊緣遮罩-植物. 圖4.34. 邊緣遮罩-前方玩偶. 圖4.35. 邊緣遮罩-玩具屋頂. 圖4.36. 邊緣遮罩-後方玩偶. 圖4.37. 邊緣遮罩-背景. 圖4.38. 邊緣遮罩-背景. 本論文估測之移動量：-43、-42、-41、-40、-38、-37、-36、-35、-34、. 52.

(71) -33、-32、-31、-30、-29、-28、-27、-26、-23、-22、-21、-20、-18、 -16、-15、-14 •. 標準移動量：-43、-33、-32、-22、-16. 本論文的方法實做標準影像，預測的視差值多於標準物件景深圖，是因單一物件的景深非同一個視差值，實際上單一物件是有深淺的差，因此預測的視差值會比標準景深多。另外本論文在一些特定的位置會有誤判的情形發生，因為左右影像中的影像會有所謂的遮蔽現象，或著是左右眼的輪廓因為觀看角度不同而有所不同，而造成左右比對上的誤判。. 53.

(72) 4.3. 實際拍攝影像實驗結果實際拍攝 3D 影像再利用本論文的方法實做，本文是以 FinePix REAL 3D W1[19]相機拍攝 3D 影像，相機規格如表 4.5 所示。. 圖4.39. FinePix REAL 3D W1 實體圖 (圖片來源 FinePix) 表4.5. 相機規格型號. FinePix REAL 3D W1. 有效畫素. 1000 萬畫素. 儲存格式. 3D Still image: MPO+JPEG, MPO (Multi Picture Format compatible). 記錄畫素 (pixels). L: 4:3 3,648 x 2,736 L: 3:2 3,648 x 2,432 M: 4:3 2,592 x 1,944 S: 4:3 2,048 x 1,536 54.

(73) 鏡頭. Fujinon 3 倍光學鏡頭 , F 3.7 ( Wide ) - F4 .2 ( Te l e p h o t o ). 焦距. f＝ 6.3mm～ 18.9mm, 相當於. 35mm. 相機. 35mm～ 105mm 對焦長度鏡頭距離 (b). 770mm. 4.3.1. 場地配置如圖 4.40 所示，在一張桌子上擺放兩個不同物件，分別擺放距離 28 公分、38 公分及 48 公分，且兩個物品皆位於雙眼鏡頭的中間。. 圖4.40. 場地配置圖 55.

(74) 4.3.2. 實體拍攝及三角測距(圖片大小 912*684) •. 實際距離：28 公分. 圖4.41. 單一物件-左圖. 圖4.42. 單一物件-右圖. 圖4.43. 垂直邊緣偵測-左圖. 圖4.44. 垂直邊緣偵測-左圖. 圖4.45. 連通區域標記 56.

(75) 圖4.46. 遮罩-2 層. 圖4.47. 遮罩-4 層. 表4.6. 預測視差值第 2：-246. •. 第 11 層：-245. 實際距離：48 公分. 圖4.48. 單一物件-左圖. 圖4.49. 單一物件-右圖. 57.

(76) 圖4.50. 垂直邊緣偵測-左圖. 圖4.51. 垂直邊緣偵測-左圖. 圖4.52. 連通區域標記. 圖4.53. 遮罩-56 層. 圖4.54. 遮罩-58 層. 表4.7. 預測視差值第 13：-135. 第 14 層：-133 58.

(77) 4.3.3. 多物件實體拍攝(圖片大小 912*684) •. 實際距離：38 公分、28 公分. 圖4.55. 多物件-左圖. 圖4.56. 多物件-右圖. 圖4.57. 垂直邊緣偵測-左圖. 圖4.58. 垂直邊緣偵測-左圖. 圖4.59. 連通區域標記 59.

(78) 圖4.60. 遮罩-4 層. 圖4.61. 遮罩-11 層. 圖4.62. 遮罩-19 層. 圖4.63. 遮罩-20 層. 表4.8. 預測視差值第 4 層：-249. 第 11 層：-246. 第 19 層：-173. 第 20 層：-170. 影像大小為 912*684，從上一小節得知物品距離鏡頭 28 公分，帶入三角測距公式運算：. Z =b. f ∆x. => f =. Z * ∆x 28 * 246 => f = = 894.54 b 7.7. 60.

(79) 得知焦距以及表 4.6 表 4.7 中的移動量，帶入三角測距公式運算：. Z =b Z =b Z =b Z =b Z =b Z =b. f ∆x f ∆x f ∆x f ∆x f ∆x f ∆x. => 7.7 *. 28 * 246 / 249 = 27.66 7 .7. => 7.7 *. 28 * 246 / 246 = 28 7 .7. => 7.7 *. 28 * 246 / 173 = 39.815 7. 7. => 7.7 *. 28 * 246 / 170 = 40.517 7. 7. => 7.7 *. 28 * 246 / 135 = 51.02 7 .7. => 7.7 *. 28 * 246 / 133 = 51.78 7 .7. 表4.9. 實際距離與換算距離實際距離. 28cm. 38cm. 48cm. 換算距離. 27.66cm 28cm. 39.815cm 40.517cm. 51.02cm 51.78cm. 誤差. 1.21% 0%. 4.77% 6.62%. 6.29% 7.87%. 如表 4.9 所示實際距離與換算距離，得知本論文之方法求得偏移量經由三角測距公式可以得到該物件的距離，且誤差小於 8%，完整各階層邊緣遮罩與預測視差值實驗結果參考附件 4、5、6。. 61.

(80) 4.3.4. 圖片大小之誤差比較計算出的物件距離與圖片大小的關係，如表 4.10 所示，分別計算出不同圖片大小的實驗距離，計算方式如前一小節的方法利用三角測距公式來換算，首先以距離 28 公分的物件為基準，各別算出大圖與小圖的焦距，得到焦距後即可換算出各個移動量的實驗距離，最後比對在圖像大小不同時實驗距離與實際距離的差距。表4.10. 圖片大小與換算距離比較圖片大小. 912*684 (小圖). 焦距移動量實際距離. 3648*2736 (大圖). 894.54. 3363.63. -173. -170. -135. -133. -691. -680. -539. -532. 38. 38. 48. 48. 38. 38. 48. 48. (cm) 實驗距離. 39.81 40.51 51.02 51.78 37.81 38.08 48.05 48.68. (cm) 誤差(%). 4.76. 6.6. 6.29. 7.87. 0.5. 0.21. 0.1. 1.41. 經由計算後可以得到表 4.10，可以知道在較大的影像中所求得的實驗距離會更接近實際距離，誤差率皆小於 2%，相較於小圖的誤差率，大圖的誤差率遠小於小圖誤差率，因此以較大的影像實現本論文方法會更準確的估測出視差值，但是計算複雜也會增加。 62.

(81) 第5.章結論與未來工作 5.1. 結論本論文基於左右眼攝像機的垂直邊緣影像僅考慮水平移動來減少運算，且以左右眼攝像機邊緣的四周影像來做 SAD 比對，提高了預測視差值的準確率。假設圖像大小為m × n，以 Full search 匹配方法中的 4x4 區塊大小估計需要. ×. 次的比對運算次數。本方法約2. × n次比對運算次. 數，由此可以見本論文方法的運算次數比較低，且本論文是以垂直邊緣來進行匹配，其運算量更是低於上述結果。在 Full search 中所匹配到的移動量不完全是正確的，假設在一個單色的牆壁上以 Full search 做區塊匹配很容易匹配錯誤。本論文的方法先以左右攝像機影向來做第一次的匹配、又以左右眼攝像機邊緣的四周影像來做 SAD 第二次比對，因此可提高匹配出來移動量的準確率。經運實驗證明本論文的方法運算時間小於其他兩個實驗演算法，分別差距 35.6 倍及 2.8 倍。且本論文所提的方法在單一物件及多物件的景深估測中，可以預測出移動量，並且可以找到標準景深圖給予的物件深度相對應的邊緣，經實驗證明本論文方法利用三角測距可以換算物件的實際距離，誤差率小於 8%，且隨著影像大小越大誤差會越 63.

(82) 低，最低的誤差可達 0.1%。. 5.2. 未來工作本論文能夠提出預測的視差值，但是垂直邊緣偵測在一些大小相同且灰階值相近的部分會有少數誤判的情形，且在影像的邊界或是景物的交接處會有遮蔽的線像產生，未來的工作是找出更具有特徵性的邊緣來實現邊緣偵測，並且呈現出 3D 影像中完整的深度影像。. 64.

(83) 參考文獻 [1]Qian, N., Binocular Disparity and the Perception of Depth, Neuron, 18, pp.359-368, 1997. [2]賴文能，"淺談 2D 至 3D 視訊轉換技術", 影像與識別, 2010, vol. 16 no.2, pp. 61-75 [3]J,Canny.A Computational Approach To Edge Detection, IEEE Trans. Pattern Analysis and Machine Intelligence, 8:679-714, 1986. [4]張文亮，立體動畫的先驅"視覺藝術大師-布魯斯特" [5] J. Compen, 3D graphics rendering for multiview displays: Using programmable shaders on graphics cards, Koninklijke Philips Electronics N.V. 2005, Technical note TN-2004/00920,pp20-23. [6]Jgwang(2008,December. 31). 何謂「視差」 .[Online].. Available:http://jgwang.pixnet.net/blog(2015,May). [7]François Blais, Michel Picard, Guy Godin, "Accurate 3D acquisition of freely moving objects," Proceedings. 2nd International Symposium on 3D Data Processing, Visualization and Transmission, 2004, pp.422-429. [8]郭子豪，"基於線段比對之快速深度估測法" (碩士論文)，取自臺灣博碩士論文系統，2012,pp.16-18 [9]N. Otsu, 1979, “A Threshold Selection Method from Gray-Level Histograms”, IEEE Transactions on System, Man, and Cybernetics, vol. SMC-9, pp.62-66 [10]Robert M. Haralick, and Linda G. Shapiro,” Computer And Robot Vision Volume I,” Addison-Wesley Pub. co., 1992, pp.28-48 65.

(84) [11]Gary Bradski, Adrian Kaehler(2008) Learning OpenCV Computer Vision with the OpenCV Library O'Reilly Media; 1st edition (opencv). [12]D. Bradley and G. Roth, “Adaptive thresholding using the integral image,” Journal of Graphics Tools 12(2),pp. 13-21, 2007. [13]Sung-Yeol Kim, Eun-Kyung Lee, Yo-Sung Ho,“Generation of ROI Enhanced Depth Maps Using Stereoscopic Cameras and a Depth Camera”, Broadcasting, IEEE Transactions, Volume 54, Issue 4, Page(s): 732-740, Dec.2008. [14]Hirokazu Yamanoue, Makoto Okui, and Fumio Okano, Senior Member, IEEE , “Geometrical Analysis of Puppet-Theater and Cardboard Effects in Stereoscopic HDTV Images”, IEEE Transactions on Circuits and Systems for Video Technology, Volume 16, Issue 6, page(s):744- 752, June 2006. [15]Q.. Wei,. “Converting. 2D. to. 3D:. A. Survey,”. Research. Assignment,Information and Communication Theory Group (ICT), DelftUniversity of Technology, December 2005. [16]C. Fehn. “A 3D-TV Approach Using Depth-Image-Based Rendering (DIBR)” In Proceedings of 3rd IASTED Conference on Visualization, Imaging, and Image Processing ,pp. 482-487, Benalmádena, Spain, Sep. 2003. [17]林家瑜，“以連通區域標記為基礎的自動景深估測方法之研究” (碩士論文)，取自臺灣博碩士論文系統，中華民國一百零三年七月 [18]Tsukuba,Teddy,Plaetic[Online]. Available:,http://vision.middlebury.edu/stereo/data/scenes2001/(2015,Ma. y) 66.

(85) [19]FinePix REAL 3D W1.[Online]. Available:http://www.fujifilm.com/support/3d/specifications/camera/finep. ix_real3dw1/(2015,May). 67.

(86) 附件附件 1 幾何圖形附件 1 .1 幾何圖形-垂直邊緣遮罩. 第1層. 第2層. 第3層. 第4層. 第5層. 第6層. 第7層. 第8層. 第9層. 第 10 層. 第 11 層. 第 12 層. 68.

(87) 第 13 層. 第 14 層. 第 15 層. 第 16 層. 第 17 層. 第 18 層. 第 19 層. 第 20 層. 第 21 層. 第 22 層. 第 23 層. 附件 1 .2 幾何圖形-視差值第 1 層：20. 第 2 層：20. 第 3 層：-20. 第 4 層：20. 第 5 層：20. 第 6 層：-20. 第 7 層：20. 第 8 層：20. 第 9 層：-20. 69.

(88) 第 10 層：20. 第 11 層：-20. 第 12 層：-20. 第 13 層：-20. 第 14 層：-20. 第 15 層：20. 第 16 層：-20. 第 17 層：-20. 第 18 層：20. 第 19 層：-20. 第 20 層：-20. 第 21 層：10. 第 22 層：10. 第 23 層：0. 附件 2 Tsukuba 附件 2 .1 Tsukuba -垂直邊緣遮罩. 第1層. 第2層. 第3層. 第4層. 第5層. 第6層. 第7層. 第8層. 第9層. 70.

(89) 第 10 層. 第 11 層. 第 12 層. 第 13 層. 第 14 層. 第 15 層. 第 16 層. 第 17 層. 第 18 層. 第 19 層. 第 20 層. 第 21 層. 第 22 層. 第 23 層. 第 24 層. 71.