以垂直邊緣為基礎的自動景深估測方法之研究
全文
(2) -2-.
(3) 誌謝 結束碩士口考也意味著我的學生生涯即將告一段落了,從兩年前 剛畢業的大學生蛻變成今天的碩士生,在求學的期間得到了許多貴人 的幫助,讓我能夠如期的完成碩士學位。 從大學一年級才開始踏進資訊領域中,很幸運的是能夠遇見恩師 黃鎮淇教授,從一年級的啟蒙到三、四年級的實務專題以及研究所的 論文皆是受到恩師的指導與鼓勵,從研究方向的選擇、觀念架構之建 立、文獻的探討,以及本文之撰寫,老師不斷地予以耐心的帶領,適 時的提點我,以及對初稿逐字修正與建議,使得本論文得以順利完成。 也感謝在學期間所有老師的教導、讓我能夠有充分的能力完成本論文, 在碩士班中認識了啟晉、俊霖以及元聖同學,還有研究室中的成員家 瑜學姐、章儀和冠志學弟,能夠互相勉勵、切磋,當遇見瓶頸時能夠 一起討論、一起解決問題,最重要的是能夠一起分擔壓力分享在學習 中得到的喜悅,也豐富了我的研究生的生活。此外,承蒙口考老師 劉 旭榮教授以及 黃振藝教授,在口考時給予我許多寶貴的意見及指正, 謹致以最深的謝意。 最後要感謝我的父母親、姊姊及所有家人,給予我很大的動力支 持我完成碩士學位,不斷的給予我關懷與支持,讓我沒有後顧之憂的 過完碩士班兩年的生活。 一路上有許多人的支持才能讓我圓滿的完成碩士學位,也豐富了 我這兩年的生活,在畢業後我將會盡我所能的幫助所有幫助我的人, 也會抱持的謙卑的態度繼續學習、回饋社會大眾。. I.
(4) 以垂直邊緣為基礎的自動景深估測方法之研究 校名:國立屏東大學 系所:資訊工程系(所) 研究生:林哲男 指導教授:黃鎮淇. 摘要 人類的雙眼具有辨識影像深度的功能,立體顯示技術一直是顯示 技術的主要發展目標,而立體顯示的觀賞效果取決於影像中物件與景 物相對位置的呈現,也就是物體的深度資訊,因此圖像的景深估測是 目前產業的發展重點。 我們提出了一個以垂直邊緣為基礎的自動景深估測方法,將已有 的 2D 左、右攝像機影像賦予其深度資訊,利用深度影像繪圖法 (DIBR ,Depth Based Image Rendering)轉換成立體顯示技術所需要 的景深圖。首先,擷取左、右攝像機影像的垂直邊緣,接著使用聯通 區域標記(CCL , Connected-Component Labeling)方法,再將每一段 的垂直邊緣當作遮罩分割出來。 將左攝像機影像分割出來的遮罩與右攝像機影像的垂直邊緣做 相減比對,為了提高比對的準確度,利用 SAD 比對法,將左攝像機影 像分割出來邊緣的四周原來灰階影像比對其相對應位置右攝像機影 像四周的原來灰階影像,計算錯誤率,並且記錄錯誤率最低的移動量 做為該邊緣的移動量,重複上述方法,找到每一個邊緣的移動量做為 II.
(5) 之後景深估測的預測點,目的是為了節省景深估測的運算量。 經實驗證明,在單一物件、多物件、單純背景與複雜背景皆能以 垂直邊緣做為預測每一個物件或景物的移動量,可以降低景深估測的 運算量。 關鍵詞:三維、立體視覺、景深估測、垂直邊緣、連通區域標記. III.
(6) Abstract The human eye has a depth image recognition functions, three-dimensional display technology has been a major display technology development goals, while viewing stereoscopic display effect depends on the image showing the relative positions of objects and scenes. That is the depth information of the object, so the image of the depth estimation is currently developing key industries. We propose an automatic depth estimation method based on the vertical edge of the existing 2D left and right camera image given its depth information.The depth-imaging cartography (DIBR, Depth Based Image Rendering) conversion founded crystal display technology FIG desired depth. First, capture the vertical left and right edges of the camera image, then use the Unicom regional mark (CCL, Connected-Component Labeling) method, and then the vertical edges of each segment as a mask carved out. Vertical edge of the left camera image segmentation mask out and do the right camera image subtraction comparison, in order to improve the accuracy of alignment, the use of SAD compared to law, will be left out of the camera image segmentation gray around the edges of the original image ratio its grayscale images corresponding to the original position around the right camera images to calculate the error rate, and record the lowest error rate as the amount of movement of the moving amount of the edge. Repeat the above method, find the amount of movement after each edge as depth of field estimated prediction point, the purpose is to save computation depth estimation. The experiment proved that a single object, multiple objects, simple background with complex background can use the vertical edge to forecast the amount of movement of every object.It can reduce the amount of computation to estimate the depth of field. Keywords: 3D, Stereo vision, Depth Estimation, Vertical Edge, Connected Component Labeling IV.
(7) 目錄. 誌謝............................................................................................................. I 摘要........................................................................................................... II ABSTRACT ............................................................................................ IV 目錄............................................................................................................ V 圖表目錄.................................................................................................... X 第 1.章. 緒論 ............................................................................................1. 1.1. 前言.................................................................................................1 1.2. 研究目的 ........................................................................................3 第 2.章. 研究背景 ....................................................................................4. 2.1.. 立體影像原理 ............................................................................4. 2.2. 雙眼視覺像差(BINOCULAR DISPARITY) ..........................................5 2.3.. 遮蔽點(OCCLUSION) .................................................................. 11. 2.4. 視差(PARALLAX) ...........................................................................12 2.5. 三維掃描器 ..................................................................................13 2.5.1.. 接觸式掃描 ..........................................................................14. V.
(8) 2.5.2.. 非接觸式掃描 ......................................................................14. 2.6. 垂直邊緣偵測 ..............................................................................15 2.7.. 通區域標記 ..............................................................................16. 2.8. 數學形態學(MATHEMATICAL MORPHOLOGY) ...............................17 2.8.1. 侵蝕(EROSION)..........................................................................18 2.8.2. 膨脹(DILATION) ........................................................................19 2.8.3. 開運算 ......................................................................................20 2.8.4. 閉運算 ......................................................................................21 2.8.5. 侵蝕結構 ..................................................................................22 2.9. 固定區域比對法 ..........................................................................24 2.10. 門檻值 ......................................................................................25 2.10.1. OTSU 自動門檻值決定演算法.................................................27 2.11.. 景深估測 ..................................................................................27. 2.12. 立體影像編碼技術 ..................................................................29 2.12.1. 立體影像對編碼技術 ..............................................................29 2.12.2. 2D+DEPTH 資料表示法 ............................................................30 2.13. OPENCV (OPEN COMPUTER VISION LIBRARY) ..........................31 2.14. 以連通區域標記為基礎的自動景深估測方法之研究 ..........32 第 3.章. 研究方法 ..................................................................................33. VI.
(9) 3.1. 圖像相減比對 ..............................................................................35 3.2. 錯誤率計算 ..................................................................................36 第 4.章. 研究結果 ..................................................................................38. 4.1. 幾何圖形實驗結果 ......................................................................38 4.1.1. 垂直邊緣偵測 ..........................................................................40 4.1.2. 開運算 ......................................................................................40 4.1.3. 連通區域標記 ..........................................................................41 4.1.4. 圖像相減比對與錯誤率計算 ..................................................43 4.1.5. 標準視差值與實際視差值 ......................................................44 4.1.6. 運算時間 ..................................................................................45 4.2. 標準影像實驗結果 ......................................................................46 4.2.1. TSUKUBA 標準測試圖 ..............................................................46 4.2.2. TEDDY 標準測試圖 ..................................................................50 4.3. 實際拍攝影像實驗結果 ..............................................................54 4.3.1. 場地配置 ..................................................................................55 4.3.2. 實體拍攝及三角測距(圖片大小 912*684).............................56 4.3.3. 多物件實體拍攝(圖片大小 912*684).....................................59 4.3.4. 圖片大小之誤差比較 ..............................................................62 第 5.章. 結論與未來工作 ......................................................................63 VII.
(10) 5.1. 結論...............................................................................................63 5.2. 未來工作 ......................................................................................64 參考文獻...................................................................................................65 附件...........................................................................................................68 附件 1 幾何圖形 ..................................................................................68 附件 1 .1 幾何圖形-垂直邊緣遮罩 .....................................................68 附件 2 TSUKUBA ...................................................................................70 附件 2 .1 TSUKUBA -垂直邊緣遮罩 .....................................................70 附件 2 .2 TSUKUBA-視差值 ..................................................................86 附件 3 TEDDY........................................................................................91 附件 3 .1 TEDDY-垂直邊緣遮罩...........................................................91 附件 3 .2 TEDDY-視差值 ..................................................................... 111 附件 4 實際拍攝影像(A) ................................................................... 116 附件 4 .1 實際拍攝影像(A)-垂直邊緣遮罩 ...................................... 116 附件 4 .2 實際拍攝影像(A)-視差值 .................................................. 117 附件 5 實際拍攝影像(B).................................................................... 117 附件 5.1 實際拍攝影像(B)-垂直邊緣遮罩 ....................................... 117 附件 5 .2 實際拍攝影像(B)-視差值 .................................................. 118 附件 6 實際拍攝影像(B).................................................................... 118 VIII.
(11) 附件 6.1 實際拍攝影像(B)-垂直邊緣遮罩 ....................................... 118 附件 6 .2 實際拍攝影像(B)-視差值 ..................................................120. IX.
(12) 圖目錄 圖 2.1 紅藍眼鏡物件示意圖 ....................................................................5 圖 2.2 紅藍眼鏡示意圖 ............................................................................5 圖 2.3 雙眼視覺像差示意圖 ....................................................................6 圖 2.4 雙眼視覺像差示意圖 ....................................................................6 圖 2.5 雙眼視覺像差大小示意圖 ............................................................7 圖 2.6 景深換算示意圖 ............................................................................8 圖 2.7 水平視差示意圖-視點移動前 ..................................................... 11 圖 2.8 水平視差示意圖-視點移動後 .....................................................12 圖 2.9. 正視差 ......................................................................................13. 圖 2.10 零視差 ......................................................................................13 圖 2.11. 負視差 ......................................................................................13. 圖 2.12 ONE-PASS 示意圖...................................................................16 圖 2.13 ONE-PASS 示意圖...................................................................17 圖 2.14 TWO-PASS 示意圖 ..................................................................17 圖 2.15 結構元素及相對應位置 ..........................................................18 X.
(13) 圖 2.16 待測圖像 ..................................................................................19 圖 2.17 侵蝕運算結果 ..........................................................................19 圖 2.18 待測圖像 ..................................................................................20 圖 2.19 擴張運算結果 ..........................................................................20 圖 2.20 待測圖像 ..................................................................................21 圖 2.21 開運算結果 ..............................................................................21 圖 2.22 待測圖像 ..................................................................................22 圖 2.23 閉運算結果 ..............................................................................22 圖 2.24 景深估測流程圖 ......................................................................28 圖 2.25 多視角視訊示意圖 ..................................................................30 圖 2.26 2D+DEPTH 編碼方式 .............................................................31 圖 3.1 程式流程圖 ..................................................................................34 圖 3.2 圖像相減比對 ..............................................................................35 圖 3.3 誤判邊緣 ......................................................................................36 圖 3.4 錯誤率計算 ..................................................................................37 圖 4.1 幾何原圖 ......................................................................................38. XI.
(14) 圖 4.2 幾何景深圖 ..................................................................................38 圖 4.3 左攝像機影像 ..............................................................................39 圖 4.4 右攝像機影像 ..............................................................................39 圖 4.5 幾何圖形-左圖邊緣偵測 .............................................................40 圖 4.6 幾何圖形-右圖邊緣偵測 .............................................................40 圖 4.7 左圖開運算 ..................................................................................41 圖 4.8 右圖開運算 ..................................................................................41 圖 4.9 連通區域標記 ..............................................................................42 圖 4.10 幾何圖形的邊緣遮罩 ..............................................................43 圖 4.11. 標準圖-TSUKUBA ..................................................................47. 圖 4.12. TSUKUBA-標準景深圖 ..........................................................47 圖 4.13. TSUKUBA-左圖垂直邊緣偵測 ..............................................47 圖 4.14. TSUKUBA-右圖垂直邊緣偵測 ..............................................47 圖 4.15. TSUKUBA-左圖開運算 ..........................................................47 圖 4.16. TSUKUBA-右圖開運算 ..........................................................47 圖 4.17. TSUKUBA-連通區域標記 ......................................................48. XII.
(15) 圖 4.18. 標準景深圖主要物件切割 ......................................................48 圖 4.19. 邊緣遮罩-檯燈 .........................................................................48 圖 4.20. 邊緣遮罩-雕像 .........................................................................48 圖 4.21. 邊緣遮罩-雕像 .........................................................................49 圖 4.22. 邊緣遮罩-桌腳 .........................................................................49 圖 4.23. 邊緣遮罩-桌面上物品 .............................................................49 圖 4.24. 邊緣遮罩-攝影機 .....................................................................49 圖 4.25. 標準圖-TEDDY........................................................................50 圖 4.26. TEDDY -標準景深圖...............................................................50 圖 4.27. TEDDY -左圖垂直邊緣偵測...................................................50 圖 4.28. TEDDY -右圖垂直邊緣偵測...................................................50 圖 4.29. TEDDY -左圖開運算...............................................................51 圖 4.30. TEDDY -右圖開運算...............................................................51 圖 4.31. TEDDY -連通區域標記...........................................................51 圖 4.32. 標準景深圖主要物件切割 ......................................................51 圖 4.33. 邊緣遮罩-植物 .........................................................................52. XIII.
(16) 圖 4.34. 邊緣遮罩-前方玩偶 .................................................................52 圖 4.35. 邊緣遮罩-玩具屋頂 .................................................................52 圖 4.36. 邊緣遮罩-後方玩偶 .................................................................52 圖 4.37. 邊緣遮罩-背景 .........................................................................52 圖 4.38. 邊緣遮罩-背景 .........................................................................52 圖 4.39. FINEPIX REAL 3D W1 實體圖 ..............................................54 圖 4.40. 場地配置圖 ..............................................................................55 圖 4.41. 單一物件-左圖 .........................................................................56 圖 4.42. 單一物件-右圖 .........................................................................56 圖 4.43. 垂直邊緣偵測-左圖 .................................................................56 圖 4.44. 垂直邊緣偵測-左圖 .................................................................56 圖 4.45. 連通區域標記 ..........................................................................56 圖 4.46. 遮罩-2 層 ..................................................................................57 圖 4.47. 遮罩-4 層 ..................................................................................57 圖 4.48. 單一物件-左圖 .........................................................................57 圖 4.49. 單一物件-右圖 .........................................................................57. XIV.
(17) 圖 4.50. 垂直邊緣偵測-左圖 .................................................................58 圖 4.51. 垂直邊緣偵測-左圖 .................................................................58 圖 4.52. 連通區域標記 ..........................................................................58 圖 4.53. 遮罩-56 層 ................................................................................58 圖 4.54. 遮罩-58 層 ................................................................................58 圖 4.55. 多物件-左圖 .............................................................................59 圖 4.56. 多物件-右圖 .............................................................................59 圖 4.57. 垂直邊緣偵測-左圖 .................................................................59 圖 4.58. 垂直邊緣偵測-左圖 .................................................................59 圖 4.59. 連通區域標記 ..........................................................................59 圖 4.60. 遮罩-4 層 ..................................................................................60 圖 4.61. 遮罩-11 層 ................................................................................60 圖 4.62. 遮罩-19 層 ................................................................................60 圖 4.63. 遮罩-20 層 ................................................................................60. XV.
(18) 表目錄 表 4.1. 幾何圖形圖像資訊-左攝像機影像 .............................................39 表 4.2. 幾何圖形圖像資訊-右攝像機影像 .............................................39 表 4.3. .實際與實驗視差值 .....................................................................44 表 4.4. 設備規格與運算時間 ..................................................................45 表 4.5. 相機規格 ......................................................................................54 表 4.6. 預測視差值 ..................................................................................57 表 4.7. 預測視差值 ..................................................................................58 表 4.8. 預測視差值 ..................................................................................60 表 4.9. 實際距離與換算距離 ..................................................................61 表 4.10. 圖片大小與換算距離比較 ......................................................62. XVI.
(19) 第1.章 緒論 1.1. 前言 在現代的生活中,人們對視覺上的要求越來越高,不僅是影像畫 質上的提升、立體視覺更是越來越普遍,隨著 3D 電視的發展許多電 影、動畫也開始加入了立體的效果,但是 3D 數位內容還是供不應求, 雖然目前市面上已有 3D 影像拍攝系統,卻因軟體技術發展尚未成熟 使得價格昂貴、普及率不高,導致無法迅速發展。然而立體視覺要達 到多視角(Multiview)的目的,就必須計算或偵測出景深資訊。因此, 景深資訊的取得,是目前產業界的技術發展重點。 景深資訊需要透過三維掃描儀來取得,而三維掃描儀的技術分類 為接觸式(contact)與非接觸式(non-contact),接觸式是以實際觸碰 待測物件所得之物件立體影像,接觸式測量在測量過程中必須接觸到 待測物體,因此測量的結果都十分精準,但接觸的過程會有毀損的疑 慮,且相較於其他測量方法接觸式的掃描時間較長,使接觸式量測技 術無法普遍為一般人接受。反之非接觸式測量方式是不需要接觸待測 物體,而是使用待測物本身所反射周遭之光線的特徵來完成測量,如 紅外線與各類幅射現一般最常見最容易取得的光線就是可見光幅射, 在測量可見光的情況下不會傷害到待測物件,也不需要過高的硬體規 1.
(20) 格成本低廉,較容易為大眾接受。本篇論文使用的非接觸式掃描法中 的被動式立體視覺法,採用左右視差法來獲得圖片深度資訊,但此種 方法需仰賴有效的圖片像素匹配分析(correspondence analysis), 一般使用區塊比對(block matching)或對極幾何(epipolar geometry) 演算法達成。 立體視覺是建構在人類具有雙眼視覺像差(Binocular disparity)[1] 的基礎下所產生,由於人類的兩個眼睛集中在同一面,相較於大多數 的動物,減少了視覺範圍卻增加了判斷距離、深度的能力。人類兩眼 之間的距離平均為 6.5 公分,以至於同一個物體用不同眼睛看皆會得 到不同的景像,這種現象即為雙眼視差,而視覺像差的程度與物體的 距離有關,距離越遠視差越小、距離越近視覺像差越大。. 2.
(21) 1.2. 研究目的 製做 3D 影像需要一個 2D 影像加上景深資訊[2],景深資訊的取 得可以透過人工方式將每一個景物填入適當的深度值,或者利用非人 工的方式取得深度值,非人工的方式往往是將 2D 左、右攝像機影像 透過影像處理來分析影像中物體的大小、顏色、清晰度、物體遮蔽性、 相對位置…等,找出影像中的一些深度線索,再給予其深度值,例如: 全域搜尋法(FS, Full Search),是使用地毯式的搜尋,理論上能找 到最精確的移動向量(MV, Motion Vector)並獲得最好的影像品質, 但是對於變化度不大的區域,視差值會趨近於零或者等於零、造成誤 判,且由於是地毯式的搜尋全域搜尋法的運算量會比較大,其硬體成 本也會比較高。因此我們希望以非人工的方式取得景深資訊來降低人 力成本,提出一個方法是將左右眼攝像機影像的垂直邊緣,以水平移 動比對來減少運算的複雜度。 本論文採用了垂直邊緣偵測,是因為傳統的邊緣偵測方法,包含: canny[3]、sobel...等,這些方法主要是找出影像中所有的邊緣及輪 廓,而垂直邊緣偵測可以去除掉水平的輪廓,不僅能保留較具有特徵 的垂直輪廓 、又能減少運算量。. 3.
(22) 第2.章 研究背景 2.1. 立體影像原理 立體影像的原理[4]牽扯到人類天生的兩個眼睛,人類雙眼的距 離平均為 6.5 公分,如果兩個眼睛相隔太遠的畫看近物時就彷彿看平 面,反之兩個眼睛相隔太近時就等同於同一個眼睛,這個距離讓人類 具有辨識景物深度的功能,以左右眼分別近距離觀看景物時發現觀看 的景物會有一小部分的不一樣,右眼看到的一小部分為左眼看不到的、 左眼看到的一小部分為右眼看不到的,這剛好形成一個互補的作用, 使得景物看起來是立體的,而且會使左右眼共同看的部分會更加清楚, 現今的 3D 電影就是採用此原理來使物體看起來有立體的效果。 一個十八世紀的科學家布-雷烏斯特(David Brewster)發現了這 個原理,為了證明「人類會產生視線的錯覺」而畫了一幅圖畫,如圖 2.1 圖 2.2 所示在圖畫中某些部位的左邊圖上紅色線條、在某些部位 的右邊塗上藍色線條,且在圖畫中背景的部分是模糊的,最後以一副 左邊為紅色右邊為藍色的眼鏡來觀看圖畫,使得左眼只看得到紅色線 條右眼只看得到藍色線條,以人工的方式來產生左右眼的視差,這樣 一來觀賞者的大腦會設立一條基準線,模糊的背景成為了遠景,而紅 藍線條會產生視差,讓觀測物凸顯出來,使得在二維空間的圖形會有 4.
(23) 三維的效果。. 圖2.1. 圖2.2. 紅藍眼鏡物件示意圖. 紅藍眼鏡示意圖. 2.2. 雙眼視覺像差(Binocular disparity) 人類看到的影像是由左眼和右眼接收到的圖像訊息,經由大腦的 視覺系統推斷出第三個維度,而左眼右眼接收到的圖像訊息是同一個 影像但是從不同角度的視角接收圖像訊息,擷取到的圖像訊息因而不 5.
(24) 同,如圖 2.3 所示。. 圖2.3. 雙眼視覺像差示意圖. 比對左眼所擷取到的影像與右眼擷取到的影像,得到左眼、右眼 擷取到的影像會有些微的不同,如圖 2.4 所示,以黃色蘋果為基準, 左圖紅色蘋果會有明顯的位移,接著比對左眼紅色蘋果與右眼紅色蘋 果之間的距離,這就是雙眼視覺像差[1]。. 圖2.4. 雙眼視覺像差示意圖. 6.
(25) 雙眼視覺像差與立體影像有著密不可分的關係,立體影像的呈現 是因為各個物體與攝像機的鏡頭有不同的距離而產生,雙眼視覺像差 越大則物體與鏡頭距離越近、反之雙眼視覺像差越近則距離越遠,如 圖 2.5 所示,圖中兩條虛線假設為無窮遠處的物品及三個不同距離的 物品,從上到下分別為遠、中、近,以人的雙眼來觀看這四種不同的 物品,在無窮遠處物品的像差為零,物品越近時像差會越來越大。. 圖2.5. 雙眼視覺像差大小示意圖. 利用雙眼視覺像差的特性加上已有的環境參數,可以換算物件景 深的距離,如圖 2.6 所示如果已知兩個攝影機之間的位置參數、距離 與焦距,在同一時間擷取的畫面就能夠推算出彼此之間的關係。 7.
(26) 圖2.6. 景深換算示意圖. 假設待測目標實際座標為 ( X ,Y, Z) ,對應到左右攝像機的座標分別是 ( xl , y l ). 、 ( xr , yr ) ,以三角形公式來推導可以得到下關係式:. xl X = f Z. (2.1). xr X − b = f Z. (2.2). 8.
(27) yl Y = f Z. (2.3). yr Y = f Z. (2.4). 其中 f 是影像中平面與攝像機鏡頭中心的距離,其次定義 ∆x 為 xl − xr, 即是前一小節所提到的視覺像差,b 是兩鏡頭之間的間距,這麼一來 可以得到圖像深度資訊為:. xl X =b ∆x. Y =b Z =b. (2.5). y. (2.6). ∆x f. (2.7). ∆x. 9.
(28) 推導公式: xl X = f Z. => Z =. xr X −b = f Z. f X , xl. =>. f ( X − b) xr. Z =. Z=. f f X = ( X − b) xl xr. =>. Xx r = ( X − b) xl. =>. Xx r = Xxl − bxl. =>. bxl = Xxl − Xx r. =>. bxl = X ( xl − xr ). =>. X =. bx l ( xl − x r ). xl X = f Z. =>. X =Z. xl x =b l f ∆x. =>. Z∆x = bf. =>. X =Z. =>. X =b. xl ∆x. xl f. Z =b. f ∆x. 因此才能求得實際座標 ( X ,Y, Z),其中 Z 值即是物件的畫面深度資訊。 由上述數學式中可知,只要雙眼系統掌握一定的資訊量就可推算出物 件距離資訊。. 10.
(29) 2.3. 遮蔽點(occlusion) 遮蔽點[5]是指一個視點(viewpoint)水平移動到另一個視點,移 動後所觀看的影像會有些微的差異、且影像中的景物會因為觀看的視 角不同而產生的遮蔽(occlusion),如圖 2.7 所示,圖片內的黑點為 物體表面的採樣點,箭頭的長度則是對應到採樣點的深度,視點經過 水平移動後,如如圖 2.8 所示 ,移動後的視點對照到物體表面的採 樣點產生出一個新影像,比照到原來的影像會發現有一些採樣點會被 遮蔽。. 圖2.7. 水平視差示意圖-視點移動前. 11.
(30) 圖2.8. 水平視差示意圖-視點移動後. 2.4. 視差(Parallax) 視差(Parallax)[6]是指人們透過兩個眼睛左眼、右眼所看到目標位 置因為視角不同造成的差異變化,與上一小節提到的雙眼視覺像差 (Binocular disparity)有異曲同工之妙,但視差一般用於呈現 3D 影立體 影像,而雙眼視覺像差則是用在視網膜呈像,有了視差才能說服大腦 在辨識該影像或影片中空間感的存在。基本上人類的眼睛可概分為遠、 中、近三個層次,因此人眼會自動調整到一個適當的角度來觀看景物, 不同的角度就會產生視差,不同的視差又可概分為正視差、零視差以 及負視差。 如圖 2.9 圖 2.12 圖 2.11 所示,我們將螢幕當作參考的基準面, 12.
(31) 比較眼睛觀看景物時視線對焦的位置,正視差時,視線的焦點在於基 準面的後面;零視差時,視線的焦點會剛好落在基準面上;負視差時, 兩眼會在基準面之前有焦點。. 圖2.9. 圖2.10 零視差. 正視差. 圖2.11 負視差. 2.5. 三維掃描器 用來偵測並且分析現實世界中環境或物體的幾何構造與外觀資 13.
(32) 料。 蒐集到的資料常被用來進行三維重建計算,三維掃描儀的製作 並非仰賴單一技術,各種不同的重建技術都有其優缺點,成本與售價 也有高低之分。目前可以分為接觸式掃描及非接觸式掃描。. 2.5.1. 接觸式掃描 接觸式三維掃描儀經由實際觸碰物體表面的方式計算深度,然而 因其在掃描過程中必須接觸物體,待測物有遭到探針破壞損毀之可能, 此外接觸式掃描需要較長的時間。. 2.5.2. 非接觸式掃描 非接觸式掃描是以測量由待測物表面反射周遭輻射線的方法,並 不會發射任何輻射線來達到預期的效果。大部分這類型的掃描儀以偵 測環境的可見光為主。因此大部分情況下,被動式掃描法並不需要規 格太特殊的硬體支援,這類被動式產品往往相當便宜。 本論文所提出的方法是以非接觸式掃描中的立體視覺法[7]來實 現,傳統的立體成像系統是使用兩個放在一起的攝影機,平行注視待 重建之物體。此方法建立在人類的雙眼視覺感知的概念上來推估深度, 若已知兩個攝影機的彼此間距與焦距長度,而擷取的左右兩張圖片又 能成功疊合,則深度資訊可迅速推得。此法須仰賴有效的圖片像素匹 配分析,一般使用區塊比對(block matching)演算法達成。 14.
(33) 2.6. 垂直邊緣偵測 垂直邊緣偵測[8]是利用二維色彩空間來進行影像邊緣偵測,目的 是為了找出影像垂直的邊緣。垂直邊緣偵測是由影像的左上角開始, 由左至右、上至下的方向處理,一開始以第一個像素點為基準,接著 與右邊像素點比較灰階值差異是否相近,如果相近的話就判定兩點為 同一個線段,將此像素點設為黑色,如果灰階差異值不相近,則判定 為不同線段即是邊緣,將此像素點設為白色,依此類推將整個影像掃 描過一次就可以得到該影像的垂直邊緣,以式(2.8)計算基準的像素點 與其下一個像素點的差異值,判斷差異值是否小於門檻值來決定該點 是否為同一線段的的像,這裡的門檻值(threshold)是以 otsu 演算法[9] 求得,otsu 演算法是以灰階影像來求得一個最佳的門檻值,且不會消 耗大量的運算量就能以自動的方式求出一個最佳的門檻值。. | (GRAYn − GRAYn+1 ) |< th. 15. (2.8).
(34) 2.7. 通區域標記(Connected Component) 垂直連通區域(Connected Component)通常是指影像中位置相鄰具 有相同像素值的前景像素點組成的圖像區域[10]。 單一個連通區域是由具有相同像素值的鄰近像素點所組成的集 合,傳統的連通區域分析算法 Two-Pass,是將影像掃描兩次就可以將 影像中存在的所有連通區域找出來,並且給予標記。第一次掃描時就 給予每一個像素位置一個標籤,如圖 2.12 圖 2.13 所示,且第一次掃 描時同一個連通區域內的像素集合可能被賦予一個或是多個標籤,因 此第二次的掃描就是將這些在同一個連通區域內具有不同標籤的像 素點賦予相同標籤、歸類成同一個連通區域,如如圖 2.14 所示所示。. 圖2.12 One-Pass 示意圖. 16.
(35) → 1 3. 1. 2 1. 2. 1 4. 2. 1. 5. 2. 2. 圖2.13 One-Pass 示意圖. → 1 1. 1. 2 1. 2. 1 1. 2. 1. 2. 2. 2. 圖2.14 Two-Pass 示意圖. 2.8. 數學形態學(Mathematical morphology) 在 1964 年 Mathron 與 Serra 提出了數學形態學,這是一種用於影 像分析的方法,可應用於邊緣偵測、雜訊去除、影像加強和分割。主 要的運算有四種,侵蝕運算(Erosion)、膨脹運算(Dilation)、開運算 (Opening)及閉運算(Closing),這些運算分為兩個部分一個稱為 Active Image 可視為待測物,而另一個則為結構元素(Structuring Element)(也 稱作 Kernel)如圖 2.15 所示,形態學處理的結果取決於結構元素設計 的優劣,通常膨脹運算可使影像擴張、侵蝕運算會使影像縮小、開運 17.
(36) 算與閉運算則是膨脹運算與侵蝕運算的合成,差異是閉運算先執行擴 張運算後侵蝕運算,能將區域鄰近的小雜訊合併在一起;開運算則是 反過來開運算反過來先執行侵蝕運算後擴張運算,會斷開用細線連接 的兩個區塊。. 1. 1. 1. -1,-1. 0,-1. 1,-1. 1. 1. 1. 1,0. 0,0. 1,0. 1. 1. 1. -1,-1. 0,1. 1,1. 圖2.15 結構元素及相對應位置. 2.8.1. 侵蝕(Erosion) 利用侵蝕,我們可以消除在影像中的一些小雜訊,假設我們所使 用結構元素為 B,如圖 8,待測物 A 如圖 2.16 所示,則侵蝕的運算可 以表示為: E = A ⊗ B ,結果將如圖 2.17 所示。. 18.
(37) 圖2.16 待測圖像. 圖2.17 侵蝕運算結果 (圖片來源:(Fisher et al., 2000)). 2.8.2. 膨脹(Dilation) 用來填滿小洞和缺口,也就是說它主要的用途在於連接縫隙。如 圖 2.18 所示為結構元素 B,運算結果如圖 2.19 所示。擴張的運算可 以表示為: D = A ⊕ B 19.
(38) 圖2.18 待測圖像. 圖2.19 擴張運算結果 (圖片來源:(Fisher et al., 2000)). 2.8.3. 開運算 開運算是對影像先侵蝕再擴張,主要被用來消除一些外在的雜訊。 如圖 2.20 所示為結構元素,運算結果如圖 2.21 所示,開運算的算法 可表示為: O = ( A ⊗ B) ⊕ B 20.
(39) 圖2.20 待測圖像. 圖2.21 開運算結果 (圖片來源:(Fisher et al., 2000)). 2.8.4. 閉運算 使用結構元素為 B, 如圖 2.22 所示為待測物 A,閉運算是對影像 先擴張再侵蝕,可用來填滿小洞和間隙,運算結果如圖 2.23 所示, 閉運算的算法可表示為: C = A• B = ( A ⊕ B) ⊗ B 21.
(40) 圖2.22 待測圖像. 圖2.23 閉運算結果 (圖片來源:(Fisher et al., 2000)). 2.8.5. 侵蝕結構 在 Opencv[11]我們利用 cvErode()和 cvDilate()函數來實現侵蝕及 膨脹,完整的函數為:. 22.
(41) void cvErode( Iplimage* src,. 來源影像. Iplimage * dst,. 輸出影像. IplConvKernel* element=NULL,. 侵蝕結構. int iterations=1). 侵蝕次數. 主要探討的部分為侵蝕結構,可以依影像的需要來改變侵蝕的結構, 完整的函數為:. IplConvKernel* cvCreateStructuringElementEx( 指定的遮罩有幾行. int cols, int rows,. 指定的遮罩有幾列. int anchor_x,. 遮罩 x 座標. int anchor_y,. 遮罩 y 座標. int shape,. 結構形狀. int* values=NULL ); 結構形狀會改變侵蝕的形狀,結構形狀可以分為三大類,矩形主要是 處理角點的部分、十字交叉型則是與矩形相反、橢圓型是把直線的部 分保留,那本論文是以垂直的邊緣的方式來進行,因此採用橢圓型的 侵蝕結構,結構對應參數如下: 矩形. CV_SHAPE_RECT 23.
(42) CV_SHAPE_CROSS. 十字交叉型. CV_SHAPE_ELLIPSE. 橢圓形. CV_SHAPE_CUSTOM. 自訂型態. 2.9. 固定區域比對法 由於區塊比對演算法擁有簡單性與規則性這兩個優點,使得此演 算法廣泛的使用在動量估測上。透過目前畫面和參考畫面 (reference frame) 的巨方塊交叉比對,在參考畫面中找出最符合的巨方塊的位 置,一般實際的作法是將一張畫面分割成相同大小且不重覆 (Non-Overlapped)的巨集區塊(Macroblock, MB),以此區塊為單位進行 區塊比對(Block Matching),在所定義的搜尋範圍(Search Range)內, 找出最相似的比對區塊。一般具有最小均方誤差(Mean Square Error, MSE)、平均絕對誤差(Mean Absolute Error, MAE)、絕對誤差和(Sum Of Absolute Difference, SAD)的區塊即為最相似的比對區塊。假設區塊為 NxN,C ij 為目前區塊(Current Block),R ij 為參考區塊(Reference Block), 計算方式依序如下所示:. 24.
(43) 1 MSE = 2 N 1 MAE = 2 N. N −1 N −1. 2 ( C − R ) ∑∑ ij ij. (2.9). i = 0 j =0. N −1 N −1. ∑∑ (C. − Rij ). (2.10). SAD = ∑∑ (Cij − Rij ). (2.11). i = 0 j =0. ij. N −1 N −1 i =0 j =0. 本文在錯誤率計算時採用 SAD 比對法,主要目的是為了比較左、 右攝像機的垂直邊緣經過影像處理後的差異,以差異大小來判別是否 為錯誤的視差值,SAD 比對法相較於其他兩種比對方法,SAD 比對 法的運算量比較低,因此採用此比對方法。. 2.10. 門檻值 圖像分割是由圖像處理到圖像分析的關鍵步驟,是一種基本的計 算機視覺技術。圖像分割指的是把圖像分成各具特徵的區域並提取出 感興趣目標的技術和過程。例如,像素的灰階或色彩值、小區塊像素 的紋理或幾何結構、區塊的移動或變形…等。 門檻值[12]是一種最簡單的圖像分割方法,目的通常都是要擷取 25.
(44) (extract) 出影像中的物件或瑕疵區域,只要這些物件或瑕疵區域的灰 階或顏色與背景有差異,就可以用門檻值方法將這些物件或瑕疵上的 點從背景分離出來。 假設圖像只有目標和背景兩大類,那麼只需選取一個門檻值稱為 單門檻分割,這種方法是將圖像中每個像素的灰度值與門檻值相比較, 灰度值大於門檻值的像素為一類,灰度值小於門檻值的像素為另一 類。 其中 f 是原始灰階,g 是二值化後的數值,T 是門檻值:. 1, if f ( x, y) > T g ( x, y) = 0, if f ( x, y) ≤ T . (2.12). 門檻值方法分類依照門檻値 (threshold value) 的選擇方法而定,分為 以下三種: 1.當 T 僅與 f(x,y)有關,該門檻值被稱為全域性(global) 2.當 T 與 f(x,y)及 p(x,y) (目前像素的區域特徵 (local property))有關, 該門檻值被稱為區域性(local) 3.當 T 與空間座標 x 及 y 有關,該門檻值被稱為動態性 (dynamic)或 適應性 (adaptive). 26.
(45) 2.10.1. Otsu 自動門檻值決定演算法 為了實現自動化,本論文採用 Otsu 演算法[9]自動取得門檻值, Otsu 演算法通常用於影像二值化上,但是也不全然都用在二值化,只 要是門檻值的取得都能夠用此演算法。 假設門檻值為 T,接著將影像區分成兩群,一群是影像像素值小 於 T、另一群視影像像素值大於 T,Otsu 演算法就是求出一個門檻值, 使得 A 群與 B 群之間有最大的群間變異數,如式 2.13 所示 Pa (t ) 代表 像數值小於等於 T, Pb (t ) 代表像素值大於 T 的機率, µ a (t ) 代表影像灰 度值小於等於 T 值機率的平均值,µ b (t ) 代表影像灰度值大於 T 值機率 的平均值,最後將 256 個門檻值帶入找出最大值,就可以知道在哪個 門檻值會使得群間變異數最大,該門檻值即為最佳門檻值。. Pa (t ) Pb (t )[µ a (t )µ b (t )]2. (2.13). 2.11. 景深估測 影像由 2D 轉換成 3D 需要藉由單一個 2D 彩色影像加上該影像的 深度資訊[2],而深度資訊可以透過不同的深度估測方法求得,如圖 2.24 所示,主要分成:人工深度指派、半自動深度估測法,以及全自 27.
(46) 動深度估測法。人工深度指派是透過人類透過多個主觀的 3D 線索以 及拍攝技巧的結構繪製規則,針對每一張影像逐張進行畫面的深度分 析,最後透過繪圖工具繪製,這種方法可以提供最佳的深度品質,但 需要消耗大量的成本,目前的自動深度估測探討文獻中,大多式計算 影像、視訊中所能得到的深度線索來求得深度圖,本文所探討的是以 垂直邊緣為基礎的自動景深估測方法。. 一般2D影像/視訊. 人工指派深度 半自動深度估測 全自動深度估測 深度圖 後處理 平滑濾波器等 立體影像合成 DIBR 立體影像/視訊 圖2.24 景深估測流程圖. 28.
(47) 2.12. 立體影像編碼技術 現在比較常見的 3D 顯視器的輸入格式有 2 種,第一種為 2D+depth, 這種格式包含了一組彩色的影像及其對應的深度影像序列[13],但這 種顯示方式最主要的問題在於,其影像品質與深度資訊的準確度,所 以該如何得到正確的深度資訊是 2D+depth 格式上一個主要的研究目 標。另一種格式是由兩個通道的彩色資訊(左、右眼視訊)又稱立體影 像對[14],此種輸入格式需要以兩架平行擺設的攝影機來擷取影像, 相較於第一種格式,此格式只適用於立體視訊的播放,無法用於多視 角的影像合成。. 2.12.1. 立體影像對編碼技術 多視角視訊(Multi-View Video)的做法:在同一個場景,如圖 2.25 所示對於不同的視角下拍攝的n組視訊畫面可分為平行、弧形、聚集、 背離四種。. 29.
(48) 平行. 弧形. 聚集. 背離 圖2.25 多視角視訊示意圖. 虛擬視角的影像品質與多視角中攝影機的設定、數量有關,設置 攝影機的位置、參數與增加攝影機的數量,達到更準確的 3D 效果[15], 但需要大量的處理資料,因此成本高昂。. 2.12.2. 2D+depth 資料表示法 2D+depth 編碼方式只需要一張 2D 的彩色影像加上一個相對應的 灰階景深圖就可以達到 3D 的效果,相較於立體影像對處理的資料量 與成本都降低不少,如圖 2.26 所示對應合成的方法稱為深度影像繪 圖法 Depth Based Image Rendering (DIBR)[16]。. 30.
(49) 圖2.26 2D+depth 編碼方式 綜合以上所述,在低成本以及低運算複雜度的前提下,要製作 3D 影像將是一個問題,本論文方就是利用 2D+depth 編碼來降低所需的 成本,再利用雙眼視訊的特性以水平移動將左眼右眼影像比對,以及 垂直邊緣偵測來降低運算的複雜度,來達到 2D 影像轉 3D 的效果。 我們使用 OpenCV[11]進行實驗測試,方法與結果在下面章節呈現。. 2.13. OpenCV (Open Computer Vision Library) 本論文以 OpenCV[11]為主要的影像處理函式庫。OpenCV 是由 Intel 公司所發起並參與開發的開放原始碼電腦影像視覺函式庫 ( Open Source Computer Vision Library ),它是由一系列的 C 函數和 少量 C++ 所構成,因此實現了影像處理和電腦視覺方面以及模式識 別很多通用演算法。並且 OpenCV 擁有包括了 300 多個 C 函數的跨 平臺的中、高階 API。它不必依靠於其它的外部函式庫,也可以使用 某些外部函式庫。OpenCV 以 BSD 授權條款授權發行,可以在商業 31.
(50) 和研究領域中免費使用,大大的減低了因我們設計所帶來的成本。 OpenCV 支援 Windows、Android、Maemo、FreeBSD、OpenBSD、 iOS,Linux 和 Mac OS 等平台上執行。 OpenCV 支援的使用環境如下: •Linux •C++ Builder IDE •Visual C++ .net •Eclipse IDE •DevCpp IDE •Visual C++ and Microsoft's DirectShow. 2.14. 以連通區域標記為基礎的自動景深估測方 法之研究 以連通區域標記為基礎的自動景深估測方法之研究[17]其作法 是將右圖像使用圖像色彩衰減(Color Reduce),讓相近的顏色能分割 到同一區塊。並且使用聯通區域標記,將相同亮度的區塊分割出來。 再將分割的物件區塊分別儲存在 256 個階層的灰度圖像中,再利用每 一階層的灰度圖像當作遮罩來分割出物件。最後將右圖分割出的物件 區域與左圖像相同形狀的區域做相減比對,並記錄相減值趨近於零的 像素(pixel)數量。重複上述方法,將左圖向左邊水平移動一個像素並 與右圖相減,直到移動到邊界為止,同時將所有值紀錄下來,並找尋 在紀錄中的像素數量最多的水平移動量,則可以計算出此物件區域在 左右圖像間的水平視差值,再將視差值轉換成景深值。 32.
(51) 第3.章 研究方法 本論文的方法會將左攝像機影像與右攝像機影像各別處理,首先 偵測左圖影像的垂直邊緣,分析影像中的像素資訊、擷取到影像中的 垂直邊緣,接著為了減少雜訊點因此對左右圖的垂直邊緣影像分別進 行開運算,再使用聯通區域標記(CCL , Connected-Component Labeling) 方法,將每一個垂直邊緣分別給予不同的像素值,接著把相同顏色亮 度的邊緣分割出來、並且每一種顏色的邊緣個別儲存,每一種顏色的 邊緣就等同於一個邊緣遮罩,這麼一來就得到了 n 個邊緣遮罩。接下 來把右圖影像也做垂直邊緣偵測,得到右圖的垂直邊緣後就可以開始 與左圖得到的遮罩做圖像相減比對。 在比對的過程中會有一些重複的邊緣造成誤判,因此加上一個錯 誤率的計算來避免誤判的情形,錯誤率是將比對到的邊緣擷取其四周 的原始影像,透過 SAD(Sum Of Absolute Difference)與相對應右圖邊 緣四周的原始影像比對,計算出錯誤率,保留錯誤率最小的為該邊緣 的移動量,比對完 n 個邊緣就可以得到整張影像邊緣的移動量,流程 圖如圖 3.1 所示。. 33.
(52) 右圖影像. 左圖影像. 垂直邊緣偵測. 垂直邊緣偵測. 開運算. 開運算. 連通區域標記 圖像相減比對 分割n個邊緣物件遮罩 錯誤率計算 第i個邊緣物件遮罩. 是. 是否達到邊界. 水平向左移動一個像素 move_i=move_i-1 否. 錯誤率最小者其移動量 為邊界第i層的視差值. i>n. 否. 是 顯示預測視差值. 圖3.1. 程式流程圖 34.
(53) 3.1. 圖像相減比對 圖像相減比對是將固定右圖垂直邊緣影像,藉著移動左圖得到的 邊緣遮罩來比對與右圖垂直邊緣的差異,如圖 3.2(a)所示,計算出在 哪一個移動量的錯誤率最低者則當為視差值,每次向左移動一個像素, 移動到圖像的邊界則替換下一個邊緣遮罩。如圖 3.2(b)-(f)所示。如圖 3.2(d)所示的移動量即為最佳的視差值。. 圖3.2. 圖像相減比對 35.
(54) 3.2. 錯誤率計算 將邊緣遮罩與右圖邊緣座圖像相減比對可以初步的比對該影像 的移動量,但是在某些影像的垂直邊緣太複雜因此產生了誤判的移動 量如圖 3.3 所示,本篇論文為此設計了一個錯誤率的計算,這個算法 是擷取左圖邊緣遮罩在左圖原圖得位置,再擷取右圖原圖中相對應左 圖遮罩的位置,最後將擷取到的兩個圖形做相減得比對,得到錯誤 率。. 圖3.3. 誤判邊緣. 首先將移動後第 i 個邊緣遮罩做膨脹運算,與左圖原圖做 AND 運算,得到左圖原圖在該邊緣遮罩位置的圖形,而右圖影像為了要與 左圖對其,因此右圖影像必須移動 move_i 來與左圖相對應,接著與 左圖膨脹後的遮罩做 AND 運算,就可以得到右圖原圖在左圖遮罩相 36.
(55) 對應的位置圖形,最後將兩個擷取到的圖形做相減比對,計算出錯誤 率,錯誤率計算流程圖如圖 3.4 所示。. 右圖影像. 第i個邊緣遮罩 移動move_i. 向左移動move_i. 膨脹運算. AND運算. AND運算. 左圖影像. 圖像SAD相減比對. 錯誤率是否小 於當前錯誤率. 否. 不記錄. 是 記錄目前最小值 圖3.4. 是否達到邊界. 錯誤率計算. 錯誤率計算是將膨脹後的左圖右圖邊緣影像做圖像相減比對後, 統計比對後的點數,除以左圖遮罩經過膨脹運算後的點數,目的是為 了比較與原圖的差異值,保留錯誤率最小的移動量。 37.
(56) 第4.章 研究結果 4.1. 幾何圖形實驗結果 這裡模擬真實影像以繪圖軟體畫出了四個幾何圖形,並且再加上 一個複雜背景如圖 4.1 所示,假設四個幾何圖形有不同深度資訊如圖 4.2 所示,並且模擬左、右攝像機影像在各個幾何圖形中賦予不同的 水平位置(垂直位置、形狀,大小維持不變),以左圖為基準,右圖的 三角形的水平位置與背景相同設為 0,右圖的正方形往右移動 10 個 像素,右圖的星形往左移動 20 個像素,右圖的心形往右移動 20 個像 素,如圖 4.3 圖 4.4,表 4.1 表 4.2 所示。. 圖4.1. 幾何原圖. 圖4.2 38. 幾何景深圖.
(57) 圖4.3. 左攝像機影像. 圖4.4. 表4.1. 幾何圖形圖像資訊-左攝像機影像 樣式. 座標位置. 圖形大小. 三角形. (80,50). 130X120. 正方形. (350,60). 120X120. 菱形. (90,240). 120X120. 心形. (330,200). 150X150. 表4.2. 幾何圖形圖像資訊-右攝像機影像 樣式. 座標位置. 圖形大小. 三角形. (80,50). 130X120. 正方形. (360,60). 120X120. 39. 右攝像機影像.
(58) 菱形. (110,240). 120X120. 心形. (310,200). 150X150. 4.1.1. 垂直邊緣偵測 本論文以垂直邊緣為基礎,首先將找出左、右攝像機影像的垂直 邊緣,如圖 4.5 圖 4.6 所示可以看出幾何輪廓中的水平邊緣皆被濾除, 只保留垂直邊緣,也可以看得出垂直邊緣的獨特性。. 圖4.5. 幾何圖形-左圖邊緣偵測. 圖4.6. 幾何圖形-右圖邊緣偵測. 4.1.2. 開運算 得到垂直邊緣後,為了減少雜訊產生因此將左右圖的垂直邊緣進 行開運算,如圖 4.7 圖 4.8 所示,但本實驗圖因為理想的模擬影像, 40.
(59) 因此無雜訊點的產生。. 圖4.7. 左圖開運算. 圖4.8. 右圖開運算. 4.1.3. 連通區域標記 接著需要擷取出影像中每個邊緣做為遮罩,因此採用了連通區域 標記,將不同的邊緣填入不同顏色,如圖 4.9 所示,接著將每種顏色 亮度的邊緣分割出來,最後將分割的邊緣區塊各別儲存,如圖 4.10 所示,如圖 4.10(a)所示分割出來的遮罩分別是菱形,如圖 4. 10 (b)(c) 所示分割出來的遮罩為心形,如圖 4. 10 (d)(e)所示分割出來遮罩為正 方形,如圖 4. 10 (f)所示分割出來的遮罩為三角形如。完整各階層遮 罩實驗結果參考附件 1.1。. 41.
(60) 圖4.9. 連通區域標記. 邊緣遮罩(a). 邊緣遮罩(b). 邊緣遮罩(c). 邊緣遮罩(d) 42.
(61) 邊緣遮罩(e). 邊緣遮罩(f). 圖4.10 幾何圖形的邊緣遮罩. 4.1.4. 圖像相減比對與錯誤率計算 擷取到邊緣遮罩便可以與右圖垂邊緣做圖像相減比對,遮罩每移 動一個像素就會與右圖垂邊緣做圖像相減比對,為了增加相減比對的 準確性,本論文設計了一個錯誤率計算,將左圖影像擷取的邊緣遮罩 做膨脹運算,與左圖原圖影像做,目的是為了能擷取到左圖原圖中該 遮罩邊緣的四周影像,以便於在後面的步驟中可以與右圖相對應的區 塊做圖像相減比較,加以換算其錯誤率保留最小錯誤率的移動量視為 視差值。. 43.
(62) 4.1.5. 標準視差值與實際視差值 經過圖像比對以及錯誤率的計算後,得到的移動量就是預測視差 值,這裡整理出每個遮罩得到的移動量,與實際的視差值比較,如表 4.3 所示,實際視差值正數代表往左移,負數代表往右移,另外三角 型的移動量為 0 等同於影像的背景,實驗結果實際視差值與預測視差 值相同,所以本論文在簡單的彩色圖像中,視差估測準確率為百分之 百。. 表4.3. .實際與實驗視差值 實驗影像. 實際視差值. 預測視差值. 三角形. 0. 0. 正方形. 10. 10. 菱形. 20. 20. 心形. -20. -20. 在該實驗中得到的五個邊緣遮罩皆能代表影像中各個物件的視 差,也就是說在本論文的方法下能找到影像中各個物件的視差值,達 到準確的預測效果。. 44.
(63) 4.1.6. 運算時間 經過前幾個小節探討可以知道,利用本論文的方法可以在幾何圖 形的影像中找到準確的視差估測值,接下來會比較本論文的方法與其 他演算法的運算時間。本實驗的執行環境如表 4.4 所示,系統版本為 Windows7 旗艦版、處理器為 Intel Pentium T2370 1.73GHz*2M以及 記憶體 2GB DDR2,本實驗統一以 4.1 節的幾何圖形為實驗影像,影 像大小為 640*480 像素,分別以傳統的演算法 Full Search、連通標記 法[17]以及本論文之演算法進行時間運算。 如表 4.4 所示,傳統搜尋演算法的運算時間為 4297.59 秒,連通 標記法的運算時間為 338.277 秒,本論文所執行的運算時間為 120.523 秒,得知本論文所花費的運算時間小於其他兩者,換言之本論文的方 法的執行速度比其他兩者快。. 表4.4. 設備規格與運算時間 電腦規格 系統版本. Windows7 旗艦版. 處理器. Intel Pentium T2370 1.73GHz*2. 記憶體. 2GB DDR2. 圖片大小. 640*480 像素 45.
(64) 實驗方法. Full Search. 連通標記法. 本論文. 運算時間. 4297.59 s. 338.277s. 120.523s. 藉著本章節幾何圖形的實驗,能夠證明在本論文的方法下除了能 找到正確的預測視差值,亦能縮短找尋景深時所花費的運算時間。. 4.2. 標準影像實驗結果 利用本論文的方法實做公認的標準影像,本文採取 Middlebury 資 料庫[18],該資料庫中的影像包含不同前景與背景,並且提供標準視 差圖用來與演算法生成的視差圖進行比對,因此我們可以正確的檢驗 立體特徵點比對演算法的精度及適用範圍,本文採用 Tsukuba、Teddy 與 Plastic 標準測試圖來驗證演算法優劣。. 4.2.1. Tsukuba 標準測試圖 Tsukuba 標準影像前景是以台燈、雕像、桌子、攝影機為主如圖 4.11 所示,且背景的部份十分複雜,可以從垂直邊緣圖看得出偵測到 的邊緣很複雜如圖 4.13 圖 4.14 所示,分割出來的遮罩可以將匹配出 前景的移動量,移動量由大到小可以明確的分辨出景深的差異,如圖 4.19-圖 4.24 所示,完整各階層邊緣遮罩與預測視差值實驗結果參考 46.
(65) 附件 2。. 圖4.11 標準圖-tsukuba. 圖4.12. Tsukuba-標準景深圖. 圖4.13. Tsukuba-左圖垂直邊緣偵測. 圖4.14. Tsukuba-右圖垂直邊緣偵測. 圖4.15. Tsukuba-左圖開運算. 圖4.16. Tsukuba-右圖開運算. 47.
(66) 圖4.17. Tsukuba-連通區域標記. 移動量:-14. 移動量:-11. 移動量:-10. 移動量:-8. 移動量:-7. 移動量:-6. 圖4.18. 標準景深圖主要物件切割. 圖4.19. 邊緣遮罩-檯燈. 圖4.20. 邊緣遮罩-雕像 48.
(67) •. 圖4.21. 邊緣遮罩-雕像. 圖4.22. 邊緣遮罩-桌腳. 圖4.23. 邊緣遮罩-桌面上物品. 圖4.24. 邊緣遮罩-攝影機. 本論文估測之移動量:-16、-15、-14、-13、-12、-11、-10、-9、-8、-7、 -6、-5、-4. •. 標準移動量: -14、-11、-10、-8、-7、-6. 49.
(68) 4.2.2. Teddy 標準測試圖 Teddy 標準影像前景是以植物、玩偶、玩具屋為主,背景雖然沒 有太多物件,但顏色比較花俏如圖 4.25 所示,從垂直邊緣圖來觀察 影像顯得十分複雜如圖 4.27 圖 4.28 所示,分割出來的遮罩相對較多, 且深度的範圍較為廣泛,因此匹配的移動量相較於單調的影像來得多, 移動量由大到小可以明確的分辨出景深的差異如圖 4.33-圖 4.38 所示, 完整各階層邊緣遮罩與預測視差值實驗結果參考附件 3。. 圖4.25. 標準圖-Teddy. 圖4.26. Teddy -標準景深圖. 圖4.27. Teddy -左圖垂直邊緣偵測. 圖4.28. Teddy -右圖垂直邊緣偵測. 50.
(69) 圖4.29. Teddy -左圖開運算. 圖4.30. Teddy -右圖開運算. 圖4.31. Teddy -連通區域標記. 移動量:-43. 移動量:-33. 移動量:-22. 移動量:-32. 移動量:-16. 圖4.32. 標準景深圖主要物件切割 51.
(70) •. 圖4.33. 邊緣遮罩-植物. 圖4.34. 邊緣遮罩-前方玩偶. 圖4.35. 邊緣遮罩-玩具屋頂. 圖4.36. 邊緣遮罩-後方玩偶. 圖4.37. 邊緣遮罩-背景. 圖4.38. 邊緣遮罩-背景. 本論文估測之移動量:-43、-42、-41、-40、-38、-37、-36、-35、-34、. 52.
(71) -33、-32、-31、-30、-29、-28、-27、-26、-23、-22、-21、-20、-18、 -16、-15、-14 •. 標準移動量:-43、-33、-32、-22、-16. 本論文的方法實做標準影像,預測的視差值多於標準物件景深圖, 是因單一物件的景深非同一個視差值,實際上單一物件是有深淺的差, 因此預測的視差值會比標準景深多。 另外本論文在一些特定的位置會有誤判的情形發生,因為左右影 像中的影像會有所謂的遮蔽現象,或著是左右眼的輪廓因為觀看角度 不同而有所不同,而造成左右比對上的誤判。. 53.
(72) 4.3. 實際拍攝影像實驗結果 實際拍攝 3D 影像再利用本論文的方法實做,本文是以 FinePix REAL 3D W1[19]相機拍攝 3D 影像,相機規格如表 4.5 所示。. 圖4.39. FinePix REAL 3D W1 實體圖 (圖片來源 FinePix) 表4.5. 相機規格 型 號. FinePix REAL 3D W1. 有 效 畫 素. 1000 萬 畫 素. 儲 存 格 式. 3D Still image: MPO+JPEG, MPO (Multi Picture Format compatible). 記 錄 畫 素 (pixels). L: 4:3 3,648 x 2,736 L: 3:2 3,648 x 2,432 M: 4:3 2,592 x 1,944 S: 4:3 2,048 x 1,536 54.
(73) 鏡 頭. Fujinon 3 倍 光 學 鏡 頭 , F 3.7 ( Wide ) - F4 .2 ( Te l e p h o t o ). 焦 距. f= 6.3mm~ 18.9mm, 相 當 於. 35mm. 相 機. 35mm~ 105mm 對 焦 長 度 鏡 頭 距 離 (b). 770mm. 4.3.1. 場地配置 如圖 4.40 所示,在一張桌子上擺放兩個不同物件,分別擺放距離 28 公分、38 公分及 48 公分,且兩個物品皆位於雙眼鏡頭的中間。. 圖4.40. 場地配置圖 55.
(74) 4.3.2. 實體拍攝及三角測距(圖片大小 912*684) •. 實際距離:28 公分. 圖4.41. 單一物件-左圖. 圖4.42. 單一物件-右圖. 圖4.43. 垂直邊緣偵測-左圖. 圖4.44. 垂直邊緣偵測-左圖. 圖4.45. 連通區域標記 56.
(75) 圖4.46. 遮罩-2 層. 圖4.47. 遮罩-4 層. 表4.6. 預測視差值 第 2:-246. •. 第 11 層:-245. 實際距離:48 公分. 圖4.48. 單一物件-左圖. 圖4.49. 單一物件-右圖. 57.
(76) 圖4.50. 垂直邊緣偵測-左圖. 圖4.51. 垂直邊緣偵測-左圖. 圖4.52. 連通區域標記. 圖4.53. 遮罩-56 層. 圖4.54. 遮罩-58 層. 表4.7. 預測視差值 第 13:-135. 第 14 層:-133 58.
(77) 4.3.3. 多物件實體拍攝(圖片大小 912*684) •. 實際距離:38 公分、28 公分. 圖4.55. 多物件-左圖. 圖4.56. 多物件-右圖. 圖4.57. 垂直邊緣偵測-左圖. 圖4.58. 垂直邊緣偵測-左圖. 圖4.59. 連通區域標記 59.
(78) 圖4.60. 遮罩-4 層. 圖4.61. 遮罩-11 層. 圖4.62. 遮罩-19 層. 圖4.63. 遮罩-20 層. 表4.8. 預測視差值 第 4 層:-249. 第 11 層:-246. 第 19 層:-173. 第 20 層:-170. 影像大小為 912*684,從上一小節得知物品距離鏡頭 28 公分,帶 入三角測距公式運算:. Z =b. f ∆x. => f =. Z * ∆x 28 * 246 => f = = 894.54 b 7.7. 60.
(79) 得知焦距以及表 4.6 表 4.7 中的移動量,帶入三角測距公式運算:. Z =b Z =b Z =b Z =b Z =b Z =b. f ∆x f ∆x f ∆x f ∆x f ∆x f ∆x. => 7.7 *. 28 * 246 / 249 = 27.66 7 .7. => 7.7 *. 28 * 246 / 246 = 28 7 .7. => 7.7 *. 28 * 246 / 173 = 39.815 7. 7. => 7.7 *. 28 * 246 / 170 = 40.517 7. 7. => 7.7 *. 28 * 246 / 135 = 51.02 7 .7. => 7.7 *. 28 * 246 / 133 = 51.78 7 .7. 表4.9. 實際距離與換算距離 實際距離. 28cm. 38cm. 48cm. 換算距離. 27.66cm 28cm. 39.815cm 40.517cm. 51.02cm 51.78cm. 誤差. 1.21% 0%. 4.77% 6.62%. 6.29% 7.87%. 如表 4.9 所示實際距離與換算距離,得知本論文之方法求得偏移 量經由三角測距公式可以得到該物件的距離,且誤差小於 8%,完整 各階層邊緣遮罩與預測視差值實驗結果參考附件 4、5、6。. 61.
(80) 4.3.4. 圖片大小之誤差比較 計算出的物件距離與圖片大小的關係,如表 4.10 所示,分別計算 出不同圖片大小的實驗距離,計算方式如前一小節的方法利用三角測 距公式來換算,首先以距離 28 公分的物件為基準,各別算出大圖與 小圖的焦距,得到焦距後即可換算出各個移動量的實驗距離,最後比 對在圖像大小不同時實驗距離與實際距離的差距。 表4.10. 圖片大小與換算距離比較 圖片大小. 912*684 (小圖). 焦距 移動量 實際距離. 3648*2736 (大圖). 894.54. 3363.63. -173. -170. -135. -133. -691. -680. -539. -532. 38. 38. 48. 48. 38. 38. 48. 48. (cm) 實驗距離. 39.81 40.51 51.02 51.78 37.81 38.08 48.05 48.68. (cm) 誤差(%). 4.76. 6.6. 6.29. 7.87. 0.5. 0.21. 0.1. 1.41. 經由計算後可以得到表 4.10,可以知道在較大的影像中所求得的 實驗距離會更接近實際距離,誤差率皆小於 2%,相較於小圖的誤差 率,大圖的誤差率遠小於小圖誤差率,因此以較大的影像實現本論文 方法會更準確的估測出視差值,但是計算複雜也會增加。 62.
(81) 第5.章 結論與未來工作 5.1. 結論 本論文基於左右眼攝像機的垂直邊緣影像僅考慮水平移動來減 少運算,且以左右眼攝像機邊緣的四周影像來做 SAD 比對,提高了 預測視差值的準確率。 假設圖像大小為m × n,以 Full search 匹配方法中的 4x4 區塊大 小估計需要. ×. 次的比對運算次數。本方法約2. × n次比對運算次. 數,由此可以見本論文方法的運算次數比較低,且本論文是以垂直邊 緣來進行匹配,其運算量更是低於上述結果。在 Full search 中所匹配 到的移動量不完全是正確的,假設在一個單色的牆壁上以 Full search 做區塊匹配很容易匹配錯誤。本論文的方法先以左右攝像機影向來做 第一次的匹配、又以左右眼攝像機邊緣的四周影像來做 SAD 第二次 比對,因此可提高匹配出來移動量的準確率。 經運實驗證明本論文的方法運算時間小於其他兩個實驗演算法, 分別差距 35.6 倍及 2.8 倍。且本論文所提的方法在單一物件及多物件 的景深估測中,可以預測出移動量,並且可以找到標準景深圖給予的 物件深度相對應的邊緣,經實驗證明本論文方法利用三角測距可以換 算物件的實際距離,誤差率小於 8%,且隨著影像大小越大誤差會越 63.
(82) 低,最低的誤差可達 0.1%。. 5.2. 未來工作 本論文能夠提出預測的視差值,但是垂直邊緣偵測在一些大小相 同且灰階值相近的部分會有少數誤判的情形,且在影像的邊界或是景 物的交接處會有遮蔽的線像產生,未來的工作是找出更具有特徵性的 邊緣來實現邊緣偵測,並且呈現出 3D 影像中完整的深度影像。. 64.
(83) 參考文獻 [1]Qian, N., Binocular Disparity and the Perception of Depth, Neuron, 18, pp.359-368, 1997. [2]賴文能,"淺談 2D 至 3D 視訊轉換技術", 影像與識別, 2010, vol. 16 no.2, pp. 61-75 [3]J,Canny.A Computational Approach To Edge Detection, IEEE Trans. Pattern Analysis and Machine Intelligence, 8:679-714, 1986. [4]張文亮,立體動畫的先驅"視覺藝術大師-布魯斯特" [5] J. Compen, 3D graphics rendering for multiview displays: Using programmable shaders on graphics cards, Koninklijke Philips Electronics N.V. 2005, Technical note TN-2004/00920,pp20-23. [6]Jgwang(2008,December. 31). 何 謂 「 視 差 」 .[Online].. Available:http://jgwang.pixnet.net/blog(2015,May). [7]François Blais, Michel Picard, Guy Godin, "Accurate 3D acquisition of freely moving objects," Proceedings. 2nd International Symposium on 3D Data Processing, Visualization and Transmission, 2004, pp.422-429. [8]郭子豪,"基於線段比對之快速深度估測法" (碩士論文),取自臺灣 博碩士論文系統,2012,pp.16-18 [9]N. Otsu, 1979, “A Threshold Selection Method from Gray-Level Histograms”, IEEE Transactions on System, Man, and Cybernetics, vol. SMC-9, pp.62-66 [10]Robert M. Haralick, and Linda G. Shapiro,” Computer And Robot Vision Volume I,” Addison-Wesley Pub. co., 1992, pp.28-48 65.
(84) [11]Gary Bradski, Adrian Kaehler(2008) Learning OpenCV Computer Vision with the OpenCV Library O'Reilly Media; 1st edition (opencv). [12]D. Bradley and G. Roth, “Adaptive thresholding using the integral image,” Journal of Graphics Tools 12(2),pp. 13-21, 2007. [13]Sung-Yeol Kim, Eun-Kyung Lee, Yo-Sung Ho,“Generation of ROI Enhanced Depth Maps Using Stereoscopic Cameras and a Depth Camera”, Broadcasting, IEEE Transactions, Volume 54, Issue 4, Page(s): 732-740, Dec.2008. [14]Hirokazu Yamanoue, Makoto Okui, and Fumio Okano, Senior Member, IEEE , “Geometrical Analysis of Puppet-Theater and Cardboard Effects in Stereoscopic HDTV Images”, IEEE Transactions on Circuits and Systems for Video Technology, Volume 16, Issue 6, page(s):744- 752, June 2006. [15]Q.. Wei,. “Converting. 2D. to. 3D:. A. Survey,”. Research. Assignment,Information and Communication Theory Group (ICT), DelftUniversity of Technology, December 2005. [16]C. Fehn. “A 3D-TV Approach Using Depth-Image-Based Rendering (DIBR)” In Proceedings of 3rd IASTED Conference on Visualization, Imaging, and Image Processing ,pp. 482-487, Benalmádena, Spain, Sep. 2003. [17]林家瑜,“以連通區域標記為基礎的自動景深估測方法之研究” (碩 士論文),取自臺灣博碩士論文系統,中華民國一百零三年七月 [18]Tsukuba,Teddy,Plaetic[Online]. Available:,http://vision.middlebury.edu/stereo/data/scenes2001/(2015,Ma. y) 66.
(85) [19]FinePix REAL 3D W1.[Online]. Available:http://www.fujifilm.com/support/3d/specifications/camera/finep. ix_real3dw1/(2015,May). 67.
(86) 附件 附件 1 幾何圖形 附件 1 .1 幾何圖形-垂直邊緣遮罩. 第1層. 第2層. 第3層. 第4層. 第5層. 第6層. 第7層. 第8層. 第9層. 第 10 層. 第 11 層. 第 12 層. 68.
(87) 第 13 層. 第 14 層. 第 15 層. 第 16 層. 第 17 層. 第 18 層. 第 19 層. 第 20 層. 第 21 層. 第 22 層. 第 23 層. 附件 1 .2 幾何圖形-視差值 第 1 層:20. 第 2 層:20. 第 3 層:-20. 第 4 層:20. 第 5 層:20. 第 6 層:-20. 第 7 層:20. 第 8 層:20. 第 9 層:-20. 69.
(88) 第 10 層:20. 第 11 層:-20. 第 12 層:-20. 第 13 層:-20. 第 14 層:-20. 第 15 層:20. 第 16 層:-20. 第 17 層:-20. 第 18 層:20. 第 19 層:-20. 第 20 層:-20. 第 21 層:10. 第 22 層:10. 第 23 層:0. 附件 2 Tsukuba 附件 2 .1 Tsukuba -垂直邊緣遮罩. 第1層. 第2層. 第3層. 第4層. 第5層. 第6層. 第7層. 第8層. 第9層. 70.
(89) 第 10 層. 第 11 層. 第 12 層. 第 13 層. 第 14 層. 第 15 層. 第 16 層. 第 17 層. 第 18 層. 第 19 層. 第 20 層. 第 21 層. 第 22 層. 第 23 層. 第 24 層. 71.
(90) 第 25 層. 第 26 層. 第 27 層. 第 28 層. 第 29 層. 第 30 層. 第 31 層. 第 32 層. 第 33 層. 第 34 層. 第 35 層. 第 36 層. 第 37 層. 第 38 層. 第 39 層. 72.
(91) 第 40 層. 第 41 層. 第 42 層. 第 43 層. 第 44 層. 第 45 層. 第 46 層. 第 47 層. 第 48 層. 第 49 層. 第 50 層. 第 51 層. 第 52 層. 第 53 層. 第 54 層. 73.
(92) 第 55 層. 第 56 層. 第 57 層. 第 58 層. 第 59 層. 第 60 層. 第 61 層. 第 62 層. 第 63 層. 第 64 層. 第 65 層. 第 66 層. 第 67 層. 第 68 層. 第 69 層. 74.
(93) 第 70 層. 第 71 層. 第 72 層. 第 73 層. 第 74 層. 第 75 層. 第 76 層. 第 77 層. 第 78 層. 第 79 層. 第 80 層. 第 81 層. 第 82 層. 第 83 層. 第 84 層. 75.
(94) 第 85 層. 第 86 層. 第 87 層. 第 88 層. 第 89 層. 第 90 層. 第 91 層. 第 92 層. 第 93 層. 第 94 層. 第 95 層. 第 96 層. 第 97 層. 第 98 層. 第 99 層. 76.
(95) 第 100 層. 第 101 層. 第 102 層. 第 103 層. 第 104 層. 第 105 層. 第 106 層. 第 107 層. 第 108 層. 第 109 層. 第 110 層. 第 111 層. 第 112 層. 第 113 層. 第 114 層. 77.
(96) 第 115 層. 第 116 層. 第 117 層. 第 118 層. 第 119 層. 第 120 層. 第 121 層. 第 122 層. 第 123 層. 第 124 層. 第 125 層. 第 126 層. 第 127 層. 第 128 層. 第 129 層. 78.
(97) 第 130 層. 第 131 層. 第 132 層. 第 133 層. 第 134 層. 第 135 層. 第 136 層. 第 137 層. 第 138 層. 第 139 層. 第 140 層. 第 141 層. 第 142 層. 第 143 層. 第 144 層. 79.
(98) 第 145 層. 第 146 層. 第 147 層. 第 148 層. 第 149 層. 第 150 層. 第 151 層. 第 152 層. 第 153 層. 第 154 層. 第 155 層. 第 156 層. 第 157 層. 第 158 層. 第 159 層. 80.
(99) 第 160 層. 第 161 層. 第 162 層. 第 163 層. 第 164 層. 第 165 層. 第 166 層. 第 167 層. 第 168 層. 第 169 層. 第 170 層. 第 171 層. 第 172 層. 第 173 層. 第 174 層. 81.
(100) 第 175 層. 第 176 層. 第 177 層. 第 178 層. 第 179 層. 第 180 層. 第 181 層. 第 182 層. 第 183 層. 第 184 層. 第 185 層. 第 186 層. 第 187 層. 第 188 層. 第 189 層. 82.
Outline
相關文件
• The scene with depth variations and the camera has movement... Planar scene (or a
• The scene with depth variations and the camera has movement... Planar scene (or a
In this paper, we propose a practical numerical method based on the LSM and the truncated SVD to reconstruct the support of the inhomogeneity in the acoustic equation with
● develop teachers’ ability to identify opportunities for students to connect their learning in English lessons (e.g. reading strategies and knowledge of topics) to their experiences
Map the elements of elective modules to the Compulsory Part of the school- based Senior Secondary EL curriculum?. Adjust the breadth and depth of learning
The min-max and the max-min k-split problem are defined similarly except that the objectives are to minimize the maximum subgraph, and to maximize the minimum subgraph respectively..
In each figure, the input images, initial depth maps, trajectory-based edge profiles that faithfully enhance bound- aries, our depth maps obtained with robust regression, final
This study chose a qualitative research method to explore more in-depth information access strategy for the establishment of many commodities, institute of emphasis from