Oriental Institute of Technology Institutional Repository:Item 277380145/1160

(1)

(2)

亞東技術學院

資訊與通訊工程研究所

碩士論文

立體視覺缺陷補償方法設計

Compensation Method Design For

Stereo Vision Deficiency

指導教授：賴金輪

研究生：林珈雄

(3)

(4)

(5)

致謝

光陰似箭，碩士班的生活終於走到了尾聲，這段血汗交織的日子將會是我人生中最值得珍藏的回憶。首先，要感謝我的指導教授賴金輪老師，老師光速般的思考能力及無窮盡的創新邏輯，都是鞭策學生不妄自菲薄不斷向前努力的動力，老師開放性的指導方式，讓學生在研究領域上有足夠的發展空間。並感謝暨南國際大學李佩君教授與台北科技大學范育成教授在口試期間給予學生不同層次與方向的思考建議與指正，讓本論文更加充實及完善。再次感謝指導教授的諄諄教誨，在這碩士班的求學過程中除了教導學生專業領域知識外，時時刻刻更不斷強調要能夠培養自己有獨立自主解決事情的思考能力，除此之外，在生活上亦如朋友般相處模式，讓學生在學習之餘亦能充份感受到老師深刻的關懷，相信這段相處的過程，將會是學生最寶貴的回憶。接著感謝台科大博士班傑棋學長與鈞凱同學，有你們的陪伴讓我在實驗室中不感覺到孤單，大家齊心往畢業之路邁進的感覺真的很棒，另外也要感謝柏森、立尹、東霖與淙濱等學弟們的後勤支援，讓我無後顧之憂地在學位口試上努力，也因為有你們，實驗室總是無時無刻都充滿了歡樂與閃光，謝謝你們。也要謝謝工作上的伙伴們，感謝你們包容因學業困擾而任性的我，沒有你們的在工作上挺身相助，我也無法安心完成學業，真的很感謝你們大家。最後，要謝謝我的父母，雖然這學位來得有晚，但沒有你們就沒有今天的我。其次我要謝謝我最愛的老婆，求學期間讓你辛苦了，如果沒有你在背後默默的支持我，當我面對無解的難題時就無法順利渡過，是你讓我能無後顧之憂面對所有的挑戰，僅將本論文獻給那些關心我的人們，謝謝你們。

(6)

中文摘要

人類的雙眼是視覺來源的重要器官之一，人類透過眼睛可以獲得視覺上的感知，尤其是透過雙眼視覺（binocular vision）同時獲得具有視差的視覺影像後，再經由大腦的分析與融合，藉以產生立體視覺，藉由立體視覺可以得知視線所及之各項立體物件的相對距離遠近、立體物件與觀看者本身之間的絕對距離、甚至是立體物件本身的厚度。但對於因先後天因素導致視力受損僅剩下單眼視覺功能或是大腦無法分析與融合雙眼所傳送的視覺影像的族群而言，會因為無法判斷視野中景物與本身的距離而產生碰撞，引發安全上的疑慮。有鑑於此，本研究將設計一個針對立體視覺缺陷的族群之輔助方法，透過雙鏡頭的攝影機或是二部影像擷取裝置（例如 webcam）來模擬人類視覺並擷取視野中的影像畫面後，再交由補償系統進行處理，利用影像處理的技術進行視差估計、距離估測、影像切割及立體物件邊緣偵測等處理後，產生新的補償影像顯示於顯示器中。實驗結果顯示，此一經過補償後的影像內容包含立體視覺的輔助資訊，如視野中各立體物件的絕對距離及立體物件與觀看者本身的相對距離等資訊，對於立體視覺缺陷者而言，透過這些訊息的輔助可以協助他們判斷周圍立體物件之距離，進而降低產生碰撞的機率，提升安全性。以雙鏡頭即時視訊分析處理為基礎的立體視覺缺陷補償方法為一新穎的想法，期許將來能夠將本補償方法透過 DSP 等方式，達成具有縮小體積且便於攜帶的特性，將其商品化，成為人性化之輔助器材，幫助立體視覺缺陷者判讀周遭環境資訊，提供安全無虞的生活空間，將會是立體視覺缺陷者的福音。

(7)

Abstract

Human eyes are important organs of vision, through which people acquire visual perceptions. Binocular vision yields a visual image in parallax, and then, through analysis and blending of the brain, creates a stereoscopic vision, by which the eyes detect the relative distance of stereoscopic objects in the sightline, judge the absolute distance of the object from the observer, and even the thickness of the object. However, if visual impairment, due to congenital or acquired factors, leads to monocular vision or the brain’s ability to analyze and blend visual images transmitted from the eyes, safety could be affected from the inability to judge the distance of objects in the sightline from the human body.

Considering this problem, this thesis designed an auxiliary device for individuals with impaired stereoscopic vision using a double-lens camera or two video extraction devices (e.g. webcam) that simulates human vision to extract images in the sightline and transmit them to a compensatory system for processing, which utilizes image processing techniques to render parallax estimation, judge distance, cut images, as well as edge detection of stereoscopic objects, and then, produces new compensatory images in a display. The experimental results show that, the compensatory images contain auxiliary information of stereoscopic vision, such as the absolute distance of three-dimensional objects in the sightline, and the relative distances of objects from the observer. For those with impaired stereoscopic vision, such information could assist them in judging distances from stereoscopic objects in their surrounding, further reducing the possibility of collision.

(8)

analysis, and processing by double lens is a novel design. It is anticipated that, through DSP, etc, this compensation device will become smaller in size, rendering it easily portable, and become commercialized as a humanized auxiliary device, which can help those with impaired stereoscopic vision to judge surrounding information, providing a safer environment.

(9)

第一章緒論 ... 1 1.1 研究動機與背景 ... 1 1.2 相關研究 ... 3 1.3 論文結構 ... 5 第二章立體影像與立體視覺缺陷 ... 6 2.1 人類眼睛的構造 ... 6 2.2 人眼中影像的形成 ... 8 2.3 雙眼立體視覺 ... 9 2.4 立體影像的發展 ... 11 2.4.1 眼鏡式立體顯示技術 ... 11 2.4.2 裸視型立體顯示技術 ... 15 2.5 立體視覺缺陷 ... 20 第三章原理與系統架構 ... 21 3.1 立體視覺缺陷補償方法架構 ... 21 3.2 立體視覺缺陷補償研究方法 ... 23 3.2.1 影像擷取裝置的配置 ... 23 3.2.2 視差估計 ... 24 3.2.3 距離估計 ... 27

(10)

3.2.4 物件分割 ... 29 3.2.5 標示物件距離的補償方式 ... 29 3.2.6 標示物件相對遠近關係的補償方式 ... 31 3.2.7 標示物件絕對與相對遠近關係的混合補償方式 ... 34 第四章實驗結果與討論 ... 35 4.1 立體視覺缺陷補償裝置 ... 35 4.2 實驗結果 ... 36 4.2.1 視差估測實驗結果 ... 36 4.2.2 距離估測實驗結果 ... 40 4.2.3 標示物件距離的補償方式實驗結果 ... 42 4.2.4 標示物件邊緣顏色的補償方式實驗結果 ... 43 4.2.5 標示物件邊緣寬度的補償方式實驗結果 ... 45 4.2.6 標示物件立體投影長度的補償方式實驗結果 ... 46 4.2.7 感知成效評估 ... 49 4.3 討論 ... 50 第五章結論與未來工作 ... 56 5.1 結論 ... 56 5.2 未來工作 ... 58 參考文獻 ... 60

(11)

(12)

表目錄

第四章：實驗結果與討論

表 4-1：立體視覺缺陷補償方式感知評估 ... 49 表 4-2：估測觀看者與物件距離實驗結果 ... 51 表 4-3：視差估測所需時間 ... 52

(13)

圖目錄

第二章：立體影像與立體視覺缺陷圖 2-1：眼睛的構造圖 ... 6 圖 2-2：成像示意圖 ... 8 圖 2-3：雙眼視覺視野範圍 ... 9 圖 2-4：視差示意圖 ... 11 圖 2-5：紅藍濾色片立體眼鏡 ... 12 圖 2-6：紅藍濾色片立體眼鏡用圖片 ... 12 圖 2-7：偏光式眼鏡原理 ... 13 圖 2-8：偏光式立體眼鏡 ... 13 圖 2-9：偏光式液晶顯示器 ... 14 圖 2-10：液晶式 3D 立體眼鏡 ... 14 圖 2-11：全平面式立體影像顯示器 ... 16 圖 2-12：體積式顯示器示意圖 ... 16 圖 2-13：多平面式 3D 顯示器示意圖 ... 17 圖 2-14：時間多工式雙光源 3D 顯示器示意圖 ... 18 圖 2-15：柱狀透鏡式 ... 18 圖 2-16：視差屏障式 ... 19 第三章：原理與系統架構圖 3-1：系統整體架構圖 ... 21

(14)

圖 3-2：雙鏡頭式 Webcam ... 23 圖 3-3：Fujitsu 3D 相機 ... 23 圖 3-4：視差比對示意圖 ... 26 圖 3-5：SAD 演算法結果參考圖... 26 圖 3-6：影像擷取裝置與被攝物幾何關係圖 ... 28 圖 3-7：平面式的矩形圖 ... 33 圖 3-8：加上立體投影線條後的矩形圖 ... 33 圖 3-9：補償系統流程圖 ... 34 第四章：實驗結果與討論圖 4-1：立體視覺缺陷補償系統裝置全覽 ... 35 圖 4-2：輸入之原始影像 ... 37 圖 4-3：經 SAD 演算法後運算結果 ... 38 圖 4-4：經中值濾波處理後結果 ... 39 圖 4-5：將經 SAD 演算法計算後之視差向量代入公式（3.6）後計算結果 ... 41 圖 4-6：物件標示距離實驗結果 ... 42 圖 4-7：不同距離的物件之邊緣顏色補償方式實驗結果 ... 44 圖 4-8：不同距離的物件用不同的邊緣線條寬度的實驗結果 ... 45 圖 4-9：立體物件標示立體投影長度之補償方式實驗結果 ... 46 圖 4-10：在 800600 解析度下 SAD 運算及物件框選之結果 ... 48

(15)

圖 4-11：不同距離物件估測之距離實驗結果 ... 50 圖 4-12：視差與距離曲線圖 ... 51 圖 4-13：雙鏡頭校正用影像 ... 53

(16)

第一章緒論

1.1 研究動機與背景

自 2009 年詹姆斯卡麥隆所執導的「阿凡達」電影上映後，其獨特又創新的技術，將電影的技術層面又向上推進了一大步。其中在 3D 的呈現上，更讓人彷彿就現身在電影世界中，這是一種全新的視覺體驗。在阿凡達之後，電影市場上也陸陸續續推出了不少 3D 電影大作，除此之外，在電視發展方面，因應這股 3D 風潮許多電視大廠例如 Sony、Sharp 也推出了 3D 電視來搶奪這塊市場大餅，凡是與 3D 相關的產業瞬間都變成了大熱門，讓許多研究人員前仆後繼的投入此一領域。人類之所以可以獲得立體感知，其中有很大的關鍵來自於人類的雙眼，我們知道眼睛是人類視覺來源的重要器官之一，透過視覺人類可以感受到本身周圍外的環境變化外，也是取得與外界溝通訊息的重要媒介。立體視覺除了眼睛外，其生成的過程也需要雙眼與大腦的互相配合，所以要產生立體視覺的感知，其雙眼與大腦二者是缺一不可。立體視覺的產生，主要是藉由雙眼視覺（binocular vision）觀看視野中的景像後，會同時獲得具有視差感的視覺影像，再經由大腦的分析與融合後，產生立體視感。立體視覺可以得知視野所及之立體物件的相對距離遠近關係、立體物件與觀看者之間的絕對距離。因此像是雙眼視覺有障礙，例如僅剩下單一眼視覺功能或大腦在成像區域受損無法融合二眼影像之類的立體視覺缺陷者，將無法如同常人般享受立體視覺的豐富樂趣，也無法判斷眼前各項立體物件的相對距離與絕對距離，而引發碰撞可能導致安全上的疑慮。因此，如何設計出一套解決辦法來協助此一族群的人即為本研究的主要目標。有鑑於此，在本論文中，吾人提出一個以即時視訊分析處理為基礎的補償方法，以雙鏡頭攝影機來擷取周圍環境的影像，再藉由影像處理

(17)

的技術處理所擷取到之影像內容，並產生出新的補償影像。其補償影像內容包含立體視覺輔助資訊，用以協助立體視覺缺陷者可以擁有近似常人般的立體視覺辨識能力，降低其生活的不便利性。

(18)

1.2 相關研究

我們都知道視覺是人類接收外界訊息最為直接的方法，但不幸地依據內政部統計資料顯示，至民國 100 年第 1 季為止全國視覺障礙人數總計為 55,529 人[1]，且人數有逐年增加的趨勢，有鑑於此，國內外有許多專家學者針對此視覺障礙者投入相關的輔具研究，目的是希望可以幫助這些視覺障礙者來減輕因視覺障礙所導致生活的不便性。視覺障礙簡易來說，主要分為二類：全盲者（視覺小於 0.03）及弱視（優眼視力介於 0.03~0.3 之間，或視野在 20 度以內）[2]。對於全盲患者而言，因其視覺辨識能力近似於零，因此只能依靠身體其他器官接收周圍訊息，而目前常見用來輔助全盲者之輔具有白手杖、點字機、導盲犬及語音輔助器等[3]，其次，在科技類輔具方面[8]-[13]，國內有利用自走車架與白手杖結合，搭配影像感測器與超音波感測器進行周圍障礙物偵測[4]；亦有電子導盲輔具結合視訊與超音波測距後，產生聲覺圖像音訊，搭配原視障者熟悉之白手杖，來增加全盲者探測周圍景物距離之能力[5]。除此之外，利用 CCD 攝影機與雷射發射器的輔助，在待測物體上產生單一雷射亮點，接著透過攝影機的影像中心點與雷射中心二點之間之像素值隨著待測物體距離遠近不同而改變，進而達到以像素轉換距離量測方式[6]。而弱視者因本身眼睛尚殘留些許視覺能力，因此對於弱視者的輔具，主要是以利用弱視者剩餘之視力透過輔具之協助來加強其視覺能力，舉例來說像是放大鏡、擴視機等。國內也有多個針對弱視者的科技類輔具相關研究[2][3][7][14]，大多利用影像處理的技術，如影像強化方式來增強弱視者的視覺影像。除此之外，尚有一部份視覺障礙患者，是屬於辨色能力弱的族群，此類患者無法如同常人般可清楚地辨識周圍環境的顏色，我們稱此一狀況為「色盲」。國內亦有針對色盲患者的輔具研究[15][16]，透過建立色盲患者的個人視覺模型後，經過後天訓練與學

(19)

習讓色盲患者利用替代色來辨識無法識別之顏色。總結來說，國內目前的視障輔具研究，多以視弱及色弱為主，而視弱部份的輔具主要是以輔助視障患者恢復部份視力或是代替失能之視力為主；其次全盲者的輔具中，偵測周圍景物距離的操作上多以超音波及雷射等方式為主。因此對於立體視覺缺陷的族群而言，針對此相關輔具或補償機制之研究都仍屬少數，再者目前已知的立體顯示裝置或立體影像生成技術，均以觀看者的雙眼視覺能力未受損的前提來發展，因此對於雙眼視覺障礙者沒有機會如常人般得知景物的深度或距離，徒增生活上的不便利。

(20)

1.3 論文結構

本論文架構如下：第二章中，吾人首先介紹眼睛構造、立體影像生成原理與立體視覺障礙，以及現行所對應的輔助機制（非影像式）；在第三章，則介紹吾人所提出之補償方法原理與系統架構；第四章描述了吾人使用此方法進行實驗的結果，並進行分析討論；最後，第五章則總結本篇論文之研究成果以及未來的研究工作。

(21)

第二章立體影像與立體視覺缺陷

本章先就人類立體視覺生成原理、立體影像顯示發展及立體視覺缺陷作一說明。

2.1 人類眼睛的構造

人類利用眼睛來獲取視覺的感受並透過視覺得知外界的訊息使與其溝通，它是人類獲取外界資訊的重要媒介之一，也是視覺來源的最主要供應器官，也正因眼睛扮演著如此重要的角色，所以我們常稱「眼睛」為人類的靈魂之窗。人的眼睛外觀類似一顆圓球，直徑大小平均約為 20 毫米，其基本構造跟日常生活所使用之相機構造極為類似，如圖 2-1 所示。以相機而言，最主要可以大致分成四個主要零件，例如「光圈」、「鏡頭」、「機身」及「底片」。同樣地，人類的眼睛構造，在對應相機零件中也有著類似的功能及概念，例如眼睛有瞳孔（對應光圈）、水晶體（對應鏡頭）、玻璃體（對應機身）及視網膜（對應底片）[15]。圖 2-1：眼睛的構造圖在相機中是由光圈的大小來控制所要接收外界光源強弱，而人類的眼睛則是由瞳孔來決定。瞳孔本身的大小變化是由周圍肌肉的收縮擴張

(22)

來控制，其直徑在 2 毫米到 8 毫米之間，主要功能是控制進入眼睛的外界光線強度，所以當外界光線強度較強時，例如正午時分，瞳孔為避免過多光線進入眼睛造成危害會收縮而變小，若位於暗室時，則因週遭光源較為微弱而瞳孔放大來爭取更多的光源進入。水晶體本身約含有 60％到 70％的水分、6％的脂肪及較其他人眼組織多的蛋白質。水晶體是一個扁平橢圓的透明晶狀體，類似一片雙面凸透鏡，透過其周圍肌肉的作用來改變厚薄度，最主要的功用是改變透鏡的焦距，讓進入眼睛的光線可以清楚地在視網膜上聚焦。位於眼睛最底層的是視網膜，當眼睛透過適當的對焦之後，從眼睛外物體進入的光，會成像在視網膜上形成圖案視覺。在視網膜有一層感光的神經細胞，主要分成錐狀細胞（cones）及桿狀細胞（rods）二種。單眼所擁有的錐狀細胞數量約在 600 萬至 700 萬之間，其主要位於視網膜中央部份，它對於光的顏色變化較為敏感，人們利用這些錐狀細胞用以分辨微小的細節變化。而桿狀細胞的數量遠比錐狀細胞來的多，其數量落在 7,500 萬到 15,000 萬，主要分佈於視網膜表面，其對光的強弱變化較為敏銳，但無法分辨出微小的細節變化。因此人類的眼睛透過這二種細胞來感受外界光的強弱及顏色的變化，並將其傳給大腦，進而產生視覺反應[18]。

(23)

2.2 人眼中影像的形成

對於一般相機而言，透鏡有固定的焦距，藉由改變透鏡與成像平面之間的距離來達成各種不同距離的聚焦，而成像平面所指的是底片（或是數位相機中成像晶片）所在的位置。但是人類眼睛的運作原理剛好是相反的，水晶體和視網膜（成像區域）之間的距離是固定的，若要獲得適當對焦所需之焦距是必需藉由改變水晶體的形狀來完成。利用水晶體周圍睫狀體的纖維變化，使得水晶體變厚或變扁平進而分別針對遠近不同的物體進行對焦。水晶體本身的聚焦中心和視網膜之間約 17 毫米，如圖 2-2 所示，圖 2-2 中的幾何圖形顯示出如何獲得在視網膜上形成之影像的大小[18]。舉例來說，假設觀看者注視距離約 100 米遠且高約 15 米的 樹。令 h 代表樹本身在視網膜成像的影像高度，由圖 2-2 可以得知 15/100 = h/17  h = 2.55 毫米 圖 2-2：成像示意圖如 2.1 節所敘述，視網膜的成像主要聚焦在中央部份，並且利用錐狀細胞或桿狀細胞的感光細胞之相對刺激產生感知，其中感光細胞會將進入光源的輻射能量轉換成電脈衝，最後由大腦對此脈衝進行解碼後，產生視覺反應。

(24)

2.3 雙眼立體視覺

因為人類的二眼的高度相同且平行，二眼彼此之間的距離相距約 6 至 7 公分左右，因此當二眼在同一時間觀看視野前方的同一物體時，二眼其實是分別以不同的角度看到二個稍有些許不同的景像，以左眼為例，同一視野影像中最左邊的部份是右眼無法看見的，而同樣的在同一視野影像中最右邊的部份是左眼無法看見的。如圖 2-3 所示，左眼視野（黑色線條範圍）中可以看見物體 B 及物體 C，但看不見物體 A；而右眼視野（藍色線條範圍）中可以看見物體 B 及物體 A，但卻看不見物體 C，像這樣透過二眼所看到的影像所產生的差異，我們稱之為「視差」。圖 2-3：雙眼視覺視野範圍[43] 如同前言所述，當人類的眼睛接收到影像時會將影像透過視神經傳送至大腦，再藉由大腦產生視覺感知。而大腦將這二個具有視差畫面的影像經過分析處理後，會合成並產生具有立體感的影像。這種利用人們二眼視差及光學折射原理在一個平面影像中使人們可以直接看到三維立體圖，並創造出讓人們覺得影像內的事物可以是凸出於影像外，也可以深藏於內的立體感。但是我們平常見到的平面影像，由於眼睛所看到的

(25)

是一個角度完全相同的影像，所以視覺與大腦無法判斷出影像內物體真實意義上的空間立體感，因此無法呈現立體影像。或者是當觀察者以單眼觀看視野影像時，因為沒有另外一眼的影像來協助產生視差，也同樣的無法呈現立體影像。透過立體感知，人類可以識別視野中各項物體的相對距離感及物體本身的厚薄度。簡單來說立體感大大增加了人類視覺在觀看時的豐富性及趣味性。

(26)

2.4 立體影像的發展[19][32][48]

有鑑於人類的立體視覺感知，是由雙眼視覺所產生的視差而來，故在 3D 立體平面顯示器的運作過程中，就是採人工的方式來重現「視差」畫面，讓左右眼各自看到不同的畫面影像，進而模擬出立體視覺，基於這樣的原理來發展各式各樣的 3D 立體顯示技術，目前主軸分為「眼鏡」與「裸視」二大類型。圖 2-4：視差示意圖[19]

2.4.1 眼鏡式立體顯示技術

立體眼鏡為滿足觀看各類型 3D 立體影像的需求，大致上可以根據運作模式分為被動式及主動式二種。被動式 3D 立體眼鏡通常是眼鏡本身為單純鏡片加鏡架的組合，與任何機械式或電子式的運作無關。此一類型的眼鏡所採用的技術雖然有很多種，但原則上所使用的基本原理都相同，都是利用光學方式讓二組畫面分別只能穿過左右其中一眼的鏡片，讓左右二眼同時觀看到具有視差畫面的影像。例如紅藍濾色片式立體眼鏡，眼鏡的成本極低，使用紅色與藍色玻璃紙與厚紙板即可製作，早期的立體電影大多採用此模式，分別投出經過紅色濾光片與藍色濾光片的影像，再由觀看者配戴紅藍濾光

(27)

片眼鏡觀看圖 2-5：紅藍濾色片立體眼鏡圖 2-6：紅藍濾色片立體眼鏡用圖片被動式 3D 立體眼鏡除了上述的紅藍濾色片式眼鏡外，還有一種為偏光式 3D 立體眼鏡，偏光式立體眼鏡的運作原理則是透過類似與百葉窗相同方式排列的矽晶體塗料薄膜或是稱之為偏光膜來過濾原本不同方向的光線，它會過濾與偏光膜方向垂直的光線，只允許與偏光膜方向相同的光通過。因為偏光式單純只過濾光線的方向，而不像濾色片會過濾光的顏色，故可以完整的呈現畫面的色彩。

(28)

圖 2-7：偏光式眼鏡原理[19] 要播放偏光式立體影像時，只要使用二組設備各別透過偏光片投射出垂直偏光與水平偏光畫面（或者互為反向的兩正交圓形極化偏光），再由觀看者搭配偏光式立體眼鏡就可以觀看到立體畫面。或者是可以在單一顯示器中，使用二片重疊的液晶面板，分別各自顯示垂直與水平的偏光畫面，一樣搭配偏光式立體眼鏡來觀看立體畫面。圖 2-8：偏光式立體眼鏡

(29)

圖 2-9：偏光式液晶顯示器[37] 在主動式 3D 立體眼鏡方面，則是利用眼鏡本身主動運作來達到 3D 立體顯示效果。例如液晶式 3D 立體眼鏡，它運用液晶本身可透過電場改變透光狀態的原理，以高速的頻率交替遮蔽左右眼的視線。在播放過程中只要交替顯示左右眼畫面，在配合同步訊號讓液晶式 3D 立體眼鏡與畫面同步運作，播出左眼畫面時讓右眼鏡片變黑、播出右眼畫面時則讓左眼鏡片變黑，進而達到立體顯示效果。圖 2-10：液晶式 3D 立體眼鏡[38]

(30)

因為液晶片 3D 立體眼鏡無需濾色片或偏光等特殊構造的播放設備就能呈現立體影像，因此只需要提升播放設備的畫面更新頻率與加裝同步訊號發送器即可。故可以滿足多人同時觀賞的需求，目前各 3D 電視供應商大多採用此一方式。

2.4.2 裸視型立體顯示技術

所謂的「裸視型的立體顯示」，顧名思議是指在不配戴任何特殊或指定配件的狀態下，直接以祼眼視覺就能夠直接觀看到 3D 立體顯示的效果。因為眼鏡式 3D 立體顯示雖然能滿足多人同時共同觀看的需求，但是在觀看期間必須配戴特殊眼鏡，對於某些族群的人們像是近視眼族群，因原本就已配戴近視眼鏡，若再配載 3D 眼鏡會增加觀看時的負擔，因此衍生出裸視型 3D 立體顯示的需求。其設計的出發點仍舊是讓人們的左右二眼看到不同的畫面產生視差後營造出立體感，但前提是無需配載眼鏡，因此必須利用經過特殊設計的螢幕來達成。目前裸視型的立體顯示技術分為全像式、體積式、多平面式及 2D 多工式等四種，其中 2D 多工式亦有空間多工及時間多工二種呈現方式 [48]。「全像式」是由美國麻省理工學院所發展的裸眼式立體顯示技術，主要原理是利用紅、藍、綠三種顏色的雷射光源，各自透過聲光調變器晶體（Acoustic Optical Modulator, AOM），來產生相位型光柵，藉由光柵訊息之雷射光透過全像片合併後，再利用垂直掃描鏡（Vertical Scanning mirror）與多面鏡（Polygonal mirror）進行垂直與水平方向掃描後，將立體影像呈現出來，其優點在於全像片的取得容易且技術成熟，但所呈現之立體影像大小常受限於 AOM 的大小，除此之外，多面鏡的掃描速度必須與紅、藍、綠三色雷射光源在晶體傳播速度上取得同步等限制。

(31)

圖 2-11：全平面式立體影像顯示器[48]

「體積式」主要是由德州儀器（Texas Instrument, TI）所提出，它是一種利用雷射掃描立體影像顯示器，其原理是利用一種可快速旋轉的圓盤，搭配由底下投影的雷射光源，透過雷射光源投射到快速旋轉之旋轉面，產生散射效應來掃描空間中的每一點，缺點是影像中央必須有一個旋轉軸，而靠近該軸心之影像其旋轉速度較慢，所呈現之立體影像較不清晰。圖 2-12：體積式顯示器示意圖[48] 「多平面式」為日本 NTT 所提出，透過兩個重疊的液晶面板，在兩

(32)

個面板同時顯示大小相同的影像，透過物體離觀看者的遠近距離不同，會產生陰暗與顏色上的差異，進而將前後物體影像重疊在一起，讓觀看者產生立體感，該缺點為前後面板的對位困難，且因為是由兩個二維影像重疊的結果，因此只有在正視方向觀賞可獲得較佳的立體效果，其餘觀看角度則不易顯示出立體效果。圖 2-13：多平面式 3D 顯示器示意圖[48] 在「2D 多工式」中主要區分為時間多工與空間多工二種方式，時間多工為在某一時間點，立體影像顯示器將影像投影到觀看者的左眼，在下一個時間點，則將影像投影到觀看者的右眼，當左右眼的影像切換速度頻率夠快時，大腦將不會感受到左、右影像的快速切換，進而形成左右眼的影像為視角些許不同的立體影像對。國內交通大學與友達光電共同開發了左右兩個光源可快速切換之背光源系統，搭配快速切換的液晶層時，可以使成對的立體影像相互交替投影到左眼或右眼，來產生具有高解析度的立體影像。在另一方面，假設兩個光源同時亮，亦可切換成二維影像顯示器。不過此一技術仍需要有快速反應的液晶顯示器互相配合才能呈現最佳的顯示品質。

(33)

圖 2-14：時間多工式雙光源 3D 顯示器示意圖[48]

而在空間多工方面，主要分為二種類型，分別是「柱狀透鏡式（Lenticular Lenses）與視差屏障式（Parallax Barriers）。柱狀透鏡式 3D 立體顯示螢幕，是在螢幕本身表面上設有垂直排列的圓柱狀凸透鏡薄膜，並利用透鏡折射的方式來控制光線行進方向，讓左右兩眼同時接受不同影像來產生視差進而呈現立體效果。因為光線在經過凸透鏡時，行進方向會因為折射而產生變化，因此只要將左右眼畫面以垂直方式交錯排列，再加上一連串緊密排列的柱狀透鏡，就可以讓左右眼看到各自的畫面。市面上常見的立體墊板就是利用此一原理製作。圖 2-15：柱狀透鏡式[19] 視差屏障式 3D 立體顯示螢幕，則是在螢幕表面設有被稱為「視差

(34)

屏障」的垂直方向柵欄狀光學屏障來控制光線行進方向，在同一時間讓左右兩眼接受不同影像產生視差達成立體顯示效果。由於左右眼視線通過柵欄狀視差屏障的角度不同，因此會看到後方螢幕不同部分，只要將左右眼畫面以垂直方向方式交錯排列，就可讓左右眼看到各自的畫面來產生立體感。圖 2-16：視差屏障式[19]

(35)

2.5 立體視覺缺陷

依據 2.2 與 2.3 節的描述，在雙眼視覺正常的情況下，二眼同時注視視野中相同目標，大腦會將左右二眼接收到的畫面融合成一個立體影像。因此導致立體視覺產生缺陷的原因大多數的起因都在於眼睛本身所引發的病變與大腦融合視覺影像功能失能，因為立體視覺的產生需要靠雙眼視覺同時作用，若雙眼因為先天性病變或後天性損害導致只剩下單眼具有良好視力作用時，就無法產生立體視覺。再者，人類的大腦接收來自雙眼所傳遞之視覺影像會融合成單一影像以產生立體視覺，若大腦此一功能喪失時也將導致無法生成立體視覺，因此當雙眼視覺產生障礙時，將會失去立體視覺的感知能力。這會對日常生活造成某種程度上的影響，舉例來說當立體視覺能力喪失時，觀看者本身無法判斷前方或周圍物體離觀看者的距離遠近，當觀看者本身無法判斷物體距離遠近時，很容易產生碰撞機會引發危害，對觀看者造成生命財產威脅。除無法判斷遠近距離外，也無法識別目標物體的厚薄度大小，降低了視覺觀看時的樂趣。

(36)

第三章原理與系統架構

立體視覺最主要的來源是雙眼視覺及大腦，倘若因先天性病變或後天性損害等因素，造成雙眼視覺器官或大腦融合視覺影像功能受損而造成立體視覺障礙，其對日常生活所造成的不便性將無法言喻。本論文就針對立體視覺障礙者設計一可行的補償方法用以輔助其需求。

3.1 立體視覺缺陷補償方法架構

立體視覺缺陷補償方法主要是利用擁有雙鏡頭的立體影像擷取裝置同時擷取出二張平面影像，再將這擷取出的影像利用軟體演算法的處理方式，產生出一張新的平面影像後輸出，其中這新的平面影像會包含立體視覺輔助資訊，像是平面物件中深度資訊及距離資訊等。利用這樣的輔助資訊，可以協助立體視覺缺陷者來確認周圍物體真實或相對的距離，降低發生因碰撞所引發生命危險的機會。其補償方法的架構主要分為三個部份：影像擷取、影像處理核心及影像輸出，如圖 3-1 所示。圖 3-1：系統整體架構圖此補償方式分為硬體與軟體二個部份來實現，在硬體部份是以如 webcam 等裝置進行即時影像資訊擷取，再將所擷取到的影像資訊交由核

(37)

心處理器（內植演算軟體）處理，最後透過 HMD（Head Mount Display）將處理過後的結果輸出至使用者眼前。軟體部份則是建構在核心處理器上，處理來自 webcam 所擷取到的影像，並附加立體輔助資訊後輸出。

(38)

3.2 立體視覺缺陷補償研究方法

由前面章節可以得知，人類之所以會有立體視覺的感知能力，雙眼視覺是不可獲缺的重要關鍵。有鑑於此，在立體視覺缺陷的補償方法中，本論文需要以人工的方式來模擬人類的雙眼視覺。

3.2.1 影像擷取裝置的配置

為了模擬出人類的雙眼視覺，在影像擷取裝置中，本論文採用了雙影像擷取裝置，來模擬人類的雙眼。我們利用了二個 webcam，分別架設在與人類視野高度相同的視平面水平高度上，這二個負責影像擷取的 webcam 其水平高度必須相同，且二個 webcam 之光學鏡頭中心距離需相距約 6 至 7 公分，用以模擬人類左右二眼之間的距離，如圖 3-2 及圖 3-3 所示。圖 3-2：雙鏡頭式 Webcam[39] 圖 3-3：Fujitsu 3D 相機[40]

(39)

3.2.2 視差估計

利用 webcam 取得左右二眼的影像後，首先第一個主要處理的工作就是進行視差估計（Disparity Estimation）[20]-[31][42]，我們可以利用影像處理技術中的點匹配式（ Point matching ）或是區塊匹配式（ Block matching）來針對影像中紋理（Texture）或邊緣（Edge）進行分析[21]。目前視差估計（Disparity Estimation）演算法中，以區塊匹配式（Block matching）演算法較為眾人所知。區塊匹配（Block matching）的基本原理是利用影像空間域上二張影像區塊中的每個像素值（Pixel Value）的變化，找出彼此間差異性最小的區塊即代表所希望被搜尋到的目標。在區塊匹配（Block matching）演算法中，因為較大的區塊有足夠的明亮度變化，可以減少發生匹配錯誤的現象，但是亦會降低區塊本身的像素點在尋找個別視差時的選擇性，對於深度不連續或是物件邊緣的地方尤其明顯，其次較小的區塊雖然會有較精細的物件輪廓，但是由於區塊內本身的資訊不足，相對的也增加了匹配錯誤發生的機會。所以大面積的區塊雖然在匹配上可以取得較好的穩定性，但是小面積的區塊卻可獲得較高的精準度，各有其優勢。以區塊匹配方式為基礎的演算法中，較為常見有 Sum of absolute differences（SAD）、Zero-mean Sum of Absolute Differences（ZSAD）、Locally scaled Sum of Absolute Differences（LSAD）、Sum of Squared Differences （SSD）、Zero-mean Sum of Squared Differences（ZSSD）及 Locally scaled Sum of Squared Differences（LSSD）[41]等幾種，本論文考量其最終目的是希望本方法能夠輔助立體視覺障礙的人降低其日常生活的不便性，因此在區塊匹配演算法的選擇上採用了運算複雜度較低且速度較快的 Sum of absolute differences（SAD）演算法來分析影像內容，目的在於減少區塊匹配運算時所花費的時間，在越短時間內能夠立即將結果呈現，讓使

(40)

用者有足夠的反應時間來減低碰撞發生的機會，其基本運算方程式如公 式（3.1）所示，其中 w 為比對搜尋時的區塊大小，I1為比對時所參照的 基準影像，I2為比對用影像，i 與 j 分別為搜尋區塊的中心點位置，x 與 y 為位移量。

 





 









w j i

j

y

i

x

I

j

i

I

, 2 1

,

_（3.1）

圖 3-4 簡單敘述了 Sum of absolute differences（SAD）演算法中，針 對所擷取的二張影像中彼此之間相互關聯性的過程。L 為所擷取到左眼影 像中以（x,y）為中心點的區塊，該區塊的尺寸大小由我們自行定義，其 代表所擷取的右眼影像區塊 R 中，做為區塊匹配搜尋所使用的參照區 塊，大小與中心座標皆與 R 相同。而 Scan Line 代表區塊匹配搜尋中的掃 瞄線，因為所架設擷取影像用的 webcam 採水平方向平行擺放且高度相同，所以在拍攝過程中相同視野下的同一立體物件在左右二邊的 webcam 所擷取之影像也會在同一條水平線上即為 Scan Line，只是在同一水平位 置上，會因為 webcam 拍攝角度的關係而有所差異。因此當執行區塊匹配 搜尋時，只需對水平方向搜尋即可。所以當 Block R 在右邊影像做匹配搜 尋時，是以右邊影像 R（x,y）做為起始座標在搜尋範圍內每次向右水平 橫移一個單位進行區塊匹配運算，d 代表水平方向橫移的位移量，當在搜 尋範圍內計算出 SAD 誤差值最小的區塊時，該區塊的位移量 d 就是視差 [42]，我們可以用公式（3.2）來表示。







_

_{ }

  







y x

R

x

y

L

x

d

y

d

L

R

SAD

,

_（3.2）

(41)

Block L (x,y) ↑ Scan lines Block R ↑ (x,y) (x+d,y) Scan lines (a) (b) 圖 3-4：視差比對示意圖。左邊參考影像(a)；右邊比對影像(b)。[42] (a) (b) (c) 圖 3-5：左邊原始影像(a)；右邊原始影像(b)；經 SAD 演算法計算後視差結果(c)。[41] ‧ ‧ ‧

(42)

圖 3-5 為左右影像經過 SAD 運算後的結果，其中左、右原始影像大小為 384288 像素，搜尋區塊 w 大小為 99，如圖 3-5 實驗結果顯示，在不同大小的搜尋區塊如 33、55、77、99 到 1515 中以 99 的效果較佳。

3.2.3 距離估計

在計算出左右二眼所擷取影像彼此之間的視差關係後，接著下一步就是根據估計的視差結果進行距離的估測[33][34]。在擷取影像裝置（webcam）的參數已知前提下，我們可以將左右二部 webcam 所擷取到影像的視差向量轉換成空間中的深度距離，本論文將採用三角量測演算法（Triangulation Algorithm）[35]來計算空間中的深度距離值。三角量測演算法（Triangulation Algorithm）其實是利用相似三角形中邊長與高度會 形成相同比例的原理，來計算空間上的距離值，圖 3-6 中 C1及 C2分別代 表二台 webcam 的光學鏡頭中心點，B 則為二台 webcam 中心點的水平距 離，f 為 webcam 之焦距，（x1 , y1）及（x2 , y2）分別為視野中立體物件 O 在二台 webcam C1與 C2內所成像的位置，Z 則為物件 O 的深度距離，物 件 O 與二台 webcam C1與 C2光學鏡頭中心點距離分別是 L 和 R，投射到 二台 webcam 的成像面與光學鏡頭中心線的距離分別是 dL 及 dR，令 dL+dR=d，d 即為左右二張影像之間的視差向量，經公式（3.3）至公式（3.4） 推導後，可以由公式（3.5）式得到深度距離 Z。 其中公式（3.5）式中 disparity 為所估測之視差值，在計算深度距離 Z 時需將該值乘以影像擷取裝置之單位像素距離進行換算[47]，如公式 （3.6）式所示，其中 x 為影像擷取裝置之單位像素距離，在本論文中，x 為 0.0097mm。

(43)

圖 3-6：影像擷取裝置與被攝物幾何關係圖[42]

f

Z

d

R

f

Z

d

L

R L



,

_（3.3）





d

f

Z

d

f

Z

R

L

B







_L



_R



_（3.4）



 



disparity

Bf

y

x

Bf

d

Bf

Z











2 2 1 2 2 1 （3.5）

disparity

x

Bf

Z





_（3.6） L R O Z f C2 C1 dL dR B （x1 , y1） （x2 , y2）

(44)

3.2.4 物件分割

在透過 SAD 演算法取得視差估測值與利用三角量測演算法求得距離後，下一步驟即利用所估測之視差值進行物件分割動作。由圖 3-5（c）可以觀察出在相同物件下，其所估測之視差值並不會差異太多，以黃色物件為例：其所估測之視差值約為 10 至 12 之間；紅色物件所估測之視差值約為 14 至 16 之間；綠色物件所估測之視差值約為 8 至 9 之間；而淡藍色所估測之視差值約在 6 至 7 之間。藉由單一物件所估測之視差具有相同或接近之特性，利用所估測之視差結果進行物件分割之動作，將所估測之相同視差物件視為同一物件並將其獨立切割出來。此一方式優勢在於若物件所在環境其背景複雜時，在切割單一物件時較不易受背景環境影響，所需處理之前置作業複雜度大幅減低，反之其缺點在於切割物件之範圍無法精確貼近於物件邊緣，但因只需將物件正確框選出來，所以在框選物件之範圍這點其影響層面較小，執行上不受影響。

3.2.5 標示物件距離的補償方式

透過先前視差估計及三角量測演算法（Triangulation Algorithm）估測出影像中的距離等步驟後，下一步將針對視野中可能產生碰撞危險因素的特定物件進行標示，其目的在於患有立體視覺缺陷者無法如同正常人般辨識周圍物件離本身的相對距離或是絕對距離。因此本論文提出的立體視覺缺陷補償方式之一是在擷取裝置所擷取之影像經過處理後，所產生新的補償影像中，將可能對立體視覺缺陷者本身造成碰撞機會之物件先行標示，用以提醒立體視覺缺陷者注意並提早反應。一般視覺功能正常的人其步行速度約為每秒 1 公尺，若是視覺本身有缺陷的人，例如盲人或是弱視患者，其步行速度則會降低至每秒約 0.6 公尺至 0.8 公尺之間 [17]。為了讓立體視覺缺陷者針對周圍可能產生碰撞機會的物件有其足夠的反應時間，配合其步行速度，本論文預設反應時間為 5 秒。因此，可

(45)

以推算出在視野中距離觀看者本身 4 公尺內的立體物件都將標示其距離值，用以提醒並即時做出反應。在物件距離標示補償方式中，本論文採用描繪立體物件本身的邊緣方式，首先，先對立體物件進行切割後再顯示其立體物件邊緣，但我們並未採用傳統的影像切割方式來處理，因為傳統的影像切割方式對於擁有複雜背景的影像其處理難度會提高且增加運算的時間。故本論文選用先前所估測之視差向量及立體物件距離來切割物件，透過實驗結果可以得知，影像中單一物件在影像中的每一個像素點，其所估計的視差值並不會相差太多，所推算出該物件的距離值也會是大同小異，利用此一實驗結果，我們將影像中不同距離的立體物件分別切割後再利用影像處理技術中邊緣（Edge）偵測的處理方式，例如 Sobel Edge Detect 或是 Canny Edge Detect 標示出其物件邊緣且一併將物件距離值標示於新的補償影像內容中，讓立體視覺缺陷者透過所標示的距離值來判斷周圍物件離本身之遠近關係。因利用距離切割物件的方式，其切割之準確度與所估測之視差及依據視差所推算之距離息息相關，若因估測失誤可能導致單一物件被分割成多個物件或無法順利將物件正確標示出來。所以必須針對所估測之距離值做適當的正規處理，減低可能因估測失誤所造成的影響。例如利用中值濾波方法去除影像中特異的雜訊點，中值濾波其實是一種非線性的訊號處理方式，它能抑制影像中的特異雜訊，因為影像中的雜訊多以單點孤立的形式出現於影像中，此類雜訊點往往數量稀少，因此中值濾波在操作上是針對影像中每個像素點的灰階強度值改用該像素周圍灰階之中間值替代，而非採用其平均值來代替，此一方式不但可以濾除影像中突起的高頻雜訊，對於影邊緣亦能適當予以保存而不會模糊失真。中值濾波的處理模式為局部處理方式，當雜訊以亮點形式不規則地散佈於影像中時，其灰階強度值與周圍像素相比往往排在第一順位，故取中間值可以降低雜訊亮度，以獲得無雜訊點之影像。其次因所估測之

(46)

視差值即便是單一物件，也可能產生不同的視差導致在物件分割時發生物件切割錯誤的狀況，因此利用統計分析的方式，將同一物件中不同的視差值歸類並修正為均一之視差值，避免物件因視差估測之差異導致物件切割錯誤。

3.2.6 標示物件相對遠近關係的補償方式

除上述對於立體視覺缺陷者周圍立體物件遠近關係採用物件距離值標示補償方式外，考量到並非每個人對於距離值數字化的處理方式都能夠有所感覺，舉例來說部份人們可能無法辦識出 1 公尺與 2 公尺離他本身到底是多遠？只能感覺出 2 公尺比 1 公尺遠這種相對距離遠近感的主觀概念。因此本論文提出另一種不同於先前提到的絕對距離值標示方式，可標示相對遠近關係的補償方式。我們利用先前標示的物件邊緣給以變化來標示物件與立體視覺缺陷者的相對遠近關係。第一種方式是改變物件邊緣線條的顏色，利用物件邊緣線條顏色的不同，來標示個別物件遠近相對關係，舉例來說：周圍物件中，離使用者最近的物件，其邊緣線條的顏色用紅色顯示，次近的物件其邊緣線條的顏色則用綠色顯示，最遠的物件其邊緣線條用藍色顯示。利用不同邊緣線條顏色的變化來告知立體視覺缺陷者要注意那些物件，能夠更直覺的讓使用者在第一時間內就可以得知周圍物件遠近的相對關係。第二種方式是改變物件邊緣的線條寬度，透過物件邊緣線條寬度的不同，來標示各個物件遠近的相對關係，舉例來說：立體視覺缺陷者的周圍物件中，離他本身最近的物件，其邊緣線條寬度值設定為 10 像素，次近之物件其邊緣線條寬度值則設定為 5 像素，最遠的物件其邊緣線條寬度則為 1 像素。此一方式中，可以讓患有立體視覺缺陷的族群，透過觀看物件邊緣線條寬度的變化來得知物件與自已本身相對距離遠近關

(47)

係，離自已越近的物件，其邊緣線條寬度就會越寬，此一方式的設計的目的也在於讓使用者更能直覺的了解到周圍物件本身與自已相對距離遠近關係。第三種方式是替物件加上立體投影式線條，透過立體投影線條的長短變化讓立體視覺缺陷者可以得知周圍立體物件與自已的相對距離遠近關係。如圖 3-7 所示為平面矩形物件，但若在此平面矩形物件加上立體投影後，就形成了具立體感的矩形立體物件，如圖 3-8 所示。依據這樣的概念，吾人為每個立體物件加上投影式的立體線條並由立體投影線條的長度多寡來判斷立體物件的距離遠近關係。舉例來說：周圍立體物件中，離使用者越近的立體物件，其立體投影線條的長度就越長，反之越遠的立體物件，其立體投影線條的長度就會越短。其中，立體投影線條所投影之方向可以採用尋找整張影像的消失點（Vanishing Point）[44]-[46]或最遠點二種方式來實現。在消失點的搜尋中，大多採用霍夫轉換（Hough Transform）方式進行搜尋，霍夫轉換是一種用於檢測影像中某種特定形狀，例如：直線或圓形等所常用的方法，最早是由 Rosenfeld 先應用於影像處理領域上 [45]。其做法是將影像空間中的直角座標系統的直線上的 x 與 y 點轉換為另一個座標空間（ρ,θ）如公式（3.7）所示，尋找該座標空間之峰值，並將此峰值所對應之 x 與 y 空間座標中的點取出。













cos



sin



,

90 

90 

x

y

（3.7）在（ρ,θ）空間座標中，每一點都表示 x 與 y 空間的一條線，如果採用一個 Acc 累加暫存器計算累加在（ρ,θ）空間中所有線交會點的次數，則此點可以反推回原 x 與 y 空間中的一條直線方程式，而累加暫存器中所得之累加值表示該直線上通過 x 與 y 空間中多少點的數量，並做

(48)

為判斷消失線的依據。但是採用霍夫轉換所尋找到消失線數量非常多，且無法透過一次處理即可判斷是否為主要消失線，需經過多次處理步驟後才可能找到最佳解，對於此即時補償系統而言，需增加額外的計算時間及運算量，基於此一考量，吾人選用第二種方式以尋找影像中的最遠點做為立體投影線條所投影之參考方向。依據先前步驟中所估測出的距離值，可以找出整張影像的最大距離值，該值即為最遠點，此方式利用已知之計算結果與利用霍夫轉換方式尋找消失點相比，可減少運算過程所需之時間。在得知最遠點後，讓立體投影線條往最遠點所在位置之方向延伸進行描繪。此一方式同樣地，讓觀看者直覺地由立體物件本身立體投影線條長度的多寡來得知周圍立體物件的相對遠近關係。圖 3-7：平面式的矩形圖 3-8：加上立體投影線條後的矩形

(49)

3.2.7 標示物件絕對與相對遠近關係的混合補償方式

除單一補償模式外，亦可將標示絕對距離值的補償方式及以邊緣線條變化為主的相對距離補償方式相互結合，使其成為一種混合模式的補償方式，讓使用者可以直覺地得知周圍立體物件距離分佈情形。圖 3-9 為補償系統處理流程圖。圖 3-9：補償系統流程圖

(50)

第四章實驗結果與討論

本章主要是探討本論文所建構的補償方法實驗測試，並將實驗結果做分析與討論。4.1 為立體視覺缺陷補償方法裝置設計理念。4.2 描述所擷取的影像資訊，運用各種不同影像處理演算法處理後所產生的補償影像。至於 4.3 則是針對此實驗的結果進行討論，評估系統效能並探討改進之處。

4.1 立體視覺缺陷補償裝置

在整個立體視覺缺陷補償方法的實驗過程平台設計中，採用筆記型電腦（Intel Core i7 2.67GHz CPU），以 MATLAB 2010a（V7.10）架構來實驗模擬環境，搭配雙鏡頭 CCD webcam 之影像擷取裝置來擷取即時視覺影像，並透過所設計之演算法處理後，將修正過後之補償影像之結果輸出至 HMD（Head Mounted Display）顯示於使用者眼前。藉此一平台架構來促進立體視覺缺陷補償方法的實現。如圖 4-1 所示為立體視覺缺陷補償系統裝置。

(51)

4.2 實驗結果

經過影像擷取裝置取得 30 組左、右原始影像資訊後，進一步運用所設計之補償方式演算法進行影像修正並輸出，結果描述如下。

4.2.1 視差估測實驗結果

首先，必須先將所擷取到之影像進行視差估測（ Disparity Estimation），利用 Sum of absolute differences（SAD）演算法計算出二張影像之間的視差向量後，再做計算距離。圖 4-2 為所輸入的左右原始影像，圖 4-3 為經過 SAD 運算後之結果。

(a) (b)

(c) (d)

(52)

(g) (h)

(i) (j)

(k) (l)

圖 4-2：輸入之原始影像。圖（a）、（c）、（e）、（g）、（i）、（k）為左影像。圖（b）、（d）、（f）、（h）、（j）、（l）為右影像。

(53)

(a) (b)

(c) (d)

(e) (f)

圖 4-3：經 SAD 演算法估測之視差結果。圖（a）為圖 4-2（a、b）左右原始影像之 SAD 運算結果；圖（b）為圖 4-2（c、d）左右原始影像之 SAD 運算結果；圖（c）為圖 4-2（e、f）左右原始影像之 SAD 運算結果；圖（d）為圖 4-2（g、h）左右原始影像之 SAD 運算結果；圖（e）為圖 4-2 （i、j）左右原始影像之 SAD 運算結果；圖（f）為圖 4-2（k、l）左右原始影像之 SAD 運算結果。

(54)

由圖 4-3 可以觀察出，單一物件中其所估測之視差值（disparity）並不會相差太多，以圖 4-3（a）為例人物本身視差值座落在-20 至-17 之間，圖 4-3（b）綠色衣服的人物其估測之視差值位於-18 至-17 之間，由此實驗結果可以做為在後續步驟中利用相同的視差值（disparity）與距離來切割物件之參考依據。其次物件本身所估測之視差值並非全部完整，由圖 4-3（b）及（d）可以觀察出物件本身有些許的雜訊，針對這些雜訊需要加以處理增加物件切割時的完整性。為了抑制雜訊對物件切割造成的影響，透過中值濾波方式來降低雜訊影響，如圖 4-4 所示。 (a) (b) (c) (d) (e) (f) 圖 4-4：估測之視差經中值濾波處理後結果透過中值濾波處理後，對照圖 4-3（b）（d）及圖 4-4（b）（d）之後

(55)

可以發現物件本身的雜訊降低，對於後續物件切割完整度其影響性也相對減輕。

4.2.2 距離估測實驗結果

利用 SAD 演算法計算出二張影像之間的視差向量後，接著將計算結果代入公式（3.6）計算深度距離值，圖 4-5 為代入公式（3.6）計算後之結果。圖 4-5 顯示出其距離分佈的狀況，藉由中值濾波來降低因 SAD 演算過程中所產生的特異雜訊後，可以由圖 4-5 觀察出物件本身的雜訊減少了，進而讓物件本身的完整性增加了，以圖 4-5（a）來看其影像中人物的距離分佈大約在 2 公尺至 4 公尺之間，亦可以看出單一立體物件的距離值是相近的。

(56)

(a) (b) (c) (d) (e) (f) 圖 4-5：將經 SAD 演算法計算後之視差向量代入公式（3.6）後計算結果。圖（a）為圖 4-4（a）視差向量代入公式（3.6）所估測之距離結果；圖（b）為圖 4-4（b）視差向量代入公式（3.6）所估測之距離結果；圖（c）為圖 4-4（c）視差向量代入公式（3.6）所估測之距離結果；圖（d）為圖 4-4 （d）視差向量代入公式（3.6）所估測之距離結果；圖（e）為圖 4-4（e）視差向量代入公式（3.6）所估測之距離結果；圖（f）為圖 4-4（f）視差向量代入公式（3.6）所估測之距離結果。

(57)

4.2.3 標示物件距離的補償方式實驗結果

在估測出距離值後，針對不同距離的立體物件進行切割以分割出立體物件，並於立體物件標示其距離，如圖 4-6 所示。 (a) (b) (c) (d) (e) (f) 圖 4-6：物件標示距離的實驗結果。

(58)

補償系統會將離使用者最近的三個物件予以標示距離值，立體視覺缺陷者可以透過每個立體物件上所標示的距離值來得知立體物件離觀看者本身多遠，並即時做出反應避免碰撞發生。

4.2.4 標示物件邊緣顏色的補償方式實驗結果

對於立體視覺缺陷的人而言，若本身無絕對距離值的感知能力，本論文提出另一種相對遠近的距離補償方式，就是用立體物件邊緣線條的顏色來區分觀看者周圍立體物件本身離觀看者之間的距離遠近關係。如圖 4-7 所示，紅色邊緣線條的立體物件離觀看者本身最近，綠色邊緣線條的立體物件離觀看者本身次近，藍色邊緣線條的立體物件則離觀看者本身最遠。

(59)

(a) (b) (c) (d) (e) 圖 4-7：不同距離物件之邊緣顏色補償方式實驗結果透過不同的邊緣線條顏色標示的補償方式，觀看者可以直覺地了解到立體物件離本身的相對距離之遠近關係，並可針對離觀看者較近的立

(60)

體物件隨時留意避免危險狀況發生。

4.2.5 標示物件邊緣寬度的補償方式實驗結果

除了用立體物件邊緣線條顏色的不同來標示物件的遠近關係外，本論文亦提出了一種不同遠近的立體物件採用不同的邊緣線條寬度之補償方式，如圖 4-8 所示，離觀看者本身最近的立體物件，其立體物件的邊緣線條寬度最寬；離觀看者本身較遠的立體物件，則立體物件的邊緣線條寬度則會越細。 (a) (b) (c) (d) 圖 4-8：不同距離的物件用不同的邊緣線條寬度的實驗結果此一補償方式的概念與邊緣線條顏色變化的補償方式相似，透過不同立體物件邊緣線條寬度的變化，讓觀看者直覺地得知立體物件的相對遠近距離關係，可以協助觀看者在辨識周圍立體物件時給予適當的輔助。

(61)

4.2.6 標示物件立體投影長度的補償方式實驗結果

最後一種補償方式是描繪立體物件的立體投影線條，對於不同距離的立體物件其所描繪的立體物件投影線條長度不同。首先，立體物件的立體投影方向以整張影像的最遠點為收斂點，線條的方向朝最遠點的地方進行描繪，其次依據立體物件離觀看者的距離差異，其所描繪的投影長度所有所變化。本論文依距離的不同，分為三個長度等級：離觀看者最近的立體物件其投影長度為 25 Pixels，次近的立體物件其長度為 15 Pixels，再其次的立體物件長度為 5 Pixels，其實驗結果如圖 4-9 所示。 (a) (b) (c) (d) 圖 4-9：立體物件標示立體投影長度之補償方式實驗結果透過所估測之視差切割物件的方式雖可切割出物件體的主要範圍，但物件本身的邊緣輪廓仍無法很精確的描繪，且易發生因視差分佈上的

(62)

差異產生凹凸的邊緣曲線，因此在邊緣的處理上吾人利用 Convex Hull 的方式讓物件的邊緣平滑化，使其標示的邊緣較為平順。但實驗結果顯示，該方式在立體投影長度的補償方式上效果不理想，因此在立體投影長度的補償方式中，物件邊緣的顯示方式改以 Bounding Box 方式來呈現，其所呈現之立體投影長度補償方式實驗結果效果較佳。因其投影描繪之參考點是依據影像中最遠點與物件邊緣之關係，舉例來說如果最遠點在物件的右邊，則以物件右半部的邊緣為參考基準點進行投影點描繪，因此當物件彼此距離過近時，其投影效果在視覺呈現上會有些許影響，但此補償方式是讓觀看者可以依據投影的長度來判斷周圍物件離觀看者本身的距離遠近，因此吾人透過投影線條顏色區分方式讓使用者可以依邊緣線條顏色及投影長度來判斷相對距離關係，減少因物件投影重疊所產生之影響。藉由上述實驗結果可以觀察到即便利用了不同物件具有不同的視差及距離來分割物件，但在描繪立體物件邊緣時，仍無法正確描繪其邊緣，尤其在物件彼此之間距離過於相近時最容易發生，因為當物件過於接近時，其估測之視差值有可能是相同的，導致不易將不同的物件進行分割。圖 4-10 為左右原始影像圖 4-2（e）、（f）、（g）、（h）、（k）及（l）分別在 320240 與 800600 解析度下進行 SAD 演算法估測視差及物件框選之結果。在圖 4-10（b）、（e）及（h）中 SAD 演算法估測結果，可以看出在高解析度下，單一物件有著明顯不同層次的視差值。其次在物件框選部份，高解析度下的框選，較貼近物件本身之邊緣，以圖 4-10（g）和（i）為例，圖 4-10（i）為 800600 解析度下之框選結果，圖中綠色線條框選之物件其線條較圖 4-10（g）中 320240 解析度下更貼近物件本身。

(63)

(a) (b) (c) (d) (e) (f) (g) (h) (i) 圖 4-10：在 800600 解析度下 SAD 運算及物件框選之結果。圖（a）（d）（g）為 320240 解析度中物件框選結果；圖（b）（e）（h）為 800600 解析度下 SAD 運算結果；圖（c）（f）（i）為 800600 解析度中物件框選結果。因為考量整體運算速度下，導致解析度無法提升造成在估測視差時無法精確估測出正確之視差，若可以在不影響速度前提下提升其解析度應可獲得適度的改善。

(64)

4.2.7 感知成效評估

為了解此補償方式演算法於實際使用狀況，吾人邀請 20 位同學觀看 26 組左、右原始影像進行實際測試,，其中測試過程將每位同學視其雙眼視力較佳的其中一眼，以不透光之黑布遮蔽該眼之方式進行測試，其目的在於模擬因雙眼產生病變所導致的立體視覺缺陷，因每個人先天性生理狀況差異及個人感知感受程度皆不相同，此一評估方式以個人主觀意識為主，其評估結果如表 4-1。表 4-1：立體視覺缺陷補償方式感知評估補償方式／效果好（5）普通（3）差（1）總分平均距離標示 10 8 2 76 3.8 邊緣顏色標示 14 5 1 86 4.3 邊緣線條寬度 10 9 1 78 3.9 立體投影長度 2 8 10 44 2.2 吾人將受測者的主觀感受分為「好」、「普通」及「差」三種等級，並為每種感受層級設定一個加權分數，在「好」此等級之加權分數為 5 分；「普通」等級之加權分數為 3 分；「差」等級的加權分數為 1 分。每種補償方式透過加權計算後可以獲得一平均分數。由表 4-1 可以得知，在邊緣顏色標示補償方式中獲得 4.3 分是四種補償方式中的最高分，而距離標示與邊緣線條寬度這二種補償方式各獲得 3.8 及 3.9 分，立體投影長度分數為 2.1 分。多數人對於前三種補償方式均給予較好的評價，受測者大多數認為距離標示、邊緣顏色標示及邊線條寬度等三種補償方式可以清楚且直覺地得知物件距離及相互遠近關係，其補償效果較佳。而在立體投影長度補償方式則反應易受投影重疊效應干擾進而影響視覺感觀判斷，多數人不偏好此一補償方式。

(65)

4.3 討論

本論文中，吾人運用了簡易且費用低廉的雙鏡頭 webcam 影像擷取裝置，針對立體視覺缺陷者設計一補償機制，以建構一套即時立體視覺缺陷補償系統。對於立體視覺缺陷者而言，因為無法辨識周圍景物離本身的遠近距離關係，導致容易發生碰撞的危險，因此所設計之補償機制以輔助立體視覺缺陷者取得遠近距離資訊為主。故對於所判讀之距離精確性，亦是整體補償機制的考量範圍。圖 4-11 為測試補償方式所估測之距離精確性實驗結果，其實驗結果彙整於表 4-2。觀察表 4-2 之實驗結果，物件 A 與觀看者之間的真實距離為 2.8 公尺，所設計之補償系統估測距離為 2.9 公尺，如圖 4-11（a）所示；物件 D 與觀看者的真實距離為 4.8 公尺，但所估測之距離為 3.7 公尺。就實驗結果來看，視差與距離之間呈現非線性關係，如圖 4-12 所示，因此當觀看者與物件之間距離越遠時，尤其是當這二者之間的距離超過 4 公尺時，其所估測的距離精確度會下降，其誤差百分比約在 7.5％至 23％之間。對立體視覺缺陷者來言，其步行速度約每秒 0.5 公尺至 0.8 公尺之間，所設計之補償方法提供 4 至 8 秒的反應時間來避免碰撞意外的發生。對於立體視覺缺陷者而言，補償系統所產生之補償影像中的立體輔助資訊，可以協助他們判斷周圍景物的距離遠近，並降低生活的不便性。 (a) (b) (c) 圖 4-11：不同距離物件估測之距離實驗結果

(66)

圖 4-12：視差與距離曲線圖表 4-2：估測觀看者與物件距離實驗結果估測觀看者與物件距離實驗結果影像解析度真實距離 320240 160120 800600 物件編號估測距離誤差百分比估測距離誤差百分比估測距離誤差百分比 A 2.8m 2.9m 3.5% 2.43m 13.2% 2.76m 1.5% B 3.6m 3.3m 8.3% 2.80m 22.2% 3.86m 7.1% C 4m 3.7m 7.5% 2.74m 31.5% 4.25m 6.2% D 4.8m 3.7m 22.9% 6.76m 40.8% 5.86m 22.1% 本論文所提之補償方式採即時視訊方式處理，因視訊資料本身所需處理之資料量相關龐大，又因所處理之視訊資料來源為雙鏡頭所擷取之視訊資料，資料計算量及所需時間遠超過單鏡頭，表 4-3 呈現不同解析度下，運算所耗時間，由表 4-3 可以得知在解析度越高的情況下其所需運算時間越長，其次比對搜尋的範圍越大，其計算上所花費的時間也越久，在考量整體運算速度下，吾人選擇降低視訊解析度及比對範圍來減低運算所需花費之時間。而在整體過程中因為犧牲解析度下造成比對錯誤的

(67)

機率上升而導致物件分割及圈選上產生錯誤，例如會將白色背景牆壁誤判為物件而圈選，這是因為吾人採用了 SAD 演算法所導致，因為 SAD 演算法採差值比對方式，差值越小表示越符合，但此一方式若遇到單一大區塊背景顏色時易發生比對錯誤的現象，因此為適度調整其圈選的正確性，吾人針對 Disparity 為 0 或差異過小的值（±1）先行排除，此方式可減少部份因背景顏色相同所引發之圈選錯誤的機率，而其缺點是對於特定距離（約 2.8 至 3.2 公尺）內，所在位置之物件其偵測率會降低，但因距離使用者較遠，對其影響層面較低，若需考量估測之正確性下，則可採用關聯式（Correlation）比對進行比對來增加估測正確性。對於未來工作而言，在如何不犧牲視訊解析度的前提下，仍可維持即時性的處理速度是進一步待克服的問題。表 4-3：視差估測所需時間視訊解析度比對範圍取樣間隔運算時間 640480 -15~20 1 72s 320240 -15~20 1 19s 160120 -15~20 1 5s 640480 -5~15 1 42s 320240 -5~15 1 11s 160120 -5~15 1 4s 640480 -5~15 2 12s 320240 -5~15 2 4s 160120 -5~15 2 2s 640480 -5~15 4 4s 320240 -5~15 4 2s 160120 -5~15 4 1s 本論文希望能提供給立體視覺缺陷者一個費用低廉視覺型科技輔

(68)

具，因此在影像擷取裝置的鏡頭選擇上，採用市面常見的 Webcam 來擷取視訊影像並降低所需成本。但因為每個 CCD 其光學鏡頭之物理特性並不完全相同，可能導致影像在擷取過程中因雙鏡頭的先天性差異，例如高低不一致，產生估測上的錯誤，為避免此一狀況發生，必需先針對雙鏡頭 webcam 進行校正。所採用之校正方式有二種分別是調整 webcam 硬體參數及軟體補償，首先將雙鏡頭 webcam 分別於 1 公尺及 4 公尺位置針對校正用影像各擷取一張左右影像，其中 1 公尺位置所擷取之左、右影 像分別是 L1及 R1，而 4 公尺位置所擷取之左、右影像分別是 L4及 R4，校正用目標影像如圖 4-13 所示。圖 4-13：雙鏡頭校正用影像首先比對二種距離下左右影像的高低誤差，其執行方式為分別針對 在 1 公尺及 4 公尺二種距離下所拍攝之影像，以左影像 L1中藍色三角形 頂點為參考基準點，其座標為（x , y），將右影像 R1中藍色三角形頂點進 行垂直方向位移微調，其藍色三角形頂點座標為（i , j），當 j 調整至與左 影像 L1中藍色三角形頂點座標 y 相同時，所微調之位移量Δm1即為 1 公尺位置左、右影像之高低誤差。接著以相同方式針對 4 公尺位置所擷取 之左、右影像 L4及 R4進行垂直方向微調取得位移量Δm4。在取得 1 公尺