第一章 序論
1.2 相關研究回顧
透過上一節的描述,場景認知、機器人定位導航與電腦視覺,這三個 領域跟我們有密切的關係,所以,研讀整理的論文,可分成三大類,如下:
1.2.1 場景認知
視覺認知,亦是機器人定位這領域的核心問題,對於人類來說,輕而 易舉的事情,但是在電腦視覺領域,卻是一大難事,因此很多論文在這方 面也提出許多解決方法;
以外在環境為考量。第一、空間中幾何位置的描述是透過完整的電腦 繪圖模型,再利用機器人多視角之間的整合其關聯性,利用這些資訊做地 標偵測或者與地圖模型相對應尋求吻合[2][3],以達場景認知的效果;然而 這類的認知,能否清楚正確的挑出地標,成為認知成敗與否的關鍵,所以,
一個非人工刻意標示的地標物則比較難達到這樣的要求,第二、利用拓樸 關係描述每個區域之間的關係[4][5],取代了之前全域的地圖集以描述機器 人周遭場景的影像,而不需去在意全域的幾何關聯性,其精確度稍微低一
兩大類。感知,是指可以辨識出影像中的內容物,藉由內容物的相對位置,
來推算自己所在的區域;而非感知,相對而言,不對影像內容做分析,而 是將整張影像的資料做分析,再透過資料分析比對,來達到影像認知的效 果。
1.2.2 機器人定位導航
機器人導航,已經由來已久,相關的論文也不勝枚舉,對過去相關統 合整理的論文也相當完善[2],如同之前概述的論文提到,順著歷史潮流,
回溯到西元 1979 年,在對戶外外在環境有極高限制之控制下,第一台自 走車誕生[6],同年,也有另一隻適用於室內環境的自走機器人問世[7],而 隨著時代的變遷,科技的演進,電腦視覺以及影像處理的技術,越來越趨 於成熟,到了 1984 年,幾乎已奠定了影像處理在機器人定位導航上面,
不可忽視的一環[8],而到了 1996 年,美國首台無須動手控制的自走車自 匹茲坦堡到聖地雅哥,橫渡整個美國[9]。
而視覺基底的機器人定位系統同上一段所介紹,同樣可以分為感知以 及非感知兩大類,只是將影像認知實現在機器人定位導航系統中。感知,
是指機器人在環境中可以相對的甚至是絕對的知道自己處於環境中的位 置;而非感知,相對而言,就是在設計上,不特別考慮中間過程,有簡單 的行徑指標,來達到自走車或是自走機器人的概念。
而對於機器人視覺的感知能力要能夠實現,無庸置疑的,就是需要建 立環境的地圖模型,而依照建立地圖模型的方式,又可再分類成為,一、
預先建立地圖拓撲模型(Map Based):在欲導航環境中建立空間中的相對或 絕對位置(CAD model),爾後,再利用機器人視覺,對所拍攝到的場景,
進行辨識審核,來決定目前所在位置,進而推論[10]或是事先規劃好行進 路徑。要達到定位導航,可分為四大步驟,依序是擷取待測場景影像,偵
做比對,最後,估算其目前所在的位置。而這方面的研究,也有許多論文 在強調定位的重要性[11][12][13],畢竟,定位為導航不能不解決的問題,
要能導航,必先面臨定位問題,本篇論文也會以這方面為探討主題。二、
則 是 在 行 進 間 , 建 立 地 圖 模 型 , 並 利 用 該 圖 來 做 為 導 航 的 依 據(Map Building),當然,在單純視覺基底的智慧型演算,要做到邊移動邊建立環 境拓撲關係,在運算上,勢必比較緩慢,但是其更加近似人類的行為,卻 是其優勢[14][15]。
而沒有環境資訊的導航系統(Mapless Navigation),要能夠導航,勢必 讓機器人沿著特定物體或是特定建築物的邊緣移動,才有可能達到自走車 或是智慧型機器人的可能性[16]。
1.2.3 電腦視覺
提 到 電 腦 視 覺 , 影 像 認 知 等 等 問 題 , 就 要 從 影 像 定 址(Image Registration)談起[17],而其處理主要可分別為對抗三大類的問題,所做的 改良; 其一、在一連串序列的影像,如果沒有加入空間中幾何關係和出 現的順序,對於影像定址比對,勢必多了許多困難處,因此,找出空間關 係或是空間轉移函數,勢必成為解決該問題重要的里程碑。其二、當影像 中存在著光影或是霧氣……的影響,在影像比對時,將會面臨極大的挑 戰,於是乎,自然而然的加入光影強度(intensity)的考量,然後轉換色彩空 間到,可以清楚分離該特徵的空間域,方便對於光影變化有所處理。其三、
則是當影像畫面中的物體有所改變,又為了方便影像追蹤於是各式各樣的 特徵抽取,成了這類論文探討的主軸,其中包括了,背景濾除,影像追蹤,
等等的議題。
一、多感測元件的整合,需要影像定址技術,將各個不同感測元件在同一 個拍攝角度所擷取的影像,做整合分析,以便標示出影像中有哪個地方可 疑。譬如,醫學影像,可結合核磁共振、電腦斷層、X 光影像……的影像,
來辨識出人體是否有病變,當然,類似的用法也可以用在,大樓探勘、地 層分析、蔬果分類的超音波、電磁頻帶的偵測。第二、為了找到待測影像,
與資料庫影像,局部或是全部圖形區塊相似,也是利用定址技術,找出關 聯性。其方式大約有:模型基底近似、事先分析擷取合宜特徵、熟習感興 趣物件的特色,或是階層式比對。譬如,自動停車系統、航空定位、飛彈 導航,又或者是人形、圖案、數字等特徵比對,以及訊號分析處理的自動 化,也常常使用此技術。第三、利用視覺定址技術,將不同視角的影像,
做影像序列的分析。而電腦視覺,也常常是這類問題的常客,甚至物體追 蹤,或是影像序列分析,些微差異影像的偵測都屬於這個範疇。第四、與 之前的差異在於空間的不同,替換成時間的差異,主要是在偵測,一段時 間前後的差異,以醫學影像為例,觀察身體異常腫瘤的成長,就是這一類 的核心問題,同理可知,天然資源的監控,核災之後的植物觀察,也可以 算是這類型的題目主軸。然而,以上就應用層面分成四類,但是,一旦遇 到問題,並沒有刻意定義成某個類型,完全隨實際遇到的問題來分析,所 以,面對以上兩個甚至三個種類的合併的問題,也不在少數[14]。
以本篇論文為例,以應用層面應該屬於第三類的電腦視覺,但是核心 部分卻是利用影像相似度的偵測,比對連續影像序列的差異性。至於量測 影像相似度,則會受到特徵選取不同,而跟著有不同的效果與方式,主要 可以區分成,是否對於影像內容做分析與判讀:對於影像內容做特徵抽 取,譬如說,判讀影像內容中的物件、特定形狀、特定顏色……作為比對 特徵,再利用這些影像內容的資訊,接著使用類神經網路,模糊控制[18]
等理論進行定位,或者在利用,空間中幾何關係,來進行路徑規劃,進而
取決於對於影像內容,能否完整抽取物件、形狀、顏色等特徵。而相對的,
則是對於擷取到的影像,並不特別對影像內容做分析,而直接對於整張影 像,做資料分析[13],利用資料分析的結果,來判定目前的位置;而這類 型的定位系統,通常都會是把原本的資料(raw data)經過各式各樣的運算,
擷取出部份甚至全部當作影像的特徵,在比對彼此之間的差異性,來達到 定位的要求,換句話說,也就是常用各式各樣的模型,來描述闡述原本的 影像,而本篇論文,也將採用這樣的方式來描述所擷取的影像。