序論 - 使用基於相似度的外觀圖解法於三維物體之形狀記憶與辨識

1.1 研究動機

在現今這個科技日新月異的時代，影像處理的技術不斷在進步，而影像處理中圖形辨識的技術也越來越好，而此時我們就想到，到底電腦能不能像人類一樣，只單純的看到一個三維物體的某一個方向的面，就能輕易地大概判斷出那是一個什麼東西。

如果可以的話，我們便能將其應用在監控系統上，讓我們知道現在在畫面上多出了什麼東西，也可以應用在機器人上，使得機器人能快速的知道眼前大概是什麼東西，甚至也可以拿來幫助機器人定位，因為當知道那是什麼東西後，我們還可以更精確的知道是從哪一個角度看到的，因而可以確定機器人現在的位置，所以這個議題是非常有用的。

在此種想法下，我們對此議題做了探討，我們發現這會有一些問題，

就是此種方法雖說是對三維物體的辨識，但實際上，它僅僅是使用在某一個視角上所看到的二維圖形來辨識，所以我們必須將物體的每一個面都紀錄下來，這樣才有可能在看到物體的任一個面時辨識出它是哪一個物體，

但問題就是一個三維物體的面有無限多，我們要如何才能有效的記憶它們，並利用它們來辨識，使得不同的物體能夠被區別且正確的辨識出來呢？

而在現今的研究裡，有很多關於辨識三維物體的研究，其主要有兩類，第一類就是以整個三維物體當作辨識的依據的（object-based）方法，

第二類就是以三維物體的特徵面當作辨識依據的（view-based）方法，而第二類的方法就跟我們想要解決的問題一樣，就是利用看到的某一個面，

來決定是什麼物體，因此本篇論文就朝此方向做深入的探討及研究。

1.2 相關研究回顧

首先，我們來看看關於這方面前人做了哪些研究。

在三維物體辨識的方法中分為兩類，object-based 和 view-based 的方法，像Pope and Lowe [1]、Weiss and Ray [2]、Flynn and Jain [3]、Leymarie and Kimia [4]、…等提出的方法就是屬於 object-based 的方法，而此類方法有幾個缺點：自動產生模型的限制、重建三維物體的困難、結果代表物的可靠性、複雜的比對過程，但在這裡由於我們所要用的是屬於view-based 的方法，所以不再詳述object-based 的方法。

相對於object-based 的方法是以整個三維物體當作辨識依據的方法，

view-based 的方法就是以三維物體的特徵面當作辨識依據的方法，它的目標就是要用在不同方向所看到的三維物體的二維影像集合來表示此三維物體，如此在比對時，就可降低比對的維度，即只需比對二維的特徵面，

而不需做三維的物體比對來辨識。而此種view-based 的方法又可被分為兩類，一類是基於景象的方法（appearance-based methods），另一類是外觀圖解法（aspect-graph methods）。

appearance-based 的方法是在看影像裡強度分佈的變化，例如 Nayar et al. [5]就是使用此種方法，他利用在 RGB（紅綠藍）三個顏色領域裡的資訊形成三個向量，並利用每隔7.5 度所得到的影像去得到每個影像的三個向量，接著再用主要成份分析法（Principal Component Analysis）來將不同物體的分開，相同物體的聚集在一起，在辨識時，也同樣地將未知物體的 RGB 三個顏色領域形成三個向量，然後用主要成份分析法轉換過去，轉換後最靠近的物體，就是辨識的結果。但此類appearance-based 的方法有幾個缺點，就是它對光線的改變、物體的旋轉、物體的變形、視角的改變、

物體被遮蔽很敏感，以及此法不能動態地更新資料庫（database），即每新加一個影像，必需要整個重新再算一次。

aspect-graph 的方法跟 appearance-based 的方法不同在於它是去看三維物體投射出來的幾何形狀結果。此法利用在不同視角所看到的三維物體的二維影像上找尋過渡、不穩定的特徵，而發生此特徵的影像，被稱做視覺的事件（visual event），而其它穩定的影像，則稱為一般的影像（general views），也就是外觀(aspect)，此法是利用 visual event 來將不同的外觀分離。傳統在此類方法上，有被使用在以下幾類三維物體：多面體

（polyhedra）、分片光滑（piece-wise smooth）的物體、循環的固體（solids of revolution）、代數表面（algebraic surfaces）的物體。

在多面體方面，Shimshoni and Ponce [6]提出了一個有限解析度的方法，他利用他所提出的新的VV（Vertex-Vertex）事件、EV（Edge-Vertex）

事件、EEE（Edge-Edge-Edge）事件，並利用 plane-sweep 演算法分割觀看空間（view space），以及利用簡單化演算法（simplification algorithm）去合併相近特徵的外觀，進而去產生物體的有限解析度的外觀。其他還有像 [7]、[8]、[9]…等，也是一些對於多面體的 aspect-graph 的方法。在對於循環的固體的aspect-graph 研究（[10]、[11]），Eggert and Bowyer [10]提出一個精確分配視角空間的方法，他是利用此類物體的旋轉對稱的特性去降低分配視角空間的困難，因此他修改了plane-sweep 演算法來分割視角空間，

而他也是利用幾何的事件解釋來找到視覺的事件（visual event）。其他分片光滑（piece-wise smooth）的物體、代數表面（algebraic surfaces）的物體，

也都有人針對它們的特性去做研究（[12]、[13]、[14]）。總而言之，大多數使用aspect-graph 的方法，它們都是基於以下幾點步驟來尋找出外觀：

步驟一：利用幾何的定義去找出visual event

步驟二：利用具有意義的visual event 去分配視角空間

步驟三：詳細討論被分配的視角空間，並藉此得到aspect-graph 到此為止，aspect-graph 的方法雖然可以分別被用在各種不同的物體上，但對於現實情況而言，物體是可能複雜且多特性的，所以並無法使用

單一的方法來對所有的物體找出外觀，因此就有人提出了基於相似度的外觀圖解法（A Similarity-Based Aspect-Graph Approach）來解決此問題，像 Denton et al. [15]提出的方法，就是將物體不同視角的影像以 BCS（bounded canonical set）重新建構一次，並利用 Earth Mover’s Distance 來計算相似度，另一個也是用基於相似度的外觀圖解法的就是Cyr and Kimia [16]提出的方法，他提出一個得到aspect-graph 的方法，也就是 aspect-combination algorithm，利用此演算法，合併相似的影像到同一個外觀，在此篇裡，他共測試了兩種計算相似度的方法，基於曲線（Curve-Based）的方法和基於骨架（Shock-Based）的方法，兩種方法的辨識率都很好，只是都太耗時了。

有鑒於基於相似度的外觀圖解法可以處理複雜且多特性的物體，所以本篇論文會用此類的方法，並且是用Cyr and Kimia [16]提出的方法，不過在本篇論文裡，我們會提出一個新的aspect-combination algorithm 去改善他的方法。

1.3 問題描述

本篇論文想要處理的問題就是如何以view-based 的方法，利用物體的輪廓去辨識一個未知的三維物體，而為了要達到這個最終的目的，在達到此目的之前，我們還必須先解決一個問題，那就是如何將我們所要的目標物體的輪廓從一張影像中取出來，所以下面我們就會依序介紹需要被解決的問題，包括了如何取出輪廓，以及如何用輪廓去做出aspect-graph，並利用此來辨識。

1.4 本論文貢獻

本篇論文貢獻就是在一個單純的環境下，對一個物體由擷取開始到辨識出此物體做了一個完整的實現。且在建立資料庫方面，我們提出了一個改善Cyr and Kimia 的方法的外觀圖解法，此法是一個以一個物體的一個面

為單位的演算法，也就是它從頭到尾，都是一個面(view)一個面(view)單獨地、不需照順序地分開來去建立、去完善資料庫，所以它是可以即時不斷地學習，直到精確完整地表達物體為止，而且它也可對不同的物體設定適合它們的門檻值，來分別建立出符合各自物體的資料庫。而經實驗得知，此提出的方法是真的可行且較好的。

1.5 章節概要

以下就是本論文的組織架構簡述

第二章：說明如何從一張影像裡擷取我們要的目標物體輪廓的演算法。

第三章：說明如何利用擷取的物體輪廓，取出用來辨識的特徵並結合計算相似度的方法，來利用不同的外觀結合演算法建立資料庫，

以及在此說明辨識的方法。

第四章：對前述的方法做的實驗結果。

第五章：對於本論文做一個總結。

參考文獻。

附錄A。

附錄B。

第二章擷取 2D 影像之目標物體輪廓的

在文檔中使用基於相似度的外觀圖解法於三維物體之形狀記憶與辨識 (頁 12-17)

序論