使用基於相似度的外觀圖解法於三維物體之形狀記憶與辨識

全文

(1)國立交通大學電機與控制工程研究所碩士論文使用基於相似度的外觀圖解法於三維物體之形狀記憶與辨識. Shape Memorization and Recognition of 3-D Objects Using A Similarity-Based Aspect-Graph Approach. 研究生：林群棋指導教授：胡竹生博士、周志成博士. 中華民國九十四年七月.

(2) 使用基於相似度的外觀圖解法於三維物體之形狀記憶與辨識 Shape Memorization and Recognition of 3-D Objects Using A Similarity-Based Aspect-Graph Approach Student： Chun-Chi Lin. 研究生：林群棋. Advisor：Dr. Jwu-Shen Hu、 Dr. Chi-Cheng Jou. 指導教授：胡竹生、周志成. 國立交通大學電機與控制工程研究所碩士論文 A Thesis Submitted to Department of Electrical and Control Engineering College of Electrical Engineering and Computer Science National Chiao Tung University in partial Fulfillment of the Requirements for the Degree of Master in Electrical and Control Engineering July 2005 Hsinchu, Taiwan, Republic of China. 中華民國九十四年七月.

(3) 使用基於相似度的外觀圖解法於三維物體之形狀記憶與辨識. 研究生：林群棋. 指導教授：胡竹生博士、周志成博士. 國立交通大學電機與控制工程研究所碩士班. 摘要. 在本論文中，對一個在單純環境下的三維物體，由擷取到辨識出此物體做了一個完整的實現，首先，利用前景偵測結合肯尼邊緣偵測法（Canny edge detection）和加速的梯度向量流動態輪廓偵測法（GVF snake），來得到物體輪廓，接著利用此輪廓找尋出物體的特徵，然後配合計算相似度的方法，代. 入修改後的Cyr and Kimia的外觀結合演算法（aspect-combination algorithm）和新提出的外觀結合演算法去建資料庫，然後，對於三維物體則依據兩種不同方法所建出的資料庫，利用四種辨識的方法來辨識並比較其結果，最後得出新提出的外觀結合演算法是優於修改後的Cyr and Kimia的外觀結合演算法的結論。 i.

(4) Shape Memorization and Recognition of 3-D Objects Using A Similarity-Based Aspect-Graph Approach Student：Chun-Chi Lin. Advisor：Dr. Jwu-Shen Hu、 Dr. Chi-Cheng Jou. Institute of Electrical and Control Engineering National Chiao-Tung University. Abstract In this thesis, we implement a computational procedure to categorize and classify 3-D objects from their contour under a simple environment. First, we use foreground detection, Canny edge detection and speedy GVF snake to obtain the object’s contour. The contour is then used to establish the object’s features. Two databases are built using methods which compute similarity by modified aspect-combination algorithm. proposed by Cyr and Kimia and new proposed aspect-combination algorithm. By using these two databases, we recognize 3-D objects using four recognition methods and compare their performance. Finally, a conclusion is made that our. newly proposed algorithm is better than the modified algorithm proposed by Cyr and Kimia. ii.

(5) 誌謝對於本論文的完成，首先，感謝指導教授胡竹生博士和周志成博士兩年來的指導。在研究所的兩年中，老師教導了我在學術方面的知識，更教導我解決問題的態度和方法，讓我了解到如何把自己的研究做好，使得本論文得以順利完成。而在這些日子裡，感謝實驗室眾多學長姐、同學和學弟妹的陪伴與協助。感謝宗敏學長在研究的過程裡提供的意見和解決我學術上的問題，使我朝著正確的方向前進。謝謝价呈對我於學術方面的協助與維瀚於我拍攝物體期間的幫助，謝謝立偉學長提供我的一些解決問題的意見以及 angel 學長的鼓勵和鳥哥在我學業上的幫助。還有幾位一起奮鬥的同學，士奇，晏榮、佳興、岑思和鏗元，有了你們的陪伴和幫助，讓我的研究生活能順利渡過。接著也謝謝學弟妹們，佩靜、恆嘉、朱木、螞蟻、鳥蕙、耀賢和永融，謝謝你們的陪伴與幫助。另外，也謝謝我的室友們，嘉富、召漢、俊永提供我在學業與生活上的陪伴與協助，讓我在交大的生活能更快樂更充實。最後感謝的就是我的父母與家人的鼓勵與幫助，讓我能無後顧之憂地完成我的學業。最後，謹以本論文向家人獻上最誠摯的謝意。. iii.

(6) 目錄摘要.......................................................................................................................................................... I ABSTRACT ...........................................................................................................................................II 誌謝....................................................................................................................................................... III 目錄....................................................................................................................................................... IV 圖目錄................................................................................................................................................... VI 表目錄................................................................................................................................................ VIII 第一章序論 ............................................................................................................................................1 1.1 研究動機.......................................................................................................................................1 1.2 相關研究回顧...............................................................................................................................2 1.3 問題描述.......................................................................................................................................4 1.4 本論文貢獻...................................................................................................................................4 1.5 章節概要.......................................................................................................................................5 第二章擷取 2D影像之目標物體輪廓的方法 .......................................................................................6 2.1 前處理...........................................................................................................................................6 2.1.1 前景偵測 ..............................................................................................................................6 2.1.2 肯尼邊緣偵測法 ( Canny edge detection )........................................................................ 11 2.2 梯度向量流動態輪廓模型 ( GRADIENT VECTOR FLOW SNAKE ) ..............................................13 2.2.1 主動式輪廓偵測法.............................................................................................................13 2.2.2 內部能量和外部能量.........................................................................................................14 2.2.3 梯度向量流動態輪廓模型 .................................................................................................15 2.2.4 實現的架構和加速方法 .....................................................................................................18 第三章利用 2D影像之目標物體輪廓來辨識 3D物體的方法 ............................................................20 3.1 特徵擷取與計算相似度的方法.................................................................................................20 3.2 資料庫的建立.............................................................................................................................24 3.2.1 Cyr and Kimia提出的外觀結合演算法 ( aspect-combination algorithm )........................24 3.2.2 提出的新外觀結合演算法 .................................................................................................28 3.3 辨識方法.....................................................................................................................................32 第四章實驗結果 ..................................................................................................................................35 4.1 系統架構.....................................................................................................................................35 4.2 實驗平台.....................................................................................................................................38 iv.

(7) 4.3 輪廓擷取的結果.........................................................................................................................38 4.4 辨識結果.....................................................................................................................................41 4.4.1 不同相似度方法的結果比較 .............................................................................................41 4.4.2 修改後的Cyr and Kimia的方法的辨識結果 .....................................................................42 4.4.3 提出的方法的辨識結果 .....................................................................................................43 4.4.3.1 與修改後的Cyr and Kimia方法的辨識結果相比較.................................................................. 43 4.4.3.2 漸進強化資料庫的辨識結果 ..................................................................................................... 45. 第五章結論與未來研究方向 ..............................................................................................................51 參考文獻................................................................................................................................................53 附錄A .....................................................................................................................................................56 附錄B .....................................................................................................................................................67. v.

(8) 圖目錄圖 2-1 α i 和CDI說明圖 ...........................................................................................................................7 圖 2-2 由統計方式自動選取三個門檻值..............................................................................................9 圖 2-3 建背景模型與前景偵測的流程................................................................................................10 圖 2-4 梯度方向的分類........................................................................................................................12 圖 2-5 SOBEL運算遮罩..........................................................................................................................12 圖 2-6 主動式輪廓偵測法示意圖（[22]） .........................................................................................14 圖 3-1 輪廓平移示意圖........................................................................................................................21 圖 3-2 ASPECT-GRAPH示意圖................................................................................................................25 圖 3-3 在赤道線上取樣物體的 2 維影像............................................................................................26 圖 3-4 構成外觀的條件說明圖............................................................................................................27 圖 3-5 新的外觀結合演算法的條件說明圖........................................................................................31 圖 3-6 新的外觀結合演算法的流程圖................................................................................................32 圖 4-1 系統流程圖................................................................................................................................35 圖 4-2 辨識的物體................................................................................................................................36 圖 4-3 系統流程圖每個步驟的結果(使用我們提出的外觀結合演算法來建資料庫、利用辨識方法三來辨識的結果).........................................................................................................................37 圖 4-4 （A）SONY EVI-D30 的攝影機. （B）MIL LITE 6.1(MATROX)的影像擷取卡 ..........38. 圖 4-5 實驗的環境................................................................................................................................38 圖 4-6 輪廓擷取的結果（1）..............................................................................................................39 圖 4-7 輪廓擷取的結果（2）..............................................................................................................40 圖 4-8 輪廓擷取的結果（3）..............................................................................................................40 圖 4-9 利用未知影像以基於主要特徵的辨識方法一來辨識所得到的平均辨識率結果來畫的圖（使用提出的方法，依照 18、36、54、72、90、108 個面強化後的結果來畫的圖，且由左到右、上到下依序為物體 1 到物體 12 的結果，最後第 13 個圖是不分物體平均的結果）46 圖 4-10 利用未知影像以基於主要特徵的辨識方法一來辨識所得到的標準差結果來畫的圖（使用提出的方法，依照 18、36、54、72、90、108 個面強化後的結果來畫的圖，且由左到右、上到下依序為物體 1 到物體 12 的結果，最後第 13 個圖是不分物體平均的結果） ...........47 圖 4-11 利用未知影像以基於主要特徵與輔助特徵的辨識方法三來辨識所得到的平均辨識率結果來畫的圖（使用提出的方法，依照 18、36、54、72、90、108 個面強化後的結果來畫的圖，且由左到右、上到下依序為物體 1 到物體 12 的結果，最後第 13 個圖是不分物體平均的結果） ......................................................................................................................................48 圖 4-12 利用未知影像以基於主要特徵與輔助特徵的辨識方法三來辨識所得到的標準差結果來畫的圖（使用提出的方法，依照 18、36、54、72、90、108 個面強化後的結果來畫的圖，且由左到右、上到下依序為物體 1 到物體 12 的結果，最後第 13 個圖是不分物體平均的結. vi.

(9) 果） ..............................................................................................................................................49. vii.

(10) 表目錄表 A-1 主要特徵配合不同計算相似度的方法所做出的資料庫的結果（使用修改後的CYR AND KIMIA方法） ................................................................................................................................57 表 A-2 主要特徵配合不同計算相似度的方法所做出的平均物體辨識的結果（使用修改後的CYR AND KIMIA方法）.........................................................................................................................57. 表 A-3 輔助特徵配合不同計算相似度的方法所做出的資料庫的結果（使用修改後的CYR AND KIMIA方法） ................................................................................................................................58 表 A-4 輔助特徵配合不同計算相似度的方法所做出的平均物體辨識的結果（使用修改後的CYR AND KIMIA方法）.........................................................................................................................59. 表 A-5 辨識方法三配合不同計算相似度的方法所做出的平均物體辨識的結果（使用修改後的 CYR AND KIMIA方法） .................................................................................................................59 表 A-6 主要特徵和輔助特徵做出的資料庫（使用修改後的CYR AND KIMIA方法）......................61 表 A-7 主要特徵的資料庫自我測試結果（使用修改後的CYR AND KIMIA方法）..........................62 表 A-8 輔助特徵的資料庫自我測試結果（使用修改後的CYR AND KIMIA方法）..........................63 表 A-9 對未知影像以基於主要特徵的辨識方法一來辨識的結果（使用修改後的CYR AND KIMIA方法） ..............................................................................................................................................64 表 A-10 對未知影像以基於輔助特徵的辨識方法二來辨識的結果（使用修改後的CYR AND KIMIA 方法） ..........................................................................................................................................65 表 A-11 對未知影像以基於主要特徵與輔助特徵的辨識方法三來辨識的結果（使用修改後的CYR AND KIMIA方法）.........................................................................................................................66. 表 B-1 主要特徵和輔助特徵做出的資料庫（使用提出的方法，以 18 個面強化後的結果）......69 表 B-2 對未知影像以基於主要特徵的辨識方法一來辨識的結果（使用提出的方法，以 18 個面強化後的結果） ..............................................................................................................................70 表 B-3 對未知影像以基於主要特徵與輔助特徵的辨識方法三來辨識的結果（使用提出的方法，以 18 個面強化後的結果）.........................................................................................................71 表 B-4 主要特徵和輔助特徵做出的資料庫（使用提出的方法，以 36 個面強化後的結果）......72 表 B-5 對未知影像以基於主要特徵的辨識方法一來辨識的結果（使用提出的方法，以 36 個面強化後的結果） ..............................................................................................................................73 表 B-6 對未知影像以基於主要特徵與輔助特徵的辨識方法三來辨識的結果（使用提出的方法，以 36 個面強化後的結果）.........................................................................................................74 表 B-7 主要特徵和輔助特徵做出的資料庫（使用提出的方法，以 54 個面強化後的結果）......75 表 B-8 對未知影像以基於主要特徵的辨識方法一來辨識的結果（使用提出的方法，以 54 個面強化後的結果） ..............................................................................................................................76 表 B-9 對未知影像以基於主要特徵與輔助特徵的辨識方法三來辨識的結果（使用提出的方法，以 54 個面強化後的結果）.........................................................................................................77 表 B-10 主要特徵和輔助特徵做出的資料庫（使用提出的方法，以 72 個面強化後的結果）....78 viii.

(11) 表 B-11 主要特徵的資料庫自我測試結果（使用提出的方法，以 72 個面強化後的結果） ........79 表 B-12 輔助特徵的資料庫自我測試結果（使用提出的方法，以 72 個面強化後的結果）........80 表 B-13 對未知影像以基於主要特徵的辨識方法一來辨識的結果（使用提出的方法，以 72 個面強化後的結果） ..........................................................................................................................81 表 B-14 對未知影像以基於主要特徵與輔助特徵的辨識方法三來辨識的結果（使用提出的方法，以 72 個面強化後的結果）.........................................................................................................82 表 B-15 對未知影像以基於主要特徵配合在 2.5 度裡看到的 3 個面的辨識方法四來辨識的結果（使用提出的方法，以 72 個面強化後的結果）.....................................................................83 表 B-16 對未知影像以基於主要特徵與輔助特徵配合在 2.5 度裡看到的 3 個面的辨識方法四來辨識的結果（使用提出的方法，以 72 個面強化後的結果） .....................................................84 表 B-17 主要特徵和輔助特徵做出的資料庫（使用提出的方法，以 90 個面強化後的結果）....85 表 B-18 對去除用來強化資料庫的 18 個面的未知影像以基於主要特徵的辨識方法一來辨識的結果（使用提出的方法，以 90 個面強化後的結果） .................................................................86 表 B-19 對去除用來強化資料庫的 18 個面的未知影像以基於主要特徵與輔助特徵的辨識方法三來辨識的結果（使用提出的方法，以 90 個面強化後的結果） .............................................87 表 B-20 主要特徵和輔助特徵做出的資料庫（使用提出的方法，以 108 個面強化後的結果）..88 表 B-21 對去除用來強化資料庫的 36 個面的未知影像以基於主要特徵的辨識方法一來辨識的結果（使用提出的方法，以 108 個面強化後的結果） ...............................................................89 表 B-22 對去除用來強化資料庫的 36 個面的未知影像以基於主要特徵與輔助特徵的辨識方法三來辨識的結果（使用提出的方法，以 108 個面強化後的結果） ...........................................90. ix.

(12) 第一章序論 1.1 研究動機在現今這個科技日新月異的時代，影像處理的技術不斷在進步，而影像處理中圖形辨識的技術也越來越好，而此時我們就想到，到底電腦能不能像人類一樣，只單純的看到一個三維物體的某一個方向的面，就能輕易地大概判斷出那是一個什麼東西。如果可以的話，我們便能將其應用在監控系統上，讓我們知道現在在畫面上多出了什麼東西，也可以應用在機器人上，使得機器人能快速的知道眼前大概是什麼東西，甚至也可以拿來幫助機器人定位，因為當知道那是什麼東西後，我們還可以更精確的知道是從哪一個角度看到的，因而可以確定機器人現在的位置，所以這個議題是非常有用的。在此種想法下，我們對此議題做了探討，我們發現這會有一些問題，就是此種方法雖說是對三維物體的辨識，但實際上，它僅僅是使用在某一個視角上所看到的二維圖形來辨識，所以我們必須將物體的每一個面都紀錄下來，這樣才有可能在看到物體的任一個面時辨識出它是哪一個物體，但問題就是一個三維物體的面有無限多，我們要如何才能有效的記憶它們，並利用它們來辨識，使得不同的物體能夠被區別且正確的辨識出來呢？而在現今的研究裡，有很多關於辨識三維物體的研究，其主要有兩類，第一類就是以整個三維物體當作辨識的依據的（object-based）方法，第二類就是以三維物體的特徵面當作辨識依據的（view-based）方法，而第二類的方法就跟我們想要解決的問題一樣，就是利用看到的某一個面，來決定是什麼物體，因此本篇論文就朝此方向做深入的探討及研究。 1.

(13) 1.2 相關研究回顧首先，我們來看看關於這方面前人做了哪些研究。在三維物體辨識的方法中分為兩類，object-based 和 view-based 的方法，像 Pope and Lowe [1]、Weiss and Ray [2]、Flynn and Jain [3]、Leymarie and Kimia [4]、…等提出的方法就是屬於 object-based 的方法，而此類方法有幾個缺點：自動產生模型的限制、重建三維物體的困難、結果代表物的可靠性、複雜的比對過程，但在這裡由於我們所要用的是屬於 view-based 的方法，所以不再詳述 object-based 的方法。相對於 object-based 的方法是以整個三維物體當作辨識依據的方法， view-based 的方法就是以三維物體的特徵面當作辨識依據的方法，它的目標就是要用在不同方向所看到的三維物體的二維影像集合來表示此三維物體，如此在比對時，就可降低比對的維度，即只需比對二維的特徵面，而不需做三維的物體比對來辨識。而此種 view-based 的方法又可被分為兩類，一類是基於景象的方法（appearance-based methods），另一類是外觀圖解法（aspect-graph methods）。 appearance-based 的方法是在看影像裡強度分佈的變化，例如 Nayar et al. [5]就是使用此種方法，他利用在 RGB（紅綠藍）三個顏色領域裡的資訊形成三個向量，並利用每隔 7.5 度所得到的影像去得到每個影像的三個向量，接著再用主要成份分析法（Principal Component Analysis）來將不同物體的分開，相同物體的聚集在一起，在辨識時，也同樣地將未知物體的 RGB 三個顏色領域形成三個向量，然後用主要成份分析法轉換過去，轉換後最靠近的物體，就是辨識的結果。但此類 appearance-based 的方法有幾個缺點，就是它對光線的改變、物體的旋轉、物體的變形、視角的改變、物體被遮蔽很敏感，以及此法不能動態地更新資料庫（database），即每新加一個影像，必需要整個重新再算一次。 2.

(14) aspect-graph 的方法跟 appearance-based 的方法不同在於它是去看三維物體投射出來的幾何形狀結果。此法利用在不同視角所看到的三維物體的二維影像上找尋過渡、不穩定的特徵，而發生此特徵的影像，被稱做視覺的事件（visual event），而其它穩定的影像，則稱為一般的影像（general views），也就是外觀(aspect)，此法是利用 visual event 來將不同的外觀分離。傳統在此類方法上，有被使用在以下幾類三維物體：多面體（polyhedra）、分片光滑（piece-wise smooth）的物體、循環的固體（solids of revolution）、代數表面（algebraic surfaces）的物體。在多面體方面，Shimshoni and Ponce [6]提出了一個有限解析度的方法，他利用他所提出的新的 VV（Vertex-Vertex）事件、EV（Edge-Vertex）事件、EEE（Edge-Edge-Edge）事件，並利用 plane-sweep 演算法分割觀看空間（view space），以及利用簡單化演算法（simplification algorithm）去合併相近特徵的外觀，進而去產生物體的有限解析度的外觀。其他還有像 [7]、[8]、[9]…等，也是一些對於多面體的 aspect-graph 的方法。在對於循環的固體的 aspect-graph 研究（[10]、[11]），Eggert and Bowyer [10]提出一個精確分配視角空間的方法，他是利用此類物體的旋轉對稱的特性去降低分配視角空間的困難，因此他修改了 plane-sweep 演算法來分割視角空間，而他也是利用幾何的事件解釋來找到視覺的事件（visual event）。其他分片光滑（piece-wise smooth）的物體、代數表面（algebraic surfaces）的物體，也都有人針對它們的特性去做研究（[12]、[13]、[14]）。總而言之，大多數使用 aspect-graph 的方法，它們都是基於以下幾點步驟來尋找出外觀：步驟一：利用幾何的定義去找出 visual event 步驟二：利用具有意義的 visual event 去分配視角空間步驟三：詳細討論被分配的視角空間，並藉此得到 aspect-graph 到此為止，aspect-graph 的方法雖然可以分別被用在各種不同的物體上，但對於現實情況而言，物體是可能複雜且多特性的，所以並無法使用 3.

(15) 單一的方法來對所有的物體找出外觀，因此就有人提出了基於相似度的外觀圖解法（A Similarity-Based Aspect-Graph Approach）來解決此問題，像 Denton et al. [15]提出的方法，就是將物體不同視角的影像以 BCS（bounded canonical set）重新建構一次，並利用 Earth Mover’s Distance 來計算相似度，另一個也是用基於相似度的外觀圖解法的就是 Cyr and Kimia [16]提出的方法，他提出一個得到 aspect-graph 的方法，也就是 aspect-combination algorithm，利用此演算法，合併相似的影像到同一個外觀，在此篇裡，他共測試了兩種計算相似度的方法，基於曲線（Curve-Based）的方法和基於骨架（Shock-Based）的方法，兩種方法的辨識率都很好，只是都太耗時了。有鑒於基於相似度的外觀圖解法可以處理複雜且多特性的物體，所以本篇論文會用此類的方法，並且是用 Cyr and Kimia [16]提出的方法，不過在本篇論文裡，我們會提出一個新的 aspect-combination algorithm 去改善他的方法。. 1.3 問題描述本篇論文想要處理的問題就是如何以 view-based 的方法，利用物體的輪廓去辨識一個未知的三維物體，而為了要達到這個最終的目的，在達到此目的之前，我們還必須先解決一個問題，那就是如何將我們所要的目標物體的輪廓從一張影像中取出來，所以下面我們就會依序介紹需要被解決的問題，包括了如何取出輪廓，以及如何用輪廓去做出 aspect-graph，並利用此來辨識。. 1.4 本論文貢獻本篇論文貢獻就是在一個單純的環境下，對一個物體由擷取開始到辨識出此物體做了一個完整的實現。且在建立資料庫方面，我們提出了一個改善 Cyr and Kimia 的方法的外觀圖解法，此法是一個以一個物體的一個面 4.

(16) 為單位的演算法，也就是它從頭到尾，都是一個面(view)一個面(view)單獨地、不需照順序地分開來去建立、去完善資料庫，所以它是可以即時不斷地學習，直到精確完整地表達物體為止，而且它也可對不同的物體設定適合它們的門檻值，來分別建立出符合各自物體的資料庫。而經實驗得知，此提出的方法是真的可行且較好的。. 1.5 章節概要以下就是本論文的組織架構簡述第二章：說明如何從一張影像裡擷取我們要的目標物體輪廓的演算法。第三章：說明如何利用擷取的物體輪廓，取出用來辨識的特徵並結合計算相似度的方法，來利用不同的外觀結合演算法建立資料庫，以及在此說明辨識的方法。第四章：對前述的方法做的實驗結果。第五章：對於本論文做一個總結。參考文獻。附錄 A。附錄 B。. 5.

(17) 第二章擷取 2D 影像之目標物體輪廓的方法對於一張實際拍攝的影像，我們要從中擷取出我們所要物體的精確輪廓，不是一件用一般的方法就能做到的事情，中間所牽扯到的問題有很多，例如：如何找到我們要的物體、如何去掉周圍光線對物體造成的陰影、如何去掉影像上的雜訊以及如何得到精確的輪廓。在這裡我們利用幾個方法合併起來，來對一個簡單背景的影像解決上述的問題，進而得到我們要的目標物的輪廓。以下依序陳述這些方法。. 2.1 前處理在影像的前處理方面，我們要做兩件事，分別是前景偵測和尋找影像裡的邊緣，這兩件事都是為了後面利用主動式輪廓偵測法得到精確輪廓而做的。前景偵測的目的是為了得到一個可被收斂的區域和給主動式輪廓偵測法使用的初始輪廓，而此可被收斂的區域主要就是為了將不是目標物體的部分去除掉（例如：陰影），所以由前景偵測，我們就可得到目標物體的大致輪廓以及去掉大部分不屬於目標物體的影像；至於尋找影像裡的邊緣則是為了能讓主動式輪廓偵測法能夠藉它來產生外部能量，進而驅使初始輪廓收斂到真正的物體輪廓的位置，在尋找影像邊緣的同時，我們也用它來濾除影像雜訊。. 2.1.1 前景偵測在前景偵測這部分，雖然方法有很多，但在這裡我們採用一種由 Hoprasert et al. [17]提出的屬於統計上非參數( S NP ，Statistical 6.

(18) Non-Parametric)的方法，這個方法分做兩個部分：背景模型建立和前景偵測。首先，背景模型建立的部分，是要利用N張彩色背景影像，針對影像中的每個像素做統計，分別算出每個像素的Ei、Si、ai、bi，其中i是指哪一個像素。 Ei = [ μ R (i ), μG (i ), μ B (i )] 是收集了N張影像，所得到的背景影像中，第i. 個像素的平均向量； Si = [σ R (i ),σ G (i ),σ B (i )] 則是收集了N張影像，所得到的背景影像中，第i個像素的標準差；至於ai和bi，則是經由 α i 和CDi得到的，因此我們先來定義 α i 和CDi。如下圖，我們描繪了它們的定義。. 圖 2-1. α i 和CDi說明圖. 詳細來說，亮度的失真(brightness distortion) α i ，是滿足使得影像中相同像素位置的顏色向量Ii與背景模型的平均向量Ei最靠近時的一個純量，也就是滿足下式最小時的 α i ： φ (α i ) = ( I i − α i Ei ) 2. （2-1）. 而色彩的失真(chromaticity distortion) CDi 則是定義Ii與Ei之間的垂直距離，可以將經由上式求得的 α i 代入下式得之:. 7.

(19) CDi = I i − α i Ei. （2-2）. 因為RGB三個頻帶的變化量都不同，所以必須透過背景模型的Si將顏色作正規化，所以 α i 和CDi的公式變成如下： ⎡⎛ I (i ) − α μ (i ) ⎞ 2 ⎛ I (i ) − α μ (i ) ⎞ 2 ⎛ I (i ) − α μ (i ) ⎞ 2 ⎤ i R i G i B ⎟⎟ + ⎜⎜ B ⎟⎟ + ⎜⎜ G ⎟⎟ ⎥ α i = min ⎢⎜⎜ R σ ( i ) σ ( i ) σ ( i ⎢⎣⎝ R G B ) ⎠ ⎝ ⎠ ⎥⎦ ⎠ ⎝ ⎛ I R (i ) μ R (i ) I G (i ) μ G (i ) I B (i ) μ B (i ) ⎞ （2-3） ⎜⎜ ⎟ + + σ R2 (i ) σ G2 (i ) σ B2 (i ) ⎟⎠ ⎝ = ⎛ ⎡ μ (i ) ⎤ 2 ⎡ μ (i ) ⎤ 2 ⎡ μ (i ) ⎤ 2 ⎞ ⎜ R ⎟ + G + B ⎜ ⎢⎣σ R (i ) ⎥⎦ ⎢⎣σ G (i ) ⎥⎦ ⎢⎣ σ B (i ) ⎥⎦ ⎟ ⎝ ⎠ 2. 2. ⎛ I (i) − α i μ R (i) ⎞ ⎛ I G (i) − α i μG (i) ⎞ ⎛ I B (i) − α i μ B (i) ⎞ ⎟⎟ + ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ CDi = ⎜⎜ R σ ( i ) σ ( i ) σ ( i ) R G B ⎝ ⎠ ⎝ ⎠ ⎠ ⎝. 2. （2-4）當我們得到此二者後，我們便可利用它們求得背景模型的ai和bi，其分別定義如下，. ai = RMS (α i ) =. bi = RMS (CDi ) =. ∑ (α. − 1). 2. N. i =0. i. （2-5）. N. ∑ (CD ). 2. N. i =0. i. （2-6）. N. 到此為止，我們就得到背景模型每個像素的Ei、Si、ai、bi，但由於我們要利用背景模型偵測出前景，所以在此篇的方法中，他還定義出一些 thresholds來幫助我們判斷，此處他共定義四個thresholds，分別是 τ CD 、. τ αlow 、 τ α 1 和 τ α 2 ，除了 τ αlow 是自己給定的外，其餘的皆可用以下所述的方式自動選取。. 8.

(20) ∧. 利用在背景影像中 α i 和 CDi 與背景模型的ai和bi進行正規化得到α 和 i. ∧. CDi ，如下式所示 ∧. αi =. α i −1 ai. ∧. , CDi =. CDi bi. （2-7）. 然後利用統計的方式自動選取，將所有 NXY(影像的大小是 X*Y，背 ∧. ∧. 景的張數是 N)個像素點的α 和 CD ，從小到大順序的作統計(如下圖)，並 i i 由特定的偵測比率(detecting rate)，決定其門檻值： K low = (1 − rate ) NXY CD (K high ) = τ CD ∧. K high. ，. NXY. = rate. ， α (K low ) = τ α 2 ， α (K high ) = τ α 1 ∧. ∧. ∧. （2-8）. ∧. (a)NXY 個α 的直方圖. (b) NXY 個 CD 的直方圖. i. i. 圖 2-2 由統計方式自動選取三個門檻值. 於是現在我們就把背景模型以及用來判斷前景的門檻值都建立好了，所以，接下來我們便可以做前景偵測的動作了。 ∧. 在前景偵測的部分，若現在有一新進的影像則我們只需算出其α 和 i. ∧. CDi ，然後藉由這兩個值與下面四個判斷的準則，即可將像素進行分類，來得到 foreground、background、shadow、highlight： 9.

(21) ⎧ ⎪ Foreground ⎪ ⎪ ⎪ ⎪ Background ⎪⎪ C (i ) = ⎨ ⎪ ⎪Shadow ⎪ ⎪ ⎪ ⎪ Highlight ⎪⎩. ∧. :. CD ∧. αi. :. > τ CD or. i. < τ α 1 and. ∧. αi < τ. , else. αlow. ∧. αi > τ. , else. α2. （2-9） ∧. :. αi < 0. :. otherwise. , else. 但是由於我們只需將前景偵測出來並把前景和陰影盡量分離，所以對於 highlight 我們並不重視，但為了能確保擷取到的前景物體的完整性，因此我們將 highlight 也當做是前景，而不單獨分類。下圖是建背景模型與前景偵測的流程。. 建立背景模型. 前景偵測. 一開始收集N張影像. 新進來的影像. 由此N張影像求出Ei、Si. 利用背景模型的Ei、 Si求出其 α i 和CDi. 利用Ei、Si求出此N張影像每個像素的 α i 和CDi，並藉此求得ai、bi. 利用背景模型的ai、bi正規化 α i ∧. 利用ai、bi正規化 α i 和CDi，來 ∧. ∧. ∧. i. i. ∧. ∧. 將全部NXY個像素的 α i 和 CD 做統計，並藉此得到三個門檻值 τ CD、τ α 1 、τ α 2，最後再自行選定 τ αlow 門檻值. i. 利用 α i 和 CD 與四個門檻值相比，來決定是否為前景. ∧. 得到 α i 和 CD. ∧. 和CDi，來得到 α i 和 CD. i. 圖 2-3 建背景模型與前景偵測的流程. 10.

(22) 2.1.2 肯尼邊緣偵測法 ( Canny edge detection ) 在影像處理中，偵測邊緣的方法有很多，傳統上有 Sobel、Laplace、 Prewitt…等方法，但這些方法都有其各自的缺點。而為了能有較好的邊緣偵測的結果，John Canny [18]提出了一種邊緣偵測的計算方法，也就是肯尼邊緣偵測法，其主要就是為了改善傳統方法的一些缺點，使其可以達到： ․邊緣偵測低錯誤率的結果 ․精準的定位邊緣的位置肯尼邊緣偵測法的基本原理就是利用 Gaussian filter G ( x, y ) = e. (. − x2 + y 2 2σ 2. ). ，σ 是標準差. （2-10）. 將原始灰階影像的雜訊去除，然後依據此去除雜訊的影像來尋找區域梯度最大值的地方，並配合 2 個 threshold 來判斷是否為邊緣。而影像經 Gaussian filter 到找出區域梯度最大值的地方，其實就是在解下面的方程式： ∂2 (G * I ) = 0 ∂n 2. （2-11）. 其中 G 是 Gaussian filter，I 是原始影像，n 為梯度方向（和邊線方向垂直），n 可由下式求得： n=. ∇(G * I ) ∇(G * I ). （2-12）. 但實際上在數位影像尋找此區域梯度最大值時，並不是直接解方程式，而是利用比較梯度（gradient）方向上的相鄰點，將非最大值去掉，保留最大值，這就是 non-maximal suppression。更進一步將此簡化加快尋找的速度，可以用減少梯度方向的方式來達到，即只把梯度方向分成四個方向來尋找，如下圖，-22.5˚到 22.5˚和 157.5˚到 180˚和-180˚到-157.5˚屬於同一方向，-67.5˚到-22.5˚和 112.5˚到 157.5˚屬於同一方向，其餘以此類推。所以現在就只需要比較某一方向上的相鄰點，來找出區域梯度最大值的位 11.

(23) 置，進而利用二個門檻值（threshold）來決定是否為邊緣。. 圖 2-4 梯度方向的分類. 以下列出肯尼邊緣偵測法的實現流程： 1. 將原始影像和 Gaussian filter 做折積分（convolution）來去除雜訊。當 Gaussian filter 的 σ 越大，可濾除越多的雜訊，可是相對地，經濾雜訊後的影像也會較模糊。 2. 利用Sobel運算去將濾雜訊後的影像的二維空間梯度算出來，即利用下圖的兩個遮罩去算出x方向和y方向的梯度Gx和Gy，並藉由此算出梯度強度 G (x, y ) = G x + G y 。. 圖 2-5 Sobel 運算遮罩. 3. 利用下式去算出梯度方向 angle = tan −1 (G y / G x ). （2-13）. 並根據圖 2-4 將其分類為四個方向中的一個。 4. 然後利用 non-maximal suppression 去算出區域梯度強度最大值的位 12.

(24) 置。 5. 最後利用一個高的門檻值（high threshold）和一個低的門檻值（low threshold）來判斷區域梯度強度最大值的位置是否為邊緣，即在經過 non-maximal suppression 運算的整個梯度強度影像上搜尋，若梯度強度大於高門檻值，則設此點為邊緣，然後在此點相鄰點的梯度強度若大於低門檻值也將其設為邊緣；然而梯度強度小於低門檻值，則不是邊緣。. 2.2 梯度向量流動態輪廓模型 ( Gradient Vector Flow Snake ) 在擷取影像中物體的輪廓的方法有很多，例如：利用紋理分析、目標物的形狀特徵…等，但這些方法做出來的效果通常都不夠接近物體的輪廓，或是需要加上一些更耗時的演算法來使物體的輪廓更正確。於是，在 1987 年，Kass、Witkin et al. [19]提出了主動式輪廓偵測法（Active Contour Models），也就是蛇模型（Snakes）來解決這些問題，但此種方法還不夠完善，後來，又有人提出一些改善主動式輪廓偵測法的方法（[20]），但還無法完全改進它，直到 1997 年Xu [21]提出的梯度向量流動態輪廓模型的方法，才使得此種方法較為完善，進而得到較正確的輪廓。因此，我們選擇了梯度向量流動態輪廓模型的方法來找出在灰階影像中物體的輪廓。. 2.2.1 主動式輪廓偵測法主動式輪廓偵測法是利用模型曲線本身的特性來形成內部能量，以及在影像上的資訊來形成外部能量，然後根據此二個能量，慢慢將模型曲線收斂到能量最低點，而此時的模型曲線就是我們要找的目標物體的輪廓，如下圖所示，初始模型曲線依照移動方向（由能量最低點的地方來決定） 13.

(25) 來移動，最後會移動至圖形邊界，即能量最低點的地方。. 圖 2-6 主動式輪廓偵測法示意圖（[22]）. 所以，主動式輪廓偵測法就是去找出使得下式有最小值的 V (s )，而 V (s ) 就是我們要找的目標物的輪廓。 * Esnake = ∫ E snake (V (s ))ds ， 1. 0. 其中 Esnake (V (s )) = Eint ernal (V (s )) + Eexternal (V (s )). （2-14）. 上式的符號說明為， V (s ) = (x(s ), y (s )) 是模組裡每一點的座標，s是代表模組裡的第幾點，Einternal就是內部能量，Eexternal就是外部能量。接著我們便來分別說明內部能量和外部能量。. 2.2.2 內部能量和外部能量內部能量的計算方式如下面所示， Eint ernal (V (s )) =. (. 1 2 α v s + β v ss 2. 2. ). （2-15）. vs =. dV (s ) = V (s ) − V (s − 1) ds. （2-16）. v ss =. d 2V (s ) = V (s − 1) − 2 × V (s ) + V (s + 1) d 2s. （2-17）. 所以，內部能量是由兩項所構成的，其中 α 是控制模型的張力. 14.

(26) （tension）的係數，β 是控制模型的剛性（rigidity）的係數。詳細來說，當 α 越小時，在模型中的各點間的距離，就會越大，於是便會造成模型的不連續性，而當 β 越小時，所算出的模型曲線就可以較彎曲。因此內部能量決定了最後找到的輪廓曲線的特性。與內部能量的功用相比，外部能量的用處就是將初始模型曲線推向影像中物體的正確輪廓的地方，傳統上是利用 Eexternal (V (s )) = − ∇I (x, y ) 來做為外部能量，當外部能量最小時，此時的模型曲線就是最佳的物體輪廓位置，而此時的梯度也會是區域梯度的最大值，但這樣做，會有一些問題： 1. 若我們一開始所設定的初始模型曲線距離真正要收斂的物體輪廓位置不夠靠近，則會發生沒有足夠的外部能量將模型曲線推向物體輪廓的位置。甚至若在模型曲線附近沒有任何的外部能量，則會使得模組曲線停滯不前。因此，這也造成了模組無法收斂進凹處的問題。 2. 因為其使用的是對影像算梯度的結果當做是外部能量，所以當靠近物體邊緣的梯度沒有此時在附近的雜訊造成的梯度明顯時，那模型曲線就可能受到雜訊的影響，因而最後收斂到雜訊的位置。所以，基於以上的理由，我們必須找到一個新的外部力量來克服上述的問題，下一節，我們就會說明我們決定使用的由 Xu [21]提出的外部能量。. 2.2.3 梯度向量流動態輪廓模型在 Xu [21]提出他的方法以前，有很多嘗試去改善傳統主動式輪廓偵測法的方法，例如 Cohen [20]提出的充氣式輪廓偵測法（Balloon Active Contour），他利用提出的新的力量去改善了當模型曲線距離真正物體輪廓很遠而無法收斂的問題以及他結合了肯尼邊緣偵測法，去降低雜訊對最後 15.

(27) 收斂結果的影響，但此方法在利用新的力量去改善當模型曲線距離真正物體輪廓很遠的問題時，此新的力量是盲目地去推動模型的，所以，可能就會發生當沒有任何的邊緣出現時，模組還會無限的移動，因此，這方法還不能完全解決問題。雖然還有其他人用不同的方法解決傳統方法（Kass、Witkin et al. [19]）的問題，但都有其缺點。於是，Xu [21]在 1997 年提出一個新的外部力量，就是梯度向量流（Gradient Vector Flow）場，用此種外部力量的好處是它可以解決傳統上模型曲線距離真正物體輪廓很遠無法被收斂的問題以及在極凹處無法收斂正確的問題，然後一樣利用肯尼邊緣偵測法，此新的外部力量便能解決傳統方法的所有問題，而此種方法被稱做梯度向量流動態輪廓模型。以下我們說明如何算出梯度向量流場。如同傳統的方法一樣，此法也是要去最小化外部能量來得到精確的物體輪廓，只是在外部能量的定義上，多加了梯度向量流場這個外部力量，因此，此法將藉由最小化外部能量來得到梯度向量流場。外部能量的定義如下： ε = ∫∫ μ (u x2 + u y2 + v x2 + v y2 ) + ∇f G − ∇f dxdy 2. 2. （2-18）. 所以，將上式最小化便可以得到我們要的梯度向量流場。上式的符號說明如下， G = G (x, y ) = ( u (x, y ) , v(x, y ) ) = (u , v ) 就是我們要求的梯度向量流場， ∇f = ∇Canny (I ( x, y )) 則是傳統的外部力量，而 μ 則是調整此能量對雜訊的抵抗性，當 μ 越大，則能抵抗越多的雜訊。接著我們再更進一步說明此式的物理意義，當目前的位置越接近物體輪廓的地方，則（2-18）式第二項就會主導整個外部能量，所以便可用 G = ∇f 來達到最小化此能量，反之，若此時的位置遠離邊緣發生的地方，則主導整個外部能量的就是（2-18）式的第一項，即此時的輪廓模型曲線會受到梯度向量流場的影響，進而被推往邊緣特徵的位置，若此影像沒有邊緣特徵，則輪廓模型曲 16.

(28) 線會停滯不前。接著我們只要解出使（2-18）式最小時的 G ，那我們就得到梯度向量流場，其解法是利用（2-18）式要有最小值，則必須滿足下列尤拉方程式（Euler equations） μ∇ 2 u − (u − f x )( f x2 + f y2 ) = 0. （2-19）. μ∇ 2 v − (v − f y )( f x2 + f y2 ) = 0. 接著解出此二方程式，即可得梯度向量流場，不過在此處，他是利用廣義擴散方程式（generalized diffusion equations），經過不斷的疊代來求出梯度向量流場，如下式，其中 t 是次數。. (. ut ( x, y, t ) = μ∇ 2 u ( x, y, t ) − (u ( x, y, t ) − f x ( x, y )) ⋅ f x ( x, y ) + f y ( x, y ). (. 2. 2. vt ( x, y, t ) = μ∇ 2 v(x, y, t ) − (v( x, y, t ) − f y ( x, y ))⋅ f x ( x, y ) + f y ( x, y ) 2. 2. ). ). （2-20）. 所以，只要不斷將上式疊代，我們便可得到梯度向量流場。當疊代的次數越多，就能得到越精確的梯度向量流場，而因此能夠被收斂到物體輪廓的範圍也會越大。所以當疊代的次數趨近於無限大時，此時的梯度向量流場就是最精確的，也即是（2-19）式所解出的答案。到此為止，我們就得到了梯度向量流場，於是我們便可以利用它來對模型曲線做推向物體輪廓的動作，即利用下式，對模型曲線不停地疊代，最後就會得到精確的物體輪廓。 V (s, t + 1) = V ( s, t ) + αV '' (s, t ) − βV '''' (s, t ) + kG (V (s, t )). （2-21）. 上式的符號說明為， t 是次數，s 是代表模組裡的第幾點， V (s, t ) = ( x(s, t ), y (s, t )) 則是模組裡第幾點在第幾次疊代後的座標， G (V (s, t )) 則. 是此時座標的梯度向量流場的值，另外， α 是控制模型的張力（tension）的係數， β 是控制模型的剛性（rigidity）的係數， k 是控制梯度向量流場影響力的係數。至於上式，則是由符合（2-14）式有最小值的情況而得到的方程式，所以由（2-21）式疊代出來的結果，就是精確的物體輪廓。 17.

(29) 2.2.4 實現的架構和加速方法雖然使用梯度向量流動態輪廓模型可以精確地得到物體的輪廓，但是它有一個缺點，就是他花在算出梯度向量流（Gradient Vector Flow，GVF）場的時間有點久，所以，後來 Ntalianis et al. [23]提出了一個多解析度的方法去加速解出梯度向量流場，其方法如下： 1. 將影像降低多倍解析度。 2. 在最低解析度的影像下，利用肯尼邊緣偵測法，找出此時的邊緣影像，並利用此與一個選定的疊代次數，來求出此時的 GVF 值 3. 將下一個更高的解析度的影像標示成現在解析度的影像。 4. 每個像素的 GVF 的值都繼承上一個更低解析度的影像所解出來的 GVF 的值，即現在解析度的 4 個像素的 GVF 值，都同樣繼承上個更低解析度的 1 個像素的 GVF 值。 5. 在現在的解析度下，利用肯尼邊緣偵測法，找出此時的邊緣影像，並利用此與現在解析度下所繼承的 GVF 值繼續求得現在解析度下的真正 GVF 值。且此時疊代的次數只需上個更低解析度的疊代次數的四分之一。 6. 繼續不停的重複 3、4、5 步驟，直到原本影像解析度的 GVF 值被求出。所以，利用此法，我們只需在最低解析度的影像上做最多次的疊代，而隨著解析度的提高，疊代次數越來越少，如此便比原本都在最高解析度的影像上做疊代快的多，因為其總共要計算的像素數目少很多。但雖然說此法可以加快解出梯度向量流場，可是相對的，它也因為在原始影像解析度上疊代的次數太少，所以會導致真正做出來的梯度向量流場不夠接近真正的梯度向量流場的答案，因而會造成在影像上一些細節的部分以及極凹處不能夠被正確的收斂，因此為了能正確地收斂，我們少許地增加此法在 18.

(30) 最後原始影像解析度時所做的疊代次數，如此在影像輪廓極凹處，就能夠被收斂，但因為這樣的增加，所以也導致解出梯度向量流場所需的時間變長，可是總體而言，也還是加快原本單純直接計算梯度向量流場的速度約 8 倍。然後在這裡要注意的是，實際上現在算出的梯度向量流場，其實只是大概的答案，真正精確的答案還是需要疊代無限多次才能得到。最後將整個利用梯度向量流動態輪廓模型找出影像中物體輪廓的流程架構說明如下： 1. 利用前景偵測將影像中我們要的前景找出來。 2. 將此找出的前景收縮再膨脹來去除小雜訊，接著再將其膨脹 4 倍並留下最大的區域，此區域就是我們要的目標物體區域。 3. 利用此區域，我們可找出依順時針順序排列的物體初始模型曲線，以及我們將利用此區域把用肯尼邊緣偵測法找出的邊緣影像中，在此區域外的邊緣去掉，藉此來得到真正用來算 GVF 場的邊緣影像。 4. 將找真正用來算 GVF 場的邊緣影像的方法代入到多解析度解 GVF 場的演算法中，來快速地找到我們要的 GVF 場。 5. 利用步驟 3 找出的物體初始模型曲線當做是梯度向量流動態輪廓模型的初始模型，然後配合步驟 4 算出的 GVF 場，依據（2-21）式不停地疊代，且每疊代 n 次，我們就會重新將模型曲線中的點做均勻的分配，使其不會發生都聚集在一起或分的很遠的現象，這樣不停地做下去，最後就會得到我們要的物體的精確輪廓。在這裡我們再補充說明一點，之所以我們要將經肯尼邊緣偵測法找出的邊緣影像中，在目標物體區域外的邊緣去掉，藉此來得到真正用來算 GVF 場的邊緣影像的原因是因為我們要利用這個動作，來將會影響梯度向量流動態輪廓模型方法收斂的較遠於目標物體輪廓的邊緣去除，使其不會收斂到物體輪廓以外的邊緣，而這個動作同時也將大部分的由陰影產生的邊緣去除了，所以我們做了這個動作。 19.

(31) 第三章利用 2D 影像之目標物體輪廓來辨識 3D 物體的方法在圖形辨識裡，特徵擷取與辨識方法是很主要的兩個議題，在本章裡，我們將會說明如何利用由上一章的方法得到的物體輪廓座標來進行特徵擷取，以及如何比對特徵，進而建立用來辨識未知物體的資料庫和如何決定辨識的正確結果，且在這裡我們還會提出一個改進的建立資料庫的方法，以下我們將一一詳述它們。. 3.1 特徵擷取與計算相似度的方法在特徵擷取方面有很多方法，在此處由於我們是以物體的輪廓為基礎，想要用物體的輪廓來擷取特徵，也就是說要找一個基於輪廓（contour-based）的描述子來當做此物體的特徵，而由 Kauppinen et al. [24] 和 Sekita et al. [25]比較各個不同的描述子用於辨識的結果可知，傅立葉描述子是比其他描述子要好的描述子，因此在這裡我們將選用傅立葉描述子來做為擷取物體輪廓特徵的方法。傅立葉描述子本身具有幾個特性，即它在強度（magnitude）上是表示物體輪廓的資訊，在相位（phase）上表示了物體在二維影像裡的旋轉（rotation）、反射（reflection）以及輪廓起始位置（starting point），而以下我們會說明一些方法，使得最後我們拿來辨識的特徵是具備對旋轉、反射、輪廓起始位置、輪廓大小、輪廓在圖形中的位置這些無關的特徵。首先，我們將一個封閉的按順時針順序的物體輪廓重新均勻地取樣成 N 點，然後將此封閉按順時針順序的 N 點座標 ( xi , yi ) 重新以下式表示，. 20.

(32) Z = {zi } = {( xi − xc ) + j ( yi − yc )}, 0 ≤ i ≤ N − 1. （3-1）. 其中 i 是指在重新均勻地取樣的輪廓裡的第幾個座標，(xc , yc ) 則是由此 N 點座標 ( xi , yi ) 得到的輪廓重心， j = − 1 ，其示意如下，. 圖 3-1 輪廓平移示意圖. 如此得到的 Z 就能讓原始輪廓可在影像中任意位置，而其擷取的特徵都不變的特性，接著為了能得到與物體輪廓大小無關的性質，我們利用此重新均勻地取樣的 N 點算出的輪廓長度 L 與我們自己設定的標準輪廓長度 Lc ，來對每一點 z i 做正規化，即下式， zL z L ⎫ ~ ⎧z L Z = {~ z 0 ,L , ~ z i , L, ~ z N −1 } = ⎨ 0 c ,L, i c ,L, N −1 c ⎬ L L ⎭ ⎩ L. （3-2） ~. 如此便能克服物體大小的問題，再接著我們將 Z 做傅立葉轉換，可以 ~. 得到 F = {Fi }，其 Fi 就是 Z 在頻率 i 時的頻譜，在這裡就是 Fi e jθ （ Fi 是頻 i. 率 i 的頻譜強度， θ i 是頻率 i 的相位），若此時我們加入輪廓起始點的不同以及旋轉的因素進行測試，即改變輪廓起始點為現在的 k 點之後，和在二維影像上旋轉物體 φ 度，我們可以得到 Fˆi = Fi e j (iα +φ +θi ). （3-3）. 其中 α = 2πk / N ，然後我們再對影像的 y 軸反射，進行反射測試，我們可以得到下式， ( Fi = Fi e − j (π +iα +φ +θi ). （3-4） 21.

(33) 所以，從（3-3）和（3-4）兩式的結果可知，旋轉、反射、輪廓起始位置的變化只會影響傅立葉轉換後的頻譜的相位，對其強度是不會有影響的。因此，到此為止，我們就得到一個具備對旋轉、反射、輪廓起始位置、輪廓大小、輪廓在圖形中的位置這些無關的特徵，也就是經這些處理後，得到的傅立葉頻譜的強度。而這就是我們選取來做辨識的主要特徵，但由於物體輪廓頻譜的高頻部分是物體本身可能因照相之類的因素造成的不確定性雜訊，所以我們真正用來辨識的特徵只有用其低頻的部分。而由於傅立葉轉換後的頻譜，無法完全地將物體輪廓的順序資訊表達 ~. 出來，所以我們又多用了一個輔助的特徵，也就是由 Z 的實部和虛部（其實就是經平移和正規化後的 x、y 座標）平方相加開根號，得到其向量長度，利用此算出的向量長度當做是輔助的特徵，因此此特徵也具有對輪廓大小、輪廓在圖形中的位置無關的特性。以下列出實際擷取特徵的步驟： 1. 將原始物體封閉按順時針順序的輪廓重新均勻地取樣成 N 點。 2. 將此 N 點依據其重心的位置，重新定義座標。 3. 利用此重新均勻地取樣的 N 點算出的輪廓長度 L 與我們自己設定的標準輪廓長度 Lc ，來將整個在步驟 2 定義出的新輪廓座標做比例放大縮小。 4. 利用步驟 3 所得的 N 點輪廓，做傅立葉轉換得到頻譜，然後擷取其低頻的部分的強度，即前 N / 10 點的頻譜強度做為主要特徵。 5. 利用步驟 3 所得的 N 點輪廓，算其向量長度，利用此算出的 N 個長度當做是輔助的特徵。接著我們再來討論如何計算兩個物體輪廓間相似度的方法，在這裡我們總共利用三種計算相似度的方法，分別是 1-norm distance、2-norm distance、K-L distance，而最後我們會依據實驗的結果決定用哪一方法來當 22.

(34) 做最後我們要使用的方法，現在依序說明如下。若兩個物體輪廓擷取出的特徵分別為 U = {u 0 ,L, ui ,L, u n−1 }、 V = {v0 ,L, vi ,L, vn−1 } ，其中 n 是特徵的數目，則其前兩種計算相似度的方法. 定義如下： 1-norm distance： D1−norm (u, v ) = ∑i =0 ui − vi n −1. 2-norm distance： D2−norm (u , v ) =. （3-5） 2. ∑i=0 (ui − vi ) n −1. （3-6）. 至於 K-L distance，由於它是一種機率的比對方式，所以我們要先將其特徵每項的值相加得其總合，以總合去除特徵每項的值，使其最後總合變為 1，而此時特徵的每項就可看成是機率，而可以用 K-L distance 來比對相似度了，其公式如下 P0 =. n −1 U , u sum = ∑ ui u sum i =0. （3-7）. P1 =. n −1 V , v sum = ∑ vi v sum i =0. （3-8）. n −1 ⎛ p (t ) ⎞ p (t ) DKL ( p1 || p0 ) ≈ ∑ ⎜⎜ p1 (t ) ⋅ log( 1 ) + p0 (t ) ⋅ log( 0 ) ⎟⎟ , m(t ) m(t ) ⎠ t =0 ⎝ K-L distance： p (t ) + p1 (t ) m(t ) = 0 2. （3-9）最後我們再來說明兩種不同特徵如何利用上述的三種方法進行相似度的計算，其方法分別如下。主要特徵（前 N / 10 點的頻譜強度）：直接將兩個物體的此種輪廓特徵拿來用計算相似度的方法比對即可，算出的距離就是代表兩者之間的相似程度，距離越小，表示兩者越相似。輔助特徵（ N 個長度）：由於此種輪廓特徵跟輪廓的起始點有關，所以要將所有可能的起始點 23.

(35) 配對的方式的兩個物體的此種輪廓特徵拿來用計算相似度的方法比對，而其中算出的最小距離，就是代表兩者之間的相似程度，此距離越小，表示兩者越相似。. 3.2 資料庫的建立在說明完特徵擷取與計算相似度的方法後，我們接著要做的是如何去利用它們來建立使用 view-based 的方法裡外觀圖解法（aspect-graph methods）的辨識方法所需的物體的資料庫。在第一章的相關研究回顧裡，我們已經說明對於現實情況而言，物體是可能複雜且多特性的，所以並無法使用傳統的方法來對所有的物體找出外觀，因此就有人提出了基於相似度的外觀圖解法（A Similarity-Based Aspect-Graph Approach）來解決此問題，所以在本節中，我們將說明如何用基於相似度的外觀圖解法，來建立物體的資料庫。其中我們將介紹 Cyr and Kimia [16]提出的方法並將其做一點修改，以及我們所提出的一個新的 aspect-combination algorithm 去改善整個方法。. 3.2.1 Cyr and Kimia 提出的外觀結合演算法. ( aspect-combination algorithm ) 首先我們先來說明一下外觀圖解法（aspect-graph methods）的一些基本定義，然後再來說明 Cyr and Kimia [16]提出的外觀結合演算法（aspect-combination algorithm）。 aspect-graph 是一個由物體的外觀(aspect)集合所構成的結構圖形，如圖 3-2 所示，不同的顏色區域各自形成一個外觀，而這些外觀的集合就是 aspect-graph。在一個物體裡的面(view)有很多，我們將其相似的鄰近面合在一起組成外觀，所以在每個外觀裡都包含有 n 個面，而在此每個外觀的 24.

(36) n 個面中，都會再選定一個面來當做代表此外觀的面，而此面就被稱為是此外觀的特徵面（characteristic view）。至於如何隔離出不同的外觀，則是利用找出視覺的事件（visual event）發生的地方來分離出不同的外觀，即在兩個外觀的鄰近邊緣部份，會是一個過渡的區域。. 圖 3-2 Aspect-Graph 示意圖. 接下來我們就來說明 Cyr and Kimia [16]提出的外觀結合演算法，首先我們說明一些代表符號，以便後面的說明。 Vmn 指的是第 n 個物體的第 m 個面， Apn 則是第 n 個物體的第 p 個外觀，其就是一個範圍內面的集合，可用下式來表示它 Apn = {Vmn−k − ,L,Vmn−1 ,Vmn ,Vmn+1 ,L,Vmn+ k + }. （3-10）. 其中 Vmn 是此外觀的特徵面（characteristic view）， (k − , k + ) 是此外觀的邊界。 Cyr and Kimia 提出的外觀結合演算法是一種基於相似度的區域成長的方法，在這裡它所應用的對象，是對在 viewing sphere 的赤道線上每隔 5 度，按照由小到大排列的視角順序看到的 72 個面（如下圖）做外觀結合的動作，藉此來得到其 aspect-graph。. 25.

(37) 圖 3-3 在赤道線上取樣物體的 2 維影像. 這個方法主要要符合兩個條件，分別敘述如下。條件 1：對於每個特徵面 Vmn 而言，存在有一個整數 δ 0 > 0 ，使得下式成立。 d (Vmn ,Vmn±i ) < d (Vmn ,Vmn± j ) if i < j ≤ δ 0. （3-11）. 這式其實就是代表特徵面 Vmn 與其他附近的面所算出的距離會形成一個區域最小值且維持一個單調（monotonicity）的特性，而符合此條件的面，就有可能合併成一個外觀。而在此處他又做了一個假設，就是他假設我們所使用來代表物體的 72 個面是取樣足夠的，且沒被取樣到的點，也都一定會符合條件 1。但如果這個假設不成立時，辨識時就會發生錯誤。條件 2：對於每一個外觀 Amn ，其特徵面 Vmn 必須滿足下式. (. ). (. max d Vi n ,Vmn < min d V jn ,Vmn n n. Vi n ∈ Amn. V j ∉Am. ). （3-12）. 也就是說此外觀的特徵面 Vmn 到在此外觀裡的其他面 Vi n 的距離要小於此外觀的特徵面 Vmn 到不在此外觀裡的面 V jn 的距離。以下圖來說明此方法的兩個條件，我們可知在 (k − , k + ) 之間的區域，，雖然它符合第二個條件，但他並沒有符合第一個條件，所以此區域不能合併成一個外觀，相對的，在 (k − , k + ) 之間的區域，就同時符合兩個條件，所 26.

(38) 以此區域能被合併成一個外觀。. 圖 3-4 構成外觀的條件說明圖. 至於在一個外觀裡要如何選取其代表此外觀的特徵面，則是選取到此外觀裡的每個面的距離最小且符合構成外觀的兩個條件的那個面當做是特徵面。而此特徵面就是將來用來辨識的比較對象，也就是我們要建立的資料庫。以上就是此法的一些條件的介紹，但我們可以發現其對於有對稱性質的物體，其就會因條件 2 而產生過多的外觀，所以我們多加了一個門檻值 threshold _ 1 去限制在條件 2 中，需要被比較大小的不屬於此外觀的面的個. 數。此法還有另一個問題，就是它在符合條件的情況下所做出的外觀，它們之間的距離（由兩個特徵面的距離來定義）可能會太大，因而導致分的外觀過少，而容易在辨識時產生誤判，所以我們又增加一個門檻值 threshold _ 2 去限制當兩個外觀之間的距離大於此設定的門檻值時，不管其. 有無符合兩個條件，我們都不將其合併成一個外觀。接著，我們將列出如何實際使用外觀結合演算法來做出 aspect-graph，以利用其特徵面建立我們要的物體的資料庫。 1. 將由物體照順序（由小到大排列的視角順序）取樣的 M 個面，每個面都當做是一個外觀，且每一個外觀的特徵面都是它自己本身。 2. 利用計算相似度的方法，計算每一個相鄰的外觀之間的距離。. 27.

(39) 3. 選擇在所有相鄰的外觀之間的距離中，擁有最小距離的那一對外觀。假如它們包含的面組成的區域符合上述的判斷條件，則它們可以結合變成一個新的外觀，且此新外觀的特徵面為到此外觀裡的每個面的距離最小的那個面；相反的，若不符合上述的判斷條件，則不合併此二者。 4. 利用計算相似度的方法，再計算形成新的外觀後，每一個相鄰的外觀之間的距離。 5. 重覆步驟 3、4 直到所有相鄰的外觀都不能被合併，我們就得到所要的 aspect-graph，也就是資料庫。. 3.2.2 提出的新外觀結合演算法經由上一小節，我們說明了 Cyr and Kimia 提出的外觀結合演算法，如何去求得 aspect-graph，並由其每個代表外觀的特徵面組成物體的資料庫。而這個方法的好處是建立資料庫時，每個物體是分開建立的，所以當加進一個新的物體的資料庫時，是不需對全部的物體重做的，只需對此新進物體做即可，但此方法還是有以下幾點缺點： 1. 每個物體在建立資料庫時，都必須使用 M 張照取樣順序排列的面，即照拍攝角度由小到大排列的視角順序的面，才能代入演算法去建資料庫。 2. 由於此法假設取樣的物體的面是足夠多去表示此物體的，但實際上我們知道一個物體可能投影出的面是無限多的，所以，此假設是會有問題的，因此必須有一個可以更新資料庫的機制，使的資料庫變的更完善。不幸的是，此法若要更新資料庫，則必須把物體全部 M 張面加上新進用來更新資料庫的面，重新按照拍攝角度由小到大排列的視角順序排好，全部再重新代入演算法去建資料庫，即無法簡單地一張一張的更新，而是不管有幾張要更新，都要加上之前的全 28.

(40) 部重算。 3. 若物體具有一些對稱性，雖然我們已對此法多加了一個門檻值來使此法不致因物體的對稱性的關係而多出一些不必要的外觀，但這樣做還是不能完全避免不必要的外觀，例如像完全對稱的物體就還是會產生不必要的外觀。所以，基於以上列出的 Cyr and Kimia 提出的外觀結合演算法的缺點，我們提出一個新的外觀結合演算法來解決上述的缺點。此新的外觀結合演算法也是一種基於相似度的方法，而且此法不僅是每個物體分開來建資料庫，而且對在物體的每個面而言，是可以分開來建資料庫的，即可以一次一個面來建資料庫，而且也可以不按照順序地任意先用哪個面來建資料庫，而且它對於對稱的物體，也不會多出一些不必要的外觀，正因為如此，所以，此法可以解決上述 Cyr and Kimia 提出的外觀結合演算法的缺點。接著以下我們來說明此新的外觀結合演算法是如何運作的。首先，先定義一些用於下列說明的符號， Vnew 指的是新進來要建某物體資料庫的面， Cm 是此物體資料庫中第 m 個外觀的特徵面， Cm. min. ±1. 則是此. 新進來的面與所有此物體的特徵面中距離最近的那個特徵面的相鄰左右兩個特徵面， m min 代表此新進來的面與所有此物體的特徵面中距離最近的那個特徵面所代表的外觀。接著列出此新的外觀結合演算法運作的步驟如下： 1. 當有一個新進來要建某物體資料庫的面發生時，先判斷此時此物體的資料庫裡已存在多少個外觀。 2. 依據外觀的數目，來做其建立此物體的資料庫的動作。（a）外觀的數目=0：此新進來的面直接形成一個外觀，且此外觀的特徵面就是此新進來的面。 29.

(41) （b）外觀的數目=1 或 2：若下式成立，則不增加新的外觀，且將此新進來的面直接併入此擁有最小距離的外觀，且此外觀的特徵面還是保持原來的。 min d (Vnew , C m ) < threshold _ 1. （3-13）. all C m. 若不符合上式，即此新進來的面與所有此物體的特徵面中距離最近的那一個距離比 threshold _ 1 大，而此時，此新進來的面就會形成一個新外觀，且此新外觀的特徵面就是此新進來的面。（c）外觀的數目≧3： min d (Vnew , C m ) > threshold _ 2 , threshold _ 2 > threshold _ 1 all C m. （3-14）. min d (Vnew , C m ) < threshold _ 2 and d (Vnew , Cm min ±1 ) > threshold _ 2（3-15） all C m. 若（3-14）或（3-15）其中一式成立且（3-13）式不成立，則此新進來的面就會形成一個新外觀，且此新外觀的特徵面就是此新進來的面。至於此新外觀的位置，則依據（3-16）式來判定，若成立，則此新外觀加在 m min 和 m min−1 兩個外觀之間，反之，加在 m min 和 m min +1 兩個外觀之間。 d (Vnew , Cmmin +1 ) > d (Vnew , Cmmin −1 ). （3-16）. 若此時（3-14）或（3-15）兩式皆不成立或是（3-13）成立，則不增加新的外觀，且將此新進來的面直接併入此擁有最小距離的外觀，且此外觀的特徵面還是保持原來的。以上就是此新的外觀結合演算法運作的步驟，而對於步驟 2 的（c），我們再以下圖簡易說明一次。. 30.

(42) 圖 3-5 新的外觀結合演算法的條件說明圖. 步驟 2 的（c）的含義就是說，此新進來的面與所有此物體的特徵面中距離最近的那一個距離， 1. 若比 threshold _ 1 小，則合併此新進來的面。 2. 若比 threshold _ 1 大、比 threshold _ 2 小，則依據跟 m min 左右兩個外觀的關係來決定，也就是說跟 m min 左右兩個外觀的距離（即跟其特徵面的距離）都大於 threshold _ 2 ，則要用此新進來的面新增一個外觀，反之，則合併此新進來的面。 3. 若比 threshold _ 2 大，則要用此新進來的面新增一個外觀。所以，由上述步驟 2 的（c）的說明可知，這兩個門檻值會影響整個新的外觀結合演算法最後得到的結果，因此若要在後面辨識時得到好的結果，則此處兩個門檻值的設定就變的很重要。值得注意的是，threshold _ 1 的值不能設定的與 threshold _ 2 的值比例差太大，否則會導致此物體的資料庫裡的外觀的數目不斷的增加，而使得用來表達物體的外觀過度表達。而若 threshold _ 2 設定的值越小，物體就會被表達的越細微，即外觀的數目會越. 多，當然此時用來表達物體的外觀也可能會過度表達。總而言之，此法是一個以一個物體的一個面為單位的演算法，也就是它從頭到尾，都是一個面一個面單獨地分開來去建立、去完善資料庫，所以它是可以不斷地學習，直到精確完整地表達物體為止，而且它也可對不同的物體設定適合它們的門檻值，來分別建立出符合各自物體的資料庫。. 31.

(43) 再者，若將此我們提出的外觀結合演算法與 Cyr and Kimia 提出的外觀結合演算法的計算量相比較，以兩者的最差情況相比較，假設現在目前的物體資料庫是以 n 個面建出的，則若新加一個面來完善資料庫，對於 Cyr and Kimia 的方法，要全部重算，所以共需要計算彼此之間的距離. (n + 1)× n 次， 2. 但若以我們提出的方法來做，且其原來的外觀數目就是 n ，則因為此法是以一個物體的一個面為單位的演算法，所以只需計算彼此之間的距離 n 次，所以由此可知，我們提出的方法快 Cyr and Kimia 的方法. (n + 1) 倍，因 2. 此在計算量上我們也是較少的。最後，再將我們提出的方法，以流程圖的方式說明如下。. 圖 3-6 新的外觀結合演算法的流程圖. 3.3 辨識方法當由 3.2 節的兩個方法建立好資料庫後，接著我們便可利用資料庫來. 32.

(44) 辨識物體，在這裡我們用了幾種方法來辨識物體，其分別列於下面（假設共有 N 個物體）。方法一：對一個不知名的面，直接取其主要特徵，並利用此主要特徵結合計算相似度的方法去計算其與資料庫(以主要特徵建出的)中的每一個特徵面的距離，然後依照距離的大小，最小距離的特徵面所屬的物體即是此不知名的面的辨識結果。方法二：如同方法一所述，只是是用輔助特徵。方法三： 1. 對一個不知名的面，取其主要特徵與輔助特徵，並利用此主要特徵結合計算相似度的方法去計算其與資料庫(以主要特徵建出的)中的每一個特徵面的距離，然後依照距離的大小取其前. N + 1 個小的特 2. 徵面所屬的物體，用輔助特徵做第二次判斷（也就是步驟 2）。 2. 將由步驟 1 得到的可能物體，拿來用輔助特徵再判斷一次，且在比較距離大小時，將由步驟 1 用主要特徵得到的與可能物體最小的距離，加入一起比較，也就是以輔助特徵算出的距離(利用輔助特徵建的資料庫來算)加上此物體的最小主要特徵算出的距離，且依照主要與輔助特徵建資料庫時的門檻值比例，將兩者的比重調至一樣，來做為比較距離大小的依據，如下式. (. ). (. ). d V ji ,Vmn = d assistant V ji ,Vmn +. threshold assistant min (n ) × d main threshold main. （3-17）. min (n) 則是用主其中 V ji 是未知的面，Vmn 是第 n 個物體的特徵面 m ， d main. 要特徵得到的與可能物體最小的距離， threshold assis tan t 和 threshold main 在兩個建資料庫的方法裡，都是指其 threshold _ 2 。同樣地，將此算 33.