遙測影像資料庫建置關鍵技術及基於內容的檢索研究(III)

(1)

遙測影像資料庫建置關鍵技術及

基於內容的檢索研究(3/3)

計畫編號：NSC 97-2623-7-151-001-D

計畫主持人：李良輝

計畫參與人：吳笛豪、張庭榮

陳怡婷、林鈺萍

國立高雄應用科技大學

中華民國九十八年三月三十一日

(2)

摘要

利用影像技術進行空間資料之獲取一直是空間資訊技術中核心工作之一，例如使用立體對影像重建三維模型、影像校齊、影像鑲嵌、影像檢索等工作中，共同的特點是必需從影像中提取適當數量之特徵點作為相關處理之依據。以立體對影像重建三維模型為例，傳統上一般均使用區域基礎(像元灰度值)作為影像匹配運算之基礎，可以達到次像元等級高精度量測之目的，但其中仍存在有不易解決之困難，如兩影像間尺度、攝影傾角及光照條件之差異及影像中之均調區等均可能造成影像匹配之失敗。本研究援引 SIFT 演算法於立體對影像匹配與遙測影像檢索之應用，研究結果顯示，該演算法對影像尺度、角度及光照等差異的不變性，並於立體對影像中，對點特徵提取及影像匹配處理提供重要的應用，無論在紋理明顯(如建物、道路) 或均調區域(如植被)均具有良好之匹配結果；配合核線幾何約制，可加速運算效率，並提升匹配成功點位之可靠度與精確度，可以解決目前使用區域基礎之匹配方法所面臨的困難。在影像檢索之應用，更明確顯示 SIFT 演算法在基於內容檢索及多目標快速檢測之優越性。關鍵字：立體影像匹配、SIFT、RANSAC、核線約制、影像檢索。

(3)

ABSTRACT

Utilize the image technology to acquire geo-spatial data is one of the main purposes in geo-spatial information technology, such as to extract the proper feature points while using the stereo image to reconstruct the 3D model, image registration, image stitching and image retrieval for being the basis for related use. For instance, the area-based matching is traditionally used in the stereo image to 3D model reconstruction for the base of the image matching calculation. Even if the area-based matching can achieve the sub-pixel and increase the high-precision measuring, the area-based matching still can not surmount the difficulty of image matching such as the different scale, rotation, illuminance and homogeneous regions in the two images.

This study cite the application of SIFT algorithm to stereo image matching and remote sensing images retrieval. The result indicated the invariant to image scale, rotation and illuminance and shown to provide the considerable application in point feature extraction and image matching, both distinctive texture and homogeneous regions can gain the favorable matching result. Area-based matching failure is solved by integrating SIFT algorithm and epipolar constraint which can speed up the calculation efficiency and increase the reliable and precision of the matching point. The result of image retrieval application shown the superiority of SIFT algorithm in content-based Image retrieval and multi-object retrieval.

(4)

目錄

中文摘要 --- -I 英文摘要 --- -II 目錄 --- -III 表目錄 ---VI 圖目錄 ---VII 第一章、緒論 --- 1 1.1 前言--- 1 1.2 研究動機與目的--- 1 1.3 研究方法--- 2 1.4 研究流程--- 3 1.5 論文架構--- 3 第二章、文獻回顧 --- 5 2.1 SIFT 演算法相關應用 --- 5 2.1.1 物件識別(Object Recognition) --- 5 2.1.2 影像檢索(Image Retrieval) --- 7

2.1.3 自動影像拼接(Automatic Image Stitching) --- 8

2.1.4 機器人定位(Robot Location) --- -10 2.1.5 擴增實境(Augmented Reality) --- -12 2.2 SIFT 演算法改進算法與比較 --- -13 2.3 立體匹配相關研究 --- -13 2.3.1 立體匹配關鍵技術--- -14 2.3.2 特徵空間 --- -14 2.3.3 相似性評估--- -15 2.3.4 搜尋空間 --- -17 2.3.5 搜尋策略 --- -18 2.4 立體匹配演算法分類 --- -19 2.4.1 區域匹配演算法--- -19 2.4.2 特徵匹配演算法--- -21 第三章、SIFT 演算法相關理論與技術 --- -23

(5)

3.1 影像特徵簡介--- 23 3.1.1 點特徵提取算法--- 23 3.1.1.1 Moravec 角點檢測演算法 --- 23 3.1.1.2 Harris 角點檢測演算法 --- 25 3.2 SIFT 演算法 --- 28 3.2.1 尺度空間極值求取 --- 30 3.2.1.1 高斯差分（DoG）建立多尺度空間影像--- 30 3.2.1.2 DoG 影像極值 --- 34 3.2.2 特徵點位置的確定--- 35 3.2.3 特徵點最大梯度方向之確定--- 37 3.2.4 特徵點描述符--- 38 3.2.5 SIFT 算法匹配與除錯--- 39 2.3.5.1 KD-Tree--- 39 2.3.5.2 RANSAC 除錯 --- 45 3.3 實驗與分析--- 48 第四章、影像幾何相關理論 --- 50 4.1 核線幾何（Epipolar Geometry） --- 50 4.2 基礎矩陣（Fundamental Matrix） --- 50 4.2.1 基礎矩陣定義--- 51 4.2.2 基礎矩陣推算法--- 53 4.2.2.1 基礎矩陣之線性解法 --- 54 4.2.2.2 基礎矩陣之線非性解法 --- 55 4.2.2.3 RANSAC 基礎矩陣推估法 --- 56 4.3 實驗與分析--- 58 第五章、SIFT 演算法用於立體對影像匹配研究 --- 62 5.1 前言--- 62 5.2 SIFT 演算法基本測試 --- 63 5.2.1 旋轉不變性匹配測試 --- 64 5.2.2 尺度不變性匹配測試 --- 65 5.2.3 光照影像敏感度匹配測試 --- 66 5.3 SIFT 演算法用於立體對影像匹配 --- 67 5.3.1 一般近景攝影影像 --- 68

(6)

5.3.2 特定物件影像 --- 72 5.4 SIFT 演算法匹配精度與可靠度評估 --- 80 5.5 核線約制之 SIFT 演算法--- 89 5.6 核線約制之 SIFT 演算法精度評估--- 90 5.7 核線約制應用於立體對匹配之討論 --- 97 第六章、SIFT 演算法用於影像檢索之研究 --- 100 6.1 基於內容影像檢索(CBIR)簡介--- --- 100 6.2 基於 SIFT 演算法影像檢索--- 103 6.2.1 目標影像之大小與影像定位之測試 --- 104 6.2.2 影像檢索使用 --- 108 6.3 影像區(patch)快速定位 ---110 6.4 多目標檢索之應用 ---116 第七章、結論與建議 --- 122 參考文獻 --- 124

(7)

表目錄

表 2.1 常用特徵空間及其性質 --- 17 表 2.2 常用相似性度量及優點 --- 18 表 2.3 搜索策略優點及參考文章 --- 21 表 5.1 單眼相機與鏡頭相關資訊 --- 72 表 5.2 旋轉角度匹配點位數量表 --- 76 表 5.3 標型測試成功提取特徵數量 --- 79 表 5.4 相機率定參數值 --- 79 表 5.5 實驗一匹配精度統計表 (SIFT+RANSAC) --- 83 表 5.6 實驗二匹配精度統計表 (SIFT+RANSAC) --- 86 表 5.7 實驗三匹配精度統計表 (SIFT+RANSAC) --- -88 表 5.8 實驗一匹配品質統計表（SIFT 使用核線約制＋RANSAC）--- -93 表 5.9 實驗二匹配品質統計表（SIFT 使用核線約制＋RANSAC）--- -95 表 5.10 實驗三匹配品質統計表（SIFT 使用核線約制＋RANSAC）--- -96

(8)

圖目錄

圖 1.1 研究流程 --- 4

圖 2.1 3D 物件識別實驗結果--- 6

圖 2.2 AIBO ERS7 頭部追蹤系統使用 SIFT 演算法 --- 6

圖 2.3 影像拼接使用 SIFT 演算法進行特徵匹配 --- 8 圖 2.4 影像拼接使用 SIFT 演算法進行特徵匹配結果--- 8 圖 2.5 使用 Autopano-SIFT 軟體進行全景影像拼接完成圖--- 9 圖 2.6 利用 SIFT 演算法進行立體匹配以估計機器人定位--- 10 圖 2.7 Sony AIBO 機器狗 --- 11 圖 2.8 虛擬物件放置於真實空間 --- 11 圖 3.1 Moravec 演算法 --- 23 圖 3.2 Window Function 說明--- 24 圖 3.3 影像梯度變化情況 --- 24

圖 3.4 window function 經過 Gaussian smooth --- 25

圖 3.5 特徵方向表示圖 --- 27 圖 3.6 特徵值分佈情形 --- 27 圖 3.7 SIFT 特徵提取演算法主要執行流程圖 --- 28 圖 3.8 SIFT 演算法匹配流程圖 --- 29 圖 3.9 侯選特徵點生成示意圖 --- 32 圖 3.10 影像金字塔 --- 33 圖 3.11 DoG 影像金字塔 --- 34 圖 3.12 極值點比較圖 --- 35 圖 3.13 特徵點濾除流程圖 --- 37 圖 3.14 主要方向示意圖 --- 38 圖 3.15 多方向示意圖 --- 38 圖 3.16 特徵點特徵向量示意圖 --- 38 圖 3.17 SIFT 匹配流程圖 --- 40 圖 3.18 KD-tree 分割示意圖 --- 43

圖 3.19 Nearest Neighbor with KD Trees 示意圖 --- 45

圖 3.20 RANSAC 示意圖 --- 46

圖 3.21 RANSAC 流程示意圖 --- 47

(9)

圖 4.1 空間點位與核線關係圖 --- 56 圖 4.2 基礎矩陣用來表示核線幾何的轉換關係 --- 58 圖 4.3 RANSAC 演算法適應性範例 --- 64 圖 4.4 RANSAC 演算法流程圖 --- 66 圖 4.5 使用 RANSAC 演算法求解基礎矩陣實驗流程圖--- 67 圖 4.6 SIFT 演算法匹配並配合 RANSAC 演算法求解基礎矩陣 --- 69 圖 5.1 SIFT 立體對影像匹配流程圖 --- 63 圖 5.2 旋轉角度測試 --- 63 圖 5.3 旋轉角度匹配結果 --- 65 圖 5.4 尺度不變測試 --- 66 圖 5.5 光照敏感度測試影像 --- 67 圖 5.6 紋理重覆且均調測試 (草皮) --- 68 圖 5.7 紋理重覆測試 (地磚+樓梯) --- 68 圖 5.8 一般影像測試 (草+爬藤+磁磚+建物) --- 68 圖 5.9 紋理重覆且均調草皮匹配結果 --- 69 圖 5.10 紋理重覆樓梯匹配結果 --- 70 圖 5.11 測試草+爬藤+磁磚+建物匹配結果 --- 71 圖 5.12 高複雜紋理特徵影像 --- 72 圖 5.13 SIFT+RANSAC 匹配結果 --- 73 圖 5.14 匹配點位分析 --- 73 圖 5.15 匹配點位分佈情形 --- 74 圖 5.16 光滑表面測試影像 1 --- 75 圖 5.17 光滑表面測試影像 2 --- 75 圖 5.18 光滑表面測試匹配結果 --- 76 圖 5.19 光滑表面測試匹配結果 --- 77 圖 5.20 簡易標形測試 --- 78 圖 5.21 三角行為最佳之形狀 --- 78 圖 5.22 設計標形-正三角形 --- 78 圖 5.23 標型實驗測試影像 --- 79 圖 5.24 標型實驗測試數據曲線 --- 80 圖 5.25 驗證精度之立體對影像 --- 81 圖 5.26 驗證精度之立體對影像 --- 81 圖 5.27 驗證精度之立體對影像 --- 81 圖 5.28 控制點分布圖 --- 82

(10)

圖 5.29 控制點分布圖 --- 82 圖 5.30 實驗一匹配結果(SIFT+RANSAC) --- 82 圖 5.31 實驗一 iWitness 量測匹配點位 --- 83 圖 5.32 實驗一匹配點位精度統計圖 --- 84 圖 5.33 實驗一匹配誤差大於 3 個像素之點位 --- 84 圖 5.34 誤差點位示意圖 --- 85 圖 5.35 實驗二匹配結果(SIFT+RANSAC) --- 85 圖 5.36 實驗二匹配點位精度統計圖 --- 86 圖 5.37 實驗二匹配誤差大於 2 個像素之點位 --- 87 圖 5.38 實驗三匹配結果(SIFT+RANSAC) --- 87 圖 5.39 實驗三匹配點位精度統計圖--- 88 圖 5.40 實驗三匹配誤差大於 3 個像素之點位--- 89 圖 5.41 配合核線約制於 kd-tree 結構流程圖 --- 90 圖 5.42 核線幾何誤差量統計圖 --- 91 圖 5.43 使用門檻值繪製對應點位--- 91

圖 5.44 實驗一以 iWitness 進行驗證點位分布圖（SIFT 核線＋RANSAC）--- 92

圖 5.45 實驗一 SIFT 核線＋RANSAC 與 SIFT+RANSAC 匹配品質統計 --- 93

圖 5.46 實驗二匹配結果(SIFT 核線+RANSAC)--- 93

圖 5.47 實驗二以 iWitness 進行驗證點位分布圖（SIFT 核線＋RANSAC）--- 94

圖 5.48 實驗二 SIFT 核線＋RANSAC 與 SIFT+RANSAC 匹配品質統計 --- 95

圖 5.49 實驗三匹配結果(SIFT 核線+RANSAC)--- 96

圖 5.50 實驗三以 iWitness 進行驗證點位分布圖（SIFT 核線＋RANSAC）--- 96

圖 5.51 實驗三 SIFT 核線＋RANSAC 與 SIFT+RANSAC 匹配品質統計 --- 97

圖 5.52 核線約制配合 FAST Corner Detection 流程圖 --- 98

圖 5.53 核線約制配合 FAST Corner Detection 實驗結果 --- 99

圖 6.1 Picasa 圖像管理軟體色彩檢索圖示--- 101 圖 6.2 圖像特徵分類--- 101 圖 6.3 底層視覺特徵分類--- 102 圖 6.4 紋理特徵提取方法--- 102 圖 6.5 形狀特徵提取--- 103 圖 6.6 影像資料庫建置流程圖--- 104 圖 6.7 目標影像與索引影像--- 105 圖 6.8 目標影像大小與定位實驗成果 --- 107 圖 6.9 大型目標影像特徵建置分割示意圖 --- 108

(11)

圖 6.10 SIFT 演算法用於影像檢索結果 ---110 圖 6.11 影像區塊快速定位結果 ---112 圖 6.12 影像快速定位匹配結果 ---115 圖 6.13 影像快速定位流程圖 ---116 圖 6.14 應用於多目標檢索之處理流程圖 ---117 圖 6.15 多目標檢索實驗流程與結果 ---119 圖 6.16 多目標檢索實驗結果 --- 120

(12)

第一章、緒論

1.1 前言隨著資訊技術和感測器技術的快速發展，衛星遙測影像在空間解析度(分辨率)、光譜解析度和時間解析度等方面都有了很大提升。空間解析度已從 30m， 10m，提高到今天的 2m，1m，軍用甚至達到 0.1m。光譜解析度已達到 5~6nm(納米)，包括高光譜和超光譜在內已超過 400 個波段；時間解析度，即重訪週期也在不斷縮短。每天都有數量龐大及不同解析度的遙測影像資料，從各種感測器上接收下來，對各方面的應用將提供一個豐富可供選擇的資料來源。這些具有多重感測器、多重解析度、多頻譜、多時間序列特性的遙測影像，在許多應用領域中由於影像數量增長迅速而處理能力不足，大量影像資料無法發揮應有的效用，例如目前在軍事情報領域截取的境外衛星遙測影像資料，因為無法對影像定位而使許多寶貴的影像資料無法使用而浪費。面對日益豐富的遙測影像資訊來源，快速瀏覽及高效率的檢索是遙測影像資訊萃取和資料共享或交換的重要手段，因此，基於內容的圖像檢索(Content Based Image Retrieval, CBIR)方法已成為圖像管理、圖像理解及相關應用的關鍵技術，遙測影像資料庫中圖像內容的組織、表達、存儲、管理、查詢和檢索面臨前所未有的挑戰。如何將數位圖像處理、電腦視覺、模式識別和資料庫技術結合起來建立高效率的圖像檢索機制是目前迫切需要解決的課題。 1.2 研究動機與目的遙測圖像，相對於一般影像，需要綜合考慮詮釋資料，如地理位置、波段、不同感測器參數和比例尺等因素與圖像內容的關係，以及考慮遙測圖像幅面大、細節多而涉及到的存儲容量和查詢效率等問題。因此，基於內容的遙測圖像檢索從特徵選取、相似性比較、查詢機制和系統結構等多方面都有其自身的特點。本研究之目標是探索如何從巨量遙測影像資料庫中檢索出包含有待檢索區域的影像的方法，針對目前遙測影像之特性，提出基於興趣區域的圖像檢索(Regions of Interest-Based Image Retrieval)方法。

基於內容的圖像檢索方法可以分成「全區特徵基礎」及「分區特徵基礎」的方法兩大類。傳統的基於內容的圖像檢索大多採用圖像的全區特徵，即在一幅圖像中只計算一個特徵向量，這種特徵向量通常不易反映圖像的真實的語義內容，該法的優點是計算簡單，對平移和旋轉不敏感。但是全區特徵無法描述圖像內容在空間上的差異，只能比較圖像整區的統計相似性，不能在物體層次比較圖像的相似性，檢索效率不高。譬如，兩幅視覺上完全不同的圖像，提取出的全區特徵可能是相似的，此時檢索的結果就可能返回在視覺上與目標圖像完全不同的圖；其次，人們在觀察圖像時，總是注意圖像所包含的物件，因此物件層的表示更接近人類視覺系統的感覺及人對圖像語義的理解；另外，在許多的應用場合，

(13)

人們需要找到包含特定物體的圖像。因此，研究基於分區(區域)的圖像資料庫檢索技術具有重要的意義。分區方法和全區方法的區別是操作粒度(Granularity)的不同，前者的粒度是區域，後者的粒度足整幅圖像。區域層的圖像語義的獲取是建立在底層特徵抽取基礎上的，底層提取的特徵通常分為全局特徵和局部特徵。整區特徵經常很難匹配到圖像的語義，基於圖像全區內容的檢索，難以實現面向分區或感興趣物件的檢索。局部特徵抽取圖像的區域特性或者細節特性，分區層的語義特徵一般是建立在局部特徵的基礎上。基於分區的圖像檢索系統致力於透過在物件層表示圖像來克服傳統的基於圖像全區內容檢索的缺陷，系統採用圖像分割將一幅圖像分成若干個子區域(分區)，如果分割效果理想，這些子區域將對應於一個個物件，物件層的表示更接近於人類的視覺系統的感覺。基於分區的方法在一定程度上實現了物體層次的圖像檢索，改善了檢索效率。它可以採取透過使用者指定查詢圖像中的一個或幾個區域，搜索含有與指定分區相似的區域的圖像，也可以採取無須使用者指定分區，查詢圖像的所有區域均參加圖像相似性度量，綜合兩圖像的所有相似區域對的相似性來決定兩圖像的相似性。目前這些系統尚難完全滿足使用者的需求，主要原因在於許多關鍵技術還不夠成熟，這包括對內容複雜的圖像經由圖像分割(Segmentation)所得到的分區經常不能形成有意義的物體；而分區匹配不能完全符合使用者對相似性的理解；另外，對於龐大的圖像資料庫，需要尋找一種快速有效的索引結構加速檢索過程。目前，國內也有這方面的研究，但是，仍然尚未出現成熟完整的基於區域的圖像檢索系統。綜上所述，當前國內外對影像檢索的研究大多停留在對通用的圖像資料庫的檢索技術上，對專門的多源遙測影像資料庫的檢索方法研究極少。在方法上，大多數研究者都是依據整區的影像特徵進行檢索，即便是基於感興趣區域的檢索也是對整幅圖像提取一個感興趣的目標作為檢索依據。對於範例影像的檢索，現在研究主要集中在如何從圖像資料庫檢索出與範例相似的影像，而對巨量影像的檢索的研究基本上仍處於空白。本研究目的是探索如何從巨量影像資料庫中檢索出包含有待檢索區域的影像的方法。待檢索區域的影像可以是與目標影像由相同的感測器獲取的，但是具有不同的空間解析度或時間解析度的影像，也可以是由不同的衛星感測器獲取的影像或者透過非合作方式獲取的無法進行定位的影像。研究方法與步驟說明如下： 1. 首先瞭解本研究之背景、意義及基於內容和基於感興趣區域的圖像檢索的概況和國內外的研究現狀、研究和研究之重點。 2. 瞭解目前基於特徵的影像檢索的基礎理論與方法。

(14)

3. 提出對巨量影像的快速處理方法。 4. 提出基於區域的影像檢索理論與方法。

因區域基礎之影像匹配演算法對於寬基線(Wide-Base)攝影產生之形變、旋轉

及尺度差異影像在影像匹配上產生困難。本研究嘗試援引 SIFT(Scale Invariant

Feature Transformation, SIFT)演算法，藉由其對影像尺度、旋轉及光照之不變性，

期能獲取更快速及更可靠之特徵點，主要將針對SIFT 演算法於立體對影像匹配與影像檢索上之應用與探討。 1.立體對影像匹配遙測立體對影像由於採高傾斜或近景之寬基線攝影可能對攝取影像產生較大仿射形變、角度旋轉、光照條件差異及解析度(尺度)不同的問題，區域基礎之影像匹配難以處理前述之困難。利用SIFT 演算法為基礎，改良或修正演算法程序來解決立體對影像匹配之問題。 2.影像檢索與影像快速定位隨著影像資料量的快速成長，這些對地觀測遙測影像包括 1. 不同載具所拍攝之影像 2. 不同解析度之影像 3.不同時期之影像等，建立影像資料庫來完善管理、查詢與檢索應用已是必要的處理。傳統以文數字索引(Index)方式只能以圖號編碼來檢索影像資料，已無法滿足目前檢索應用之需求，因此就有了基於內容的影像檢索技術出現，當然應用領域上面有所不同，其中也包含了影像理解、影像辨識、電腦視覺、人工智慧等科學領域應用。基於內容影像檢索是目前圖像理解領域積極想發展的重點研究之一，原因來自於日漸龐大的影像造成影像儲存與管理之困難。目前網路上面一些著名的圖片搜尋引擎如Google、Yahoo、AltaVista 等均採用文字方式進行圖片搜尋，其利用網站上之關鍵字(Keyword)將使用者欲檢索之影像予以列出，而以文字為索引的方式雖然已經可以應用於網路世界，但也存在一些無法避免的問題。

本研究將提出基於內容之影像檢索(Content Based Image Retrieval, CBIR)，援

引SIFT 演算法為影像特徵點提取之基礎，藉由特徵點匹配進而達成遙測影像檢索之目的。 1.3 研究方法援引SIFT 演算法當作理論基礎，並將該演算法用於空間資訊相關領域進行探討，所需程式利用Visual C++語言進行程式設計。在實驗部分，以地面現場拍攝影像及遙測影像為對象，首先進行SIFT 演算法基本測試與分析，以徹底瞭解該演算法之特性，進而使用SIFT 演算法進行立體對影像匹配之應用，同時援引核線幾何約制方法，改良演算法來提升匹配點位之可靠度。最後針對 SIFT＋

(15)

RANSAC 基本演算法及加入核線約制之改良 SIFT 演算法，藉由近景攝影專業軟體iWitness，以前方交會所得空間點位進行絕對精度及可靠度評估。影像檢索部分，以數位航測影像進行相關實驗，並探討目標影像之大小與影像定位之關係與影像區快速定位，最後修改SIFT 演算法匹配方法於多目標檢索之應用。 1.4 研究流程本研究流程如圖1.1 所示。圖1.1 研究流程 SIFT 演算法文獻回顧 SIFT 演算法 RANSAC 除錯機制立體對核線幾核立體匹配應用實驗影像影像檢索應用演算法設計實驗成果評估

(16)

第二章、文獻回顧

SIFT（Scale-Invariant Feature Transform）演算法首先由 David Lowe[1]於 1999 年提出，2004 年完善總結。該演算法具有尺度空間、影像縮放、旋轉等不變量特性，並於仿射變形(Affine Transformations)也能保持不變性的局部特徵描述演算法，其特徵點比對的正確率可以達到九成以上，並於匹配完成之後搭配相關除錯方法以獲得最後匹配之結果，最常見的除錯演算法有RANSAC 等，相關演算法將在第三章詳細介紹。本章節將對SIFT 演算法之基本理論及相關領域之應用做文獻之回顧。 2.1 SIFT 演算法相關應用 SIFT 演算法為局部特徵匹配之演算法，其設計出發點於物件識別使用，於物件的識別方面通常要能夠允許拍攝影像在寬基線拍攝情況之下依然擁有好的匹配成功率，而SIFT 演算法就是基於該觀念所延伸設計之演算法，在物件辨識方面不管辨識物體是否受到環境等影響，利用局部特徵匹配可以達到識別之條

件。而SIFT 演算法曾被應用於 1.物件識別(Object Recognition) 2.影像檢索(Image

Retrieval) 3. 自動影像拼接(Automatic Image Stitching) 4.機器人定位(Robot Location) 5.擴增實境(Augmented Reality) 等幾個領域。以下本文將針對歷年來 SIFT 演算法進行相關應用文獻回顧。 2.1.1 物件識別(Object Recognition) 物件識別方面是電腦視覺領域相當重視的一環，主要面臨的問題於寬基線 (Wide-Base)匹配之相關問題，還有識別物體是否受到阻擋與光線雜訊之問題，而 Lowe 於 1999 年提出 SIFT 演算法主要為解決物件識別的問題，而後續許多學者也投入該法之研究。 1999 年 Lowe [2]首先提出 SIFT 演算法來解決物件識別的問題。作者利用 SIFT 演算法對於尺度與旋轉量不變的特性進行物件辨識相關實驗，結果證明 SIFT 演算法具有非常良好的物件識別能力，其物件辨識能力甚至可以在有雜訊或是物體受遮蔽的情況之下將該物件給識別出來，而相關演算法計算時間更低於 2 秒，具有快速計算能力。圖 2.1 為實驗成果圖。

(17)

圖2.1 3D 物件識別實驗結果[2]

2005 年 Patricio 與 Javie [3]提出使用 SIFT 演算法用於機器視覺(Machine Vision)中頭部檢測系統(Robot-head Detection System)，其主要作為機器視覺方向

判斷與視覺追蹤使用，實驗中最主要是利用SIFT 演算法進行局部特徵匹配，讓

機器人可以正確去識別相關物件，並利用識別出來的物件進行機器人追蹤等相關

操作。圖2.2 為實驗相關示意圖。

圖2.2 AIBO ERS7 頭部追蹤系統使用 SIFT 演算法. [3]

2006 年 Rothganger 等學者[4]提出一個三維剛性物體之局部仿射不變之描述方法，在幾何約束條件不相同之情況下，使用相同影像結合仿射投影改正，於此問題最主要將解決於三維物體建模與物件識別的工作。而在該文提出兩個領域之應用： (1)攝影學(Photographs)：通常模型是由較小之結構所組成的，在影像中這些較小的物件容易受到外界與本身的干擾而產生影像上較多之雜訊。 (2)視訊影片(Video)：動態場景中包含了多個移動物體，及由此產生的三維

(18)

模型直接匹配到對方，讓一種新穎的方法，視頻索引和檢索。而此寬基線匹配方式通常使用不變量偵測方式，在搭配其演算法，其證明 SIFT 演算法對於寬基線之匹配，依然有不錯之效果。回顧上述三篇文章，因物件識別中所需克服的難題為物件因雜訊或遮蔽等問題，利用SIFT 演算法進行局部特徵匹配將可以達到相當不錯的效果。 2.1.2 影像檢索(Image Retrieval) 影像檢索利用非常多技巧於影像處理上，目前較成熟的檢索方式如類神經網路系統等影像聯級分析器進行相似性評估，而SIFT 演算法進行影像檢索在也有若干學者進行研究與探討。

2004 年 Yan Ke 等人[5]提出重複影像偵測(Near-Duplicate Detection)和子影像檢索(Sub-Image Retrieval)系統與應用，該系統可以作為尋找侵犯著作權和發現偽造的圖片，其準確度可達99.85%。 2007 年 Stoettinger 等人[6]將 SIFT 演算法應用於影像檢索來使用，在早期影像檢索最常使用的方法為特徵點區域搜尋的方法，利用此特徵進行影像檢索。大多數的方法為使用影像亮度(Luminance)資訊，該文利用色彩訊息進行特徵點檢測，在Harris 角點檢測演算法中使用多頻道(Multi-Channel)影像和不同色彩空間進行特徵點評估，以確定特徵點的特徵尺度，這是一個新的色彩尺度的選取方法。 2007 年 Crookes 等人[7]提出利用局部特徵檢測的方式進行鞋印影像檢索之應用，文中論述影像檢索應用於犯罪現場中鞋印影像(Shoeprint Images)的參考資料庫中的特徵檢測系統及改進局部特徵的描述說明。其特色是基於此方法的改進： (1) 提出基於多尺度 Harris 角點檢測演算法。 (2) 自動尺度範圍選取。採用局部結構之特徵尺度。 (3) SIFT 方法。實驗中使用 6 筆合成現場影像，50 幅影像，每個數據資料庫包含 500 筆參考鞋印影像資料，於良好成果顯示SIFT 方法之適用性。 2008 年吳銳航等人[41]提出使用 SIFT 演算法進行影像檢索使用，該文章提出一種多尺度影像檢索算法，於SIFT 特徵提取演算法，首先將影像轉成特徵向量之點集合，在利用兩張影像間的相似距離通過兩張影像特徵向量間的歐幾里德距離最小門檻(Euclidean Distance Smaller Than Threshold)來評估兩點是否匹配。實驗結果證明該演算法對於尺度、平移、旋轉具有不變量的特性，其證明該演算法可以用於形狀特徵目標的檢索使用。

(19)

果，利用此方法可以用於影像檢索使用，與傳統影像檢索較不同為SIFT 演算法是針對於非常相似之影像進行檢索，這些影像容許有仿射變形光照等影響，也可以用來辨識兩張影像是否相符，而以上所使用的檢索條件是利用匹配點數來進行研判，如果匹配點位符合所設定之門檻值，給予該影像匹配，利用該方法進行檢索，將可以把相似影像給檢索出來。

2.1.3 自動影像拼接(Automatic Image Stitching)

影像拼接最主要的功能為將所拍攝之連續影像進行拼接動作，在拼接過程中最早使用特徵點的方式進行匹配，利用特徵點進行匹配再透過除錯機制保留正確匹配點位，再進行影像扭曲(Warping)、拼接(Stitching)、最後再執行影像融合處理成單一影像，若干虛擬實境(Virtual Reality ,VR)商業軟體也已經使用該演算法進行影像拼接。

2003 年 Brown 與 Lowe[9]提出自動全景影像拼接的演算法，此為 SIFT 演

算法後續之應用，文中利用SIFT 演算法進行連續影像重疊區特徵點位匹配，該

演算法對於不同的尺度、旋轉及光照具有其不敏感性(Robustness)。圖 2.3 圖 2.4 為實驗成果圖。

圖2.3 影像拼接使用 SIFT 演算法進行特徵匹配[9]

(20)

2004 年 Sebastian Nowozin[10]開發 Autopano-SIFT 此共享軟體(Share Ware)，該軟體屬於全景拼接軟體。全景攝影是基於拍攝過程中兩張或兩張以上影像來自於同一攝影觀點，並將該影像拼接成其中一部份。而拼接時通常最少會保留20% 重疊影像。目前的計算機能力已經可以將所有影像拼接起來，讓使用者感覺為單一張影像。而此軟體延伸出環景(Looking Around)軟體，讓使用這可以單點的方式觀看該區域，hugin[11]為最常見且最流行的自由軟體(Open Sources)之一，並且可配合Autopano-SIFT[10]軟體建立環景影像。圖2.5 使用 Autopano-SIFT 軟體進行全景影像拼接完成圖[10] 2.1.4 機器人定位(Robot Location) 在機器人定位開始被使用時，常以計算機器人所在之位置為研究題材，在剛開始設計機器人僅在固定環境內進行，因機器人無法對目標或環境進行辨識，利用所設計之特定形狀讓機器人認得所有位置，而將SIFT 演算法用於機器人定位使用主依據影像局部特徵的特點進行機器人定位，利用快速尋找共軛點的方式可以快速計算出機器人基本位置，利用其機器人雙目所拍攝之影像進行相對方位解算，雖然SIFT 演算法在設計當時於機器人視覺中每秒只可以進行 3 至 6 張影格匹配，在當時已經足夠了，而在SIFT 演算法成熟之後又研發出更快之不變量檢

測法SURF(Speeded Up Robust Features)，該演算法將可以快速計算兩幅影像之特

徵，該演算法將在後面章節詳細介紹。

2000 年 Stephen Se, David Lowe, 與 James J. Little[12]提出基於 SIFT 演算法之機器人定位系統。文中提出基於視覺的機器人移動與定位映射演算法，並利用影像特徵尺度不變給予標誌該動態環境，這些三維的標示作為機器人定位之依據，實驗中開發 Triclops stereo vision system，實驗證明這個功能具有匹配之能

(21)

圖2.6 利用 SIFT 演算法進行立體匹配以估計機器人定位[12]

2005 年李家欣[42]提出使用 SIFT 演算法配合最小平方中值法(Least Median of Squares, LMeds)進行影像幾何推求，該文章利用投影幾何的方法，結合多視點的三維重建以及方位推估法累加的過程，建構出以視覺為基礎的路徑重建系統。其主要實驗採用一般消費型數位相機進行拍攝，與一般電腦設備進行相關研究。透過取得所行經的路徑上之連續影像，便可以 SIFT 演算法擷取出連續影像之間所對應的特徵點，並以 LMedS 演算法加以除錯。經由重建特徵點的三維座標，以計算兩影像位置間相對位置轉換，再經由方位推估法的累加兩影像間路徑估測，逐步推估出所行經的路徑。機器人定位大致上使用上面所回顧之相關技術，目前也已經有商業化機器

人，Sony Aibo 此款電子狗就是基於 SIFT 演算法所設計出來之電子狗，在該項產

品中利用SIFT 演算法完成下列動作：

1.識別充電裝置（Recognizing Charging Station） 2.溝通與視覺卡（Communicating With Visual Cards） 3.教學目標識別（Teaching Object Recognition） 4.英式足球（Soccer）

上述動作均透過SIFT 演算法搭配雙眼視覺所完成之結果，利用這些匹配技

(22)

圖2.7 Sony AIBO 機器狗（http://support.sony-europe.com/aibo/index.asp） 2.1.5 擴增實境(Augmented Reality) 在SIFT 演算法應用不斷成熟的情況之下，許多研究領域以利用 SIFT 演算法來進行相關研究，在多媒體方面也利用SIFT 演算法計算影像相對方位，此方法優點可增加3D 物件的真實感，其利用前後像幅進行匹配計算相關轉換參數再進行相關定位，此可以帶給拍攝電影等工作增加3D 物件在影片的真實感，因所拍攝的影像通常利用合成的方式將3D 物件給予置入影片當中，這樣的手法給予觀眾不夠真實感，因此有人利用SIFT 演算法進行相關 3D 物件植入有不錯的效果。 2006 年 Yuan[14]提出利用 SIFT 演算法對序列影像進行物件追蹤，其文章提出一種新方法為標註與物件跟踪之增加真實感的方法，使用跟踪檢測方法，首先要使用自然特徵點位在每幀影像中進行估計三維照相機，在此所謂三維環境代表的不是建模的三維環境，而是不斷變化的動態影像，使用一個虛擬平面來建構三維參考坐標系，估計相對位置將可推估相機姿態，推估這些參數可以提供虛擬物件放置於真實世界，文中提出並實施幾種方式來完成不敏感性(Robust)匹配的問題，實驗證明該方法可以將虛擬物件放置於真實世界中。圖2.8 虛擬物件放置於真實空間[14]

(23)

2.2 SIFT 演算法改進算法與比較

SIFT 演算法又稱為局部運算子(Local Features)，其基於此觀念所延伸研的演

算法也有若干，如對SIFT 演算法特徵描述方面之 PCA-SIFT 與 SURF 等方法將

可以增加SIFT 演算法運算效率。局部演算法相關內容可歸納如下： 1. 局部演算法分類 (1) 基於分佈的演算法 (2) 空間頻率技術 (3) 微分方法 2. 局部特徵建立之尺度空間

(1) Laplacian of Gaussian (LoG) (2) Difference of Gaussian (DoG) 3. 局部區域檢測算法 (1) Harris points (2) Harris-Laplace regions (3) Hessian-Laplace regions (4) Harris-Affine regions (5) Hessian-Affine regions 4. 局部區域描述演算法 (1) SIFT 演算法

(2) Gradient location-orientation histogram (3) Shape context

(4) PCA-SIFT (5) Spin image

(6) Steerable filters and differential invariants (7) Complex filters (8) Moment invariants (9) Cross correlation 5. 匹配方法 (1) 基於門檻值的匹配 (2) 基於最鄰近匹配 (3) 基於次最近距離與最近距離之比

(24)

6. 描述演算法維數影響

(1) 低維算法：steerable filters ,complex filters, differential invariants (2) 高維算法：GLOH，PCA-SIFT，cross correlation

7. 對不同影像轉換的適應性

(1) 仿射轉換：利用 Hessian 和 Harris Affine 檢測特徵點。效果最好

的是SIFT 演算法 (2) 尺度轉換：大多運算子表現良好 (3) 旋轉轉換：有三種誤差影響演算法的計算：區域誤差，位置誤差，方向估計誤差 (4) 影像模糊：所有的運算子性能都有所降低，但是 GLOH 和 PCA-SIFT 演算法性能最好 (5) 影像壓縮：影響小於影像模糊，但是比尺度轉換和旋轉轉換大 (6) 光照變化：對低維演算法影響高於高維演算法 2003 年 Mikolajczyk 與 Schmid[15]文中使用相同標準對所有演算法進行測試

評估，並記錄各演算法精度進行不同形式之實驗。包 Shape Context , Steerable

Filters , PCA-SIFT , Differential Invariants , Spin Images , SIFT , Complex Filters , Moment Invariants ，並提出對 SIFT 特徵描述改良方法，實驗分析結果，認為 SIFT 演算法為基於特徵描述最佳之演算法。Moments and steerable 表現最佳的低維描述(low dimensional descriptors)。

以下針對PCA-SIFT 與 SURF 這兩篇關鍵文獻進行回顧。

2004 年 Ke 與 Sukthankar[16]提出將 SIFT 演算法描述因子提出修改，並使用 PCA 方式進行特徵描述之方法。文中將針對 SIFT 演算法描述符方面做出修改，

該方法類似於SIFT 演算法描述因子，而非 SIFT 所使用的高斯平滑加權直方圖，

改用主成分分析(Principle Component Analysis ,PCA)方法改進 SIFT 演算法特徵

描述部分。實驗證明 PCA-SIFT 的描述方法對於局部特徵方面更能適應影像變

化，甚至比SIFT 演算法更好，結果也顯示，利用 PCA-SIFT 的方法可以在影像

檢索上面應用，在計算速度方面要比SIFT 演算法來的更有效率。

2006 年 Bay , Tuytelaars、Gool[17]提出具有較快演算效率之不敏感區分析演

算法，稱之為SURF(Speeded Up Robust Features)，探討一種新的尺度旋轉不變的

特徵點位檢測和描述驗算法，該演算法接近或是更勝於之前所提出的基於不敏感

區分析具有較快的演算效率，兩個實驗結果證明SURF 為穩定之演算法。

(25)

立體匹配是立體視覺中最重要也是較困難之問題，其中技術利用同一場景另用兩組不同角度拍攝之立體像對進行空間前方交會，利用此過程可以在空間中建立出真實三維空間座標，而要進行空間前方交會之動作首先要取得兩張影像之外方位參數與相機內方位參數，另重要的步驟於取得兩張影像之共軛點，取得共軛點的方式可以使用人工的方式進行量測，也可以使用自動化過程進行量測，在立體對影像匹配過程中，使用核線的約制可以讓搜尋窗由二維降為一維的方式，可提高運算效率，而這些共軛點通常會受到光照條件不同與拍攝仿射條件不同等情況而無法匹配成功，而最大的問題就在於影像均調區，影像均調區是面積基礎 (Area Based)影像匹配時最難克服之問題，因為影像均調區缺乏了視覺上明顯的特徵。對於任何一種立體匹配方法，其成功依賴於三個問題的解決，即：1.選擇正確的匹配特徵 2.尋找特徵間的本質屬性 3.建立能正確匹配所選特徵的穩定算法。能夠正確的選取上面三個方法將可有效提高自動匹配之正確性與可靠性。近幾年來，立體匹配的研究都是著重於這三方面的工作。本研究利用SIFT 演算法解決立體匹配性能優劣的四個關鍵技術，即特徵空間，相似性評估，搜尋空間與搜尋策略。嘗試得用特徵基礎之SIFT 演算法來解決傳統面積基礎之演算法於均調區匹配之困難。 2.3.1 立體匹配關鍵技術立體匹配技術發展了近二十，經過國內外學者進行相關實驗與探討，至今已經形成了眾多具有特色的匹配算法，但不管使用的適合種匹配算法依然脫離不了四個關鍵技術，這四項關鍵技術於不同組合即可以產生不同之立體匹配算法，於下以四項技術依序探討。 2.3.2 特徵空間立體匹配的第一步驟為決定選擇何種特徵當作匹配空間，此特徵空間的選擇。立體匹配中可用的特徵很多，相關特徵空間資訊整理如下[表 2.1]。對影像處理或其他電腦視覺任務一樣，特徵空間是立體匹配的一個非常基本也非常重要的要素，有以下幾點原因： 1. 特徵空間的選擇決定了匹配資料對感測器和場景的之敏感(一般選擇那些可以降低感測器雜訊或其他畸變例如光照和環境的特徵作為匹配基元)。 2. 特徵空間的選擇決定了影像中之資訊被用來進行匹配(比如相比於紋理資訊，結構資訊更容易被用作匹配)。 3. 特徵空間的選擇對整個立體匹配的計算複雜度有著非常直接的影響，因

(26)

為選擇一個好的特徵空間可以大幅降低相似性度量的計算效率。根據選取好之特徵空間，立體匹配算法的性能就可能得到極大的改善與匹配性能之提高。在影像預處理階段，此特徵可在每幅影像中獨立的被檢索出來，此將可以大幅減少用來進行匹配的資訊量。通常較好的作法為選取最大限度的減少或是消除不同匹配的特徵空間。綜合言之，特徵空間的選擇應用於一個原則，其用來匹配的特徵應該是影像中可以精確表示場景本質的物理特性的點位，即這些特徵點將不會受到光照等外接干擾而有所變化之點位作為特徵。表 2.1 常用特徵空間及其性質影像原始灰度值最常用的影像資訊邊緣影像內部結構且對雜訊不敏感邊緣[Nack 1977]

輪廓[Medioni and Nevatia 1984] 表面[Pelizzari et al. 1989] 突出特徵影像內部結構且可精確定位輪廓線局部曲率最大點[Kanal et al. 1981] 局部最大差異視窗中心[Moravec 1981] 閉合區域重心[Goshtasby 1986] 直線交點[Stockman et al. 1982] 傅立葉描述子[Kuhl and Giardina 1982]

統計特徵利用影像所有資訊，對剛體轉換非常有用

不變矩[Goshtasby 1985]

質心/主軸[Rosenfeld and Kak 1982]

高級特徵利用關係和其他高級資訊，尤其適用於不精確的局部匹配

結構化特徵：子模式構造圖表[Mohr et al. 1990] 句法特徵：模式語法[Bunke and Sanfeliu 1990]

語言網路：場景區域及其關係[Faugeras and Price 1981]

模型匹配精確的內部結構解剖地圖集[Dann et al. 1989] 地理圖集[Maitre and Wu 1987] 物件模型[Terzopoulos et al. 1987] 2.3.3 相似性評估特徵空間選取後，第二步驟為選取適合的匹配特徵之相似性評估，與以對影像進行相似性匹配，此步驟對立體匹配中判斷匹配好壞之關鍵點。同時，相似性評估選取又與特徵空間緊密相連，因特徵空間用來衡量特徵匹配特徵之間的相似程度。相似性評估通常定義為某種多階函數或距離函數的形式，表2.2 列出目前

(27)

相似性評估之相關優點。其主要分成三大部分進行探討：第一類：相關度量。此度量準則之下，相關度最大處確定為匹配位置，匹配室在對準圖的位置集合中進行搜尋，可對大量像素點對之相似性進行統計度量的過程，因誤差來源性質屬隨機性，當相關係數最大時，其實質的搜尋「灰度變化最大」的影像序列。其中較著名的演算法屬於「標準化互相關法Normalized Cross-Correlation（NCC）」，NCC 具有不受尺度改變的影響和對雜訊之抵抗能力佳等優點。第二類：此類屬於絕對差或平方差等距離度量。此準則下，距離度量值最小處確定為匹配位置。距離度量廣泛的被應用於各類匹配演算法中，最常用的形式有絕對誤差距離和平方誤差距離，計算距離度量的主要依據依賴當前範圍內之像素，也可以具有一定大小和形狀的檢測視窗。在一定條件下，最小平方距離分類器之Bayes 分類器。第三類：此類稱為概率度量。通常採用後驗概率評估基準圖與對準圖之間的相似程度。在此種策略下，後驗概率值最大處確定為匹配位置。於確定運算式後可加入一些影像內在的約束條件。這樣，在匹配度量的過程中能更大程度地減少匹配的歧異性，因此概率度量被廣泛地應用於現今的各類匹配演算法中。特別地，當對於有效視差範圍內的任一視差值，後驗概率始終小於某一規定門檻值時，遮擋出現的概率極高。表 2.2 常用相似性度量及優點相似性度量優點標準化互相關法 Normalized Cross-Correlation（NCC） [Rosenfeld and Kak 1982]

對影像中的白雜訊比較Robust，但是對局部畸變比較敏感，難以正確找出相關空間的尖峰相關係數 [Svedlow et al. 1976] 與 NCC 比較相似但是具有絕對測度統計相關匹配濾波器 [Pratt 1978] 適用於雜訊可以建模的影像相似性度量優點相位相關對於依賴於頻率的雜訊比較Robust

(28)

[De Castro and Morandi 1987] 絕對灰度差分和（SAD） [Barnea and Silverman 1972]

計算效率高，適用於不存在局部畸變的匹配絕對輪廓差異 [Barrow et al. 1977] 可以通過斜切匹配達到高效計算，對局部畸變具有更好的Robust 輪廓/表面差異 [Pelizzari et al. 1989] 適用於結構化匹配點灰度差異符號變化數 [Venot et al. 1989] 適用於寬基線匹配 2.3.4 搜尋空間搜尋空間與兩幅影像之間的相對位置變化有緊密關係，例如：影像的搜尋僅僅使用平移的變化，搜尋的範圍將有所不足，而僅使用移動的方式將所有影像檢索完畢則是最耗時也是最不佳的運算方式。如影像之間的變化是仿射轉換，則搜索空間的維度就會升高。影像的幾何轉換可以分為三類：全區的、局部的和位移場形式的。全區轉換通常基於矩陣代數理論，用一個參數矩陣來描述整個影像的轉換。典型的全區幾何轉換包括以下的一種或幾種：平移、旋轉、各向同性或異性的縮放等。局部轉換有時候又稱為彈性映射，它允許影像中不同的位置具有不同的轉換參數模型，轉換參數往往只定義在特定的關鍵點上，而在區域到區域之間進行插值。位移場又稱光流場，它使用函數優化的方法，為影像中每一點計算出一個獨立的位移向量。搜索空間的確定就是兩幅影像之間幾何轉換的確定，它包括剛體轉換、仿射轉換、投影轉換以及非線性轉換等等。下面給出這幾種轉換的基本特點和數學表達形式。如果第一幅影像中的兩點間的距離轉換到第二幅影像中仍保持不變，則這種轉換稱為剛體轉換。剛體轉換可分解為平移、旋轉和反轉。在二維空間中，點( yx, ) 經過剛體轉換到點(x,'y')的轉換公式為： ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ + ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ Φ ± Φ Φ ± Φ = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ y x t t y x y x cos sin sin cos ' ' (2-1) 其中Φ 為旋轉角， T y x t t , ) ( 為平移向量。經過轉換後第一幅影像上的直線映射到第二幅影像仍為直線，並且保持平行關係，這樣的轉換稱為仿射轉換。仿射轉換可以分解為線性轉換和平移轉換。在 2D 空間中，轉換公式為:

(29)

⎥ ⎦ ⎤ ⎢ ⎣ ⎡ + ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ y x t t y x a a a a y x 22 21 12 11 ' ' (2-2) 其中 _⎥ ⎦ ⎤ ⎢ ⎣ ⎡ 22 21 12 11 a a a a 為實矩陣。經過轉換後第一幅影像上的直線映射到第二幅影像上仍為直線，但平行關係基本不保持，這樣的轉換稱為投影轉換。投影轉換可用高維度空間上的線性轉換來表示。轉換公式為： ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ 1 ' ' 23 22 21 13 12 11 _y x a a a a a a y x (2-3) 非線性轉換可以把直線轉換為曲線。在二維空間中，可以用以下公式表示： ) , ( ) ' ,' (x y =F x y (2-4) 其中，F 表示把第一幅影像映射到第二幅影像上的任意一種函數形式。典型的非線性轉換如多項式轉換，在二維空間中，多項式轉換可寫成如下形式： " " + + + + + + = + + + + + + = 2 02 11 2 20 01 10 00 2 02 11 2 20 01 10 00 ' ' y b xy b x b y b x b b y y a xy a x a y a x a a x (2-5) 非線性轉換較適用於具有全區性形變的影像匹配問題，以及整體近似剛體但局部有形變的匹配情況。 2.3.5 搜尋策略搜尋策略是用合適的搜尋方法在搜尋空間中找出平移、旋轉等轉換參數的最優估計，使得影像之間經過轉換後的相似性最大。在立體匹配中引入搜尋策略這個該念是為了限制搜尋空間的大小，更大程度地減少匹配結果的歧異性，更重要的是，通過選擇合適的搜尋策略，可以極大地提高搜尋速度，降低演算法的時間複雜度。常用的搜尋策略有分層搜尋、類比退火演算法、鬆弛技術、動態規劃法、遺傳演算法和神經網路等。表2-3 列出了幾種常用的搜索策略及其優點。

(30)

表2.3 搜索策略優點及參考文章搜索策略優點及參考文章

決策序列改善了剛體轉換的相似性優化的計算效率[Barnea and Silverman 1972]

鬆弛演算法

利用了特徵的空域相關性，當存在局部畸變時，是一個尋找全局轉換的可行方法[Hummel and Zucker 1983;Price 1985;Ranade and

Rosenfeld 1980;Shaprio and Haralick 1990]

動態規劃當存在匹配的內部順序時，對於尋找局部轉換關係非常有效 [Guilloux 1986;Maitre and Wu 1987;Milios 1989;Ohta et al. 1987] 廣義 Hough 轉換通過將邊緣空間匹配到雙重參數空間，非常適用於強制替換輪廓的形狀匹配 [Ballard 1981;Davis 1982] 線性規劃對於存在多邊形誤差邊界的點匹配，是一種非常有效的尋找剛體轉換的策略 [Baurd 1984] 分層技術通過將搜索過程漸進地變成解析度由粗到精的過程，可以有效地改善和加速搜索過程

[Bajsey and Kovacie 1989;Bieszk and Fram 1987;Davis 1982;Paar and Kropatsch 1990]

樹和圖文匹配

通過樹/圖的特性將搜索最小化，適用於高層次結構的粗糙匹配 [Gmur and Bunke 1990;Sanfeiu 1990]

2.4 立體匹配演算法分類相似性評估等策略都是為了組成立體匹配的基本要素，通過將上述之方法用不同的方法組合起來就可以形成一個全新的立體匹配演算法，迄今為止國內外的影像處理相關研究領域，已經提出相當多立體匹配的研究成果，也提出不少立體匹配之相關演算法。而各項演算法在各自應用領域也有不錯之成果，也具有各自之優點。而這些演算法主要分成三個類別，1.區域匹配演算法 2.特徵匹配演算法 3.相位匹配演算法。其中基於特徵的演算法有可依據所有的特徵屬性不同而細分為若干類別。以下對最常見之區域匹配與特徵匹配進行回顧。 2.4.1 區域匹配演算法區域匹配演算法即為影像上利用移動視窗的方式進行區塊灰度(Gray Value) 之比較，利用此方式來進行兩張影像之匹配動作，於領域中最佳之區域匹配演算法莫非為最小二乘法匹配，以下介紹基礎匹配原則。

(31)

首先輸入兩幅立體影像I 與_l I ，假設_r P 與_l P 分別為這兩幅影像中的 pixel_r

點，(2W +1)為相關視窗寬度，R(P₁)是I 與_l P 相關搜尋區域，_l Ψ( vu, )是兩個

pixel 值 u,v 的相關函數。對於I 中的每一個 pixel，_l P_l = [i, j]則：

對每個區域d=[d₁,d₂]T，計算 )) , ( , ) , ( ( ) (d I i k j l I i k d₁ j l d₂ C w _r w k w w I l + + + − + − Ψ =

∑ ∑

− = =− (2-6) 1 P 的視差就是在R(P₁)中使C(d)為最大值的向量d )} ( { max arg R d C d d ∈ = (2-7) 輸出結果是對應I 中每一個像素點的視差的數組，及視差圖。 _l 區域相關匹配中以兩個主要問題，1.適當的選取 W 和 R ;2.適當的選取搜尋相關準則。搜尋視窗寬度(2W +1)的選擇取決於從待處理影像中提取最重要的空間屬性的能力。如果兩個相機的幾何位置未知，則搜尋區域R(P₁)的初始位置和大小的選擇為困難的，但影像核線約制，可以簡化為一維的搜尋方式，可以大幅提昇運算的效率。以下以較常用於區域匹配的衡量準則相關演算法：平均絕對差度量（MAD）

∑∑

= = + + − × = Ψ m i j n l k k j v k u j Y X x m v u, ) 1 _, _, ( (2-8) 平方差度量（SSD）

(

)

∑∑

= = + + − = Ψ m i j n l k k j v k u j Y X v u, ) _, _, 2 ( (2-9) 平均平方差度量（MSD）

(

)

∑∑

= = + + − × = Ψ m i j n l k k j v k u j Y X x m v u, ) 1 _, _, 2 ( (2-10) 互相關度量（CC）

∑∑

= = + + • × = Ψ m i j n l k k j v k u j Y X x m v u, ) 1 _, _, ( (2-11) 正歸化互相關度量（NCC）

(

)(

)

(

)

(

)

12 2 , 2 1 2 , , , ) , ( ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − − − = Ψ

∑∑

= = + + = = + + = = + + m i j n l k j uk v m i j n l k j uk v m i j n l k j i v k u j Y Y X X Y Y X X v u _(2-12)

(32)

區域匹配演算法的目的是獲取緻密的深度圖，適用於滿足以下條件的立體視覺問題：光源可理想化為無窮遠處的點光源；場景中的物體表面為完全漫反射；影像對之間的幾何畸變和輻射畸變很小。區域匹配演算法的實質是利用了局部視窗之間灰度資訊的相關程度，此方法在地勢平坦而紋理豐富的地方可以達到比較高的精度，並能取得緻密的視差場。此外，匹配的理論精度還可預先計算出來。但是，區域匹配選取一定大小窗口內的灰度分佈特性作為匹配基元，決定了該類演算法具有以下缺陷。（1）對仿射畸變和輻射畸變較敏感；（2）對影像雜訊的影響和不同灰度屬性或對比度差異的影響缺乏魯棒性；（3）匹配視窗大小難以選擇。視窗選擇過大，在前景背景交接區域會出現誤匹配，選擇過小，區域內的灰度分佈特性不能得以充分展現。 2.4.2 特徵匹配演算法利用特徵進行影像匹配為最近期熱門之話題，已往通常認為利用特徵之方式進行匹配效果並不好，而特徵匹配之特點就是運算效率會比區域匹配快很多，而最近相關研究證明如SIFT 演算法等都是利用特徵的方式進行匹配，利用特徵方式進行匹配已經有非常好的配準率與速度，本研究所採用SIFT 演算法最大的特點。所謂的影像特徵，有字面上來定義就是在影像上之特徵點位如特徵點、特徵線、特徵形狀、等利用這些影像特徵的提取在搭配適當之匹配演算法，成為特徵匹配演算法之最重要過程。點特徵是特徵匹配中常用到的影像特徵之一，其主要應用的是影像中角點。影像中角點在電腦視覺、模式識別以及影像匹配領域都有非常廣泛的應用，因而針對角點檢測的演算法也有很多。角點的立體匹配演算法的主要思路是：首先在兩幅影像中分別提取角點，再以不同的方法建立兩幅影像中角點的相互關聯，從而確立共軛點，最後以共軛點作為控制點確定影像之間的匹配轉換。由於角點的提取已經有了相當多的方法可循，因此基於角點的匹配演算法最困難的問題在於如何建立兩幅影像之間共軛點的匹配問題。常用的解決點匹配問題的方法包括鬆弛法，相對距離直方圖聚集束檢測法，Hausdorff 距離及相關方法等等。此些方法均檢測角點要求比較苛刻，如要求同樣多的數目，簡單的轉換關係等，因而不能適應普遍的匹配應用。直線段是影像中另一個易於提取的特徵。Hough 轉換是提取影像中直線的有效方法。Hough 轉換可以將原始影像中給定形狀的曲線或直線轉換到轉換空

(33)

間的一個點位置，它使得原始影像中給定形狀的曲線或直線上所有的點都集中到轉換域上的某一個點位置，從而形成峰值。這樣，原影像中的直線或曲線的檢測問題就變成尋找轉換空間中的峰值點問題。正確地建立兩幅影像中分別提取的直線段的對應關係依然是該方法的重點和難點。綜合考慮直線段的斜率和端點的位置關系可以構造一個這些資訊指標的直方圖，並通過尋找直方圖的聚集束達到直線段的匹配。近十幾年來，隨著影像分割、邊緣檢測等技術的發展，基於邊緣輪廓和區域的影像匹配方法逐漸成為匹配領域的研究焦點。影像分割(Image Segmentation) 和邊緣檢測(Edge Detection)技術是這類方法的基礎，目前已提出的有很多影像分割方法可以用來做影像匹配需要的邊緣輪廓和區域的檢測，例如 Canny 邊緣提取運算元、拉普拉斯—高斯運算元 LoG、動態門檻值技術、區域增長等等。儘管方法很多且各具特點，但並沒有任何一種方法能對所有種類的影像都能獲得最佳效果，大多數的分割技術仍然依賴於影像本身內容。

(34)

第三章、SIFT 演算法相關理論與技術

所謂影像特徵主要是指影像上具有視覺或物理意義的點位或線條，由影像提取特徵並應用這些特徵進行相關研究為影像理解(Image Understanding)最基本的課題，其中點特徵是屬於最基本的型式，應用也最廣泛。本章中將說明影像特徵提取方法的演進及相關基本理論，包括目前最受到重視的SIFT 演算法。 3.1 影像特徵簡介特徵提取可以使用各種不同的演算法(Algorithm)或運算元(Operator)來完成所要的特徵計算，特徵提取算法又可以分為點狀特徵提取算法和線狀特徵提取算法，而面狀特徵主要是透過區域分割(Segmentation)來獲取。 3.1.1 點特徵提取算法特徵點所指影像中具明顯特性的點並能將影像中物體給予標識之點位。利用特徵點提取並用特徵點來標識影像中的物體，可以大幅減少影像儲存容量。最常

見的角點提取算法有1.SUSAN 2.Moravec 3.Forstner 4.Harris 角點提取演算法，

而SIFT 主要改良 Harris 演算法並賦予此法具有尺度不變與旋轉不變的特性，該

法最後剔除反差小的點與位於邊緣上的點位，將保留之點位進行特徵描述與特徵匹配動作。

3.1.1.1 Moravec 角點檢測演算法

Moravec 於 1977 年提出一個角點(Corner Point)偵測之演算法[18]，主要以像素的四個主要方向上最小灰度方差表示該像素與鄰近像素的灰度變化情況，即像

素的興趣值IV(Interest Value)，於影像局部選取具局部最大的興趣值點(灰度變化

明顯的點)作為特徵點，其演算法為相對簡單，計算量小，但對雜訊(Noise)的影響較為敏感，屬於「抑制局部非最大」的特徵提取算法，具體算法如下：

a. 計算各像元的興趣值 IV(Interest Value)。以像素( rc, )為中心ω×ω 的移動

視窗(Moving Window)，一般使用, 3x3, 5x5, or 7x7 pixels 等奇數視窗，如

圖3.1 所示。計算四個方向相鄰像素灰度差的平方和：

圖3.1 Moravec 演算法 c

(35)

∑

− − = + − ++ −− − − = + ++ − − = + + ++ ++ − − = + ++ − = − = − = − = 1 2 1 , 1 , 4 1 2 1 , , 3 1 2 1 , 1 , 2 1 2 , 1 , 1 ) ( ) ( ) ( ) ( κ κ κ κ κ κ κ κ i i r i c i r i c i i r c i r c i i r i c i r i c i r i c r i c g g V g g V g g V g g V (3-1) 根據式（3-1），取最小者為該像素( rc, )之興趣值，即：

{

1 2 3 4

}

, min V ,V ,V ,V IV_c_r = _(3-2) b. 依次選擇不同的視窗為中心，並按式(3-1)與式(3-2)分別計算興趣值 IV，給定一個經驗門檻值，將興趣值大於這個門檻值的點(即興趣值計算窗口的中心點)做特徵點位的興趣點位。 c. 最後將這些特徵點興趣點位在一定大小的視窗內(可不同於興趣值計算窗口的大小)使用這個視窗進行判斷將所有的興趣點位做檢測，僅保留興趣點最大的點位，該像素即為一個特徵點。整理上述說明可將公式簡化如(3-3)式。

∑

+ + − = y x y x I v y u x I y x w v u E . 2 )] , ( ) , ( )[ , ( ) , ( (3-3) 圖3.2 Window Function 說明式(3-3)中四個位移量E( vu, ) = (1,0), (1,1), (0,1), (-1, 1)於判定此興趣點位為局部極值(最大或最小)者當作特徵點位。綜合以上所述，Moravec 算法是在四個方向上選擇最大及最小灰度方差的點做為特徵點。透過計算各方向之梯度變化，可歸納出點位之三種狀況如圖3.3 所示：

(36)

圖3.3 影像梯度變化情與角點的屬性 (a) 當移動視窗內所偵測的梯度沒有明顯的變化時，在影像上屬於平坦之區域(Flat)。 (b) 當移動視窗沿特定方向移動造成梯度明顯變化時，在影像上屬於邊界 (edge)部分。 (c) 當移動視窗往任一方向移動時，梯度變化皆很大時，在影像上屬於角點(corner)部分。 Moravec 演算法主要的缺點： 1. window function 對於雜訊的影響太大，無法克服雜訊的干擾。 2. 偵測視窗只針對四個方向進行偵測，在方向上顯然不足。 3. 此算法對於邊緣的反應太強烈。

因此 Harris 及 Stephens 於 1988 年[19]提出針對 Moravec 演算法缺點的改

良方法，即為Harris 角點偵測演算法。 3.1.1.2 Harris 角點偵測演算法 Harris 角點偵測演算法主要由 Moravec 演算法基礎所所衍生，利用移動視窗在影像中做小距離滑動，並計算滑動前後視窗內所有點灰度值平均的差值。此方法之優點為偵測效率高且具有較高的重複率，因此於影像匹配中通常採用此演算法來提取特徵點。它針對Moravec 演算法的三個缺點分別提出改進。 1. 視窗函數(Window Function)對雜訊敏感的問題。解決方法：用高斯函數(Gaussian function)進行濾波，可抑制影像中雜訊問題。替換式(3-4) w( yx, )：

Flat Edge Corner

Isolated point

(37)

⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛₋ + = 2 ₂ 2 2 ) ( exp ) , ( σ y x y x w (3-4)

圖3.4 window function 經過 Gaussian smooth

2. 偵測視窗僅於四個方向進行偵測，即偵測方向不足的問題。解決方法：不僅偵測四個方向。由於計算量大，因此以泰勒展開式來解決所有考慮的位移方向，並省略二次以上高階項後以矩陣形式表示如下：

∑

+ + = − + + = y x y x y x v u O v I u I y x w y x I v y u x I y x w v u E , 2 2 2 , 2 )] , ( )[ , ( )] , ( ) , ( )[ , ( ) , ( 　　　　　 (3-5) 整理上(3-5)式，可得：

∑

= = = + + = y x y x y x y y x x y x I y x I y x w C y x I y x w B y x I y x w A Bv Cuv Au v u E , , 2 , 2 2 2 ) , ( ) , ( ) , ( ) , ( ) , ( ) , ( ) , ( 2 ) , ( (3-6) 不需將所有( vu, )帶入原式計算，只須使用雙線性近似法(Bilinear Approximation)於矩陣運算即可，而 M 矩陣可直接由原影像得到。雙線性約制法如公式(3-7)： ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⋅ ≅ v u M v u v u E( , ) [ , ] (3-7) Ｍ矩陣表示如公式(3-8)

(38)

∑

_⎥⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ⋅ = y x x y y y x x I I I I I I y x w M , 2 2 ) , ( (3-8) 3. 邊緣的反應太強烈的問題。解決方法：利用新的計算與識別方法。對M 做特徵分解並找特徵值λ 、1 λ 對應之橢圓如圖 3.5 所示： 2 圖3.5 特徵方向表示圖 1 λ 、λ 代表2 E( vu, )於該軸方向上影像梯度變化較大，再根據λ 、1 2 λ 之關係判斷是否為角點，如圖 3.6 所示。

圖3.6 特徵值分佈情形 (Harris & Stephens ,1988)

由圖3.6 歸類出三個結果如下： 1. λ 、1 λ 皆小時：為影像梯度變化很小，於影像上屬平坦區域。 2 2. λ 、1 λ 差異大時：為影像梯度沿特定方向變化，故此特徵在影像中2 屬於邊緣(Edge)區域。 3. λ 、1 λ 皆大時：為影像梯度不管往任何方向移動都有大幅度變化。2 在影像上屬於角點(Corner)區域。 (λmax) -1/2 (λ_min₎-1/2 橢圓形E( vu, )為常數

(39)

最後用公式(3-9)表示： 2 1 2 , 1 det ) ( det 2 λ λ λ λ + = = − = traceM M traceM K M R (3-9) 式(3-9)中 R 為角點強度，R 值越大即可能為角點，k 為經驗常數，一般設為0.04～0.06 之間，透過 R 關係式選取適當門檻值即為偵測角點。 Harris 角點偵測演算法也存在下列缺失： 1. 無法克服旋轉的問題。 2. 尺度改變特徵點位也會跟著改變。 3.2 SIFT 演算法

SIFT(Scale-Invariant Feature Transform)算法由 David Lowe 於 1999 年提出， 2004 年完善總結[1]，後來 Y. Ke 將其描述子(Descriptor)部分用 PCA 代替直方圖的方式，對其進行改進[16]。SIFT 算法為以特徵基礎(Feature Based)的局部特徵

影像匹配演算法，其完整的運算程序如圖3.7 所示，可分成四個步驟： 1.特徵點提取運算(Feature Extraction)。 2.對提取之特徵點進行特徵描述(Feature Description) 。 3.利用此特徵描述進行特徵匹配(Feature Matching)。 4.匹配點位除錯(Error Detection)。圖3.7 SIFT 特徵提取演算法主要執行流程圖尺度空間極值求取特徵點位置確定特徵點方向確定特徵點描述 KD-Tree 匹配 RANSAC 除錯 特徵提取 特徵描述 特徵匹配 除錯

(40)

SIFT 演算法主要步驟如下： 1. 特徵點檢測特徵點屬於灰度變化的局部極值點，其含有顯著的結構性資訊，甚至此點也可以沒有實際之視覺意義，但卻於某種角度、尺度上含有豐富的易於匹配之資訊。 2. 特徵點描述，即建立特徵向量(Feature Vector) 特徵點的特徵描述符(Feature Descriptor)應為不變量，以確保光照變化等因素的影響。選擇適當的特徵空間可以降低各種影像變化因素對匹配速度與穩定性的影響。 3. 特徵匹配以獲得候選匹配點根據特徵向量相似性來進行匹配，採各種距離函數作為特徵相似性度量，如歐氏距離(Euclidean distance)、曼哈頓距(Manhattan distance ; City-Block)等。

4. 匹配點位除錯

匹配初步結果難以避免存在有錯誤之匹配點位。其根據統計或幾何條件將錯誤匹配點位予以剔除。SIFT 演算法常使用之除錯機制為隨機

樣本一致性演算法RANSAC(RANdom SAmple Consensus)。

SIFT 演算發匹配流程如下：

圖3.8 SIFT 演算法特徵匹配流程圖

SIFT 演算法定義之特徵點與一般所認定的角點(Corner Point)特徵並不相同，這些特徵可以是在影像上面沒有任何視覺意義的點位，但在尺度空間中為局部最大或最小點位作為該演算法特徵點。另外，特徵點之穩定性是指該點能對旋轉、尺度縮放、仿射變形、視角變化、光照變化等影像變化因素保持一定的不變性，而對物體運動、遮蔽、雜訊等因素也保持較好的可匹配性，因而可以實現差異較大的兩幅影像之間特徵的匹配。對影像變化保持穩定的特徵描述符稱為不變性(Invariant) ，如對影像旋轉保持穩定之不變數稱為旋轉不變 (Rotation Invariant)，對尺度縮放保持穩定不變則稱為尺度不變(Scale Invariant)。左圖右圖特徵提取 SIFT 特徵匹配特徵描述特徵提取特徵描述

(41)

特徵描述符(Feature Descriptor)是指對影像偵測到之局部特徵(如邊緣、角點、輪廓等)，再根據匹配之目標，將可以用來描述所提取特徵點的統計值或特徵值予以組合、轉換，以形成穩定性好且易於成功匹配的特徵向量(Feature Vector)，因而把影像匹配問題轉化為特徵匹配的問題，並進一步將特徵的匹配問題轉化為特徵空間特徵向量的聚類問題。 SIFT 演算法之特色可歸納如下： 1. 不變性：SIFT 特徵屬影像局部特徵，其對旋轉、尺度縮放、亮度變化保持不變性，對視角變化、仿射形變、雜訊也保持一定程度的穩定性。 2. 獨特性：資訊量豐富，適用於巨量特徵資料庫中進行快速、準確的匹配。 3. 多量性：即使少數幾個物體也可以產生大量的 SIFT 特徵向量。 4. 高效性：經優化 SIFT 匹配演算法甚至可以提升匹配效率。 5. 可擴展性：可以很方便的與其他特徵向量進行組合。 3.2.1 尺度空間極值求取 3.2.1.1 高斯差分(DoG)建立多尺度空間影像

SIFT 演算法採用 DoG(Difference of Gaussian)來建立尺度空間，並找出尺度於空間中之極值主要是基於三個理由：

1. DoG 是一個計算上比較快速的演算法。

2. DoG 基本上跟 Laplacian of Gaussian(LoG)穩定度差不多。 3. 抑制雜訊(Noise)之影響。 Koenderink(1984)和 Lindeberg(1994)兩位學者研究發現高斯函數是唯一的尺度空間平滑化濾波函數[20][21]。一幅二維影像的尺度空間定義為： ) , ( ) , , ( ) , , (x y G x y I x y L σ = σ ∗ (3-10) 其中 G(x,y,σ)為尺度可變高斯函數，( yx, )是空間座標，

σ

為決定尺度參考。 2 ) ( 2 /2 2 1 ) , , ( 2 2 σ πσ σ _e x y y x G = − + (3-11) 為了更有效的提取尺度空間中較穩定特徵點，進一步使用高斯函數中不同的 σ 參數對影像進行濾波並相減，得到高斯差分函數 DoG，即： ) , , ( ) , , ( ) , ( )) , , ( ) , , ( ( ) , , (x yσ G x y kσ G x yσ I x y L x y kσ L x y σ D = − ∗ = − (3-12) 式中k 為常數。