SIFT 演算法相關應用

第二章、文獻回顧

2.1 SIFT 演算法相關應用

SIFT 演算法為局部特徵匹配之演算法，其設計出發點於物件識別使用，於物件的識別方面通常要能夠允許拍攝影像在寬基線拍攝情況之下依然擁有好的匹配成功率，而SIFT 演算法就是基於該觀念所延伸設計之演算法，在物件辨識方面不管辨識物體是否受到環境等影響，利用局部特徵匹配可以達到識別之條件。而SIFT 演算法曾被應用於 1.物件識別(Object Recognition) 2.影像檢索(Image Retrieval) 3. 自動影像拼接(Automatic Image Stitching) 4.機器人定位(Robot Location) 5.擴增實境(Augmented Reality) 等幾個領域。以下本文將針對歷年來 SIFT 演算法進行相關應用文獻回顧。

2.1.1 物件識別(Object Recognition)

物件識別方面是電腦視覺領域相當重視的一環，主要面臨的問題於寬基線 (Wide-Base)匹配之相關問題，還有識別物體是否受到阻擋與光線雜訊之問題，而 Lowe 於 1999 年提出 SIFT 演算法主要為解決物件識別的問題，而後續許多學者也投入該法之研究。

1999 年 Lowe [2]首先提出 SIFT 演算法來解決物件識別的問題。作者利用 SIFT 演算法對於尺度與旋轉量不變的特性進行物件辨識相關實驗，結果證明 SIFT 演算法具有非常良好的物件識別能力，其物件辨識能力甚至可以在有雜訊或是物體受遮蔽的情況之下將該物件給識別出來，而相關演算法計算時間更低於 2 秒，具有快速計算能力。圖 2.1 為實驗成果圖。

圖2.1 3D 物件識別實驗結果[2]

2005 年 Patricio 與 Javie [3]提出使用 SIFT 演算法用於機器視覺(Machine Vision)中頭部檢測系統(Robot-head Detection System)，其主要作為機器視覺方向判斷與視覺追蹤使用，實驗中最主要是利用SIFT 演算法進行局部特徵匹配，讓機器人可以正確去識別相關物件，並利用識別出來的物件進行機器人追蹤等相關操作。圖2.2 為實驗相關示意圖。

圖2.2 AIBO ERS7 頭部追蹤系統使用 SIFT 演算法. [3]

2006 年 Rothganger 等學者[4]提出一個三維剛性物體之局部仿射不變之描述方法，在幾何約束條件不相同之情況下，使用相同影像結合仿射投影改正，於此問題最主要將解決於三維物體建模與物件識別的工作。而在該文提出兩個領域之應用：

(1)攝影學(Photographs)：通常模型是由較小之結構所組成的，在影像中這些較小的物件容易受到外界與本身的干擾而產生影像上較多之雜訊。

(2)視訊影片(Video)：動態場景中包含了多個移動物體，及由此產生的三維

模型直接匹配到對方，讓一種新穎的方法，視頻索引和檢索。

而此寬基線匹配方式通常使用不變量偵測方式，在搭配其演算法，其證明 SIFT 演算法對於寬基線之匹配，依然有不錯之效果。

回顧上述三篇文章，因物件識別中所需克服的難題為物件因雜訊或遮蔽等問題，利用SIFT 演算法進行局部特徵匹配將可以達到相當不錯的效果。

2.1.2 影像檢索(Image Retrieval)

影像檢索利用非常多技巧於影像處理上，目前較成熟的檢索方式如類神經網路系統等影像聯級分析器進行相似性評估，而SIFT 演算法進行影像檢索在也有若干學者進行研究與探討。

2004 年 Yan Ke 等人[5]提出重複影像偵測(Near-Duplicate Detection)和子影像檢索(Sub-Image Retrieval)系統與應用，該系統可以作為尋找侵犯著作權和發現偽造的圖片，其準確度可達99.85%。

2007 年 Stoettinger 等人[6]將 SIFT 演算法應用於影像檢索來使用，在早期影像檢索最常使用的方法為特徵點區域搜尋的方法，利用此特徵進行影像檢索。大多數的方法為使用影像亮度(Luminance)資訊，該文利用色彩訊息進行特徵點檢測，在Harris 角點檢測演算法中使用多頻道(Multi-Channel)影像和不同色彩空間進行特徵點評估，以確定特徵點的特徵尺度，這是一個新的色彩尺度的選取方法。

2007 年 Crookes 等人[7]提出利用局部特徵檢測的方式進行鞋印影像檢索之應用，文中論述影像檢索應用於犯罪現場中鞋印影像(Shoeprint Images)的參考資料庫中的特徵檢測系統及改進局部特徵的描述說明。其特色是基於此方法的改進：

(1) 提出基於多尺度 Harris 角點檢測演算法。

(2) 自動尺度範圍選取。採用局部結構之特徵尺度。

(3) SIFT 方法。

實驗中使用 6 筆合成現場影像，50 幅影像，每個數據資料庫包含 500 筆參考鞋印影像資料，於良好成果顯示SIFT 方法之適用性。

2008 年吳銳航等人[41]提出使用 SIFT 演算法進行影像檢索使用，該文章提出一種多尺度影像檢索算法，於SIFT 特徵提取演算法，首先將影像轉成特徵向量之點集合，在利用兩張影像間的相似距離通過兩張影像特徵向量間的歐幾里德距離最小門檻(Euclidean Distance Smaller Than Threshold)來評估兩點是否匹配。

實驗結果證明該演算法對於尺度、平移、旋轉具有不變量的特性，其證明該演算法可以用於形狀特徵目標的檢索使用。

由上述文獻回顧得知 SIFT 演算法對於局部相似之影像具有良好的檢測成

果，利用此方法可以用於影像檢索使用，與傳統影像檢索較不同為SIFT 演算法是針對於非常相似之影像進行檢索，這些影像容許有仿射變形光照等影響，也可以用來辨識兩張影像是否相符，而以上所使用的檢索條件是利用匹配點數來進行研判，如果匹配點位符合所設定之門檻值，給予該影像匹配，利用該方法進行檢索，將可以把相似影像給檢索出來。

2.1.3 自動影像拼接(Automatic Image Stitching)

影像拼接最主要的功能為將所拍攝之連續影像進行拼接動作，在拼接過程中最早使用特徵點的方式進行匹配，利用特徵點進行匹配再透過除錯機制保留正確匹配點位，再進行影像扭曲(Warping)、拼接(Stitching)、最後再執行影像融合處理成單一影像，若干虛擬實境(Virtual Reality ,VR)商業軟體也已經使用該演算法進行影像拼接。

2003 年 Brown 與 Lowe[9]提出自動全景影像拼接的演算法，此為 SIFT 演算法後續之應用，文中利用SIFT 演算法進行連續影像重疊區特徵點位匹配，該演算法對於不同的尺度、旋轉及光照具有其不敏感性(Robustness)。圖 2.3 圖 2.4 為實驗成果圖。

圖2.3 影像拼接使用 SIFT 演算法進行特徵匹配[9]

圖2.4 影像拼接使用 SIFT 演算法進行特徵匹配結果[9]

2004 年 Sebastian Nowozin[10]開發 Autopano-SIFT 此共享軟體(Share Ware)，

該軟體屬於全景拼接軟體。全景攝影是基於拍攝過程中兩張或兩張以上影像來自於同一攝影觀點，並將該影像拼接成其中一部份。而拼接時通常最少會保留20%

重疊影像。目前的計算機能力已經可以將所有影像拼接起來，讓使用者感覺為單一張影像。而此軟體延伸出環景(Looking Around)軟體，讓使用這可以單點的方式觀看該區域，hugin[11]為最常見且最流行的自由軟體(Open Sources)之一，並且可配合Autopano-SIFT[10]軟體建立環景影像。

圖2.5 使用 Autopano-SIFT 軟體進行全景影像拼接完成圖[10]

2.1.4 機器人定位(Robot Location)

在機器人定位開始被使用時，常以計算機器人所在之位置為研究題材，在剛開始設計機器人僅在固定環境內進行，因機器人無法對目標或環境進行辨識，利用所設計之特定形狀讓機器人認得所有位置，而將SIFT 演算法用於機器人定位使用主依據影像局部特徵的特點進行機器人定位，利用快速尋找共軛點的方式可以快速計算出機器人基本位置，利用其機器人雙目所拍攝之影像進行相對方位解算，雖然SIFT 演算法在設計當時於機器人視覺中每秒只可以進行 3 至 6 張影格匹配，在當時已經足夠了，而在SIFT 演算法成熟之後又研發出更快之不變量檢測法SURF(Speeded Up Robust Features)，該演算法將可以快速計算兩幅影像之特徵，該演算法將在後面章節詳細介紹。

2000 年 Stephen Se, David Lowe, 與 James J. Little[12]提出基於 SIFT 演算法之機器人定位系統。文中提出基於視覺的機器人移動與定位映射演算法，並利用影像特徵尺度不變給予標誌該動態環境，這些三維的標示作為機器人定位之依據，實驗中開發 Triclops stereo vision system，實驗證明這個功能具有匹配之能力與三維標誌跟蹤的能力，並給予機器人估計自己姿態與3D 地圖建置。

圖2.6 利用 SIFT 演算法進行立體匹配以估計機器人定位[12]

2005 年李家欣[42]提出使用 SIFT 演算法配合最小平方中值法(Least Median of Squares, LMeds)進行影像幾何推求，該文章利用投影幾何的方法，結合多視點的三維重建以及方位推估法累加的過程，建構出以視覺為基礎的路徑重建系統。

其主要實驗採用一般消費型數位相機進行拍攝，與一般電腦設備進行相關研究。

透過取得所行經的路徑上之連續影像，便可以 SIFT 演算法擷取出連續影像之間所對應的特徵點，並以 LMedS 演算法加以除錯。經由重建特徵點的三維座標，

以計算兩影像位置間相對位置轉換，再經由方位推估法的累加兩影像間路徑估測，逐步推估出所行經的路徑。

機器人定位大致上使用上面所回顧之相關技術，目前也已經有商業化機器人，Sony Aibo 此款電子狗就是基於 SIFT 演算法所設計出來之電子狗，在該項產品中利用SIFT 演算法完成下列動作：

1.識別充電裝置（Recognizing Charging Station）

2.溝通與視覺卡（Communicating With Visual Cards）

3.教學目標識別（Teaching Object Recognition）

4.英式足球（Soccer）

上述動作均透過SIFT 演算法搭配雙眼視覺所完成之結果，利用這些匹配技巧在透過基礎之程式設計可以讓電子狗與人做互動。

圖2.7 Sony AIBO 機器狗（http://support.sony-europe.com/aibo/index.asp）

2.1.5 擴增實境(Augmented Reality)

在SIFT 演算法應用不斷成熟的情況之下，許多研究領域以利用 SIFT 演算法來進行相關研究，在多媒體方面也利用SIFT 演算法計算影像相對方位，此方法優點可增加3D 物件的真實感，其利用前後像幅進行匹配計算相關轉換參數再進行相關定位，此可以帶給拍攝電影等工作增加3D 物件在影片的真實感，因所拍攝的影像通常利用合成的方式將3D 物件給予置入影片當中，這樣的手法給予觀

在文檔中遙測影像資料庫建置關鍵技術及基於內容的檢索研究(III) (頁 16-23)

第二章、 文獻回顧

2.1 SIFT 演算法相關應用

第二章、文獻回顧