區域影像特徵 - 相關研究 - 基於點群排序關係的動態設定特徵描述子建構及優化

第二章相關研究

2.1 區域影像特徵

國

立政治大學

‧

Na tiona

l Ch engchi University

第二章相關研究

近年來，區域影像特徵擷取的方法持續受到關注，伴隨著科技進步、影像資訊量的逐漸龐大，以及演算法在移動裝置上使用的普及化，如智慧型手機以及平板電腦已變成最常被使用的載體，因此對於特徵描述子的要求除了要表現出區域特徵的穩健性且不能占用太多的空間，同時也要維持良好的特徵比對效率，因此新的區域影像特徵描述子建構的相關方法持續不斷的被提出來。第一小節將對過去被提出具代表性的區域影像特徵擷取方法統整分類並做介紹，而在第二小節將介紹基於Kendall rank correlation coefficient (Kendall’s τ) [4] 相關係數的排序權重設定，並透過比較序列以及序列之間的相似度作為我們賦予不同欄位權重的方法。

2.1 區域影像特徵

目前關於區域影像特徵擷取方式有很多種，在這裡我們根據描述子建構方式將其分成三種類別，分別為基於梯度方向統計、基於點對關係以及基於點群關係的特徵描述子建構方式。該研究的目標是產生該影像最具代表性的描述內容，使其能對影像的光度變化以及幾何變換處理具有不變性，舉例來說像是對影像進行光度變化、視角轉換、

旋轉影像、模糊影像、尺寸變化、改變景深、壓縮影像、加入雜訊等變化。在此節我們將整理以及對於過去那些具代表性的區域影像特徵方法進行分類，並根據類別分別介紹。

2.1.1 基於梯度方向統計

當我們從影像中取得區域特徵描述點，並將其描述成特徵描述子最簡單的方法，就是將區域影像中每個像素的灰階強度值列出，但這種方式容易因為位移而造成很大的

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

改變，其解決方式就是利用直方圖統計方法來避免。而目前已被廣泛使用的區域影像特徵描述子建構方法為Scale-Invariant Feature Transform (SIFT) [5]，他在 1999 年首次由 D. Lowe [6] 提出，並在 2004 年得以完善，其主要應用於物件識別以及圖像索引。SIFT 是一種尺寸不變特徵描述建構方法，其主要的概念為使用矩形的區域分割將各個區域影像分割成4×4 個子區塊，並分別利用直方圖來統計並記錄各子區塊在與鄰近像素的梯度方向(將 360 度分成 8 個梯度) 大小以及分佈使其具有旋轉不變性，來形成維度為 4×⁴×⁸ = 128 維的特徵向量如圖 2.1 所示，用以描述區域影像特徵。而 Speeded Up Robust Feature (SURF) [7] 是 SIFT 的加速版本，利用積分圖以及哈爾小波轉換的概念來簡化並產生64 維的特徵向量，主要應用於需要即時回饋的影像比對。

圖2.1 SIFT 特徵描述子建構方式

在SIFT 的做法裡使用了加權的梯度直方圖，當在提取特徵點稠密的區域時會不斷重複計算，因此DAISY [8] 被提了出來，他的基本概念跟 SIFT 一樣是利用分割區域來統計梯度方向的直方圖，但他採用對數極座標(Log-polar) 的方式來進行分割如圖 2.2 所示，利用高斯卷積的可快速並不重複計算梯度直方圖，快速稠密的進行特徵描述子的提取。基於梯度統計的描述子建構方式其特徵向量都有加入權重，因此通常都會以實數表示，其距離的定義則採用歐幾里德距離(Euclidean distance) 計算方式如式 2.1.1所

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

示。

d(x, y) =

! _n

i∑=1

(x_i−^yi)² (2.1.1)

圖2.2 DAISY 方法的對數極座標分割方式

2.1.2 基於點對關係

儘管以上的方法在特徵匹配獲得不錯的分數，但隨著影像資料量的逐漸龐大，對於演算法的速度也提出了更嚴格要求，因此LBP 以及其相關延伸的方法逐漸崛起。Local Binary Pattern (LBP) [9] 在 1990 年代首次被提出，而現在廣為人知的方法則是結合了方向梯度直方圖概念後重新定義的LBP [10]。原本 LBP 主要是用在提取紋理的特徵，透過比較區域影像內的像素值而生成的二元描述子，其方法具有顯著的旋轉不變性以及灰度不變性。該方法最基本的概念為將區域影像分割成3×3 個區域，將周圍 8 個區域與中心區域進行簡單的點與點之間的像素值比較，若周圍像素大於中心像素標示為1，

反之則標示為0。處理完便可得到 8 碼二進位的值，這種方式共產生2⁸ = 256 種編碼可能，將其轉換成十進位即可得到基本的LBP 描述子如圖 2.3 所示，並將該區域影像中各個像素值處理完後在直方圖中做累積統計。

在距離計算上LBP 採用 Hamming distance 的方式，因此特徵比對速度相當快且其資料量與SIFT 相較之下非常不佔空間。而根據點對取樣方式的不同，延伸出許多不同的方法，舉例來說Binary Robust Independent Element Feature (BRIEF) [11] 利用區域影像的

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖2.3 LBP 特徵描述子建構方式

鄰近區域內，隨機點對比較像素值大小的方式來建立區域影像特徵描述子。但這種方式並不具備尺寸不變性以及旋轉不變性，因此Oriented BRIEF (ORB) [12] 提出並解決了旋轉不變性，該方法利用區域影像旋轉後方向的變化決定隨機點對的相關性，並根據貪婪算法找到相關性最小也就是最具代表性的256 個特徵點。而 Leutenegger 等人提出了Binary Robust Invariant Scalable Keypoints (BRISK) [13] 解決了尺寸不變性，其取樣點對的方式有點類似DAISY，但不同的是各個圓互相不重疊如圖 2.4(a) 所示。Fast Retina Keypoint (Freak) [14] 則是利用人類視網膜接收影像資訊的原理來進行點對取樣，將感興趣的區域劃分為大小不同的感受區如圖2.4(b) 所示，再利用與 ORB 相似的貪婪算法找到最具代表性的四組各別為128 對點對進行處理。

圖2.4 BRISK 與 FREAK 點對取樣方法

由於有良好的表現力以及計算的簡單性，LBP 及其延伸出的其他方法逐漸在電腦視覺領域逐漸普及，並已成為現實世界中應用於影像處理相當廣泛的運算方法，主要應用於臉部識別、臉部偵測等都有很好的效果。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

2.1.3 基於點群關係

基於點群關係的特徵描述子建構方法是近年來才被提出來討論的，與基於點對關係的編碼方式最大的不同在於基於點群關係的建構方法同時考慮多個鄰近點之間的關係，

而不只是單純考慮兩點之間的關係。但在同時考慮多點之間的關係時，點群關係的排列組合數量會因為取點數量的增加而以倍數增加，不論是時間還是空間都相當不利於計算，因此過去較少有利用點群關係作為建構區域特徵描述子的方法。然而在2011 年 Local Intensity Order Pattern (LIOP) [1] 首次被提出，該方法就是利用點群關係來對區域影像進行特徵描述的鮮少例子，並納入由英國牛津大學創辦的開源平台VLFeat.org，該平台主要提供過去曾被提出並擁有相當高穩定性的區域影像特徵擷取演算法以及特徵比對演算法，讓任何有興趣專研的研究人員能夠更容易的進行開發研究。

圖2.5 LIOP 描述子建構流程 [1]

LIOP 是藉由點群中多個點所有的排序關係作為特徵來建構出區域影像特徵描述子，

其主要建構流程如圖2.5所示，在 (a) 利用 Harris-Affine 方法偵測完區域影像的特徵點 (detector) 之後，(b) 將該特徵區域 (local patch) 正規化成固定半徑的圓形區域 (半徑必須是奇數，而此篇使用41 像素作為半徑值)。接著 (c) 將該區域中所有像素根據灰階值進行排序再分成B 個階層的子區塊 (d)-(f) 並稱之為 Ordinal Bins，每個 Bin 計算各自範圍內的點群關係完後，將B 個子區域的描述子串連在一起便形成 LIOP 描述子。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖2.6 LIOP 描述子建構方法 [1] (以 N =4 為例)

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

而從每個Bin 各別建構出特徵描述子的方法如圖 2.6 所示，以對每個像素取的點群數量 N = 4 當作範例，在每個 Bin 的中心點為圓心，固定半徑 R =6 像素逆時針方向等距依序取樣，取得4 個點分別為(x1, x2, x3, x4)^{，其中設定距離}Bin 中心點最遠的點 x1當作第一個取樣點，因此可以得到四個具有旋轉不變性的描述點。在此範例中，取出四點分別對應的像素值分別為(86, 217, 152, 101)，根據像素值大小可得到排序關係為(1, 4, 3, 2)^{。在點群數量} N =4 的情況下，所有點的排序關係總共有 4! =24 種排列組合，並對所有關係的排列組合個別賦予唯一的索引值(index) 如圖 2.6(d) 所示。從索引表可以得知序列(1, 4, 3, 2) ^{所對應到的索引值為}6，接著就可以在相對應的直方圖欄位上做累加如圖2.6(c) 所示。當該 Bin 中所有的像素都累加完後，便可得到維度為 4! =24 維的描述子，並將所有的 Bin 所得到的描述子串連起來，此篇假設 B = 6 的情況下可以得到維度為 B×^{N! 維也就是 6}×^4! =144 維的 LIOP 描述子。

雖然LIOP 有效的提高區域影像特徵的匹配分數，但其特徵描述子維度會隨著點群取樣數量的提高而倍數增加，其維度增加的幅度對於計算空間上以及時間上都有相當大的影響，因此該方法在點群取樣數量上有著相當大的限制。於是在2016 年 Local Intensity Order Relations (LIOR) [2] 方法首次被提出，該方法探討點群中點與點之間的關係，根據兩點之間的像素值差距與排序關係的一致性或不一致性關係、以及像素值差距的強度，所建構出的區域影像特徵描述子。當取樣點群數增加時，該方法有效的減緩維度增加的幅度，但並沒有完整保存LIOP 的特徵描述能力。

圖2.7 新舊 LIOP 在 patch 內提取點群的範圍

而在2016 年 LIOP 的作者再度提出改進的 LIOP 與其相關的特徵描述子建構方法

‧

在文檔中基於點群排序關係的動態設定特徵描述子建構及優化 - 政大學術集成 (頁 13-20)

區域影像特徵

第二章 相關研究

2.1 區域影像特徵

國

立 政 治 大 學

‧

第 二 章 相關研究

2.1 區域影像特徵

2.1.1 基於梯度方向統計

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

2.1.2 基於點對關係

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

2.1.3 基於點群關係

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

第二章相關研究

立政治大學

第二章相關研究

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學