第一章 序論
1.3 論文架構
第一章為問題描述,簡述本文研究動機及研究架構,第二章為探討各種特徵 在物件辨識的應用及其優缺點,並介紹醒目性偵測的原理,第三章將探討本論文 提出的方法,並以小實驗佐證其可靠度,第四章使用大型資料庫進行物件辨識實 驗,藉以探討此方法在資料眾多時仍能有效辨別物件,第五章為結論及未來展望。
9
Chapter 2 特徵抽取與醒目性偵測
在辨識物體時,人眼會從各方面比較,如顏色、形狀、材質、個人經驗等方 面辨別,人眼通常不只以一種物件特性去做判斷,而是綜合上述所列的性質共同 判斷,因此如何使電腦擁有人類快速而準確的辨識能力仍是現今物件辨識的重要 目標。對電腦而言,辨識影像的方法通常依圖片的特徵去做相似度的比較,然後 依相似度結果來做分類。因此選取不同的特徵會得到截然不同的相似度比較結 果,以圖2.1 舉例,若我們以形狀特徵來比較此三樣物品,則第一樣物品跟第二樣 物品較為相似,若以色彩特徵來做比較,則第一樣物品和第三樣物品較為相似,
因此選取不同的特徵將影響相似度的判別甚鉅。
圖 2.1 特徵的選擇對辨識的影響
除了特徵的選擇會影響辨識結果,相似度的度量方法也可能造成影響,因為 即使在相同的特徵空間中,兩個特徵向量的相似度若以不同方式計算也會有不同 的結果,例如假設在三維的空間中存在兩組特徵向量a =
[
1 0 0]
T,b =[
0 1 0]
T, 如 果 我 們 以 歐 基 里 德 距 離 計 算 這 兩 個 特 徵 向 量 的 相 似 度 為2 2 2
(1 0) (0 1) (0 0) 2
a b− = − + − + − = ,但若以卡方距離計算這兩個特徵向量,
10
11
許物體小部分的遮蔽,以圖2.3 為例,當物體旋轉、角度偏移、或有小部分的遮蔽,
其產生的色彩直方圖仍差異不大,但由於缺少對色彩分佈空間上的資訊,即使完 全不同的物體也可能產生相同的色彩直方圖,而即使是同類的物體也可能色彩不 同而無法被辨識為同類物體,因此若只單以色彩特徵來做判斷並不周詳,仍需搭 配其他特徵共同辨識。
圖 2.3 圖片在不同角度的空間色彩分佈
2.2 紋理特徵
物體的紋理也是常用的辨識特徵,人們可藉由不同紋理來判別物體的種類。紋 理是指圖片中重覆出現的空間結構,藉由提取重覆出現的空間結構,即可得到紋 理特徵,再依紋理做相似度的比較來做辨識。常見的紋理特徵抽取方式有局部二 值模式法、3D 紋理基元、灰階共生矩陣[11]。本文採用的是局部二值模式法,以 下詳細說明局部二值模式原理。
2.2.1 局部二值模式基本型
局部二值模式 (Local Binary Pattern , 簡稱 LBP) 是一種用來描述圖片紋理的 局部特徵,於1994 年被提出[12],現在常見的版本為 2002 年優化後的多解析度的
12
局部二值模式,由於計算簡單且兼具可靠性,使得它在紋理辨識佔有不可或缺的 地位。早期LBP 演算法原理如下:首先將圖片轉為灰階影像,假設影像內某區塊灰 階值如圖2.4(a),將區塊內周圍八個像素和中心像素灰階值做比較,若大於或等於 中心像素值,則該像素點標記為 1,否則為 0,如圖 2.4(b),接著將八個位置得到 的值依序乘上2 的次方,如圖 2.4(c),將3 3× 區塊內的值相加即可得到該中心像素 代表的LBP 值,如圖(d),此 LBP 值可反應局部區域內的灰階變化。藉由統計圖片 中每個像素的LBP 值得到直方圖,做為圖片的紋理特徵。
(a) (b) (c) (d) 圖 2.4 基本型 LBP 計算方式
2.2.2 多解析度的局部二元模式
由於LBP 基本型的計算方式侷限於3 3× 的區域無法滿足不同紋理的需要,因 此新型的 LBP 因應而生,名為多解析度的局部二值模式 (Multi-resolution Local Binary Pattern),計算 LBP 的區域從原本的3 3× 矩形擴展為任意區域,並以圓形代 替原本矩形來做計算,使用者可依圖片需求自行選擇圓形半徑及周圍採樣點,圖 2.5 為各種尺寸的局部二值模式,其中 P 代表圓形周圍採樣點的各數,R 代表圓的 半徑大小。
13
14
2.2.3 一致性局部二值模式
由於觀察結果發現,多解析度的LBP 值並非隨機分布,高達90%的 LBP 分佈 於某些特定值,為了除去不常見的LBP 值帶來的雜訊,作者 T. Ojala 提出新的 LBP 計算方式,稱為一致性局部二元模式 (Uniform Local Binary Pattern)。一致性局部 二元模式的LBP 計算方式也是採取圓形,使用者一樣可自行決定半徑大小 R 和周
15 knows what attention is.”,如 William James 所言,每個人都知道什麼是注意力,藉 由注意力的幫助,人類腦部在接收外界大量訊息同時快速且本能的選取出重要的
16
者提出利用局部的、區域的及全域的特徵來描述醒目的區域,並以條件隨機域 (Condition Random Field, 簡稱 CRF) 結合所有特徵藉以得到最佳的醒目區域描
述,並偵測出醒目物體的位置,圖2.7 為簡單的流程示意圖。以下小節我們將介紹 三種醒目特徵抽取方式。
圖 2.7 偵測醒目物體流程圖
以下我們將介紹描述醒目區域的多尺度對比特徵、中心環繞直方圖特徵、色 彩空間分佈特徵,此三種特徵代表了圖片局部的、區域的及全域的醒目特徵,如 下將詳細描述此三種特徵的抽取方式。
2.3.1 多尺度對比特徵 (Multi-scale contrast feature)
第一個特徵為多尺度對比特徵,由於色彩對比度造成的視覺刺激相當大,因此 對比度為視覺注意最常使用的局部特徵,藉由計算圖片各種尺寸的色彩對比度得 到多尺度對比特徵,以下描述多尺度對比的實行步驟。
對原影像擷取6 層高斯金字塔圖,使不同尺寸的影像色彩值皆連續平滑,如圖 2.8(a),接著對每層金字塔圖做對比度的計算,計算方式為計算3 3× 範圍內中心像
素與周圍 8 個像素的差平方,然後將八個值累加即為該像素的對比度,每層的每 個像素都依此方式計算,其結果將如圖2.8(b),其明顯的描繪出美國國旗色彩對比 度,越亮的地方代表對比度越大,最後將每層金字塔圖縮放成原圖大小再做色彩 值累加,將每層金字塔圖做累加可使原本對比度大的地方更被關注,並降低圖片
17
上的不重要的細節,最後將整張圖色彩範圍調整至[0,1] 即得到多尺度對比特徵如 圖2.8(c)。
(a) (b) (c) 圖 2.8 多尺度對比分析圖
2.3.2 中心環繞直方圖特徵 (Center-surround histogram feature)
第二個特徵為中心環繞直方圖特徵,為區域性的醒目特徵,若圖片中有顯著 的物體,我們猜測物體在圖片內佔的面積不會太小,且易於從圖片中區分,因此 我們想找出能擷取圖中醒目區域的特徵。先假設圖中的醒目區域可以用一個矩形 來框出,我們想找出包含此矩形的醒目區域,首先利用不同尺寸的矩形來偵測圖 中各地區,統計中心矩形與其周圍矩形的色彩直方圖,當中心矩形的色彩直方圖 與周圍矩形色彩直方圖差異越大,代表此區域越有可能是醒目區域,以下說明詳 細實行方法。
假設圖片大小長為M寬為N,由於無法得知醒目區域在圖中佔的面積,我們 假 設 各 種 不 同 大 小 的 矩 形 藉 以 描 述 醒 目 區 域 , 矩 形 尺 寸 為k×min( , )M N ,
0.1~ 0.7
k = ,長寬比為{0.5,0.75,1,1.5, 2},藉由矩形的尺寸大小及長寬比變化,
找出造成差異最大的色彩直方圖矩形長寬比,其數學式描述如下:令x 為圖片的像 素,R x 為以 x 像素為中心環繞的矩形, ( )( ) R x 環繞矩形 R 周圍的區域, S N為直
18
19
(a) (b)
圖 2.10 醒目性區域特徵偵測結果,(a)美國國旗原圖,(b)區域性的醒目特徵 結果
2.3.3 色彩空間分佈特徵 (Color spatial-distribution feature)
觀察含有醒目物體的圖片,我們發現當同一顏色集中於圖片部分區域時,人 眼會覺得此區域是顯著的,反之,當同一顏色分散圖片各個區域時,人眼會忽略 這些部分,因此色彩的空間分佈也影響圖片的顯著性,此即為我們的第三個特徵,
詳細計算方法如下。
為了描述圖片的色彩空間分佈,我們先利用高斯混合模型 (Gaussian Mixture Models, 簡稱 GMM) 來計算色彩的空間變異,令C為圖片色彩數目,I 為圖片中x
20
21
藉由以上三種特徵來描述出圖片局部的、區域的、全域的醒目區域,並輔以 條件隨機域及訓練資料庫,找出三種特徵的最佳權重來將特徵做線性結合即得到 圖片的醒目區域。在T. Liu 文章中所得到的局部性的特徵權重為 0.24、區域性的特 徵權重為 0.54、全域性的特徵權重為 0.22,代表區域性的特徵所觀察到的醒目性 最為正確,此也符合人類視覺上的判斷。
下一章節我們將描述本文如何利用此方法得到的醒目性來輔佐物件辨識,使 物件辨識基於人眼感知,並藉由醒目性的輔助降低外在背景的干擾,使辨識準確 率上升。
22
Chapter 3 辨識方法分析
由第二章的特徵抽取可發現,直接對整張圖做特徵抽取並直接分類的優點有 速度快、不受物體位置改變影響、適合即時分析,但直接採用整張圖片的特徵則 易受外界背景干擾,造成物件辨識失敗。因此我們將利用醒目性偵測來找出顯著 物體,藉由醒目性偵測結果做為特徵相似度比較的權重,降低外在背景的干擾情 形,特徵方面則選取LBP 特徵及色彩特徵,將兩種特徵的卡方距離得到新的卡方 距離,最後將新的距離置入K-最鄰近分類器做分類,判別物件辨識是否成功。
3.1 偵測醒目區域
為了測試偵測醒目區域演算法的效果,我們採用資料庫Caltech 256 來實驗是 否此演算法能正確找出圖片的醒目物體,此資料庫的圖片共分成 256 類,每個種 類的照片至少有82 張以上,每張圖片尺寸不固定且圖片皆為彩圖,由於每張圖片 有著明顯類別,因此常被視為物件辨識資料庫。
此小節我們想藉由背景複雜度探討偵測醒目區域演算法的效果,因此我們從 256 類中隨意選出 10 類,每類選取 10 張,5 張為單調背景,5 張為複雜背景,觀
此小節我們想藉由背景複雜度探討偵測醒目區域演算法的效果,因此我們從 256 類中隨意選出 10 類,每類選取 10 張,5 張為單調背景,5 張為複雜背景,觀