章節介紹

第一章緒論

1.4 章節介紹

在以下章節中，第二章首先介紹建築物偵測與其相關研究，並討論不同方法的優缺點；第三章介紹本論文如何以紋理特徵為基礎來偵測建築物，並且將研究延伸至建築物影像分類與特定建築物偵測；第四章是以第三章所提出建築物偵測的方法來驗證其效能；第五章是結論及對未來的展望。

第二章

而在影像索引(image retrieval)以及影像瀏覽(image browsing)方面也有相關的研究主題，希望能夠利用一些低階的特徵如顏色（color），形狀(shape)，

紋理(texture)…等，再ㄧ堆影像中找到符合自己語義觀念(semantic concept) 的影像，例如[18]分別利用了紋理和邊緣的特徵來將影像的語意取出，判斷是否有建築物的存在，紋理特徵是取局部(local)的特徵，而邊緣特徵則是取總體 (global)的特徵，紋理的作法為首先將整個影像切割為 3x2 或 2x3 的區塊，然後取出區塊中紋理的特徵，接著利用支持向量機(SVM)分類器來判斷每個區塊是否為建築物區塊，而判斷是否為建築物影像則使用了一個簡單的投票機制，當被判定為建築物區塊的數量比非建築物區塊多時則此影像被認定為建築物影像，而邊緣特徵的則是取整張影像的邊緣直方圖(histogram)，總共使用了 72 個 bin 來表示，然後再利用支持向量機(SVM)分類器來判斷是否為建築物影像，不過此方法對於建築物區域較小的影像較難判斷其為建築物影像。

第三章

建築物區域之偵測與建築物影像分類

本章敘述從影像中找出建築物區域並將建築物影像分類出來的方法，方法首先將影像中所有可能為部分建築物的小區塊找出，然後再將相似的區塊合併為一候選區域，最後從這些候選區域中篩選出為建築物的區域，接著可利用上述 2 階段的結果來判斷此影像是否為建築物影像。於本章 3.1 節介紹如何從影像找出建築物區域；3.2 節介紹如何判斷影像是否為建築物影像。

3.1 建築物區域之偵測

本節敘述如何在影像中找出建築物的區域，圖 3-1 是建築物區域偵測流程圖。在 3.1.1 小節介紹建築物區塊的偵測，在 3.1.2 小節介紹建築物區域之偵測方法。

圖 3.1 建築物區域偵測流程圖

3.1.1 建築物區塊偵測

首先將原圖切成相同尺寸的區塊，每塊區塊以紋理(texture)為特徵取出 48 維的特徵向量，並以事先由支持向量機(support vector machine) 訓練的建築物區塊模型來判斷哪些區塊為建築物區塊。

(a) (b)

圖 3.2 建築物區塊偵測(a)原影像，(b)建築物區塊偵測結果。

建立建築物區塊模型方法及步驟:

步驟 1. 取得訓練建築物區塊模型所需資料

選擇一些不同類型的建築物影像，接著以人工從影像中切出建築物與非建築物的區域，再將這些區域切成大小相同的區塊，用來作為訓練建築物區塊模型所需之資料。

(a) (b) (c) (Gabor texture)已經被用在許多內容語意(semantic content)與分類

(classification)方面的研究[14][15]，賈柏過濾器(Gabor filter)已被證明為空間(space)域與頻率(frequency)域間轉換的理想方法，並且有考慮到方向 (orientation)與尺度(scale)的因素。

二維的賈柏函數(Gabor function)定義如下:

g(x,y)為母賈柏小波函數(mother Gabor wavelet)，藉由適當的擴大(dilations) 和旋轉(rotations)動作可得到一組濾波器組(filter bank)，其生成函數如下:

影像I(x,y)的賈柏轉換(Gabor transform)定義如下:

^W

_mn

⁽ ^x ^, ^y ⁾ ⁼ ∫ ^I ( ) ( ^x ^, ^y ^g

^*_mn

^x ⁻ ^x

₁

^, ^y ⁻ ^y

₁

) ^dx

₁

^dy

₁ (3) 其中*表示完全共軛(complete conjugate)。

而紋理特徵(texture feature)的取法為取

^w

_mn

( ) ^x ^, ^y

所有係數之均值

(mean)

μ

_mn與標準差(std.)

σ

_mn，例如本實驗是以6種方向(orientation)與4 種尺度(scale)組合之濾波器組來實作，則所取的賈柏紋理特徵表示為:

f = [ ^μ

₀

^, ^σ

₀

^, ^μ

₁

^, ^σ

₁

^,..., ^μ

₂₃

^, ^σ

₂₃

]

(4) 特徵相量(feature vectors)之維度為48維。

步驟 3. 是否為建築物區塊之判斷

而是否為建築物之判斷，使用的是廣為大家所使用的分類器支持向量機 (support vector machine)，支持向量機這種學習的技術是由V. Vapnik於1985 年提出，SVM不像一般傳統學習技術以訓練資料的分類誤差最小為目標，而是使測試資料的分類誤差在一個機率上界以下，此機器學習技術能夠將錯誤率的上限最小化。支持向量機在圖形分類(pattern classification)問題上不需要加入領域知識，且擁有不錯的效能。

支持向量機(SVM)介紹:

我們利用Lagrange Multiplier Method將上面式子轉為 : L

_∑ [ ]

我们去最大化上式，使用二次規方法(quadratic programming method)來解決，

中間的解法省略，最後可以得到此超平面的判斷式(decision function)如下:

( ) sgn( .

⁰

)

(8)

其中x為class +1 與 class -1的支持向量(support vector)。

但如果兩個類別是無法線性分割(non-linear separable)的話，我們則必須透過核心函式(kernel function)將資料投影到更高維度的空間，如下圖所示，

而到底要如何選擇核心函式來使用其實沒有特定的方法，通常就是經由實驗來選結果最好的那組核心函式來使用。

相同切割區域(segmentation region)的區塊就視為同一

，動作如圖 3.6。

擇

3.1.2 建築物區域偵測之方法

步驟 1. 找出建築物的候選區域

首先將影像中偵測出來的區塊依據顏色、紋理特徵來分群，將相似的區塊分為同一群，並刪除較小的群，再以最小矩形將同一群中的區塊框為ㄧ區域，則這些區域即建築物的候選區域，而分群的方法是使用影像切割技術 JSEG[12]先對影像做切割，而位於

群

圖3.6 建築物候選區域之選取

JSEG影像切割技術介紹:

JSEG[12]為ㄧ種區域擴張與融合的影像切割方法，利用顏色與紋理為特徵來進行分割，大致上分成2個主要的階段色彩空間量化(color space quantization) 與空間切割(spatial segmentation)，方法概要流程圖如下圖3.7

圖3.7 JSEG彩色影像切割流程圖

1. 色彩空間量化

首先將顏色量化成不同大小的色彩等級，而量化後的值將被影像區域所使因此影像中每個像素(pixel)的值將被量化的結果所取代，量化的步驟如下:

(1) 利用一個非線性的演算法 Peer Grouping filter[17]，將影響模糊並達到

用，

(2) 經過 Peer Grouping filtering 後，每個像素值具有一個權重值，越平滑

使用

的區域有越高的權重值。

(3) 使用一種變形的 General Lloyd Algorithm(GLA)[t5]的量化方法，所的色彩空間為 CIE LUV 色彩空間，其顏色差異距離公式定義如下:

3. 區域成長(region growing)

4. 區域合併(region merging) (support vector machine)所訓練的建築物區域模型來判斷哪些候選區域為建築物區域，建築物區域模型所選用的特徵與

測

(a) (b)

圖3.10 篩選出建築物區域(a)建築物候選區域，(b)建築物區域篩選結果步驟3. 建築物區域偵測結果

因為在做影像切割有時會將一棟建築物切成2個以上的區域，因此最後會有2 個以上的方塊來表示同一棟偵測出之建築物，視覺上不適於表達偵測結果，因此我想以更貼近建築物輪廓的方式來表示偵測的結果，利用剛剛影像切割的結果，

選出建築物區域裡擁有最多建築物區塊的切割區域(segmentation region)來表示所偵測出的建築物，如圖3.11(b)即最後偵測結果表示圖。

(a) (b)

圖3.11 建築物區域偵測(a)建築物區域，(b)建築物偵測結果

下圖列出一些不同類型建築物區域偵測的結果，左邊為原影像而右邊為偵測的結果。

圖 3.12 建築物區域偵測結果(一)

圖 3.13 建築物區域偵測結果(二)

圖 3.14 建築物區域偵測結果(三)

3.2 建築物影像分類

本節我將介紹如何從建築物偵測動作中判斷此影像是否為建築物影像之方法，利用此方法可從一堆影像中有效的挑出建築物影像，方法首先會使用到建築物偵測的中間結果，由建築物偵測的第 2 步驟可將所有候選區域分成建築物區域與非建築物區域 2 種，我們來計算這 2 種區域裡所包含的建築物區塊各別有多少，然後比較哪種區域所含的建築物區塊較多，建築物區域擁有較多的區塊則判定此影像為建築物影像，反之則判定為非建築物區域，例如下圖 3.15 中建築物區域有 56 個區塊而非建築物區域有 24 個區塊，所以此圖被認定為建築物影像。

圖 3.15 區域中之建築物區塊

此方法的想法是認為在建築物影像中通常會有較多的建築物區塊被辨出，若建築物區塊有絕佳的偵測結果，則區塊數量差異應該是非常明顯的，而在非建築物影像中即使有建築物區塊被偵測出，也會根據偵測第 2 步驟的結果將他判定為非建築物所屬區塊，所以此方法之正確性與建築物區塊及區域偵測結果有非常緊

3.3 特定類型建築物偵測

本節我要針對特定類型的建築物來偵測，這個動作能更精準的取出影像中的語意，讓影像有更明確的分類，我的作法仍是使用紋理這個特徵來分類，作法為在訓練特定建築物模型時，支持向量機中的正面資料為特定建築物的區塊，而反面資料為所有其他類型建築物的區塊，執行建築物區塊偵測時只會在之前所取出的建築物區域中偵測，當執行區塊偵測完畢後，計算所偵測出來的區塊數佔所有建築物區域中區塊數之比例，當大過一定比例就認定為此種類型建築物的影像，

： 都市方形小窗戶的建築物 我找了幾種類型建築物做測試，如下 1.

戶建築物（上）訓練資料（下）偵測結果

圖 3.16 都市方形小窗

2.古羅馬式建築物(柱子)

圖 3.17 古羅馬式建築物(柱子)（上）訓練資料（下）偵測結果

3. 哥德式建築物

圖 3.18 哥德式建築物（上）訓練資料（下）偵測結果

4. 都市建築物

圖 3.19 都市建築物（上）訓練資料（下）偵測結果

第四章

驗結果

在這章中我針對第三章所提的方法，設計實驗來評估此方法的在偵測建築物區域與建築物分類的效能。對於實驗的平台，在硬體方面使用了 Intel Pentium-4 1.8Ghz core dual 中央處理器的個人電腦，搭配 1 Gigabytes 主記憶體，作業系統為 Microsoft Windows XP 專業版，程式的執行使用 MATLAB 7.1。

本節我將測試在不同大小的區塊以及區塊是否有重疊的情況下對偵測結果的影響與本方法之偵測效能，我以偵測結果與正確結果(ground-truth)之間重疊面積的多寡來做為偵測效能之依據，來估計召回率(recall rate)與正確率 (precision rate)，召回率與正確率之算法如下:

首先以沒有重疊的區塊來測試，區塊大小由 8x8 到 32x32 共 6 種，

1 不重疊區塊測召回率與

率率 (秒/張)

表 4. 之區域偵正確率

區塊大小區域召回區域正確時間

8x8 67.90% 76.86% 62

12x12 70.73% 79.78% 35 16x16 73.99% 80.32% 24 20x20 68.32% 77.66% 18 24x24 64.82% 75.50% 15 32x32 61.68% 76.75% 12

圖 4.1 不重疊區塊之區域偵測召回率與正確率曲線圖

接下來使用重疊(50%)的區塊來測試，區塊大小由 8x8 到 64x64 共 10 種，

2 重疊區塊之召回率與正

率率 (秒/張)

表 4. 區域偵測確率

區塊大小區域召回區域正確時間

8x8 70.38% 79.04% 173

12x12 71.56% 79.43% 80 16x16 75.75% 78.88% 51 20x20 74.77% 77.72% 37 24x24 75.70% 77.24% 28 32x32 74.75% 77.60% 22 40x40 70.90% 74.19% 17 48x48 67.27% 72.48% 15 56x56 64.11% 73.37% 14 64x64 64.25% 74.21% 12

圖 4.2 重疊區塊之區域偵測召回率與正確率曲線圖

實驗結果比較與分析：

圖 4.3 區塊重疊與不重疊下召回率之比較曲線圖

圖 4.4 區塊重疊與不重疊下正確率之比較曲線圖

由上圖來看，召回率在區塊重疊下明顯比不重疊要好，且區塊大小 16x16

在文檔中影像中建築物偵測之研究 (頁 12-0)

第一章 緒論

1.4 章節介紹

第二章

第三章

建築物區域之偵測與建築物影像分類

3.1 建築物區域之偵測

3.1.1 建築物區塊偵測

W

( x , y ) = ∫ I ( ) ( x , y g

x − x

, y − y

) dx

dy

w

( ) x , y

μ

σ

f = [ μ

, σ

, μ

, σ

,..., μ

, σ

]

∑ [ ]

( ) sgn( .

)

3.1.2 建築物區域偵測之方法

3.2 建築物影像分類

3.3 特定類型建築物偵測

第四章

驗結果

第一章緒論

^W

⁽ ^x ^, ^y ⁾ ⁼ ∫ ^I ( ) ( ^x ^, ^y ^g

^x ⁻ ^x

^, ^y ⁻ ^y

) ^dx

^dy

^w

( ) ^x ^, ^y

f = [ ^μ

^, ^σ

^, ^μ

^, ^σ

^,..., ^μ

^, ^σ

_∑ [ ]