緒論 - 以內容為基礎的建築物影像檢索

本研究之影像檢索系統的定位功能與一般常用來定位的裝置GPS(Global

Positioning System)或羅盤的不同點有下：在高樓之間、橋梁下方，GPS 容易訊號不良，

羅盤會因為鋼筋建築物影響而有角度偏差的現象，影像檢索則無此限制；另外，GPS 與羅盤只能在目標物旁當場查詢出所在位置，而影像檢索可以在使用者不在目標物身旁仍然可以作檢索，相較之下，以影像來做檢索與定位有其重要性。

另外，因為基於特徵點擷取與對應的方法不僅能夠提供圖片檢索的功能，還能夠藉由對應點的資訊，做空間的定位，藉由估算出使用者所看見的影像與資料庫中的影像之間相機位置的轉換，可以更進一步應用在Augment Reality 下，例如：古蹟導覽、商店 3D 的廣告。一個古蹟導覽的可能場景如下：當使用者拿著手機所附的相機朝著一棟古蹟拍攝，經過影像搜尋，可以判斷這棟建築影像是對應到資料庫中哪一棟建築的影像，

螢幕更可進一步顯示這棟建築的文字介紹，以及古代人們生活在此處的三維模型，利用 Augment Reality 技術將影像顯示在古蹟的門口，而且可以隨著使用者的手機照到這棟建築物的不同方向，變換三維模型的角度，使導覽更加活靈活現，充滿趣味。

1.3 相關研究

以內容為主的影像檢索，是由使用者提供一張欲搜尋的類似或相關的圖片，然後根據影像的顏色、紋理(texture)、形狀(shape)或其它特性來做影像的檢索。而除了使用 spatial domain 的特性外，還有將影像資訊轉換到 frequency domain 尋找特徵係數的做法，例如 wavelet-based 演算法[3]

有關於影像檢索的論文，可以分成兩大類，一類是影像的分類(classification)，一類是物體的辨識(identification)。

影像的分類方面，Feng Jing 等人提出一套基於以區域為主的影像檢索架構[6]：使用JSEG 做影像的切割，以 color moment 來做區域的描述，並使用區域權重的方式，動態的調整、學習人對影像上的哪個區域是有興趣的，就給定比較高的權重，並以 Generalized Lloyd Algorithm 將區域分群，建立 codebook，以 codeword 與此 codeword 的權重來表示這張影像，並使用Earth Mover’s Distance(EMD)來比對兩張影像的相似度。

這類型影像檢索的目標是要將影像分類，”A retrieved image is considered a match if it belongs to the same category as the query image”，針對已經分類完成的 database，如：

COREL，測試他們分類的能力，這種資料庫中會含有人為分門別類好的影像，例如：氣球、蝴蝶、狗、花、獅子、山、火車、瀑布等等種類。

Jutta Willamowski 等人則使用了 affine invariant 描述子來描述影像[7]，先對描述子做向量量化，接著使用Naïve Bayes 與 SVM(support vector machine)等等分類器做分類，

目的是要分別出臉、樹木、車子、電話、腳踏車、書等等的圖片類別。

物體的辨識(identification)方面，Wen Wu等人針對街上的廣告招牌做辨識[8]，查詢影像是人工在影像上標示出的廣告牌，對資料庫中的影像或是影片做搜尋，方法是對欲搜尋的影像做salient區域偵測, 再對salient region找canny edge、SIFT特徵點，再比較影像分割的結果，從資料庫中影像的街道上的景物找出相同廣告牌的圖案與位置。

Groeneweg等人,使用直接以整張影像的rgb color histogram來做特徵[13]，辨識ZuBud資料庫有94%的辨識率，而這種方式在另一個影像資料庫Roeterseiland database只能達到24%

的辨識率，因為ZuBud資料庫中建築物拍攝的視角、與天氣變化都不是很明顯，資料庫影像與查詢影像顏色資訊太相近等因素造成的。

另外一個方式是使用區域性(local)的特徵，例如：Obdrzalek等人對建築物做辨識[9]，

從影像上擷取出local affine特徵，接著將特徵做光學與幾何的標準化，之後以compact DCT-based representation來表示找到的特徵，使用DCT(discrete cosine transform)的係數當作特徵區域描述子來做比對，因為使用DCT來做描述子本身無法抗視角、旋轉等變化，

缺點是對於一個特徵區域，需要儲存多個local affine frame來做比對，越複雜的區域就要

使用越多的local affine frame來表示。Gerald Fritz使用MAP(Maximum A Posteriori)萃取出較具區辨力的SIFT特徵i-SIFT來對建築影像做辨識[14]。

當使用特徵點偵測與對應技術來做影像檢索時，在相似的影像當中，我們感興趣的區塊，會隨著相機在不同的時間、位置、角度拍攝，而改變其位置、大小、光線、形狀等等性質，造成比對的困難，而Scale Invariant Feature Transform (SIFT)[4, 5]提供了人們一個好的特徵比對資訊，因此成為了目前經常被使用來尋找強健的特徵點方法。它結合了scale invariant region detector 和一個以 gradient distribution 為基礎的 descriptor。然而，

SIFT 只能處理 similarity transformation，無法應付在 wide-baseline 下因視角變化下所造成的幾何變形，故為了強化特徵比對，發展能抗幾何變形的CBIR 檢索技術，本研究採用affine-invariant region detector，affine-invariant region detector 所萃取出來的特徵區域，

來做影像的比對。

本研究挑選特徵偵測子時選擇MSER，因為建築物上含有較多較一致性的 (Homogeneous)且含有明顯邊界的區域，相較於其他的 affine invariant 特徵偵測子如 Hessian-Affine、Harris Affine 有較好的表現[3]。

選擇特徵描述子方面本研究選擇使用phase-based 的 Zernike Moment，Chen Z.與 Sun S.K.在[2]有針對目前最常見的特徵描述子 SIFT、PCA-SIFT、GLOH、steerable 與

phase-based Zernike Moment 在影像模糊、亮度改變、雜訊、JPEG 壓縮、旋轉、位移、

視角改變等因素下的特徵區辨能力做比較，而Zernike Moment 在這些因素之下的特徵點比對準確度，明顯優於其他的特徵描述子。料分成兩部分：本研究自行建立的國立交通大學建築影像資料庫以及Swiss Federal Institute of Technology 所建立的 ZuBud(Zurich Buildings Database)兩個建築影像資料庫。

影像檢索模組影像資料庫

特徵區域擷取特徵擷取模組

特徵區域描述

特徵擷取模組查詢影像

特徵區域擷取

|||||||||||||||||

特徵區域描述資料庫產生模組

去除不穩定特徵

特徵分群並建立搜尋資料結構

檢索結果

圖1、方法流程圖

在文檔中以內容為基礎的建築物影像檢索 (頁 10-14)