本研究之影像檢索系統的定位功能與一般常用來定位的裝置GPS(Global
Positioning System)或羅盤的不同點有下:在高樓之間、橋梁下方,GPS 容易訊號不良,
羅盤會因為鋼筋建築物影響而有角度偏差的現象,影像檢索則無此限制;另外,GPS 與 羅盤只能在目標物旁當場查詢出所在位置,而影像檢索可以在使用者不在目標物身旁仍 然可以作檢索,相較之下,以影像來做檢索與定位有其重要性。
另外,因為基於特徵點擷取與對應的方法不僅能夠提供圖片檢索的功能,還能夠藉 由對應點的資訊,做空間的定位,藉由估算出使用者所看見的影像與資料庫中的影像之 間相機位置的轉換,可以更進一步應用在Augment Reality 下,例如:古蹟導覽、商店 3D 的廣告。一個古蹟導覽的可能場景如下:當使用者拿著手機所附的相機朝著一棟古 蹟拍攝,經過影像搜尋,可以判斷這棟建築影像是對應到資料庫中哪一棟建築的影像,
螢幕更可進一步顯示這棟建築的文字介紹,以及古代人們生活在此處的三維模型,利用 Augment Reality 技術將影像顯示在古蹟的門口,而且可以隨著使用者的手機照到這棟建 築物的不同方向,變換三維模型的角度,使導覽更加活靈活現,充滿趣味。
1.3 相關研究
以內容為主的影像檢索,是由使用者提供一張欲搜尋的類似或相關的圖片,然後根 據影像的顏色、紋理(texture)、形狀(shape)或其它特性來做影像的檢索。而除了使用 spatial domain 的特性外,還有將影像資訊轉換到 frequency domain 尋找特徵係數的做法,例如 wavelet-based 演算法[3]
有關於影像檢索的論文,可以分成兩大類,一類是影像的分類(classification),一類 是物體的辨識(identification)。
影像的分類方面,Feng Jing 等人提出一套基於以區域為主的影像檢索架構[6]:使 用JSEG 做影像的切割,以 color moment 來做區域的描述,並使用區域權重的方式,動 態的調整、學習人對影像上的哪個區域是有興趣的,就給定比較高的權重,並以 Generalized Lloyd Algorithm 將區域分群,建立 codebook,以 codeword 與此 codeword 的 權重來表示這張影像,並使用Earth Mover’s Distance(EMD)來比對兩張影像的相似度。
這類型影像檢索的目標是要將影像分類,”A retrieved image is considered a match if it belongs to the same category as the query image”,針對已經分類完成的 database,如:
COREL,測試他們分類的能力,這種資料庫中會含有人為分門別類好的影像,例如:氣 球、蝴蝶、狗、花、獅子、山、火車、瀑布等等種類。
Jutta Willamowski 等人則使用了 affine invariant 描述子來描述影像[7],先對描述子 做向量量化,接著使用Naïve Bayes 與 SVM(support vector machine)等等分類器做分類,
目的是要分別出臉、樹木、車子、電話、腳踏車、書等等的圖片類別。
物體的辨識(identification)方面,Wen Wu等人針對街上的廣告招牌做辨識[8],查詢 影像是人工在影像上標示出的廣告牌,對資料庫中的影像或是影片做搜尋,方法是對欲 搜尋的影像做salient區域偵測, 再對salient region找canny edge、SIFT特徵點,再比較影 像分割的結果,從資料庫中影像的街道上的景物找出相同廣告牌的圖案與位置。
Groeneweg等人,使用直接以整張影像的rgb color histogram來做特徵[13],辨識ZuBud資料 庫有94%的辨識率,而這種方式在另一個影像資料庫Roeterseiland database只能達到24%
的辨識率,因為ZuBud資料庫中建築物拍攝的視角、與天氣變化都不是很明顯,資料庫 影像與查詢影像顏色資訊太相近等因素造成的。
另外一個方式是使用區域性(local)的特徵,例如:Obdrzalek等人對建築物做辨識[9],
從影像上擷取出local affine特徵,接著將特徵做光學與幾何的標準化,之後以compact DCT-based representation來表示找到的特徵,使用DCT(discrete cosine transform)的係數當 作特徵區域描述子來做比對,因為使用DCT來做描述子本身無法抗視角、旋轉等變化,
缺點是對於一個特徵區域,需要儲存多個local affine frame來做比對,越複雜的區域就要
使用越多的local affine frame來表示。Gerald Fritz使用MAP(Maximum A Posteriori)萃取出 較具區辨力的SIFT特徵i-SIFT來對建築影像做辨識[14]。
當使用特徵點偵測與對應技術來做影像檢索時,在相似的影像當中,我們感興趣的 區塊,會隨著相機在不同的時間、位置、角度拍攝,而改變其位置、大小、光線、形狀 等等性質,造成比對的困難,而Scale Invariant Feature Transform (SIFT)[4, 5]提供了人們 一個好的特徵比對資訊,因此成為了目前經常被使用來尋找強健的特徵點方法。它結合 了scale invariant region detector 和一個以 gradient distribution 為基礎的 descriptor。然而,
SIFT 只能處理 similarity transformation,無法應付在 wide-baseline 下因視角變化下所造 成的幾何變形,故為了強化特徵比對,發展能抗幾何變形的CBIR 檢索技術,本研究採 用affine-invariant region detector,affine-invariant region detector 所萃取出來的特徵區域,
來做影像的比對。
本研究挑選特徵偵測子時選擇MSER,因為建築物上含有較多較一致性的 (Homogeneous)且含有明顯邊界的區域,相較於其他的 affine invariant 特徵偵測子如 Hessian-Affine、Harris Affine 有較好的表現[3]。
選擇特徵描述子方面本研究選擇使用phase-based 的 Zernike Moment,Chen Z.與 Sun S.K.在[2]有針對目前最常見的特徵描述子 SIFT、PCA-SIFT、GLOH、steerable 與
phase-based Zernike Moment 在影像模糊、亮度改變、雜訊、JPEG 壓縮、旋轉、位移、
視角改變等因素下的特徵區辨能力做比較,而Zernike Moment 在這些因素之下的特徵點 比對準確度,明顯優於其他的特徵描述子。 料分成兩部分:本研究自行建立的國立交通大學建築影像資料庫以及Swiss Federal Institute of Technology 所建立的 ZuBud(Zurich Buildings Database)兩個建築影像資料 庫。
影像檢索模組 影像資料庫
特徵區域擷取 特徵擷取模組
特徵區域描述
特徵擷取模組 查詢影像
特徵區域擷取
|||||||||||||||||
|||||||||||||||||
|||||||||||||||||
|||||||||||||||||
|||||||||||||||||
|||||||||||||||||
特徵區域描述 資料庫產生模組
去除不穩定特徵
特徵分群並建立 搜尋資料結構
檢索結果
圖1、方法流程圖