• 沒有找到結果。

第一章 前言

1.4 論文架構

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

的關係。

(2) 線上處理階段(On-line Stage)

 查詢處理階段(Query Processing Phase) :針對 Image Proximity Network,利用 Community Search[27]概念中的 Greedy 演算法運算後,產生包含查詢影像且緊 密連結的 Subgraph。詳細的 Community Search 的 Greedy 演算法,我們將會在 第三章中介紹。

1.3 研究貢獻

我們的研究主要貢獻在於,將既有的影像內容檢索技術融入了Social Network的概念,

將影像建立Proximity Network,並藉由Community Search技術,達到多張影像查詢的功 能,找出多張查詢影像和其它影像特徵值之間隱含的關係。

因此本論文的目的在於透過多張查詢影像的共同低階特徵關係,檢索出更多相似影 像,並應用Community Search的概念來實現影像檢索。實驗結果證明我們所提出的方法 的確能達到多張查詢影像的功能,並且能快速的擷取到相似的影像。

1.4 論文架構

本論文其餘章節架構如下:第二章為相關文獻的探討,介紹影像特徵、影像內容檢 索(Content-Based Image Retrieval)的概念;第三章詳細說明特徵擷取的方法與相似度的計 算及如何利用Community Search的問題,來解決多張影像查詢後的結果更加符合使用者 需求;第四章為相關實驗分析結果的討論;第五章將對本論文做結論並對未來的研究做 一簡單的敘述。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二章 相關研究

以內容為基礎的影像檢索 影像(CBIR)主要分成三個步驟︰影像低階特徵擷取 (Feature Extraction)、內容描述(Content Description)及搜尋與檢索(Search and Retrieval)。

在研究方法中使用MPEG-7所定義的視覺特徵的描述子描述影像的特徵值及SIFT,來做 為檢索的特徵。

2.1 MPEG-7

隨著多媒體技術的發展,面對大量的資源,準確且有效率的搜尋變得越來越重要了。

因此為了滿足多媒體資料的搜尋、瀏覽、篩選等需求,於1996年10月MPEG (Moving Picture Experts Group)組織制定了MPEG-7 [15][18][21]標準。

目 前 MPEG 組 織 制 定 的 標 準 有 : MPEG-1 、 MPEG-2 、 MPEG-4 、 MPEG-7 與 MPEG-21。 MPEG-7與其他的MPEG主要差別在於,MPEG-1、MPEG -2、MPEG -4重點 為研究視訊和音訊的壓縮編碼技術,而MPEG-7目的是定義了一個多媒體內容描述的標 準,如圖2.1所示,主要的重點放在更有效地描述多媒體特徵,目標為提供基於內容之影 像內容檢索,在應用範圍上只要是與影音資訊搜尋比對相關的應用皆可使用。

如同圖2.2中表示了MPEG-7其中的應用,藉由擷取特徵來建立MPEG-7描述,接著 採用MPEG-7編碼器來編碼並儲存與傳送到媒體,透過搜尋引擎和條件過濾出使用者的 需求,並將結果送至應用程式。

MPEG-7對多媒體內容描述標準化了描述器(Descriptor,D)、描述方案(Description Scheme,DS)、描述定義語言(Description Definition Language,DDL),以及對描述 的方法和工具,DDL、DS與Descriptor 的關係如圖2.3 所示,以下簡述MPEG-7 提供的 各項工具:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(1) Data: 是MPEG-7所要描述的影像資料,不限定儲存方式或是某些編碼後的資 料。

(2) Feature: 是從Data中擷取出來的特徵,與其它Data做差異化的屬性,是具有意 義的。

(3) Descriptor: Descriptor (D)是在MPEG-7中對Feature的定義,定義出如何表示 Feature 的語法以及語意,例如色彩分佈、紋理、物件輪廓、物件移動軌跡等 等。

(4) Description Scheme(DS): 定義結構,可以定義出各個元件(Component)之間的 語法和語意,即用來組合基礎特徵(Descriptor或Description Scheme)的樹狀資料 結構。

(5) Description: 是Description Scheme的Instantiation,一組描述內容,儲存裝置及 內容使用的結構及內容資料。

(6) Description Definition Language: 用來自行定義新的D或DS的MPEG-7語言,

是根據XML Schema標準而來,主要目的是讓使用者能根據不同需求,擴充或 修改已經有的DS。

(7) Visual[17][22]: 包含顏色、紋路、形狀、以及移動等相關低階特徵。

(8) Reference Software: 簡稱XM,為eXperimentation Model的縮寫。MPEG-7標準 定義範圍內不包含特徵比對演算法,但XM提供了一套C++軟體,展示各D及 DS的可行性與搜尋準確度。

2.2 影像低階特徵值

在人類的視覺裡可以很容易的判斷出一張影像的主題,而以電腦科學的角度來思考,

要如何來判斷影像的內容及影像之間的是否相似,此時則必須依賴影像的低階特徵來描 述圖片的內容。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

在影像低階特徵部份採用了 MPEG-7 所定義的 Visual 的描述子[24][30][31],Visual 描述子目前大致區分成:色彩、紋理、形狀、移動。我們採用以下七種特徵值,足以充 分描述圖片的特性:色彩佈局 (Color Layout)、可調色彩 (Scalable Color)、色彩結構 (Color Structure) 、主要 色 彩 (Dominant Color) 是屬 於色 彩 類 的特 徵 值 ;齊 次 性 紋理 (Homogeneous Texture)、邊界直方圖(Edge Histogram)屬於紋理類的特徵值;而區域形狀 (Region Shape) 則 是 屬 於 形 狀 類 的 特 徵 值 ; 另 外 我 們 也 採 用 了 尺 度 不 變 特 徵 轉 換 (Scale-Invariant Feature Transform ,SIFT)為描述影像的局部性特徵。以下針對這些影像低 階特徵值做簡單的介紹:

(1) 色彩佈局描述(Color Layout Descriptor):用來描述色彩在空間上的分佈狀態,

所採用的顏色空間是 YCbCr,也就是 MPEG 與 JPEG 壓縮編碼中所用的色彩 空間。

(2) 可調色彩描述(Scalable Color Descriptor):用來記錄整張影像在 HSV 色彩空 間 的 Color Histogram , 並 統 計 顏 色 出 現 的 次 數 , 對 於 影 像 對 影 像 比 對

(Image-to-Image Matching)的搜尋方式很有幫助。

(3) 色彩結構描述(Color Structure Descriptor):描述影像的顏色內容(Color Content)

和特徵,色彩空間的結構是以 4×4 像素(Pixels)為單位的方塊在影像內滑動,

因此可以記錄相鄰畫素之間的顏色資訊及色彩直方圖,CSD 所使用的是 HMMD 的色彩空間。

(4) 主要色彩描述(Dominant Color Descriptor):主要的目的是描述一張影像中的 代表性顏色,只要用影像中某區塊中的顏色特徵就可以呈現整張影像的顏色訊 息,這對基於顏色相似度的影像檢索是相當有用的。

(5) 同質性紋理(Homogeneous Texture):主要的目的是可以描述出影像中紋理及材 質的特性,此特徵值將紋理以量化的方式來表示。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(6) 邊緣直方圖(Edge Histogram):主要的目的是描述影像邊緣的空間分佈,可以擷 取出空間邊界的局部性資訊,除了影像的色彩之外,人類視覺對於邊緣(Edge) 感受也明顯,因此邊緣直方圖在不均勻的邊緣空間分佈上的影像比對上也是一 種有用的影像特徵。

(7) 區域形狀(Region Shape):此特徵值主要的目的可以用來描述物件的形狀,能夠 精簡及有效率的描述一個物件的多個區域,包含單一封閉式區域、複雜的形狀 或是不相連的區域,所以在影像切割後仍然可以保留原始影像的特性,比對上 也有不錯的效果。

(8) 尺度不變特徵轉換(Scale-Invariant Feature Transform ,SIFT):為 2004 年由 Lowe 所提出的特徵點演算法[14],用來偵測與描述影像中的局部性特徵,在 尺度空間偵測極值,提取出其位置、尺度、視角、光度、旋轉變化的不變性,

並對於光線遮蔽、影像雜訊、物體移動的視角改變等的容忍度也相當高,達到 良好的比對效果。

2.3 影像內容檢索(Content-Based Image Retrieval)系統簡介

由於傳統的影像搜尋方式需要耗費大量的人工來描述且比較無法滿足使用者在影 像搜尋上的需求,因此後來提出許多關於影像檢索技術的研究,由原本的文字查詢發展 至利用影像的色彩、紋理、形狀...等低階特徵值做為查詢的依據,藉由特徵值的比對,

來達到更好的檢索效果,在本節中將針對幾個著名的系統做個簡單的介紹。

2.3.1 QBIC

QBIC (Query By Image Content) [4][19]是由 IBM Almaden 研究中心所設計,是最早 以內容為基礎的影像檢索系統,QBIC 系統提供顏色及形狀兩種查詢介面,使用者可以 在色盤中直接挑選顏色或是在繪圖區畫下簡單的外型做為查詢的依據。

(1) 顏色查詢(Color Search):

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

主要以顏色的分佈比例來進行影像查詢,如圖2.5 所示,查詢介面分成左右兩 部分,左邊為調色盤,使用者可以利用調色盤來挑選顏色,也可調整明亮度,

或設定 RGB 三原色的比例來選擇顏色,顏色選定後,會在右上方顯示選擇的 顏色,按下右上方三角型按鈕加入想搜尋顏色中,完成顏色選擇後,按下 Search 鍵即可得到搜尋的結果。

(2)

外型查詢(Layout Search):

如圖2.6所示,查詢介面可分為左、中、右三個部份,左邊為調色盤,可透過調 色盤挑選顏色,被選擇的顏色會顯示在中間上方之方塊;中間可以選擇形狀,

在繪圖工具上可以使用矩形和圓形,並且可以調整圖層的順序;右邊為繪圖區,

系統會依據繪圖區的形狀,從資料庫中找出與繪圖區相似的影像,也提供刪除 及重新查詢的功能。

2.3.2 VisualSEEK

VisualSEEK是一個以內容為基礎的影像查詢系統,由哥倫比亞大學多媒體技術中心 所設計[25]開發的,主要特色是結合影像特徵及影像的空間(Spatial)關係來做檢索,可透 過空間資訊檢索出物件之間相對性的位置關係,以提升搜尋的能力,並提供了關鍵字全 文檢索、不同的種類進行主題瀏覽和相關性回饋機制,可藉由使用者給予的回饋來調整 Vector Modify,以使檢索出的影像能更符合使用者的需求。

VisualSEEK系統中以WebSEEK的查詢介面為主要的特色,WebSEEK能夠針對WEB 上的影像進行搜尋,在影像分析的過程中分為二個階段,第一個階段為擷取影像特徵並 建立索引,第二個階段為分析影像相關的文字資訊,例如檔案名稱或URL,以做為影像 的分類。

2.3.3 VIR Image Engine

VIR (Visual Information Retrieval) Image Engine[5]是由密西根大學、加州大學與麻省

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

理工學院媒體實驗室所開發之影像視覺資訊系統。VIR提供了影像分析、查詢比對、系 統管理等三項主要的功能,主要的特色是除了可以查詢靜態影像(Image)外還可查詢 動態視訊(Video)資料,並提供了色彩、紋理、形狀和範例圖做為查詢介面,也允許 使用者對每一個內容特徵值給予不同的權值,以利用權重值選擇機制來滿足每個使用者 的需求,進而找出最相似的影像。

2.3.4 Blobworld

Blobworld [2]是加州大學柏克萊分校所設計的,它提供了四種檢索方式包含顏色、

外形、紋理和範例圖片,此系統主要以區域為基礎的影像做檢索,針對影像做區域的切 割,使用者可以針對不同的區域給予不同的權重;首先讓使用者依照影像的主題來選擇 範例圖片,接下來系統會把代表該影像的區域圖形的外形提供給使用者做選擇,並讓使 用者設定影像特徵值的權重,最後系統根據使用者提供的資訊,進行檢索比對,進而檢 索出相似的影像資料。

2.3.5 MARS(Multimedia Analysis and Retrieval System)

MARS (Multimedia Analysis and Retrieval System)[23]是由伊利諾大學(University of Illinois at Urbana-Champaign)發展的系統。系統擷取了顏色、紋理、形狀三種特徵值,

主要特色結合了索引和檢索的技術與關聯性回饋的機制,透過使用者的回饋來分別調整

主要特色結合了索引和檢索的技術與關聯性回饋的機制,透過使用者的回饋來分別調整

相關文件