論文架構

第一章前言

1.4 論文架構

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的關係。

(2) 線上處理階段(On-line Stage)

 查詢處理階段(Query Processing Phase) ：針對 Image Proximity Network，利用 Community Search[27]概念中的 Greedy 演算法運算後，產生包含查詢影像且緊密連結的 Subgraph。詳細的 Community Search 的 Greedy 演算法，我們將會在第三章中介紹。

1.3 研究貢獻

我們的研究主要貢獻在於，將既有的影像內容檢索技術融入了Social Network的概念，

將影像建立Proximity Network，並藉由Community Search技術，達到多張影像查詢的功能，找出多張查詢影像和其它影像特徵值之間隱含的關係。

因此本論文的目的在於透過多張查詢影像的共同低階特徵關係，檢索出更多相似影像，並應用Community Search的概念來實現影像檢索。實驗結果證明我們所提出的方法的確能達到多張查詢影像的功能，並且能快速的擷取到相似的影像。

1.4 論文架構

本論文其餘章節架構如下：第二章為相關文獻的探討，介紹影像特徵、影像內容檢索(Content-Based Image Retrieval)的概念；第三章詳細說明特徵擷取的方法與相似度的計算及如何利用Community Search的問題，來解決多張影像查詢後的結果更加符合使用者需求；第四章為相關實驗分析結果的討論；第五章將對本論文做結論並對未來的研究做一簡單的敘述。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章相關研究

以內容為基礎的影像檢索影像(CBIR)主要分成三個步驟︰影像低階特徵擷取 (Feature Extraction)、內容描述(Content Description)及搜尋與檢索(Search and Retrieval)。

在研究方法中使用MPEG-7所定義的視覺特徵的描述子描述影像的特徵值及SIFT，來做為檢索的特徵。

2.1 MPEG-7

隨著多媒體技術的發展，面對大量的資源，準確且有效率的搜尋變得越來越重要了。

因此為了滿足多媒體資料的搜尋、瀏覽、篩選等需求，於1996年10月MPEG (Moving Picture Experts Group)組織制定了MPEG-7 [15][18][21]標準。

目前 MPEG 組織制定的標準有： MPEG-1 、 MPEG-2 、 MPEG-4 、 MPEG-7 與 MPEG-21。 MPEG-7與其他的MPEG主要差別在於，MPEG-1、MPEG -2、MPEG -4重點為研究視訊和音訊的壓縮編碼技術，而MPEG-7目的是定義了一個多媒體內容描述的標準，如圖2.1所示，主要的重點放在更有效地描述多媒體特徵，目標為提供基於內容之影像內容檢索，在應用範圍上只要是與影音資訊搜尋比對相關的應用皆可使用。

如同圖2.2中表示了MPEG-7其中的應用，藉由擷取特徵來建立MPEG-7描述，接著採用MPEG-7編碼器來編碼並儲存與傳送到媒體，透過搜尋引擎和條件過濾出使用者的需求，並將結果送至應用程式。

MPEG-7對多媒體內容描述標準化了描述器（Descriptor，Ｄ）、描述方案（Description Scheme，DS）、描述定義語言（Description Definition Language，DDL），以及對描述的方法和工具，DDL、DS與Descriptor 的關係如圖2.3 所示，以下簡述MPEG-7 提供的各項工具：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(1) Data：是MPEG-7所要描述的影像資料，不限定儲存方式或是某些編碼後的資料。

(2) Feature：是從Data中擷取出來的特徵，與其它Data做差異化的屬性，是具有意義的。

(3) Descriptor： Descriptor (D)是在MPEG-7中對Feature的定義，定義出如何表示 Feature 的語法以及語意，例如色彩分佈、紋理、物件輪廓、物件移動軌跡等等。

(4) Description Scheme(DS)：定義結構，可以定義出各個元件(Component)之間的語法和語意，即用來組合基礎特徵(Descriptor或Description Scheme)的樹狀資料結構。

(5) Description：是Description Scheme的Instantiation，一組描述內容，儲存裝置及內容使用的結構及內容資料。

(6) Description Definition Language：用來自行定義新的D或DS的MPEG-7語言，

是根據XML Schema標準而來，主要目的是讓使用者能根據不同需求，擴充或修改已經有的DS。

(7) Visual[17][22]：包含顏色、紋路、形狀、以及移動等相關低階特徵。

(8) Reference Software：簡稱XM，為eXperimentation Model的縮寫。MPEG-7標準定義範圍內不包含特徵比對演算法，但XM提供了一套C++軟體，展示各D及 DS的可行性與搜尋準確度。

2.2 影像低階特徵值

在人類的視覺裡可以很容易的判斷出一張影像的主題，而以電腦科學的角度來思考，

要如何來判斷影像的內容及影像之間的是否相似，此時則必須依賴影像的低階特徵來描述圖片的內容。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在影像低階特徵部份採用了 MPEG-7 所定義的 Visual 的描述子[24][30][31]，Visual 描述子目前大致區分成：色彩、紋理、形狀、移動。我們採用以下七種特徵值，足以充分描述圖片的特性：色彩佈局 (Color Layout)、可調色彩 (Scalable Color)、色彩結構 (Color Structure) 、主要色彩 (Dominant Color) 是屬於色彩類的特徵值；齊次性紋理 (Homogeneous Texture)、邊界直方圖(Edge Histogram)屬於紋理類的特徵值；而區域形狀 (Region Shape) 則是屬於形狀類的特徵值；另外我們也採用了尺度不變特徵轉換 (Scale-Invariant Feature Transform ,SIFT)為描述影像的局部性特徵。以下針對這些影像低階特徵值做簡單的介紹：

(1) 色彩佈局描述（Color Layout Descriptor）：用來描述色彩在空間上的分佈狀態，

所採用的顏色空間是 YCbCr，也就是 MPEG 與 JPEG 壓縮編碼中所用的色彩空間。

(2) 可調色彩描述（Scalable Color Descriptor）：用來記錄整張影像在 HSV 色彩空間的 Color Histogram ，並統計顏色出現的次數，對於影像對影像比對

（Image-to-Image Matching）的搜尋方式很有幫助。

(3) 色彩結構描述（Color Structure Descriptor）：描述影像的顏色內容（Color Content）

和特徵，色彩空間的結構是以 4×4 像素（Pixels）為單位的方塊在影像內滑動，

因此可以記錄相鄰畫素之間的顏色資訊及色彩直方圖，CSD 所使用的是 HMMD 的色彩空間。

(4) 主要色彩描述（Dominant Color Descriptor）：主要的目的是描述一張影像中的代表性顏色，只要用影像中某區塊中的顏色特徵就可以呈現整張影像的顏色訊息，這對基於顏色相似度的影像檢索是相當有用的。

(5) 同質性紋理(Homogeneous Texture)：主要的目的是可以描述出影像中紋理及材質的特性，此特徵值將紋理以量化的方式來表示。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(6) 邊緣直方圖(Edge Histogram)：主要的目的是描述影像邊緣的空間分佈，可以擷取出空間邊界的局部性資訊，除了影像的色彩之外，人類視覺對於邊緣(Edge) 感受也明顯，因此邊緣直方圖在不均勻的邊緣空間分佈上的影像比對上也是一種有用的影像特徵。

(7) 區域形狀(Region Shape)：此特徵值主要的目的可以用來描述物件的形狀，能夠精簡及有效率的描述一個物件的多個區域，包含單一封閉式區域、複雜的形狀或是不相連的區域，所以在影像切割後仍然可以保留原始影像的特性，比對上也有不錯的效果。

(8) 尺度不變特徵轉換(Scale-Invariant Feature Transform ,SIFT)：為 2004 年由 Lowe 所提出的特徵點演算法[14]，用來偵測與描述影像中的局部性特徵，在尺度空間偵測極值，提取出其位置、尺度、視角、光度、旋轉變化的不變性，

並對於光線遮蔽、影像雜訊、物體移動的視角改變等的容忍度也相當高，達到良好的比對效果。

2.3 影像內容檢索(Content-Based Image Retrieval)系統簡介

由於傳統的影像搜尋方式需要耗費大量的人工來描述且比較無法滿足使用者在影像搜尋上的需求，因此後來提出許多關於影像檢索技術的研究，由原本的文字查詢發展至利用影像的色彩、紋理、形狀...等低階特徵值做為查詢的依據，藉由特徵值的比對，

來達到更好的檢索效果，在本節中將針對幾個著名的系統做個簡單的介紹。

2.3.1 QBIC

QBIC (Query By Image Content) [4][19]是由 IBM Almaden 研究中心所設計，是最早以內容為基礎的影像檢索系統，QBIC 系統提供顏色及形狀兩種查詢介面，使用者可以在色盤中直接挑選顏色或是在繪圖區畫下簡單的外型做為查詢的依據。

(1) 顏色查詢(Color Search)：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

主要以顏色的分佈比例來進行影像查詢，如圖2.5 所示，查詢介面分成左右兩部分，左邊為調色盤，使用者可以利用調色盤來挑選顏色，也可調整明亮度，

或設定 RGB 三原色的比例來選擇顏色，顏色選定後，會在右上方顯示選擇的顏色，按下右上方三角型按鈕加入想搜尋顏色中，完成顏色選擇後，按下 Search 鍵即可得到搜尋的結果。

(2)

外型查詢(Layout Search)：

如圖2.6所示，查詢介面可分為左、中、右三個部份，左邊為調色盤，可透過調色盤挑選顏色，被選擇的顏色會顯示在中間上方之方塊；中間可以選擇形狀，

在繪圖工具上可以使用矩形和圓形，並且可以調整圖層的順序；右邊為繪圖區，

系統會依據繪圖區的形狀，從資料庫中找出與繪圖區相似的影像，也提供刪除及重新查詢的功能。

2.3.2 VisualSEEK

VisualSEEK是一個以內容為基礎的影像查詢系統，由哥倫比亞大學多媒體技術中心所設計[25]開發的，主要特色是結合影像特徵及影像的空間(Spatial)關係來做檢索，可透過空間資訊檢索出物件之間相對性的位置關係，以提升搜尋的能力，並提供了關鍵字全文檢索、不同的種類進行主題瀏覽和相關性回饋機制，可藉由使用者給予的回饋來調整 Vector Modify，以使檢索出的影像能更符合使用者的需求。

VisualSEEK系統中以WebSEEK的查詢介面為主要的特色，WebSEEK能夠針對WEB 上的影像進行搜尋，在影像分析的過程中分為二個階段，第一個階段為擷取影像特徵並建立索引，第二個階段為分析影像相關的文字資訊，例如檔案名稱或URL，以做為影像的分類。

2.3.3 VIR Image Engine

VIR (Visual Information Retrieval) Image Engine[5]是由密西根大學、加州大學與麻省

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

理工學院媒體實驗室所開發之影像視覺資訊系統。VIR提供了影像分析、查詢比對、系統管理等三項主要的功能，主要的特色是除了可以查詢靜態影像（Image）外還可查詢動態視訊（Video）資料，並提供了色彩、紋理、形狀和範例圖做為查詢介面，也允許使用者對每一個內容特徵值給予不同的權值，以利用權重值選擇機制來滿足每個使用者的需求，進而找出最相似的影像。

2.3.4 Blobworld

Blobworld [2]是加州大學柏克萊分校所設計的，它提供了四種檢索方式包含顏色、

外形、紋理和範例圖片，此系統主要以區域為基礎的影像做檢索，針對影像做區域的切割，使用者可以針對不同的區域給予不同的權重；首先讓使用者依照影像的主題來選擇範例圖片，接下來系統會把代表該影像的區域圖形的外形提供給使用者做選擇，並讓使用者設定影像特徵值的權重，最後系統根據使用者提供的資訊，進行檢索比對，進而檢索出相似的影像資料。

2.3.5 MARS（Multimedia Analysis and Retrieval System）

MARS (Multimedia Analysis and Retrieval System)[23]是由伊利諾大學（University of Illinois at Urbana-Champaign）發展的系統。系統擷取了顏色、紋理、形狀三種特徵值，

主要特色結合了索引和檢索的技術與關聯性回饋的機制，透過使用者的回饋來分別調整

在文檔中影像內容檢索中以社群網絡演算法為基礎之多張影像搜尋 - 政大學術集成 (頁 12-0)

第一章 前言

1.4 論文架構

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

1.3 研究貢獻

1.4 論文架構

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章 相關研究

2.1 MPEG-7

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2 影像低階特徵值

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.3 影像內容檢索(Content-Based Image Retrieval)系統簡介

2.3.1 QBIC

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

(2)

2.3.2 VisualSEEK

2.3.3 VIR Image Engine

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.3.4 Blobworld

2.3.5 MARS（Multimedia Analysis and Retrieval System）

第一章前言

立政治大學

立政治大學

第二章相關研究

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學