低階影像視覺特徵擷取

第二章文獻探討

2.2 低階影像視覺特徵擷取

本節中我們將介紹本研究所應用到的低階影像視覺特徵擷取的各項技術，包含: 視覺特徵擷取的演算法、視覺特徵擷取的工具、與視覺特徵值的儲存格式。

2.2.1 低階影像視覺特徵擷取演算法

影像所能提供的低階視覺特徵有許多種，主要分為三種類形: 顏

色(Color)[12-15, 28, 29]、形狀(Shape)[30-32]、及紋理(Texture)[12, 33]。低階影像視覺特徵擷取演算法的詳細說明請參考附錄，以下就本研究使用到的視覺特徵值作一簡單的介紹:

z Color Layout[14]: 以低計算量表現出各個顏色的空間分佈狀態。首先影像會被分割為一個個8x8 的區塊，每個區塊的 Dominant Color 以 YCbCr 顏色表示系統儲存著。每個色頻裡的Dominant Color 再套用 DCT(Discrete Cosine Transform)，

以DCT 的係數值作為特徵值。

z Color Structure[13]: 表現出影像裡顏色的內容以及該內容的架構，可應用在矩形影像，特殊輪廓(非矩型影像)影像，以及非連接型影像(如影像為兩個不相連的區塊)之間的比對。以 8x8 畫素為一個單位視窗，在影像內滑動並且記錄下來視窗裡的顏色特性(以 double-coned HMMD 為顏色表示系統)。與 Color Histogram 不同的是，Color Structure 可以表現出畫素伴隨出現的特性(因為 Color Structure 不是以畫素為單位來記錄資訊，而是以8x8 視窗為單位)。

z Contour Shape[32]: 利用封閉的曲線來描述 2-D 物件的輪廓，

並以Curvature Scale Space(CSS)來呈現輪廓的形狀

z Dominant Color[29]: 只要用影像中局部性的顏色特徵就可以

z Homogeneous Texture[12]: 表現出影像中材質紋理的特性。利

用Gabor 過濾函式，作出紋理的走向趨勢(共 5 個)及規模(共六個)過濾器來過濾影像，在 Frequency Domain 所表現出來的第一及第二時刻能量被記錄下來成為特徵值。

z Region Shape[31]: 這個特徵值不但可以描述單一封閉區域 (如圖 17左)，也可以描述有鏤空(如圖 17中)，或沒有相連的區域(如圖 17右)。

圖 17 三種 Region Shape 的影像範例

相似度比較方面，圖 18左及圖 18中是會被視為相似度比較高的，但跟圖 18右就會被視為差異性大。

圖 18 Region Shape 的相似度比較而圖 19都會被視為相似度高。

圖 19 Region Shape 的相似度比較

這個特徵值不但使用空間小，而且在擷取和比對上都有不錯的表現。Region Shape 不但能精簡且有效率的描述多個不相

連的區域，即使在作過影像切割後，可以保留著原始影像的特性。

z Scalable Color[15]: 利用 Haar Transform，在 HSV 顏色表示系統下記錄顏色的分佈狀態。

2.2.2 低階影像視覺特徵擷取工具與儲存格式

我們採用MPEG-7[35]的實作和標準為擷取工具和擷取結果的儲存格式。MPEG 是（Moving Picture Experts Group）動態影像專家團體的縮寫，這個團體創建於1988 年，早期主要是為了 CD 建立視訊和音訊的標準，其中成員主要為視訊、音訊及系統領域的專家，今天我們所指的MPEG-X 版本，是指由 ITU（International

Telecommunication Union）和 ISO（International Standarization Organization）制定發佈的視訊、音訊的壓縮標準，如: MPEG-1、

MPEG-7 的正式名稱為"multimedia content description interface"，

其重點在於影音內容的描述和定義，以有彈性、具延伸性、多層次及明確的資料結構和語法來定義影音資料的內容，經由MPEG-7 的定義格式，使用者可以有效率地搜尋、過濾和定義想要的影音資料。由於在不同的使用者或應用的影音內容會有不同的意義，所以在相同的媒

體上可能會有不同的影音內容的定義，如：同一隻狗在屋裏吠和在屋外吠兩段影片，在低階的特徵上有相同的音頻，但在高階的特徵上則不同，一個是在屋裏另一個是在屋外。這些高階的特徵做為與使用者互動的重要依據。MPEG-7 也使用 XML 當做陳述影音資料的語言，

並以XML Schema 當做 DDL(Description Definition Language)的基礎，使其整個架構更具有其延展性。而本研究所採用的即是MPEG-7

在文檔中整合關鍵字與視覺特徵的反覆式影像檢索系統 (頁 28-32)

第二章 文獻探討

2.2 低階影像視覺特徵擷取

2.2.1 低階影像視覺特徵擷取演算法

2.2.2 低階影像視覺特徵擷取工具與儲存格式

第二章文獻探討