• 沒有找到結果。

第二章 文獻探討

第四節 MPEG-7

方式的 QBIC(Query By Image Content) (Niblack et al.,1993),(2)由哥倫比亞大學 開發,結合影像特徵與影像的空間關係的 VisualSEEK(Smith & Chang,1996),(3) 由密西根大學、加州大學以及麻省理工學院共同開發,具有查詢色彩、紋理、形 狀的 VIR(Visual Information Retrieval) Image Engine (Gupta,1995);在商用網站 方面,基於文字之圖像檢索的網站有 Getty Image、Flikr、Picasa,而 Google Images 則是同時具有 TBIR 與 CBIR 兩種圖像檢索方法的系統。關於 TBIR 與 CBIR 的

Getty Image、Flikr、

Picasa、Google Image

CBIR 自動加入標籤 有時相同的低階特徵圖像具

有完全不同的意義

QBIC、VisualSEEK、

VIR、Google Image

第四節 MPEG-7

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

- 16 -

是在於將影音檔案再賦予另一個描述檔,建立一套以影音低階特徵的量化標準描 述器與結構,並將此描述檔加以建立索引,以及將該描述檔與所描述的檔案內容 建立關連,達到使用文字描述搜尋多媒體檔案的功能。

2.4.2 MPEG-7 規格

MPEG-7 規格稱為多媒體內容描述介面,提供多樣化的檔案特徵表示方式。

如圖 2-3 所示,在多媒體檔案的檢索過程中,MPEG-7 規格的範圍僅只於描述多 媒體檔案的內容,而與多媒體檔案內容的低階特徵擷取,或是系統的搜尋過濾功 能皆不屬於 MPEG-7 的範圍。其最主要的基本元素包含了三項:

Descriptors (D):稱之為描述器,用來描述多媒體檔案的顏色、形狀及紋理等

低階特徵,也可以用來描述語法(Syntax)與語意(Semantics)的特徵表達。

Description Schemes(DS):稱之為描述架構,描述 D 和 D、D 和 DS 之間,

以及 DS 與 DS 的結構與關連性。

Description Definition Language (DDL):用來定義產生 D 與 DS 的方法與工

具,以 XML 語言為主要工具。

圖 2-3 MPEG-7 標準的範圍

Descriptors 對於檔案的低階特徵或語意加以描述, Description Schemes 則是 將 Descriptors(也可以是 Description Schemes 之間)加以組織與結構化,而定義 Descriptors 與 Description Schemes 的工具(Description Definition Language)是使用 XML 加以定義之。於是定義成為一整份完整的 Description Schemes 即為 MPEG-7

Feature Extraction Standard Content

Description Search Engine

MPEG-7 標準範圍

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

- 17 -

檔案。除此之外,Description Definition Language 也可以定義不是由 MPEG-7 官 方規格的 Schemes,成為擴充的 Description Schemes,而標籤(Tag)也是使用 Description Definition Language 加註到 MPEG-7 檔案之中。其整體架構圖如圖 2-4 所示。

而 MPEG-7 的 Metadata 描述除了可以表示像是顏色、形狀及紋理等低階的 影音特徵描寫,也可以描寫語意、事件…等等的高階描述,其架構如圖 2-5 所示;

對於事件的描述可對於 Who(對象)、WhatObject(物體的描述)、WhatAction(發生 什麼行為)、Where(地點)、When(時間)、Why(目的或是原因)以及 How(方法)…

等多項高階描述(如表 2-3)。

2.4.3 MPEG-7 相關的研究

由於 MPEG-7 對於影像的描述包含了低階影像特徵( Feature )及高階語意 (Semantic)的描寫,並且使用 XML 的方式描述系統的架構。於是結合了影像描 述與 XML 可交換性的優點,以 MPEG-7 為基礎的影像檢索研究包含:透過社交 網絡演算法的多張影像搜尋、貝殼檢索、數位博物館,以及蝴蝶影像形狀檢索…

等(張瑋鈴,2011;李嘉紘、蘇裕盛、許家富、田政鉉,2008;張宇翔,2001;

黃子癸,2001)。

Kuo, Aoki and Yasuda(2004) 曾 使 用 MPEG-7 的 技 術 建 置 了 一 套 PARIS(Personal Archiving and Retrieving Image System)的個人圖片典藏與搜尋系 統。PARIS 系統是以 MPEG-7 對於多媒體檔案的後設資料(Metadata)的特性為基 礎,加以擴充了時間與空間的屬性,在 MPEG-7 的多媒體描述結構(Multimedia Description Schemes,MDS)加入的十二個維度包含:誰(Who)、什麼(What)、何 時 (When) 、 何 處 (Where) 、 為 何 (Why) 、 如 何 (How) 、 方 向 (Direction) 、 距 離 (Distance)、持續時間(Duration),包含了圖像(Image)、影片(Video)與音樂(Music)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

- 18 -

等合稱為十二維度的數位文件(Dozen Dimensional Digital Content,DDDC)。

圖 2-4 MPEG-7 元素架構圖,來源:MediaLab(2003)

圖 2-5 MDS 描述工具,圖片來源:Manjunath, Salembier, & Sikora (2002)

Name Definition

StructuredAnnotationType Describes a structured textual annotation in terms of who (people and animals), what object, what action, where(places), when(time), why(purpose), and how.

Who Describes animate objects or beings (people and animals) or legal persons(organizations and person groups) using either free text or a term from a classification scheme.

WhatObject Describes inanimate objects using either free text or a term from a classification scheme.

WhatAction Describes actions using either free text or a term from a classification scheme.

Where Describes a place using either free text or a term from a classification scheme.

When Describes a time using either free text or a term from a classification scheme.

Why Describes a purpose or reason using either free text or a term from a classification scheme.

How Describes a maner using either free text or a term from a classification scheme.

來源:Kuo, Aoki and Yasuda(2004)

相關文件