相關理論

(1) 以門檻值為基礎的擷取方式(threshold based segmentation)[3]:

此類方式(如圖 Fig.2-1 所示)在影像擷取之中是最基本的方式之一，並且

因此此種方式應用在真實狀況中並不是如此完美。

Fig.2-1 Threshold based segmentation.

(2) 以邊緣資訊為基礎的擷取方式(Edge Based Segmentation)

邊緣是由位於兩區域輪廓(boundary)間的像素群所形成的集合，因此我們可以利用許多邊緣偵測技術[3]來偵測物件區域。但是由於色彩與亮度等因素，這些偵測到的邊緣資訊往往是不連續或是因為過度萃取所得到的無用邊緣資訊。然而，真實的物件區域輪廓必須是完整且封閉的，因此，

經由現今存在的邊緣偵測方式所萃取出來的邊緣資訊，針對物件區域輪廓的擷取往往只能作為參考之用。

(3) 以區域資訊為基礎的擷取方式(Region Based Segmentation)

在一張影像之中，相同的區域往往都具有相似的視覺特徵，例如:灰階值、色彩、或是材質等。在這類的方法之中，最常用到的概念就是分割與合併(split and merge)的技術[4]-[6]。此類方法的效果取決於所選擇的同種性 (homogeneity) 決定方式。而其中最受歡迎的就是分水嶺理論 (watershed algorithm)[7]，其模型如 Fig.2-2 所示。分水嶺理論主要是以最

小值(minima)作為標記點(marker)，而標記點一般則是某區域的起始位置。此方法主要有以下步驟:

步驟一:針對所處理的影像先取型態上的梯度運算(morphological gradient operation)。

步驟二:針對每個像素所得到的梯度值，由低至高逐一處理。

步驟三:(1)針對已被標記區域(labeled region)附近的像素優先排列為此區域的一部份(圖中白球附近的灰球區域)

(2)尋找未被標記區域附近的像素並且給予新的標記 (圖中黑球附近)

步驟四:隨著不同標記所形成的不同區域彼此間的邊緣即是此影像的分水嶺部份

Fig.2-2 分水嶺理論流程圖.

2-1-2 時間資訊的擷取方式:

此方式主要是以在時間中相鄰的兩張影像資訊作為主要的擷取依據。由於移動物件通常包含了飽和度(intensity)上的變化，因此我們能夠利用此類資訊來偵測移動物體的位置並且擷取出來。其中最主要的就是以移動資訊為主的擷取方式 (motion-based segmentation)。其中，改變偵測(Change detection)技術[8]-[13]是其中最不耗費運算能力的一種擷取方式。此種方法藉由時間上兩相鄰的影像能夠將時間上的變動與不變資訊分隔出來，因此移動物件即可從被判定為變動的區域擷取出。利用此方式擷取出來的效果主要取決於兩因素：第一是門檻值(threshold) 的選擇，其決定分離變動區域與不變區域部分。第二則是有一合理的機制能夠消除小區域的雜訊，例如在改變區域很大的範圍之中所帶有的未變動區域。

2-2 未遮蔽背景區域(Uncovered-Background Region)的產生

Fig.2-3 Three kinds of areas in a video scene.

我們以 Fig.2-3 說明在偵測移動物體區域時，未遮蔽背景區域產生的原因：

首先，當物體由畫面中的左方移動到右方時，原本在物體後方的背景資訊顯露出

MPEG-4 是以先前 MPEG-1、MPEG-2 標準為基礎，但提供更高編碼效率，增加 MPEG-4 應用的市場接受度。

(2) 內容導向互動性 (content-based interactivity):

把視訊當成物件，而非視訊圖框，即可讓內容導向應用(content-based

(1) 視訊壓縮工具

視訊編碼解碼器(video codec)可以除去空間和時間的冗餘性，達到壓縮視訊的目的。Intra Coded VOPS (I-VOPs)會利用視訊物件平面包含的資訊進行編碼，這能移除部份的空間冗餘性，圖框間編碼(inter coding) 則內，sprite 就是由這些區域所組成。「背景 sprite」(background sprite) 是很典型的範例，包含攝影機跟拍鏡頭(camera-panning sequence)的所有

背景像素；它基本上是靜態影像，只需在傳輸開始時傳送一次，sprite 能在這些情形下提供很高的壓縮效率，這也是 MPEG-4 包含它們的主要原因。sprite 編碼技術不但適用於合成物件，也能用於自然場景中的剛體(rigid)運動物件。

(4) 延展性

MPEG-4 利用多個視訊物件層(VOL)來實現空間延展性(spatial scalability) 和時間延展性(temporal scalability)，例如我們可以利用兩個視訊物件層來提供空間延展性，一個是基礎層 (base-layer) ，另一個則是加強層 (enhancement-layer)，加強層可以改善基礎層所提供視訊物件平面的空間解析度；同樣的，只要利用時間延展性，當目標圖框速率高於基礎層提供的速率時，就可以利用加強層進行解碼；換言之，時間延展性會讓畫面的動作更平順。

第三章動態視訊物件擷取技術與未遮蔽背景之

在文檔中應用於MPEG-4標準協定之高效率視訊物件擷取技術 (頁 14-21)

2-1-2 時間資訊的擷取方式:

2-2 未遮蔽背景區域(Uncovered-Background Region)的產 生

第三章 動態視訊物件擷取技術與未遮蔽背景之

2-2 未遮蔽背景區域(Uncovered-Background Region)的產生

第三章動態視訊物件擷取技術與未遮蔽背景之