(1) 以門檻值為基礎的擷取方式(threshold based segmentation)[3]:
此類方式(如圖 Fig.2-1 所示)在影像擷取之中是最基本的方式之一,並且
因此此種方式應用在真實狀況中並不是如此完美。
Fig.2-1 Threshold based segmentation.
(2) 以邊緣資訊為基礎的擷取方式(Edge Based Segmentation)
邊緣是由位於兩區域輪廓(boundary)間的像素群所形成的集合,因此 我們可以利用許多邊緣偵測技術[3]來偵測物件區域。但是由於色彩與亮 度等因素,這些偵測到的邊緣資訊往往是不連續或是因為過度萃取所得到 的無用邊緣資訊。然而,真實的物件區域輪廓必須是完整且封閉的,因此,
經由現今存在的邊緣偵測方式所萃取出來的邊緣資訊,針對物件區域輪廓 的擷取往往只能作為參考之用。
(3) 以區域資訊為基礎的擷取方式(Region Based Segmentation)
在一張影像之中,相同的區域往往都具有相似的視覺特徵,例如:灰 階值、色彩、或是材質等。在這類的方法之中,最常用到的概念就是分割 與合併(split and merge)的技術[4]-[6]。此類方法的效果取決於所選擇的同 種 性 (homogeneity) 決 定 方 式 。 而 其 中 最 受 歡 迎 的 就 是 分 水 嶺 理 論 (watershed algorithm)[7],其模型如 Fig.2-2 所示。分水嶺理論主要是以最
小值(minima)作為標記點(marker),而標記點一般則是某區域的起始位 置。此方法主要有以下步驟:
步驟一:針對所處理的影像先取型態上的梯度運算(morphological gradient operation)。
步驟二:針對每個像素所得到的梯度值,由低至高逐一處理。
步驟三:(1)針對已被標記區域(labeled region)附近的像素優先排列為 此區域的一部份(圖中白球附近的灰球區域)
(2)尋找未被標記區域附近的像素並且給予新的標記 (圖中黑球附近)
步驟四:隨著不同標記所形成的不同區域彼此間的邊緣即是此影像的分 水嶺部份
Fig.2-2 分水嶺理論流程圖.
2-1-2 時間資訊的擷取方式:
此方式主要是以在時間中相鄰的兩張影像資訊作為主要的擷取依據。由於移 動物件通常包含了飽和度(intensity)上的變化,因此我們能夠利用此類資訊來偵 測移動物體的位置並且擷取出來。其中最主要的就是以移動資訊為主的擷取方式 (motion-based segmentation)。其中,改變偵測(Change detection)技術[8]-[13]是 其中最不耗費運算能力的一種擷取方式。此種方法藉由時間上兩相鄰的影像能夠 將時間上的變動與不變資訊分隔出來,因此移動物件即可從被判定為變動的區域 擷取出。利用此方式擷取出來的效果主要取決於兩因素:第一是門檻值(threshold) 的選擇,其決定分離變動區域與不變區域部分。第二則是有一合理的機制能夠消 除小區域的雜訊,例如在改變區域很大的範圍之中所帶有的未變動區域。
2-2 未遮蔽背景區域(Uncovered-Background Region)的產 生
Fig.2-3 Three kinds of areas in a video scene.
我們以 Fig.2-3 說明在偵測移動物體區域時,未遮蔽背景區域產生的原因:
首先,當物體由畫面中的左方移動到右方時,原本在物體後方的背景資訊顯露出
MPEG-4 是以先前 MPEG-1、MPEG-2 標準為基礎,但提供更高編碼效 率,增加 MPEG-4 應用的市場接受度。
(2) 內容導向互動性 (content-based interactivity):
把視訊當成物件,而非視訊圖框,即可讓內容導向應用(content-based
(1) 視訊壓縮工具
視訊編碼解碼器(video codec)可以除去空間和時間的冗餘性,達到壓縮 視訊的目的。Intra Coded VOPS (I-VOPs)會利用視訊物件平面包含的資 訊進行編碼,這能移除部份的空間冗餘性,圖框間編碼(inter coding) 則 內,sprite 就是由這些區域所組成。「背景 sprite」(background sprite) 是很典型的範例,包含攝影機跟拍鏡頭(camera-panning sequence)的所有
背景像素;它基本上是靜態影像,只需在傳輸開始時傳送一次,sprite 能在這些情形下提供很高的壓縮效率,這也是 MPEG-4 包含它們的主要 原因。sprite 編碼技術不但適用於合成物件,也能用於自然場景中的剛 體(rigid)運動物件。
(4) 延展性
MPEG-4 利用多個視訊物件層(VOL)來實現空間延展性(spatial scalability) 和時間延展性(temporal scalability),例如我們可以利用兩個視訊物件層來 提 供 空 間 延 展 性 , 一 個 是 基 礎 層 (base-layer) , 另 一 個 則 是 加 強 層 (enhancement-layer),加強層可以改善基礎層所提供視訊物件平面的空間解 析度;同樣的,只要利用時間延展性,當目標圖框速率高於基礎層提供的 速率時,就可以利用加強層進行解碼;換言之,時間延展性會讓畫面的動 作更平順。