• 沒有找到結果。

第一章 緒論

1.1 研究動機

隨著影音多媒體快速的發展,多媒體在網路上的傳輸越來越頻繁,再加上 未來可能普及化的數位電視,甚至在手機上影音多媒體的收發,使得視訊的壓 縮佔著相當重要的地位,一個好的壓縮標準是不可或缺的。自 1990 年開始制定 的 MPGE-1 標準,到後來的 MPEG-2 標準,都提供了不錯的壓縮效率,目前也 被廣泛的運用。在這些標準當中,都是使用以區塊為主的編碼(block-base coding) 方式,也就是把每張影像切成一個一個的方塊(block),每個方塊各自根據本身 的內容來壓縮,但是這樣的壓縮效益已經不能滿足某些需求了。這時,以物件 為基礎的壓縮(object-base coding)逐漸受到重視,而在 1998 年 10 月制定 MPEG-4 標準[1、2]就是一個以物件為基礎的壓縮標準 ,它是針對數位電視、互動式繪 圖應用(影音合成內容) 、互動式多媒體之整合技術訂定的國際標準。在 MPEG-4 中,視訊資料的內容被分割成數個 VOP(video object planes),每個 VOP 代表了 畫面當中的一個物件的內容。這些 VOP 可以被分開編碼、儲存及傳送,而接收 端可依照需求及應用將這些 VOP 加以重組、刪減或是替換。

即為物件,也就是會改變的部份,所以將物件分離壓縮相當於只須對畫面中產 生改變的地方做壓縮,而不動背景的部份不需要和傳統的壓縮標準一樣,在壓 縮每一個畫面(frame)時都將該畫面的背景一起壓縮。物件為基礎的壓縮則會將 背景建構出來,然後對整個背景做壓縮,之後只需要用較少的資訊來維護背景 的資訊。這是提升壓縮效益的一個重要因素。所以在物件為基礎的壓縮當中,

物件的擷取變成一個重要的課題,在標準當中並沒有提供物件切割的方法,而 物件擷取的好壞也會直接影響到壓縮的效率,越是能夠精確的擷取出動態的物 件,則能夠越清楚的將畫面中改變的像素和沒有改變的像素區分出來,然後對 改變的像素做壓縮,壓縮的效益也就越高,但是若將不會變動的背景也當做事 務見擷取出來,則對這些背景部份所做的壓縮是多餘的。因此本論文當中,我 們將討論如何使用影像序列當中影像的內容,來切割出動態的物件。

1.2 相關研究探討

動態影像切割技術的發展已經有相當的時間,經過這麼久的發展已經存在 了相當多的方法。在切割的時候,我們擁有兩種資訊可以運用,一個是利用空 間域上的資訊,另一個就是同一物件在時間 t 跟 t+1 因為運動而在這兩張影像 上面產生了某種關聯性,這是所謂時間軸的資訊。所以根據這兩種資訊,可以 幫助我們將動態的物件擷取出來。

空間域影像切割是對於靜態的影像做切割,也就是影片中的一個畫面

(frame)。它切割出來的結果,必須盡量跟人類視覺上的看法相同。而大部份的 方法是將影像中空間的特徵切割出來,例如:邊、顏色相似區域或是紋理相似 的區域等等。

由 Comaniciu 所提出來的,對空間以 Mean shift 來做分割的方法 [3、4]。

它會將整個影像分割成多個區域,每個區域內的像素具有相似色彩或是相似灰 階強度。Mean shift 演算法是在一個空間域跟色彩域結合的象限中做處理,我們 稱之為空間-強度域,空間域是影像中的二維座標(x,y),色彩域則是像素的色彩 資訊,在灰階影像中為像素的灰階值強度則維度 I,彩色影像則為 R,G,B 共 三維。所以每個像素可以看成三維(x,y,I)或五維(x,y,R,G,B)的向量。

當我們最某個像素 p 做 mean shift 計算時,我們以 p 為中心點,以維度中 限定一個範圍 S,此範圍 S 是必須事先給定。例如,在三維的灰階影像,我們 給定一個 S 其範圍如下:"和 p 的距離為 10 個像素且和 p 的灰階值強度差值在 5 以內",所以若某像素和中心像素的距離小於 10 且強度差值在±5 以內,此 像素就在 S 以內。

接著算出範圍 S 內所包含的的像素之平均向量(mean vector),將中心點移 至算出來的平均向量。一直重複這個計算動作,直到平均向量開始出現重複為 止。此時我們將起始的像素 p 之色彩資訊以最後停止的平均向量之色彩資訊來

Bonnaud 和 Chassery[6]提供了一個利用畫面差(frame difference)與合適的參考影 像(reference image)來擷取影片中物件的方法,其中參考影像就是影片中不變的 背景部份。這個方法提供了一個演算法來建立以及更新所要用到的參考影像。

然後整個物件可以由比較目前畫面跟參考影像取得,即使物件停止移動或是只 有些微移動,也可以擷取出來。

在處理時間域的方法中,估測運動向量是一個常常被使用到的方法,在 John Bea Kim 和 Hang Joon Kim 提出來的方法當中[7],也有使用到估測運動向 量。而這個方法是一個以區域為基礎的動態物件切割,它主要是應用於錄影監 視系統(video monitoring system,VMS),整個過程是由兩個步驟所組成的,第 一個階段是偵測畫面中改變的區域,利用一個適合的門檻值在畫面差中決定改 變的區域,其中門檻值是自動產生的 。第二階段以估測運動向量所得到的運動 資訊來進行移動物件的切割。把第一個步驟找到的區域當中具有相似強度以及 相似運動資訊的像素利用有權重的 k-mean 分群演算法產生我們所要的移動物 件的遮罩。為了提高運算速度,估測運動向量並不是對整張影像執行,只對偵 測出有改變的區域來執行。

1.3 論文架構

在我們所提出來的方法當中,並沒有利用到運動向量的估測,因為估測運 動向量花費的時間比較長,所以在時間域上,是利用畫面間像素強度改變的資

訊以及建構和維護一個可以信任的背景影像。這方法是針對於用在場景不會改 變的影片上。

第二章將會提到我們空間域切割所用的演算法,分水嶺演算法,此演算法 能將空間域的資訊找到。接下來第三章將會介紹我們再時間域的演算法,此演 算法主要是利用畫面間,各像素強度改變的資訊,來建構貝景以及切割物件。

第四章是將空間域資訊跟時間域資訊結合,以產生一個完整的物件遮罩。最後 將呈現一些實驗的結果。

第二章

來將這些區域隔開。我們所提出的方法中利用到 morphological gradient 和分水 嶺(watershed)兩個演算法。下面將對這兩個演算法做進一步的說明。

2.1 Morphological Gradient

首先,在 Morphological 處理中的基本運算有下面幾個:

膨脹(Dilation): (Structuring element)。圖 2.1 為膨脹和侵蝕的示意圖。圖 2.1(a)中所指的 A、B 也就是定義中的集合 A 跟 B,圖 2.1(b)中深色的區域則是 A 跟 B 作膨脹運算後

(b)Dilation Α⊕Β (c)Erosion ΑΘΒ 圖 2.1 Dilation 和 Erosion 之示意圖

前面所提到的膨脹跟侵蝕是用在二元影像(binary image)上,若要在灰階值 的影像上應用膨脹和侵蝕,方法需做下述之修正。若欲處理的影像中座標為(x,y) 的灰階值表示為 f(x,y),所使用的結構元素(structuring element) 中座標為(x,y) 的灰階值表示為 b(x,y)。

灰階值的膨脹(Gray-scale dilation)

以 b 對 f 作灰階值膨脹(Gray-scale dilation) 我們可以記作 f b,定義

就是結構元素中座標是(0,0)的位置) 是對應到影像當中的座標(s,t),相加結果中 的最大值即是此像素膨脹的結果。

灰階值侵蝕(Gray-scale erosion):

以 b 對 f 作灰階值侵蝕(Gray-scale erosion) 我們可以記作 f Θb,定義

經過梯度運算的結果。

(a)

(b)

圖 2.2 梯度運算的結果

2.2 分水嶺切割(Watershed segmentation)

分水嶺切割是將影像分成相同性質的封閉區域,而且區域之間並不會有重 疊發生。所以我們將分水嶺切割作為空間域分割所用的演算法。

2.2.1 用氾濫(immersion)模擬的分水嶺演算法

當我們把一張影像的灰階值當成是地理上表面高度的高低起伏時,則此張 影像在地理的觀點上就猶如有高山、平原、盆地等等的地形分佈。圖 2.3 為分 水嶺演算法的示意圖,圖中地勢越高的地方則是影像中強度越強的地方。圖 2.3 中有二個集水盆地(catchment basins),每一個盆地中都有高度最低的區域,所以 在整張影像當中,每塊局部的最小值都會形成一個集水盆地。我們以氾濫的模 式,去模擬水從各個盆地的最低處開始慢慢的向上漲,當有兩個不同盆地的水 上漲到要互相接觸到時,就用一個水壩將兩邊隔開,而此時的水壩即是我們所 要找的分水嶺線(watershed line),當水漲到最高點的時候,所有的分水嶺皆會被 找出來。

2.2.2 分水嶺演算法之實現

Vincent 和 Soille’s algorithm[5]是最常被使用的到的一個找出分水嶺的演 算法。接下來將簡單的敘述此演算法的處理流程:

步驟 1) 先對要處理的影像 F 的每個點作梯度(gradient) 的運算,找出每個點 的梯度值。而經過此運算後的影像稱為 G。

步驟 2) 將 G 量化成 32 個梯度等級(gradient level),並對 G 中的所有像素依 梯度值由小到大來做排序。

步驟 3) 因為每塊局部最小的區域都會形成一個集水區域,所以將那些擁有最 小梯度等級的像素找出來,這些像素相當於某些集水盆地的最低處,

並且將在同一個盆地中的最小梯度等級像素給予一樣的編號。且每個 盆地有自己所屬的編號。

步驟 4) 接著將對影像中的像素由低到高的梯度等級來做處理。假設我們目 前正要對梯度等級為 N 的像素來做處理,圖 2.4 中顏色較深的部份是 梯度等級小於 N 的像素所構成的集水盆地,顏色較淺的是梯度等級 為 N 的像素,而白色的部份則是梯度等級大於 N 的像素。將圖中已 找出來的集水盆地當作是中心(也就是顏色較深的區域),在這些區域 周圍一圈的像素,若是有梯度等級為 N 且還沒有被編號過的像素,

我們將之給予和集水盆地相同的編號。不斷重複這個動作,每做一次 各個集水區便會向外膨脹一圈擁有梯度等級為 N 的像素,直到各集

水區周圍已經沒有符合條件的像素可以來做膨脹為止。此時,若還有 梯度等級為 N 的像素沒有被給予編號,這些像素構成的區域相當於 圖 2.4 中的”新發現之集水盆地”,也就是說這些像素構成的區域將會 是另一些新的集水盆地之最低處,我們就利用步驟 3 之方式給予這些 像素編號。

步驟 5) 當所有梯度等級為 N 的像素都經過編號後,檢查這些被編號的點,

步驟 5) 當所有梯度等級為 N 的像素都經過編號後,檢查這些被編號的點,

相關文件