研究動機

第一章緒論

1.1 研究動機

隨著影音多媒體快速的發展，多媒體在網路上的傳輸越來越頻繁，再加上未來可能普及化的數位電視，甚至在手機上影音多媒體的收發，使得視訊的壓縮佔著相當重要的地位，一個好的壓縮標準是不可或缺的。自 1990 年開始制定的 MPGE-1 標準，到後來的 MPEG-2 標準，都提供了不錯的壓縮效率，目前也被廣泛的運用。在這些標準當中，都是使用以區塊為主的編碼(block-base coding) 方式，也就是把每張影像切成一個一個的方塊(block)，每個方塊各自根據本身的內容來壓縮，但是這樣的壓縮效益已經不能滿足某些需求了。這時，以物件為基礎的壓縮(object-base coding)逐漸受到重視，而在 1998 年 10 月制定 MPEG-4 標準[1、2]就是一個以物件為基礎的壓縮標準，它是針對數位電視、互動式繪圖應用(影音合成內容) 、互動式多媒體之整合技術訂定的國際標準。在 MPEG-4 中，視訊資料的內容被分割成數個 VOP(video object planes)，每個 VOP 代表了畫面當中的一個物件的內容。這些 VOP 可以被分開編碼、儲存及傳送，而接收端可依照需求及應用將這些 VOP 加以重組、刪減或是替換。

即為物件，也就是會改變的部份，所以將物件分離壓縮相當於只須對畫面中產生改變的地方做壓縮，而不動背景的部份不需要和傳統的壓縮標準一樣，在壓縮每一個畫面(frame)時都將該畫面的背景一起壓縮。物件為基礎的壓縮則會將背景建構出來，然後對整個背景做壓縮，之後只需要用較少的資訊來維護背景的資訊。這是提升壓縮效益的一個重要因素。所以在物件為基礎的壓縮當中，

物件的擷取變成一個重要的課題，在標準當中並沒有提供物件切割的方法，而物件擷取的好壞也會直接影響到壓縮的效率，越是能夠精確的擷取出動態的物件，則能夠越清楚的將畫面中改變的像素和沒有改變的像素區分出來，然後對改變的像素做壓縮，壓縮的效益也就越高，但是若將不會變動的背景也當做事務見擷取出來，則對這些背景部份所做的壓縮是多餘的。因此本論文當中，我們將討論如何使用影像序列當中影像的內容，來切割出動態的物件。

1.2 相關研究探討

動態影像切割技術的發展已經有相當的時間，經過這麼久的發展已經存在了相當多的方法。在切割的時候，我們擁有兩種資訊可以運用，一個是利用空間域上的資訊，另一個就是同一物件在時間 t 跟 t+1 因為運動而在這兩張影像上面產生了某種關聯性，這是所謂時間軸的資訊。所以根據這兩種資訊，可以幫助我們將動態的物件擷取出來。

空間域影像切割是對於靜態的影像做切割，也就是影片中的一個畫面

(frame)。它切割出來的結果，必須盡量跟人類視覺上的看法相同。而大部份的方法是將影像中空間的特徵切割出來，例如：邊、顏色相似區域或是紋理相似的區域等等。

由 Comaniciu 所提出來的，對空間以 Mean shift 來做分割的方法 [3、4]。

它會將整個影像分割成多個區域，每個區域內的像素具有相似色彩或是相似灰階強度。Mean shift 演算法是在一個空間域跟色彩域結合的象限中做處理，我們稱之為空間-強度域，空間域是影像中的二維座標(x,y)，色彩域則是像素的色彩資訊，在灰階影像中為像素的灰階值強度則維度 I，彩色影像則為 R，G，B 共三維。所以每個像素可以看成三維(x,y,I)或五維(x,y,R,G,B)的向量。

當我們最某個像素 p 做 mean shift 計算時，我們以 p 為中心點，以維度中限定一個範圍 S，此範圍 S 是必須事先給定。例如，在三維的灰階影像，我們給定一個 S 其範圍如下：＂和 p 的距離為 10 個像素且和 p 的灰階值強度差值在 5 以內＂，所以若某像素和中心像素的距離小於 10 且強度差值在^±5 以內，此像素就在 S 以內。

接著算出範圍 S 內所包含的的像素之平均向量(mean vector)，將中心點移至算出來的平均向量。一直重複這個計算動作，直到平均向量開始出現重複為止。此時我們將起始的像素 p 之色彩資訊以最後停止的平均向量之色彩資訊來

Bonnaud 和 Chassery[6]提供了一個利用畫面差(frame difference)與合適的參考影像(reference image)來擷取影片中物件的方法，其中參考影像就是影片中不變的背景部份。這個方法提供了一個演算法來建立以及更新所要用到的參考影像。

然後整個物件可以由比較目前畫面跟參考影像取得，即使物件停止移動或是只有些微移動，也可以擷取出來。

在處理時間域的方法中，估測運動向量是一個常常被使用到的方法，在 John Bea Kim 和 Hang Joon Kim 提出來的方法當中[7]，也有使用到估測運動向量。而這個方法是一個以區域為基礎的動態物件切割，它主要是應用於錄影監視系統(video monitoring system，VMS)，整個過程是由兩個步驟所組成的，第一個階段是偵測畫面中改變的區域，利用一個適合的門檻值在畫面差中決定改變的區域，其中門檻值是自動產生的。第二階段以估測運動向量所得到的運動資訊來進行移動物件的切割。把第一個步驟找到的區域當中具有相似強度以及相似運動資訊的像素利用有權重的 k-mean 分群演算法產生我們所要的移動物件的遮罩。為了提高運算速度，估測運動向量並不是對整張影像執行，只對偵測出有改變的區域來執行。

1.3 論文架構

在我們所提出來的方法當中，並沒有利用到運動向量的估測，因為估測運動向量花費的時間比較長，所以在時間域上，是利用畫面間像素強度改變的資

訊以及建構和維護一個可以信任的背景影像。這方法是針對於用在場景不會改變的影片上。

第二章將會提到我們空間域切割所用的演算法，分水嶺演算法，此演算法能將空間域的資訊找到。接下來第三章將會介紹我們再時間域的演算法，此演算法主要是利用畫面間，各像素強度改變的資訊，來建構貝景以及切割物件。

第四章是將空間域資訊跟時間域資訊結合，以產生一個完整的物件遮罩。最後將呈現一些實驗的結果。

第二章

來將這些區域隔開。我們所提出的方法中利用到 morphological gradient 和分水嶺(watershed)兩個演算法。下面將對這兩個演算法做進一步的說明。

2.1 Morphological Gradient

首先，在 Morphological 處理中的基本運算有下面幾個：

膨脹(Dilation)： (Structuring element)。圖 2.1 為膨脹和侵蝕的示意圖。圖 2.1(a)中所指的 A、B 也就是定義中的集合 A 跟 B，圖 2.1(b)中深色的區域則是 A 跟 B 作膨脹運算後

(b)Dilation Α⊕Β (c)Erosion ^ΑΘΒ 圖 2.1 Dilation 和 Erosion 之示意圖

前面所提到的膨脹跟侵蝕是用在二元影像(binary image)上，若要在灰階值的影像上應用膨脹和侵蝕，方法需做下述之修正。若欲處理的影像中座標為(x,y) 的灰階值表示為 f(x,y)，所使用的結構元素(structuring element) 中座標為(x,y) 的灰階值表示為 b(x,y)。

灰階值的膨脹(Gray-scale dilation)

以 b 對 f 作灰階值膨脹(Gray-scale dilation) 我們可以記作 f ⊕b，定義

就是結構元素中座標是(0,0)的位置) 是對應到影像當中的座標(s,t)，相加結果中的最大值即是此像素膨脹的結果。

灰階值侵蝕(Gray-scale erosion)：

以 b 對 f 作灰階值侵蝕(Gray-scale erosion) 我們可以記作 f Θb，定義

經過梯度運算的結果。

(a)

(b)

圖 2.2 梯度運算的結果

2.2 分水嶺切割(Watershed segmentation)

分水嶺切割是將影像分成相同性質的封閉區域，而且區域之間並不會有重疊發生。所以我們將分水嶺切割作為空間域分割所用的演算法。

2.2.1 用氾濫(immersion)模擬的分水嶺演算法

當我們把一張影像的灰階值當成是地理上表面高度的高低起伏時，則此張影像在地理的觀點上就猶如有高山、平原、盆地等等的地形分佈。圖 2.3 為分水嶺演算法的示意圖，圖中地勢越高的地方則是影像中強度越強的地方。圖 2.3 中有二個集水盆地(catchment basins)，每一個盆地中都有高度最低的區域，所以在整張影像當中，每塊局部的最小值都會形成一個集水盆地。我們以氾濫的模式，去模擬水從各個盆地的最低處開始慢慢的向上漲，當有兩個不同盆地的水上漲到要互相接觸到時，就用一個水壩將兩邊隔開，而此時的水壩即是我們所要找的分水嶺線(watershed line)，當水漲到最高點的時候，所有的分水嶺皆會被找出來。

2.2.2 分水嶺演算法之實現

Vincent 和 Soille’s algorithm[5]是最常被使用的到的一個找出分水嶺的演算法。接下來將簡單的敘述此演算法的處理流程：

步驟 1) 先對要處理的影像 F 的每個點作梯度(gradient) 的運算，找出每個點的梯度值。而經過此運算後的影像稱為 G。

步驟 2) 將 G 量化成 32 個梯度等級(gradient level)，並對 G 中的所有像素依梯度值由小到大來做排序。

步驟 3) 因為每塊局部最小的區域都會形成一個集水區域，所以將那些擁有最小梯度等級的像素找出來，這些像素相當於某些集水盆地的最低處，

並且將在同一個盆地中的最小梯度等級像素給予一樣的編號。且每個盆地有自己所屬的編號。

步驟 4) 接著將對影像中的像素由低到高的梯度等級來做處理。假設我們目前正要對梯度等級為 N 的像素來做處理，圖 2.4 中顏色較深的部份是梯度等級小於 N 的像素所構成的集水盆地，顏色較淺的是梯度等級為 N 的像素，而白色的部份則是梯度等級大於 N 的像素。將圖中已找出來的集水盆地當作是中心(也就是顏色較深的區域)，在這些區域周圍一圈的像素，若是有梯度等級為 N 且還沒有被編號過的像素，

我們將之給予和集水盆地相同的編號。不斷重複這個動作，每做一次各個集水區便會向外膨脹一圈擁有梯度等級為 N 的像素，直到各集

水區周圍已經沒有符合條件的像素可以來做膨脹為止。此時，若還有梯度等級為 N 的像素沒有被給予編號，這些像素構成的區域相當於圖 2.4 中的”新發現之集水盆地”，也就是說這些像素構成的區域將會是另一些新的集水盆地之最低處，我們就利用步驟 3 之方式給予這些像素編號。

步驟 5) 當所有梯度等級為 N 的像素都經過編號後，檢查這些被編號的點，

在文檔中以建構背景擷取運動物件之方法 (頁 10-0)

第一章 緒論