動態視訊物件擷取技術與未遮蔽背景之消除方法

一般若單獨使用移動資訊(motion information)來擷取移動物體時，由於移動物體區域並非皆是移動的狀態，往往會造成無法擷取完整的移動物體。因此我們利用不動的背景資訊找出完整的移動物體區域。但在場景中要出現完整的背景資訊是不容易的，因此在我們的演算法中將整個擷取架構分成兩大部分:初始前景/

背景建立與移動物件輪廓追蹤。

3-1 改變偵測及初始背景/前景之建立

Fig.3-1 初始前景/背景建立流程圖

在初始背景建立部分，如 Fig.3-1 所示。我們主要利用改變偵測(Change Detection)技術先將約略的移動物體區域分離出來，其表示式如 Eq.3-1 所示：

= ) , (m n

D_ij 1 ,if f(m,n,t_i)− f(m,n,t_j) ≥Vth

0 , Otherwise (3-1)

其中 f(m,n,t_i)與 f(m,n,t_j)分別為在時間t 與_i t 的影像，而 Vth 則是門檻值，若_j

= ) , (m n

D_ij 1 時此像素則認為是屬於移動區域，反之則屬於背景。然而僅單一次的改變偵測並無法將完整的移動物體挖取出來，在物件內部往往會有誤判的區域；因此在此論文中，我們設定重複上述改變偵測的步驟 9 次，進而能夠累積較多的移動物件空間資訊，將其移動物件內部缺少部分補齊。其每次改變偵測結果分別如 Fig.3-2(a)~(i)所示。

(a) (b) (c)

(d) (e) (f)

(g) (h) (i)

Fig.3-2 Weather sequence (a)~(i) 9 個連續改變偵測(change detection)結果

接著，根據之前累積的位置資訊，我們能夠將初始前景/背景分離出來。在

然而，由於是利用改變偵測作為累積移動物體位置的方式，若物體移動範圍

3-2 未遮蔽背景區域的消除 (Uncovered-background

elimination)

成的缺失。我們所提出的方法如下：

(a) (b)

Fig.3-4 設定不同 UBth 所得到的未遮蔽背景區域消除的結果 (a)當 UBth=3 時(b)當 UBth=5 時(c)當 UBth=7 時 (d)當 UBth=9 時

Figure.3-4 顯示出當設定不同門檻值時所得到的未遮蔽背景區域消除結果；

由結果可發現當門檻值設定較小時，其未遮蔽背景區域消除能力會愈好；但另一問題則是由於在移動物件內部，其飽和度(intensity)變動量不像邊緣如此明顯，

因此部份區域的 BGI 值會較大；若是將門檻值設定過低，則會將上述區域誤判 成背景區域，造成移動物件內部有缺洞產生。針對上述的問題，我們可以利用後處理的方式將這類缺洞填補，以得到完整的初始移動物體輪廓與背景。

針對後處理的部份，我們主要是以 connected-component 濾波器[14]來加以消除，其主要的功用是能對於不同物件發掘並分類其各別相關的組成區域。接著，根據事先已設定好的門檻值，就能消除較大範圍的雜訊區域。在此，我們使

用 8-direction connected-component 來針對一張影像中的每一像素作逐一的掃描與處理，其 8 個方向標示如 Fig.3-5 所示。

Fig.3-5 The 8-direction connected component filter

首先，我們先使用水平方向與垂直方向(Fig.3-5中的0、2、4、6)針對影像中的像素作逐一的掃描，如此我們就能分別建立出水平標記記錄(horizontal label buffer)與垂直標記記錄(vertical label buffer)。標記的方法是在一二元影像(binary image)中，假設P為在掃瞄過程中正在處理的像素，假設P像素的二進位值為1，

且其右側像素二進位值也為1，此右側像素則與P像素標記同一編號，否則則標記另一新的編號，如此則能建立出水平掃描之後的標記記錄(如Fig.3-6(a)所示)。與上述方法相似，針對在P像素下方的像素也是以此方式標記，如此則能建立出水平掃描之後的標記記錄(如Fig.3-6(b)所示)。接下來將水平標記記錄與垂直標記記錄所得到的資訊加以合併以建立出等值關係矩陣(equivalent realtion matrix)。

(a) (b)

Fig.3-6 (a)水平標記記錄；(b)垂直標記記錄

將水平標記記錄與垂直標記記錄互相比較，我們可以發現到在水平標記記錄中，編號 3 與編號 4 應該屬於同一群，編號 4 與編號 6 應該屬於同一群，編號 5 與編號 7 應屬於同一群。因此，我們可以藉由二位元矩陣(binary matrix)將上述

的現象建立出一等值關係式。所建立出的等值關係矩陣如 Fig.3-7 所示。

Fig.3-7 等值關係矩陣

接著，由於等值關係矩陣必須要符合反射性 (reflexivity) 、對稱性 (symmetry)、和傳遞性(transition)，因此我們必須要針對等值關係矩陣內容作上述的處理。為了符合反射性，我們將矩陣內由左上方到右下方所形成的對角線，

其中的每個矩陣單元都設定為1。為了符合傳遞性，我們使用到Floyd-Warshall 演算方式，其內容可用Eq.3-5表示：

For j = 1 to n For i = 1 to n

If L[i,j] = 1 then For k = 1 to n

L[i,k] = L[i,k] OR L[j,k] (3-5) 經過上述處理過後，我們可以建立出最後的等值關係矩陣(如Fig.3-8所示)。接著依照所得到的等值關係矩陣，我們將水平標記記錄結果再加以修正，

最後所得到的水平標記記錄結果如Fig.3-9所示。

Fig.3-8 經由反射性與傳遞性步驟所得到的最後等值關係矩陣

Fig.3-9 最後水平標記記錄結果

在完成水平與垂直的標記步驟之後，我們接下來針對對角線方向(1、3、5、

7)的像素做類似上述的步驟，如此可將影像中個每個區域各別標記出來。在完成標記步驟之後，我們分別計數在相同標記編號區域中的像素總數，若數量超過一定的門檻值之後，此區域則被歸類成移動物件區域的一部份，否則屬於雜訊區域，若這些雜訊區域是在移動物件內部時，我們則另外利用影像處理上的dilation 步驟將其填補。經過上述後處理步驟所得到的初始前景影像如Fig.3-10所示。

Fig.3-10 將 Fig.3-4(a)經過 connected-component 與 dilation 步驟所得到初始前景結果

3-3 移動物體追蹤

在擷取出初始的移動物體區域與背景之後，下一步則是追蹤移動物體的移動位置與區域。為了達到運算量的節省，我們以邊緣資訊(edge information)作為判斷移動物體區域與範圍的主要根據。其流程圖如 Fig.3-11 所示：

Fig.3-11 移動物體追蹤流程圖

情況下，使用背景預測方式可以較有效消除未遮蔽背景輪廓。

利用上述提到的方式可以將完整的物件輪廓找出並且將會造成未遮蔽背景現象的錯誤輪廓消除，最後將我們所要的動態物件完整擷取出來。我們首先利用輪廓的區域資訊先概略將物件在場景中的位置框出，接著再利用掃描的方式將其物件輪廓內部掃描出物件的詳細區域，最後再將其灰階值對應到相對的像素位置中，即可完整挖出移動的視訊物件平面(VOP)。

由於擷取出來的視訊物件平面，其他的區域即是此時影像中的背景資訊，因此我們可以將此類資訊重新作為移動估測步驟時輸入的背景影像資訊，以作為下一影像擷取動作的參考資料，如此將可建立一循環式移動物件偵測機制。

第四章以物件輪廓為基礎之 MPEG-4 編/解碼架構

我們已經提出了一種新的動態物件擷取演算法，接下來的步驟就是將其與現今的 MPEG-4 標準協定做結合。在現今所存在的多種 MPEG-4 編/解碼器中，我們選擇 XviD[21][22]編/解碼器作為結合的平台。由於在我們的擷取演算法中，背景的內容並不會變動，針對此種特性，在所提出的新編解碼架構中，可以使其減少背景資訊上的傳輸資料量。在 4-1 中，我們將介紹所提出的編碼器(encoder) 架構，並且說明如何減少在已編碼資料(encoded data)中屬於背景資訊所需的資料量。在 4-2 中，我們將逐一介紹在所提出的解碼器(decoder)架構中，針對未帶有背景資訊的框架(frame)，如何將其填補。在 4-3 中，我們將針對在背景填補這方面所遇到的問題與解決方式做詳細的介紹。

4-1 編碼器架構

Fig.4-1 提出的 MPEG-4 編碼器架構

我們所提出的編碼器架構圖如 Fig.4-1 所示。首先，輸入的影片藉由提出的擷取演算法先行分割為移動的物件區域與不動的背景區域。接著，我們使用 XviD 與 JPEG[23]編碼器分別針對移動的物件區域與背景做編碼的動作。由於背景資訊內容並不改變，所以我們只需要在編碼過程剛開始時傳送一次背景資訊即可。

這樣的編碼方式可以使編碼過的資料內只存有移動物體資訊與少量的背景資訊。

Fig.4-2 所提出編碼器位元串流架構圖

在 MPEG-4 的編碼架構中，若現在的影像內容與上一張影像變化量達到一 定程度時，此張影像則被編碼為 I-frame(又稱為 Key-frame)。而在 I-frame 之間 的影像則稱做 P-frame。I-frame 儲存整張影像資訊，而 P-frame 只紀錄與上一張 影像的差異量。在我們所提出的編碼位元串流(bit-stream)架構中(如圖 Fig.4-2 所 示)，背景資訊只包含在 I-frame 中，其餘的 P-frame 只包含移動物體資訊。因此，

I-frame 位元串流包含了移動物件位元串流資訊與背景位元串流資訊，而 P-frame

只包含了移動物件位元串流資訊。

4-2 解碼器架構

(a)

(b)

Fig.4-3 (a)解碼器端的背景填補架構；(b)經由背景填補架構所得到的完整解碼影像。

在所提出的解碼器架構中，我們根據不同的標頭檔(header)內容(如圖 像時，我們將其中的背景資訊填補到接下來的 P-frame 影像內容中，如此 P-frame 影像將擁有背景資訊(如 Fig.4-3(a)所示)。其表示式可由 Eq.4-1 表示之。

4-3-1 重疊區域與無資訊區域的產生

(a) (b)

(c)

Fig.4-4 (a) I-frame 中所包含的背景資訊 (b) P-frame 中所擁有的移動物體資 訊 (c)背景填補過程後產生的重疊區域與無資訊區域現象

我們以Fig.4-4簡單說明重疊區域與無資訊區域的產生原因。假設Fig.4-4(a) 為I-frame所帶有的背景資訊；其中黑色的區域由於是屬於移動物件區域，因此其 像素位置並無包含相對應的灰階值資訊。而Fig.4-4(b)則是代表之後P-frame所擁 有的移動物件資訊；相反地，此時將只有移動物件區域所包括的像素位置含有相 對應的灰階值資訊。擁有以上資訊之後，接下來則是針對P-frame內容執行背景 填補動作。但由於移動物體在此時已經有稍許移動，若我們只是單純地將之前所得到的背景資訊加入到現有的前景移動物件資訊中，則會造成部份移動物件位置與之前的背景資訊位置有重疊的現象產生(如Fig.4-4(c)中的白色區域)，而這些區

域即是重疊區域。而另一方面，由於物件的移動與背景資訊並未補償，所以亦會造成部份缺少背景資訊與移動物體資訊的區域產生(如Fig.4-4(c)中的黑色區域)，這些區域即是無資訊區域。Fig.4-5即是上述現象的真實情形。

Fig.4-5 重疊區域(白色區域)與無資訊區域(黑色區域)現象

4-3-2 前景優先性與背景補償(Foreground Priority and

Background Compensation)

為了解決上述的問題，我們分別針對其個別產生的原因，提出相對應的解決方式。針對重疊區域我們在解碼器架構部分提出前景優先性的方式能修正重疊區

在文檔中應用於MPEG-4標準協定之高效率視訊物件擷取技術 (頁 21-0)

3-1 改變偵測及初始背景/前景之建立

3-2 未遮蔽背景區域的消除 (Uncovered-background

elimination)

3-3 移動物體追蹤

第四章 以物件輪廓為基礎之 MPEG-4 編/解碼架構

4-1 編碼器架構

4-2 解碼器架構

4-3-1 重疊區域與無資訊區域的產生

4-3-2 前景優先性與背景補償(Foreground Priority and

Background Compensation)

第四章以物件輪廓為基礎之 MPEG-4 編/解碼架構