門檻值的自動產生

第三章時間域的切割

3.3 門檻值的自動產生

由於在產生畫面差遮罩和背景-目前差遮罩的的過程都有用到門檻值來判定該像素是否為物件像素，因此門檻值扮演著重要的角色，若是門檻值不合適，

使得不能夠將背景跟物件清楚的分辨，不是將許多背景誤判成物件就是切割出來的物件支離破碎的，所以門檻值的準確是一個重要的環節。我們將利用機率上的分佈以及空間上的特性來找出合適的門檻值。

圖 3.8，它是整個產生門檻值的流程圖，它有二處輸出的位置，在(A)位置的輸出，通常是品質較好得影像，也就是說影片拍攝時，攝影器材所造成的雜訊很微弱。另外(B)位置的輸出是經過更進一步空間的分析而產生的，因為此時攝影器材造成的雜訊比較強。接下來我們將對整個流程做說明。

Frame Difference histogram and

background

p(d)是差值為 d 的像素出現的機率

p(0)也就是背景像素中差值為 0 的像素出現的機率。若我們可以將 p(0)估計出來，便可以估計σ。所以利用下式來估計 p(0)

p(0)=number(pixel difference=0)/previous background pixel number

上式的 number(pixel difference=0)為此畫面中差值為 0 的像素之個數，previous background pixel number 為上個畫面切割的結果中背景像素的個數，其初始值為整張畫面像素的總數。會如此估計 p(0)是因為我們假設上個畫面中被認為是背

(a) akiyo 之直方圖

現在要對空間上做進一步的分析找出合適的門檻值，要產生另一個新的

p(|d|)=p(background with |d| and object with |d|)

因此欲在二倍標準差外找到一個合適的門檻值將背景以及物件區分，此門檻值個畫面像素的總數即為 p(background with |k|)的近似值。而此判定的不等式是表

示，在二倍標準差外，找到第一個 K，會使得影像差值絕對值為 K 的像素中，

屬於背景的像素比屬於物件的像素少，則此 K 即為門檻值。圖 3.11 為 hall 影片其中一張畫面的差值影像值方圖，此畫面估計出來的標準差趨近於 2，所以需要做空間上的分析，最後將適合的門檻值找到，而所找到的門檻值為 9。

圖 3.11 hall 之影像差直方圖

圖 3.12(a)是以圖 3.11 直方圖來取二倍標準差 4 當作門檻值所得到的 FDM，

其結果相當的不理想，雜訊非常的多，圖 3.12(b)則是利用演算法找到的 9 當作門檻值所得到的 FDM，遮罩中的雜訊數量明顯的比圖 3.12(a)少。

(a) 以 4 為門檻值產生之 FDM

(b) 自動產生之門檻值 9 的 FDM 圖 3.12 hall 影片不同門檻值之比較

第四章

空間-時間域切割及實驗結果

為了使影像切割的結果更為精確，我們將空間域切割的資訊跟時間域切割的資訊加以合併，這章將說明合併的方法以及實驗的結果。

4.1 結合時間域跟空間域的切割

將時間跟空間資訊合併有二個步驟，分別是以區域為觀點和以邊界為觀點，第一個步驟是先對區域來處理，再對邊界來加以修正補強。圖 4.1 是將空間域以及時間域的流程圖合併為整個演算法的流程圖，從圖中可以看出，是將欲切割畫面的分水嶺結果跟時間域上最後產生的物件遮罩做結合。

4.1.1 移動區域的偵測

在這步驟，利用目前要做分割的影像畫面 F_k跟前一張影像畫面 F_k₋₁在時間軸切割的結果，然後跟空間域的分水嶺結合，偵測出 F_k中有所移動的區域。使用的方法為，檢查在分水嶺結果的每一個區域(集水區)，若某區域 R_i被偵測為移動的區域，它會滿足下列的不等式

N T p = >

R_i所有像素的比例 p 超過一個門檻值 T_r時，我們就將整個 R_i判斷為移動區域，

current frame previous

frame

temporal segmentation

圖3.1

motion region detection

motion boundary detection combine

spatial and temporal

refined object mask

final object mask

text

(a)

(b)

圖 4.2 移動區域偵測之結果

4.1.2 移動邊界的偵測

當兩張畫面之間物件只有些微的移動或是移動很緩慢，且其背景資訊還尚未建構完全時，若只利用區域偵測來判斷往往會漏掉這些移動些微的區域，將之認為是背景。而這些區域在時間域的移動偵測時，通常只有區域的邊界部份會被偵測到，切割出來，所以我們就利用移動邊界的偵測來將這些區域找出來。

此處用到的方法跟上一個步驟的觀念類似，它們不同的地方是在區域偵測時是以區域內的點來判斷在此處是以區域邊界的點來做判斷，若判斷為移動的區域邊界，它會滿足下列不等式

MN >

上式，M 是代表包圍區域 R_i的邊緣所包含像素之數目，N 代表包圍區域 R_i的邊緣像素中，在時間域切割中被認為是運動像素的數目。它的理由跟區域偵測一樣，所以不多做解釋了。但是有一點必須要注意的，就是並不是所有的區域邊界都要做偵測，被我們偵測的區域邊界當中，它區域內的點還是必須有一定的比例要屬於時間軸所判斷為移動的點，但是這比例卻不足夠讓這個區域在區域偵測中判斷為移動區域，這些才是我們要拿來判斷的對象。圖 4.3 就是說明此步驟所修正的效果。圖 4.3(a)是分水嶺的結果，圖(b)是時間域切割的結果，

圖 4.3(c)是經過區域偵測的結果，此時發現臉上缺了一大塊區域，但是經過此步驟後便將此錯誤修正，結果為 4.3(d)。

(a) (b)

而經過時間以及空間域的合併之後，不僅僅可以將許多錯次的判斷移除，也可以利用空間的資訊，使得切割結果中的物件邊界更為準確。

4.2 實驗結果

我們接下來對一些影片用之前所提到的演算法來加以分割，我們利用到的影片有兩種規格，其中比較大的是 CIF(影像大小是 288x352)，而比較小的是 QCIF(影像大小是 144x176)。圖 4.4 是 Akiyo 影片分割的結果，它是 CIF 的格式。

圖 4.4 Akiyo 的分割結果

圖 4.5 是 News 影片分割的結果，它是 CIF 的格式。共有 300 個畫面。下面的結果從左到右，從上到下，分別是畫面 1，30，60，……270。而整段影片中，除了播報員為運動物件外，後面的電視牆也是動態的。

圖 4.6 是 claire 影片分割的結果，它是 QCIF 的格式，共有 494 個畫面。下 面的結果從左到右，從上到下，分別是畫面 1，30，60，……300….450。

圖 4.6 claire 的分割結果

圖 4.7 是 hall 影片分割的結果，它是 CIF 的格式，共有 300 個畫面。下面的結果從左到右，從上到下，分別是畫面 1，20，40，60，……300。在下面的結果當中，第一個畫面沒有東西是因為此時並沒有任何動態物件。在第 20 個畫面時，人一開始進入的畫面當中，其分割的結果並不太理想，主要是因為一開始的時候背景還沒有完全建構完成，再加上此段影片有相當多的雜訊，所以造成如此的結果。

圖 4.7 hall 的分割結果

圖 4.8 是 mother and daughter 影片分割的結果，它是 CIF 的格式，共有 300 個畫面。下面是其中四個畫面的分割結果。

圖 4.9 mother 的分割結果

第五章結論

在影像序列的壓縮當中，物件的分割佔了相當大的重要性，它的結果會直接影響到壓縮的效益。若是能夠有效的將物件跟背景分開，這樣一來我們只需要對物件做壓縮，所以可以大大的提升壓縮的效益。但是在 MPEG4 以及一些壓縮的標準當中，並未提到一套有效的物件切割方法，因為對於不同型態的影片常常需要用到不同的方法。

在提出的方法當中，是針對於場景固定的影片而應用的，它主要的想法就是建構一個可靠的背景，需要被切割畫面，將會拿來跟背景的資訊做比較，若是強度跟背景相異，我們就將它歸類於是運動的物件，否則就認為它是背景，

這些都是時間軸上的處理。為了要使物件能夠更完整的被切割出來，我們就必須利用一些空間上的資訊，所以我們利用到分水嶺的演算法，在做分水嶺之前還必須將畫面先經過梯度(gradient)運算的處理，若是沒有這麼做，會造成影像過度分割，如此一來便失去了分水嶺的意義。經過梯度運算的影像完成分水嶺演算法之後會將相似的區域分割出來，且是封閉且不會重疊的。最後再將時間跟空間的結果加以合併，使得最後物件能夠完整的呈現以及物件的邊緣能夠比較準確的呈現。而這個方法可以用在一些新聞影片中播報員片段的壓縮或是一些監視系統的壓縮等等，因為這類的影片鏡頭都是固定的。

REFERENCES

[1] “MPRG-4 Video Verification Model version 18.0” ISO/IEC JTC1/SC29/WG11 N3908,January 2001.

[2] “Information Technology – Coding of audio visual objects Part 2:Visual”

ISO/IEC 14496-2:2003.

[3]D. Comaniclu and P. Meer, “Mean Shift Analysis and Applications”, Proc. IEEE International Conference on Computer Vision,VOL.2,pp.1179-1203,1999.

[4] D. Comaniclu and P. Meer ,“Mean Shift :A Robust Approach Toward Feature Space Analysis”,Proc. IEEE Transactions on Pattern Analysis and Machine Intelligence,VOL.24,NO.5,pp.603-619,May,2002.

[5]L. Vincent and P. Soille “Watersheds in Digital Space: An Efficient Algorithm Based on Immersion Simulations”, Proc. IEEE Transactions on Pattern Analysis and Machine Intelligence,VOL.13 , NO.6 ,pp.583-598, June,1991.

[6]A.Caplier , L.Bonnaud and J.-M.Chassery, “Robust fast extraction of video objects combining frame differences and adaptive reference image”,Proc. IEEE International Conference on Image Processing ,VOL.2,pp.785-788,2001.

[7] J.-B. Kim and H.-J. Kim, “Efficient region-based segmentation for a video

generation tool: automatic segmentation of moving objects in image sequences based on spatio-temporal information” ,Proc. IEEE Trans. Circuit and System for Video Technology. VOL.9,No8 ,pp. 1216-1226,Dec 1999.

[9]C. Stiller and J. Konrad , “Estimation motion in image sequences”, IEEE Signal Processing Magazine . VOL.16,Iss. 4,pp 70-91,July 1999.

[10]S.-Y. Chien ,S.-Y. Ma and L.-G. Chen, “Efficient Moving Object Segmentation Algorithm Using Background Registration Technique”, IEEE Trans. Circuit and System for Video Technology. VOL.12 ,No.7,pp.577-586,July,2002.

[11]Wei-Jung Chien and Sheng-Jhy Wang , “The Study of Spatio-Temporal

segmentation for image sequences”, Master Thesis, National Chiao Tung University, Hsinchu ,Taiwan,ROC,2001.

[12]R.C. Gonzalez and R.E. Woods, “Digital image Processing”, Addison Wesley Publishing Company,USA,1992.

[13]Linda G. Shapiro and George C. Stockman, “Computer Vision”, Prentice Hall,2001.

在文檔中以建構背景擷取運動物件之方法 (頁 38-0)

第三章 時間域的切割