摘要
近年來,愈來愈多數位視訊服務與設備被產生。這些服務,例如:線上遊戲、
隨選視訊以及互動電視等,皆採用物件導向的方式去設計。此外,新的視訊編碼
標準 MPEG-4 提供了以物件為基礎的功能。在 MPEG-4 標準之中,每段視訊片
段中的單一畫面(Frame)皆由多個視訊物件平面(Video Object Plane, VOP)所組
成;每一單一的視訊物件平面即代表單一物件。但是在傳統的分割方法中,倘若
我們要得到更好的分割結果的話,我們必須花費更多的計算時間。因此,在視訊
檔案中,自動產生物件的分割演算法扮演著很重要的角色。
在本篇論文中,我們提出一個能自動分割物件的演算法;這個演算法能夠快
速且有效地將移動的物件擷取出來。此自動分割物件的演算法是基於結合空間資
訊與時間資訊的演算法;在空間資訊中,我們是以彩色邊緣擷取(Color Edge
Extraction) 方法來將影像的邊緣擷取出來,在時間資訊中,我們是以移動偵測
(Change Detection)的方法來找出影像中移動物件的區域。此外,在本篇論文中,
我們使用輪廓(Contour)資訊來取代傳統的區域(Region)資訊,使用這樣的做法可
以提昇整個分割演算法的效率。在實驗的部份,我們使用 MPEG-4 Reference
Software 來分析使用我們提出的分割演算法所切割好的物件在品質與壓縮倍率 的表現,由實驗中可得知使用提出演算法所分割出的物件在品質與壓縮倍率皆有
良好的表現。
致謝辭
本 文 承 蒙 鄭 芳 炫 教 授 兩 年 來 悉 心 的 指 導 與 寶 貴 的 建 議 ,使我在兩年
的 研 究 生 涯 中 研 究 與 課 業 上 獲 益 不 少 , 謹 此 致 上 最 誠 摯 的 謝 意。又資訊
工 程 系 所 諸 位 師 長 , 均 熱 心 提 供 許 多 寶 貴 的 意 見 , 以及成功大學蘇文鈺
老 師 熱 心 指 教 , 於 此 也 表 達 誠 摯 的 謝 意 。
另外還要感謝成 功 大 學 黃識詮學長、王景新學長以及實驗室的學長與陳建
豪學長以及同學毓良、 鈺君、淼鎮、再興、在豐、正岱、永欽與實驗室學弟以
及好朋友雅慧、柏鴻等,在論文研究期間給予的幫助與鼓勵,讓我得以順利完成
研究。
最後特別感謝我的父母親、家人的鼓勵與支持,同時也謝謝所有關心我愛護
我的人。僅以此篇論文獻給我的父母親。
目錄
摘要 ...I 致謝辭 ...II 目錄 ... III 圖示目錄 ... IV 表格目錄 ... IV
第 1 章 緒論 ... 1
1-1 動機與目地... 1
1-2 本論文的組織... 1
第 2 章 分割方法相關研究 ... 2
2-1 空間上的分割方法... 2
2-1.1 基於門檻值的分割方法... 2
2-1.2 基於邊緣的分割方法... 3
2-1.3 基於區域的分割方法... 3
2-2 時間上的分割方法... 4
2-2.1 基於移動的分割方法... 4
第 3 章 提出的影像分割演算法 ... 4
3-1 前處理... 6
3-2 時間資訊... 6
3-2.1 移動偵測遮罩... 6
3-2.2 對移動偵測遮罩做連通處理... 7
3-3 空間資訊... 7
3-3.1 彩色邊緣擷取方法... 7
3-4 結合時間與空間的資訊... 8
3-4.1 時間與空間資訊的結合... 8
3-4.2 對有興趣的影像做連通的處理... 8
3-5 後處理... 8
第 4 章 實驗結果 ... 8
4-1 實驗工具... 8
4-2 測試影片檔案的類型... 9
4-3 影像分割演算法實驗結果... 9
4-4 品質與壓縮率之實驗結果... 12
第 5 章 結論與未來工作 ... 14
英文論文本 ... 16
圖示目錄
圖 3-1. 分割演算法整體系統流程... 5
圖 4-1. MPEG-4 整個編解碼流程... 9
圖 4-2. 邊緣擷取結果(Akiyo 與 Mother&Daughter) ... 10
圖 4-3. 移動邊緣遮罩結果(Akiyo 與 Mother&Daughter) ... 10
圖 4-4. 提出的分割演算法最終結果(Akiyo 與 Mother&Daughter)... 11
圖 4-5. 半自動分割演算法分割結果(Akiyo 與 Mother&Daughter)... 11
表格目錄
表格 5-1. 平均的 PSNR 與壓縮比率比較表... 14第1章 緒論
1-1 動機與目地
在傳統視訊編碼標準以畫面(Frame)為主的壓縮方式裡,許多我們不感興趣
的部份(例如:單調的背景)也一併被編碼,這樣會造成多餘的資料存在編碼後
的序列(Sequence)中。近幾年來,愈來愈多數位視訊服務與設備被產生;這些服
務(例如:線上遊戲、隨選視訊以及互動電視等)皆採用物件導向的方式去設計。
此外,新的視訊編碼標準 MPEG-4 中提供了以物件為基礎的功能。在此標準中,
每段視訊片段中的單一畫面(Frame)皆由多個視訊物件平面(Video Object Plane,
VOP)所組成;每一單一的視訊物件平面即代表單一物件。因此,在視訊檔案中,
一個好的產生物件的分割演算法伴演著很重要的角色。但是在傳統的分割方式
中,若我們要得到較佳的結果則電腦必需要花費更多的計算量。
因此,本篇論文提出基於結合空間資訊與空間資訊的分割物件的演算法;此
演算法可以將一段視訊檔案中每個畫面所移動的物件擷取出來。在空間資訊中,
我們使用彩色邊緣擷取的方式來將整張畫面的邊緣取出;在時間資訊中,利用移
動的資訊來將物件由畫面中擷取出來。並且利用輪廓的資訊來替代傳統的區域資
訊,這樣的做法可以加速整體分割演算法的執行速度。
1-2 本論文的組織
在本論文我們提出一基於合併空間資訊與時間資訊的物件分割演算法。共分
成五個章節,首先於第一章介紹本篇論文的目的與動機。我們說明相關研究於第
二章。第三章我們說明整個論文分割演算法詳細的流程。第四章我們將實驗與結
果作一個陳述。最後第五章則是結論與未來工作。
本論文之中文版僅為研究成果之摘要,詳細的細節與資料部分請參考英文版
論文的部分。
第2章 分割方法相關研究
在 MPEG-4 標準之中,每個畫面被分割成許多任意形狀的視訊物件平面
(VOPs),其中每一個視訊物件平面即代表一個物件或是感興趣的視訊內容。隨後 我們將會描述物件分割方法的相關研究。首先,分割的方式可以分為空間上的分
割與時間上的分割兩種;在空間上的分割是基於特徵的擷取,空間上的分割方法
是將單一張影像利用直方圖門檻值法、影像邊緣的擷取及區域生成法將特徵取
出。在時間的分割方法上是利用移動的資訊來將物件由兩個相鄰的畫面中中擷取
出來。
2-1 空間上的分割方法
空間上的分割方法是指在一張影像上做處理,底下將對傳統在空間上的分割
方式做說明。
2-1.1 基 於 門 檻 值 的 分 割 方 法
基於門檻值的分割方法是最簡單的一個分割方法,此方法通常適用於灰階值
影像。利用一門檻值
T
將物件由背景像素區別出來。一門檻值影像g ( x , y )
定義如公式所示,其中
f ( x , y )
為原始影像,T
為門檻值。然而門檻值的分割方式在自然影像中是不理想的;因為在自然影像的直方圖中每一個區域(Region)往往都會有
涵蓋(Overlap)其它區域的現像。
≤
= >
T y x f if
T y x f y if
x
g
0 ( , )) , ( ) 1
,
( ( 2-1)
2-1.2 基 於 邊 緣 的 分 割 方 法
邊緣是指存在兩區域間邊界上的連通像素的集合,因此我們可以利用邊緣檢
測方式來偵測是否有邊緣的存在。而大部份的邊緣偵測方式是採用將影像做一階
導數運算,而這些導數的運算皆可利用與遮罩(Mask)做旋積運算來達成;邊緣檢
測方式有分很多不同的種類,就像 Roberts 運算子、Prewitt 運算子、Sobel 運算
子與 Laplacian 運算子。Roberts 運算子是一階導數運算子,因此我們可以定義在
影像
f ( x , y )
上位置為( x , y )
的梯度值定義如所示。[
x2 y2]
1/2y
x
G G
y f x f
G
f G = +
∂
∂ ∂
∂
=
=
∇
( 2-2)2-1.3基 於 區 域 的 分 割 方 法
在一影像之中,相同的區域擁有相同的特徵,例如灰階值、色彩資訊以及紋
理。區域生長是像素或子區域聚合生長成更大區域的過程,從一個種子點集合出
發,將與每個種子點有相同性質鄰近像素添加進來進行區域生長。在此方法中近
年來廣泛被大眾採用的是分水嶺(Watershed)演算法,將影像上灰階值較低的點作
為起始點,並由此點向外生長,最後就會有一塊塊的區域產生。
2-2 時間上的分割方法
時間上的分割方法指的是兩張相鄰畫面的分割方式,在兩張相鄰畫面中若存
在移動的物件則會造成灰階值的改變,因此我們可以利用移動的資訊來得知那邊
有移動物件的存在並擷取出移動的物件。隨後我們將會描述時間上分割的方式。
2-2.1 基 於 移 動 的 分 割 方 法
在兩張相鄰畫面中若存在移動的物件則會造成灰階值的改變,因此有許都時
間分割的演算法皆採用移動資訊來分割,其中最簡單的方式就是利用像素灰階值
的 改 變 來 做 為 資 訊 。 此 處 我 們 定 義 在 時 間
t 與
it
j 存 在 畫 面f
(m
,n
,t
i) 與) , , ( m n t
jf
。此方法利用一門檻值來將決定兩相鄰畫面中所移動的物件範圍,方程式描述如下所示, 其中
D
ij( m , n )
是指移動的區域,Vth 為門檻值。= ) , ( m n
D
ij 1, if |f ( m , n , t
i) − f ( m , n , t
j)
| > Vth ( 2-3) 0, otherwise在其它方法中,也是基於灰階值的改變來做動作,利用標準差比較的方式來
實現;此方法是採用卡方分佈(
F
-discribution)來比較兩個不同的標準差。這個方式的構想是利用移動區域灰階值的標準差是不同於靜止區域的標準差,因此
移動的物件就會在差值影像中被偵測出來。
第3章 提出的影像分割演算法
在本篇論文我們提出一自動分割的演算法,此方法是基於時間與空間的資訊
的結合。在空間資訊處理上,我們是利用彩色邊緣擷取的方式來將影像的邊緣取
出,並使用連通圖的處理將影像分成一塊塊的區域。在時間資訊的處理上,因為
在影像序列中移動的物件會造成灰階值的改變,因此我們採用兩張相鄰畫面移動
的資訊來將移動的物件擷取出來。在圖中說明整個影像分割演算法處理的流程。
Pre-processing Pre-processing
Change Detection Mask
Connected Component for CDM image Color Edge Detection
Combine spatial temporal information
Post-processing Connected Component for interesting image
Binary Object Mask
F
kF
k 3+Is Generate Clobal CDM
Is Generate Clobal CDM
Load Pre-CDM Yes Yes
No No
圖 3-1. 分割演算法整體系統流程
圖 3-1 描述所提出的分割演算法整體流程;圖中
F 是目前畫面,
kF
k+3是第k+3 個畫面。首先兩畫面
F 與
kF
k+3會先經由前處理的動作來將雜訊濾掉,接下來測(Change Detection)的方式來做處理,最後,我們會結合這兩項資訊來將移動的
物件分割出來。
3-1 前處理
在各個畫面中通常都會有雜訊的存在,而雜訊往往在處理的過程中也造成些
許的影響。因此在此處我們利用二維離散小波轉換來將雜訊的影響降低;在本篇
論文我們採用一階的離散小波轉換並且以 LL 影像來做處理;LL 影像是原始畫
面的四分之一大小。當取得 LL 影像後,我們利用 Cubic 插補的方式將影像還原
成原始大小。
3-2 時間資訊
3-2.1 移 動 偵 測 遮 罩
因為移動的物件會在兩張相鄰畫面造成灰階值的改變,因此我們計算不動區
域的標準差並與絕對差值影像上每一個像素都去做比較,進而決定出移動偵測遮
罩。在遮罩中白點為前景部份(會動的區域);黑點為背景部份(不動的區域)。
此方式可以分成下列幾個步驟
步驟一. 計算兩相鄰畫面的絕對差值影像
步驟二. 計算目前畫面中不動部份的標準差
步驟三. 代入方程式計算結果,
N ( x , y )
是目前的( x , y )
像素與其八個鄰近像素點2 2/
) ,
(
x y Stddev AbsDiff
value + =
for allN ( x , y )
( 3-1)步驟四. 決定前景與背景區域
>=
= <
Vth value
if foreground
Vth value if
background y
x
CDM
255( )) (
) 0 ,
( ( 3-2)
步驟五. 重覆步驟三到步驟四直到所有絕對差值影像的點都做完為止
3-2.2 對 移 動 偵 測 遮 罩 做 連 通 處 理
在移動偵測遮罩的影像中白點的部份是代表前景的部份,我們可以發現前景
的區域都呈現分散的情況。因此此處我們利用連通圖的處理將構成一塊塊的區域
找 出 , 並 決 定 出 此 些 區 域 的 最 大 矩 形 範 圍 , 我 們 稱 為 全 域 矩 形 ( Global
Rectangle)。
3-3 空間資訊
空間資訊指的是在目前畫面上所做的處理,此處我們利用彩色邊緣擷取的方
式將影像的邊緣給取出來。
3-3.1 彩 色 邊 緣 擷 取 方 法
在傳統上有許多邊緣擷取的方法,例如 Canny 濾波器、Laplace 濾波器,而
此處我們採用一彩色邊緣擷取方法來擷取邊緣且流程圖如所示,整個流程可以分
成以下五個步驟
步驟一. 輸入影像的色彩空間轉換
步驟二. 對 Y、U 以及 V 影像分別去計算垂直、水平、左斜與右斜四個方向的梯
度運算。
步驟三. 在 Y、U 以及 V 影像的四個不同方像梯度結果決定出區域最大值做為那
一頻道(Channel)影像的邊緣。
步驟四. 利用一門檻值來決定各個頻道的影像邊緣。
步驟五. 結合 YUV 各頻道的邊緣進而決定出最後的影像邊緣
3-4 結合時間與空間的資訊 3-4.1 時 間 與 空 間 資 訊 的 結 合
先前我們在空間上有彩色邊緣的資訊與時間上有全域矩形的資訊,因此此處
我們利用交集(And)的運算來將此二資訊做結合,這樣結合出來的影像即代表
我們所感興趣的影像。
3-4.2 對 有 興 趣 的 影 像 做 連 通 的 處 理
接下來我們利用連通的處理將先前產生感興趣的影像將其輪廓取出並將所
有構成封閉邊緣得區域填滿白色,這樣物件的遮罩就會被我們產生了。
3-5 後處理
因為先前決定出的影像在邊緣的部份可能會有一些毛邊存在或是在遮罩中
間有少數些破洞的存在或是在影像上有些雜訊的存在,因此我們利用形態學中斷
開(Opening)與閉合(Closing)的運算來改善此情況。因此最後二值物件遮罩
就會被我們產生。
第4章 實驗結果
4-1 實驗工具
在本篇論文中我們採用 MPEG-4 Video Reference Software 來將我們所分割
出的物件做編碼與解碼的動作進而比較品質與壓縮率 ;而此軟體為公定的
ISO/IEC 14496-5 Reference Software。此外在 MPEG-4 中,每一個視訊物件平面 是各別做編碼的動作,因此我們將分割出的移動物件當成單一的物件進行編碼的
動作。在圖 4-1 中我們列出 MPEG-4 整個編解碼流程。
圖 4-1. MPEG-4 整個編解碼流程
此外,MPEG-4 中因為不同頻寬的需求提供許多不同的 Profile,我們實驗中
對 Frame-based 編碼我們使用 Simple Profile 而對 Shape-based 編碼我們使用 Core
Profile,另外因為我們使用的是 CIF 格式(352*288),所以都是隸屬 Level2 的。
4-2 測試影片檔案的類型
在本實驗中我們所使用的測試檔案是 Akiyo 與 Mother&Daughter 兩個不同的
影片,而這兩個影片檔是屬於 MPEG-4 標準影片檔中類別 B 的檔案;而類別 B
則是屬於移動資訊較小的檔案。
4-3 影像分割演算法實驗結果
我們列出利用所提出的演算法與半自動化分割(Photoshop Extract Function)
的演算法所分割的結果,分別列出在空間與時間上分割過程與最後分割的物件。
圖 4-2. 邊緣擷取結果(Akiyo 與 Mother&Daughter)
圖 4-3. 移動邊緣遮罩結果(Akiyo 與 Mother&Daughter)
圖 4-4. 提出的分割演算法最終結果(Akiyo 與 Mother&Daughter)
圖 4-5. 半自動分割演算法分割結果(Akiyo 與 Mother&Daughter)
4-4 品質與壓縮率之實驗結果
本實驗我們利用 MPEG-4 Reference Software 將所分割出的物件做編碼與解
碼的動作,並比較編碼後的總使用位元數與解碼後的 PSNR。這邊分割的物件有
兩種產生的方式,一是利用我們提出的分割演算法來做,另一是利用半自動分割
演算法來切割,隨後列出比較的結果。
PSNR 比較
【Akiyo】
【Mother&Daughter】
總使用位元數比較(Total Cost Bits)
在此處總使用位元數的計算方式如公式所示
Stuffing Shape
MV Texture
Head
Total
Bits Bits Bits Bits Bits
Bits = + + + +
( 4-1)【Akiyo】
【Mother&Daughter】
第5章 結論與未來工作
5-1 結論
本篇論文中我們提出一自動化分割演算法,此演算法能夠有效的將移動的物
件取出;而此演算法是結合空間資訊與時間資訊來做分割。在空間資訊方面,我
們使用彩色邊緣擷取的方式來將邊緣資訊取出;在時間資訊方面,我們利用移動
偵測來找出移動物件的所在位置。此外,我們利用輪廓資訊來取代區域資訊以增
進整體系統的效能。
在我們實驗中我們使用 MPEG-4 Reference Software 來做分析,發現使用我
們提出的分割演算法擁有較佳的品質與壓縮比率,在列出不同影片檔的品質與壓
縮比率的情況。此外由實驗我們也可以得知使用 shape-based 編碼方式做編碼比
用 Frame-based 編碼方式做編碼也有較佳的品質與壓縮比率。
表格 5-1. 平均的 PSNR 與壓縮比率比較表
Akiyo 測試影片 平均 PSNR 壓縮比率
使用半自動分割法做分割 40.4790 378
使用提出之演算法做分割 40.9332 485
Mother&Daughter 測試影片 平均 PSNR 壓縮比率
使用半自動分割法做分割 39.2122 283.19
使用提出之演算法做分割 40.1744 380.71
5-2 未來工作
在分割演算法的結果中我們可以發現兩處需改善的地方
n 在分割的結果中,有時後會有錯誤分割的情況產生,這些情況指的是在物件
邊緣的部份會有少數將背景的邊緣誤認為前景的部份, 因此往後我們可以
再結合其他資訊將此錯誤去除。
n 我們可以新增物件歷史資訊的功能,這樣就可以讓分割出的結果較穩定些。