多媒體雕塑工作室
: 智慧型音視訊編修處理系統
視訊滌洗、偏好色調調整及場景內容分離萃取
計畫編號:98-2221-E-009-110-MY3 執行期限:2009.08.01 至 2012.07.31 主持人:王聖智 (交通大學電子工程系教授) 計畫參與人員:曾禎宇、許家豪、鄭心憫、陳柏翔、宋秉修、劉彥廷 (交通大學電子所研究生)中文摘要
在本計畫中,我們提出了一套影像色調 自動重建演算法,針對拍攝影像時過暗或是過 亮的影像,採用局部性 gamma 調整,能夠依 據影像本身亮度,自動調整至偏好的色調,同 時增強影像對比。由於調整亮度之 gamma 圖 必須與影像本身亮暗配合,否則容易出現調整 的瑕疵現象,我們採用matting Laplacian 作為 估 算的基 礎, 透過最 佳化 方法計 算最 佳之 gamma 值。為了降低運算複雜度,我們發展了 一套快速cell-based matting Laplacian 運算將 相似像素合併進行 gamma 估算,最後再取得 對應的gamma 影像進行色調調整。 除此之外,本計畫提出了兩套影像深度估算演 算法,目的是希望透過影像深度讓未來有更便 利的影像編輯方式。 為了估測影像深度,我 們發展兩種不同的運算類型,第一套方法是用 於視訊類型影片,利用時間累計影像資訊,透 過物體間的遮蔽關係估算相對深度。另一套方 法是利用拍攝多重對焦,透過對焦與深度關聯 性估測影像深度。未來便可透過深度資訊進行 影像編修。 關鍵詞:影像增強、去背拉普拉斯矩陣(matting Laplacian)、色調重建、深度重建、多重對焦。Abstract
In this project, in order to improve the visual quality of over-exposed or under-exposed
images we present an automatic tone mapping algorithm based on a spatial-varying gamma adjustment. The proposed method aims to map the tone values of the input image into a preferred mud-tone value though a gamma map for enhancing the detailed contrast for those overly bright /dark image contents. The corresponding gamma map shall be aligned with the image content. Otherwise a certain adjusting artifacts will be introduced into the output image. To achieve that, we present a global optimization framework with the matting Laplacian for the estimation of the gamma map. In addition, in order to reduce the required computations we present a cell-based framework which groups pixels with similar colors. After the grouping, the gamma map can be computed in a more efficient way.
Besides, this project presents two schemes of depth reconstruction based on different input information. The first scheme is based on occluding cue extracted from a video acquired with a still camera. Temporally, moving objects provide occluding information about the scene, thus we can reconstruct the relative depth based on the occluding cue between objects. The second scheme is developed with a multi-focused image sequence where a number of images are acquired with varying focus
settings. Based on the focus measurement, we can reconstruct the corresponding depth image. We expect that the depth images wilt be useful for advanced image editing.
Keywords: contrast enhancement, matting
Laplacian, tone reproduction, depth reconstruction, multi-focus. 1. 簡介 1.1 自動色調重建 在一般攝影過程,曝光亮度是影響所得影像之 品質關鍵因素,過暗或是過亮的影像都會造成 影像對比及細節之損失,本研究所提出之演算 法透過區域性之 gamma 調整,改善影像亮度 偏差問題,增強色彩飽和度,同時提昇影像局 部對比及細節。 本篇論文所提出的 gamma 調整技術主要會根 據影像本身亮度自動進行調整,其核心概念在 於將影像亮度值經過 gamma 重新調配至適當 之亮度。在[1]中,其作者提出區域性 gamma 調整增強影像對比之技術,本研究主要以其概 念為基礎發展。而當中調整之 gamma 必須符 合影像內容進行一致性的調整,否則容易出現 調整後的瑕疵問題,如對比增強常見的光暈問 題 ,或是 高對 比衰減 問題 。為了 讓估 算之 gamma 配 合 影 像 內 容 , 我 們 採 用 Matting Laplacian (ML)作為估算 gamma 的核心基礎。 ML 是由 Levin 等作者於[2]所提出解決自然影 像去背問題,當中他們建立影像像素點間的關 聯性作為前景背景資訊分離的依據,而像素的 關聯性會建立於ML 中。 在本研究中,由於亮度調整必須考量影像像素 之間的關聯性進行一致性調整,以避免產生調 整瑕疵問題,在此我們便以ML 作為基礎進行 整 張 影 像 之 gamma 估 算 , 以 此 所 估 算 之 gamma 能夠密切貼合影像內容,可有效改善亮 度問題並增強影像對比,同時避免瑕疵。 另一方面,為了提升處理效能,我們利用影像 像素點相似特質發展一套 cell-based matting Laplacian,事先將影像像素進行群聚分類,將 多像素點整合為 cell 之後再針對 cell 進行估 算,藉此省略大量的運算,最後只需再將像素 所對應的gamma 值透過 cell 進行還原估算即 可獲得高解析度的調整影像。 1.2 影像深度估算 針對深度估算我們提出兩套系統架構,第一種 系統架構主要針對視訊影片估測場景深度,固 定攝影機拍攝一段影片之後利用影片中物體 移動後的遮蔽關係判斷影片中物體的相對深 度。此外,我們會採用 Hoiem 在[6]所提出的 單張影像深度估計演算法,與我們透過時間軸 分析遮蔽性的方法結合,提供更準確的深度估 測結果。 另一方面,我們針對多重對焦影像發展一套深 度估測演算法,此方法利用單台相機調整不同 對焦深度,拍攝多張不同對焦影像。再透過對 焦程度分析影像中各物件聚焦對應深度,然而 由於影像內容常出現不易對焦物件表面而造 成估測上的誤判。為了克服這樣的問題,我們 提出一套全域最佳化演算法,此最佳化主要是 以事後機率最大化模型為基礎。在此機率模型 中,由於影像深度有著空間上連續的特質,因 此我們採用 ML 建立後述機率中的事前機率 模型。為了降低運算複雜度,我們也採用了 cell-based ML 估算全域最佳解,再透過內插計 算取得高解析度深度影像。 2. 自動化色調調整
2.1區域性 gamma 調整
為了改善拍攝影像光線不適當所造成的影像 品質衰減問題,我們提出採用區域性自動化 gamma 調整技術,將整張影像 I(x,y)各像素經 由個別之 gamma map γ(x,y)調整為輸出影像 O(x,y),表示如下 ) , ( ) , ( ) , (x y I x y xy O = γ . (1) 當中我們希望透過 gamma 調整能將影像亮度 調整至適當亮度值,因此我們將影像色彩空間 轉至HSV 色彩空間,單純對於影像亮度 Y(x,y) 進行 gamma 調整,此調整核心觀念為透過 gamma 將亮度調整至適當之中間亮度值 Y0, 如下所示
.
)
,
(
x
y
b( , )Y
0Y
γ xy=
(2) 其中 γb 為將影像調整至中間亮度之 base gamma map。單純將影像亮度調整至中間亮度 將會損失影像細節對比,因此在[1]中,作者發 現損失之細節對比可透過移除gamma map 中 的對應細節而得到還原。為了移除gamma map 中的細節,最簡單的方式是採用 Gaussian 濾 波,但是Gaussian 濾波會造成 gamma map 在 影像亮暗劇烈變化邊界產生模糊,造成調整後 的影像在亮暗交界處發生光暈瑕疵。因此在[1] 中,作者採用 Bilateral 濾波[3][4]方式避免此 問題。Bilateral 主要觀念在於模糊計算過程考 量影像本身亮度,避開模糊劇烈變化之亮度, 藉此排除光暈問題。如圖一所示,原始影像(a) 左半部過亮,右半部過暗。透過 gamma 調整 可 使亮度 調整 至適當 亮度 同時增 強細 節。 Bilateral 雖然可以避開亮度劇烈變化邊界產生 光暈瑕疵,但卻會帶來另外的副作用,抑制高 對比細節,而造成某些高對比細節喪失問題。 因此在本研究中,我們採用matting Laplacian 運算藉此調整影像亮暗並提升細節對比。 2.2最佳化 gamma 估算 在 本 研 究 中 , 與[1] 不 同 我 們 並 不 直 接 對 gamma map 進行平滑濾波,主要原因在於 gamma 並非線性,受到影像亮暗影響變化甚 鉅。因此本研究我們將對影像亮度進行平滑估 算,取得一平緩之亮度影像 Ys,將影像中的 微弱細節移除,再以此亮度影像估測對應之 smoothed gamma map,當中的影像細節便可被 分離,避免調整後之細節衰減。傳統採用區域 濾波方式如bilateral 濾波並無法根據影像本質 進行適應性的調整,因此可能造成前面所描述 的高對比細節喪失問題。因此本研究採用全域 性最佳化之方式,將估測平緩影像Ys 問題轉 為一全域最佳化估測問題,如下所示(
~) (
~)
. ) ( s T s s s T s s Y s E Y =λ Y −Y Y −Y +Y LY (3) 在式(3)中,前半段為資料回歸項,後半為平滑 項,在資料回歸項中,我們首先利用Gaussian 產生一模糊影像Ys ~ 做為參考目標,我們希望最 後所找到的Ys 能與之相近。然而為了避開強 烈變化邊界產生模糊,在式(3)後半段我們採用 了 matting Laplacian 限制平滑效果能貼近影 像本身內容,matting Laplacian 矩陣 L 之定義 為L=D-A,其中 D 為 degree 矩陣而 A 為 affinity 矩陣,affinity 矩陣描述影像像素點間之連續 性,如像素點i 與 j 之連續性為 A(i,j),其定義 如下(a) Input (b) Gaussian (c) Bilateral (d) Ours 圖一、採用不同gamma調整之結果
(
)
(
)
. 1 1 ) , ( ) , (| 1 3∑
∈ − ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ + Σ − + = k w j i k k j k k T k i k w w j i µ ε µ U I I A (4) 而degree 矩陣 D 為一對角矩陣,定義如下∑
= = N j j i i i 1 ) , ( ) , ( A D (5) 而式(3)後半之平滑項可進一步拆解為∑
− = j i s s s T s i j i j , 2 ) ( ) ( ) , ( Y Y A LY Y (6) 當影像像素相近 A(i,j)值較大,則會抑制 Ys 之變動量,透過最小化(3)可以找到較佳之平滑 影像,其解如下所示。 . ~ ) (L+λYUYs =λYs (7) 取得Ys 之後,我們根據此平滑亮度定義其對 應之平滑gamma map 如下( )
(
( , ))
. log log ) , ( 0 s Y x y Y y x s = γ (8) 接著我們定義用來重塑亮度影像的 gamma map γshaped,此 γshaped 之定義主要是將 γb 中關於影像細節的部分扣除,根據[2]所提出的 gamma map 處理發現,當扣除 gamma 中的細 節會使所轉換出的影像細節對比增強。(
)
(
0, ( , ) ( , ))
, max ) , ( b 1 detailed shapedxy γ xy cγ x y γ = − (9) ). , ( ) , ( ) , ( whereγdetailed x y ≡γb x y −γs x y 而最後調整所用之gamma 定義如下)
,
(
)
1
(
)
,
(
x
y
w
γ
0w
γ
shapedx
y
γ
=
−
+
(10) 其中w 為控制調整程度之參數,當 w=1 則影 像調整將會採用γshaped 重塑影像亮度,而當 w=0 則不會進行調整,其中 γ0=1。最後我們 將輸入影像轉至HSV 色彩空間後,將亮度值 透 過 gamma 調 整 取 得 輸 出 影 像 之 亮 度 值 Youtput ) , ( ) , ( ) , ( xy outputx y Y x y Y = γ (11) 再轉回RGB 色彩空間即可獲得輸出結果。 2.3高效能運算架構 在前一小節中,我們為了估算平滑亮度影像採 用了採用全域最佳化的方式,然而此方法是將 整張影像像素點同時考慮,運算量過高,不利 於一般應用。為了降低運算複雜度,我們提出 一套高效能運算方法,此方法主要利用影像相 鄰像素之相似性,將相似之像素點群聚成為 cell,而整個最佳化運算將從原始的像素為基 礎的計算轉化為以cell 為基礎的計算方式。由 於cell 的數目通常遠小於像素數目,運算量可 大幅降低。 為了降低運算量並維持影像細節表現,我們將 影像轉至一高維度空間,此空間由影像空間域 與色彩域所構成。在此空間中,我們採用網格 進行降取樣,在同一個網格點中的像素將會共 同以cell 表示。建立了像素轉換至 cell 之對應 關係之後,我們便可針對cell 進行最佳化亮度 估算,如下式所示 . ) (Lc+λYΛc Yc =λYc (12) 其中Lc 為 cell 所對應的 matting Laplacian,它 是由原始像素之ML 矩陣經過 pixel-to-cell 轉 換矩陣m 之壓縮所得,如下所示 . Lm m L T c = (13) 透過式(12)所估測之 Yc 為 cell 所對應的亮度 值,我們進一步採用內插方法便可還原出高解 析度影像之平滑亮度影像。這樣的處理架構可 有效將原本最為複雜的最佳化運算以較低運 算的方式達成。 2.4實驗結果 我們將所提出之演算法套用至自然影像進行 調整,我們針對拍照環境亮度動態對比過高之 情況,如圖二所示,畫面同時出現過亮及過暗 之內容。我們比較現存相似演算法與我們所提 出的方法結果比較。對於過亮的部分,傳統方法並無法有效改善,而我們的處理可以有效提 升對比與色彩鮮豔度。而過暗部分,我們也能 有效提升其細節強度,同時避免過度調整,而 造成影響影像內容之自然性。 針對高對比影像細節調整,傳統方法容易為了 提升過暗區域的對比而犧牲高對比部分,造成 高對比細節的喪失,如圖三(b)所示。而經過我 們的matting Laplacian 結構,可有效保留高對 比細節如圖三(c)所示。 3. 深度影像估計 影像分層往往是進行影像編修的一項重要技 術,為了讓影像能夠依據場景分層,深度資訊 通常是一項重要資訊,若能取得影像深度,在 編修時便可方便分離或是調整物件。為了估測 影像深度,我們提出兩種不同架構針對不同影 像內容進行處理。第一套架構主要針對固定場 景之影片,利用影片中物件的移動過程,物件 互相遮蔽的關係分辨相對深度。第二套架構利 用多重對焦的影像序列判斷對焦與深度的關 係,建立深度影像。下面我們將針對這兩套架 構分別介紹。 3.1 靜態攝影機拍攝影片之相對深度重建 在過去靜態影像之深度估測 Hoiem 在[6]中提 出以影像分割邊界遮蔽性為基礎的相對前後 深度分析方式,首先他們會對輸入影像產生各 種不同數量的分割,尋找可能的影像區塊邊 界,利用機器學習事先學習區塊互相的關聯 性,將一些屬於同一物件的邊界去除後他們可 以取得較符合物體前後關聯性的邊界,如圖五 圖三、採用不同演算法調整之結果,(a)原圖、(b) 使用[1]的結果、(c)我們方法的結果 (a) (b) (c) (a) (b) (c) 圖二、採用不同演算法調整之結果,(a)原圖、(b) 使用[4]的結果、(c)使用[5]的結果、(d)我們 方法的結果 (d)
所示,他們利用影像分割的邊界,再透過機器 學習判斷區塊間的前後關係,藉此建立相對深 度圖。然而單張影像估測深度的準確性與穩定 度仍然是相當困難,常會因為影像內容不同而 有可能發生誤判, 因此在本計畫中,我們提出一套針對靜態攝影 機,拍攝一段累積時間的影片,透過畫面中移 動物體與場景物體互相遮蔽的現象,建立出分 割遮蔽 物件的邊界,再與[6]的單張影像深度估測演算 法結合,提供較穩定的效果。 圖四、Hoiem在[6]中所採用的多重分割。 圖五、Hoiem在[6]中所得到的物件分割與深度 估測結果。 本演算法採用固定攝影機拍攝一段時間,建立 場景的深度影像,我們以圖六進行說明本系統 的主要概念,圖六上列影像,中間影像出現一 車被中間的樹幹所遮蔽,而車子遮蔽後方的建 築與馬路,因此提供了樹木與後面背景的前後 資訊。圖六下列影像中,中間影像出現了一個 行人遮蔽了中間的樹幹,因此可以判斷樹幹與 行人走過路線的前後關係。我們便是利用這種 隨 著物件 移動 產生的 遮蔽 特質判 斷遮 蔽邊 界,提供相對深度分析時所需要的資料。 圖六、場景移動物件遮蔽特性說明。 圖七、遮蔽物分析。 針對同一場景拍攝一段時間後,我們分析隨著 時間經過的物件接地點位置統計值,當畫面中 出現遮蔽物件,如圖七中的樹幹。統計行人走 過的接地點分佈,圖七中紅點因為沒有遮蔽物 出現,因此行人的接地點位置分佈可能會出現 在馬路或是人行道上,呈現兩個可能的分佈統 計區間。相對的,圖七中的藍點落在樹幹上, 因 此統計 接地 點只可 能發 生在樹 幹前 的行 人,而不會看到樹幹後的行人,因此分佈圖上 只有單一個分佈區間。我們藉由這樣的分佈關 係判斷出影像的遮蔽物。 透過這樣的方式,我們可以偵測出遮蔽物件的 分佈狀況,如圖八所示,依此判斷遮蔽物件的 邊界位置,我們將此遮蔽物件的邊界與原始影 像採用硬分割的分割邊界整合,可以取得較穩 定的分割區塊。接著我們再針對這樣的分割區 塊進行深度估算。
圖八、遮蔽物邊界分析。 有了比較準確的分割結果,我們再採用Hoiem 在[6]中所提出的單張影像深度估測演算法,將 影像中的地面,天空與其他物件分離,再分別 對各種類別進行深度的估算。此估算方式是利 用機器學習,學習各種區塊對於各種類別可能 的特徵值關聯性,判斷出各種類別之後再判斷 區塊間的相對關係,進而判斷深度。 在圖九中我們比較使用我們方法對於深度估 算的改善。圖中紅框標示地面偵測時,在圖九 (b)使用[6]的方法會因為影像分割判斷誤判而 導致錯誤估測。圖九(c)表示使用我們方法後可 以排除原本的誤判。 最後的深度估算結果如圖十所示,途中所示透 過我們所提出的方法,可以有效排除原本因為 影像分割分析不正確所造成的誤判,提升深度 估測的準確度。 圖九、地面影像偵測。(a)原圖,(b)使用[6]之 估算結果,(c)使用我們方法的結果。 圖十、遮蔽物邊界偵測與深度估算結果。(a) 所提出方法的遮蔽物邊界偵測,(b) 所提出方 法的深度估算結果,(c) [6]的遮蔽物邊界偵 測,(d) [6]的深度估算結果。 3.2 多重對焦影像深度重建 在本系統中,我們利用改變攝影機的對焦距 離,拍攝出數張不同對焦的影像,接著在影像 中各個位置判斷其所屬的正確對焦範圍,透過 正確對焦的位置重建影像深度資訊。在這樣的 過程中,有個最困難的挑戰在於影像中有許多 位置是屬於難以量測對焦值的區域,例如沒有 紋理的表面,在處理這些表面往往會由於對焦 量測誤判而導致深度估測的誤判。傳統區域性 的方法[7][8]很容易受到這樣的問題而影響重 建深度的準確度。為了克服這樣問題,我們提 出一套全域性最佳化方法,我們將深度重建問 題以一事後機率模型表示,當中我們會建立深 度影像的事前機率模型,結合觀測的多重對焦 影像,透過最大化事後機率得到全域最佳解。 這樣的方法可以有效改善由於對焦不易判別 而造成的錯誤問題。而為了建立事前機率模 型,我們採用 matting Laplacian 運算作為背 景,而為了提升運算效能,我們提出了一套有 效的cell-based 架構,將影像像素有效率的整 合,大幅度降低運算量再還原回高解析度深度 影像。 (a) (b) (c)
3.2.1事後機率最大化之深度重建 在我們所提出的系統中,我們將深度重建以一 最大事後機率模型表示如下
{
( )}
max arg set * p dI d d = . (14) 上式中 d*為我們所希望取得的深度影像,它 是透過最大化事後機率 p(d|Iset)所取得,其中 Iset 為所拍攝的多重影像序列,d 為深度影像 值。我們會進一步將事後機率模型以貝氏定理 拆解如下 ) ( ) ( ) (dIset p I d pd p ∝ set . (15) 其中 p(d|Iset)為可能性機率模型,p(d)為事前 機率模型,我們透過可能性機率模型建立所拍 攝的多重對焦影像與深度影像之關聯性,而深 度影像本身所應有的空間連續性則會被我們 建立於p(d)。當處理畫面中無紋理的區域時, 由於對焦難以辨別,因此系統會自動地以p(d) 作為深度估算的考量,利用p(d)限定深度影像 的空間連續性,有效排除誤判情況。接下來, 我們將分別介紹(15)中所建立的可能性機率模 型p(d|Iset)與為事前機率模型 p(d)。 建構可能性機率模型中,我們主要目的是建立 觀測影像與實際深度影像之間的相聯性,我們 首先會將此關聯性定義為觀測深度與實際深 度的關聯性,如下所示 ) ~ ( ) ( set q q q q p p I d ≡ d d . (16) 當中我們介紹了dq ~ 表示從多重對焦影像序列 所觀測的深度向量,這個深度會與真正理想的 深度有個偏差,我們將此偏差以Gaussian 模型 建立如下(
) (
)
. ~ ~ ~ ) ~ ( log ), , ~ ( ) ~ ( 2 1∑
Ω ∈ − − = − − ≡ − ≡ q i i i i q q q T q q q q q q q q q d d p N p λ d d Λ d d d d Λ d d d d . (16) (17) (18) 其中每個像素所對應的深度值 di 都有一個自 己所對應的精準度,這樣的設計在於模擬有些 觀測深度可能與實際深度相當貼近,但有些觀 測深度可能由於缺乏表面紋理,很容易受到雜 訊干擾而偏離實際深度值。我們利用這樣的不 確定性來建立觀察值與實際深度的相似可能 性,若影像中出現難以對焦的狀況,此時實際 深度就不會被鎖定在觀察值附近,之後便可透 過實際深度的事前機率模型來估計。 為了建立事前機率模型,我們提出一套學習機 制,透過局部的多重影像區塊學習深度影像像 素間的關聯性。這個學習主要來自於線性估 測,我們假設影像的深度可以由一些影像的特 徵向量經過線性組合而得,如下所示[ ]
+β0 = vk Tβ i k i d . (19) 其中 k i d 表示在第 k 張對焦影像所推測在第 i 個像素位置的深度值,這個深度值是利用像素 本身的特徵向量 k i v 進行線性組合而得,而 β 與 0 β 分別為線性組合的參數。接著我們再將多 重對焦影像合併出最後的深度值[
]
[
1]
, 1 0 0 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = β β β x β V p i T i i i d . (20) (21) T i i i pV x = where . (22) 其中pi = [p ,… , 1i K i p ]是合併多重影像的對應 機率向量,Vi=[v ,…, 1i K i v ] 是多重影像的特徵向量矩陣,透過(21)我們建立了從多重對焦 影像預測深度的關係式。接著我們將(20)拓展 至一個局部區塊,假設區塊中的像素共用相同 線性組合參數 β 與β0,我們可以將區塊深度預 測表示如下 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = 0 β β X dq q . (23) 其中dq = [dq1,…, dqj,…, dqw]T 表示一個區塊 q 中各像素深度值組合成的一深度向量,而 T qw qj q q [x'1,...,x' ,...,x' ] X = 表示區塊的特徵矩 陣。接著組合參數 β 與β0可以透過最小化誤差 方程式 β β β X d β T q q E λβ β β ⎥ + ⎦ ⎤ ⎢ ⎣ ⎡ − = 2 0 0) , ( . (24) 經由微分求極值,式(24)的最佳解為
(
)
q T q q T q X D X d X β 1 0 − + = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ β β λ β . (25) 最後將此組合參數代回(23),我們可以得到深 度估測方程式如下 q T q q W d d = ,(
)
T q q T q q q X X X Ι X W 1 where = +λβ β − (26) (27) 在(27)中 Wq 為像素間互相預測的組合矩陣, 我們可以想像在區塊 q 中的某一深度值可以 由區塊內的其他深度值透過Wq 合併估算。換 而言之,式(26)主要描述同區塊內的像素點彼 此深度值的關聯性。我們便進一步將此關聯性 建成區塊的深度事前機率模型(
)
(
) (
)
. ) ( log 2 q q T q q q q T q q T q q T q q q p d L d d W I W I d d W d d = − − = − = − (28) 在(28)中 Lq 表示區塊的 Laplacian 矩陣。 當我們建立完區塊的可能性機率模型以及事 前機率模型,我們便可以建立區塊的事後機率 模型,如下所示(
)
(
~) (
~)
. ) ( ) ( log set q q T q q q q T q q q q q p p d L d d d Λ d d d d I + − − = − (29) 最後整張影像的深度事後機率可以假設區塊 之間彼此無關,因此全域機率可由統計各區塊 而得,如下所示(
)
(
)
(
) (
)
∑
∑
Ω ∈ Ω ∈ + − − = − = − q q q T q q q q T q q q q q q set p p d p d I p d L d d d Λ d d d d I ~ ~ ) ( ) ( log ) ( ) ( log set (30) 式(30)可以再經過矩陣的整理而得到下式(
)
( ) ( )
~ ~ . ) ( ) ( log Ld d d d Λ d d T T setd p d I p + − − = − (31) 此事後機率最佳解可由微分求極值而得,如下 . ~ ) (L+Λ d=Λd (32) 透過這樣的方式,我們可以解(32)而求得最佳 的深度估測結果d。 3.2.2基於網格之快速演算法架構 在前一小節我們介紹了透過事後機率最大化 的深度影像重建,然而此架構有一最大問題在 於運算複雜度過於龐大,要求得整張影像的最 佳解非常困難,為了克服這樣的問題,我們希 望發展更有效率的演算法,因而提出了以基於 網格的快速演算法架構。 我們所提出的網格演算法主要是根據影像本 身有相當高的像素相似性特質,因為相似的像 素若能合併計算,預期可以省去相當多的運算 量而不影響效果。基於這樣的概念,如圖十一 所示,我們所提出的演算法架構是將多重對焦 影像轉至一高維度空間中,此高維度空間是根 據影像的特徵向量與空間向量所建立,在此高維 度空間 我們 建立網 格將 相似的 像素 點合 併,可避免單純使用降取樣可能造成影像細節 損失的問題。將影像轉為網格點之後,我們便 將問題轉化為估測網格點的深度值,而最後的 輸出深度影像,則是由像素點與網格點間的內 插運算求得,如此一來,原本最複雜的全域最 佳化深度重建會以網格點為基礎,其運算量遠 小於以像素為基礎的運算。 圖十一、基於網格之快速深度估算架構。 為了針對網格點進行深度重建,我們將事後機 率模型改為針對網格點建立如下 ) ( ) ( ) (gIset p I g p g p ∝ set (33) 其中g 為網格點的深度值,同樣地我們分別對 於網格點的可能性機率p(I g) set 與事前機率 ) (g p 分別建立模型。在建立可能性機率,我 們假設網格點的真實深度與觀測深度之間的 關係以Gaussian 模型表示
(
)
=(
g−g)
Λ(
g−g)
−log ( ) ~ g ~ T set g I p (34) 其中 g~表示由觀測多重影像所得的網格深度 估計值,此觀測值是將原本從影像的觀測值透 過像素至網格的轉換矩陣m 所得,如下所示∑
∑
= = = = N i j N i i j j j i m w j i m w 1 1 ). , ( where , ~ ) , ( 1 ~g d (35) 其中像素i 若會被轉換至網格點 j,則 m(i,j)=1 反之m(i,j)=0。式(34)中的Λg為一對角矩陣, 其中對角元素Λg( jj, )表示網格點j 觀察深度 與真實深度的準確度,同樣此網格精準度是由 像素點的精確度經過網格轉換而得。 ). , ( ) , ( 1 ) , ( 1 i i j i m w j j N i j g∑
= = Λ Λ (36) 經由式(34)我們可以建立網格點對於觀察深度 值的可能性分佈情況。接著我們再建立網格點 互相間的事前機率模型。這個建立過程與像素 點的學習模型相同,是透過特徵向量的線性組 合預測深度值。首先對於各網格點,我們建立 它所對應的特徵向量,此特徵向量是由網格點 所對應的所有像素特徵向量整合而得 . ) , ( 1 1∑
= = N i i j j m i j w x φ (37) 取得了此特徵向量φj之後,我們進一步透過 線性組合預測對應深度[
1]
. 0⎥⎦ ⎤ ⎢ ⎣ ⎡ = β β φj j g (38) 接著為了建立區塊性的深度預測,我們同樣取 畫面中的區塊進行深度估測如下所示 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = 0 β β Φ gq q (38) 當中向量 T qw q q=[g1,...,g ] g 表示在影像區塊 q 中的深度值組合向量,而這些區塊中的像素共 用同樣組合參數。 T qw q q [φ'1,...,φ' ] Φ = 表示特 徵向量組合的特徵矩陣。而組合參數可透過最 小化估測誤差所得。最後我們可以得到區塊的 (a) Multi-focused ImageSequenceIset
(b) High-dimensional Space
fi= [si xi]T
(c) Reconstructed
預估方程式為 q T q q H g g =
(
)
. where 1 T q q T q q q Φ Φ Φ Ι Φ H = +λβ β − (39) (40) 其中Hq為區塊估測組合矩陣。進一步我們依 據(39)可以取得區塊的事前機率模型(
)
. ) ( log 2 q q T q q T q q q p g Q g g H g g = − = − (41) 而全域事前機率可由各區塊合併而得(
( ))
. log p g =gTQg − (42) 在(42)中 Q 為網格點所對應的 Laplacian 矩 陣。網格點所對應的事後機率模型如下所示:(
)
(
~)
(
~)
. ) ( ) ( log Qg g g g Λ g g T g T set g p g I p + − − = − (43) 此網格事後機率的最大值可由微分求得,其最 佳解g 可由下式所得 . ~ ) (Q+Λg g=Λgg (44) 當我們估測出網格點所對影的深度值,我們便 可以接著重建深度影像各像素點的深度值。其 估測方式如下所示,我們建立網格點j 與向量 點i 的條件機率模型,再利用此機率預測像素 點的深度值,如下所示( )
∑
∈ ⋅ = ) ( * * i N j i j j i g p f f d (45) 當中網格點j 與向量點 i 的關係式如下( )
. exp where , exp 1 ) ( 2 2∑
∈ ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ − − = ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ − − = i N j f j i i f j i i i j f f F f f F f f p σ σ (45) 藉由式(45)我們便可將所有影像像素點的深度 值重建,而這樣的方式會遠比直接估計所有像 素點深度快速許多。 利用多重對焦所估測的深度影像結果如圖十 二所示,我們比較我們的全域性處理效果與區 域性深度重建演算法[9]所處理的結果,藉由我 們的方法可以有效排除平坦區域可能面臨的 深度誤判,同時在深度影像中有較佳之邊界銳 利度表現。 圖十三是透過多重對焦重建的深度資訊,當中 我們只利用三種不同對焦,藉由這樣的方式我 們可以將前景物與背景物進行分離動作。未來 影像編修便可以依據此深度資訊進行影像拆 解與調整編修。 4. 結論 在本計畫中,我們提出了一套自動色調調 整系統,能夠將影像拍攝時受到環境光線限制 所 導致的 過亮 或過暗 部分 ,利用 區域 性的 gamma 調整至偏好色調,同時增強影像細節對 比與色彩飽和度。為了自動估測對應於影像的 適當gamma,我們採用 ML 基礎的最佳化演算 法,考量像素間的相似性估測較佳之gamma, 以避免影像產生調整上的瑕疵問題,獲得較為 自然的調整結果。為了提升效能,我們也提出 了一套高效能處理方式,透過像素點的合併, 能夠大幅度降低最佳化運算所需之運算量。達 到快速提升影像品質的效果。 另一方面,我們提出了兩套不同的深度影 像重建系統,第一套系統針對固定攝影機拍攝 一段時間的影片,利用畫面中移動物體與場景 物件互相遮蔽關係分割前後景物邊界,建立相 對深度關係圖。另一套系統是利用多重對焦影 像,透過正確對焦位置與深度的關聯性重建深 度影像,為了克服畫面中常見的平坦難以量測 對焦的表面,我們提出一套事後機率最大化的 最佳化深度重建演算法,能夠有效排除平坦表 面的誤判情況。為了降低最佳化的運算複雜 度,我們提出了基於網格的演算架構,將相似 特徵值的影像像素點合併,大幅度提升運算效能。這些深度重建方法有助於未來進行影像編 修時的物件分離與調整,影像編修可以透過影 像深度有更多元的處理發展可能性。
5. References
[1] C. Tseng, S. Wang, and Y. Chen, “Image enhancement based on gamma map processing,” Proceedings of the SPIE, vol. 7723, pp. 77230G-77230G-10, 2010.
[2] A. Levin , D. Lischinski , Y. Weiss, “A Closed Form Solution to Natural Image Matting,” Proc. ICCV, pp.61-68, 2006.
[3] J. Tumblin and G. Turk, “LCIS: a boundary hierarchy for detail-preserving contrast reduction,” In Proc. ACM SIGGRAPH, p.83-90,
July 1999.
[4] F. Durand and J. Dorsey, “Fast bilateral filtering for the display of high dynamic- range images,” In ACM Transactions on Graphics, vol. 21, no. 3, pp. 257–266, 2002.
[5] L. Tao and V. Asari, “Adaptive and integrated neighborhood-dependent approach for nonlinear enhancement of color images,” J. Electron. Imaging 14, 043006, 2005.
[6] D. Hoiem, A. A. Efros, and M. Hebert. “Recovering surface layout from an image,” IJCV, vol. 75, no. 1, pp. 151-172, 2007. [7] S. K. Nayar and Y. Nakagawa, “Shape from
focus,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 16, no. 8, pp. 824–830, Aug. 1994.
[8] N. Yokoya, T. Shakunaga, and M. Kanbara, “Passive range sensing techniques: Depth from images,” IEICE Trans. Syst. Inf. E82D, vol. 3, pp. 523–533, 1999.
[9] T. Aydin and Y. Akgul, “A new adaptive focus measure for shape from focus,” in BMVC, 2008.
[10] C. Tseng, and S. Wang, “Maximum-a-posteriori estimation for global spatial coherence recovery based on matting Laplacian,” in IEEE International Conference on Image Processing, 2012.
圖十二、影像深度重建結果。
(a) Image 1
(b) Result by [9] (c) Our result
(a) Image (b) Our result