第二章 相關研究
2.3 影像縫補應用於紋理合成與轉移
2.3.2 最小錯誤邊界分割
對於最小錯誤邊界分割的計算,Efros 與 Freeman 採用了最短路徑演算法(shortest path algorithm)來找出重疊區域中的最小錯誤的邊界。首先,假設兩個不同紋理的區塊B1 與B2,其各自的重疊區域B1ov與B2ov(如圖 2-9 (c)所示),則重疊區域內像素點的錯誤值 在紋理合成,Efros與Freeman還提出了紋理轉移的相關技術應用。如圖 2-10所示,透過 目標影像的亮度分佈等資訊,將來源的紋理合成到目標影像當中。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 2-10 紋理的轉移
本論文以 Freeman 的以樣本為基礎的超解析度演算法為研究基礎,針對其架構加以 改良。在訓練階段,我們使用 Freeman 方法中的訓練程序,建立中頻與高頻補丁相對應 關係的訓練資料庫。在超解析度階段,我們應用了影像縫補技術,將原本以像素為基礎 的補丁合成方法改良為以區塊為基礎的補丁合成方法。關於研究方法以及實作流程,將 於下一章中進行詳細的說明與解釋。
+
=
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第三章 研究方法
以樣本為基礎的超解析度演算法可以區分為獨立的兩個程序:訓練程序與超解析度程序。
以下章節將依序介紹各個程序的方法與細節。
3.1 訓練程序
訓練程序的流程,如圖 3-1 所示,包含了關聯模型(relation model)的定義、影像的 模糊化與重新取樣(re-sampling)、高頻濾波(high-pass filter)、影像切割(image extracting) 與局部對比正規化(contrast normalization)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C
圖 3-1 訓練程序的流程圖h engchi U ni ve rs it y
3.1.1 關聯模型
以樣本為基礎的超解析度演算法的概念,是利用經由訓練程序所產生的高解析度與 低解析度影像的關聯模型,透過超解析度的學習程序來評估出輸入的低解析度影像中所 缺少的高頻細節資訊。Freeman 於 2000 年於低階視覺學習[6]中,針對超解析度演算法 的關聯模型給定兩個假設,首先,將一張影像的資訊分為高頻、中頻與低頻的組合,其 中,H 代表高頻的影像資訊,M 與 L 分別代表中頻與低頻的影像資訊,於是我們可以假 設當給定中頻資訊 M 時,高頻資訊 H 是條件獨立(conditionally independent)於低頻資訊 L:
模糊化 重新取樣
-
T+ε
÷ ÷
高頻補丁 中低頻補丁
...
.
...
.
高頻濾波
局部對比正規化 局部對比正規化
‧
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 3-3 高頻濾波
(a)高頻資訊:原始高解析度影像減去退化的低解析度影像 (b)中頻資訊:退化的低解析度影像以拉普拉斯濾波後的結果
3.1.4 影像切割與局部對比正規化
對於高頻濾波後的影像,採光柵式掃描順序(由上到下,從左至右),每次以 1 pixel 的位移量依序將中頻資訊影像切割為 M × M pixels 的補丁,而在相對應座標位置(水平與 垂直方向各位移 1 pixel)的高頻資訊影像則切割為 N × N pixels 的補丁。依據 Freeman 的 實驗結果顯示,M = 7 與 N = 5 的補丁大小為最理想的切割尺寸,且中頻補丁的尺寸略 為大於高頻補丁,在超解析度的結果,可以得到較好的影像品質。
由於演算法的運作是假設中頻與高頻資訊的對應關係是獨立於整體影像的對比度,
正因為如此,我們針對每個相對應的中頻與高頻資訊的補丁,進行局部對比正規化處理。
首先,計算中頻資訊補丁的標準差T,如式 (3.3)所示,為避免T為 0 而造成後續計算 上的錯誤,我們將T加上一個極小的常數ε (ε = 0.0001),再將中頻與高頻資訊補丁的各 個像素值除以T,最後,將完成正規化處理的補丁配對儲存在資料庫當中,以作為超
(b) (a)
‧
正規化、資料搜尋與局部對比正規化的反向運算(inverse of local contrast normalization) 與影像縫補,以下的小節將針對各個步驟進行逐一的說明。3.2.1 影像前處理
將輸入的低解析度影像,向上取樣至我們所要放大的影像大小,如訓練程序中向上 取樣的方法,在超解析度程序中,我們亦採用雙立方內插法對於輸入的影像進行向上取 樣。由於在訓練與超解析度階段,中頻與高頻補丁都是基於灰階的影像分割,所以當輸 入的影像完成向上取樣後,必頇進行色彩空間轉換(color space transformation)。如圖 3-4 所示,我們將彩色影像由 RGB 空間轉換到 YCbCr 空間,並以 Y 分量的灰階影像進行 後續的處理。
RGB to YCbCr +
Gray image processing
YCbCr to RGB
Cb, Cr component
Input Output
Y component
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
接著,利用拉普拉斯濾波器將灰階影像中的高頻資訊過濾出來,由於經內插放大後 的影像雖然解析度已經提高,但仍缺乏高頻的資訊,對於經由拉普拉斯濾波器過濾後的 資訊,並非真正的高頻資訊,可以視為是相對於高解析度影像中的中頻資訊。
3.2.2 影像分割與局部對比正規化
相對於訓練程序中對於低解析度影像的分割,我們對於經由前處理後的中頻資訊,
採用光柵式掃描順序,依序將中頻資訊分割成 M × M 的補丁,為了讓後續 N × N 的高 頻補丁在回填時能與相鄰的補丁有 pixels (2)的重疊,如圖 3-5 所示,每次補丁切 割位置的位移量在水平與垂直方向均是N pixels。
在訓練過程中,我們已經將訓練過的中頻與高頻補丁的配對以中頻補丁的標準差
T進行正規化處理。在超解析度階段,對於分割後的中頻補丁,亦計算其標準差S, 以此標準差S進行正規化處理後,便可進入下個階段進行資料庫的搜尋與比對。
M N
M×M 中頻補丁 N×N 高頻補丁
資料庫 位移N pixels
7 M
5 N
2
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 3-6 超解析度程序的流程圖
在超解析度的影像分割階段,對於分割後的中頻補丁,我們已計算其標準差S, 並利用S對中頻補丁進行正規化處理。所以在找到最佳相似度的補丁配對後,我們將 其中的高頻補丁的每個像素值乘以標準差S來完成正規化的反向運算處理。
S+ε P :輸入的中頻補丁
P:資料庫中的中頻補丁
L : P所對應的重疊區的高頻補丁
L:重疊區域的高頻補丁
L
P
P L
‧
‧
start nodes
end nodes
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
在求圖形的最短路徑的方法中,Dijkstra 演算法[21]可以找出加權圖形G(E,V)中,
邊的權重值不為負值,自起點 s (sV)到其他節點 v (vV-{s})的最短路徑。在實作的 部分,以圖 3-8 (c)為例,圖形 G 包含了N(N)個節點,我們使用一個 K × K 的相鄰矩陣來儲存圖形 G 的的資訊。其中,陣列的索引值代表節點,陣列中的元素值如 果為 0,表示節點vi自己;如果為∞,表示節點vi到vj沒有存在的邊;其餘的陣列元素 值則為節點vi到vj的權重值。接著,利用 Dijkstra 演算法來找出圖形中的最短路徑,其 pseudo code 如圖 3-9 所示。
Dijkstra’s algorithm
0 function Dijkstra(G, s) 1 for all v ∈ V-{s}
2 do dist[v]←∞
3 S←∅
4 Q←V 5 while Q ≠ ∅
6 do u←minDistance(Q, dist) 7 S←S ∪ {u}
8 for all v ∈ neighbors[u]
9 do if dist[v] > dist[u] + w(u, v) 10 then dist[v]←dist[u]+w(u, v) 11 return dist
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
找出最短路徑後,即可利用此最短路徑作為重疊區域的最小錯誤邊界的分割,在邊 界的上與左側,以相鄰補丁的像素值作為合成後的像素值,在邊界的下與右側,以最佳 相似度的高頻補丁的像素值作為合成後的像素值,而在分割邊界上的點,則以相鄰補丁 與最佳相似度的高頻補丁的像素平均值作為合成後的像素值。
如圖 3-10 (a)(b)(c)所示,使用影像縫補技術在重疊區域的補丁合成上,以最小錯誤 邊界進行分割,可以確保高頻補丁與相鄰補丁之間接續的連續性。另如圖 3-10 (d)(e)(f) 所示,在 Freeman 的 One-pass 演算法中,由於重疊區域僅有 1 pixel,補丁之間的分割即 為重疊區域,並無針對補丁間的接續性進行特別的處理。
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第四章 實驗結果與分析
在本章中,我們將以人臉影像作為主要的訓練與受測樣本,對於本論文所提出之方法與 Freeman 的 One-pass 演算法進行比較,並以量化的影像評量數據作為客觀的分析。此外,
我們也將藉由實驗的結果探討資料特性對於人臉超解析度結果的影響。
4.1 實驗環境
本論文所使用平台為 Microsoft Windows 7 (64-bit),CPU 為 Intel(R) Core(TM) i5-3317U CPU @ 1.70 GHz,記憶體為 4.00 GB。開發環境為 Microsoft Visual Studio 2010 Visual C++。影像處理函式使用 OpenCV 2.4.5 版。
4.1.1 影像資料庫
本 實 驗 所 使 用 的 影 像 資 料 庫 有 四 個 , 分 別 是 MIT (Massachusetts Institute of Technology) CBCL (Center for Biological & Computational Learning) face database[22]、
MIT CVCL (Computational Visual Cognition Laboratory) database、Centro Universitario da FEI face database 與 Hong Kong University VCL (Visual Cognition Laboratory) face database。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
本則利用 CVCL database 中的城市建築與自然風景等圖片。
如圖 4-1 所示,以 8 張 200×200 的高解析度人臉影像作為訓練資料的樣本,將可訓 練出大約 300,000 筆 7×7 與 5×5 的補丁配對資料。在 4.2.1、4.2.2 與 4.3.1 小節的實驗中,
主要都以圖 4-1 的人臉訓練資料樣本所產生的補丁配對作為訓練資料庫。在 4.3.2 小節 中,則各別以圖 4-2 與圖 4-3 的女性與男性的人臉訓練資料樣本進行實驗。而圖 4-4 與圖 4-5 的亞洲與西方人種的人臉影像樣本則為 4.3.3 小節的訓練資料樣本。最後,在 4.3.4 小節中,則以圖 4-6、圖 4-7 與圖 4-8 中不同於人臉類別的影像作為訓練資料進行 實驗。
圖 4-1 訓練資料樣本-人臉(8 張 200×200 pixels 高解析度影像)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4-2 訓練資料樣本-人臉-女性(8 張 200×200 pixels 高解析度影像)
圖 4-3 訓練資料樣本-人臉-男性(8 張 200×200 pixels 高解析度影像)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4-4 訓練資料樣本-人臉-亞洲人(8 張 200×200 pixels 高解析度影像)
圖 4-5 訓練資料樣本-人臉-西方人(8 張 200×200 pixels 高解析度影像)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4-6 訓練資料樣本-森林(8 張 200×200 pixels 高解析度影像)
圖 4-7 訓練資料樣本-建築(8 張 200×200 pixels 高解析度影像)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4-8 訓練資料樣本-動物(8 張 200×200 pixels 高解析度影像)
圖 4-9 訓練資料樣本與所產生的補丁資料
如圖 4-9 所示,一張 200×200 的高解析度影像經由訓練程序後可以產生大約 40,000 組的中頻與高頻補丁的配對,扣除資料相同的補丁後,8 張高解析度影像總共可以產生
訓練程序
中頻補丁 高頻補丁
‧ ‧
‧ ‧
‧ ‧
‧ ‧
‧ ‧
‧ ‧
‧ ‧
‧ ‧
8 張 200×200 pixels 的高解析度影像 資料庫
可以產生超過 300,000 筆的
補丁資料
‧
另外,結構相似度指標(SSIM index, Structural SIMilarity index)[23]是一種用於評量 兩張影像相似度的指標,結合了影像的亮度、對比度與結構性,綜合性地表示影像的整
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.2.1 受測影像的取樣比率對於超解析度結果的影響
為了對照超解析度的結果與原始影像之間的差異,我們假設低解析度影像是高解析 度影像受到高斯模糊與向下取樣的退化所產生,因此,將受測的高解析度影像樣本,加 入 mean 值為 1 的 5×5 高斯低通模糊函數,再經由向下取樣的動作將影像縮小以降低影 像的品質。訓練資料的影像樣本如圖 4-1 所示,資料庫中的補丁配對數量為 200,000 筆。
我們分別以 1/2、1/4、1/16、1/64 與 1/256 的縮小比率進行實驗。
圖 4-10 受測影像向下取樣 1/2 的結果
Original HR image Blur and Resize to 1/2
High pass filter Resize by NN Result
PSNR: 32.30 dB SSIM: 78.56%
Quilting path Conditions:
DB: Human face DB patches: 200,000 LR resize: 1/2
Patches synthesis: image quilting
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4-11 受測影像向下取樣 1/4 的結果
圖 4-12 受測影像向下取樣 1/16 的結果
Original HR image Blur and Resize to 1/16
High pass filter Resize by NN Result
PSNR: 30.95 dB SSIM: 72.50%
Quilting path Conditions:
DB: Human face DB patches: 200,000 LR resize: 1/16
DB: Human face DB patches: 200,000 LR resize: 1/16