自動偵測振鈴現象於復原模糊人臉影像

全文

(1)國立臺灣師範大學應用電子科技研究所碩士論文指導教授：高文忠博士. 自動偵測振鈴現象於復原模糊人臉影像 Automatic Ringing Artifact Detection in Restoring Blurred Face Images. 研究生：邱志祥. 撰. 中華民國九十八年六月.

(2)

(3) 自動偵測振鈴現象於復原模糊人臉影像. 學生：邱志祥. 論文指導教授：高文忠博士. 國立臺灣師範大學應用電子科技研究所碩士班. 摘. 要. 利用盲卷積進行復原模糊影像的已經廣泛研究了很長時間，但是一般的解決方法面對任何模糊影像仍然是一個巨大的挑戰。在這篇論文中，我們提出了一種新的人臉模糊影像復原方法，根據溫納濾波和辨識技術。嘗試數種不同的模糊圈半徑用於溫納濾波器和區域對比增強，更進一步加強被復原影像的紋理。我們所提出的系統可以自動確定較好的卷積模糊圈半徑，即是當我們在復原模糊影像時可以避免產生振鈴現象。. 關鍵字：影像復原、區域對比增強、振鈴現象. i.

(4) Automatic Ringing Artifact Detection in Restoring Blurred Face Images. Student：Chih-Hsiang Chiu. Advisor：Dr. Wen-Chung Kao. Institute of Applied Electronics Technology National Taiwan Normal University. ABSTRACT. Restoring blurred images by blind deconvolution has been extensively studied for a long time. But a general solution for deblurring any out-of-focus images is still a big challenge. In this paper, we present a new face image restoration approach based on Wiener filter and pattern recognition techniques. By trying several radii of circle of confusion (COC) used in Wiener filter and applying local contrast enhancement to further enhance the textures of deblurred images, the proposed system can automatically determine the best deconvolution radius of COC such that the deblurred image has less ringing artifacts.. Keywords:image restoration, local contrast enhancement, ringing artifacts. ii.

(5) 致. 謝. 首先誠摯的感謝指導教授高文忠博士，老師細心的教導使我得以一窺復原模糊影像的深奧，不時的討論並指點我正確的方向，使我在這些年中獲益匪淺。老師對學問的嚴謹更是我輩學習的典範。也感謝口試委員蕭培墉教授、張孟洲教授和蘇崇彥教授的建議。. 感謝宏碩學長給予的建議及幫助，且總能在我迷惘時為我解惑，也感謝耿豪、嘉安、志兆同學的幫忙，恭喜我們順利走過這兩年。實驗室的志祥、明毅、人瑞、岳潁學弟們當然也不能忘記，你們的幫忙我銘感在心。. 最後感謝我摯愛的家人，因為有他們的鼓勵及關心，讓我在研究所的兩年期間可以專注於研究上，順利的完成碩士學業。. 邱志祥謹誌于台灣師範大學系統晶片實驗室 2009年7月. iii.

(6) 目. 摘. 錄. 要........................................................ i. ABSTRACT........................................................... ii 致. 謝.......................................................... iii. 目. 錄........................................................... iv. 圖. 目. 錄. .......................................... vi. 表. 目. 錄. .......................................... ix. 第一章緒論......................................................... 1 1.1 研究動機 .................................................... 1 1.2 問題描述 .................................................... 2 1.3 點擴散函數 .................................................. 6 1.4 對焦模型 .................................................... 6 1.5 相關研究 .................................................... 9 1.5.1 影像復原相關研究 ...................................... 9 1.5.2 影像品質評估相關研究 ................................. 24 1.6 本論文提出之方法 ....................................... 31 1.7 論文架構 ................................................... 32 第二章振鈴現象偵測系統之架構 ...................................... 33 2.1 系統簡介 ................................................... 33 2.2 偵測系統流程 ............................................... 35 第三章振鈴現象偵測演算法 .......................................... 38 3.1 系統概述 ................................................... 38 3.2 影像的前置處理 ............................................. 39 3.3 溫納濾波器 ................................................. 40 iv.

(7) 3.4 色彩空間轉換 ............................................... 42 3.4.1 RGB .................................................. 42 3.4.2 YCbCr ................................................ 43 3.5 區域性對比增強 ......................................... 43 3.6 特徵抽取 ................................................... 45 3.6.1 DCT 簡介 ............................................. 45 3.6.2 特徵抽取與統計分析 ................................... 46 3.7 使用支持向量機作為分類核心系統 ............................. 52 3.7.1 支持向量機簡介 ....................................... 52 3.7.1.1 線性可分離 ......................................... 55 3.7.1.2 線性不可分離 ....................................... 55 3.7.1.3 非線性可分離 ....................................... 56 3.7.2 Ringing Artifacts 偵測 ............................... 59 第四章實驗結果.................................................... 62 4.1 模擬模糊影像 ........................................... 62 4.2 人臉資料庫 ............................................. 63 4.3 YALE 人臉資料庫 B 及 EXTENDED YALE 人臉資料庫 B 實驗結果 ... 64 4.3.1 每個 subset 取 2 張影像之實驗結果 .................. 68 4.3.2 每一類取前面七個人的影像之實驗結果 ............... 71 4.4 模糊人臉影像復原 PSNR 比較 .............................. 73 第五章結論與未來工作 .............................................. 74 5.1 結論 ................................................... 74 5.2 未來工作 ............................................... 75 參考文獻........................................................... 76. v.

(8) 圖. 目. 錄. 圖 1-1 影像退化模型 ................................................. 3 圖 1-2 點擴散函數 ................................................... 6 圖 1-3 對焦示意圖 ................................................... 7 圖 1-4 GIBBS 現象 ................................................... 10 圖 1-5 左圖為模糊影像，右圖為左圖復原後產生振鈴現象 ................ 11 圖 1-6 自然影像 .................................................... 14 圖 1-7 紅色部份為自然場景的梯度分佈情形，綠色部份為本篇實驗所採用的高斯混合模型。......................................................... 15 圖 1-8 混合影像系統原型 ............................................ 16 圖 1-9 RESIDUAL 反卷積 .............................................. 18 圖 1-10 GAIN-CONTROLLED RL ......................................... 19 圖 1-11 PROGRESSIVE DECONVOLUTION .................................. 20 圖 1-12 ITERATIVE RESIDUAL DECONVOLUTION ............................ 23 圖 1-13 A TOY MONKEY TAKEN BY A TELEPHOTO LENS。從左到右：模糊影像和模糊核心，標準 RL 的結果，及本篇提出方法之實驗結果 ..................... 24 圖 1-14 結構相似性量測系統圖 ........................................ 25 圖 1-15 GROUP 1 影像 ................................................. 26 圖 1-16 GROUP 2 影像 ................................................. 26 圖 1-17 預測結果 ................................................... 27 圖 1-18 系統流程圖 ................................................. 28 圖 1-19 無參考客觀測試影像描述在[3]; (A)FISHINGBOAT,(B)MAN,(C)PEPPER,(D)HOUSES. ........................... 30 圖 1-20 人類視覺模型 ............................................... 31 . vi.

(9) 圖 2-1 特徵辨識流程圖 .............................................. 34 圖 2-2 訓練階段 .................................................... 35 圖 2-3 偵測階段 ..................................................... 35 圖 2-4 系統流程圖 .................................................. 36 圖 3-1 演算法流程圖 ................................................ 39 圖 3-2 128 128 的人臉影像 ........................................... 40 圖 3-3 溫納濾波器實作流程圖 ........................................ 42 圖 3-4 區域對比增強流程示意圖 ...................................... 44 圖 3-5 左圖為未經過區域對比增強，右圖為經過區域對比增強............. 45 圖 3-6 二維基頻影像頻率分佈圖 ...................................... 46 圖 3-7 區塊分割示意圖 .............................................. 47 圖 3-8 ZIG-ZAG 掃描次序 ............................................. 47 圖 3-9 特徵向量示意圖 ............................................... 48 圖 3-10 兩兩之間平均值差異的平方的向量示意圖 ....................... 50 圖 3-11 兩兩之間特徵區別值的向量示意圖 ............................. 51 圖 3-12 特徵維度排序 ............................................... 52 圖 3-13 特徵維度選擇流程 ........................................... 52 圖 3-14 分類面示意圖 ............................................... 54 圖 3-15 KERNEL FUNCTION 示意圖 ...................................... 57 圖 3-16 一對一示意圖 ............................................... 60 圖 3-17 RINGING ARTIFACTS 流程圖 ..................................... 61 圖 4-1 半徑為 4 的圓形的點擴散函數 .................................. 63 圖 4-2 YALE 人臉資料庫 B 及 EXTENDED YALE 人臉資料庫 B................ 64 圖 4-3 原始影像 .................................................... 64 圖 4-4 模糊圈半徑為 3 的模糊影像 ..................................... 65 圖 4-5 模糊圈半徑為 5 的模糊影像 .................................... 65 vii.

(10) 圖 4-6 模糊圈半徑為 7 的模糊影像 ..................................... 66 圖 4-7 模糊圈半徑為 9 的模糊影像 ..................................... 66 圖 4-8 未經過區域性對比增強 ........................................ 67 圖 4-9 經過區域性對比增強 .......................................... 68 圖 4-10 未經過區域對比增強的影像 .................................... 70 圖 4-11 經過區域對比增強的影像 ..................................... 71 . viii.

(11) 表. 目. 錄. 表 1-1 ASSESSMENT RESULTS FOR JPEG IMAGES ............................ 29 表 1-2 ASSESSMENT RESULTS FOR JPEG2000 IMAGES ........................ 29 表 1-3 執行不同的客觀無參考評估測試圖 1-19 ........................... 30 表 4-1 第一階段 25 類的辨識結果 ..................................... 69 表 4-2 第二階段 2 類的結果 ........................................... 71 表 4-3 第一階段 25 類的辨識結果 ..................................... 72 表 4-4 第二階段 2 類的結果 ........................................... 72 表 4-5 PSNR 比較.................................................... 73 . ix.

(12) 第一章緒論. 1.1 研究動機過去幾二十年來，模糊影像復原在計算機視覺和影像處理領域中一直是一個重要的研究問題，一些關於影像復原技術[1]的發展可應用在許多實際的領域，例如影像監控系統、機器人視覺、超速車輛拍攝、醫學影像、天文影像…等等，都是數位影像應用的範圍，在這些系統中，會因為我們所使用到的影像是不清晰且模糊的影像，則會影響到我們之後的判讀，而這一類的問題，在我們的日常生活過程中也會遇到，像是利用數位相機來擷取影像，常常擷取到的影像都是不清楚且模糊的影像，因而造成影像品質下降。通常影像退化現象有各種各樣的因素造成影像不清晰或模糊，引起影像品質退化的因素很多，如光學系統繞射、物體移動、相機對焦錯誤…等。影像退化主要表現為影像出現亮度及顏色不均勻、對比度下降、影像變模糊、有雜訊…等。由於引起影像退化的因素很多，而且性質各不相同，因而很難找到一個統一的復原方法。為了協助這些系統能有效的復原每張影像，面對這類的問題，常需要對影像去做影像前處理，不外乎是利用影像復原的方式，讓影像復原到較清晰的影像。因此影像復原的技巧是主要是傾向於從己知退化的模型而應用相反的程序去恢復原影像，並且透過一個良好的影像評估準則去得到想要影像之最佳估測。. 影像復原的主要目的是在某種意義上改善影像的品質。影像復原是一個病態的反問題(ill-posed inverse problem)，要解決這個問題，我們必須有一些關於理想影像影像(ideal image)的先驗知識(priori knowledge)。這些先驗知識可用在模式化及演算法的發展兩個不同的方面：關於模糊本性及雜訊類別的知識可用在模式化 1.

(13) 輸入-輸出影像的關係，而特別當模糊類形確定了，我們將能夠用少許的參數將模糊運算子(blurring operator)參數化。對於演算法的發展，先驗知識能用在對求得的解做一些限制和準則或定量描述以便做出某種最佳的估測。. 影像復原的學術研究主要集中在模糊確認(blur identification)及復原方法 (restoration method)兩方面： I. 模糊確認：模糊確認一般來說，就是要確認點擴散函數(point spread function，PSF)係數。有一些形式的PSF能藉由頻率域上零點(zeros)的位置完整地特徵化，例如：移慟模糊(motion)和失焦模糊(out-of-focus)的PSF在頻率域上確實有零點存在，而這兩種模糊類形的PSF可由這些零點通過的位置唯一的確認。模糊確認目前所採用的方法涵蓋光學原理、統計方法、濾波器、光譜分析。 II. 復原方法：影像復原的方法，早期大多是由頻率域概念引出來的，先利用傅立葉轉換 (Fourier Transform)，再使反濾波器(inverse filter)、溫納濾波器(Wiener filter)或是卷積遮罩(convolution mask)來復原影像。另外也有用線性代數的代數方法，先把影像復原公式化，再去對龐大的聯立方程組做處理。. 1.2 問題描述如圖1-1所示，一般將退化過程模型化為一個系統 H ，它和加成性雜訊 n( x, y ) 一起作用於輸入影像 f ( x, y ) ，並產生一退化影像 d ( x, y ) ，即式(1-1). 2.

(14) 圖 1-1 影像退化模型. d ( x, y )  H [ f ( x, y )]  n( x, y ). (1-1). 在式(1-1)中我們假設 n( x, y )  0 ，所以 d ( x, y )  H [ f ( x, y )] 。假設(1-2)式成立. H [k1 f1 ( x, y )  k2 f 2 ( x, y )]  k1 H [ f1 ( x, y )]  k2 H [ f 2 ( x, y )]. (1-2). 則我們稱 H 是線性的(linearly)。. 假設一個運算子具有輸入-輸出關係 g ( x, y )  H [ f ( x, y )] ，如果對任意的 f ( x, y ) 和  ，. H [ f ( x   , y   )]=g ( x   , y   ). (1-3). 則我們說 g ( x, y )  H [ f ( x, y )] 是空間不變的(space-invariant)。. 利用脈衝函數(Impulse function)，(1-1)式中之 f ( x, y ) 可以下面形式表示：. f ( x, y )  .  f ( ,  ) ( x   , y   )d d  . 3. (1-4).

(15) 如果(1-1)式中之 n( x, y )  0 ，則. d ( x, y )  H [ f ( x, y )]  H [ .  f ( ,  ) ( x   , y   )d d  ] . (1-5). 如果 H 是一個線性運算子(linear operator)，並且擴展積分的加成性，則. d ( x, y )  .  H [ f ( ,  ) ( x   , y   )]d d  . (1-6). 因為 f ( ,  ) 與 x, y 無關，可得. d ( x, y )  .  f ( ,  ) H [ ( x   , y   )]d d  . h( x, y,  ,  )  H [ ( x   , y   )]. (1-7). (1-8). 這一項叫做 H 的脈衝響應(impulse response)。在光學中，脈衝變成一個光點，而 h( x, y,  ,  ) 在這種情形叫做點擴散函數，所以在出現加成性雜訊的情況下，描述. 一個線性退化模型的表示式可變成. d ( x, y )  .  f ( ,  )h( x, y,  ,  )d d   n( x, y ) . (1-9). 如果 H 是空間不變的，則上式可變為. d ( x, y )  .  f ( ,  )h( x   , y   )d d   n( x, y ) . 4. (1-10).

(16) 雜訊項 n( x, y ) 的值是隨機的，且假設與位置是獨立的。我們可以將(1-10)式寫成. d ( x , y )  h ( x, y )  f ( x , y )  n ( x, y ). (1-11). 其中 n( x, y ) 是在退化影像中的加成性隨機雜訊，而「  」這個符號代表空間上二維的卷積。而根據卷積理論，頻率域表示為式 (1-12). D (u, v)  H (u, v) F (u, v)  N (u, v). (1-12). 復原的目的是獲得原始影像的一個估計 fˆ ( x, y ) ，一些關於退化函數和雜訊的了解越多，則我們想要估測的 fˆ ( x, y ) 就會越接近原始影像 f ( x, y ) 。因此我們若能確認影像的模糊類型，對我們在影像復原的處理上將有極大的幫助。從目前影像復原演算法來看，很難做到一次復原就能得到令人滿意的視覺效果。很多種的退化都可以用線性、位置不變的程序來近似，此方法的優點是，有許多線性系統理論的廣泛工具可以來解影像的復原問題。對於非線性和與位置相依的技術，雖然比較一般化(通常也較準確)，但所產生的因難是時常沒有已知的解法或在計算上非常難解。故本論文專注在線性、空間不變的復原技術。因為退化被模式化成為迴旋積的結果，且復原是要尋找依相反方式運用在程序上的濾波器，所以「影像反卷積(image deconvolution)」這個名詞經常使用於表示線性影像復原。同理，使用於復原程序的濾波器常被稱為反卷積濾波器(deconvolution filter)。. 5.

(17) 1.3 點擴散函數在圖1-2中，在中間的虛線，為一個光點在理想情況下，透過光學系統成像後的光強分布，在物面與像面之間可以做到點對點的對應，所以它的光強分布會集中在一起，但是實際上的成像系統並無法做到點對點的對應，所以它的光強分佈，會跟圖1-2中上方的曲線一樣，有擴散開來的情形發生，而這條曲線就是點擴散函數。. 圖 1-2 點擴散函數. 1.4 對焦模型當照相機拍攝一個三維的影像時，有些影像會正確對焦，有些則不會。對焦程度將取決於有效的透鏡直徑和目標物與照相的距離。假如目標物位於透鏡對焦的無窮遠處，影像將會完美對焦於底片上，而當透鏡移動時，其它距離的目標物將被帶進焦距內。. 在[1]的幾合的成像系統，圖1-3中，假設距離透鏡 u 的目標物正確聚焦在底 6.

(18) 片上，則距離 u0 的目標物將聚焦於底片後方，又假如鏡徑是圓形的，那麼任何光源將在底片上形成一個小圓盤(disk)，我們稱它叫模糊圈(circle of confusion， COC)，模糊圈是一個很簡單的概念：它是光束(或一個散焦面)聚焦在影像平面上時，所能形成的最小直徑。. 圖 1-3 對焦示意圖. 在圖1-3中， u 表正常對焦之物距 u0 表對焦錯誤之物距. i 表正常對焦之像距 i0 表對焦錯誤之像距 a 表透鏡之半徑. f 表透鏡之焦距(foucs length of len). 根據平面幾何及透鏡原理，我們將可輕易地得到對焦錯誤之模糊半徑。. r i0  i  a i0 7. (1-12).

(19) 由透鏡原理知.  1 1 1      f u i. (1-13). 1 1 1      f u0 i0 . (1-14). i0 . u0 f u0  f. (1-15). i. uf u f. (1-16). 代入得.  f u0  u   i0  i  r  a   a   [u0 (u  f )]   i . (1-17). 一般out-of-focus之點擴散函數可表示成.  1 2  2 ， x y r h ( x, y )    r 0 ， otherwise. 其中 r 代表模糊半徑。. 8. (1-18).

(20) 1.5 相關研究在 1.5.1 節中，我們回顧影像復原相關的研究和方法。在 1.5.2 節中，我們介紹一些影像品質評估相關方法。 1.5.1 影像復原相關研究數位影像復原問題在過去二十年來已經得到很好的研究結果，早期的方法可分為兩類，直接的方法及疊代的方法，受歡迎的方法包括反濾波器和正則化復原演算法，更詳細的回顧文獻讀者可參考[2,3]。影像模糊原因主要就是當數位相機鏡頭在對焦時與遠近不同的物體產生錯誤對焦位置所造成的效果，影像模糊可應用在美學上的用途，如強調凸顯主題的效果特性，它也可以用來獲取景物的三維結構資訊或電腦繪圖技術上用來產生接近實際影像以娛樂人類的視覺，數種的表示方式與模型已被提出應用在人類的視覺與機器視覺上。但在大多數的時候，影像模糊並不是一種想要的效果，它常會對所擷取的影像產生困擾或降低影像的品質。實際上由於對焦不正確造成模糊效應，鏡頭所能對焦的遠近範圍很廣，導致每一種對焦距離會產生相對應獨特的模糊效果，以致要針對每一種距離的模糊問題來加以去模糊化變得相當困難。. 在本論文中，我們處理由原始影像與模糊函數(blurring function)一起作用產生退化的影像，這就是所謂的盲目影像復原/卷積問題，若已知點擴散函數或模糊函數，假設具空間不變性則模糊可以藉著反卷積被還原[4]。然而 PSF 通常是為未知的函數，所以有不少的研究專注在從影像本身中估算 PSF，以達到影像去模糊的處理。若應用在未知影像以反卷積方法來去模糊，通常需將模糊的機制以簡易的模型及參數來表示以達成反卷積的目的。此種簡易模型可以是線性系統，然而實際上數位相機鏡頭對焦系統較為複雜，若要以此方法來達到影像去模糊則仍有待後續的研究。. 9.

(21) 在影像復原最常遇到的問題，不外乎是進行影像復原產生的一些失真，如振鈴現象，影響影像品質一個重要的因素。振鈴現象的失真問題，相當於二維的 Gibbs 現象。在對於時域階段訊號進行傅立葉轉換後，將某個頻率之上的所有頻率分量都截去，然後用剩下的部分復原時域訊號，則恢復後的訊號在邊緣則會發生振鈴，而讓訊號上升的部份有不規則的情形，這種現象稱為 Gibbs 現象。如圖 1-4 所示，實線為原始訊號，虛線為恢復的時域訊號。. 幅度. 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0. 時間. -0.5. 0. 0.5. 圖 1-4 Gibbs 現象. 對於影像而言，這相當於將影像的高頻部份截去，用剩下的低頻及中頻去重建影像時，重建的影像就會出現振鈴現象。振鈴現象發生在影像有高對比度變化的邊緣、輪廓周圍，且邊緣、輪廓兩側為均勻亮度，影像中對比較不明顯的區域容易發現。如圖 1-5 所示，復原後產生明顯的振鈴現象。. 10.

(22) 圖 1-5 左圖為模糊影像，右圖為左圖復原後產生振鈴現象. 在盲反卷積的方法中，疊代盲反卷積方法[5]是最有名的演算法，它運算時是被限制在時域和頻域之間，在經過運算轉換中會有負值的情況。點擴散函數和退化影像經過傅立葉轉換在頻域運算後得到估測的影像。隨著原始影像和退化影像的初始猜測隨機的資訊，我們可以使用估測的點擴散函數在頻率中實現溫納濾波器(Wiener filter)，由一個新的點擴散函數和退化影像被使用到這個復原濾波器而得到復原影像。總之，這個演算法需要固定的輸入，退化影像及點擴散函數，藉由溫納濾波器去重建另一個未知的估測影像。一般來說疊代運算的方法是不會停止，直到復原的影像已經達到一定的條件或疊代的次數大於預設的限制。儘管疊代盲反卷積方法的優點是低計算量和容易實行，但是最終的結果會依賴於初始的點擴散函數，當我們初始的猜測是沒有效的資訊時，使得這個方法比較不可靠。. 有關於盲目影像復原是病態(ill-posed)的問題，也就是說當我們對原始影像、模糊函數及雜訊的了解資訊太少，則在影像復原後可能無法得到正確復原解，處理這類問題的方法是用一些先前已知的知識或者加以條件限制，使問題有規範解決辦法。在對稱雙正則化方法中[6]提出有規範的解決方案，將盲目影像復原分解成 2 個對稱的處理：模糊辨別和影像復原。在這篇中最小化的價值函數(cost function) 如式(1-19)，這裡 a( x) 和 c( x) 為正則化運算，通常使用高通濾波器，  和  為規則化 11.

(23)  . 參數，主要是控制平衡復原影像時的正確性，而 w1 、 w2 和 w3 則是權重。 L  d , f  的梯度在模糊域及影像域的表示分別如式(1-20)及式(1-21)。然而在模糊域中，模糊估測的最佳化程序只是透過精確估測而被控制，因為精確的梯度值遠遠大於規則化的值，但是這個問題可能會導致最佳化程序失去控制。一般形況下導致演算法過度解決影像和模糊函數，而實際上不是這種情況。.   1   L(d , f )   w1 x  [ g ( x)  d ( x)  f ( x)]2 min dˆ , fˆ 2 x  1 +   w2  x  [c( x)  f ( x)]2 2 x  1 +   w3  x  [a ( x)  d ( x)]2 2 x. . (1-19). . 其中 g ( x) 為退化影像， d ( x) 為模糊核心， f ( x) 為復原的影像.   L d , f       w1 x  [ g  x   d  x   f  x ] * d   x  f  x   + w2  x  c  x  * f  x   * c   x . (1-20).   L d , f       w1 x  [ g  x   d  x   f  x ] * f  x   d  x   + w3  x   a  x  * d  x   * a   x . (1-21). . . . . . . . . . . . . 總變量方法[7]已經被提出去解決盲目影像復原的問題，是一種交替疊代最小化方法被使用去同時進行復原影像及辨認點擴散函數。這種方法盲目影像復原的公式如下：. 12.

(24) min f (u , h)  min u ,h. u ,h. 1 hu  z 2. 2 L2 (  ).  1  u dxdy. (1-22). .   2  h dxdy . 其中 u , h 和 z 分別為復原的影像、模糊函數和退化影像。運算子＂. 2. ＂則是. L2 norm 誤差函數。 1 及  2 是在模糊函數和退化影像之間量測調整的正參數，在. 公式(1-21)中的第一個運算式，可被視為是退化影像和復原影像與估測的模糊函數卷積後之間的誤差。第二個及第三個項，則是分別表示為總變量在復原影像及模糊函數中的平滑限制。總變量的值是表示復原影像的品質，其中若是較小的總變量的值，則表示是好的復原影像品質。為了找到最小的解，可以由式(1-22)，或者使用式(1-23)、(1-24)。. 解決 h n 1  h n 1 u n ( x,  y )  (u n  h n 1  z )   2   h n 1 .  0  . (1-23). 解決 u n 1  u n 1 h n 1 ( x,  y )  (h n 1  u n 1  z )  1   u n 1 .  0  . (1-24). 初始條件 u 0  z 和 h0   ( x, y ) ，為 delta function。其中關於模糊函數的特性，如非 0 、對稱和總合為 1，被使用在疊代最小化的過程中。最後的復原結果，在影像細節部份並未完全復原，只看到明顯的輪廓。. 近來 Fergus et al. [8]最新的進展，對於先前的方法有 2 個關鍵的改進。第一 13.

(25) 個是利用自然影像圖 1-6 統計研究處理影像去模糊的問題，他們使用厚尾 (heavy-tailed)影像梯度分佈模型，作為模擬原始影像的先前模型，如圖 1-7，綠色的曲線是高斯混合模型，紅色則是真實自然場景的梯度分佈模型。第二個是配合真實自然影像的梯度分佈模型更進一步的利用統計方法 Bayes’ Rule 式(1-25)完成模糊核心的估測，其中 P 為模糊的影像區塊， K 為模糊核心， Lp 為潛在的區塊影像， Lp 為潛在的影像區塊梯度， P 為模糊的影像區塊梯度，假設  2 為高斯雜訊之變異. 數， N 與 E 分別代表高斯分佈及指數分佈， vc 與  c 是 zero-mean 高斯的 c  th 變異數及權重， d 與  d 是指數分佈第 d  th 的比例因子和權重。透過不同的模糊核心大小，初始是由 3  3 的模糊核心 K 至全解析度的模糊核心 K ，進行從粗糙至細緻的估測，求出有最大邊際機率的模糊核心 K 。這篇的做法是沒有去假設關於模糊點擴散函數的任何變數，藉由找出最有可能關於潛在影像的分佈，且當我們選擇了一張最佳的估測影像可以避免過度擬合(overfitting)。. 圖 1-6 自然影像. 14.

(26) 圖 1-7 紅色部份為自然場景的梯度分佈情形，綠色部份為本篇實驗所採用的高斯混合模型。. p( K , Lp P)  p(P K ,Lp ) p(Lp ) p  K  =  N (P  i   K  Lp  i   ,  2 ). (1-25). i. C. D.    N  L  i  0, v    E  K i. c 1. c. p. c. j. d 1. d. j. d . 此外，許多特殊的硬體設施已經被提出可以解決模糊影像的問題。Ben-Ezra and Nayar [9]提出一個混合影像系統去估測未知的模糊函數。如圖 1-8，這個系統的組成包括一個主要偵測擷取模糊影像 Primary System，和另一個偵測一系列的低解析度影像 Secondary System，為了取得到必要的資訊。在估測完這些點擴散函數後，模糊影像接著透過 Richardson-Lucy 疊代卷積演算法式(1-26)進行影像復原的動作，其中 I 為被量測的影像， Oˆ ( k ) 是第 kth 的量測結果，而 Oˆ (0)  I 且 S 是卷積核心(PSF)， I 與 S 在各處都為正值， Oˆ ( k ) 不為負值。這是一個非線性的復原方法，對於真實影像的復原效果比線性的方法更好，但是這個演算法最大的缺點就是對雜訊非常敏感且對影像邊緣會過度的平滑，經過多次的疊代之後容易引起雜 15.

(27) 訊的放大。在實驗模擬結果中，在移動估測正確率的計算，使用了 4 種不同的影像解析度加上 4 種不同標準差的灰階高斯雜訊，當影像解析度低到 80  80 pixels 和雜訊標準差為 81 時，估測的錯誤仍然很小。在路徑估測測試了不同的模糊程度和不同的路徑，最終得到的誤差結果也是非常小。. 圖 1-8 混合影像系統原型. Oˆ ( k 1) ( x)  Oˆ ( k ) ( x)  S ( x) . I ( x) S  Oˆ ( k ). (1-26). 為了解決在陰暗的條件下拍攝照片的問題，Yuan et al. [10]提出了使用模糊影像及雜訊影像透過 Tikhonov regularization 估測一個正確的模糊核心 K 。首先式 (1-27)中，目的是要重建高品質的影像 I ，其中 B 為輸入影像， K 是模糊核心， 是卷積運算。式(1-28)，他們描述遺失細節的 layer 如同 residual 影像 I ， N D 是去雜訊後的影像。一旦模糊核心 K 被估測， residual 影像可藉由 residual Richardson-Lucy 反卷積使用式(1-32)被重建，而 B  B  N D  K 是 residual 模糊影像。並且由式(1-31)得到最佳化的模糊核心 K ，其中 b 和 k 為 B 和 K 的向量形. 16.

(28) 式， A 為 I 的矩陣形式， 是解決式(1-31)最小化問題的正數，在本篇預設   5 。在他們的方法也適用於較大的模糊核心的估測，成功在 1200 1600 的影像中估測了模糊核心大小為 87  87 。接著由式(1-32)找出 I residual image，如圖 1-9 所示為使用 residual 反卷積 1 維的例子。. B  I K. (1-27). I  N D  I. (1-28). B  I  K. (1-29). B  B  N D  K. (1-30. 2. 2. min Ak  b   2 k , subject to ki  0, k. k i. I n 1  ( K . B  1 )   I n  1  1  I n  1  K. 17. i. 1. (1-31). (1-32).

(29) 圖 1-9 Residual 反卷積。 (a-b)被模糊的訊號及被去雜訊的訊號。模糊核心為低通濾波器的 box filter。 (c) 圖(a)的標準反卷積結果。 (d-e) 被模糊的 residual 訊號和它的反卷積結果 (f) residual 反卷積結果。其中圖(f)的 ringing artifacts 問題已經沒有圖(c)那麼嚴重。. 在圖 1-9 (f)中仍然是有一些很微小 ringing artifacts 的情形，他們又提出 gain-controlled Richardson-Lucy 演算法解決在前面所產生微小 ringing artifacts 的問題。修改式(1-32)加入 I Gain ，主要是去抑制在平滑區域的 ringing artifacts，而不是在邊緣區域。其中在式(1-34)中，  為控制 gain map 的控制力， N Dl 是在第 lth 時去雜訊影像的梯度。圖 1-10 為加入 I Gain 之後的改善結果。.   B  1 I n 1  I Gain  ( K  )   I n  1  1  I n  1  K  . (1-33). I Gain  (1   )     N Dl. (1-34). l. 18.

(30) 圖 1-10 Gain-controlled RL。 (a-c) 被模糊的訊號及被去雜訊的訊號及 gain map。 B 和 N D 為被估測的核心。 (d-f) 綠色為使用標準 Richardson-Lucy 的反卷積結果，藍色為 residual Richardson-Lucy 的反卷積結果結果和紅色為 gain-controlled Richardson-Lucy，其中分別有經過 1、10 和 20 的疊代結果。在 gain-controlled Richardson-Lucy 中的結果是有效的阻止 ringing artifacts ，而在標準 Richardson-Lucy 及 residual Richardson-Lucy 中放大了 ringing artifacts 的問題。. 在 2008 年 Yuan et al. [11]針對受雜訊影響的真實影像，如式(1-35)，由 I 真實影像與空間變化核心 K 進行卷積運算，產生退化影像 B ，其中 noise() 為雜訊的處理。. B  noise( I  K ). (1-35). 這篇藉由 inter-scale 和 intra-scale non-blind 反卷積，可以有效的保留影像邊緣和減少 ringing artifacts 的情形，特別是在大的模糊核心。如圖 1-11 為 progressive 19.

(31) deconvolution 流程圖。. 圖 1-11 Progressive deconvolution。影像是由粗糙至細緻逐步的被重建。在一開始的 scale 0 ，影像的復原及 upsample 使用 bilateral Richardson-Lucy 演算法，接著在每一次的 scale l 都使用疊代 residual Joint bilateral Richardson-Lucy 反卷積，進一步還原影像細節的部份。. 在 scale 0 的階段使用 bilateral Richardson-Lucy 演算法式復原影像，在 Richardson-Lucy 演算法中並無法有效的處理邊緣，在這個階段裡，加入了處理邊緣的正規化 EB ( I ) 項，如式(1-36)。. I *  arg min  E ( I )   EB ( I ) . (1-36). I. E ( I )    I  K   B  log  I  K  . . . (1-37). EB ( I )    f  x  y    I ( x )  I ( y ) . (1-38). x. y. 20.

(32) 2. x y ) f  x  y   exp( 2 s. (1-39). 2. r  其中  s     ， r  0.5rk ， rk 是指模糊核心的半徑。 3 2. I ( x)  I ( y ) )   I ( x)  I ( y )   1  exp( 2 r. 其中  r 設定為 0.01 max( I )  min( I ). (1-40). 2. 當模糊核心是較小的時候，可以減少 ringing artifacts 的產生，將式(1-36)最小化，可得到規則的 RL 式(1-41)，稱為 bilateral Richardson-Lucy。. I t 1 .  * It B  K  t t  1   E B ( I )  ( I  K ) . (1-41) . 其中 EB ( I )   ( I yd  I yd Dy ) ， Dy 為移位矩陣，移位在整個影像 I yd 的 e 方向大小為 y.    e ， e 表示移位向量從像素 x 到鄰近的像素 y 。 I yd 是梯度影像在 e 方向的權重，在. 影像 I yd 中的每個像素 x ，如下：. I yd ( x)  f  x  y  g  I ( x)  I ( y )  .  I ( x)  I ( y )  r. (1-42). 2. I ( x)  I ( y ) 其中 g  I ( x)  I ( y )   1    I ( x)  I ( y )   exp( ) ，為高斯濾波器。 2 r. 接著是屬於 inter-scale 階段，修改式(1-36)的正規化項，由式(1-43)取代 EB ( I ) 項。. I *  arg min  E ( I )   EJB ( I ; I g )  I. 21. (1-43).

(33) . . EJB ( I ; I g )    f  x  y  g  I g ( x)  I g ( y )   I ( x)  I ( y )  x. . . y. 其中 g I ( x)  I ( y )  exp( '. g. g. I g ( x)  I g ( y ) 2. (1-44). 2. g r. ) ，  rg 設定為 0.01 max( I g )  min( I g ). 2. 主要是利用前一次的復原影像作為下一次復原影像的 guide image。在每個 scale l 中，透過使用 2 的 upsampled 倍數，放大先前影像的比例 I g 作為 guide image，並且由 joint bilateral Richardson-Lucy (JBRL)演算法使用 guide image I g 去進行影像復原。. 在 inter-scale 反卷積是只注重在邊緣的位置，而不是邊緣的強弱或大小，事實上當影像有明顯的邊緣時需要較大的正規化的值  ，可有效的阻止在平滑區域所引起的 ringing artifacts，但是這也會影響影像細節的復原，所以經過 inter-scale 反卷積後，接著使用 intra-scale 反卷積，減少正規化的值以復原影像細節，使用在 2007 年 Yuan et al. [10]中所提出的疊代 residual Richardson-Lucy 反卷積於前一階段處理後的影像，目的是阻止 ringing artifacts 的產生，復原影像細節。這等於是在最小化 energy 透過減少正規化的值  於疊代運算中。演算法的流程如圖 1-12。. 22.

(34) 圖 1-12 Iterative residual deconvolution。首先由前一次的比例使用 guide image I g 計算 residual 模糊影像 B 。接著透過 joint bilateral Richardson-Lucy (JBRL)從 guide image I g 獲得輔助去復原影像細節 I 。最後，guide image I g 接著加上新的影像細節後被更新成新的 I g 。. I *  arg min  E (I )   EJB (I ; I g )  I. (1-45). 其中  t 1   t ，  為衰退因子. 在最後的疊代運算，加入了 EH (I ) 去執行平滑限制為了復原中頻範圍裡的細節。. I *  arg min  E (I )   EJ (I ; I g )   EH (I )  I. (1-46). 其中 EH (I )   x I  G ， G 為高斯核心，   0.4. 圖 1-13 為實驗結果，復原後的影像幾乎已經沒有 ringing artifacts 的情形，是讓人滿意的復原結果。. 23.

(35) 圖 1-13 A toy monkey taken by a telephoto lens。從左到右：模糊影像和模糊核心，標準 RL 的結果，及本篇提出方法之實驗結果。. 1.5.2 影像品質評估相關研究隨著技術的發展各種各樣的影像應用，像是影像增強、醫學影像處理和影像/ 視訊壓縮、影像品質評估(image quality assessment，IQA)吸引了越來越多的學者投入在電腦視覺和影像處理領域中的相關研究。. 影像品質評估主要是以自動化計算影像品質的一種方式，且與人類的感知有一致的評估為目的。一般來說，影像品質評估大略可以被分為兩種，根據是否參考完美影像的品質而進一步去作比較。. 第一種的影像品質評估方式是完整參考影像品質評估(IQA)，這個方法已經被研究了很多年了，主要被使用在影像/視訊壓縮，提供一個客觀的量測影像壓縮的失真。使用全參考的方法中，為了計算目標影像的品質必需先計算完美品質的參考影像。在這一類之中最簡單且眾所皆知的方法是均方誤差(mean square error，MSE)，量測參考和目標影像之間的相似性是透過計算平方影像像素的強度值。在 2004 年 Wang et al.提出結構相似性品質指標(Structural SIMilarity， SSIM)[12]，是用於測量在兩幅影像之間相似性的一種方法，可以被視為一個完美的影像品質量測。如圖 1-14，指標模型中把影像量測的任務分開成為 3 種比較︰. 24.

(36) 亮度、對比和結構。首先比較每一個信號的亮度，並估計為平均的強度。第二將信號除去平均的強度，使用標準偏差作為對顯著對比的估計。第三信號正規化後，以基準影像標準偏差，與參考影像的信號標準偏差相比較。最後，三個部分結合產生相似性量測。而模型中三個組成部分是各自獨立的，例如，亮度和對比的變化將不影響影像的結構。而結構相似性指標計算簡單且與主觀品質評估有較強的關聯性，並且得到符合人眼視覺的評估結果。. 圖 1-14 結構相似性量測系統圖. 第二種的影像品質評估是無參考的方式，在近幾年來，無參考影像品質評估開始發揮重要作用，由於全參考影像通常是無法在實際應用情況下比較的這個理由，現有的無參考影像品質評估的大多數影像特色是專門設計給各種變化的影像失真，像是影像模糊[13,14,15,16,17]、方塊效應[17]和振鈴現象[16]，其中大部分的原因是因為 JPEG/JPEG2000 壓縮所產生。在[13,14,15]中，計算區域邊緣寬度作為衡量區域性清晰度的標準。Wang et al. [17] 在各區塊的邊界計算平均差異進一步量測是否有方塊效應和影像是否有模糊的情形，透過他們所訓練出來的模型進行測試，並且使用 Mean Opinion Score(MOS)對影像品質進行評估，如圖 1-15 是 Group 1 做為訓練影像，使用 Group 1 的模型預測結果為圖 1-17。Sheikh et al. [16] 25.

(37) 提出以統計自然影像的小波係數作為影像特徵，利用 Principle Component Analysis(PCA)去分析量測因為 JPEG2000 壓縮所產生的模糊和振鈴現象。. 圖 1-15 Group 1 影像. 圖 1-16 Group 2 影像. 26.

(38) 圖 1-17 預測結果. 影像品質評估在無參考影像品質評估方法中可分類為啟發式、學習式、多準則和人類視覺系統方法。在啟發式方法裡，影像品質量測只由實驗或影像特徵的線性組合而被設計出來，這些被選擇的影像特徵只能由經驗法則來決定，這並沒有什麼特別的物理意義。要縮小在人類感知和影像品質評估的差距，在學習式方法中[18,19]提出學習的影像品質評估與現有的訓練演算法，以便在影像特徵和影像分數中獲得非線性映射。最近 Sheikh et al. [18]更進一步的提出影像品質標準，根據線性組合品質指標，透過最佳化訓練模型預測誤差來決定品質指標的權重，並且為了在非線性映射範圍內可以穩定的客觀預測，使用映射函數式(1-47)、 (1-48)，則可以達到在主觀和客觀之間的非線性映射。. Quality( x)  1logistic(  2 , ( x   3 ))   4 x  5. logistic( , x) . 1 1  2 1  exp( x). 27. (1-47). (1-48).

(39) Tong et al. [19]提出使用即時 Adaboost 演算法，流程圖如圖 1-18，直接學習 JPEG/JPEG2000 影像，作為無參考影像品質標準模型。並且也跟 Bayesian classifier 做比較，如表 1-1 及表 1-2。在人類視覺系統方法，明確地使用適合的影像品質評估方法去處理不同的模式，模擬人類視覺系統的行為。在[15]使用式(1-49)作為發展作為以人類視覺系統無參考客觀的評估方法量測清晰度，這裡人類視覺系統模型是以通過最小可察覺的模糊度去考慮人類視覺系統的行為，主要是為了在不同的對比程度的清晰度去考慮人類視覺系統的行為。其中表 1-3 為不同方法的無參考客觀評估的實驗結果。測試影像為圖 1-19，使用了 4 種不同標準差的高斯濾波器所產生的模糊影像。. 圖 1-18 系統流程圖. 28.

(40) 表 1-1 Assessment results for JPEG images. 表 1-2 Assessment results for JPEG2000 images.  0.0042C  1, for 0  C  50 MJNB   0.024( C 50) , for 51  C  200 0.8092e. 29. (1-49).

(41) 表 1-3 執行不同的客觀無參考評估測試圖 1-19. (a) 圖. 1-19. (b). (c). 無參考客觀測試影像描述在 [3];. (d) (a)FishingBoat,. (b)Man,(c)Pepper,(d)Houses.. 由於人類視覺系統是一個複雜的系統，其中涉及眼睛、視覺感應器、和在大腦裡的視覺處理，判斷影像品質只有一個特色或標準，過程好像太啟發式並且過於簡單，到目前還沒有函數可以代表人類視覺系統。一個較為成熟的人類視覺模型，如圖 1-20 所示，該模型表示了視覺感知的三大特性[21]，幅度非線性衰減、視覺敏感度帶通、視覺檢測，它們是與影像品質相關的主要特性。考慮到視覺心 30.

(42) 理生理學實驗的影響，其模型中也應該這樣的校正因子，它負責調節計算時的某些臨界值和參數。由於上述的這個事實使得已經沒有任何解模糊的方法，可以不透過學習的方法而去評估影像復原後的品質，我們提出一種學習為基礎的影像復原演算法，解決影像復原後的問題。. 圖 1-20 人類視覺模型. 在本論文提出的演算法中，使用了影像復原後的影像當作訓練的影像，並且作為無參考影像品質評估的模型。這些被作為影像品質評估的模型接著被使用去分類復原影像的品質，且可自動偵測復原影像的模糊程度及振鈴現象。. 1.6 本論文提出之方法 1.我們開發了一種新的以學習為基礎的影像復原架構，復原退化的線性失焦模糊影像，藉由訓練了一些復原影像模型，找出解模糊可使用的最大模糊圈半徑，透過溫納濾波器去復原模糊人臉影像，將可以減少產生振鈴現象的情形。 2.使用區域性對比增強將有效的增強影像中振鈴現象的細節對比。 3.提出一種適應特徵選取及分類法去解決圖形辨識的問題。. 31.

(43) 1.7 論文架構本篇論文以下章節之內容分別如下所述： 1. 第二章介紹我們的系統架構。 2. 第三章描述我們提出自動偵測振鈴現象於復原模糊人臉影像演算法的細節。 3. 第四章我們探討自動偵測振鈴現象於復原模糊人臉影像的實驗結果。 4. 第五章本論文之結論，並說明此系統未來的研究方向。. 32.

(44) 第二章振鈴現象偵測系統之架構. 2.1 系統簡介首先在復原模糊影像問題中，有兩個重要的準則。第一個準測，當我們在復原模糊影像的過程裡，必須盡可能的不要讓振鈴現象在復原過後的影像裡產生，因為振鈴現象在復原模糊影像問題裡是最常見的影像失真問題。第二個準則，相較於原始的模糊影像，銳利度在復原過後的影像裡是必須要被改善。因此我們分別要使用影像的振鈴現象及影像模糊的特徵，去偵測復原後的模糊影像，是否有振鈴現象的產生。. 在系統設置階段裡，我們使用支持向量機(Support Vector Machine，SVM) 訓練復原後的模糊影像，作為偵測振鈴現象的模型。我們可以大略將之分為三大部分，如圖 2-1：前置處理（Preprocessing）、訓練（Training）及偵測（Detection）。以下就是對這三大部分的說明：. 33.

(45) 圖 2-1 特徵辨識流程圖前置處理部分：這個部分主要是將所有可能影響偵測結果的變因做某個程度的去除。例如正規化，就是把剛收集到的雜亂無章的資料，整理成比較有規則的情況。前處理可以強化這些有用的特徵且能夠在訓練工作執行時更容易把我們所要的特徵取出來，因此可以讓之後在訓練特徵時，有好的訓練模型。同時因為把有用的部分擷取出來，所以也可以達到資料的降維。. 訓練部分：如圖 2-2，這個部分主要是取出可以作為偵測依據的特徵，並將所有需要的特徵加以量化以便處理，且需要的特徵可以是每一個像素（pixel）的灰階值（0～255），也可以是人臉模糊影像復原後的振鈴現象特徵。由得到的特徵來當作訓練的資料（training data），以得到所有類別（class）的特有資訊，這些資訊即是用參數描述所有類別分佈的情況（例如：假設有 n 個訓練資料，把這些訓練資料訓練為 k 個類別，其中通常 n  k ）。也因為是用參數來描述每一個類別，在進行偵測的時候，就可以利用一些較具有物理意義的方法，把偵測 34.

(46) 的資料判斷到正確的類別。人腦做偵測振鈴現象判斷的依據就是「抽象的感覺」之間的關係，簡單的說，就是用具體的參數來描述抽象的感覺，使電腦能夠根據這些具體的參數做分析及運算，達到最後偵測的目的。. 圖 2-2 訓練階段. 偵測部分：如圖 2-3，在第二部分時已經得到所有類別各自的參數，當測試資料（testing data）進入系統後，可以利用演算法來估算測試資料是否與某個類別最為接近（最簡單的就是計算測試資料與每一個訓練類別之間的距離），就判斷到正確的類別。有的系統當遇到較為模糊不清（ambiguous）的測試資料時，由於偵測的結果有較高的錯誤機率，也就是擁有較低的信賴度（confidence），系統則拒絕此次偵測的要求，以儘量降低錯誤發生的機率及發生錯誤所造成的影響。. 圖 2-3 偵測階段. 2.2 偵測系統流程整個系統的處理流程如圖 2-4 所示，當資料建立之後，將分為三大部份作處理。. 35.

(47) 圖 2-4 系統流程圖. 本論文所提出的系統中，當模糊人臉影像資料建立後，將分為三個大部份作處理。首先建立模糊人臉影像，接著利用溫納濾波器(Wiener filter)，將模糊人臉影像進行解模糊。接下來第一部份，將復原後的人臉影像透過區域對比增強（local contrast enhancement）的方式，來處理每張影像被復原過後所產生振鈴現象的問題，而經過此處理後，可增強影像中振鈴現象的細節對比，之後再利用離散餘弦轉換擷取特徵，以進行下一步的特徵訓練。. 在整個系統處理的程序中，通常要經過前置處理的步驟，並產生很多相關的數據，但是如何快速的處理這些數據完成判斷，此時就需要進行數據的分類；在第二部份是要確認所定的判斷規則或者是所擷取的特徵條件，是否合乎研究. 36.

(48) 所預期的處理結果，一般的做法會先擁有一群用以建立系統的樣本，這些樣本通常稱為訓練樣本(training sample)，訓練樣本進入系統後，會改以各種型態的特徵表現出來，然後根據這些樣本建立某種規則，藉以將來對其它的樣本進行判斷分析，而這樣的過程便稱為分類(classification)，最後根據某些測試樣本(test sample)對這個系統進行測試，利用測試出來的結果反覆改進這個分類規則以得到最佳的分類效果。最後第三部份，要進行偵測分類處理程序就必須仰賴分類器(classifier)的幫助，而分類器種類眾多而且用途也不同，本研究採用支持向量機，這個是近年來被廣泛運用在分類問題上的數學工具，其具備參數較易調整、學習收斂速度快速及處理快速等優點。. 37.

(49) 第三章振鈴現象偵測演算法. 在這一章中，說明使用溫納復原濾波器將影像復原，接著抽取特徵並利用統計分析找出有用的特徵值後，丟入分類核心系統取做分析計算。本論文的分類核心為使用支援向量機。. 3.1 系統概述如圖 3-1 所示，當未知的模糊人臉影像資料輸入之後，會經過我們提出的演算法流程，做每個階段演算法的處理。首先利用溫納濾波器，將模糊人臉影像進行解模糊，接著使用區域對比增強的方式，來處理每張影像被復原過後所產生振鈴現象的問題，而經過此處理後，可增強影像中振鈴現象的細節對比，之後再利用離散餘弦轉換擷取特徵，以進行下一步的分類。針對振鈴現象的分類方面，我們使用支持向量機，以訓練資料的錯誤總和及 VC(Vapnik Cherovnenkis)維度來決定一般化錯誤的上限，利用對於這個上限做最小化，試圖改善尚未觀察到的資料被分類錯誤的機率，以達到不錯的效果。. 38.

(50) 圖 3-1 演算法流程圖. 3.2 影像的前置處理影像處理的前處理常扮演了關鍵的地位，將必要的影像型態與影像資訊透過校正、轉換後，以便後續的處理之用。. 一般在我們使用相機進行拍攝照片，注重的焦點大部份都是放在人臉上，故在這邊我們只針對有人臉影像的區域。而且為了要達到復原模糊人臉影像之偵測振鈴現象的目標，除了要有強健的演算法之外，我們可將收集到的雜亂無章的資料，整理成比較有規則的情況，例如目標物在不同圖片的位置都不一樣，我們可找出正確的位置並將其擷取出來，用來減少輸入影像資料間的差異性，以得到標準的影像形式。以 Yale 人臉資料庫 B 及 Extended Yale 人臉資料庫 B 的第一個人為例，我們將影像有人臉區域的部份切成 128 128 pixels 的大小，如圖 3-2 為用來模擬模糊的原始影像。 39.

(51) 圖 3-2 128 128 的人臉影像. 3.3 溫納濾波器溫納濾波器乃是將退化函數和雜訊統計特性同時納入復原過程中的方法，這方法是根據將影像和雜訊當作隨機過程，且其目標是找出未損傷影像 f 的估計值 fˆ ，使得它們之間的均方誤差最小，藉著找出與原始影像有最小均方誤差的影像為重建影像。溫納濾波器主要的想法為用線性化方式解決一般非線性最小化問題。此誤差量測為(3-1)式. e2  E{( f  fˆ ) 2 }. (3-1). 其中 E 是期望值運算子而 f 是未退化的影像。此表示式在頻率域中的解為(3-2) 式. 40.

(52)  (u, v)  F. H * (u, v) S (u, v) H (u , v) H (u, v)  n S f (u, v). D(u, v). *. (3-2). 其中， H * (u, v) = H (u, v) 的共軛複數 S n (u, v) = | N (u, v) |2 =雜訊的功率譜 S f (u, v)  | F (u, v) |2 =未退化影像的功率譜. 同樣的，我們可以對 Fˆ (u, v) 做反傅利葉轉換得到還原影像。在(3-3)式中，當雜訊為 0 的時候( S n (u, v)  0 )，那麼溫納濾波器就是反濾器，而在有雜訊的情況下 ( S n (u , v)  S f (u, v) )，即使 H (u, v)  0 或 H (u, v)  0 ，分母也不會造成雜訊被放大的情況，進而影響還原影像的品質。在實作上，由於 S (u , v) 與 S f (u, v) 都是未知的，因此我們會用下列式子來逼近(3-3)式，並且實作它：. 2  1  H (u , v) ˆ F (u , v)    D(u , v) 2  H (u , v) H (u , v)  K . (3-3). 其中，K 是對於雜訊自行設定的常數，圖 3-3 顯示了溫納濾波器的實作流程。. 41.

(53) 圖 3-3 溫納濾波器實作流程圖. 3.4 色彩空間轉換 3.4.1 RGB RGB 為彩色影像的三原色(Primary Color)，R 代表紅色光成份、G 代表綠色光成份、B 代表藍色光成份。而一般所謂的全彩色是由 R、G、B 三種不同成份所組成，其全彩影像為 24 位元（若是灰階影像為 8 位元），也就是 R、G、B 分別佔 8 位元，其值域範圍為 0-255。以錐狀體為例，來說明三種顏色對光線的靈敏度，其主要負責眼睛彩色視覺的感應器，人眼中大約有 600-700 萬個錐形體，其中 65%可以感應紅光，33 %可以感應到綠光，2%可以感應藍光；可見光的波長範圍為：400-700nm，紅光的波長範圍為：450-700nm，綠光的波長範圍為： 430-680nm，藍光的波長範圍為：310-560nm；在可見光與 R、G、B 波長範圍. 42.

(54) 對人眼的感應，得知人眼對藍光比較不靈敏。. 3.4.2 YCbCr YCbCr 色彩空間用於數位視訊中，其中 Y 代表亮度成份，Cb 代表是藍色成份與參考值的差距、Cr 代表是紅色成份與參考值的差距。如(3-4)式為 RGB 與 YCbCr 色彩空間轉換公式。. 0.587 0.114   R   0   Y   0.299 Cb    0.1687 0.3313 0.5  G   128     Cr   0.5 0.4187 0.0813  B  128. (3-4). 3.5 區域性對比增強經過溫納濾波器的處理後，被我們重建復原的影像有很多紋理的特徵，但是其中有一些是振鈴現象的特徵，接著我們使用區域性對比增強將有效的增強影像中振鈴現象的細節對比。如圖 3-4 所示，區域對比增強流程示意圖，我們對影像以區域性的對比增強，可以增強區域性的影像細節對比，若以 5  5 像素為一個區塊，計算此區塊的平均亮度（ Lavg ）如(3-5)式，為了避免(3-6)式的分母為 0，若是小於  則將 value 設為 0。否則可以利用(3-6)式算出平均值與中心點（ Li ）的差異，為了不讓亮暗差異過大，可以選在 logarithm domain 下做處理，最後將結果正規化回來之後，可增強振鈴現象的細節特徵對比，如圖 3-5。可以強化對於分類有幫助的特徵且能夠在訓練工作執行時更容易把我們所要的特徵取出來，因此可以使分類的效果更好。. 5. 5. Lavg   Lij i 1 j 1. 43. (3-5).

(55) value  log( Li / Lavg ). 其中 Li 為中心點的亮度， Lavg 為 5×5 區塊的平均亮度. 圖 3-4 區域對比增強流程示意圖. 44. (3-6).

(56) 圖 3-5 左圖為未經過區域對比增強，右圖為經過區域對比增強. 3.6 特徵抽取 3.6.1 DCT 簡介離散餘弦轉換（Discrete Cosine Transform，DCT）是將影像資料經過數學的運算，從空間域轉換成頻率域的表示方式，經過轉換後的訊號能量會比原先的訊號更加集中，而大部份的能量可以集中在某些係數上，因此具有高度緊束能量的特性，因此常被使用在抽取影像的特徵，以減少資料量。而一個 M × N 二維 DCT 轉換公式如(3-7)式所示：. F (u , v) . M N (2 y  1)v 1 (2 x  1)u ]  (u ) (v) f ( x, y )  cos[ ] cos[ 2N 2M MN x 1 y 1. 在(3-7)式中，當 u  0 時，則  (u )   (v ) . (3-7). 1 ；當 u  0 時，則  (u )  1 ；當 v  0 時，則 2. 1 ；當 v  0 時，則  (v)  1 。 2. 45.

(57) 一般來說，數位影像的資料可分為空間域影像資料格式和頻率域影像資料格式兩種。以頻率域資料格式來說，一張區塊可以劃分為高頻、中頻和低頻三種頻率區域。人類肉眼對於影像低、中頻的區域比較敏感，相對的，對於高頻的區域的敏感度比較低。故 DCT 轉換是將區塊內的資料依空間頻率來分解，再將相同頻率部份相加，因而形成一個矩陣，矩陣內的係數為其相對位置所代表頻率的振幅，左上角為低頻係數，越往右下角頻率越高，其重要性越低，最左上角由於其水平頻率和垂直頻率皆為 0，故稱為直流項(Direct Current，DC)，其餘 63 個稱為交流項(Alternate Current，AC)，如圖 3-6 所示。. 8 DC. 低頻中頻. 8. 高頻圖 3-6 二維基頻影像頻率分佈圖. 3.6.2 特徵抽取與統計分析我們定義一個辨認特徵抽取的範圍，以 8 × 8 當作一個區塊(block)，且每一個區塊並不重疊，如圖 3-7 區塊分割示意圖。. 46.

(58) 8. 8. 圖 3-7 區塊分割示意圖. 對整張影像作特徵抽取，每一個區塊將會被以 YCbCr 4:2:0 的格式進行離散餘弦轉換。經過離散餘弦轉換後，我們得到每個區塊的 DC 與 AC 係數，如圖 3-8 所示。. DC Y0. AC Y1. AC Y5. AC Y6. AC Y14. AC Y15. AC Y27. AC Y28. AC Y2. AC Y4. AC Y7. AC Y13. AC Y16. AC Y26. AC Y29. AC Y42. AC Y3. AC Y8. AC Y12. AC Y17. AC Y25. AC Y30. AC Y41. AC Y43. AC Y9. AC Y11. AC Y18. AC Y24. AC Y31. AC Y40. AC Y44. AC Y53. AC Y10. AC Y19. AC Y23. AC Y32. AC Y39. AC Y45. AC Y52. AC Y54. AC Y20. AC Y22. AC Y33. AC Y38. AC Y46. AC Y51. AC Y55. AC Y60. AC Y21. AC Y34. AC Y37. AC Y47. AC Y50. AC Y56. AC Y59. AC Y61. AC Y35. AC Y36. AC Y48. AC Y49. AC Y57. AC Y58. AC Y62. AC Y63. 圖 3-8 Zig-Zag 掃描次序我們利用圖 3-8 的 Zig-Zag 掃描次序來讀取 DCT 係數，當影像經過 DCT 轉換後有能量聚集的現象，也就是說低頻率的 DCT 係數會集中在左上角，畢竟在一張影像上，低頻紋理佔大宗。由於人眼對於係數值較大的低頻部分較敏感， 47.

(59) 而對於係數值較小的高頻部分較不敏感。所以我們取出亮度 Y 的 DC 與 AC 值作為辨認的特徵。由於越往後的 AC 值代表的是越高頻的成分，跟前面的 DC 與 AC 值比起來更像是雜訊，不適合用來當分類依據的特徵。因此為了降低計算量與辨認效能起見，本系統在一個亮度的區塊取出 DC 值與前三個 AC 值，共四個特徵。假設影像區域共有 256 個區塊，則總共可以取出 1024 個特徵值。將這些特徵值串成辨認的特徵向量 F，如圖 3-9。其中 f i 表示特徵值，i 表示維度，一張影像的最原始被抽出的特徵向量長度為 1024 維。. 圖 3-9 特徵向量示意圖. 接下來是特徵的統計分析，由於支持向量機的長處在於將兩個類別的特徵映射到高維度後，線性切割以辨認出兩個類別。所以我們先計算每個類別每個特徵維度的平均值，共有 25 種類別。. 統計出第 1 類別之第 1 個維度的平均值 11 ，統計出第 1 類別之第 2 個維度的平均值 12 ，類推到第 1 類第 1024 維的平均值 11024 。統計出第 2 類別之第 1 個維度的平均值  21 ，統計出第 2 類別之第 2 個維度的平均值  22 ，類推到第 2 類 1024 。其中第 1024 維的平均值 21024 。同理類推到第 25 類的第 1024 維的平均值 25.  ij 的 μ 代表平均值，i 代表維度，j 代表類別。. 計算完平均值後接著計算每個類別之特徵維度的變異數。統計出第 1 類別之第 1 個維度的變異數 11 ，統計出第 1 類別之第 2 個維度的變異數 12 ，類推到第 1 類第 1024 維的變異數 11024 。統計出第 2 類別之第 1 個維度的變異數 21 ，統 48.

(60) 計出第 2 類別之第 2 個維度的變異數 22，類推到第 2 類第 1024 維的變異數 21024。 1024 同理類推到第 25 類的第 1024 維的變異數 25 。其中 ij 的 ν 代表變異數，i 代表. 維度，j 代表類別。ν 代表變異數(variations)。. 當我們有了平均值與變異數後，計算同一個維度對不同類別之間的差異。利用算出的平均值來計算差異值。計算出來的差異值越大表示兩類間差別越大。 d mk ,n 表示平均值相減的平方。我們會得到(25×24) / 2 = 300 個不同兩類間差異的 d 向量，如圖 3-10 所示。其中 k 表示所屬的特徵維度，下標的兩個數字 m、 n 表示所要分類的兩個類別。其中 d 的計算方式由(3-8)式得到：. d mk ,n  ( mk  nk ) 2 , for k  1,...1024 1  m,n  25, m  n. 49. (3-8).

(61) 圖 3-10 兩兩之間平均值差異的平方的向量示意圖. 計算完 d mk ,n 後，就可以利用剛剛產生的 d mk ,n 與之前計算的變異數來計算可以用來區別兩類的特徵區別值 ω，如圖 3-11 所示。計算方法如(3-9)式。根據公式來看，若是同類之間的變異數越小，表示兩類之間自己與自己類越相像。而兩類間的 d mk ,n 越大就表示這兩類越不像。因此，若是所計算出來的 ω 值越大，表示這個值越可以區分出這兩類，這個特徵越重要。.  mk , n  d mk , n /( mk   nk ), for k  1,...1024 1  m ,n  25, m  n. 50. (3-9).

(62) 圖 3-11 兩兩之間特徵區別值的向量示意圖. 計算完兩類與兩類之間的特徵區別值 ω 後，我們就可以知道針對不同的兩個類別，哪一個特徵維度的特徵值是對於分辨這兩類有幫助的，值越大表示對於分類越有利。經過排序後我們就可以知道，如圖 3-12，使用哪幾個特徵維度是這兩類的最佳分類，其流程如圖 3-13 所示。由於是兩類與兩類之間的分類，針對不同的兩個類別取相對應此兩類的最佳分類特徵維度的做法就會比一般將所有類別一起訓練出一個分類模型的分類效果來的好，而且可以用到更少的特徵。取多少特徵維度來進行分類則是取決於當初訓練時最佳的分類結果是落在哪一個維度。若都很好時則取最少維度以減低計算量。. 51.

(63) 圖 3-12 特徵維度排序. 圖 3-13 特徵維度選擇流程. 3.7 使用支持向量機作為分類核心系統 3.7.1 支持向量機簡介支持向量機是 1998 年以統計理論為基礎所提出的機器學習理論，有別於傳. 52.

(64) 統的類神經網路的經驗之風險最小化(Empirical Risk Minimization Principle， ERM)，而是一種結構風險最小化原理(Structural Risk Minimization Principle， SRM) 的統計學習理論，用於分類與迴歸的問題。 SRM 使 VC(Vapnik Cherovnenkis) 維度數上限最小化，這使得支持向量機的方法比使用類神經網路具有更好的泛化能力。此外支持向量機的一般化錯誤與其它機器學習的方法不同在於：支持向量機的一般化錯誤與資料的維度無關，而是視不同類別資料之間分離的程度而定，因此只要資料的分離程度越好，則支持向量機的分類效果也越好，這也證明了支持向量機在處理大量資料時，能達到很好的分辨能力。. 支持向量機的分辨效果與資料間的分離程度有很大的關係，而支持向量機是利用最佳分類平面(optimal separating hyperplane)將資料分成兩個部份，因此最佳分類平面可以用(3-10)式來表示，而此時所有的分類就可以用(3-11)式來表示。. w x  b  0. y i ( w  xi  b )  1. i  1,2,..., N. (3-10). (3-11). 其中 w 表示權重向量 weight vector，維度與資料的維度相同，b 表示偏移量（bias），偏移量的目的是使最佳分類面水平移動後能落在空間中的正確位置，因此偏移量是在權重向量訓練完成後才決定。支持向量機應用在分類時，是把最佳分類面視為一個決策函數(decision function)如(3-12)式：. f ( x)  sgn( w  x  b). (3-12). 當一個未知的資料 x 代入此決策函數後，所得到只有{+1,-1}兩種結果，若 53.

(65) 以+1 代表資料屬於正的一類，-1 代表資料屬於負的一類，因此所有的資料均可被分為 ‘‘正’’與 ‘‘負’’兩個類別。. 分類面之參數是由所有的訓練資料決定，而測試資料是藉由最佳分類面來將區隔分成兩部分，因此可以輕易的被分類。在支持向量機的定義中，一個好的分類面必須使得兩個類別分得越開越好，如圖 3-14 所示。. 圖 3-14 分類面示意圖. 左圖與右圖中的實線都能夠將兩類分開，但因右圖能夠把兩群資料分的最開，因此可說是最佳的分類面，而正負兩類最接近分類面的資料點被稱為支持向量(Support Vectors)，因此這些支持向量決定了分類面。正負兩個類別與分類面間的最短矩離稱為間距(Margin)，間距的大小相當於不同類別資料間分離的程度，因此支持向量機是一種間距最大化(Margin Maximization)的分類器。. 支持向量機使用超平面做分類，但是實際上資料分佈的情況有很多，因此我們大致上把支持向量機分為三種不同的情形來介紹： . 線性可分離(Linearly Separable) 54.

(66) . 線性不可分離(Linearly Non-Separable). . 非線性可分離(Nonlinearly Separable). 3.7.1.1 線性可分離線性可分離是假設分類面可以將兩類的資料完全分開，即不同類別並沒有互相重疊的部份，此距離可以用(3-13)式來表示：. d ( x, w, b) . w x  b w. (3-13). 一般來說，要符合線性可分離的情況，通常是假設所有的訓練資料與分類面的距離不會小於 1，因此要使分類間距最大化，則必須使分母的 w 最小化，根據 Lagrange 理論引入 Lagrange 乘子(Lagrange multiplier)  i，和 Lagrange 函數 Ld ( ) 和 Kuhn-Tucker 條件的補充可得到(3-14)式：. N. Ld ( )    i  i 1. 1 N N  i j yi y j ( xi  x j ) 2 i 1 j 1. (3-14). N. 在約束條件(constraint)  i yi  0 且  i  0 之下，滿足條件的輸入向量便稱為支持 i 1. 向量，經由訓練後便可得到 Lagrange 乘子與偏移量。. 3.7.1.2 線性不可分離線性可分離是描述所有的資料都沒有落在間距內的情形，但在實際上，資料有可能會落在空間上的任何一個位置，因此很難使兩群不同的類別的資料完全分離，所以加入了間隔鬆弛變量（Margin Slack Variable） i , i  1,2,..., N ，目 55.

(67) 的是加入 slack variable 後，能使得所有的資料都能落在間距之外，所以 slack variable 可視為資料的分佈狀況，當 slack variable 的總和越小，代表資料越符合支持向量機的準則；當 slack variable 的總和越大，代表我們需要對資料作越大的調整，才能使所有的資料都符合分離的情況，因此 slack variable 的總和越小越好。以物理意義來說，當資料分佈與正確位置間的錯誤小於 slack variable 時，則原本的式子可表示成(3-15)式，而最佳分類面可表示成(3-16)式。. yi ( w  xi  b)  1   i , i  1,2,..., n. j ( w,  i ) . (3-15). n 1 2 w  C  i 2 i 1. (3-16). 其中 C 是一個衡量訓練錯誤，代表當 C 越大時，支持向量機的模型對於錯誤就越敏感，反之當 C 越小時，間距最大化的重要性也就越大，所以 Lagrange 函數為成(3-17)式：. N. Ld ( )    i  i 1. 1 N N   i j yi y j ( xi  x j ) 2 i 1 j 1. 0  i  C ,. N.  y i 1. i. i. 0. (3-17). 求解 Lagrage 函數（Lagrangian） Ld ( ) 之最大值就可以得到最佳分類平面（Optimal Separating Hyperplane）。. 3.7.1.3 非線性可分離然而有很多情況，支持向量機的線性分離限制對於原始維度的資料而言是過於嚴格的，因此若當兩類資料重疊的情形很嚴重，以致不能很容易用最佳分類面將資料分類，所以在尋找最佳分類面之參數前，可以先將資料利用φ函數(3-18). 56.

(68) 式，將原本的空間投影到某個高維的空間：. x   ( x). (3-18). 此高維空間稱做特徵空間，所有原始的資料投影到特徵空間後，如圖 3-15，能改善原本不同類別的資料分佈重疊的情況，因此能將類別與類別間分離，然後再取得最佳化平面的最佳化參數值。. 圖 3-15 kernel function 示意圖. 而這些核函數比較著名的有下列公式(3-19)、(3-20)、(3-21)、(3-22)： Linear kernel function：. K ( xi , x j )  xi  x j. Polynomial kernel function：. 57. (3-19).

(69) K ( xi , x j )  (xi  x j   ) d. (3-20). RFB kernel function：.      K xi , x j  exp   xi  x j . . . . . 2.   . (3-21). Signoid kernel function：. K ( xi , x j )  tanh(xi  x j   ). (3-22). 其中的 d、γ 與  皆為常數參數值。. .  . . . .    . 支持向量機理論只考慮高維特徵空間的內積運算 K xi , x j   xi   x j ，而不直接使用函數  ，從而巧妙地解決了因  未知而 W 無法顯示表達的問題，. .  . . 稱 K xi , x j 為核函數。經由文獻証明，只要滿足 Mercer 條件的對稱函數即可作為核函數。. 對於兩類問題分類，存在線性可分和線性不可分的兩種支持向量機。但是在實際中，為了將兩類模式盡可能分類開來，一般都要構造非線性可分的分類器。然而一個複雜的模式識別分類問題，在高維空間比低維空間更容易線性可分，支持向量機就是首先透過核函數把訓練樣本中的低維數據映射到高維特徵空間，然後在高維特徵空間構造一個最佳分類平面。由於構造的核函數滿足 Mercer 條件，所以在訓練中只需考慮核函數 K，而不必明確知道映射函數  。. 58.

(70) 從此可以看出：當我們樣本空間通過非線性映射映入特徵空間時，如果只用映射內積，則可以用相對應的核函數來代替，而不需要知道映射的顯示表述式。這是從線性支持向量機到非線性支持向量機的關鍵一步。. 在特徵空間 F 中應用線性支援向量機的方法，分類決策函數式變為(3-23)式：. y  Sgn( w   ( x)  b)  Sgn(.  y (( x)( x))  b) i i. sv. (3-23). 這就是非線性支援向量學習機的最終分類決策函數。雖然用到了特徵空間及非線性映射，但實際計算中並不需要知道他們的顯示表述。只需求出支持向量及其支持的 α 和 b 值，通過核函數的計算，即可得到原來樣本空間的非線性輸出值，如(3-24)式與(3-25)式。. . n. i 1. j 1. y ( x )    i  i  i ( x )  b    j yj K ( x , xj )  b. n. .   y ( x )  ( , i i. i. 1. 2 , , i , ). (3-24). (3-25). i 1. 3.7.2 Ringing Artifacts 偵測解決分類處理的問題，我們是採用一對一(One-Against-One)的方法，此方法是將每一類之間兩兩相比較，因此如果有 25 個類別，支持向量機會訓練出 C225 個 hyper-plane，如圖 3-16 所示。. 59.