利用分頻轉換編碼與類神經網路之影像壓縮
*劉仁俊
國立屏東商業技術學院電腦與通訊系
renjean@npic.edu.tw摘 要
本文提出利用影像轉換編碼之離散餘弦 轉換分頻處理,搭配 Kohonen 自組織特徵映 射的方法,來進行靜態影像的資料壓縮。使 用影像轉換編碼的目的為擷取出輸入影像在 頻域中的特徵;而分頻的過程是將此轉換結 果的直流與交流係數區隔開來。直流之係數 可直接傳輸或儲存;交流之係數可利用低通 濾波器來完成初步的壓縮,並用來做神經網 路之訓練樣本,如此可大幅減輕訓練之負 擔,並提高信號雜訊比。向量量化被用在需 求高壓縮比的環境中,自組織特徵映射可用 來產生向量量化所需要的編碼簿,此方法的 優點在於能夠產生順序之編碼簿以保留其位 置排列之特性,並能顯著地降低編碼簿的空 間維度使壓縮能夠更有效率。高壓縮比以及 優異的重整品質是本文的最終目的,產出之 結果無論在通訊、資料壓縮、多媒體和網路 等應用方面都會有重要貢獻。
關鍵詞:自組織特徵映射、離散餘弦轉換、
影像壓縮、類神經網路、向量量化 一、緒論
隨著通訊系統搭配多媒體時代的來臨,
數位系統被大量的運用,所使用的資料量特 別是影像也急速增加,在資料儲存與傳輸的 處理上常形成瓶頸,為降低資料的處理量,
影像壓縮成為一個重要的課題[1][2],在許多 重要的場合有著關鍵作用,包括文件、醫學 影像、衛星影像、氣候探測、傳真、通訊系 統、以及在軍事與太空等應用。此外,影像 壓縮是目前增加影像感測器空間解析度及制
*本研究由國科會計畫 NSC95-2221-E-251-002 補助
定廣播電視標準的當然過程,無論是在印 刷、出版、視訊會議和傳播等的應用上,均 為多媒體處理技術的關鍵,其有效的管理、
控制、儲存與傳輸等的相關應用都在與日俱 增。
資 料 壓 縮 又 稱 為 源 編 碼 (Source cod- ing) ,目的在於加速傳輸速度,降低儲存所 需的空間,使其能提昇影像處理、傳輸和儲 存的效能。方式大致可分成兩類:非失真 (Lossless)編碼和失真(Lossy)編碼。非失真壓 縮編碼能保留影像之原始資訊,倘若忽略小 數點的誤差,在還原後能得到與原始完全一 樣的影像。失真壓縮編碼則是由於壓縮還原 後的影像與原始影像有所差異,但此方法之 壓縮效率極高,故衡量不同壓縮方式優劣的 重點是在於如何訂定一個標準,以及判斷被 壓縮的程度。一般若以人類的視覺為基準則 為主觀標準,此種方式乃嘗試各種不同的壓 縮比,歸納其在人眼中可感受的壓縮後影像 品質為準而定出壓縮程度。理論研究上,則 是計算出原影像和壓縮後影像間誤差,以此 誤差的能量大小做為一參考標準,此方式則 較為客觀。本計劃將利用一套客觀之標準來 衡量執行之成效[3]。主要是以信號雜訊比和 壓縮比來做為衡量的依據。
資 料 壓 縮 的 過 程 中 , 影 像 轉 換 編 碼 (Transform coding)通常是第一步驟。其方法 是將原始訊號轉換成另一種表示法,這個表 示法可以經由逆轉換(Inverse transform)恢復 成原始的訊號。而轉換後的能量較原始訊號 更為集中,且是集中在相當少的轉換係數 上 , 若 是 除 去 原 始 資 料 的 重 覆 多 餘 性 (Redundancy),便能利用此集中的能量對影像 資料做壓縮與編碼。此過程也常在影像處理
中用來作特徵擷取。此外影像轉換編碼可作 為向量量化(Vector quantization, VQ)的前處 理,目的是擷取原始輸入影像的特徵、降低 向量量化的維度(Dimension)以及減少運算上 的複雜度。
現今最常用的影像轉換編碼方法有離散 傅 立 葉 轉 換 (DFT) 、 離 散 餘 弦 轉 換 (DCT) [4]-[9]、和離散小波轉換(DWT)等[10][11]。
本文選擇以 DCT 作為主要的影像轉換編 碼,原因在於其計算上的快速和簡易性。
向量量化[12]-[15]是一種在編碼端將 n 維的輸入資料壓縮成 m 維(m ≤ n)的編碼輸 出,解碼端部份則又將 m 維的編碼資料恢復 成 n 維原始資料的壓縮技術。因此,向量量 化在影像處理及訊號處理的應用上,可以得 到較佳的壓縮比率,並維持不錯的重建品質。
向量量化的輸入資料為多維度的向量,目的 是在編碼簿(Codebook)中搜尋較為相近似的 預 設 向 量 , 即 碼 字 (Code-Words) 或 碼 向 量 (Code Vector),替代原始的輸入向量,而量化 後 的 輸 出 則 為 碼 字 在 編 碼 簿 中 的 索 引 (Index);因此,原本多維度的輸入向量將被 簡化為一維或二維的量化輸出索引值,達到 簡化編碼和壓縮資料量的目的,這亦是不同 於純量編碼之處。向量編碼的關鍵在於編碼 簿的好壞,這牽涉到編碼簿本身的大小、碼 向量的維度以及編碼簿中碼向量的通用性,
而讓編碼簿具有較佳分類碼向量一直是最終 的目標。因此,其研究的重點和可能改進之 處不外乎能夠快速搜尋的向量量化、碼向量 索引值的壓縮編碼以及混合型式的向量量化 這幾個方向。
類神經網路(Artificial Neural Networks,
ANN)[16]-[18]的發展提供了向量量化一個非 常有效的工具,並能增進編碼簿的能力與強 健性(Robustness)。不同於以上之方法,類神 經網路是以模擬人腦思維的模式所發展的理 論,具有強大的學習 (Learning)、容錯(Fault Tolerance)、平行處理(Parallel Processing)和聯 想記憶(Associative Memory)等能力,可廣泛
地應用在不同的領域當中,例如影像處理、
信號處理、型態識別、系統鑑別、及非線性 系統最佳化等,經多年的驗證都有不錯的成 果產生。
一 般 的 類 神 經 網 路 是 由 多 個 神 經 元 (Neurons)組成,輸入資料在乘上連接權值後 經過一非線性之轉換函數而得到單層之輸 出,並以層層相連的方式,如輸入層、隱藏 層及輸出層等串接組成一網路架構。在神經 生理學研究發現,人腦由巨量的神經細胞組 成,但並非所有的神經細胞都起同樣的作 用;不同空間區域的神經細胞分工有所不 同,各區域對應不同的外部刺激;相似的外 部刺激在大腦的相鄰近位置上會引起最大的 響應,因此輸出神經元之間發生空間藕合,
產生了交互作用。據此,Kohonen 於 1980 年[19]提出了另一種類神經網路的架構,稱之 為自組織特徵映射(Self-Organization Feature Map;簡稱為 SOFM 或 SOM),來模擬前述 人腦的相鄰神經細胞間的藕合功能。
SOM 具有「物以類聚」的特性,各神經 元間會相互影響,以競爭性學習(Competitive Learning) 的 方 法 和 優 勝 者 激 發 (Winner-Take-All)的模式來決定網路中各神 經元的狀態。訓練的過程中,輸出層具有網 路拓樸(Topology),鄰近區域(Neighborhood) 的輸出神經元間會相互影響;在學習完畢 後,其輸出神經元相鄰近者會具有相似的響 應,也具有相似的連結權值。鄰近區域間交 互作用的關係,以網路拓樸決定鄰近區域的 神經元方向位置,而優勝神經元鄰近的其他 神經元,則依「物以類聚」的特性與優勝神 經元同時做移動,以達到分類的目的。SOM 是 採 用 無 監 督 式 學 習 (Unsupervised Neural Network)的網路模式,從原始輸入資料中取 得訓練範例,而從中學習範例的內在聚類 (Clustering)規則,以應用於其他的問題。因 此在訓練完成之後,能對全新的輸入變數推 論或分類它與那些訓練範例隸屬於同一聚 類,極為適合在聚類分析和形體識別的應用
上。因而利用 SOM 類神經網路作分類的最大 優點之一是不需事先知道輸入原始資料中特 徵歸屬(Membership)的情況。在向量量化問 題的應用上此點是相當重要的,不僅對不同 的輸入資料能有正規化(Generalization)的效 果,且能對量化後的空間維度作彈性的分配 與調整。
雖然在應用 DCT 和類神經網路等方法 於影像壓縮已有許多之探討[20]-[23],本文主 要之貢獻與新創之部分在於結合各方法之優 點,形成一套整合型之處理過程;此外加入 分頻處理的觀念,能更細緻的分析影像的內 容。針對轉換後特徵顯著的部分保留較完整 的訊息,以提昇處理之品質;而其他部份則 做較高幅度之壓縮,以提高壓縮比,並改善 系統之效率。因而本研究在品質不變的前提 下,能有效提高資料傳輸之速度並降低資料 儲存所須之空間。
二、系統架構
本研究所提出之整合式分頻 DCT 和以 SOM 做向量量化架構下的失真壓縮流程如 圖 1 所示。
主要分成幾個部份。第一部份是前處 理,包含影像向量或區塊化、DCT 與低通濾 波器。影像向量化是把影像分割為固定大小 的區塊,並針對每一區塊做個別處理,以降 低運算之複雜度,這個過程一般稱之為向量
化(Vectorization),而 DCT 則是將向量化後的 影像方塊進行轉換,以得到影像方塊的頻域 資訊,這些頻域資訊在經過分頻與低通濾波 的處理才完成初步的資料簡化;上述步驟我 們統稱為前處理(Preprocessing)。第二個部份 則是依據 SOM 的訓練結果來完成向量量 化,編碼簿和碼向量索引即是在這個階段產 生。第一個部份與第二個部份是屬於編碼端 的運作範圍,也是整個壓縮過程的核心。後 面的步驟則屬於解碼端的運作範圍。第三個 部份則是在解碼端搜尋接收之索引所對應的 碼向量;第四個部份則將替代的碼向量作 DCT 之逆轉換,並加以重組來恢復原始影像。
在使用 DWT 分頻的方法時,整套系統 流程與圖一相似,只要將圖中 DCT 與 IDCT 改成 DWT 與 IDWT 即可。另外在分頻處理 上不若 DCT 僅分為 DC 與 AC,DWT 在頻率 上的解析度極高,可將細節(Detail)和近似 (Approximation)的部份分別採用不同的編碼 簿來處理,以供傳輸與儲存用途;重建時再 將其結合即可。
以下將就上述步驟做詳細說明。
三、離散餘弦轉換
假設原始輸入影像之大小為 M×M,為降 低影像在處理上的複雜度,並提高普及化之 特性,可先將原始影像分割成等大小且不重 疊的影像方塊,假設每個影像方塊有 N×N 個 像素(Pixel),則每一個影像方塊可視為向量 維度為 N×N 的影像向量,這個過程我們稱之 為向量化(Vectorization)。之後,每個向量都
DCT
AC DC
α
編碼簿
碼向量 索引
原始
影像
影像向量化 離散餘
弦轉換 分頻編碼
SOM
碼向量 IDCT
DC
索引AC
α
影像向量重組 逆離散
解碼
餘弦轉換 碼向量
重建 影像
低通 濾波器
傳輸或儲存媒介
圖 1 利用 Sub-band DCT 與 SOM 影像壓縮與重建之架構流程圖。
要經過離散餘弦轉換(DCT),轉換的目的是將 原訊號取樣間之相關性打散,使訊號的能量 能重新分佈而且只集中在少數幾個轉換後的 係數當中,如此許多係數在量化後將為 0 或 趨近於 0,故可予以忽略。
DCT 在影像處理的應用上,一個大小為 N × N 之影像方塊 f(x, y)其二維的 DCT 轉換 之定義為:
( ) ( ) ( ) ( )
( ) ( )
⎥⎦⎤
⎢⎣⎡ +
⎥⎦⎤
⎢⎣⎡ +
⋅
=
∑∑
−=
−
=
N v y N
u x
y x f v
u v
u C
N
x N
y
2 1 cos 2
2 1 cos 2
, ,
1
0 1
0
π π
α α
(1)
式中α之定義為
( ) ( )
1 ,
2 , 1 ,
0 , 2
1
, = −
=
⎪⎪
⎩
⎪⎪⎨
⎧
= u v N
v u N
v N
u α L
α (2)
DCT 轉換為一可逆之線性轉換,而其二維的 反轉換 IDCT 為
( ) ( ) ( ) ( )
( ) ( )
⎥⎦⎤
⎢⎣⎡ +
⎥⎦⎤
⎢⎣⎡ +
⋅
=
∑∑
−=
−
=
N v y N
u x
v u C v u y
x f
N
u N
v
2 1 cos 2
2 1 cos 2
, ,
1
0 1
0
π π
α α
(3)
DCT 和離散傅利葉轉換(DFT)一樣,都 有快速演算的法則可供使用,但是 DCT 只需 作實數運算,DFT 則包含了實數與虛數的運 算。且 DCT 在資訊集中的能力上,提供較佳 的表達方式,故大多數的轉換編碼系統是以 DCT 為主,被認為是數位語音影像與信號處 理的最佳工具之一。
在分頻編碼法(Sub-Band Coding,SBC) [24]-[26]裡,輸入訊號經由轉換被分離出幾個 不同的訊號,每個訊號各自包含於有限範圍 的頻率、頻譜。我們就稱這些訊號為次頻帶 (Sub-Band)訊號。每一個次頻帶可以被分開個 別做編碼的工作。以 DCT 編碼的觀念也與分 頻編碼類似,只不過它的每一個次頻帶只含 單一頻率,即是該頻率之基底函數以相對應 之轉換係數加權後的結果。採用 SBC 的優點 在於依照每個次頻帶而使用不同數量的位元 數,故每個次頻帶的量化係數及重建誤差就 可分別控制,因此重建誤差的頻譜形狀可以 控制成頻率的函數。依此推論,我們可以依 據每個次頻帶的特性使用不同的編碼方法。
在比較低頻的次頻帶中,因為它含有原訊號
的大部份能量,因此我們可以使用較高的位 元率來編碼;一般在最低頻的次頻帶,使用 無失真編碼法即可完整重建該次頻帶。至於 高頻的次頻帶,它所含的能量很少,因此可 以使用低位元率做編碼,為較粗糙的壓縮編 碼方式。
基於二維 DCT 轉換後具有分離高低頻 能量的特性,以 8×8 的方塊為例,其頻域由 低頻至高頻的排列方式如圖 2 表示。左上角 0 的位置,一般稱為直流係數(DC);1 至 63 稱為交流係數(AC);由 0 至 63 依序排列方 式,呈鋸齒狀(Zig-Zag)或"之"型排列。
以 DCT 轉換後的結果來觀察,大部分影 像方塊約有 80%以上的能量是集中在 DC 部 分,為避免較高的失真,可把 DC 直流係數 直接編碼後傳遞出去或儲存起來,而 AC 交 流係數則被用來作進一步的處理。因直接傳 送 DC 的數值在過程上會造成嚴重負擔,故 Cham[27]提出一種方法來已 AC 值估算 DC 值,使 DC 值完全不用送出,大幅降低了 BPP(Bit per pixel),故本方法亦將於本計劃中 做驗證。
0 1 5 6 14 15 27 28 2 4 7 13 16 26 29 42 3 8 12 17 25 30 41 43 9 11 18 24 31 40 44 53 10 19 23 32 39 45 52 54 20 22 33 38 46 51 55 60 21 34 37 47 50 56 59 61 35 36 48 49 57 58 62 63 圖 2 空間頻率係數排列順序。
此外再就 AC 之係數觀察,影像大部份 的資訊、特徵和能量集中在係數矩陣的左上 角即低頻部分,而較少的影像特徵是分散在 高頻的部分;故就影像壓縮而言,當我們著 重於影像的重建品質時,可保留較多的高頻 係數以獲得較多的影像特徵和資訊;若著重 的是壓縮比率,則需保留最少的低頻係數做 為重建端的影像訊息來源。保留係數的方法 只需以一低通濾波器即可完成。利用低通濾 波器不僅能控制被保留係數的數量,又能減 低影像向量的維度,以利於降低向量量化搜 尋空間的複雜度,並增加編碼簿的分類能力。
四、 SOM 與向量量化編碼
SOM 類神經網路的基本架構不同於傳 統的類神經網路架構,它只需要輸入層與輸 出層的結構,如圖 3 所示。輸入層即為訓練 樣本的輸入向量,其神經元數目依各問題輸 入 特 徵 向 量 而 不 同 ; 輸 出 層 則 代 表 聚 類 (Clustering),其神經元數目則可依所期望之 輸出種類來決定。對於影像的向量量化而 言,輸入向量為影像向量或特徵向量,而經 訓練之後輸出層聚類的結果即形成編碼簿,
每一個輸出神經元所代表的就是編碼簿中的 碼向量索引,而各神經元所對應之碼向量即 為連結權值。
圖 3 SOM 類神經網路的網路架構 SOM 是採取非監督式的學習演算法,將 高維度的輸入向量映射至一維或二維的輸出 神經元陣列,針對各輸入向量不需事先確定 所求的分類輸出結果,由神經網路自身對輸 入資料作出綜合、歸納和統計,調整各神經 元間的連結權值,使網路自適應地發展成為 對不同輸入信號模式作出特殊的響應。網路 拓樸是指輸出神經元的排列方式,一般大多 採二維的矩形或六角形輸出模式。SOM 的輸 出層神經元間相對位置具有相互影響的意義 存在,對於不同的拓樸型式會有不同的分類 結果。我們可以將輸入向量視為 n 維的影像 向量,映射至一至二維的輸出神經元陣列,
藉由這個映射的動作,將原本存在於訓練樣 本輸入向量之間的相對距離關係,能保留在 輸出神經元之間。簡單地說,彼此相鄰近的 輸入向量,透過權值的學習,使得輸出神經 元之間保有拓樸特性,映射在 SOM 的網路拓 樸上。依此精神,其演算學習的法則首先是 初始連結權值,即初始編碼簿,以隨機的方 式建構我們所需要的 VQ 編碼簿。而決定優 勝神經元的方法是計算輸入與權值間最近的 歐基里德距離(Euclidean Distance),即
{
i}
c i x w
w
x− =min − (4) 式中 x 為輸入向量,wi為輸出神經元 i 的權 值向量,wc為勝利神經元 c 的權值向量,符 號∥•∥則代表歐基里德距離。權值的調整是 根據勝利神經元所在的位置來決定,若將輸 入向量與權值向量都當成時間的函數,則
( )t i( )t hci( ) ( )t [ t i( )t ]
i w x w
w
+1 = + ⋅ −
(5) 式中,hci(t)為勝利神經元鄰近區域的函數,是控制鄰近區域大小與鄰近距離關係式的函 數,我們選擇高斯函數為基礎,使不同的鄰 近距離會有不同的調整比重,其表示式為
( ) ( ) ⎟⎟⎠
⎞
⎜⎜
⎝
⎛ −
−
⋅
= t
r t r
hci c 2 i
2
exp 2
α σ (6) 式中,α(t)為學習速率(Learning Rate),α(t) 與σ(t)均是隨時間遞減的函數,所以鄰近距離 將愈縮愈小以使各個類別更為聚集。
網路拓樸使得 SOM 之輸入特徵向量若 彼此間近似程度較高,那麼其映射在輸出層 之間的距離也較為接近。因此 SOM 在保持拓 樸關係的前提下實現輸入空間的維數壓縮,
完成類似於向量量化的功能。事實上,利用 Kohonen 的 SOM 可以構成一個向量量化 器,其輸出便是向量量化,也就是聚類的結 果,而輸出神經元的權值,則構成了 VQ 的 編碼簿。
對於 SOM 類神經網路所構成的 VQ 編 碼簿,與 LBG 向量量化演算法相較,SOM 類神經網路的編碼效率較佳。另外,SOM 類 神經網路還具有收斂特性,不易受初始編碼 簿的影響,生成的 VQ 編碼簿結構性強而且 相對於訓練樣本集有較好的通用性之優點。
五、影像重建與效能評估
在 SOM 訓練完成之後所產生的編碼簿 需預先儲存在資料庫中以便解碼時能夠使 用。在影像重建時需先將所接收之碼索引還 原成 AC 碼向量,再將 DC 值對應回原先的 AC 碼向量,之後經過逆 DCT 轉換就能產生 原始影像的近似重建。
失真壓縮的編碼法允許重建信號或影像 有些許差異,藉以換取比無失真壓縮編碼法 更低的位元率與資料率。假設原始信號為 f(x, y)而重建信號為 g(x, y),則重建信號的失真度 或誤差可以用 e(x, y)表示,即
) , ( ) , ( ) ,
(x y f x y g x y
e = − (7)
連結權值
輸出層: 代表聚類 (二維矩形拓樸座標)
拓樸座標 x軸
拓樸座標 y軸
輸入層:輸入向量
標準差(Standard Deviation)的定義是為
[ ]
{
( ) e 2}
e E e t μ
σ = − (8) 式中μe為誤差平均值,一般是為 0。σe又稱 為均方根誤差(RMSE)。對編碼信號重建品質 的 客 觀 評 量 常 是 用 信 號 雜 訊 比 (Signal-to-Noise Ratio,SNR),以原始信號的 方差σx2對重建誤差方差σe2的比值取對 數 值,即
( )
⎟⎟
⎠
⎜⎜ ⎞
⎝
= 10 log ⎛
22dB
SNR
e
σx
σ (9) 而影像幅度的平均值通常為非零的正數,為 避免計算上的負擔,如果輸入影像是以 8 個 位元來表示,則最大的幅度值 xmax=255,可 用來代替式(9)中的σx,所得到之結果稱之為 峰值雜訊比(PSNR),即
( )
⎟⎟
⎠
⎜⎜ ⎞
⎝
= ⎛ 255
22log 10 dB PSNR
σ
e (10) 信號雜訊比之目的主要在觀察重建品 質,具有客觀之標準;在壓縮比上也應採用 一套標準來評估效能。最常使用的方式為計 算每個像素所需要的位元,即所謂的 bpp(Bits per pixel)。在結果檢討時,可以固定 bpp 的 方法來比較重建品質 PSNR,或固定 PSNR 來比較壓縮比 bpp。六、模擬結果
為驗證本研究之適用性,我們初步先以 兩張影像 Lena 和 Building 作為模擬示範,採 用 DCT 的分頻方法。原始影像之大小為 512×512,若將其切割成每個有 4×4 大小的影 像方塊,則共有 128×128 個方塊。若分別對 這兩張影像的所有小方塊做 DCT 轉換,再對 轉換後之係數予以低通濾波,藉以將影像的 高低頻資訊分離出來,擷取影像的特徵,並 減低影像向量的維度。為觀察此結果之特 性,針對低通濾波後所保留之係數,我們不 做 SOM 類神經網路分類而直接以 IDCT 逆轉 換來還原影像,可比較 PSNR 之效果。表 1 和表 2 為分別對 Lena 和 Building 保留 6 和 8 個 DCT 係數值的比較,我們分別以 DCT6 和 DCT8 來表示。當保留 6 或 8 個 DCT 係數時,
其還原之 PSNR 值仍可維持 34dB 以上的高重 建品質影像。由此可推得 DCT 影像轉換的效 率極高,原本影像向量維度是 4×4=16,只要 取 6 或 8 個維度即可,失真完全是在可以接
受的範圍之內。被保留的係數將做為 SOM 類 神經網路的輸入向量。
表 1 Lena 取不同 DCT 係數後還原之比較。
Low-Pass Filter
DCT6 DCT8 RMSE PSNR RMSE PSNR
4.2711 35.5201 2.8360 38.8381
單位:PSNR(dB)
表 2 Building 取不同 DCT 係數後還原之比 較。
Low-Pass Filter
DCT6 DCT8 RMSE PSNR RMSE PSNR
4.9887 34.1710 3.2334 37.9109
在 SOM 訓練樣本的選取上,主要採自類 型不同的影像特徵,目的在於產生通用的編 碼簿(Global Codebook),如此所得的編碼簿 才能保證各種影像都有平均水準的效率。在 編碼簿大小的選取上,我們選擇 128、256 及 512 大小的編碼簿作為模擬結果分析的依 據,意即分別需要 7、8 及 9 個位元來編所有 的碼向量,因此其位元率(Bits Per Pixel)分別 為 0.4375bpp、0.5bpp 及 0.5625bpp。
DCT 轉 換 後 保 留 之 係 數 是 直 接 送 至 SOM 做分類或向量量化的工作, DCT6 和 DCT8 對 SOM 各有 5 和 7 個輸入,我們選取 了 上 百 個 具 代 表 性 的 影 像 方 塊 來 訓 練 SOM,並建立編碼簿。由表 1 和表 2 的結果 得知,DCT6 與 DCT8 的 PSNR 差了 3.5dB 以上,但經 SOM 類神經網路壓縮測試的結 果,DCT6 與 DCT8 卻只剩下 1dB 左右的差 距,對於這樣的結果是非常令人振奮且值得 探討的。DCT8 包含了比 DCT6 較多的影像 資訊,所以其影像重建品質 PSNR 值應比 DCT6 來的高。由於在低通濾波器決定保留 多少個 DCT 係數值取捨之下,DCT6 比 DCT8 的向量維度低,對類神經網路於訓練生成編 碼簿時,可減低計算上的複雜度,強化所生 成編碼簿的結構性及提昇編碼簿的分類效 率;故為提昇 SOM 類神經網路系統的學習成
效,輸入向量的向量維度不宜過高。我們發 現若比較對神經網路的訓練與運算負擔,
DCT6 確實比 DCT8 更具優勢,且能提供編 碼簿較好的編碼效率。故在整個重建品質相 似的前提下,DCT6 應為較佳的選擇。本計 劃的執行將對更多相關的參數作探討,如不 同大小的影像方塊,輸入向量,以及編碼簿 等,以對其結果加以分析比較。
若加入分頻處理的過程則能得到更好的 結果。對 Lena 和 Building 模擬測試的結果分 別如表 3 和表 4 所示。利用分頻編碼的觀念,
將 DCT 轉換後的高低頻係數分離,針對轉換 後大部份影像特徵集中在 DC 係數值,所以 DC 係數值我們選擇不做任何處理,直接送至 解碼端;對於 AC 係數值,做向量量化處理,
同樣利用 SOM 類神經網路訓練生成 AC 編碼 簿。若同樣依照低通濾波保留序號在前面的 八個或六個轉換後之係數值,採取分頻編碼 的壓縮架構其重建品質可高出 1~3dB,主要 的原因在於我們選擇不對 DC 係數值做任何 處理的緣故。再者,保留相同的轉換係數值,
對採用分頻編碼的壓縮架構而言,其 SOM 類 神經網路的輸入向量維度因取出 DC 係數值 而少了一個維度,因此,SOM 類神經網路的 輸入向量維度減少,權值空間較為平滑,學 習與訓練過程的運算量與複雜度降低,所以 比較容易尋得最佳化的編碼簿,這也是本計 劃採用分頻編碼壓縮架構的目的。雖然位元 率提高了約 0.5 個 bpp,也就是說以保留 7、
8 及 9 個位元來編所有的碼向量,其位元率 分別為 0.9375bpp、1bpp 及 1.0625bpp。但以 此相似壓縮比的程度而言,單純使用 DCT 是 無法達到如此高的 PSNR。
此外如表 5 和表 6 選取 64、128、256 大 小的 AC 編碼簿,因權值空間變得比較平滑,
向量維度減低,在 128 與 256 大小的 AC 編 碼簿,其編碼簿以趨於收斂,相對的其影像 重建之 PSNR 值差異不大,使得我們可以選 取較小的 AC 編碼簿也能有較佳重建品質。
因此,雖然對於 DC 係數值不做處理會使得 壓縮比率增加,但我們卻可以較少的位元去 編碼 AC 編碼簿,兩相平衡之下,其整體的 壓縮比率並不會高出許多,而在解碼端因編 碼簿碼向量的個數變少,也能達到快速搜尋 的效果。
表 3 分頻重建 Lena 後之結果。
Figure Name
Codebook Size
Low-Pass Filter 6 8 PSNR PSNR SOM 256 26.4964 29.2003 SOM
with Sub-band
256 30.0530 31.3677
表 4 分頻重建 Building 後之結果 Figure
Name
Codebook Size
Low-Pass Filter 6 8 PSNR PSNR SOM 256 25.9524 27.0373 SOM
with Sub-band
256 29.3075 33.3410
圖 4 至圖 5 分別為 Lena 和 Building 在不 同狀況下之重建影像。圖 4 為使用 Kohonen 之 SOM 編碼,取 256 個 codeword 之結果,
PSNR 為 32.41dB;圖 5 為使用 Kohonen 之 SOM 編碼,取 256 個 codeword 外加分頻處 理的結果,PSNR 提昇至 36.53dB。無論就數 字上或視覺上的觀察,我們都可發現加了分 頻處理會使 PSNR 大幅提昇,同時因為 256 個 codeword 和 128 個 codeword 之 PSNR 並 無太大差異,在 VQ 的複雜度上亦能降低許 多。
圖 4 利用 SOM 與 256 個 codeword 重建 Lena 之影像。
圖 5 利用 SOM 與 256 個 codeword 加上分 頻重建 Lena 之影像。
圖 6 利用 SOM 與 128 個 codeword 重建 Building 之影像。
圖 7 利用 SOM 與 128 個 codeword 加上分 頻重建 Building 之影像。
七、結論
本文將以神經網路之向量量化與分頻 DCT 為基礎,對影像壓縮之法則開發及其 效能加以研究。在資訊時代科技不斷日新月 異的今天,數位影像的應用將更加廣泛與需 要,但因有許多瓶頸的存在使得很多領域都 尚待推廣與開發,例如影音電話,無線影音 傳輸,和影像資料庫之儲存等,若影像壓縮 技術在運算速度、壓縮比、信號雜訊比與功 率消耗等功能上能夠更進一步的提昇,則許 多應用上的問題都將能一一突破。本文所提 出之方法整合了現今所使用各種方法之優 點,並改進了其缺點與限制,大幅提高壓縮 比與信號雜訊比,因而在資料之傳輸上能夠 提昇速度,在資料之保存上亦能降低儲存所 須之空間,因此本文對影像處理的基礎理論 和實際應用都會有長足的貢獻。而神經網路 的並行處理架構能以即時的方式處理問題,
只需要簡單的硬體設備與法則就能快速的執 行。
參考文獻
[1] A. K. Jain, Fundamental of Digital Image Processing, Prestice-Hall, Englewood Cliffs, NJ, 1989.
[2] W. K. Pratt, Digital Image Processing, 3rd ed., Wiley-Interscience, New York, 2007.
[3] C. Liu; J. Lin; K. Wu and C. Wang, “Ob- jective image quality measure for block-based DCT coding,” IEEE Transac- tions on Consumer Electronics, vol. 43, no.
3, pp. 511-516, Aug. 1997.
[4] N. Ahmed, T. Natarajan and K. R. Rao,
“Discrete cosine transform,” IEEE Trans.
Comput., vol. C-23, pp. 90-93, Jan. 1974.
[5] K. R. Rao and P. Yip, Discrete Cosine Transform - Algorithms, Advantages, Ap- plications, Academic Press, 1990.
[6] H. Yamaguchi, “Adaptive DCT coding of video signals,” IEEE Transactions on Communications, vol. 41,no.10, pp.
1534 –1543, Oct. 1993
[7] P. Dalessandro and R. Lancini, “Video
coding scheme using DCT-pyramid vector quantization,” IEEE Transactions on Im- age Processing, vol. 4,no.3, pp.309 –319, March 1995.
[8] S. Arazaki, M. Saigusa, S. Hashiguchi, M.
Ohki, M. Uchiyama and F. Itoh, “Image data compression by DCT with adaptive run-length coding,” IEEE Transactions on onsumer Electronics, vol. 37,no.4, pp.
860 –866, Nov. 1991.
[9] Li W. S., Wang, Z. S.; He, Z. Y., “Neural network based real-time computation of DCTs and DSTs,” Electronics Letters, vol.
32, no.9, pp. 1795 –1796,12 Sept. 1996 [10] Z. Xiong; K. Ramchandran, M. T. Orchar
and Y. Zhang,“A comparative study of DCT- and wavelet-based image coding,”
IEEE Transactions on Circuits and Sys- tems for Video Technology, vol. 9, no.5, pp.
692-695, Aug. 1999.
[11] Hong Wang; Ling Lu; Da-Shun Que; Xun Luo, “Image compression based on wave- let transform and vector quantization,”
Proceedings of 2002 International Confe- rence Machine Learning and Cybernetics, vol. 4, pp. 1778-1780, Nov. 2002.
[12] N. M. Nasrabadi and R. A. King, “Image Coding using Vector Quantization: a re- view,” IEEE Trans. on Communication, vol. 36, no. 8, pp. 957-971, Aug. 1988.
[13] Dong Sik Kim, and Sang Uk Lee, “Image Vector Quantizer Based on a Classifica- tion in the DCT Domain,” IEEE, Trans. on Communication, vol. 39, no. 4, Apr 1991.
[14] R. M. Gray, “Vector Quantization,” IEEE Acoust., Speech, Signal Processing Maga- zine., pp. 9-31, Apr. 1984.
[15] A. Gersho and Robert M. Gray, Vector Quantization and Signal Compression.
London:Kluwer, 1992.
[16] D. E. Rumelhart, G. E. Hinton and R. J.
Williams, Parallel Distributed Processing, Cambridge, Massachusetts: The MIT Press, 1986.
[17] R. P. Lippmann, “An Introduction to Computing with Neual Nets,” IEEE ASSP Magazine, pp. 4-22, Apr. 1987.
[18] S. Haykin, Neural Networks: A Compre- hensive Foundation, 2nd ed., Prentice Hall, 1998.
[19] T. Kohonen, Self-Organization Maps, Springer-Verlag, New York, 1997
[20] K. S. Ng and L. M. Cheng, “Artificial Neural network for Discrete Cosine Transform and Image Compression,”
Proceedings of the 4th IEEE ICDAR, pp.
675-678, 1997.
[21] Veleva, L.V.; Kunchev, R.K. ,“Adaptive speech coding with DCT and neural net vector quantisation,” Electronics Letters vol. 29, no. 8, pp.704–705, 15 April 1993.
[22] Harandi, M.T.; Gharavi-Alkhansari, M.,
“Low bitrate image compression using self-organized Kohonen maps,” Proceed- ings of 2003 International Conference on Image Processing, vol. 2, pp. II-267-70, Sept. 2003.
[23] Chang, P.R.; Hwang, K.S.; Gong, H.M.,
“A high-speed neural analog circuit for computing the bit-level transform image coding,” IEEE Transactions on Consumer Electronics, vol. 37, no. 3, pp. 337-342, Aug 1991.
[24] Da Silva, E.A., Ghanbari, M., ”A DCT- based aliasing cancellation method in subband coding,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 3, no. 5, pp. 384-387, Oct. 1993.
[25] Sundsbo, I.; Ramstad, T.A., “Synthesis filterbank with low hardware complexity for subband image coding,” IEEE Trans- actions on Image Processing, vol. 7, no.12, pp. 1717-1724, Dec. 1998.
[26] Mukherjee, J.; Mitra, S.K.; “Image resiz- ing in the compressed domain using sub- band DCT,” IEEE Transactions on Cir-
cuits and Systems for Video Technology, vol. 12, no. 7, pp.620-627, July 2002.
[27] Tse, F.-W.; Cham, W.-K.; Liu, J.Z.; “DC coefficient restoration technique and its application to image coding,” IEE Pro- ceedings on Vision, Image and Signal Processing, vol. 149, no. 5, pp. 272-282, Oct. 2002.