• 沒有找到結果。

利用分頻轉換編碼與類神經網路之影像壓縮

N/A
N/A
Protected

Academic year: 2022

Share "利用分頻轉換編碼與類神經網路之影像壓縮"

Copied!
10
0
0

加載中.... (立即查看全文)

全文

(1)

利用分頻轉換編碼與類神經網路之影像壓縮

*

劉仁俊

國立屏東商業技術學院電腦與通訊系

renjean@npic.edu.tw

摘 要

本文提出利用影像轉換編碼之離散餘弦 轉換分頻處理,搭配 Kohonen 自組織特徵映 射的方法,來進行靜態影像的資料壓縮。使 用影像轉換編碼的目的為擷取出輸入影像在 頻域中的特徵;而分頻的過程是將此轉換結 果的直流與交流係數區隔開來。直流之係數 可直接傳輸或儲存;交流之係數可利用低通 濾波器來完成初步的壓縮,並用來做神經網 路之訓練樣本,如此可大幅減輕訓練之負 擔,並提高信號雜訊比。向量量化被用在需 求高壓縮比的環境中,自組織特徵映射可用 來產生向量量化所需要的編碼簿,此方法的 優點在於能夠產生順序之編碼簿以保留其位 置排列之特性,並能顯著地降低編碼簿的空 間維度使壓縮能夠更有效率。高壓縮比以及 優異的重整品質是本文的最終目的,產出之 結果無論在通訊、資料壓縮、多媒體和網路 等應用方面都會有重要貢獻。

關鍵詞:自組織特徵映射、離散餘弦轉換、

影像壓縮、類神經網路、向量量化 一、緒論

隨著通訊系統搭配多媒體時代的來臨,

數位系統被大量的運用,所使用的資料量特 別是影像也急速增加,在資料儲存與傳輸的 處理上常形成瓶頸,為降低資料的處理量,

影像壓縮成為一個重要的課題[1][2],在許多 重要的場合有著關鍵作用,包括文件、醫學 影像、衛星影像、氣候探測、傳真、通訊系 統、以及在軍事與太空等應用。此外,影像 壓縮是目前增加影像感測器空間解析度及制

*本研究由國科會計畫 NSC95-2221-E-251-002 補助

定廣播電視標準的當然過程,無論是在印 刷、出版、視訊會議和傳播等的應用上,均 為多媒體處理技術的關鍵,其有效的管理、

控制、儲存與傳輸等的相關應用都在與日俱 增。

資 料 壓 縮 又 稱 為 源 編 碼 (Source cod- ing) ,目的在於加速傳輸速度,降低儲存所 需的空間,使其能提昇影像處理、傳輸和儲 存的效能。方式大致可分成兩類:非失真 (Lossless)編碼和失真(Lossy)編碼。非失真壓 縮編碼能保留影像之原始資訊,倘若忽略小 數點的誤差,在還原後能得到與原始完全一 樣的影像。失真壓縮編碼則是由於壓縮還原 後的影像與原始影像有所差異,但此方法之 壓縮效率極高,故衡量不同壓縮方式優劣的 重點是在於如何訂定一個標準,以及判斷被 壓縮的程度。一般若以人類的視覺為基準則 為主觀標準,此種方式乃嘗試各種不同的壓 縮比,歸納其在人眼中可感受的壓縮後影像 品質為準而定出壓縮程度。理論研究上,則 是計算出原影像和壓縮後影像間誤差,以此 誤差的能量大小做為一參考標準,此方式則 較為客觀。本計劃將利用一套客觀之標準來 衡量執行之成效[3]。主要是以信號雜訊比和 壓縮比來做為衡量的依據。

資 料 壓 縮 的 過 程 中 , 影 像 轉 換 編 碼 (Transform coding)通常是第一步驟。其方法 是將原始訊號轉換成另一種表示法,這個表 示法可以經由逆轉換(Inverse transform)恢復 成原始的訊號。而轉換後的能量較原始訊號 更為集中,且是集中在相當少的轉換係數 上 , 若 是 除 去 原 始 資 料 的 重 覆 多 餘 性 (Redundancy),便能利用此集中的能量對影像 資料做壓縮與編碼。此過程也常在影像處理

(2)

中用來作特徵擷取。此外影像轉換編碼可作 為向量量化(Vector quantization, VQ)的前處 理,目的是擷取原始輸入影像的特徵、降低 向量量化的維度(Dimension)以及減少運算上 的複雜度。

現今最常用的影像轉換編碼方法有離散 傅 立 葉 轉 換 (DFT) 、 離 散 餘 弦 轉 換 (DCT) [4]-[9]、和離散小波轉換(DWT)等[10][11]。

本文選擇以 DCT 作為主要的影像轉換編 碼,原因在於其計算上的快速和簡易性。

向量量化[12]-[15]是一種在編碼端將 n 維的輸入資料壓縮成 m 維(m ≤ n)的編碼輸 出,解碼端部份則又將 m 維的編碼資料恢復 成 n 維原始資料的壓縮技術。因此,向量量 化在影像處理及訊號處理的應用上,可以得 到較佳的壓縮比率,並維持不錯的重建品質。

向量量化的輸入資料為多維度的向量,目的 是在編碼簿(Codebook)中搜尋較為相近似的 預 設 向 量 , 即 碼 字 (Code-Words) 或 碼 向 量 (Code Vector),替代原始的輸入向量,而量化 後 的 輸 出 則 為 碼 字 在 編 碼 簿 中 的 索 引 (Index);因此,原本多維度的輸入向量將被 簡化為一維或二維的量化輸出索引值,達到 簡化編碼和壓縮資料量的目的,這亦是不同 於純量編碼之處。向量編碼的關鍵在於編碼 簿的好壞,這牽涉到編碼簿本身的大小、碼 向量的維度以及編碼簿中碼向量的通用性,

而讓編碼簿具有較佳分類碼向量一直是最終 的目標。因此,其研究的重點和可能改進之 處不外乎能夠快速搜尋的向量量化、碼向量 索引值的壓縮編碼以及混合型式的向量量化 這幾個方向。

類神經網路(Artificial Neural Networks,

ANN)[16]-[18]的發展提供了向量量化一個非 常有效的工具,並能增進編碼簿的能力與強 健性(Robustness)。不同於以上之方法,類神 經網路是以模擬人腦思維的模式所發展的理 論,具有強大的學習 (Learning)、容錯(Fault Tolerance)、平行處理(Parallel Processing)和聯 想記憶(Associative Memory)等能力,可廣泛

地應用在不同的領域當中,例如影像處理、

信號處理、型態識別、系統鑑別、及非線性 系統最佳化等,經多年的驗證都有不錯的成 果產生。

一 般 的 類 神 經 網 路 是 由 多 個 神 經 元 (Neurons)組成,輸入資料在乘上連接權值後 經過一非線性之轉換函數而得到單層之輸 出,並以層層相連的方式,如輸入層、隱藏 層及輸出層等串接組成一網路架構。在神經 生理學研究發現,人腦由巨量的神經細胞組 成,但並非所有的神經細胞都起同樣的作 用;不同空間區域的神經細胞分工有所不 同,各區域對應不同的外部刺激;相似的外 部刺激在大腦的相鄰近位置上會引起最大的 響應,因此輸出神經元之間發生空間藕合,

產生了交互作用。據此,Kohonen 於 1980 年[19]提出了另一種類神經網路的架構,稱之 為自組織特徵映射(Self-Organization Feature Map;簡稱為 SOFM 或 SOM),來模擬前述 人腦的相鄰神經細胞間的藕合功能。

SOM 具有「物以類聚」的特性,各神經 元間會相互影響,以競爭性學習(Competitive Learning) 的 方 法 和 優 勝 者 激 發 (Winner-Take-All)的模式來決定網路中各神 經元的狀態。訓練的過程中,輸出層具有網 路拓樸(Topology),鄰近區域(Neighborhood) 的輸出神經元間會相互影響;在學習完畢 後,其輸出神經元相鄰近者會具有相似的響 應,也具有相似的連結權值。鄰近區域間交 互作用的關係,以網路拓樸決定鄰近區域的 神經元方向位置,而優勝神經元鄰近的其他 神經元,則依「物以類聚」的特性與優勝神 經元同時做移動,以達到分類的目的。SOM 是 採 用 無 監 督 式 學 習 (Unsupervised Neural Network)的網路模式,從原始輸入資料中取 得訓練範例,而從中學習範例的內在聚類 (Clustering)規則,以應用於其他的問題。因 此在訓練完成之後,能對全新的輸入變數推 論或分類它與那些訓練範例隸屬於同一聚 類,極為適合在聚類分析和形體識別的應用

(3)

上。因而利用 SOM 類神經網路作分類的最大 優點之一是不需事先知道輸入原始資料中特 徵歸屬(Membership)的情況。在向量量化問 題的應用上此點是相當重要的,不僅對不同 的輸入資料能有正規化(Generalization)的效 果,且能對量化後的空間維度作彈性的分配 與調整。

雖然在應用 DCT 和類神經網路等方法 於影像壓縮已有許多之探討[20]-[23],本文主 要之貢獻與新創之部分在於結合各方法之優 點,形成一套整合型之處理過程;此外加入 分頻處理的觀念,能更細緻的分析影像的內 容。針對轉換後特徵顯著的部分保留較完整 的訊息,以提昇處理之品質;而其他部份則 做較高幅度之壓縮,以提高壓縮比,並改善 系統之效率。因而本研究在品質不變的前提 下,能有效提高資料傳輸之速度並降低資料 儲存所須之空間。

二、系統架構

本研究所提出之整合式分頻 DCT 和以 SOM 做向量量化架構下的失真壓縮流程如 圖 1 所示。

主要分成幾個部份。第一部份是前處 理,包含影像向量或區塊化、DCT 與低通濾 波器。影像向量化是把影像分割為固定大小 的區塊,並針對每一區塊做個別處理,以降 低運算之複雜度,這個過程一般稱之為向量

化(Vectorization),而 DCT 則是將向量化後的 影像方塊進行轉換,以得到影像方塊的頻域 資訊,這些頻域資訊在經過分頻與低通濾波 的處理才完成初步的資料簡化;上述步驟我 們統稱為前處理(Preprocessing)。第二個部份 則是依據 SOM 的訓練結果來完成向量量 化,編碼簿和碼向量索引即是在這個階段產 生。第一個部份與第二個部份是屬於編碼端 的運作範圍,也是整個壓縮過程的核心。後 面的步驟則屬於解碼端的運作範圍。第三個 部份則是在解碼端搜尋接收之索引所對應的 碼向量;第四個部份則將替代的碼向量作 DCT 之逆轉換,並加以重組來恢復原始影像。

在使用 DWT 分頻的方法時,整套系統 流程與圖一相似,只要將圖中 DCT 與 IDCT 改成 DWT 與 IDWT 即可。另外在分頻處理 上不若 DCT 僅分為 DC 與 AC,DWT 在頻率 上的解析度極高,可將細節(Detail)和近似 (Approximation)的部份分別採用不同的編碼 簿來處理,以供傳輸與儲存用途;重建時再 將其結合即可。

以下將就上述步驟做詳細說明。

三、離散餘弦轉換

假設原始輸入影像之大小為 M×M,為降 低影像在處理上的複雜度,並提高普及化之 特性,可先將原始影像分割成等大小且不重 疊的影像方塊,假設每個影像方塊有 N×N 個 像素(Pixel),則每一個影像方塊可視為向量 維度為 N×N 的影像向量,這個過程我們稱之 為向量化(Vectorization)。之後,每個向量都

DCT

AC DC

α

編碼簿

碼向量 索引

原始

影像

影像向量化 離散餘

弦轉換 分頻編碼

SOM

碼向量 IDCT

DC

索引

AC

α

影像向量重組 逆離散

解碼

餘弦轉換 碼向量

重建 影像

低通 濾波器

傳輸或儲存媒介

圖 1 利用 Sub-band DCT 與 SOM 影像壓縮與重建之架構流程圖。

(4)

要經過離散餘弦轉換(DCT),轉換的目的是將 原訊號取樣間之相關性打散,使訊號的能量 能重新分佈而且只集中在少數幾個轉換後的 係數當中,如此許多係數在量化後將為 0 或 趨近於 0,故可予以忽略。

DCT 在影像處理的應用上,一個大小為 N × N 之影像方塊 f(x, y)其二維的 DCT 轉換 之定義為:

( ) ( ) ( ) ( )

( ) ( )

⎥⎦

⎢⎣ +

⎥⎦

⎢⎣ +

=

∑∑

=

=

N v y N

u x

y x f v

u v

u C

N

x N

y

2 1 cos 2

2 1 cos 2

, ,

1

0 1

0

π π

α α

(1)

式中α之定義為

( ) ( )

1 ,

2 , 1 ,

0 , 2

1

, =

=

⎪⎪

= u v N

v u N

v N

u α L

α (2)

DCT 轉換為一可逆之線性轉換,而其二維的 反轉換 IDCT 為

( ) ( ) ( ) ( )

( ) ( )

⎥⎦

⎢⎣ +

⎥⎦

⎢⎣ +

=

∑∑

=

=

N v y N

u x

v u C v u y

x f

N

u N

v

2 1 cos 2

2 1 cos 2

, ,

1

0 1

0

π π

α α

(3)

DCT 和離散傅利葉轉換(DFT)一樣,都 有快速演算的法則可供使用,但是 DCT 只需 作實數運算,DFT 則包含了實數與虛數的運 算。且 DCT 在資訊集中的能力上,提供較佳 的表達方式,故大多數的轉換編碼系統是以 DCT 為主,被認為是數位語音影像與信號處 理的最佳工具之一。

在分頻編碼法(Sub-Band Coding,SBC) [24]-[26]裡,輸入訊號經由轉換被分離出幾個 不同的訊號,每個訊號各自包含於有限範圍 的頻率、頻譜。我們就稱這些訊號為次頻帶 (Sub-Band)訊號。每一個次頻帶可以被分開個 別做編碼的工作。以 DCT 編碼的觀念也與分 頻編碼類似,只不過它的每一個次頻帶只含 單一頻率,即是該頻率之基底函數以相對應 之轉換係數加權後的結果。採用 SBC 的優點 在於依照每個次頻帶而使用不同數量的位元 數,故每個次頻帶的量化係數及重建誤差就 可分別控制,因此重建誤差的頻譜形狀可以 控制成頻率的函數。依此推論,我們可以依 據每個次頻帶的特性使用不同的編碼方法。

在比較低頻的次頻帶中,因為它含有原訊號

的大部份能量,因此我們可以使用較高的位 元率來編碼;一般在最低頻的次頻帶,使用 無失真編碼法即可完整重建該次頻帶。至於 高頻的次頻帶,它所含的能量很少,因此可 以使用低位元率做編碼,為較粗糙的壓縮編 碼方式。

基於二維 DCT 轉換後具有分離高低頻 能量的特性,以 8×8 的方塊為例,其頻域由 低頻至高頻的排列方式如圖 2 表示。左上角 0 的位置,一般稱為直流係數(DC);1 至 63 稱為交流係數(AC);由 0 至 63 依序排列方 式,呈鋸齒狀(Zig-Zag)或"之"型排列。

以 DCT 轉換後的結果來觀察,大部分影 像方塊約有 80%以上的能量是集中在 DC 部 分,為避免較高的失真,可把 DC 直流係數 直接編碼後傳遞出去或儲存起來,而 AC 交 流係數則被用來作進一步的處理。因直接傳 送 DC 的數值在過程上會造成嚴重負擔,故 Cham[27]提出一種方法來已 AC 值估算 DC 值,使 DC 值完全不用送出,大幅降低了 BPP(Bit per pixel),故本方法亦將於本計劃中 做驗證。

0 1 5 6 14 15 27 28 2 4 7 13 16 26 29 42 3 8 12 17 25 30 41 43 9 11 18 24 31 40 44 53 10 19 23 32 39 45 52 54 20 22 33 38 46 51 55 60 21 34 37 47 50 56 59 61 35 36 48 49 57 58 62 63 圖 2 空間頻率係數排列順序。

此外再就 AC 之係數觀察,影像大部份 的資訊、特徵和能量集中在係數矩陣的左上 角即低頻部分,而較少的影像特徵是分散在 高頻的部分;故就影像壓縮而言,當我們著 重於影像的重建品質時,可保留較多的高頻 係數以獲得較多的影像特徵和資訊;若著重 的是壓縮比率,則需保留最少的低頻係數做 為重建端的影像訊息來源。保留係數的方法 只需以一低通濾波器即可完成。利用低通濾 波器不僅能控制被保留係數的數量,又能減 低影像向量的維度,以利於降低向量量化搜 尋空間的複雜度,並增加編碼簿的分類能力。

(5)

四、 SOM 與向量量化編碼

SOM 類神經網路的基本架構不同於傳 統的類神經網路架構,它只需要輸入層與輸 出層的結構,如圖 3 所示。輸入層即為訓練 樣本的輸入向量,其神經元數目依各問題輸 入 特 徵 向 量 而 不 同 ; 輸 出 層 則 代 表 聚 類 (Clustering),其神經元數目則可依所期望之 輸出種類來決定。對於影像的向量量化而 言,輸入向量為影像向量或特徵向量,而經 訓練之後輸出層聚類的結果即形成編碼簿,

每一個輸出神經元所代表的就是編碼簿中的 碼向量索引,而各神經元所對應之碼向量即 為連結權值。

圖 3 SOM 類神經網路的網路架構 SOM 是採取非監督式的學習演算法,將 高維度的輸入向量映射至一維或二維的輸出 神經元陣列,針對各輸入向量不需事先確定 所求的分類輸出結果,由神經網路自身對輸 入資料作出綜合、歸納和統計,調整各神經 元間的連結權值,使網路自適應地發展成為 對不同輸入信號模式作出特殊的響應。網路 拓樸是指輸出神經元的排列方式,一般大多 採二維的矩形或六角形輸出模式。SOM 的輸 出層神經元間相對位置具有相互影響的意義 存在,對於不同的拓樸型式會有不同的分類 結果。我們可以將輸入向量視為 n 維的影像 向量,映射至一至二維的輸出神經元陣列,

藉由這個映射的動作,將原本存在於訓練樣 本輸入向量之間的相對距離關係,能保留在 輸出神經元之間。簡單地說,彼此相鄰近的 輸入向量,透過權值的學習,使得輸出神經 元之間保有拓樸特性,映射在 SOM 的網路拓 樸上。依此精神,其演算學習的法則首先是 初始連結權值,即初始編碼簿,以隨機的方 式建構我們所需要的 VQ 編碼簿。而決定優 勝神經元的方法是計算輸入與權值間最近的 歐基里德距離(Euclidean Distance),即

{

i

}

c i x w

w

x =min (4) 式中 x 為輸入向量,wi為輸出神經元 i 的權 值向量,wc為勝利神經元 c 的權值向量,符 號∥•∥則代表歐基里德距離。權值的調整是 根據勝利神經元所在的位置來決定,若將輸 入向量與權值向量都當成時間的函數,則

( )t i( )t hci( ) ( )t [ t i( )t ]

i w x w

w

+1 = + ⋅ −

(5) 式中,hci(t)為勝利神經元鄰近區域的函數,

是控制鄰近區域大小與鄰近距離關係式的函 數,我們選擇高斯函數為基礎,使不同的鄰 近距離會有不同的調整比重,其表示式為

( ) ( )

= t

r t r

hci c 2 i

2

exp 2

α σ (6) 式中,α(t)為學習速率(Learning Rate),α(t) σ(t)均是隨時間遞減的函數,所以鄰近距離 將愈縮愈小以使各個類別更為聚集。

網路拓樸使得 SOM 之輸入特徵向量若 彼此間近似程度較高,那麼其映射在輸出層 之間的距離也較為接近。因此 SOM 在保持拓 樸關係的前提下實現輸入空間的維數壓縮,

完成類似於向量量化的功能。事實上,利用 Kohonen 的 SOM 可以構成一個向量量化 器,其輸出便是向量量化,也就是聚類的結 果,而輸出神經元的權值,則構成了 VQ 的 編碼簿。

對於 SOM 類神經網路所構成的 VQ 編 碼簿,與 LBG 向量量化演算法相較,SOM 類神經網路的編碼效率較佳。另外,SOM 類 神經網路還具有收斂特性,不易受初始編碼 簿的影響,生成的 VQ 編碼簿結構性強而且 相對於訓練樣本集有較好的通用性之優點。

五、影像重建與效能評估

在 SOM 訓練完成之後所產生的編碼簿 需預先儲存在資料庫中以便解碼時能夠使 用。在影像重建時需先將所接收之碼索引還 原成 AC 碼向量,再將 DC 值對應回原先的 AC 碼向量,之後經過逆 DCT 轉換就能產生 原始影像的近似重建。

失真壓縮的編碼法允許重建信號或影像 有些許差異,藉以換取比無失真壓縮編碼法 更低的位元率與資料率。假設原始信號為 f(x, y)而重建信號為 g(x, y),則重建信號的失真度 或誤差可以用 e(x, y)表示,即

) , ( ) , ( ) ,

(x y f x y g x y

e = (7)

連結權值

輸出層: 代表聚類 (二維矩形拓樸座標)

拓樸座標 x軸

拓樸座標 y軸

輸入層:輸入向量

(6)

標準差(Standard Deviation)的定義是為

[ ]

{

( ) e 2

}

e E e t μ

σ = (8) 式中μe為誤差平均值,一般是為 0。σe又稱 為均方根誤差(RMSE)。對編碼信號重建品質 的 客 觀 評 量 常 是 用 信 號 雜 訊 比 (Signal-to-Noise Ratio,SNR),以原始信號的 方差σx2對重建誤差方差σe2的比值取對 數 值,即

( )

⎟⎟

⎜⎜ ⎞

= 10 log ⎛

22

dB

SNR

e

σx

σ (9) 而影像幅度的平均值通常為非零的正數,為 避免計算上的負擔,如果輸入影像是以 8 個 位元來表示,則最大的幅度值 xmax=255,可 用來代替式(9)中的σx,所得到之結果稱之為 峰值雜訊比(PSNR),即

( )

⎟⎟

⎜⎜ ⎞

= ⎛ 255

22

log 10 dB PSNR

σ

e (10) 信號雜訊比之目的主要在觀察重建品 質,具有客觀之標準;在壓縮比上也應採用 一套標準來評估效能。最常使用的方式為計 算每個像素所需要的位元,即所謂的 bpp(Bits per pixel)。在結果檢討時,可以固定 bpp 的 方法來比較重建品質 PSNR,或固定 PSNR 來比較壓縮比 bpp。

六、模擬結果

為驗證本研究之適用性,我們初步先以 兩張影像 Lena 和 Building 作為模擬示範,採 用 DCT 的分頻方法。原始影像之大小為 512×512,若將其切割成每個有 4×4 大小的影 像方塊,則共有 128×128 個方塊。若分別對 這兩張影像的所有小方塊做 DCT 轉換,再對 轉換後之係數予以低通濾波,藉以將影像的 高低頻資訊分離出來,擷取影像的特徵,並 減低影像向量的維度。為觀察此結果之特 性,針對低通濾波後所保留之係數,我們不 做 SOM 類神經網路分類而直接以 IDCT 逆轉 換來還原影像,可比較 PSNR 之效果。表 1 和表 2 為分別對 Lena 和 Building 保留 6 和 8 個 DCT 係數值的比較,我們分別以 DCT6 和 DCT8 來表示。當保留 6 或 8 個 DCT 係數時,

其還原之 PSNR 值仍可維持 34dB 以上的高重 建品質影像。由此可推得 DCT 影像轉換的效 率極高,原本影像向量維度是 4×4=16,只要 取 6 或 8 個維度即可,失真完全是在可以接

受的範圍之內。被保留的係數將做為 SOM 類 神經網路的輸入向量。

表 1 Lena 取不同 DCT 係數後還原之比較。

Low-Pass Filter

DCT6 DCT8 RMSE PSNR RMSE PSNR

4.2711 35.5201 2.8360 38.8381

單位:PSNR(dB)

表 2 Building 取不同 DCT 係數後還原之比 較。

Low-Pass Filter

DCT6 DCT8 RMSE PSNR RMSE PSNR

4.9887 34.1710 3.2334 37.9109

在 SOM 訓練樣本的選取上,主要採自類 型不同的影像特徵,目的在於產生通用的編 碼簿(Global Codebook),如此所得的編碼簿 才能保證各種影像都有平均水準的效率。在 編碼簿大小的選取上,我們選擇 128、256 及 512 大小的編碼簿作為模擬結果分析的依 據,意即分別需要 7、8 及 9 個位元來編所有 的碼向量,因此其位元率(Bits Per Pixel)分別 為 0.4375bpp、0.5bpp 及 0.5625bpp。

DCT 轉 換 後 保 留 之 係 數 是 直 接 送 至 SOM 做分類或向量量化的工作, DCT6 和 DCT8 對 SOM 各有 5 和 7 個輸入,我們選取 了 上 百 個 具 代 表 性 的 影 像 方 塊 來 訓 練 SOM,並建立編碼簿。由表 1 和表 2 的結果 得知,DCT6 與 DCT8 的 PSNR 差了 3.5dB 以上,但經 SOM 類神經網路壓縮測試的結 果,DCT6 與 DCT8 卻只剩下 1dB 左右的差 距,對於這樣的結果是非常令人振奮且值得 探討的。DCT8 包含了比 DCT6 較多的影像 資訊,所以其影像重建品質 PSNR 值應比 DCT6 來的高。由於在低通濾波器決定保留 多少個 DCT 係數值取捨之下,DCT6 比 DCT8 的向量維度低,對類神經網路於訓練生成編 碼簿時,可減低計算上的複雜度,強化所生 成編碼簿的結構性及提昇編碼簿的分類效 率;故為提昇 SOM 類神經網路系統的學習成

(7)

效,輸入向量的向量維度不宜過高。我們發 現若比較對神經網路的訓練與運算負擔,

DCT6 確實比 DCT8 更具優勢,且能提供編 碼簿較好的編碼效率。故在整個重建品質相 似的前提下,DCT6 應為較佳的選擇。本計 劃的執行將對更多相關的參數作探討,如不 同大小的影像方塊,輸入向量,以及編碼簿 等,以對其結果加以分析比較。

若加入分頻處理的過程則能得到更好的 結果。對 Lena 和 Building 模擬測試的結果分 別如表 3 和表 4 所示。利用分頻編碼的觀念,

將 DCT 轉換後的高低頻係數分離,針對轉換 後大部份影像特徵集中在 DC 係數值,所以 DC 係數值我們選擇不做任何處理,直接送至 解碼端;對於 AC 係數值,做向量量化處理,

同樣利用 SOM 類神經網路訓練生成 AC 編碼 簿。若同樣依照低通濾波保留序號在前面的 八個或六個轉換後之係數值,採取分頻編碼 的壓縮架構其重建品質可高出 1~3dB,主要 的原因在於我們選擇不對 DC 係數值做任何 處理的緣故。再者,保留相同的轉換係數值,

對採用分頻編碼的壓縮架構而言,其 SOM 類 神經網路的輸入向量維度因取出 DC 係數值 而少了一個維度,因此,SOM 類神經網路的 輸入向量維度減少,權值空間較為平滑,學 習與訓練過程的運算量與複雜度降低,所以 比較容易尋得最佳化的編碼簿,這也是本計 劃採用分頻編碼壓縮架構的目的。雖然位元 率提高了約 0.5 個 bpp,也就是說以保留 7、

8 及 9 個位元來編所有的碼向量,其位元率 分別為 0.9375bpp、1bpp 及 1.0625bpp。但以 此相似壓縮比的程度而言,單純使用 DCT 是 無法達到如此高的 PSNR。

此外如表 5 和表 6 選取 64、128、256 大 小的 AC 編碼簿,因權值空間變得比較平滑,

向量維度減低,在 128 與 256 大小的 AC 編 碼簿,其編碼簿以趨於收斂,相對的其影像 重建之 PSNR 值差異不大,使得我們可以選 取較小的 AC 編碼簿也能有較佳重建品質。

因此,雖然對於 DC 係數值不做處理會使得 壓縮比率增加,但我們卻可以較少的位元去 編碼 AC 編碼簿,兩相平衡之下,其整體的 壓縮比率並不會高出許多,而在解碼端因編 碼簿碼向量的個數變少,也能達到快速搜尋 的效果。

表 3 分頻重建 Lena 後之結果。

Figure Name

Codebook Size

Low-Pass Filter 6 8 PSNR PSNR SOM 256 26.4964 29.2003 SOM

with Sub-band

256 30.0530 31.3677

表 4 分頻重建 Building 後之結果 Figure

Name

Codebook Size

Low-Pass Filter 6 8 PSNR PSNR SOM 256 25.9524 27.0373 SOM

with Sub-band

256 29.3075 33.3410

圖 4 至圖 5 分別為 Lena 和 Building 在不 同狀況下之重建影像。圖 4 為使用 Kohonen 之 SOM 編碼,取 256 個 codeword 之結果,

PSNR 為 32.41dB;圖 5 為使用 Kohonen 之 SOM 編碼,取 256 個 codeword 外加分頻處 理的結果,PSNR 提昇至 36.53dB。無論就數 字上或視覺上的觀察,我們都可發現加了分 頻處理會使 PSNR 大幅提昇,同時因為 256 個 codeword 和 128 個 codeword 之 PSNR 並 無太大差異,在 VQ 的複雜度上亦能降低許 多。

圖 4 利用 SOM 與 256 個 codeword 重建 Lena 之影像。

(8)

圖 5 利用 SOM 與 256 個 codeword 加上分 頻重建 Lena 之影像。

圖 6 利用 SOM 與 128 個 codeword 重建 Building 之影像。

圖 7 利用 SOM 與 128 個 codeword 加上分 頻重建 Building 之影像。

七、結論

本文將以神經網路之向量量化與分頻 DCT 為基礎,對影像壓縮之法則開發及其 效能加以研究。在資訊時代科技不斷日新月 異的今天,數位影像的應用將更加廣泛與需 要,但因有許多瓶頸的存在使得很多領域都 尚待推廣與開發,例如影音電話,無線影音 傳輸,和影像資料庫之儲存等,若影像壓縮 技術在運算速度、壓縮比、信號雜訊比與功 率消耗等功能上能夠更進一步的提昇,則許 多應用上的問題都將能一一突破。本文所提 出之方法整合了現今所使用各種方法之優 點,並改進了其缺點與限制,大幅提高壓縮 比與信號雜訊比,因而在資料之傳輸上能夠 提昇速度,在資料之保存上亦能降低儲存所 須之空間,因此本文對影像處理的基礎理論 和實際應用都會有長足的貢獻。而神經網路 的並行處理架構能以即時的方式處理問題,

只需要簡單的硬體設備與法則就能快速的執 行。

參考文獻

[1] A. K. Jain, Fundamental of Digital Image Processing, Prestice-Hall, Englewood Cliffs, NJ, 1989.

[2] W. K. Pratt, Digital Image Processing, 3rd ed., Wiley-Interscience, New York, 2007.

[3] C. Liu; J. Lin; K. Wu and C. Wang, “Ob- jective image quality measure for block-based DCT coding,” IEEE Transac- tions on Consumer Electronics, vol. 43, no.

3, pp. 511-516, Aug. 1997.

[4] N. Ahmed, T. Natarajan and K. R. Rao,

“Discrete cosine transform,” IEEE Trans.

Comput., vol. C-23, pp. 90-93, Jan. 1974.

[5] K. R. Rao and P. Yip, Discrete Cosine Transform - Algorithms, Advantages, Ap- plications, Academic Press, 1990.

[6] H. Yamaguchi, “Adaptive DCT coding of video signals,” IEEE Transactions on Communications, vol. 41,no.10, pp.

1534 –1543, Oct. 1993

[7] P. Dalessandro and R. Lancini, “Video

(9)

coding scheme using DCT-pyramid vector quantization,” IEEE Transactions on Im- age Processing, vol. 4,no.3, pp.309 –319, March 1995.

[8] S. Arazaki, M. Saigusa, S. Hashiguchi, M.

Ohki, M. Uchiyama and F. Itoh, “Image data compression by DCT with adaptive run-length coding,” IEEE Transactions on onsumer Electronics, vol. 37,no.4, pp.

860 –866, Nov. 1991.

[9] Li W. S., Wang, Z. S.; He, Z. Y., “Neural network based real-time computation of DCTs and DSTs,” Electronics Letters, vol.

32, no.9, pp. 1795 –1796,12 Sept. 1996 [10] Z. Xiong; K. Ramchandran, M. T. Orchar

and Y. Zhang,“A comparative study of DCT- and wavelet-based image coding,”

IEEE Transactions on Circuits and Sys- tems for Video Technology, vol. 9, no.5, pp.

692-695, Aug. 1999.

[11] Hong Wang; Ling Lu; Da-Shun Que; Xun Luo, “Image compression based on wave- let transform and vector quantization,”

Proceedings of 2002 International Confe- rence Machine Learning and Cybernetics, vol. 4, pp. 1778-1780, Nov. 2002.

[12] N. M. Nasrabadi and R. A. King, “Image Coding using Vector Quantization: a re- view,” IEEE Trans. on Communication, vol. 36, no. 8, pp. 957-971, Aug. 1988.

[13] Dong Sik Kim, and Sang Uk Lee, “Image Vector Quantizer Based on a Classifica- tion in the DCT Domain,” IEEE, Trans. on Communication, vol. 39, no. 4, Apr 1991.

[14] R. M. Gray, “Vector Quantization,” IEEE Acoust., Speech, Signal Processing Maga- zine., pp. 9-31, Apr. 1984.

[15] A. Gersho and Robert M. Gray, Vector Quantization and Signal Compression.

London:Kluwer, 1992.

[16] D. E. Rumelhart, G. E. Hinton and R. J.

Williams, Parallel Distributed Processing, Cambridge, Massachusetts: The MIT Press, 1986.

[17] R. P. Lippmann, “An Introduction to Computing with Neual Nets,” IEEE ASSP Magazine, pp. 4-22, Apr. 1987.

[18] S. Haykin, Neural Networks: A Compre- hensive Foundation, 2nd ed., Prentice Hall, 1998.

[19] T. Kohonen, Self-Organization Maps, Springer-Verlag, New York, 1997

[20] K. S. Ng and L. M. Cheng, “Artificial Neural network for Discrete Cosine Transform and Image Compression,”

Proceedings of the 4th IEEE ICDAR, pp.

675-678, 1997.

[21] Veleva, L.V.; Kunchev, R.K. ,“Adaptive speech coding with DCT and neural net vector quantisation,” Electronics Letters vol. 29, no. 8, pp.704–705, 15 April 1993.

[22] Harandi, M.T.; Gharavi-Alkhansari, M.,

“Low bitrate image compression using self-organized Kohonen maps,” Proceed- ings of 2003 International Conference on Image Processing, vol. 2, pp. II-267-70, Sept. 2003.

[23] Chang, P.R.; Hwang, K.S.; Gong, H.M.,

“A high-speed neural analog circuit for computing the bit-level transform image coding,” IEEE Transactions on Consumer Electronics, vol. 37, no. 3, pp. 337-342, Aug 1991.

[24] Da Silva, E.A., Ghanbari, M., ”A DCT- based aliasing cancellation method in subband coding,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 3, no. 5, pp. 384-387, Oct. 1993.

(10)

[25] Sundsbo, I.; Ramstad, T.A., “Synthesis filterbank with low hardware complexity for subband image coding,” IEEE Trans- actions on Image Processing, vol. 7, no.12, pp. 1717-1724, Dec. 1998.

[26] Mukherjee, J.; Mitra, S.K.; “Image resiz- ing in the compressed domain using sub- band DCT,” IEEE Transactions on Cir-

cuits and Systems for Video Technology, vol. 12, no. 7, pp.620-627, July 2002.

[27] Tse, F.-W.; Cham, W.-K.; Liu, J.Z.; “DC coefficient restoration technique and its application to image coding,” IEE Pro- ceedings on Vision, Image and Signal Processing, vol. 149, no. 5, pp. 272-282, Oct. 2002.

數據

圖  5    利用 SOM 與 256 個 codeword 加上分 頻重建 Lena 之影像。  圖  6    利用 SOM 與 128 個 codeword 重建 Building 之影像。  圖  7    利用 SOM 與 128 個 codeword 加上分 頻重建 Building 之影像。  七、結論  本文將以神經網路之向量量化與分頻 DCT 為基礎,對影像壓縮之法則開發及其 效能加以研究。在資訊時代科技不斷日新月異的今天,數位影像的應用將更加廣泛與需要,但因有許多瓶頸的存在使得很多領域

參考文獻

相關文件

Pantic, “Facial action unit detection using probabilistic actively learned support vector machines on tracked facial point data,” IEEE Conference on Computer

“A feature re-weighting approach for relevance feedback in image retrieval”, In IEEE International Conference on Image Processing (ICIP’02), Rochester, New York,

This study proposed the ellipse-space probabilistic neural network (EPNN), which includes three kinds of network parameters that can be adjusted through training: the variable

隨著影像壓縮技術之進步、半導體科技之快速發展、無線通訊技術與數位傳送輸技術

類神經網路 ( Artificial Neural Network ),根據 DARPA Neural Network

F., “A neural network structure for vector quantizers”, IEEE International Sympoisum, Vol. et al., “Error surfaces for multi-layer perceptrons”, IEEE Transactions on

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,