類神經網路在影像壓縮應用上之研究
A study on the neur al networ ks for image compr ession
計畫編號:89-2213-E-110-010
計畫期限:自民國 87 年 08 月 01 日起至民國 89 年 07 月 31 日
主持人:李錫智 國立中山大學電機工程學系 教授
計畫參與人員:蔡賢亮、歐陽振森、陳宗群、石翔任
E-mail:
[email protected]
Fax:07-5254199
一、摘要: 處在資訊爆炸的時代裡,電腦的使用已是 相當的普遍了,而且人們也漸漸將電腦當成了 新的娛樂休閒的管道之一,進而帶動了多媒體 和網路通訊的快速發展。但影音動畫所占的資 料量是相當的龐大,對於現有的資料儲存設 備、網路傳輸效能都是很大的負擔,所以,影 像壓縮技術對資訊業界是很重要的。 本研究計畫是個兩年的研究計畫,在第一 年的研究中,我們針對靜態的類神經影像壓縮 做深入的探討與改進,並得到不錯的成果。在 第二年度的研究中,我們的研究方向是探討類 神經網路在動態影像壓縮上的應用。但到目前 為止,把類神經網路應用到動態影像壓縮的文 件幾乎沒有,所以,我們的研究方法是由目前 的靜態類神經影像壓縮演算法著手,找出可行 的方法。 關鍵字:類神 經網路、 資料 壓 縮、 壓 縮比 (CR)、壓縮品質(PSNR)、ART-based 類神 經影像壓縮模型、FSRVQ 類神經影像壓縮模 型。 二、Abstract:
In the era of information explosion, computers are used very widely. They promote the multimedia and network communication to a
fast development. However, we know that images, audio, and animation have gigantic data. This makes the data storages and bandwidth of communication overloading. Therefore, the technology of data compression is very important in many fields.
This research project is a two-year project. In the first year, we focused on the study of static image compressions. However, so far, there are few papers about dynamic image compression. In the second year’s project, we focus on the dynamic image compression.
Index ter ms:neural networks, data compression,
compression rate(CR), ART-based neural image compression, FSRVQ neural image compression. 三、理與方法: 類神經網路在近一、二十年裡是個極熱門 的研究領域之一。它是起源於人類在生物腦神 經學上的研究和對於智慧型機器人的興趣,學 者希望能使用它來模擬有智慧的生物行為和 思考,以期能發展出具人類智慧的機器人。到 目前為止,類神經網路已經成功地應用到很多 領域中,例如文字辨識、語音辨識、智慧型家 電控制、問題求解等,而影像壓縮也是一個重
要的領域之一。 為何要將類神經網路應用在影像壓縮這 個領域上呢?其主要的原因是類神經網路與 生俱來的知識萃取特性。知識萃取就是從一大 堆資料 中 找出足 以 代表這 堆 資料的 共 同 特 徵,舉個例子來說,在語音辨識的應用上,我 們不可能把每個人、每句話、每種心情下所說 的話全都存在資識庫中以供辨識,在目前電腦 硬體的限制上,這是非常不實際也沒有效率 的,反之,我們是希望能找出最少的特徵資 料,來含蓋愈多人在不同心情下所講的語句, 這樣才能有即時性和實用性。所以,知識萃取 讓我們就不需要儲存這一大堆的資料,而只要 記下它們的特徵即可。其實我們可以發現類神 經網路的知識萃取特性和資料壓縮是有異曲 同工的功效,換句話說,也就是類神經網路天 生就具有資料壓縮的能力。所以,在若干年前 人們開始使用類神經網路技術來解資料壓縮 的問題。 在第一年的研究計畫中,我們的研究重點 是著重在靜態影像壓縮技術,探討目前己被提 出的演算法,針對它們的缺點找出改良。目前 已 被 提 出 的 靜 態 影 像 壓 縮 演 算 法 有 Auto-associative Multilayer Perceptron(AMLP) 【1、3、4、9】、Self Organizing Feature Map(SOFM)【1、5】、AMLP 和 SOFM 平行混合模 型【1】、AMLP 和 SOFM 序列混合模型【1】、有 限 狀 態 餘 值 向 量 量 化 樹 狀 網 路 模 型 (FSVQ) 【2】。但它們和其它的類神經網路一樣有相類 似的缺點需要加以克服:訓練過程耗時、必需 預先決定類神經網路架構、太多參數必需預先 決定、壓縮效果仍需加強等。 為了解決這些類神經影像壓縮技術的缺 點,在上個年度的研究計畫中,我們對這些缺 點對症下藥,試著解決或降低它們在類神經影 像壓縮實用上的傷害。我們提出二個以 ART 類 神經網路為架構的新影像壓縮模型:(1 ) ART-based 類神經影像壓縮模型及【6、7、11】 (2)餘值 ART-based 類神經影像壓縮模型 【6、7、11】。另外,我們還對有限狀態餘值 向量量化樹狀網路模型(FSRVQ)做改良,改 進原模型需要大量訓練時間的缺點及提高其 壓縮的效果,並也獲致不錯的成果。在這個年 度的研究計畫中,我們延續上年度的研究成果 來擴展至動態影像。 四、實驗結果及討論: 以下將詳細地介紹我們的類神經影像壓 縮模型應用在動態影像壓縮上的結果。 I、ART-based 類神經影像壓縮模型: 在上個年度的研究結果中,我們了解這個 影像壓縮模型是個架構簡單、訓練速度快的影 像壓縮模型,而且它會自行建立網路架構,但 它的壓縮比卻不怎麼高(詳細內容請見上年度 之結案報告)。其類神網路架構如圖 1 所示。 雖然我們可以借由調整網路架構中唯一的參 數--警戒值(vigilance parameter)來提高壓縮 比,但此一動作卻會造成壓縮品質的降低,因 此它並 不 適合應 用 於動態 類 神經影 像 壓 縮 上。 圖 1 ART-based 類神經靜態影像壓縮模型 在動態影像壓縮中,我們將整個連續的動 態影像 看 待是一 堆 獨立的 靜 態影像 畫 面 集
合,然後使用 ART-based 類神經靜態影像壓縮 模型分別對這些影像畫面做壓縮,所以在壓縮 後,每個影像畫面會有一組自己的 ART 類神經 WET 資料頁及壓縮碼,而將所有影像畫面的 ART 權重及壓縮碼串連起來,便是動態影像 壓縮的結果。 II、FSRVQ 類神經影像壓縮模型: 在 上 個 年 度 的 研 究 成 果 中 , 我 們 得 知 FSRVQ 類神經影像壓縮模型比 ART-based 類神 經影像壓縮模型好,它的壓縮效果已快接近 JPEG 的壓縮效果,所以,我們將它應用到動 態影像壓縮上。 在研究計畫提案書中,我們本要採用方法 是將一個長時間的影像集合分成若干個影像 性質相似的段落,也就是說影像中的背景、影 像內容較相近者。而在每個影像片段中,因其 大部分的影像資料有相似性,我們可以對每個 影像片段用 FSRVQ 類神經影像壓縮模型來壓 縮資料,然後將每個影像片段串連起來便是整 個動態影像的壓縮結果。而影像片段在壓縮後 的影像資料串列首先是 FSRVQ 類神經網路的 WET 資料頁,其餘接著的是每個影像畫面的 CODE 資料頁,如圖 2 所示。 圖 2 原類神經連續動態影像壓縮規則 但一個長時間的連續影像中,通常會被分 割成若干的影像段落,我們就必需對每個影像 段落都要訓練一組 FSRVQ 類神經網路的權重 資料,然後使用這個 FDRVQ 類神經網路對這段 影像做壓縮,並獲得壓縮碼。這是非常不可行 的,其原因從上個年度的實驗結果便可得知, 從實驗結果中,我們知道訓練一個 FSRVQ 是相 當的耗時的,而對連續的動態影像做動態壓縮 時,我們要訓練不慬慬只有一個 FSRVQ 影像壓 縮模型而已,假如有很多的影像段落的話,需 要花費的時間將是難以想像的,在實用性上是 很不實際。 而我們在上個年度的研究中,我們針對 FSRVQ 類神經影像壓縮模型的這個缺點做修 改,提出一個改良的 FSRVQ 影像壓縮模型(如 圖 3 所示),我們以損失少許的壓縮品質,卻 在縮短訓練時間上有了不錯的改進,大約只會 是 FSRVQ 的六分之一或更少(詳細內容請見上 年度之結案報告)。但我們若要使用這個影像 壓縮模型在連續的動態影像中,仍是需要花費 相當多的時間,也是不怎麼實際的。 圖 3 改良型有限狀態餘值向量量化樹狀類神 經模型
但在實驗過程中,我們發現只要我們使用 較合適或較多的影像來訓練 FDRVQ 類神經影 像壓縮模型時,它不慬較能完美的壓縮及解壓 縮原訓練的影像,而且用它來壓縮其它的影像 時,也是可以得到不錯的壓縮品質的。另外, 我們若使用多層的 CODEBOOK 時,則壓縮的品 質會更好的。 因此,我們就改變原先的想法,我們不將 連續的動態影像分割成若干的段落,反而是將 整個連續影像只當成唯一的一個段落,所以, 我們也只需訓練一個 FSRVQ 類神經影像壓縮 模型即可,這個做法可以使我們大大的節省了 很多訓練 FSRVQ 類神經網路的時間,當然我們 也稍微損失了些壓縮品質,但不至於差太多。 若採用改良的 FSRVQ 類神經影像壓縮模型的 話,我們會比原 FSRVQ 類神經影像壓縮模型更 為省時,大約只會是它的六分之一或更少。 至於訓練用的影像,我們可以採隨機從連 續的動態影像中挑選出若干張來供訓練用,或 採人工的方式從中選取較具代表性的影像以 供訓練用。從實驗結果中,我們得知用人工選 取訓練影像的方式能獲得較好的結果,因為我 們較了解要用那些訓練影像會較好,但就是不 方便於使用。另外,我們也可以用較多的影像 做為訓練樣本,這樣的話,會得到較好的壓縮 效果,不過所花費的訓練時間也會以近似線性 的增加。 五、 結論: 至目前為止,有關類神經網路在動態影像 壓縮上的研究仍相當的少,我們在這個研究計 畫中,就目前已發表之靜態影像壓縮模型加以 應用至動態影像壓縮上,雖然找出幾個演算 法,但壓縮時間、壓縮品質尚不能與目前市面 廣為使用的 MPEG 壓縮演算法相比較。我們將 繼續努力,希望類神經網路在多媒體影音壓縮 應用上會有更好的成果。 參考文獻:
1. M. A. Abidi, S. Yasuki and P. B. Crilly. Image compression using hybrid neural networks combining the auto-associative multi-layer perceptron and the self-organizing feature map. IEEE Transactions on Consumer Electronics, 40(4): 796-811, November, 1994.
2. S. A. Rizvi, N. M. Nasrabadi. Finite-state residual vector quantization using a tree-structured competitive neural network, IEEE Transactions on Circuits and Systems for Video Technology, 7(2): 377-390, 1997.
3. G. W. Cottrell, P. Munro and D. Zipser. Image compression by back propagation: an example of extensional programming. ICS Report 8702, Institute for Cognitive Science, University of California, San Diego, 1987.
4. G. W. Cottrell and P. Munro. Principal components analysis of images via back propagation. SPIE Vol. 10011, Visual Communication and Image Processing, pages:1070-1077, 1988.
5. N. M. Nasrabadi and R. A. Feng. Vector quantization of images based upon Konhen self-organizing feature map. IEEE International Conference on Neural Networks, 1:101-108, 1988.
6. N. Markuzon, J. H. Reynold, G. A. Carpenter, S. Grossberg and D. B. Rosen. Fuzzy artmap: A neural network architecture for incremental supervised learning of analog multidimensional maps. IEEE Transactions on Neural Networks, 3(5):698-713, September 1992.
7. S. Grossberg, G. A. Carpenter and J. H. Reynolds. Artmap: Supervised real-time learning and classification of nonstationary data by a self-organizing neural network. Neural Networks, 4:565-588, 1991.
8. T. Kohonen, Adaptive, associative, and self-organizing functions in neural computing. Applied Tpeics, 26(33):4910-4918, 1987.
9. M. Mougeot, R. Azencott, and B. Angeniol. Image compression with back propagation: improvement of the visual restoration different cost functions. Neural Networks, 4:467-476, 1991.
10. N. Sonehara, M. kawato, S. Miyake, and K. Nakane. Image data compression using a neural network model. Proceedings of IJCNN, Washington D. C., pages:35-41, 1989.
11. H. –L Tsai, S. –H. Sun, and S. –J. Lee. Image compression using ART-based neural networks. In Proceedings of National Computer Symposium, Vol. 1, pages:B163-B168, Taichung, Taiwan, 1997.