行政院國家科學委員會專題研究計畫 期中進度報告
多媒體影音高階處理、傳輸及設計--子計畫二:可調式視訊
壓縮系統之設計與實現(2/3)
期中進度報告(精簡版)
計 畫 類 別 : 整合型 計 畫 編 號 : NSC 95-2221-E-002-195- 執 行 期 間 : 95 年 08 月 01 日至 96 年 07 月 31 日 執 行 單 位 : 國立臺灣大學電子工程學研究所 計 畫 主 持 人 : 陳良基 報 告 附 件 : 出席國際會議研究心得報告及發表論文 處 理 方 式 : 本計畫可公開查詢中 華 民 國 96 年 12 月 05 日
多媒體影音高階處理、傳輸及設計
─子計劃二
可調式視訊壓縮系統之設計與實現
(2/3)
Design and Implementation of Scalable Video Coding Systems
計劃編號:95-2221-E-002-195- 執行期限:95/08/01~96/07/31 子計劃主持人:陳良基 教授 Email: lgchen@cc.ee.ntu.edu.tw 執行機構:國立台灣大學電子工程學研究所 關鍵字: 可調式視訊壓縮系統、移動補償 式時間濾波器
Key words: Scalable Video Coding System、MCTF 一、中文摘要 隨著近十年來的研究發展,視訊壓縮 編碼技術在壓縮率上獲得相當大的成功, 此進展也推動了多媒體通訊相關產業的蓬 勃發展,然而隨著多媒體應用高度多樣化 的需求,使得除了壓縮率以外,視訊壓縮 技術的其它功能性也越來越受重視,其中 以可調式視訊編碼尤為重要,其相關視訊 壓縮標準:Scalable Video Coding (SVC)正 由MPEG組織制訂中。本計畫以研發全新可 調式視訊編碼系統之晶片為目標,本年度 研究重點著重在可用於編碼器之可調式移 動補償時間濾波器。
ABSTRACT
In the last decade, video coding tech-niques have been highly optimized for com-pression efficiency, which brings the rapid development of the multimedia communica-tion industry. However, due to a variety of multimedia applications, many other func-tionalities are required. Among them, the most important one is scalable video coding. This project targets to develop the brand-new scalable video coding system, the main research target in this year focuses on the scalable rate-distortion-computation MCTF/ME hardware architecture
二、緣由與目的 視訊壓縮編碼技術在壓縮率上獲得相 當大的成功,此進展也推動了多媒體通訊 相關產業的蓬勃發展,然而隨著多媒體應 用高度多樣化的需求,使得除了壓縮率之 外,視訊壓縮技術的其它功能性也越來越 受重視,其中又以抗傳輸錯誤以及可調式 視訊編碼尤為重要。從2004年開始,MPEG 已著手制定未來下一代的視訊壓縮標準: Scalable Video Coding(SVC),希冀能滿足 工業界對多媒體功能性多樣化的需求。 SVC於演算法上除了傳統的封閉式預測結 構,也可配合全新的開放式預測結構,使 得單一壓縮位元串流能在不同畫面大小、 畫面速度以及畫質下都提供最佳傳輸效 能。同時為了能配合消費者對於高解析度 影像的需求,本計畫除了以研發全新可調 式視訊編碼系統之晶片為目標,也期望能 帶出下一代高解析度影像編解碼器的設計 架構。 三、研究方法與成果 本研究計畫針對未來動態視訊壓縮編 碼系統的核心技術—可調式視訊編碼—研 發全新且整體性的 VLSI 硬體架構設計與 實現法則。本年度計畫執行目標為可調式 移 動 補 償 時 間 濾 波 器 (Scalable R-D-C MCTF/ME hardware)的演算法整合與硬 體實現,以下將分別對各項技術詳細說明 研究方法及進行成果。 目前被提出的 SVC 編碼器演算法以
開放式迴圈架構為特點,同時也是整個 SVC 編解碼器的核心。圖一為一個移動補 償式時間濾波器以及移動估計/移動補償 處理引擎設在一個視訊編碼系統中的情 況,一般來說,由於整張畫面的容量過大, 通常會儲存在外部記憶體(DRAM),而需 要被移動估計使用到的搜尋範圍內的影像 資料則會被預先儲存到模組內部的內部記 憶體(On-chip Memory)以滿足移動估計處 理器的頻繁讀取,儘管如此可大幅減少移 動 估 計 / 移 動 補 償 處 理 引 擎 (Prediction Processing Elements)直接對外部記憶體的 讀取次數,剩下需要的外部記憶體頻寬仍 舊十分巨大。 圖一、移動補償式時間濾波及移動估計/ 移動補償處理引擎、內部記憶體 在前一年度的計畫,我們已提出了兩 種畫面層級資料重覆使用架構來解決預測 階段的外部記憶體頻寬,另外也在更新階 段方面,針對外部記憶體頻寬進行最小化 而提出 Prediction/Update 管線化排程、 ME-based Level C+ Motion Compensation 和相對應的硬體架構。但是,在現今系統 晶片的實際應用中,因為多個模組同時運 作使整個系統可使用的運算資源經常是不 固定的,連帶的會讓各個模組的運算效率 受到影響。因此我們設計一個針對可調式 影像的編解碼的硬體加速器時,不僅能夠 讓產生的影像在時間(畫面速率)、空間(畫 面大小)和畫面品質(SNR, Signal-to-Noise -Ratio)上都具有可調性外,更能利用可調 式影像的特性來設計硬體架構及運算流 程,使其能同時支援運算量(Computation) 上 的 可 調 性 , 讓 原 本 編 碼 器 只 能 在 Rate(bit-rate, 位元速率)-Distortion(畫面品 質下降程度)這兩個緯度上尋覓擁有最佳 編 碼 效 果 的 限 制 被 打 破 , 變 成 能 夠 在 Rate-Distortion-Computation 這三個緯度中 找到最適合的編碼方式,能夠在符合可運 用 的 系 統 運 算 量 下 提 供 最 好 的 Rate-Distortion 的結果給使用者。從系統整 合的角度來看,這樣一個編碼器可以隨時 根據可用資源的狀態來調整使用的編碼方 式,讓使用者可以一直享受到最好的編碼 品質,而且不會影響到其他模組的運作。 在達成硬體運算量的可調性方面,我 們主要從編解碼標準的架構流程來著手。 這是因為各種編碼標準的運算架構流程不 同,產生了不同的壓縮效率、壓縮畫面品 質和編碼運算量,這些編碼運算量包含了 運算複雜度、系統記憶體頻寬、功率消耗 和運算時脈數等不同方面的硬體需求。從 圖七和表一來觀察,我們可以發現在相同 運算核心(雙向式移動估計/補償)下,配合 不同類型的編碼架構,如 JSVM (5/3 MCTF, 1/3 MCTF, HB)和 H.264/AVC,便可產生完 全不同的壓縮效率、核心運算量以及系統 記憶體頻寬。從表一的運算方式比較後可 發現,移動補償式時間濾波中的預測階段 和目前 H.264/AVC 中所使用的移動估計/ 補償在運算核心的功能性上是相同的,都 是可以使用雙向式移動估計/補償來構成 這些編碼方式的,只是因為運算架構流程 不同,而出現了不同的編碼運算量 表一、針對 JSVM2.0 以及 H.264/AVC main profile 中各種編碼選擇所需要的運算量和 外部記憶體頻寬比較表。(SMB : System Memory Bandwidth) Coding Scheme 4-Level 5/3 MCTF 4-Level 1/3 MCTF (HB)
IPPP with 1-ref IPPP with 2-ref IBPBP with 2-ref
Y Y Y Y Y Y Y Y Y Y ME 58.5 58.5 30.0 60.0 60.0 SMB 71.62 40.90 24.05 42.02 42.02 Y N N N N Required Operation times/sec. MB/s ME MC Update
Assume CIF Format, 30 fps, SR: [-32,32)
IBBP with 2-ref Y Y N 60.0 42.02
Mobile dB at 350Kbps 30.6 30.1 26.5 26.9 28.2 27.9 在預測階段方面,我們以之前提出的 畫面層級資料重覆使用架構(Frame-level Data Reuse), Double Reference Frames Scheme (DRF)和 Extended Double Current Frames Scheme (EDCF) 為 基 礎 , 配 合 MCTF 或 Hierarchical B-frame 架構中不同
的 GOP 大小,可組合出如下圖二(c)中的 Data Reuse 組合示意圖。 1 ME 0 H1 2 3 MC ME MC MC2* MC0* time (a) 1 ME 0 H1 2 3 MC ME MC ME 4 5 MC ME MC H3 MC4* time MC0* C1 R2 C3 R4 C5 (b) H3 MC H1 0 ME MC ME ME ME MC ME MC ME MC ME ME MC H5 H7 MC2* 1 2 3 4 5 6 7 8 MC6* time (c) 圖二、(a)DCF,(b)Extend-DCF 及(c)當 GOP=8 時使用 frame-level data reuse 的示 意圖。
在移動補償式時間濾波和移動估計/ 補 償 的 核 心 架 構 上 , 由 於 要 支 援 H.264/AVC 的 Variable Block Size Motion Estimation(VBSME) 和 Lagrangian Mode Decision,我們將移動估計的運算分成兩 個管線化階段(Pipeline Stage),分別是整數 點移動估計(Integer Motion Estimation, IME)和浮點數移動估計(Fractional Mo-tion EstimaMo-tion,FME)。圖三為中提出的 巨集區塊管線化的運算排程圖套用圖二(b) 中的排程圖, 浮點數移動估計只能在全部 目前畫面的第 n 個巨集區塊結束整數點移 動估計運算之後才能開始運算,因此我們 需要將此管線化階段產生的結果和以讀取 志晶片內部的資料暫存在晶片內部。圖三 (a)則為按照這種排程方式所對應的架構 圖,這樣將需要暫存多達六個巨集目前區 塊的資料及八組對應的移動向量集合。因 此我們提出圖三(b)中的交錯畫面的巨集 區塊管線化(Frame-interleaved MB Pipe-lining)運算排程來套用到圖二的架構中, 採用此種排程,將可以大幅縮短目前區塊 資料及對應的移動向量的生命週期(Data life time),共可減少約 12000 bits 的內部暫 存記憶體,大幅減少了晶片的花費。整個 移動補償式時間濾波和移動估計/補償的 核心架構的示意圖可由圖四來表示。運算 單元可大致分為三部份,整數點移動估計 (IME)、浮點數移動估計(FME)以及更新階 段處理器(Update) C0/R1/C1 IME (n MB) C0/R1 FME (n-1 MB) R1/C1 FME (n-1 MB) C1/R2 FME (n-1 MB) R2/C2 FME (n-1 MB) C1/R2/C2 IME (n MB) (a) R2/C2
FME (n-1 MB) FME (n MB)C1/R1 FME (n MB)C1/R2 C0/R1
IME (n MB) IME (n MB)R1/C1 IME (n MB)C1/R2 IME (n MB)R2/C2 C0/R1 FME (n MB) (b) 圖三、(a)巨集區塊管線化(MB Pipelining) (b) 交錯畫面巨集區塊管線化(Frame- in-terleaved MB Pipelining)運算排程圖
Searching Range SRAM (Left-SR1, Right-SR2) Update IME Module 2 x 256 PE FME Module 9 x 4 PE MV5 MV6 MV7 MV8
Current Block Array MV1 Sys tem Bu s MV2 MV3 4 MVP stripe buffer MV4 CB1 CB2 CB3 CB4 CB5 CB6 MC 圖四、根據交錯畫面巨集區塊管線化 (Frame-interleaved MB Pipelining)運算排 程圖所對應的移動補償式時間濾波和移動 估計/補償的核心架構示意圖。 表二和圖五分別展示了本晶片實作結 果的規格以及晶片布局圖。表三中我們詳 列了本晶片在各種運算模式下所需要的系 統頻寬以及運算時脈數。在減少外部記憶 體頻寬方面,針對 5/3MCTF 來看,約有 13%
至 36%的頻寬減少,此外我們提出的畫面 層級資料重覆使用,不僅可以應用在開放 式迴圈架構中的 MCTF,也可以套用在傳 統的 MCP(Motion Compensated Prediction)
表二、晶片規格 Technology Die Size Processing Ability Core Size Gate Count On-Chip Memory Working Frequency Power Consumption TSMC 0.18um CMOS 1P6M 4.940 mm x 4.911 mm CIF with 30 fps, SR:[-32,32), 3.824 mm x 3.568 mm 352,405
4 88 x 16 single port SRAM
60 MHz (maximum)
410mW @ 60 MHz, 1.8V 16 240 x 32 dual port SRAM
1-4 Level 5/3, 1/3 MCTF, HB IPPP, IBP, IBBP with 2-ref Coding Structures
Pad Number 181 (Input/Output Pad) (65/66) (Core/Pad Power Pad) (18/32)
圖五、晶片布局圖 上,讓有使用 B-frame 的架構都可有著不 錯的頻寬減少量。表五中也列出了各種編 碼架構需要的運算時脈數,從 29MHz 對應 的 IPPP w 1-ref 到所需時脈數最高的 4 Level 5/3 MCTF 的 59.7MHz。同時各種架 構的系統頻寬也從最低的 24.05MByte/sec 分布到最高的 50.09MByte/sec,這兩個數 據提供了這顆晶片運算量上的可調性,下 面將以一個簡單的例子來說明如何根據系 統目前所擁有的資源,來調整最適合的編 碼標準或編碼選項,讓整個編碼系統能在 壓縮頻寬(bit-rate)、壓縮畫面品質(distortion) 和系統運算量(computation)中取得最佳的 平衡點。 表三、本晶片在不同運作模式下所需要的 頻寬以及運算時脈數的比較表。表中的 Original 是指直接實作的理論結果 Proposed 1 Level 2 Level 3 Level 4 Level 39.71 47.16 49.55 50.09 Frequency (MHz) Coding Scheme 44.05 53.52 57.79 59.70 5/3 MCTF 1 Level 2 Level 3 Level 4 Level 33.04 35.32 34.21 32.54 41.82 49.70 52.94 54.21 1/3 MCTF (HB) IPPP w 1-ref IPPP w 2-ref IBP w 2-ref IBBP w 2-ref 24.05 42.02 24.05 30.04 29.09 52.73 52.80 52.78 MCP scheme Original Bandwidth (MB/s) Reduction 33.04 37.53 39.78 40.90 24.05 42.02 42.02 42.02 45.78 61.49 71.76 78.10 13.3% 23.3% 31.0% 35.9% 5.9% 14.0% 20.4% 42.8% 28.5%
-IBP: Share the reference frames of P and B frames IBBP: Share the reference frames of two B frames
相關整合、相關硬體設
C VLSI architecture,” in Proceedings of ISCAS, May, 2004
四、結論 本子計劃已達成第二年之預定目標, 在各方面都有相當不錯的收穫和成果。在 接下來的年度中,將繼續完成完整的 SVC 編碼器的單晶片設計,並且配合高畫質影 像的需求,達到 Full HD 1080p 的規格, 進而完成第三年中 計、實作部分。 五、參考文獻
[1] S. Choi and J. W. Woods, "Motion-Compensated 3-D subband coding of video," IEEE Trans. Image Processing, vol. 8, no. 2, pp. 155-167, Feb. 1999
[2] ISO/IEC JTC1, "Call for proposals on scalable video coding technology," ISO/IEC JTC1/WG11 Doc. N5958, Oct. 2003.
[3] ISO/IEC JTC 1, Joint Scalable Video Model (JSVM) 2.0 Reference Encoding Algorithm Description, ISO/IEC JTC 1/SC 29/WG 11 N7084, Apr, 2005
[4] J.-C. Tuan, T.-S. Chang and C.-W. Jen, “On the data reuse and memory bandwidth analysis for full-search block-matching VLSI architecture,” IEEE Transcations on Circuits and Systems for Video Technology, vol. 12, no. 1, pp. 61-72, Jan, 2002.
[5] C.-Y. Chen, Y.-H. Chen, C.-C. Cheng and L.-G. Chen, “Frame-level data reuse schemes,” in Proceedings of ISCAS 2006, Kos, Greece, May, 2006
[6] C.-C. Cheng, C.-Y. Chen, Y.-H Chen and L.-G. Chen, “Analysis and VLSI architecture of update step in mo-tion-compensated filtering,” in Proceedings of ISCAS 2006), Kos, Greece, May, 2006
[7] T.-C. Chen, Y.-W. Huang and L.-G. Chen, “Analysis and design of macroblock pipelining for H.264/AV
參加 VLSI Symposium 2007 會議報告
二、 參加會議經過及與會心得
這次會議是在京都的麗嘉皇家飯店舉行,日期是從 6 月
14 日到 6 月 16 日,共有三天的會期,而明年將會回到夏威
夷舉辦。這次會議共有 103 被接受的論文,論文的接受率是
30%。在積體電路設計的領域中,算是個頂級的會議,每年
都會有來自各地的專家學長到場討論電路設計未來的發展
趨勢。這次會議共有 26 個 sessions,包含數位、類比、記
憶體、無線及有線通訊相關的電路設計。
這次會議共有 4 個 keynote,由業界或學界的研究人員來
分享研究的成果。我將在下面逐一介紹:
1.
Mobile Terminals toward LTE and Requirements
on Device Technologies
這個演講的講者來自 NTT DoCoMo,主要是介紹 Long
Term Evolution (LTE)這個通訊標準,LTE 是下一個世代
的行動通訊傳輸技術,包含了 OFDM、MIMO、TTI 等技術。
在發展上,他介於 3.5G 和 4G 之間,因此目前被定義為
3.9G。講者提到,在未來的手機系統中,baseband 的功
率消耗需控制在 50mW 以下,需要 MRAM 和 RRAM 這些技術
配合來減少 leakage power 的消耗,另外會以 fuel cells
來當作功率的提供者。最後,彈性是未來通訊系統中另
一大挑戰,因為要同時支援 2G、3G 和 LTE 等系統,如何
建立一個有彈性的系統架構將會是個大問題。
2.
Limits of Power Consumption in Analog Circuits
這 個 講 者 來 自 Massachusetts Institute of
Technology,內容是推導出在類比電路中,理論上功
率消耗的極小值,以做為未來電路最佳化的比較根
據,並提出未來的設計,將會儘量避免 op-amp 的使
用以節省功率。因為我本來是從事數位電路的研究,
對類比電路的設計不是很了解,因此對此內容有興趣
可參考 Proceedings 內的論文。
3.
High Performance Processor Development for
Consumer Electronics
此講者來自 IBM Corporation,內容是介紹 GPU 的
發展趨勢。演講中有提到,game processor 的進展已
經比 Intel processor 還快,在 2005 年時就已超越
了,未來將會提供比 Intel processor 更強的運算能
力。除此之外,他還提到,根據 IBM 和 Sony 共同研
發 之 PS2 的 發 展 趨 勢 , 隨 著 製 程 的 演 進 , Game
processor 從原本在 1999 年以 0.25um 製程設計時的
二個 Chip (Emotion Engine + Graphics Synthesizer)
慢慢整合成了一顆在 90nm 製程下的 SoC 晶片, 大小
是原來的六分之一,可見製程演進在 Game processor
設 計 這 塊 研 究 領 域 有 很 重 要 的 影 響 。 另 外 , game
processor 的設計面臨了幾個方面的困難,首先,是
記憶體容量的需求愈來愈多,未來將會以 8T cell 的
memory 或是 embedded 的 DRAM 來解決。第二個是頻寬
需求的大量提升,這部份未來可能會用 Silicon in
Package (SiP)或是 3-D package 及 embedded DRAM
等技術來克服。最後,隨著遊戲設計愈來愈複雜,產
生 了 愈 來 愈 高 的 運 算 需 求 , 這 個 部 份 , 需 會 以
multi-core 的設計方式來解決。在這個演講中,讓我
們了解到了 IBM 和各個遊戲主機提供者的合作 (如
Sony 的 PS3、任天堂的 wii、及微軟的 XBOX),及 game
processor 的發展趨勢。在未來的電腦裡,CPU 和 GPU
的決戰到底誰會勝出呢?
4.
Ambient Electronics with Organic Transistors
這個演講的講者是來自東京大學的教授,介紹的是
他們在軟性電子這方面的研究方向和成果,核心是一
種叫 Organic Thin File Transistor 的技術,此種
電晶體以富有彈性著稱,做出來的產品可以是軟的,
而非一般電路那般像一片金屬板而沒有彈性。除此之
外,這種製程比現今的 CMOS 技術成本低很多,是一
種可以利用噴墨的方式產生電路。主要的應用是在
RFID 及大面積的感應器和促動器及軟性的顯示器。這
個研究團隊目前是將這項技術用在機器人的皮膚
上,稱為 E-skin,產生出來的皮膚和以感測溫度和壓
力,並且有 25%的可伸縮空間,但目前的主要問題在
反應速率過慢,和現在 CMOS 的技術比起來,約有 1000
倍 以 上 的 差 距 。 另 一 方 面 , 這 技 術 還 被 使 用 在
wireless power sheet,講者認為這是達到未來電子
和生活融合在一起的第一步。在這項 wireless power
sheet 的技術中,結合了 MEMS 和 Organic FET 的技術,
將這 power sheet 結合到地板或牆上,可以透過他無
線的傳輸功率,而不需要用到電線。我想這個領域的
研究,應該會蠻大的影響未來的生活。
除了這四篇 keynote,還有另外二篇讓我印象深刻,也將在
下面介紹。
1. A 1.41W H.264/AVC Real-time Encoder SoC for HDTV
1080p
這篇論文是日本早稻田大學所發表的,因為和我本身一
樣是研究影像和視訊壓縮相關的電路設計,所以算是比
較熟悉的。這篇論文的一大特色,是使用了 System in
Silicon 這項類似 3-D package 的技術,讓視訊或影像壓
縮晶片中所需要的大量記憶體都能放到晶片內部,因此
能大幅度提升系統的效率及解決頻寬的問題。除此之
外,本篇論文還針對 H.264 視訊壓縮系統中最複雜且消
耗功率最多的移動估計模組提出資料重新使用的架構設
計及快速演算法,在維持影像品質的情況下,大量減少
運算量和資料讀取,並且以三級 pipeline 的系統架構,
有效的實現 H.264 編碼器,此設計是目前唯一可支援到
HD1080 H.264 視訊編碼的晶片,不論是面積和功率消耗
都很節省且有競爭力。
2. A 19-mode 8.29mm2 52-mW LDPC Decoder Chip for IEEE
802.16e System
這篇論文是台灣大學吳安宇教授之學生施信毓所提
出的,是一顆能支援 LDPC decoding 的晶片,我對通訊
晶片的設計不是很了解,因此這裡並沒有要說明這顆晶
片在演算法或架構設計上的特點,這裡要特別提到的是
這顆晶片在平面規劃上特色,相較以往的晶片多是將記
憶放在晶片的四周,這顆晶片使用了大量的記憶體,並
把這些記憶體以西洋棋盤式的平均分佈在晶片內部,我
覺得這是一種突破,在未來的設計中,晶片中將會有大
量的記憶體存在,新的平面規劃方式將會變得很重要。
三、 建議或分享計畫
這是每年在積體電路設計領域最重要的會議之一,在會場中
可以看到世界各地的研究者在這個領域的研究成果,會議內
容非常集中,很多都蠻值得去聽一聽,因此參加一次,可說
是獲益良多,最後,我也建議做電路設計方面研究的研究生
能多去參加這樣的會議,以提升自己的能見度。
四、
攜回資料名稱及內容
•