目前有許多國際組織都在致力於製定公開標準技術的多媒體傳輸服務。除了 3GPP 和 ISMA 外,MPEG 也正在製訂一個通用的多媒體傳輸架構 MPEG-21。MPEG-21 的標準 和 3GPP 及 ISMA 所製訂的標準主要差異在於後二者的標準是針對特定的網路架構和客 戶端功能而設計,因而在實作上的技術大抵已有定案。而 MPEG-21 則採取較高層、較 抽象的架構設計。如何將 MPEG-21 的概念實現則仍是一個十分有潛力的研究題目.另 外 MPEG-21 試圖涵蓋的技術範圍也比較大。本計畫的主要目的在研究及設計在 MPEG-21 的架構下適用於 MPEG 多媒體數位內容的封包交換式網路傳輸機制、協定、
及模擬測試環境。
(1) 緣由與目的
一個完整的分散式數位多媒體系統含蓋的範圍極廣,包括數位內容的製作、數位資 料庫的建立、使用者收費機制、智財權保護機制、媒體傳輸伺服器、應用服務介面,和 媒體接收播放器的設計等等。為了能有一個統一的國際標準能達到建構互通的分散式多 媒體系統的目的,MPEG 國際標準組織在西元 2001 年開始製訂一個新的國際標準:
MPEG-21。
由於整個系統的重點在於能橫跨不同的網路架構和在不同的客戶端設備上(PC、手 機、PDA 等等)提供一致而且最高品質的多媒體傳輸播放服務,因此傳輸系統的設計必 須能動態的根據不同的平台調整。簡言之,一個數位多媒體傳輸系統的架構必需包含流 量控制和容錯機制。另外,依據客戶端的能力來調整媒體資料流品質的能力也是十分重 要的。本計畫的主要目的在研究以 MPEG 的多媒體 codecs 及 IETF 的通訊傳輸協定為 核心的系統在不同的網路之下的流量控制和容錯機制。 另外,本計畫也會發展一個完 整的多媒體 IP 網路測試模擬環境以提供多媒體應用系統進行效能分析.這樣的網路模
擬器,對於多媒體傳輸系統的設計,具有極高的價值。特別是多媒體通訊協訂,必須能 有相當的強軔性,以對付一個不可靠的通訊管道所有可能產生的資料誤失。在發展系統 的過程中,一個可控制的完整的通訊網路模擬器,將可幫助鎖定需要加強的部份。另外,
也可以有利於改進現有的通訊協訂,以及幫助分析多媒體網路一些參數的調整對整個傳 輸系統設計會產生的影響。
(2) 結果與討論
本計畫主要的重點在於制定 MPEG-21 的多媒體傳輸共通測試平台。目前此平台標 準已經成為 Committee Draft (CD),在短期內就會成為國際標準。在這個整合計畫下,
總計畫團隊為 MPEG 所設計的開放原始碼包含了完整的可調式媒體伺服器、網路摸擬 器、及媒體播放器。詳細的架構請參考 ISO/IEC JTC 1/SC 29, Information Technology – Multimedia Framework (MPEG-21) – Part 12: Test Bed for MPEG-21 Resource Delivery, ISO/IEC TR 21000-12: 2004(E), 2004。
另外,在流量控制和容錯機制的設計方面,為配合 MPEG-21 Scalable Video Codec 的 標準制定及 MPEG-21 Digital Item Adaptation 的理念,我們進行了碼率失真最佳化
(rate-distortion optimized)可調式串流傳輸機制的設計。目前在這方面較知名的是由 P.
A. Chou 等人發展的系統 (P. A. Chou and Z. Miao, "Rate-distortion optimized streaming of packetized media," IEEE Transactions on Multimedia, February 2001)。不過這套方法目前發 表的成果以理論分析為主,在實作上有很多細節並沒有提出解決方案,而且在頻寬變化 大的網路環境下,串流傳輸最難達到的平滑播放要求也沒有考量。
在可調式位元串流傳輸中,影像資料可以分成好幾次傳送,每次的傳送都可以幫助 解碼端得到更接近於原影像資料的重建訊號,因此可調式位元串流的調適 (scalable bitstream adaptation) 設計必須考慮到如下幾點:必須支援多樣化的更新運作(update op-erations)以產生有效可解碼的串流、將資料刪除時不能違反解碼相關性(decoding de-pendencies)的原則、允許在各個次元(dimensions)的可調性、對於媒體的特性 (如:碼率、
失真率、frame rate、frame size…等)必須提供所有可能的可調適性、針對不同的調適單 元(adaptation units)可能必須設計不同的調適決策、對於網路服務品質(quality of service , QoS) 設計所有可能的調適方法。媒體資源的傳遞和調適在可調適的地點 (location of adaptation) 我們可以分成:傳送端驅動調適(sender-driven adaptation)、接收端驅動調適 (receiver-driven adaptation)、網路驅動調適(network-driven adaptation)等三個不同的類別 來考量。而對於可調式位元串流系統,可以把視訊資料分成一個基礎層和一個或多個加 強層,解碼器可以選擇只解碼基礎層以獲得較低品質的重建訊號,或再加上一些加強層 以獲得較高品質的重建訊號。
本計畫針對以下傳輸模組進行設計以達到最佳的全維度可調式媒體動態傳輸的效 能:
1. 媒體封包相依性控制:媒體封包相依控制 (packet dependency control) 的設計目標是 針對提供較高的錯誤抵抗能力 (higher error-resilience) 和消除影像封包的重傳 (re-transmission) 需求。典型的多媒體串流在影像封包之間具有強烈的相依關係,如果 其中一個影像封包在傳送過程中丟失,則與這個封包有相依關係且跟隨在後的 frames 在解碼時將可能會受到影響.網路調適性的媒體封包相依控制模組可以用來 改善可調式多媒體串流的錯誤抵抗能力和減少延遲 (latency),在此,可以運用一個 樹狀的模型來記錄通道的封包丟失率 (channel loss rate) 和錯誤傳遞 (error propaga-tion)以達成有效的控制機制。
2. 碼率最佳化傳輸控制:這部份的設計是針對前述 Chou 的方法進行改良.一個多媒體 封包傳送的率碼失真最佳化控制架構必需在資料單元群組之間利用解出 Lagrangian cost function of expected rate and distortion 的最小值來有效率的分配時間和頻寬的網 路資源.在率碼失真最佳化控制的多媒體串流系統中,決定那些封包在每個可傳送 機會是否應該被試著傳遞到客戶端是依據此一封包的截止期限、傳送過程的歷史記 錄、通道的統計資料、回饋的資訊、封包間的相依性和如果封包可以在接收端正常 解碼之每一封包可以減少的失真度來一起進行評估。
3. 傳輸系統驅動的媒體播放速度控制:在媒體傳輸時封包與封包之間的到達時間是隨 機的,或者封包的到達時間雖然是有固定的時間但卻跟隨著連續隨機錯誤 (random errors bursts.)。動態媒體播放 (adaptive media playout) 允許我們在媒體 frames 的傳 送期間獨立分開的去調整播放的速度,並因而給我們在到達解碼端的截止期限 (arrival deadlines) 之前可設計一些控制機制,例如,以較慢的速度播放這個 frame,
並延長這個 frame 後續 frames 的到達截止期限,針對影像而言, frame 週期的調 整可以簡單的設計成調整每個 frame 的時間週期,另針對聲音而言,將音訊號處理 的過程與時間軸的刻度連結以維持訊號的品質。因此,動態媒體播放技術能被用在 多媒體串流系統以減少用戶端受到延遲的影響,用戶端的緩衝器可以用來對抗隨機 的封包遺失和延遲,但如果使用較大容量的緩衝器雖可以吸收掉較大的頻寬變動,
但也會在客戶端造成較長的播放延遲,動態媒體播放技術將利用可變動的播放速率 來緩解客戶端緩衝器溢滿缺空(buffer overflow and underflow) 的問題,並且降低播放 延遲的情形。一個先進的系統會分析在動態媒體播放技術中延遲和緩衝器溢滿缺空 的狀況,並調整動態播放的速率以防止緩衝器溢滿缺空的情形發生,其目標是將播 放的延遲 (playout delay) 最小化,並且降低因傳輸延遲時間太長而誤以為封包遺失 的比率 (late loss rate)。
4. TCP-friendly 流量控制:這個傳輸模組是用來控制 data units 的傳送速率。當 data units 的群組較大時,我們應該限制傳送端的傳輸速率,如此一來傳送端和網路的資 源 才 不 會 被 太 多 的 傳 送 資 料 淹 沒 , 為 了 達 到 這 個 目 的 , 一 個 系 統 可 以 採 用 equation-based 的 TCP 流量控制機制,目的是讓 UDP-Based 的媒體播放傳輸系統 在傳送封包時,不要排擠同時在傳輸的 TCP 頻寬,並可使整個系統長時間的頻寬使 用量接近一般的 TCP session 頻寬用量.根據 TCP-friendly 流量控制所量測出來的 頻寬,多媒體串流可以被動態地調整傳送速率,並讓傳送速率的變化量儘可能的平 緩,以符合多媒體串流的需求。而在網路擁塞情況很嚴重時,不但可以充分利用目 前網路上的可用頻寬,並在與 TCP flow 競爭可用頻寬時也會讓 TCP flow 可以較公 平的分享可用頻寬。不過一般 TCP-friendly 的機制所慣用的“等差性流量增加,等 比性流量减小"演算法有一個很大的問題,就是位元速率會呈現出顯著的振盪特 性,它會嚴重地影響多媒體串流的品質一致性.目前我們正針對這個缺點進行改進。
5. 高等精細可調層次式視頻編碼技術之研究 --蔣迪豪教授
Recently, MPEG committee announces a call for proposal to gather various technologies on scalable video coding. The report includes the detailed technical descriptions about the pro-posal from NCTU. In summary, our propro-posal is an extension of the prior work SRFGS. In our new approach, we utilize the wavelet transform to offer the spatial scalability to SRFGS. In addition, we present a context adaptive binary arithmetic coding for the enhancement-layer bit-plane coding. With the added scalability in spatial dimension, our SRFGS becomes a fully scalable codec that can simultaneously support spatial, temporal and SNR scalabilities. Like SRFGS, we adopt H.264 as the base layer video codec.
(1) Prediction architecture for spatial scalability
To support spatial scalability, we additionally apply discrete wavelet transform (DWT) to the prediction error of each stack. The DWT is conducted before DCT and quantization. We elaborate the details of our modifications for supporting spatial scalability in our proposal to participate the competition of MPEG-21 Part-13 Scalable Video Coding.
A. Macroblock level coding procedure for spatial scalability
The H.264 encoder encodes the picture in a MB-by-MB manner.B. Wavelet transform and intra prediction at full resolution
Applying the wavelet transform to the prediction error may have problems when any intra MBs exist. As aforementioned, the original H.264 encoder conducts the coding in a MB-by-MB manner. When a MB is coded at intra mode, it is predicted by the neighboring reconstructed pixels. However, in our approach, the reconstructed pixels are not available during the prediction stage. For intra frames, we can simply solve the problem by applying the DWT on the original frame and encoding the new “original” frame, which may be not ap-plicable to the intra MBs in an inter frame. If we apply DWT first and then perform motion compensation on the coefficients of each band separately, we can not remove temporal corre-lation between DWT bands. To resolve the problem, we partition the coding procedures of inter MBs and intra MBs into two passes. In the first pass, we encode all the inter MBs and
Applying the wavelet transform to the prediction error may have problems when any intra MBs exist. As aforementioned, the original H.264 encoder conducts the coding in a MB-by-MB manner. When a MB is coded at intra mode, it is predicted by the neighboring reconstructed pixels. However, in our approach, the reconstructed pixels are not available during the prediction stage. For intra frames, we can simply solve the problem by applying the DWT on the original frame and encoding the new “original” frame, which may be not ap-plicable to the intra MBs in an inter frame. If we apply DWT first and then perform motion compensation on the coefficients of each band separately, we can not remove temporal corre-lation between DWT bands. To resolve the problem, we partition the coding procedures of inter MBs and intra MBs into two passes. In the first pass, we encode all the inter MBs and