多點視訊會議技術之研究 -- 林大衛教授 - 基於MPEG標準之多媒體通訊整合平台及其應用---總計畫(I)

近年來，桌上型視訊會議技術已愈趨實用與可即。然而目前一般的系統仍不具有近似當面開會的視聽感覺。本計畫主旨在研究分散式桌上型多點視訊會議技術，其中特別著重視訊的處理。我們擬在每個會議端點的電腦螢幕上顯示一個虛擬的會議室場景，其中呈現所有其他端點的與會人員。為此，每一端點需先將本地輸入視訊加以分割，取出與會者影像予以編碼，然後傳到其他端點。每一端點也需將所有接收到的視訊予以解碼及

合成。本計畫之研究係建構在 MPEG-4 規範的基礎上，採用個人電腦為實現平台。計畫之研究子題可分四大組：會議系統、網路傳輸、傳送視訊處理、與接收視訊處理，預定以三年時間進行研究。本報告係針對第一年之研究，其中著重視訊分割技術、有效率之 MPEG-4 視訊編碼、及 MPEG-4 規範之了解。在視訊分割方面，我們提出了一些做法，

並使用個人電腦實作了一個即時視訊輸入與分割系統。在 MPEG-4 視訊編碼方面，我們使用一個公眾領域的軟體加以改進，在個人電腦上實現了一個較快速的 MPEG-4 視訊編碼器。在其他 MPEG-4 相關規範之了解方面，我們研讀了有關場景合成與訊號傳輸介面的文獻，也試取得相關軟體並檢驗其功能。

(1) 緣由與目的

計畫主旨在研究桌上型多點視訊會議之相關技術，並建構一個實驗性之系統。本計畫之研究標的，可透過圖 7-1 說明之。圖中左方呈示之個人電腦(PC)及螢幕(display)，為每一會議點所使用之設備。螢幕顯示一個虛擬之會議室(virtual conference room)，其中之視訊為所有其他會議點所傳來之與會人員視訊的一個合成(composition)。會議室場景及各人的位置是由主席安排。螢幕上另有二個視窗，即控制台(control panel)與本地視訊之預覽(local preview)。我們發現：最近擬訂的 MPEG-4 標準，其中的若干規範相當適合本研究之所需。例如：其視訊編碼部分容許將視訊分割後再編碼，其資料結構與合成部分定義了一個相當有效率的 BIFS (Binary Format for Scenes)，其網路傳輸部分定義了 DMIF (Delivery Multimedia Integration Framework)等。故本計畫之研究係基於 MPEG-4 之規範。

圖 7-1：多點視訊會議系統架構示意圖

本計畫之研究子題可分為四個群組，即會議系統、網路傳輸、傳送視訊處理、及接收視訊處理，預定以三年時間進行相關研究。本報告係針對第一年之研究，其中重點為第三群組子題之深入研究，以及第二與第四兩群組子題之初步探討。申言之，在第三群組子題，即傳送視訊處理方面，我們研究了視訊分割技術與有效率之 MPEG-4 視訊編碼。關於視訊分割，我們提出了一些適用於會議型態影像的視訊分割方法，並使用個人電腦實作了一個簡單的即時視訊輸入與分割系統，目前在繼續改進其運算速度中。關於 MPEG-4 視訊編解碼，我們使用一個公眾領域的軟體加以改進，在個人電腦上實現了一個較快速的 MPEG-4 視訊編碼器。而在第二及第四群組子題，即網路傳輸與接收視訊處理兩方面，我們研讀了有關 MPEG-4 場景合成與訊號傳輸介面之規範的文獻，也試取得相關軟體並檢驗其功能。在第二年度之研究中，我們將較著重第二及第四群組子題的探討，也擬開始第一群組子題，即會議系統之研究。上述視訊編碼器改進過程中所累積的經驗，可為第四群組子題中，視訊解碼器實現之參考。

(2) 結果與討論

A. 視訊分割：更精確界定物件邊界及將分割結果用於場景合成之研究

本研究所提出的視訊分割演算法架構如圖 7-2 所示。其中 “Edge Detection” 使用 Canny edge detector； “Change Detection” 係將兩畫框(frame)間相異程度較高的像素取

出稱為 changed pixels； “Forward Tracking” 及 “Backward Validation” 係使用階層式運動估計，等效之搜尋範圍為正負 14 像素，複雜度約與全尋法相似。“Video Object Ex-traction” 為最創新之部分，使用形態學式(morphological)之處理，以獲得一相當逼近實際物件邊界之物件草型(object mask)，然後用 Dijkstra 最短路徑演算法 (D. W. Dijkstra, “A note on two problems in connexion with graphs,” Numerische Mathematik, vol. 1, pp.

269-271, 1959) 連結草型外緣邊界之「斷裂」之處，以得到最後萃取出之物件。由於 Dijkstra 演算法之複雜度與其所需搜尋的像素數目成平方關係，故當物件草型相當逼近實際物件邊界時，Dijkstra 演算法之複雜度可以降低。

FRAME MEMORY DETECTION

CHANGE EDGE FRAME n

TRACKING

BACKWARD VALIDATION INPUT

VIDEO FORWARD

FRAME n−1 DETECTION

FRAME n−p

VIDEO OBJECT EXTRACTION

圖 7-2：所提出之視訊物件萃取與追蹤方法之一

以上 video object extraction 方法，在物件形狀高度非凸狀(highly nonconvex)時，特別能顯出其效用。圖 7-3 顯示一些視訊分割結果，其中最後之 Dijkstra 演算法所用之搜尋深度為 Dw = 5。配以較高速之運動估計法，整個分割法可對 CIF (352x288)視訊在現有ㄧ般個人電腦中達每秒數十張畫框之即時執行速度。

80 150

圖 7-3：一些 Mother-and-Daughter 視訊之分割結果。上列：原始圖框；下列：分割出之移動物件。底部數字為圖框序號

B. 視訊分割：使用背景建構法分割視訊以及即時視訊分割系統之實現

在此，我們設計一種方法來收集各個畫框中的背景部份，建構出一個盡量完整的背景圖。然後將現在收到的畫框與背景圖比較，把差異很大的部份取出並做一些修飾，就

可以將移動的前景物件分割出來了。

我們首先分析視訊中的攝影機雜訊量(Camera Noise Estimation)。我們設計了ㄧ個二級的方法來估計雜訊的變異數，以減低移動物件對估計精確度的負面影響。其次，我們構建一個暫時性的前景物件草型(temporary foreground mask)。這是使用 Frame Differ-ence、Fill-In、及 Canny Operator 三個功能方塊達成。其中 Frame Difference 取得畫框中變異較大的像素，Fill-in 將像素間的空白處填滿，使其涵蓋移動物件的區域，Canny Operator 及相隨的運算則使區域內縮，使之更接近實際的物件形狀(但可能仍有相當差異)。圖 7-4(a)所示為一個結果的例子。第三，我們構建一個短期的背景(Short-term Background Estimation)。這是透過分析連續六張畫框來達成。如果某ㄧ像素值在這些畫框中變化不大，則暫將之算為背景像素。圖 7-4 (b)所示為一個結果的例子。第四，我們使用以上結果來構建一個靜態背景畫面(Stationary Background Buffer)。由於移動物件若是內部的亮度與色彩相當平滑，則在簡單的分析中，有可能被誤判為背景，所以我們使用之前獲得的暫時性前景物件草型來將短期背景像素予以加權，如果其累積之加權值超過某ㄧ門檻，再將之放入最終的靜態背景畫面。繼續上例，圖 7-4 (c)所示為根據圖 7-4 (a) 所得之權值，其中黑色表示最高的權值(比較可靠的背景部份)，白色表示最低的權值 (零)，灰色表示中等的權值。最後分割結果在圖 7-4 (d)。

(a) (b) (c) (d) 圖 7-4：演算過程中之部分結果

C. 有效率之 MPEG-4 視訊編碼

由於我們考慮使用個人電腦做會議系統的平台，所以需要在其上建構一個有效率的 MPEG-4 視訊編碼器。此處我們使用 Microsoft 公司開發的一個公眾領域的 MPEG-4 視訊編碼軟體，在個人電腦上，試改良程式寫法，並使用 Intel CPU 的 MMX (multimedia extension) 處理器單元以加速其運算。上述編碼軟體係處於 MPEG-4 視訊定義之 Main Profile 和 Simple Scalable Profile 之層次。

我們遂分析 MPEG-4 視訊編碼軟體，找到其中較耗時的部份。然後使用適用的 MMX 處理器指令來加速。上述分析，主要是藉助於 Intel 的 VTune performance analyzer。此軟體工具提供 tree-structured call graph、各函式使用時間百分比及使用之 clockticks 等資料，相當有助於了解程式的瓶頸所在，並可用以比較修改前及修改後之程式運作差異。

程式中第一耗時的，如一般可預期，是運動估計。對有的視訊而言，可佔 90%以上的運算時間。我們也使用較快速(但效果稍遜)的運動估計法作實驗。實驗顯示 Foreman 視訊的編碼速率，其中原始程式約為每秒 3 張畫框，修改後但使用相同運動估計法(FS, 即 full search)的程式約每秒 7 張，改用較快速的運動估計法(DS = diamond search, NDS = new diamond search, 2DLS = two-dimensional logarithmic search)則可達每秒 20 張。

在文檔中基於MPEG標準之多媒體通訊整合平台及其應用---總計畫(I) (頁 20-24)