• 沒有找到結果。

多點視訊會議技術之研究 -- 林大衛教授

近年來,桌上型視訊會議技術已愈趨實用與可即。然而目前一般的系統仍不具有近似 當面開會的視聽感覺。本計畫主旨在研究分散式桌上型多點視訊會議技術,其中特別著 重視訊的處理。我們擬在每個會議端點的電腦螢幕上顯示一個虛擬的會議室場景,其中 呈現所有其他端點的與會人員。為此,每一端點需先將本地輸入視訊加以分割,取出與 會者影像予以編碼,然後傳到其他端點。每一端點也需將所有接收到的視訊予以解碼及

合成。本計畫之研究係建構在 MPEG-4 規範的基礎上,採用個人電腦為實現平台。計畫 之研究子題可分四大組:會議系統、網路傳輸、傳送視訊處理、與接收視訊處理,預定 以三年時間進行研究。本報告係針對第一年之研究,其中著重視訊分割技術、有效率之 MPEG-4 視訊編碼、及 MPEG-4 規範之了解。在視訊分割方面,我們提出了一些做法,

並使用個人電腦實作了一個即時視訊輸入與分割系統。在 MPEG-4 視訊編碼方面,我們 使用一個公眾領域的軟體加以改進,在個人電腦上實現了一個較快速的 MPEG-4 視訊編 碼器。在其他 MPEG-4 相關規範之了解方面,我們研讀了有關場景合成與訊號傳輸介面 的文獻,也試取得相關軟體並檢驗其功能。

(1) 緣由與目的

計畫主旨在研究桌上型多點視訊會議之相關技術,並建構一個實驗性之系統。本計畫 之研究標的,可透過圖 7-1 說明之。圖中左方呈示之個人電腦(PC)及螢幕(display),為每 一會議點所使用之設備。螢幕顯示一個虛擬之會議室(virtual conference room),其中之視 訊為所有其他會議點所傳來之與會人員視訊的一個合成(composition)。會議室場景及各 人的位置是由主席安排。螢幕上另有二個視窗,即控制台(control panel)與本地視訊之預 覽(local preview)。我們發現:最近擬訂的 MPEG-4 標準,其中的若干規範相當適合本研 究之所需。例如:其視訊編碼部分容許將視訊分割後再編碼,其資料結構與合成部分定 義了一個相當有效率的 BIFS (Binary Format for Scenes),其網路傳輸部分定義了 DMIF (Delivery Multimedia Integration Framework)等。故本計畫之研究係基於 MPEG-4 之規範。

圖 7-1:多點視訊會議系統架構示意圖

本計畫之研究子題可分為四個群組,即會議系統、網路傳輸、傳送視訊處理、及接 收視訊處理,預定以三年時間進行相關研究。本報告係針對第一年之研究,其中重點為 第三群組子題之深入研究,以及第二與第四兩群組子題之初步探討。申言之,在第三群 組子題,即傳送視訊處理方面,我們研究了視訊分割技術與有效率之 MPEG-4 視訊編 碼。關於視訊分割,我們提出了一些適用於會議型態影像的視訊分割方法,並使用個人 電腦實作了一個簡單的即時視訊輸入與分割系統,目前在繼續改進其運算速度中。關於 MPEG-4 視訊編解碼,我們使用一個公眾領域的軟體加以改進,在個人電腦上實現了一 個較快速的 MPEG-4 視訊編碼器。而在第二及第四群組子題,即網路傳輸與接收視訊處 理兩方面,我們研讀了有關 MPEG-4 場景合成與訊號傳輸介面之規範的文獻,也試取得 相關軟體並檢驗其功能。在第二年度之研究中,我們將較著重第二及第四群組子題的探 討,也擬開始第一群組子題,即會議系統之研究。上述視訊編碼器改進過程中所累積的 經驗,可為第四群組子題中,視訊解碼器實現之參考。

(2) 結果與討論

A. 視訊分割:更精確界定物件邊界及將分割結果用於場景合成之研究

本研究所提出的視訊分割演算法架構如圖 7-2 所示。其中 “Edge Detection” 使用 Canny edge detector; “Change Detection” 係將兩畫框(frame)間相異程度較高的像素取

出稱為 changed pixels; “Forward Tracking” 及 “Backward Validation” 係使用階層式運 動估計,等效之搜尋範圍為正負 14 像素,複雜度約與全尋法相似。“Video Object Ex-traction” 為最創新之部分,使用形態學式(morphological)之處理,以獲得一相當逼近實 際物件邊界之物件草型(object mask),然後用 Dijkstra 最短路徑演算法 (D. W. Dijkstra, “A note on two problems in connexion with graphs,” Numerische Mathematik, vol. 1, pp.

269-271, 1959) 連結草型外緣邊界之「斷裂」之處,以得到最後萃取出之物件。由於 Dijkstra 演算法之複雜度與其所需搜尋的像素數目成平方關係,故當物件草型相當逼近 實際物件邊界時,Dijkstra 演算法之複雜度可以降低。

FRAME MEMORY DETECTION

CHANGE EDGE FRAME n

TRACKING

BACKWARD VALIDATION INPUT

VIDEO FORWARD

FRAME n−1 DETECTION

FRAME n−p

VIDEO OBJECT EXTRACTION

圖 7-2:所提出之視訊物件萃取與追蹤方法之一

以上 video object extraction 方法,在物件形狀高度非凸狀(highly nonconvex)時,特別能 顯出其效用。圖 7-3 顯示一些視訊分割結果,其中最後之 Dijkstra 演算法所用之搜尋深 度為 Dw = 5。配以較高速之運動估計法,整個分割法可對 CIF (352x288)視訊在現有ㄧ 般個人電腦中達每秒數十張畫框之即時執行速度。

80 150

圖 7-3:一些 Mother-and-Daughter 視訊之分割結果。上列:原始圖框;下列:分割出之 移動物件。底部數字為圖框序號

B. 視訊分割:使用背景建構法分割視訊以及即時視訊分割系統之實現

在此,我們設計一種方法來收集各個畫框中的背景部份,建構出一個盡量完整的背 景圖。然後將現在收到的畫框與背景圖比較,把差異很大的部份取出並做一些修飾,就

可以將移動的前景物件分割出來了。

我們首先分析視訊中的攝影機雜訊量(Camera Noise Estimation)。我們設計了ㄧ個二 級的方法來估計雜訊的變異數,以減低移動物件對估計精確度的負面影響。其次,我們 構建一個暫時性的前景物件草型(temporary foreground mask)。這是使用 Frame Differ-ence、Fill-In、及 Canny Operator 三個功能方塊達成。其中 Frame Difference 取得畫框 中變異較大的像素,Fill-in 將像素間的空白處填滿,使其涵蓋移動物件的區域,Canny Operator 及相隨的運算則使區域內縮,使之更接近實際的物件形狀(但可能仍有相當差 異)。圖 7-4(a)所示為一個結果的例子。第三,我們構建一個短期的背景(Short-term Background Estimation)。這是透過分析連續六張畫框來達成。如果某ㄧ像素值在這些畫 框中變化不大,則暫將之算為背景像素。圖 7-4 (b)所示為一個結果的例子。第四,我們 使用以上結果來構建一個靜態背景畫面(Stationary Background Buffer)。由於移動物件若 是內部的亮度與色彩相當平滑,則在簡單的分析中,有可能被誤判為背景,所以我們使 用之前獲得的暫時性前景物件草型來將短期背景像素予以加權,如果其累積之加權值超 過某ㄧ門檻,再將之放入最終的靜態背景畫面。繼續上例,圖 7-4 (c)所示為根據圖 7-4 (a) 所得之權值,其中黑色表示最高的權值(比較可靠的背景部份),白色表示最低的權值 (零),灰色表示中等的權值。最後分割結果在圖 7-4 (d)。

(a) (b) (c) (d) 圖 7-4:演算過程中之部分結果

C. 有效率之 MPEG-4 視訊編碼

由於我們考慮使用個人電腦做會議系統的平台,所以需要在其上建構一個有效率的 MPEG-4 視訊編碼器。此處我們使用 Microsoft 公司開發的一個公眾領域的 MPEG-4 視 訊編碼軟體,在個人電腦上,試改良程式寫法,並使用 Intel CPU 的 MMX (multimedia extension) 處理器單元以加速其運算。上述編碼軟體係處於 MPEG-4 視訊定義之 Main Profile 和 Simple Scalable Profile 之層次。

我們遂分析 MPEG-4 視訊編碼軟體,找到其中較耗時的部份。然後使用適用的 MMX 處理器指令來加速。上述分析,主要是藉助於 Intel 的 VTune performance analyzer。此軟 體工具提供 tree-structured call graph、各函式使用時間百分比及使用之 clockticks 等資 料,相當有助於了解程式的瓶頸所在,並可用以比較修改前及修改後之程式運作差異。

程式中第一耗時的,如一般可預期,是運動估計。對有的視訊而言,可佔 90%以上 的運算時間。我們也使用較快速(但效果稍遜)的運動估計法作實驗。實驗顯示 Foreman 視訊的編碼速率,其中原始程式約為每秒 3 張畫框,修改後但使用相同運動估計法(FS, 即 full search)的程式約每秒 7 張,改用較快速的運動估計法(DS = diamond search, NDS = new diamond search, 2DLS = two-dimensional logarithmic search)則可達每秒 20 張。