• 沒有找到結果。

多點視訊會議技術之研究 -- 林大衛教授

近年來,桌上型視訊會議技術已愈趨實用與可即。然而目前一般的系統仍不具有近似當 面開會的視聽感覺。本計畫主旨在研究分散式桌上型多點視訊會議技術,其中特別著重 視訊的處理,但也探討系統的整合。我們擬想中的系統,是在每個會議端點的電腦螢幕 上顯示一個虛擬的會議室場景,其中呈現所有其他端點與會人員的合成影像。為此,每 一端點需先將本地輸入視訊加以分割,取出與會者影像予以編碼,然後併同聲訊傳到其 他端點。每一端點也需將所有接收到的視訊及聲訊予以解碼及合成。本計畫之研究係建 構在MPEG-4 規範的基礎上,採用個人電腦為實現平台。其中之研究子題可分四大組:

會議系統、網路傳輸、傳送視訊處理、與接收視訊處理。本計畫原定以三年時間進行研 究。本報告係針對第二年之研究,其中著重視訊分割技術、傳送端系統整合技術、及接 收端系統整合技術。在視訊分割方面,我們提出了一些演算法。在傳送端系統整合方面,

我們將過去已實現的視訊分割法、加速後的MPEG-4 視訊編碼程式、一個 MPEG-4 聲訊 編碼程式、以及一個RTP 網路傳輸程式,在個人電腦上加以整合,形成了一個傳送端系 統的雛型。在接收端系統整合方面,我們則將一個 RTP 網路傳輸程式、一個 MPEG-4 視訊解碼程式、以及一個MPEG-4 聲訊解碼程式,在個人電腦上加以整合,並設計了一 個多視訊結合的方法,將以上組合成了一個接收端系統的雛型。

(1) 緣由與目的

本計畫主旨在研究桌上型多點視訊會議之相關技術,並建構一個實驗性之系統。本計畫 擬想中之視訊會議系統,可透過圖 7-1 說明之。圖中左方呈示之個人電腦(PC)及螢幕 (display),為每一會議點所使用之設備。螢幕顯示一個虛擬之會議室(virtual conference room),其中之視訊為所有其他會議點所傳來之與會人員視訊的一個合成(composition)。

會議室場景及各人的位置可考慮由一位與會者統一安排。螢幕上另有二個視窗,即控制 台(control panel)與本地視訊之預覽(local preview)。

圖7-1:多點視訊會議系統架構示意圖

本計畫之研究子題可分為四個群組,即會議系統、網路傳輸、傳送視訊處理、及接收視 訊處理,原定是以三年時間進行相關研究。本報告係針對第二年之研究,其中重點在第 三群組中的視訊分割技術,以及第一群組的傳送端系統整合技術與接收端系統整合技 術。在視訊分割方面,我們提出了一些演算法。在傳送端系統整合方面,我們將過去已 實現的視訊分割法、加速後的MPEG-4 視訊編碼程式、一個 MPEG-4 聲訊編碼程式、以 及一個RTP 網路傳輸程式,在個人電腦上加以整合,形成了一個傳送端系統的雛型。在 接收端系統整合方面,我們則將一個RTP 網路傳輸程式、一個 MPEG-4 視訊解碼程式、

以及一個MPEG-4 聲訊解碼程式,在個人電腦上加以整合,並設計了一個多視訊結合的 方法,將以上組合成了一個接收端系統的雛型。

(2) 結果與討論

a. 視訊分割演算法之進一步研究與結果

視訊分割有兩大核心議題,一是物件邊界之精確界定,二是運算複雜度。一個常見的設 計是先透過時空域分析來獲取有興趣之物件的大略位置與形狀,然後試著對物件的邊界 做更精確的界定。關於後者,有幾個常見得作法,分別是曲線演化(contour evolution)、

分水嶺分析(watershed analysis)、及銳緣連結(edge linking)。我們考慮最後這種途徑,並 提出幾個有效率又相當準確的方法。

第一個方法是建立在兩個簡單的想法上。想法之一是使用物件已知的大略位置與形狀來 減少需要搜尋的像素區域,之二是有效地使用搜尋區域內所已經偵測到的銳緣。圖7-2 顯示這個方法的程序。其中CDM Round-Out 是檢視上述已經大略定出位置及形狀的物 件,其中若有中空之處,或是有一二個像素寬的隙縫,就將之填滿,以形成一個實心體。

Boundary Tightening 是假設實心體最靠外的銳緣就是物件的真實邊界,因此將實心體的 外圍內縮,盡量刪去這些靠外的銳緣之外的像素。但是,使用銳緣偵測方法所找到的銳 緣,常有斷裂之處,不能完整定義物件邊界,所以還要經過Shortest-Path Search 來把斷 裂的地方接起來。Shortest-Path Search 的複雜度和所需搜尋的範圍有關。經過前面兩步 驟的處理,可以降低搜尋範圍,所以可以降低複雜度。實驗結果也顯示以上方法可以獲 得相當準確的物件邊界。

CDM Round−Out

Boundary Tightening Mask Sketch

Shortest−

SearchPath

RefinementMask

Fig. 7-2: One of the proposed methods for refinement of video segmentation.

第二個方法也是採用銳緣連結,但是用了一個自創的、比上述方法中的Shortest-Path Search 更簡化的銳緣連結方法。實驗結果顯示,在一個具備 1.8 GHz Pentium CPU 的個 人電腦上,使用一個尚未優化的程式,對CIF 視訊做分割,平均每畫面只需約 30-40 ms。

因此本方法適用於即時桌上型視訊會議。

b. 傳送端系統整合技術之研究與成果

如前述,我們考慮建構一個視訊會議系統,其中與會者的影像在接收端要在解碼後合成 一個虛擬的會議場景。因此,我們需要在各個傳送端將當地與會者的影像分割出來,然 後編碼傳送出去。此外,各傳送端也要將當地的音訊加以編碼送出。MPEG-4 的若干規 範,相當適合這樣的應用。我們所建構的傳送端雛形系統結構如圖7-3 所示。使用一個 具備Intel Centrino Pentium M 1.5 GHz CPU 及 512 MB DDR RAM 的個人電腦,在 Microsoft Windows XP Professional Version 2002 作業系統下所作的實驗結果,顯示我們 所建構之尚未優化的程式可以達到每秒約10.7 張 CIF 畫面的處理速度。

Fig.7-3: Architecture of videoconference transmitter system.

c. 接收端系統整合技術之研究與成果

本節所述的研究,是與上節互相配合,但分別進行。在上述視訊會議系統的接收端,需 要將各地傳來的視訊和音訊個別加以解碼,然後組合並輸出。其中視訊畫面的組合很費 工夫,也是本研究一個重點。我們所設計的系統,架構如圖7-4 所示。為了簡單,我們 暫時假設所有視訊的訊框率(frame rate)皆相同。(這不是太嚴重的限制。)我們在程式中,

任意令一個接收到的視訊主控解碼與輸出的時序。因為音視訊來源的數目可能會隨時間 而變化,主控的視訊也可能退出會議。所以我們在程式中設計了一個簡單的機制來處理 這個情況,讓程式可以任意選用令一個存在的視訊取得主控地位。實驗顯示,系統的處 理速度在只有一個CIF 視訊時約為每秒 11.2 畫面,二個視訊時約每秒 5.2 畫面,三個視 訊時則約每秒3.6 畫面。因此,處理速度約與視訊數目成反比。

Fig. 7-4: Structure of the proposed videoconference receiver.