多點視訊會議技術之研究 -- 林大衛教授 - 基於MPEG標準之多媒體通訊整合平台及其應用---總計畫(II)

近年來，桌上型視訊會議技術已愈趨實用與可即。然而目前一般的系統仍不具有近似當面開會的視聽感覺。本計畫主旨在研究分散式桌上型多點視訊會議技術，其中特別著重視訊的處理，但也探討系統的整合。我們擬想中的系統，是在每個會議端點的電腦螢幕上顯示一個虛擬的會議室場景，其中呈現所有其他端點與會人員的合成影像。為此，每一端點需先將本地輸入視訊加以分割，取出與會者影像予以編碼，然後併同聲訊傳到其他端點。每一端點也需將所有接收到的視訊及聲訊予以解碼及合成。本計畫之研究係建構在MPEG-4 規範的基礎上，採用個人電腦為實現平台。其中之研究子題可分四大組：

會議系統、網路傳輸、傳送視訊處理、與接收視訊處理。本計畫原定以三年時間進行研究。本報告係針對第二年之研究，其中著重視訊分割技術、傳送端系統整合技術、及接收端系統整合技術。在視訊分割方面，我們提出了一些演算法。在傳送端系統整合方面，

我們將過去已實現的視訊分割法、加速後的MPEG-4 視訊編碼程式、一個 MPEG-4 聲訊編碼程式、以及一個RTP 網路傳輸程式，在個人電腦上加以整合，形成了一個傳送端系統的雛型。在接收端系統整合方面，我們則將一個 RTP 網路傳輸程式、一個 MPEG-4 視訊解碼程式、以及一個MPEG-4 聲訊解碼程式，在個人電腦上加以整合，並設計了一個多視訊結合的方法，將以上組合成了一個接收端系統的雛型。

(1) 緣由與目的

本計畫主旨在研究桌上型多點視訊會議之相關技術，並建構一個實驗性之系統。本計畫擬想中之視訊會議系統，可透過圖 7-1 說明之。圖中左方呈示之個人電腦(PC)及螢幕 (display)，為每一會議點所使用之設備。螢幕顯示一個虛擬之會議室(virtual conference room)，其中之視訊為所有其他會議點所傳來之與會人員視訊的一個合成(composition)。

會議室場景及各人的位置可考慮由一位與會者統一安排。螢幕上另有二個視窗，即控制台(control panel)與本地視訊之預覽(local preview)。

圖7-1：多點視訊會議系統架構示意圖

本計畫之研究子題可分為四個群組，即會議系統、網路傳輸、傳送視訊處理、及接收視訊處理，原定是以三年時間進行相關研究。本報告係針對第二年之研究，其中重點在第三群組中的視訊分割技術，以及第一群組的傳送端系統整合技術與接收端系統整合技術。在視訊分割方面，我們提出了一些演算法。在傳送端系統整合方面，我們將過去已實現的視訊分割法、加速後的MPEG-4 視訊編碼程式、一個 MPEG-4 聲訊編碼程式、以及一個RTP 網路傳輸程式，在個人電腦上加以整合，形成了一個傳送端系統的雛型。在接收端系統整合方面，我們則將一個RTP 網路傳輸程式、一個 MPEG-4 視訊解碼程式、

以及一個MPEG-4 聲訊解碼程式，在個人電腦上加以整合，並設計了一個多視訊結合的方法，將以上組合成了一個接收端系統的雛型。

(2) 結果與討論

a. 視訊分割演算法之進一步研究與結果

視訊分割有兩大核心議題，一是物件邊界之精確界定，二是運算複雜度。一個常見的設計是先透過時空域分析來獲取有興趣之物件的大略位置與形狀，然後試著對物件的邊界做更精確的界定。關於後者，有幾個常見得作法，分別是曲線演化(contour evolution)、

分水嶺分析(watershed analysis)、及銳緣連結(edge linking)。我們考慮最後這種途徑，並提出幾個有效率又相當準確的方法。

第一個方法是建立在兩個簡單的想法上。想法之一是使用物件已知的大略位置與形狀來減少需要搜尋的像素區域，之二是有效地使用搜尋區域內所已經偵測到的銳緣。圖7-2 顯示這個方法的程序。其中CDM Round-Out 是檢視上述已經大略定出位置及形狀的物件，其中若有中空之處，或是有一二個像素寬的隙縫，就將之填滿，以形成一個實心體。

Boundary Tightening 是假設實心體最靠外的銳緣就是物件的真實邊界，因此將實心體的外圍內縮，盡量刪去這些靠外的銳緣之外的像素。但是，使用銳緣偵測方法所找到的銳緣，常有斷裂之處，不能完整定義物件邊界，所以還要經過Shortest-Path Search 來把斷裂的地方接起來。Shortest-Path Search 的複雜度和所需搜尋的範圍有關。經過前面兩步驟的處理，可以降低搜尋範圍，所以可以降低複雜度。實驗結果也顯示以上方法可以獲得相當準確的物件邊界。

CDM Round−Out

Boundary Tightening Mask Sketch

Shortest−

SearchPath

RefinementMask

Fig. 7-2: One of the proposed methods for refinement of video segmentation.

第二個方法也是採用銳緣連結，但是用了一個自創的、比上述方法中的Shortest-Path Search 更簡化的銳緣連結方法。實驗結果顯示，在一個具備 1.8 GHz Pentium CPU 的個人電腦上，使用一個尚未優化的程式，對CIF 視訊做分割，平均每畫面只需約 30-40 ms。

因此本方法適用於即時桌上型視訊會議。

b. 傳送端系統整合技術之研究與成果

如前述，我們考慮建構一個視訊會議系統，其中與會者的影像在接收端要在解碼後合成一個虛擬的會議場景。因此，我們需要在各個傳送端將當地與會者的影像分割出來，然後編碼傳送出去。此外，各傳送端也要將當地的音訊加以編碼送出。MPEG-4 的若干規範，相當適合這樣的應用。我們所建構的傳送端雛形系統結構如圖7-3 所示。使用一個具備Intel Centrino Pentium M 1.5 GHz CPU 及 512 MB DDR RAM 的個人電腦，在 Microsoft Windows XP Professional Version 2002 作業系統下所作的實驗結果，顯示我們所建構之尚未優化的程式可以達到每秒約10.7 張 CIF 畫面的處理速度。

Fig.7-3: Architecture of videoconference transmitter system.

c. 接收端系統整合技術之研究與成果

本節所述的研究，是與上節互相配合，但分別進行。在上述視訊會議系統的接收端，需要將各地傳來的視訊和音訊個別加以解碼，然後組合並輸出。其中視訊畫面的組合很費工夫，也是本研究一個重點。我們所設計的系統，架構如圖7-4 所示。為了簡單，我們暫時假設所有視訊的訊框率(frame rate)皆相同。(這不是太嚴重的限制。)我們在程式中，

任意令一個接收到的視訊主控解碼與輸出的時序。因為音視訊來源的數目可能會隨時間而變化，主控的視訊也可能退出會議。所以我們在程式中設計了一個簡單的機制來處理這個情況，讓程式可以任意選用令一個存在的視訊取得主控地位。實驗顯示，系統的處理速度在只有一個CIF 視訊時約為每秒 11.2 畫面，二個視訊時約每秒 5.2 畫面，三個視訊時則約每秒3.6 畫面。因此，處理速度約與視訊數目成反比。

Fig. 7-4: Structure of the proposed videoconference receiver.

在文檔中基於MPEG標準之多媒體通訊整合平台及其應用---總計畫(II) (頁 22-25)