實驗結果 - 自動化演講錄製系統之虛擬導播子系統

本章將介紹實驗結果、使用者介面、以及實驗時所使用到的器材設備。5.1 節將說明在實驗進行之前的準備工作；5.2 節將介紹虛擬導播系統如何進行實驗，

其中包含實驗器材以及實驗的初步結果；5.3 節則是與其他決策方法做比較。

5.1、實驗前的準備工作

本節將介紹實驗進行之前必須準備的工作，如使用者介面的設計以及畫面

決模型的訓練，都將在此節中詳細說明。

5.1.1、使用者介面

如同真實的導播機，使用者介面設計如圖 5-1 所示，在介面上方有三個方框，

分別顯示來自三部攝影機拍攝到的影像(演講者畫面、觀眾畫面、以及全景畫面)，

圖 5-1、虛擬導播系統之使用者介面。

左下方最大的方框則是顯示經過決策後，想要播出的畫面。右下方則是操控面板，

若是需要虛擬導播自動選鏡時，便按下位於右下方的虛擬導播鍵即可自動選鏡；

使用者若是想要手動選取畫面，也可選擇面板上方的三個選取畫面鍵(播放演講者畫面鍵、播放觀眾畫面鍵、播放全景畫面鍵)。下方其餘按鍵，則可提供使用者觀看特徵擷取後的影像(圖 5-2)，用以確認畫面的決策是否合理。

圖 5-2、操控面板。

(左上)選取全景畫面的顯著圖像、(右上)選取全景畫面的三一法則示意圖、

(左下)選取講者畫面的光流向量圖、(右下)選取觀眾畫面的 ROF 圖。

5.1.2、訓練(training)決策模型

虛擬導播系統所使用的訓練資料，是本實驗室於團體會議時所錄製的，影片時間總長為 47 分鐘，擷取前面 15 分鐘共 27000 張影格(frames)做為訓練資料。

由於本系統使用 CPN 網路作為畫面決策的模型，CPN 網路屬於監督式學習網路，因此本實驗邀請一位傳播相關科系並且具有導播經驗的學生，替訓練資料提供預期的輸出結果；也就是說，將先前錄製好的演講影片播放給這位同學看，

同時播放在相同時空下的講者畫面、觀眾畫面、以及全景畫面，並請這位傳播相關科系同學扮演真實導播的角色，替這些畫面選取最適合的畫面播放。而在選取播放畫面的同時，系統也同時在訓練決策模型。而訓練決策模型時，只需按下操控面板右下角的按鍵(圖 5-4)，切換成訓練模式即可開始手動選鏡。

圖 5-3、人工選鏡以提供預期輸出資料。

圖 5-4、人工選鏡之使用者介面。

5.2、實驗設備與初步結果

本節將詳細說明實驗如何進行，其中包含器材的選擇與連接，接著提出初步的實驗結果。

5.2.1、實驗器材與架設方式

虛擬導播系統是一套能夠即時決定播出畫面的系統，建立在自動化演講錄製系統之下，攝影機架設位置於 2.3 節已說明，在此我們將介紹系統所使用的設備。

負責拍攝觀眾的觀眾攝影機(audience camera)，是由一台可動式 PTZ 攝影機以及一台無線 PTZ 攝影機組成。如圖 5-5 右圖，放置於上方的無線 PTZ 攝影機模擬攝影師的眼睛，負責偵測拍攝現場的動態，經過虛擬攝影師的判斷之後，便控制位於下方的可動式 PTZ 負責拍攝錄製。

負責拍攝演講者的講者攝影機(speaker camera)。同樣也是由兩台攝影機所組成，如圖 5-6，放置於上方的是由微軟 (Microsoft)公司所開發的體感裝置 Kinect，

此裝置最重要的特色是可以獲得深度影像，並且能夠估計人類的骨架位置等相關資訊，讓負責拍攝講者的虛擬攝影師可以由這些資訊中判斷講者的動作、位置等

圖 5-5、實驗設備一(左)可動式 PTZ 攝影機、(中)無線 PTZ 攝影機、(右)攝影機架設方式。

資訊，進而控制位於下方的可動式 PTZ 攝影機，調整攝影機拍攝感興趣的畫面。

負責拍攝觀眾與講者的全景攝影機，與前方的攝影機距離較遠，因此本系統所使用的錄製設備是 D-LINK 所開發的無線網路攝影機(圖 5-6 右圖)，以解決連接線路過長的問題。

至於這些設備的連接，我們分別用運兩台電腦執行錄影工作以及虛擬導播的工作，以及使用五台攝影機進行偵測與拍攝，因此設備與設備之間的溝通相當重要，為了確保訊息能夠及時傳送，我們使用一台無線的乙太網路交換器(switch) 將多台設備連接起來，連接方式如圖 5-7 所示。

圖 5-6、實驗設備二(左)Kinect 體感攝影機、(中)攝影機架設方式、 (右)無線網路攝影機。

圖 5-7、設備間的連接關係圖。

5.2.2、初步結果

圖 5-8 顯示的是虛擬導播即時選鏡的結果，運用上述的設備及架構方式錄製演講現場並即時進行畫面決策。

5.3、與其他決策方法的比較

由於判斷選鏡結果的優劣通常較為主觀，因此本實驗將虛擬導播系統的實驗結果與其他決策方式做相對的比較。一般在做多屬性決策時，要將多種元素整合在一起並且綜合考慮後做出一個決定，以線性組合的方式(LC)最為常見。因此我們將本實驗(CPN)的結果與線性組合的方式做比較。實驗比較分析的內容，將分成以下三種狀況：首先是演講時無特殊事件發生，第二項是觀眾發問時的情境，

最後是講者與觀眾有頻繁互動時。

frame:01 frame:64 frame:249

圖 5-8、即時選鏡結果圖。

a.演講時無特殊事件發生時

圖 5-9 是在演講時沒有特殊事件的情況分別決策出來的結果，即使在沒有特殊事件發生的狀況下，CPN 也比 LC 的結果切換畫面的次數多，使得畫面較為豐富，而當演講者有指示動作出現時，皆能將畫面切換到講者攝影機。

Linear combination CPN

frame:472

frame:477

frame:554

frame:596

frame:632

frame:663

圖 5-9、演講時無特殊事件發生的選鏡結果比較。

b. 觀眾發問時

由於系統的輸入資料是單純的影像資訊，當有觀眾發問卻沒有明顯的動作時，

很難被偵測出來，而經過學習的 CPN 系統便可以解決這個問題。

Linear combination CPN

frame:602

frame:624

frame:645

frame:689

frame:716

frame:737

圖 5-10、觀眾發問時的選鏡結果比較。

人工選鏡的比較結果，相似度為 55.8%；而本系統所提出的方法與人工選鏡結果的相似度為 81.7%。由此可知，經過學習後的畫面決策模型較貼近人工選鏡的手法。

與人工選鏡結果之相似度比較(共 1417 張 frames)

CPN LC

81.7% 55.8%

表 5-1、與人工選鏡結果之相似度比較。

在文檔中自動化演講錄製系統之虛擬導播子系統 (頁 58-68)