• 沒有找到結果。

本章將介紹實驗結果、使用者介面、以及實驗時所使用到的器材設備。5.1 節將說明在實驗進行之前的準備工作;5.2 節將介紹虛擬導播系統如何進行實驗,

其中包含實驗器材以及實驗的初步結果;5.3 節則是與其他決策方法做比較。

5.1、實驗前的準備工作

本節將介紹實驗進行之前必須準備的工作,如使用者介面的設計以及畫面

決模型的訓練,都將在此節中詳細說明。

5.1.1、使用者介面

如同真實的導播機,使用者介面設計如圖 5-1 所示,在介面上方有三個方框,

分別顯示來自三部攝影機拍攝到的影像(演講者畫面、觀眾畫面、以及全景畫面),

圖 5-1、虛擬導播系統之使用者介面。

49

左下方最大的方框則是顯示經過決策後,想要播出的畫面。右下方則是操控面板,

若是需要虛擬導播自動選鏡時,便按下位於右下方的虛擬導播鍵即可自動選鏡;

使用者若是想要手動選取畫面,也可選擇面板上方的三個選取畫面鍵(播放演講 者畫面鍵、播放觀眾畫面鍵、播放全景畫面鍵)。下方其餘按鍵,則可提供使用 者觀看特徵擷取後的影像(圖 5-2),用以確認畫面的決策是否合理。

圖 5-2、操控面板。

(左上)選取全景畫面的顯著圖像、(右上)選取全景畫面的三一法則示意圖、

(左下)選取講者畫面的光流向量圖、(右下)選取觀眾畫面的 ROF 圖。

50

5.1.2、訓練(training)決策模型

虛擬導播系統所使用的訓練資料,是本實驗室於團體會議時所錄製的,影片 時間總長為 47 分鐘,擷取前面 15 分鐘共 27000 張影格(frames)做為訓練資料。

由於本系統使用 CPN 網路作為畫面決策的模型,CPN 網路屬於監督式學習 網路,因此本實驗邀請一位傳播相關科系並且具有導播經驗的學生,替訓練資料 提供預期的輸出結果;也就是說,將先前錄製好的演講影片播放給這位同學看,

同時播放在相同時空下的講者畫面、觀眾畫面、以及全景畫面,並請這位傳播相 關科系同學扮演真實導播的角色,替這些畫面選取最適合的畫面播放。而在選取 播放畫面的同時,系統也同時在訓練決策模型。而訓練決策模型時,只需按下操 控面板右下角的按鍵(圖 5-4),切換成訓練模式即可開始手動選鏡。

圖 5-3、人工選鏡以提供預期輸出資料。

圖 5-4、人工選鏡之使用者介面。

51

5.2、實驗設備與初步結果

本節將詳細說明實驗如何進行,其中包含器材的選擇與連接,接著提出初步 的實驗結果。

5.2.1、實驗器材與架設方式

虛擬導播系統是一套能夠即時決定播出畫面的系統,建立在自動化演講錄製 系統之下,攝影機架設位置於 2.3 節已說明,在此我們將介紹系統所使用的設備。

負責拍攝觀眾的觀眾攝影機(audience camera),是由一台可動式 PTZ 攝影機 以及一台無線 PTZ 攝影機組成。如圖 5-5 右圖,放置於上方的無線 PTZ 攝影機 模擬攝影師的眼睛,負責偵測拍攝現場的動態,經過虛擬攝影師的判斷之後,便 控制位於下方的可動式 PTZ 負責拍攝錄製。

負責拍攝演講者的講者攝影機(speaker camera)。同樣也是由兩台攝影機所組 成,如圖 5-6,放置於上方的是由微軟 (Microsoft)公司所開發的體感裝置 Kinect,

此裝置最重要的特色是可以獲得深度影像,並且能夠估計人類的骨架位置等相關 資訊,讓負責拍攝講者的虛擬攝影師可以由這些資訊中判斷講者的動作、位置等

圖 5-5、實驗設備一(左)可動式 PTZ 攝影機、(中)無線 PTZ 攝影機、(右)攝影機 架設方式。

52

資訊,進而控制位於下方的可動式 PTZ 攝影機,調整攝影機拍攝感興趣的畫面。

負責拍攝觀眾與講者的全景攝影機,與前方的攝影機距離較遠,因此本系統 所使用的錄製設備是 D-LINK 所開發的無線網路攝影機(圖 5-6 右圖),以解決連 接線路過長的問題。

至於這些設備的連接,我們分別用運兩台電腦執行錄影工作以及虛擬導播的 工作,以及使用五台攝影機進行偵測與拍攝,因此設備與設備之間的溝通相當重 要,為了確保訊息能夠及時傳送,我們使用一台無線的乙太網路交換器(switch) 將多台設備連接起來,連接方式如圖 5-7 所示。

圖 5-6、實驗設備二(左)Kinect 體感攝影機、(中)攝影機架設方式、 (右)無線網 路攝影機。

圖 5-7、設備間的連接關係圖。

53

5.2.2、初步結果

圖 5-8 顯示的是虛擬導播即時選鏡的結果,運用上述的設備及架構方式錄製 演講現場並即時進行畫面決策。

5.3、與其他決策方法的比較

由於判斷選鏡結果的優劣通常較為主觀,因此本實驗將虛擬導播系統的實驗 結果與其他決策方式做相對的比較。一般在做多屬性決策時,要將多種元素整合 在一起並且綜合考慮後做出一個決定,以線性組合的方式(LC)最為常見。因此我 們將本實驗(CPN)的結果與線性組合的方式做比較。實驗比較分析的內容,將分 成以下三種狀況:首先是演講時無特殊事件發生,第二項是觀眾發問時的情境,

最後是講者與觀眾有頻繁互動時。

frame:01 frame:64 frame:249

圖 5-8、即時選鏡結果圖。

54

a.演講時無特殊事件發生時

圖 5-9 是在演講時沒有特殊事件的情況分別決策出來的結果,即使在沒有特 殊事件發生的狀況下,CPN 也比 LC 的結果切換畫面的次數多,使得畫面較為豐 富,而當演講者有指示動作出現時,皆能將畫面切換到講者攝影機。

Linear combination CPN

frame:472

frame:477

frame:554

frame:596

frame:632

frame:663

圖 5-9、演講時無特殊事件發生的選鏡結果比較。

55

b. 觀眾發問時

由於系統的輸入資料是單純的影像資訊,當有觀眾發問卻沒有明顯的動作時,

很難被偵測出來,而經過學習的 CPN 系統便可以解決這個問題。

Linear combination CPN

frame:602

frame:624

frame:645

frame:689

frame:716

frame:737

圖 5-10、觀眾發問時的選鏡結果比較。

56

57

人工選鏡的比較結果,相似度為 55.8%;而本系統所提出的方法與人工選鏡結果 的相似度為 81.7%。由此可知,經過學習後的畫面決策模型較貼近人工選鏡的手 法。

與人工選鏡結果之相似度比較(共 1417 張 frames)

CPN LC

81.7% 55.8%

表 5-1、與人工選鏡結果之相似度比較。

58

相關文件