系統架構

第二章系統架構

本章節將詳細說明虛擬導播系統的設計原理、系統架構、以及流程圖。2.1 節將描述本系統的設計理念；2.2 節中則針對系統的運作流程及架構做詳細的說明；2.3 節則是介紹實驗的架設環境。

2.1、虛擬導播系統的設計理念

錄製一場演講或是電視節目時，為了使得節目的內容更豐富、完整，常運用多部攝影機從不同的角度拍攝，再將所有拍攝到的畫面傳送至導播機(video

mixer、switcher，如圖 2-1)；導播機是導播工作的平台，具有可隨時切換播出畫面或添加特效、字幕等功能。而導播的工作便是從傳送至導播機的數個畫面中，

將所錄製演講或節目忠實地傳達給觀眾。因此導播在選鏡時，必須尋找觀眾可能感興趣的線索並結合自身的經驗，挑選出最適合播放的畫面，並且尋找適當的時機，透過導播機的操控將該畫面播送出去。

圖 2-1、導播機。(資料來源：Google)

根據上述導播在真實世界中的運作方式(如圖 2-2)，本研究設計出一套虛擬導播系統的運作流程(如圖 2-3 所示)，並將此流程分為五個階段：第一階段為影像序列的輸入：藉由多台攝影機拍攝節目或演講現場，將拍攝到的畫面作為系統的輸入影像；第二階段的工作是影像資訊的分析與擷取：導播在選鏡時，必須從所得的畫面中找出可用的線索，以利將訊息忠實的傳達給觀眾。因此，本階段將運用不同方面的評估準則，對輸入的影像進行分析，並且將分析後的結果傳送至第三階段進行播放影像的決策；第三步即為選鏡階段，此階段將綜合考量上述的評估結果，決定出一個最適合播放的畫面，並將結果傳送至第四階段；第四階段為事後製作階段，又稱為後製作業，在該階段通常由導播伴隨剪輯師以及特效師，

對最後欲輸出的畫面進行「美編」，比方說加上字幕、配樂、影片特效等，最後再由輸出階段將編輯完成的畫面播送出去。本研究即專注在前四個階段。

圖 2-2、節目錄製流程之示意圖。

圖 2-3、虛擬導播系統之運作流程圖。

2.2、虛擬導播系統架構

由於本研究是建立在自動化演講錄製系統之下的子系統，因此導播系統的輸入影像是分別來自拍攝演講者、聽眾、以及全景的影像，如圖 2-4。接著對輸入影像進行資訊擷取，從中找出可用的線索，本研究將此階段分成兩步驟進行，先是擷取影像中在評估畫面時所需的特徵，接著藉由這些擷取到的特徵，進行影像內容的分析，本論文將在 2.2.1 節詳細描述資訊擷取的運作流程，最後將於 2.2.2 節說明系統在選鏡階段時使用的決策模型。

2.2.1、影像資訊的分析與擷取

模擬真實導播的行為，導播在判斷單一畫面是否能呈現演講或節目的精神前，

必須要先從該畫面中找到足夠的線索。因此我們將影像資訊的分析與擷取階段分圖 2-4、虛擬導播系統示意圖。

為兩部分，分別為影像之特徵擷取以及畫面的內容物分析。

內容物分析

內容物分析階段主要是在評估畫面可提供給導演的訊息與畫面的品質，系統從光學(optical analysis)、美學(aesthetic analysis)、連續性(continuity analysis)、以及動作情節(action analysis)等方面整理出多個評估準則，如表 2-1 所示。其中光學分析包含了曝光度(exposure)、畫面清晰度(region of focus)、以及飽和度 (saturation)等資訊；美學分析則包含有三一法則(rule of third)、視覺平衡(visual balance)、主體大小 (size of saliency)等。以上兩種分析主要是評估畫面在視覺上的優劣；而連續性分析中，包含有亮度連續(illuminance continuity)、色彩連續(color

continuity)、景別連續(scene continuity)、以及主體位置連續(position continuity)，

其評選目標在於切換畫面時，能夠避免人類視覺以及直覺上的混淆，盡可能使銜接的畫面看起來流暢且連續；而情節動作分析主要以判斷攝影機運鏡行為為主，

透過攝影機運鏡的方式，進而挑選出觀賞者可能感興趣的畫面。

表 2-1、畫面評選的準則。

特徵擷取

依據上述的評選準則，資訊擷取階段的流程圖規劃如上圖 2-5，在特徵擷取階段，系統將對每一張輸入影像擷取四項特徵。第一項特徵是角點偵測(corner

detection)與光流向量估計(optical flow estimation)，此項特徵為情節動作分析中，

用來判斷攝影機運鏡情況的資訊；第二項特徵是將具有主體動態線索的 attention

map[Fan03]以及具有主體靜態線索的 multi-scale contrast saliency map 結合之後，

製作一張顯著圖像(saliency map)用來尋找顯著物體的所在位置，攝影美學分析中所有的構圖準則與連續性分析中的主體位置連續準則，皆需要此項資訊來做評估。

而光學分析以及連續性分析中的亮度連續與色彩連續，評估方式是建立在 HSV 色彩空間中，因此我們需要將原本在 RGB 色彩空間的輸入影像轉換至 HSV 色彩空間。最後一項特徵 ROF map 則是利用梯度影像找出影像中可能聚焦的區域，

圖 2-5、影像資訊的分析與擷取之流程圖。

此區域會和主體位置做對照，判斷畫面是否聚焦在主體上。在畫面資訊擷取階段一共獲得了十三種不同項目的評估結果，此評估結果即為虛擬導播能從畫面中得到的資訊，此資訊以分數表示，其值域為 0 到 1 的數值，接著再將這些分數送入選鏡階段。

2.2.2、選鏡階段

選鏡階段是導播必須綜合考量所有畫面提供的資訊，並依據經驗格選擇出一個較佳的畫面播出。在選鏡階段所使用的是反傳遞類神經網路

(counter-propagation network, CPN)[Hec87]。CPN 網路屬於一種監督式類神經網路，能夠依據不同訓練資料，將輸入資料對應至預期的輸出中。主要功能是當輸入資料與預期輸出之間的關係並非線性，而是利用某些特定的規則聯繫此關係時，

CPN 網路能夠學習並建立一組”規則庫”，紀錄所有規則，將輸入資料對應至相對應的輸出上。考慮真實導播在選鏡時並沒有特定的準則，而是憑藉著經驗建立一套獨特的”規則庫”，利用畫面提供的資訊與此規則庫做對照，並選取最適合的畫面播出。而 CPN 網路的訓練與運作方式，正符合現實導播的運作流程，因此本系統使用 CPN 網路來學習真實世界導播的選鏡技巧。

綜合 2.2.1 與 2.2.2 兩節，虛擬導播完整的系統架構設計如圖 2-6。

2.3、系統環境架設

一場完整的演說中，演講者以及觀眾的組成扮演著重要的角色。因此，錄製演說時，不可避免的，需要一台攝影機拍攝演講者，稱之為講者攝影機(speaker camera)；同時也需要另一台攝影機負責拍攝觀眾，稱作觀眾攝影機 (audience camera)。除此之外，為了使得觀賞者更有臨場感，加上畫面切換時能夠呈現更豐富的內容，本系統架設了一台全景攝影機(overview camera)，負責拍攝演講者與觀眾在演講場地內與空間的關係。以上三組攝影機，皆有各自的拍攝任務，在自動化演講錄製系統中，稱其為「虛擬攝影師」(virtual cameraman)，而其拍攝出之畫面，將傳入虛擬導播系統中進行選鏡的工作。攝影機架設位置如圖 2-7 所示，最大的藍色區域為演講場地，講台的右側是負責拍攝觀眾的觀眾攝影機

圖 2-6、虛擬導播系統之完整流程圖。

(audience camera)，由一台可動式 PTZ 攝影機以及一台無線 PTZ 攝影機組成。放置於上方的無線 PTZ 攝影機模擬攝影師的眼睛，負責偵測拍攝現場的動態，經過虛擬攝影師的判斷之後，便控制位於下方的可動式 PTZ 負責拍攝錄製；位於場地中間並面對講台的是負責拍攝演講者的講者攝影機(speaker camera)。同樣也是由兩台攝影機所組成，放置於上方的是由微軟(Microsoft)公司所開發的體感裝置 Kinect，此裝置最重要的特色是可以獲得深度影像，並且能夠估計人類的骨架位置等相關資訊，讓負責拍攝講者的虛擬攝影師可以由這些資訊中判斷講者的動作、位置等資訊，進而控制位於下方的可動式 PTZ 攝影機，調整攝影機拍攝感興趣的畫面。

位在演講場地最後方的是負責拍攝觀眾與講者的全景攝影機，與前方的攝影機距離較遠，因此本系統所使用的錄製設備是 D-LINK 所開發的無線網路攝影機，

以解決連接線路過長的問題，圖 2-8 為系統拍攝出之輸入畫面。

圖 2-7、演講錄製場地配置圖。

圖 2-8、系統輸入畫面(左)拍攝講者、(中)拍攝觀眾、(右)拍攝全景。

在文檔中自動化演講錄製系統之虛擬導播子系統 (頁 18-27)

第二章 系統架構

2.1、虛擬導播系統的設計理念

2.2、虛擬導播系統架構

2.3、系統環境架設

第二章系統架構