系統流程

第二章系統架構

2.2 系統流程

整個自動演講錄製系統如圖2-6 所示，總共分成五個部分，手動控制

(Manual control) 、虛擬攝影師(Virtual cameraman)^、虛擬導演（Virtual director），

自動化內容分析（Spatio-temporalanalysis）^、投影片擷取(Slide obtainment)。其中虛擬攝影師為三個不同視角位置的鏡頭(Speaker^、Audience^、Overview)。

圖 2.6 系統架構流程圖

2.2.1 手動控制

在我們的自動拍攝系統，預留了給使用者(例如:導播)手動操作的空間(如圖 2.7)，包含鏡頭的選取以及攝影機的控制，皆可由使用者手動進行介入操作，以因應使用者可能會有特殊拍攝意圖或構圖。圖3-7 所示上下左右的按鈕分別為攝影機的控制，右邊的拖曳把則是提供攝影機zoom in、zoom out 的功能。

圖 2.7 攝影機手動操控介面

2.2.2 虛擬攝影師

虛擬攝影師的部分依照其擺放位置，分別為拍攝演講者（Speaker），拍

攝觀眾(Audience)，整體畫面(Overview)，以下針對各部分做詳細說明。

拍攝演講者（Speaker）:

拍攝演講者主要分成兩個程序為偵測演講者與攝影機自動控制，在偵測演講者位置的方面，由於此部攝影機針對拍攝的是演講者在講台上的行為，而且演講者會時常將視線重心擺在觀眾上，面向觀眾及我們的攝影機，因此我們可以利用 Viola 與 Jones 提出的 Adaboost 演算法偵測出人臉，並配合 mean shift 演算法做持續的追蹤。

演講者在演講時常會有許多動作，而攝影機的拍攝位置必須根據演講者的動作做相對應的決策，所以我們使用較利於偵測使用者軀幹的KINECT 來配合偵測使用者的動作，也可用於補助演講者位置的偵測。如圖2-8 藍色框線所示。

拍攝觀眾（Audience）:拍攝觀眾主要分成兩個部分，偵測提問，與攝影機自動追蹤提問觀眾。如圖2.8 黃色框線所示。

拍攝整體畫面(Overview)：由於整體畫面的切換時機是避免畫面單調，與演講者離開講台等，所以此台攝影機的控制為簡單的轉動，並持續輸出畫面給予虛擬導播機即可。如圖2.8 綠色框線所示。

圖 2.8 各部分攝影機分鏡畫面

2.2.3 虛擬導播

虛擬導播接受來自各角度的攝影機畫面，其主要分成場景規則分析(Rule- based

analysis)與時空分析(Spatio-temporalanalysis)兩個部分，最後做出正確的選鏡決策。

場景規則分析(Rule-based analysis)：

依據目前演講的狀況，例如演講者指出手勢，觀眾發問等，我們選擇使用有限狀態自動機(finite-state automaton)來表示各個狀態之間的轉換與輸出。依照各虛擬攝影師所回報的狀態當作輸入，並以切換規則建立各個狀態，輸出的信號為目前可被選鏡的攝影機，而可能的選擇不只一種，輸出的結果會進入shot change decision system，配合時空分析產生最終選鏡決策。

時空分析(Spatio-temporalanalysis):

三台攝影機輸入畫面，依照對比度，色彩，飽和度以及藝術美學的規則，選擇出三台當中較符合人類美學觀感的攝影機，並輸出進入shot change decision system，以配合場景規則分析產生最終選鏡決策。

選鏡決策分析（shot change decision system）：

根據場景規則分析與時空分析所產生的輸出，判斷出最終選鏡決策並切換鏡頭。如圖（2.9）

圖 2.9 最終選鏡畫面

2.2.4 投影片擷取(Slide obtainment)

為了獲得清晰度高的投影片，採取直接由投影端電腦透過網路將顯示畫面直接輸出到導播機的做法。主要使用windows api 將畫面內容儲存記憶體中，由於在記憶體中是以bitmap 的格式，直接輸出的的檔案空間太大，在網路傳輸中需耗時較久，所以將圖片以jpeg 壓縮法進行壓縮以利於增進傳輸速度。

在網路傳輸方面，主要是使用winsocket 開啟兩端的埠(port)以及兩邊的 IP 位址(IP address)做對應，將圖片以封包(packet)的形式做傳送，導播機收到封包之後，

將圖片解回jpeg 輸出。

在文檔中自動化演講錄製系統 (頁 24-30)

第二章 系統架構

2.2 系統流程

第二章系統架構