• 沒有找到結果。

系統流程

在文檔中 自動化演講錄製系統 (頁 24-30)

第二章 系統架構

2.2 系統流程

整個自動演講錄製系統如圖2-6 所示,總共分成五個部分,手動控制

(Manual control) 、虛擬攝影師(Virtual cameraman)虛擬導演(Virtual director),

自動化內容分析(Spatio-temporalanalysis)投影片擷取(Slide obtainment)。其中 虛擬攝影師為三個不同視角位置的鏡頭(SpeakerAudienceOverview)。

14

圖 2.6 系統架構流程圖

2.2.1 手動控制

在我們的自動拍攝系統,預留了給使用者(例如:導播)手動操作的空間(如圖 2.7),包含鏡頭的選取以及攝影機的控制,皆可由使用者手動進行介入操作,以 因應使用者可能會有特殊拍攝意圖或構圖。圖3-7 所示上下左右的按鈕分別為攝 影機的控制,右邊的拖曳把則是提供攝影機zoom in、zoom out 的功能。

15

圖 2.7 攝影機手動操控介面

2.2.2 虛擬攝影師

虛擬攝影師的部分依照其擺放位置,分別為拍攝演講者(Speaker),拍

攝觀眾(Audience),整體畫面(Overview),以下針對各部分做詳細說明。

拍攝演講者(Speaker):

拍攝演講者主要分成兩個程序為偵測演講者與攝影機自動控制,在偵測演講 者位置的方面,由於此部攝影機針對拍攝的是演講者在講台上的行為,而且演講 者會時常將視線重心擺在觀眾上,面向觀眾及我們的攝影機,因此我們可以利用 Viola 與 Jones 提出的 Adaboost 演算法偵測出人臉,並配合 mean shift 演算法做持 續的追蹤。

16

演講者在演講時常會有許多動作,而攝影機的拍攝位置必須根據演講者的動 作做相對應的決策,所以我們使用較利於偵測使用者軀幹的KINECT 來配合偵測 使用者的動作,也可用於補助演講者位置的偵測。如圖2-8 藍色框線所示。

拍攝觀眾(Audience):拍攝觀眾主要分成兩個部分,偵測提問,與攝影機自動追 蹤提問觀眾。如圖2.8 黃色框線所示。

拍攝整體畫面(Overview):由於整體畫面的切換時機是避免畫面單調,與演講者離 開講台等,所以此台攝影機的控制為簡單的轉動,並持續輸出畫面給予虛擬導播 機即可。如圖2.8 綠色框線所示。

圖 2.8 各部分攝影機分鏡畫面

2.2.3 虛擬導播

虛擬導播接受來自各角度的攝影機畫面,其主要分成場景規則分析(Rule- based

analysis)與時空分析(Spatio-temporalanalysis)兩個部分,最後做出正確的選鏡決策。

17

場景規則分析(Rule-based analysis):

依據目前演講的狀況,例如演講者指出手勢,觀眾發問等,我們選擇使用有 限狀態自動機(finite-state automaton)來表示各個狀態之間的轉換與輸出。依照各虛擬 攝影師所回報的狀態當作輸入,並以切換規則建立各個狀態,輸出的信號為目前 可被選鏡的攝影機,而可能的選擇不只一種,輸出的結果會進入shot change decision system,配合時空分析產生最終選鏡決策。

時空分析(Spatio-temporalanalysis):

三台攝影機輸入畫面,依照對比度,色彩,飽和度以及藝術美學的規則,選 擇出三台當中較符合人類美學觀感的攝影機,並輸出進入shot change decision system,以配合場景規則分析產生最終選鏡決策。

選鏡決策分析(shot change decision system):

根據場景規則分析與時空分析所產生的輸出,判斷出最終選鏡決策並切換鏡 頭。如圖(2.9)

18

圖 2.9 最終選鏡畫面

2.2.4 投影片擷取(Slide obtainment)

為了獲得清晰度高的投影片,採取直接由投影端電腦透過網路將顯示畫面直 接輸出到導播機的做法。主要使用windows api 將畫面內容儲存記憶體中,由於 在記憶體中是以bitmap 的格式,直接輸出的的檔案空間太大,在網路傳輸中需耗 時較久,所以將圖片以jpeg 壓縮法進行壓縮以利於增進傳輸速度。

在網路傳輸方面,主要是使用winsocket 開啟兩端的埠(port)以及兩邊的 IP 位 址(IP address)做對應,將圖片以封包(packet)的形式做傳送,導播機收到封包之後,

將圖片解回jpeg 輸出。

19

在文檔中 自動化演講錄製系統 (頁 24-30)

相關文件