自動化演講錄製系統之虛擬導播子系統

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳世旺. 博士. 自動化演講錄製系統之虛擬導播子系統. Automatic Lecture Recording System – Virtual Director. 研究生：呂佳儒中華民國. 一○二. 年. 撰七. 月.

(2) 摘要自動化演講錄製系統之虛擬導播子系統 Automatic Lecture Recording System – Virtual Director 呂佳儒在一場演講或節目的錄製過程中，導播的角色主要是能將節目的內容和精神忠實地傳達給觀眾，為了達成此目標，導播藉由從多部攝影機對場景所拍攝的影像中，挑選出適合且符合節目精神的畫面播出。一位好的導播，必須能夠掌握群眾的心理來挑選畫面並且在適當的時機做切換。然而這些能力的養成，需要經過長時間的訓練與經驗累積。為了節省人力訓練的成本，本研究提出一套能夠模擬真實導播運作方式的系統，稱之為「虛擬導播系統」。本研究所提出的虛擬導播系統將具備下列的能力：分析攝影美學、光學、情節與動作連續性各方面資訊，對多個虛擬攝影師所傳來的畫面進行自動評估分析，再從其中挑選出適合的鏡頭。至於挑選畫面的方式，主要是藉著學習真實導播的操作手法而來。虛擬導播系統具有機器學習的能力，可以透過事先學得導播選鏡的技巧，以達到模擬真實導播的選鏡手法，使系統能更貼近真實的導播。本系統於自動分析評估畫面時，使用 FAST corner detection 與 optical flow estimation 偵測攝影機的運鏡狀況；以及結合包含動態資訊的 attention map 與包含靜態資訊的 static saliency map 製作顯著圖像，用以估計主體所在的位置及大小；並且使用平均位移分群演算法(mean shift clustering)，以區分出不同主體物等，.

(3) 根據上述等技術來實現對輸入影像進行攝影美學、光學、情節與動作連續性分析，並將評估所得的資訊輸入 Counter Propagation Network (CPN)網路進行訓練。由於該網路屬於監督式學習模型，為求實驗客觀與可用性，我們邀請傳播相關科系並且具有擔任導播經驗的人員替訓練資料提供預期的輸出，使虛擬導播選擇的畫面方式能更貼近專業導播的選鏡手法，並透過不同的真實導播的訓練模式，進而訓練出可適應不同風格的選鏡效果。. 關鍵字：虛擬導播、自動化影片剪輯、反傳遞類經網路、主體偵測、顯著圖像、光流向量估計、平均位移分群演算法。.

(4) ABSTRACT. Automatic Lecture Recording System – Virtual Director by Chia-Ju Lu. This article presents an automatic shot selection system which is simulating the real world director by neural network model, and we call this system “virtual director system (VD system)”. This system can be divided into two stages: (a) image analyzing stage (b) shot selection stage. In image analyzing stage, all the input image sequences would be evaluated by aesthetics analysis, optical analysis, action analysis, and continuity analysis. We detect the camera motion by FAST corner detection and optical flow estimation, and estimate the position of salient objects by saliency map and mean shift clustering algorithm. In addition, our system also extracts other features, i.e. the luminance and the saturation the image, the movement of salient objects. In shot selection stage, we use CPN neural network for learning the skill of shot selection from real world director. The input of CPN network is the scores which are estimated from the analyzing stage, and the range of these scores is [0, 1]. Especially, we invite a media subject student who has the experience of the program director for.

(5) providing the expected output of training data. In the result, the experimental results shows that our virtual director system can be trained form the different styles of the director and the different categories of the program. In addition, the training scheme makes our system more reliable than the conventional method which is using linear combination scheme.. Keywords: virtual director, automatic shot selection, neural network, CPN, saliency detection, optical flow estimation, mean shift clustering..

(6) 目. 錄. 第一章簡介 ........................................................................................................................... 1 1.1、研究動機 ...................................................................................................................... 1 1.2、文獻探討 ...................................................................................................................... 4 1.2.1、多重畫面的決策與剪輯 ....................................................................................... 5 1.2.2 影像品質的評估與分析 .......................................................................................... 6 1.3、論文架構 ...................................................................................................................... 7 第二章系統架構 ................................................................................................................... 8 2.1、虛擬導播系統的設計理念 .......................................................................................... 8 2.2、虛擬導播系統架構 .................................................................................................... 10 2.2.1、畫面資訊擷取 ..................................................................................................... 10 2.2.2、選鏡階段 ............................................................................................................. 13 2.3、系統環境架設 ............................................................................................................ 14 第三章影像品質的分析與評估 ......................................................................................... 17 3.1、美學分析(aesthetic analysis)...................................................................................... 17 3.1.1、美學評估準則 ..................................................................................................... 17 3.1.2、主體物偵測 ......................................................................................................... 19 3.1.3、美學評估分數 ..................................................................................................... 24 3.2、光學分析 .................................................................................................................... 25 3.2.1、光學評估準則 ..................................................................................................... 26 3.2.2、銳利度偵測 ......................................................................................................... 26 3.2.3、光學評估分數 ..................................................................................................... 28 3.3、攝影機動作分析 ........................................................................................................ 29 3.3.1、攝影機動作評估準則 ......................................................................................... 29 3.3.2、光流向量估計(optical flow estimation)運用於攝影機運鏡偵測 ...................... 30 3.3.3、動作分析評估分數 ............................................................................................. 32 3.4、時空連續分析 ............................................................................................................ 34 第四章多重畫面決策 ......................................................................................................... 38 i.

(7) 4.1、真實導播與 CPN 網路 .............................................................................................. 38 4.1.1、真實導播與 CPN 網路的連結 ........................................................................... 38 4.1.2、CPN 網路簡介 .................................................................................................... 40 4.2、CPN 網路學習演算法用於畫面決策 ....................................................................... 41 4.2.1、Kohonen 層學習演算法 ..................................................................................... 43 4.2.2、Grossberg 層學習演算法 .................................................................................... 45 4.2.3、Forward-mapping CPN 於測試(testing)階段之架構 ......................................... 46 第五章實驗結果 ................................................................................................................. 48 5.1、實驗前的準備工作 .................................................................................................... 48 5.1.1、使用者介面 ......................................................................................................... 48 5.1.2、訓練(training)決策模型 ...................................................................................... 50 5.2、實驗設備與初步結果 ................................................................................................ 51 5.2.1、實驗器材與架設方式 ......................................................................................... 51 5.2.2、初步結果 ............................................................................................................. 53 5.3、與其他決策方法的比較 ............................................................................................ 53 第六章結論與未來工作 ..................................................................................................... 58 6.1、結論 ............................................................................................................................ 58 6.2、未來工作 .................................................................................................................... 59 參考文獻 ................................................................................................................................. 60. ii.

(8) 附表目錄表 1-1、全球市場的數位學習產品及服務產值。………………………………..1 表 2-1、畫面評選的準則。………………………………………………………11 表 5-1、與真實導播選鏡結果之相似程度。……………………………………56. iii.

(9) 附圖目錄第一章、簡介圖 1-1、左圖為數位學堂介面、右圖為交通大學開放式課程系統。……………2 圖 1-2、現存產品。………………………………………………………………..4 第二章、系統架構圖 2-1、導播機。…………………………………………………………………..8 圖 2-2、節目錄製流程之示意圖。………………………………………………..9 圖 2-3、虛擬導播系統之運作流程圖。…………………………………………..9 圖 2-4、虛擬導播系統示意圖。…………………………………………………10 圖 2-5、資訊擷取階段之流程圖。………………………………………………12 圖 2-6、虛擬導播系統之完整流程圖。…………………………………………14 圖 2-7、演講錄製場地配置圖。………………………………………………....15 圖 2-8、系統輸入畫面。………………………………………………................16 第三章、影像品質的分析與評估圖 3-1、三一法則比較圖。…………………..…………………………………..18 圖 3-2、視覺平衡比較圖。……………………………………………………..18 圖 3-3、注意力圖像。…………………………………………………………....20 圖 3-4、STA 類神經網路架構圖………………………………………………..20 圖 3-5、輸入層與輸出層的權重連結圖。……………………………………....21 圖 3-6、墨西哥帽函數圖形。…………………………………………..………..21 圖 3-7、靜態主體物偵測流程圖。……………………………………………....22 圖 3-8、顯著圖。………………………………………..………………………..22 圖 3-9、平均位移演算法示意圖。…………..…………………………………..23 圖 3-10、平均位移演算法流程圖。……………...…………………………….. 24 圖 3-11、左排影像為輸入影像，右排為相對應之 ROF 圖。…………….……..27 圖 3-12、原始灰階影像之梯度圖(左)水平方向(右)垂直方向。……………….27 圖 3-13、原始灰階影像之細節圖(左)水平方向(右)垂直方向。………...……..27 圖 3-14、FAST 角點偵測示意圖。……………………………………………....30 圖 3-15、FAST 角點偵測結果圖，綠點為偵測到的特徵點。…………………..30 圖 3-16、Zoom in 範例。…………………………………………………..……..33 圖 3-17、Move-&-hold 範例。……………………….…………………………..33 圖 3-18、景別長短的比較。……………………………………………………..35. iv.

(10) 第四章、多重畫面決策圖 4-1、完全連結反傳遞類神經網路架構圖。……………………..…………..40 圖 4-2、Forward-mapping CPN 架構圖。………………………………………..41 圖 4-3、Kohonen 層與 Grossberg 層示意圖。……………………..……………..41 圖 4-4、winner-tak-all 示意圖。………………………………………………….43 圖 4-5、winner-take-all 演算法。………………………………………………...44 圖 4-6、Grossberg 演算法。……………………………………………………...45 圖 4-7、Forward-mapping CPN 之 testing 架構圖。……………………………..46 第五章、實驗結果圖 5-1、虛擬導播系統之使用者介面。…………………………………………47 圖 5-2、操控面板。………………………………………………………………48 圖 5-3、人工選鏡以提供預期輸出資料。………………………………………49 圖 5-4、人工選鏡之使用者介面。………………………………………………49 圖 5-5、實驗設備一。……………………………………………………………50 圖 5-6、實驗設備二。……………………………………………………………51 圖 5-7、設備間的連接關係圖。…………………………………………………52 圖 5-8、即時選鏡結果圖。………………………………………………………52 圖 5-9、演講時無特殊事件發生的選鏡結果比較。……………………………54 圖 5-10、觀眾發問時的選鏡結果比較。………………………………………55 圖 5-11、講者與觀眾互動頻繁時的選鏡結果比較。…………………………..56. v.

(11) 第一章. 簡介. 1.1、研究動機近年來，由於光纖網路(optical network)、無線網路(wireless network)與行動通訊網路(例如：3G、4G)的蓬勃發展，使用者已經不再僅僅只能透過定點式的電腦上網，更能夠透過手持式裝置或是平板電腦隨時隨地的上網漫遊、觀看網路上的多媒體資訊。伴隨著網路普及率以及民眾上網時數的提升，多媒體數位內容產業逐漸受到世界各國的重視，在高科技及教育的國家中，甚至將數位化的科技教育列為國家未來發展重點項目之一。根據美國研究機構 Ambient Sight 的調查報告顯示，在 2009 年時，數位學習或數位服務產值在全球已達到兩百多億美元，該機構進一步預估，產值將於 2014 年時攀升至將近五百億美元。. 表 1-1、全球市場的數位學習產品及服務產值。(資料來源：Ambient Sight). 1.

(12) 在各式各樣的數位多媒體學習服務中，演講錄製以及課程教學錄製更是近年來大專院校與學習機構的重點發展項目之一，而這些錄製完成的影片會被上傳到網路或雲端伺服器中，提供線上學習以及遠距教學等數位學習服務。在台灣，線上學習服務及遠距教學平台已經相當普及，像是補教界知名的數位學堂(圖 1-1，左圖)、以及國立交通大學的開放式課程系統(圖 1-1，右圖)，皆能夠幫助學生在課後自行加強練習，或者讓偏遠地區的學子也能一睹大師風采；在國外，知名的教學演講平台 TED 提供各國學者、機構將錄製好的演講上傳至網路，並可依據語言的不同添加字幕，隨時提供最新的演講與科技資訊，更是風靡全世界。由此可見，在這資訊爆發的時代，演講及課程錄製已在整個教育界與媒體傳播界中佔有相當重要的地位。. 圖 1-1、左圖為數位學堂介面、右圖為交通大學開放式課程系統。 (來源:TKB 數位學堂、國立交通大學). 要完整的錄製一場演講需要眾多的人力，而且準備工作相當繁複。在演講開始之前，攝影團隊必須先對拍攝的場地進行勘查作業，依照場地的限制來規劃人員的安排及器材的架設，最重要的是在事先規劃好的位置架設攝影機；在演講過程中，需要由多位攝影師利用已架設好的攝影機從不同的角度拍攝演講現場，並. 2.

(13) 且將畫面送給導播。而導播須從眾多傳送來的畫面中，選擇最能夠代表節目精神的畫面播放。而影響演講錄製成敗的關鍵，在於擔任導播的人員是否具有足夠的經驗與專業知識，能夠順利將演講的訊息忠實地傳達給觀賞者。導播主要負責的工作詳細描述如下：(1)選鏡：從多部攝影機所拍攝傳來的影像中，挑選出最適合並且符合節目精神的畫面播出。(2)指揮攝影師：為了能夠將訊息完整的傳遞，必須適時指揮攝影師拍攝所需要的畫面。(3)音效及特效合成與字幕搭配等。在各工作中，又以選鏡最為重要，畫面錯誤的選擇不僅導致無法傳達節目想表達的意念，更有可能傳達給觀眾錯誤的訊息，直接影響到節目的成敗。通常一名優秀的導播必須經歷過助理導播、攝影師、剪接師、技術指導等職位的歷練，才能掌握群眾心理，挑選觀賞者可能會感興趣的畫面，並在不違背視覺或直覺的情況下選擇切換畫面的時機等能力。然而這些能力的養成並非一蹴可幾，須經過長時間的經驗累積與在不同職位上的歷練而來，因此要養成一個導播的代價高昂。若是有一套能夠模擬真實導播的選鏡方式並且自動挑選畫面的系統，將能夠大量節省導播的訓練成本，而本研究即專注在虛擬導播系統的研發，並將所做之系統稱之「虛擬導播系統」。考慮虛擬導播系統必須具備下列的能力：能從攝影美學、光學、情節與動作連續性各方面，對多個虛擬攝影師所傳來的畫面進行自動評估分析，再從其中挑選出最佳的鏡頭。至於挑選畫面的方式，模擬真實導播選鏡的技巧是由經驗的累積累積而來，本實驗也透過學習的機制讓系統能夠學習真實導播的選鏡技巧，讓系統能更貼近真實的導播。. 3.

(14) 1.2、文獻探討為了降低演講錄製時所需的人力與設備成本，近年來有許多探討自動化錄製系統的研究及產品。自動化演講錄製系統最早是由[Cru94]提出，但是 Cruz 只使用一台位置固定的攝影機拍攝演講現場，呈現出來的畫面相當單調。即便使用了多台位置固定的攝影機分別拍攝講者、聽眾、和演講素材(投影片)，但是由於攝影機仍然是固定式架設，長時間觀看仍然非常容易造成人類感官上的疲勞。 [Bia98]則改進上述缺點，提出一套自動演說轉播系統，使用多台可動式攝影機拍攝，這些攝影機結合了影像分析軟體，能夠偵測到演講者所在的位置並且追蹤演講者的動態，藉此來控制攝影機運轉。[Oni04]則更進一步辨識演說者的動作，結合演講者的動作及其位置來決定攝影機的運作，已達成自動化拍攝的目標。. (a) (b) 圖 1-2、現存產品(a)多媒體全自動錄播系統輸出畫面 (資料來源：飛庭科技)。(b) HDVR 系統輸出畫面。(資料來源：控智科技). 除了學術界有相關研究之外，產業界也陸續推出自動化錄製的相關系統。飛庭科技於 2010 年推出「多媒體全自動錄播系統」，該系統主要針對學校於教學上 4.

(15) 的使用以及一般公司行號使用於視訊會議，輸出的畫面是由三個子母畫面以及演講者之簡報所組成，使用者可以從多個子畫面中自行選擇想要觀看的畫面(圖 1-2)，並將其放大顯示。除此之外，控智科技(Konzesys)也推出一套播錄平台，稱之為 HDVR (High Definition Video Record System)，該系統可提供最多五個子畫面同時播放，並且搭配投影片等多媒體素材一併播放(圖 1-2)。上述的研究及產品，雖然提供觀賞者多個畫面觀看，甚至可以由使用者自行選取畫面。但是過多的資訊可能造成觀賞者在觀看教學影片時無法專注，抑或是造成員工於視訊會議時容易分心。而本研究提出的虛擬導播系統能夠將這些資訊整合，自動選出觀賞者想觀看的畫面，使得觀賞者於觀看影片時，能較為輕鬆並且更加專注。然而，導播於選鏡時考量的因素很多，要能夠自動化選出觀賞者想觀看的畫面並不容易，在 1.2.1 節我們將探討近期內有關虛擬導播的相關研究。. 1.2.1、多重畫面的決策與剪輯在直播拍攝現場時，導播的工作是即時選出觀賞者感興趣的畫面並將其播放，倘若錄製的影像不是直播所需，則上述工作稱為剪輯。關於剪輯的相關研究近年來逐漸增多，像是[Gle00]提出了 virtual videography、以及[Liu01]則是探討從多部影片中，分別截取有意義的片段來組成新的影片；類似方法的還有[Kum02]、 [Oku07]，Kumano 使用 video grammar 來分析攝影機的運動，並藉由攝影機運動的情況，將多個影片素材組合編輯成一個較完整的影片。[Wan09]則是透過基因演算法(genetic programming)來分析影片結構，並且使用攝影學中常用的運鏡方 5.

(16) 式及剪輯手法進而組合成一部完整的影片。雖然上述的研究皆能夠找出影片中有意義的片段，並將其組合起來，但仍然屬於影片後製階段，無法即時編輯。由於即時評選畫面有較多的限制，比方說無法經由畫面拍攝的順序了解拍攝事件的前因後果，因此有關時間的資訊較少；另一方面則是真實導播在選鏡時需要考量的因素很多，但一套即時系統必須避免播放時間延遲的問題，而未必能在短短的時間內考慮眾多因素，而導致選擇出來的畫面較欠缺評估。因此，有關虛擬導播的相關研究一直不多，[Liu10]以有限狀態機(finite state automaton)來模擬導播選鏡的工作、[Mac02]則提出整合導播所有工作的網路系統，並稱之為虛擬導播(virtual director)系統。. 1.2.2 影像品質的評估與分析影像分析方面，想要自動化的進行攝影美學分析、劇情分析、或攝影光學分析，第一個步驟就是進行主體物的偵測與分析，[Gof12]模擬人類視覺的運作方式，藉由分析邊緣或高對比的區域並融合顏色、人臉等資訊在靜態影像中進行主體的偵測。[Fan03]模擬人類視覺的刺激，並考慮到動態影像的資訊製作注意力圖像。 [Wan03]嘗試透過偵測演講者的動作姿態，進行自動化的影像分析與演講者行為描述，不過並未考慮到多台攝影機之間的選鏡。[Mac02]與[Bia04]在他們的研究中引進了攝影師的運鏡技巧，使影片看起來更為活潑流暢，不過皆是單純操控攝影機，並未進行內容的分析與剪輯，然而為了最後輸出畫面的協調，虛擬導播亦必須考量到美學與攝影學的規則。. 6.

(17) 1.3、論文架構本論文將於第二章介紹系統架構，並詳細說明虛擬導播系統的運作流程及系統的設計原理；第三章的影像品質的評估與分析章節，將介紹虛擬導播如何依據各方面的評選準則對畫面進行評分；而第四章說明虛擬導播如何藉由評分的結果，學得導播選鏡習慣與技巧，並且能夠根據所習得的模型對畫面做出決策，選出最適合的畫面播放。第五章是實驗結果，該章節將呈現本研究的方法與其他方法的比較與實驗數據。第六章為總結，討論未來可能的研究方向與改進空間。. 7.

(18) 第二章系統架構. 本章節將詳細說明虛擬導播系統的設計原理、系統架構、以及流程圖。2.1 節將描述本系統的設計理念；2.2 節中則針對系統的運作流程及架構做詳細的說明；2.3 節則是介紹實驗的架設環境。. 2.1、虛擬導播系統的設計理念錄製一場演講或是電視節目時，為了使得節目的內容更豐富、完整，常運用多部攝影機從不同的角度拍攝，再將所有拍攝到的畫面傳送至導播機(video mixer、switcher，如圖 2-1)；導播機是導播工作的平台，具有可隨時切換播出畫面或添加特效、字幕等功能。而導播的工作便是從傳送至導播機的數個畫面中，將所錄製演講或節目忠實地傳達給觀眾。因此導播在選鏡時，必須尋找觀眾可能感興趣的線索並結合自身的經驗，挑選出最適合播放的畫面，並且尋找適當的時機，透過導播機的操控將該畫面播送出去。. 圖 2-1、導播機。(資料來源：Google). 8.

(19) 圖 2-2、節目錄製流程之示意圖。根據上述導播在真實世界中的運作方式(如圖 2-2)，本研究設計出一套虛擬導播系統的運作流程(如圖 2-3 所示)，並將此流程分為五個階段：第一階段為影像序列的輸入：藉由多台攝影機拍攝節目或演講現場，將拍攝到的畫面作為系統的輸入影像；第二階段的工作是影像資訊的分析與擷取：導播在選鏡時，必須從所得的畫面中找出可用的線索，以利將訊息忠實的傳達給觀眾。因此，本階段將運用不同方面的評估準則，對輸入的影像進行分析，並且將分析後的結果傳送至第三階段進行播放影像的決策；第三步即為選鏡階段，此階段將綜合考量上述的評估結果，決定出一個最適合播放的畫面，並將結果傳送至第四階段；第四階段為事後製作階段，又稱為後製作業，在該階段通常由導播伴隨剪輯師以及特效師，對最後欲輸出的畫面進行「美編」，比方說加上字幕、配樂、影片特效等，最後再由輸出階段將編輯完成的畫面播送出去。本研究即專注在前四個階段。. 圖 2-3、虛擬導播系統之運作流程圖。 9.

(20) 2.2、虛擬導播系統架構. 圖 2-4、虛擬導播系統示意圖。由於本研究是建立在自動化演講錄製系統之下的子系統，因此導播系統的輸入影像是分別來自拍攝演講者、聽眾、以及全景的影像，如圖 2-4。接著對輸入影像進行資訊擷取，從中找出可用的線索，本研究將此階段分成兩步驟進行，先是擷取影像中在評估畫面時所需的特徵，接著藉由這些擷取到的特徵，進行影像內容的分析，本論文將在 2.2.1 節詳細描述資訊擷取的運作流程，最後將於 2.2.2 節說明系統在選鏡階段時使用的決策模型。. 2.2.1、影像資訊的分析與擷取模擬真實導播的行為，導播在判斷單一畫面是否能呈現演講或節目的精神前，必須要先從該畫面中找到足夠的線索。因此我們將影像資訊的分析與擷取階段分 10.

(21) 為兩部分，分別為影像之特徵擷取以及畫面的內容物分析。. 表 2-1、畫面評選的準則。內容物分析內容物分析階段主要是在評估畫面可提供給導演的訊息與畫面的品質，系統從光學(optical analysis)、美學(aesthetic analysis)、連續性(continuity analysis)、以及動作情節(action analysis)等方面整理出多個評估準則，如表 2-1 所示。其中光學分析包含了曝光度(exposure)、畫面清晰度(region of focus)、以及飽和度 (saturation)等資訊；美學分析則包含有三一法則(rule of third)、視覺平衡(visual balance)、主體大小 (size of saliency)等。以上兩種分析主要是評估畫面在視覺上的優劣；而連續性分析中，包含有亮度連續(illuminance continuity)、色彩連續(color continuity)、景別連續(scene continuity)、以及主體位置連續(position continuity)，其評選目標在於切換畫面時，能夠避免人類視覺以及直覺上的混淆，盡可能使銜接的畫面看起來流暢且連續；而情節動作分析主要以判斷攝影機運鏡行為為主，透過攝影機運鏡的方式，進而挑選出觀賞者可能感興趣的畫面。. 11.

(22) 圖 2-5、影像資訊的分析與擷取之流程圖。特徵擷取依據上述的評選準則，資訊擷取階段的流程圖規劃如上圖 2-5，在特徵擷取階段，系統將對每一張輸入影像擷取四項特徵。第一項特徵是角點偵測(corner detection)與光流向量估計(optical flow estimation)，此項特徵為情節動作分析中，用來判斷攝影機運鏡情況的資訊；第二項特徵是將具有主體動態線索的 attention map[Fan03]以及具有主體靜態線索的 multi-scale contrast saliency map 結合之後，製作一張顯著圖像(saliency map)用來尋找顯著物體的所在位置，攝影美學分析中所有的構圖準則與連續性分析中的主體位置連續準則，皆需要此項資訊來做評估。而光學分析以及連續性分析中的亮度連續與色彩連續，評估方式是建立在 HSV 色彩空間中，因此我們需要將原本在 RGB 色彩空間的輸入影像轉換至 HSV 色彩空間。最後一項特徵 ROF map 則是利用梯度影像找出影像中可能聚焦的區域， 12.

(23) 此區域會和主體位置做對照，判斷畫面是否聚焦在主體上。在畫面資訊擷取階段一共獲得了十三種不同項目的評估結果，此評估結果即為虛擬導播能從畫面中得到的資訊，此資訊以分數表示，其值域為 0 到 1 的數值，接著再將這些分數送入選鏡階段。. 2.2.2、選鏡階段選鏡階段是導播必須綜合考量所有畫面提供的資訊，並依據經驗格選擇出一個較佳的畫面播出。在選鏡階段所使用的是反傳遞類神經網路 (counter-propagation network, CPN)[Hec87]。CPN 網路屬於一種監督式類神經網路，能夠依據不同訓練資料，將輸入資料對應至預期的輸出中。主要功能是當輸入資料與預期輸出之間的關係並非線性，而是利用某些特定的規則聯繫此關係時， CPN 網路能夠學習並建立一組”規則庫”，紀錄所有規則，將輸入資料對應至相對應的輸出上。考慮真實導播在選鏡時並沒有特定的準則，而是憑藉著經驗建立一套獨特的”規則庫”，利用畫面提供的資訊與此規則庫做對照，並選取最適合的畫面播出。而 CPN 網路的訓練與運作方式，正符合現實導播的運作流程，因此本系統使用 CPN 網路來學習真實世界導播的選鏡技巧。綜合 2.2.1 與 2.2.2 兩節，虛擬導播完整的系統架構設計如圖 2-6。. 13.

(24) 圖 2-6、虛擬導播系統之完整流程圖。. 2.3、系統環境架設一場完整的演說中，演講者以及觀眾的組成扮演著重要的角色。因此，錄製演說時，不可避免的，需要一台攝影機拍攝演講者，稱之為講者攝影機(speaker camera)；同時也需要另一台攝影機負責拍攝觀眾，稱作觀眾攝影機(audience camera)。除此之外，為了使得觀賞者更有臨場感，加上畫面切換時能夠呈現更豐富的內容，本系統架設了一台全景攝影機(overview camera)，負責拍攝演講者與觀眾在演講場地內與空間的關係。以上三組攝影機，皆有各自的拍攝任務，在自動化演講錄製系統中，稱其為「虛擬攝影師」(virtual cameraman)，而其拍攝出之畫面，將傳入虛擬導播系統中進行選鏡的工作。攝影機架設位置如圖 2-7 所示，最大的藍色區域為演講場地，講台的右側是負責拍攝觀眾的觀眾攝影機 14.

(25) (audience camera)，由一台可動式 PTZ 攝影機以及一台無線 PTZ 攝影機組成。放置於上方的無線 PTZ 攝影機模擬攝影師的眼睛，負責偵測拍攝現場的動態，經過虛擬攝影師的判斷之後，便控制位於下方的可動式 PTZ 負責拍攝錄製；位於場地中間並面對講台的是負責拍攝演講者的講者攝影機(speaker camera)。同樣也是由兩台攝影機所組成，放置於上方的是由微軟(Microsoft)公司所開發的體感裝置 Kinect，此裝置最重要的特色是可以獲得深度影像，並且能夠估計人類的骨架位置等相關資訊，讓負責拍攝講者的虛擬攝影師可以由這些資訊中判斷講者的動作、位置等資訊，進而控制位於下方的可動式 PTZ 攝影機，調整攝影機拍攝感興趣的畫面。. 圖 2-7、演講錄製場地配置圖。位在演講場地最後方的是負責拍攝觀眾與講者的全景攝影機，與前方的攝影機距離較遠，因此本系統所使用的錄製設備是 D-LINK 所開發的無線網路攝影機，以解決連接線路過長的問題，圖 2-8 為系統拍攝出之輸入畫面。 15.

(26) 圖 2-8、系統輸入畫面(左)拍攝講者、(中)拍攝觀眾、(右)拍攝全景。. 16.

(27) 第三章. 影像品質的分析與評估. 虛擬導播主要的工作是選出最適合的畫面播放，在選擇之前則必須先對影像進行分析及評估。本章將分成四個類別來討論，分別為美學分析(aesthetic analysis)、光學分析(optical analysis)、時空連貫性分析(continuity analysis)、以及動作分析(action analysis)。本章節將詳細說明各類別的評選準則、特徵擷取方法、以及如何將評估結果參數化。. 3.1、美學分析(aesthetic analysis) 人類在觀賞一張影像時，首先會注意到的物體我們稱之為主體。一般而言，主體在畫面中所佔據的大小以及所在的位置會影響人類對此張影像的觀感因此在攝影美學領域中，經常藉由將主體擺放至適當的位置來傳達視覺平穩的效果。根據 [Liu10]，我們可以歸納出三種常見的構圖原則：三一法則(rule of third)、視覺平衡法則(visual balance)以及主體大小法則(size of salient)。. 3.1.1、美學評估準則 a.三一法則(rule od third) 三一法則(rule od third)的概念是運用兩條水平線及兩條垂直線排成「井」字形，將影像切割成大小相同的九等分，這四條線則稱之為「黃金分割線」，而黃 17.

(28) 金分割線所交叉形成的四個點，稱作「黃金點」。主體位置與黃金點越接近，或是主體延伸的線條（例如地平線）越貼近黃金分割線，皆能夠在視覺上獲得舒適平穩的感覺（圖 3-1）。. 圖 3-1、三一法則比較圖。. b.視覺平衡準則(visual balance) 視覺平衡準則(visual balance)強調的是畫面的平衡感，當影像中有明確的主體物或是有較豐富且明顯的線條結構出現時，此物體在視覺上便會產生比較重的重量感，這項準則講求的是重量比例的調配必須均衡。比方說當一個主體位於影像的右上方，而另一個主體位在影像的左下方時，就是一張視覺平衡的影像（圖 3-2）。. 圖 3-2、視覺平衡比較圖。左圖是較符合視覺平衡準則之影像。. 18.

(29) c.主體的大小(size of salient) 主體的大小(size of salient)則影響著欲拍攝的主題能否被突現出來，藉由控制主體在畫面中所佔的大小比例，來傳達不同含意的主題。根據不同的拍攝需求，主體的大小便有不同的限制，例如拍攝主體為演講者時，為了突顯主題，講者在畫面中的所佔的比例就不能太小，以影像大小的三分之一為佳。除此之外，為了替演講素材保留空間，如投影布幕、道具等，必須替演講者視線延伸的方向及動作方向多留一點空間，一來是方便攝影機運鏡，二來可以保持畫面的美感。. 3.1.2、主體物偵測為了取得畫面中主體的位置及大小，我們運用注意力圖像(attention map) [Yen04]尋找動態的主體物，以及[Liu11]提出的多解析度對比(multi-scale contrast) 方法來製作靜態顯著圖(static saliency map)，並將這兩張圖結合形成一張顯著圖 (saliency map)。由於影像中可能出現兩個以上的主體物，我們將利用平均位移分群(mean-shift clustering)演算法[Che85]對顯著圖的顯著區域做分群，以區分出不同的主體物。以下將詳述實作方法的內容。 a.注意力圖像(attention maps) 在靜態的背景前，會「動」的物體往往是人類聚集注意力的區域，因此我們使用 STA (spatio-temporal attention neural model) [Fan02, Fan03]來模擬注意焦點集中的過程，並建立注意力圖像(attention maps)(圖 3-3)[Yen04]。 19.

(30) 圖 3-3、注意力圖像。左圖為原始影像，右圖是根據左圖原始影像建立的注意力圖像。 STA 類神經網路分為兩層，一層為輸入層(input layer)，另一為輸出層(output layer)，亦稱為 attention layer。圖 3-4 為 STA 類神經網路架構圖。輸出層中每個神經元都與其鄰近神經元有連接，稱之為階層內部連結(within-layer connections)，用來傳遞抑制訊息。輸入層的每個神經元與輸出層的每個神經元皆有連結，而這些連結主要用來傳遞刺激訊息，為完全連結(full-connected)。. 圖 3-4、STA 類神經網路架構圖[Fan03]。輸入層與輸出層的神經元各自組成一個二維陣列，陣列的大小即為輸入影像之大小。令 wij 表示輸入層神經元 n j 與輸出層神經元 ni 連結的權重，輸入層與輸 20.

(31) 出層間的連結之權重給定方式，如圖 3-5 所示，假設二維高斯函數 G 的中心位於輸出層神經元 ni 上，則 ni 與鄰近的神經元 nk 形成一位置向量(position vector) rki ，輸入層神經元 n j 與輸出層神經元 nk 的權重 wkj 則可表示為 G(rki ) 。二維高斯函數可以使得某個輸入層神經元的刺激在輸入後會刺激到對應的輸出層神經元，進而產生刺激分散的現象。然而輸出層的神經元則會互相抑制，而這種抑制機制可以用「墨西哥帽(Mexican-hat)」函數 M (r ) 來模擬(圖 3-6)，其中 r 表示距離函數中心的位置向量。此種函數的控制方式會造成輸出層的神經元產生激發狀態聚集的現象。運用上述的類神經網建構出的注意力圖像，如圖 3-3 所示，注意力圖像是一種灰階影像，亮點分佈的區域表示主體可能出現的位置，亮點分佈漸層的方向則表示主體物移動的方向。. 圖 3-5、輸入層與輸出層的權重連結圖。. 圖 3-6、墨西哥帽函數圖形。. 21.

(32) b. 靜態顯著圖(static saliency map) 靜態影像中倘若有一塊區域的顏色、線條結構、形狀或是方向與其周遭的背景或物體有較大的差異時，通常會使得人類聚集較多的注意力在此。根據此項特性，便可以將多解析度對比法(multi-scale contrast)運用於偵測影像中的靜態顯著物。其方法是對影像進行邊緣偵測，對此邊緣圖建立六層的高斯影像金字塔 (Gaussian image pyramid)，如圖 3-7 所示，再將這六層影像縮放至同一大小，並疊合形成靜態顯著圖。將注意力圖像與靜態顯著圖結合後，如圖 3-8 所示，則最後成為虛擬導播所參考的顯著圖(saliency maps)。. 圖 3-7、靜態主體物偵測流程圖。. (a) (b) (c) 圖 3-8、顯著圖。(a)靜態顯著圖、(b)注意力圖像、(c)為前面兩張結合後的顯著圖。 22.

(33) c. 平均位移分群演算法(mean-shift clustering algorithm) 假設空間中散佈著 n 個資料點， X  xi i 1 為每個資料點位置 xi 的集合(圖 n. 3-9)，則參考位置 x 的平均位移向量（Mean Shift Vector）的計算方式如下：. M h ( x) . 1 1 ( xi  x)   ( xi )  x  n xiSh n xiSh. 其中 Sh 是以 x 為中心、 h 為半徑所構成的圓， n ' 表示在 Sh 內屬於 X 的資料點個數， M h  x  為平均位置與參考位置 x 所形成的平均位移向量。令第一項為. mh  x  . 1   xi  ，則 mh  x  表示落在 Sh 內 n ' 個資料點的平均位置。 n xiSh. 圖 3-9、平均位移演算法示意圖。紅色小圓點為 X  xi i 1 。 n. 平均位移演算法為一迭代演算法(圖 3-10)，步驟如下： t. (1) 在空間中給定一個初始位置 x ，其中 t 表示迭代次數。 (2) 以 x t 為參考位置，計算平均位置 m (3) 如果 m. x   x t. h ,k. (4) 令 x t 1 為 m. t. x 。 t. h ,k.   則結束，否則進入(4)，其中  為門檻值。.  x  ， t  t  1 回到(2)。 t. h ,k. 以顯著圖像作為輸入影像，藉由平均位移演算法對顯著圖中的亮點分群，各群最後收斂的位置即表示為不同主體所在的位置。 23.

(34) 步驟(1)：計算出新的參考位置. 步驟(2)：移至新的參考位置. 步驟(3)：計算下一個參考位置. 步驟(4)：重複迭代或停止. 圖 3-10、平均位移演算法流程圖。. 3.1.3、美學評估分數運用三一法則對影像進行美學構圖的評分，其原則是主體的中心位置與黃金點的距離越近，則給予這個影像的評分就越高，距離越遠則分數越低，則表示式. 為 S RT.  1  e  2. DM 2 ( PS  PG ) 2 2. ，S RT 是套用三一法則所評估出來的分數，其中 PS. 為主體的中心位置， PG 為最靠近主體中心點的黃金點位置， DM ( ) 為 Manhattan distance 函數。視覺平衡是在平衡畫面中的視覺重量感，我們可用下列表示式計算視覺平衡 24.

(35) 的分數 SVB ：. SVB  DM (C ,. 1 n  PS ) n i 1 i. PSi 為第 i 個主體的位置， n 是畫面中的主體個數，C 為影像中心，以 Manhattan distance 來計算，所有主體的平均位置越接近畫面的中心點分數就越高，反之，距離越遠分數就越低。以拍攝演講場景的來說，演講者佔據畫面的三分之一最為適宜，因此主體大小的分數 S size 可表示為 Ssize  exp(1.25( p  0.3)2 ) ， p 為顯著圖中主體在整張影像中所佔的比例。. 3.2、光學分析現今已經有越來越多的攝影系統內建影像自動優化的功能，例如自動曝光補償、自動白平衡、自動色彩調整、自動對焦…等。雖然這些自動優化的功能有時會因為環境的變化而被需要，但卻也可能調整不當，反而造成觀賞者的不適感，例如演講者突然移動，攝影機因而自動調整焦距，反而失去突然移動應有的效果，或是投影片的亮度使攝影機以為過度曝光，自動進行白平衡調整色調等，這些自動優化功能都容易讓觀眾產生視覺上的不舒服。因此，我們希望系統在遇到以上狀況時，能夠避免選取這樣的畫面入鏡，所以針對光學分析我們選定三項標準：飽和度、曝光度、與銳利度。第二小節則說明如何藉由 ROF(regions of focus)影像的建立來偵測影像中較 25.

(36) 銳利的區域。 3.2.1、光學評估準則不同的色彩飽和度能呈現出影像不同的風格，比方說低飽和度較能呈現出懷舊風情，若欲表現的畫面較活潑，則可以使用較高飽和度的色彩表現。對於演講者錄製系統，欲表現較中性且正式的氛圍，色彩過度飽和或者色調不足都是較不適合的畫面，挑選飽和度適中的畫面最為適合。同樣地，曝光不足或者曝光過多都不是好的畫面，虛擬導播則會盡量選擇曝光度適中的畫面。 3.2.2、銳利度偵測除了光線與色彩之外，影響影像品質的優劣無非還有畫面清晰與否。如圖 3-11(左下)所示，攝影機在運鏡時難免造成畫面有動態模糊的現象(motion blur)，或是拍攝時焦距沒有對準，反而造成背景清晰主體物卻模糊的狀況(圖 3-11 左中)，這些都是虛擬導播避免選擇到的鏡頭。因此我們建立 ROF(regions of focus)圖來偵測影像較清晰的區域。銳利度偵測主要找出影像中清晰的區域，一般而言，清晰的地方通常保留較多細節，越模糊的區域細節則越不明顯。首先將輸入影像轉成灰階圖像，將此張灰階影像通過高斯模糊濾波器(Gaussian blur filter)得到模糊的灰階影像，分別對輸入灰階圖及模糊灰階圖都製作水平方向及垂直方向的梯度圖(圖 3-12)。分別對不同的方向的灰階梯度圖與模糊影像梯度圖做影像相減，如圖 3-13 所示，得到的影像即為細節較明顯的細節圖。最後將得到的垂直方向細節圖與水平方向細節圖 26.

(37) 疊合在一起，即為 ROF (regions of focus)圖。. 圖 3-11、左排影像為輸入影像，右排為相對應之 ROF 圖。. 圖 3-12、原始灰階影像之梯度圖(左)水平方向(右)垂直方向。. 27.

(38) 圖 3-13、原始灰階影像之細節圖(左)水平方向(右)垂直方向。 3.2.3、光學評估分數於 HSV 色彩空間中，對一張影像分別建立飽和度直方圖(saturation histogram) 以及亮度直方圖(intensity histogram)，在以下列計算公式來評估此張影像之光學分數。虛擬導播在選擇畫面時，會盡可能挑選飽和度適中的畫面，其評分方式則表 s s.  i 2 si 1 m 示為 SSA   e 2 ，其中 S SA 為飽和度的分數， m 為飽和度直方圖中 m i 1  2. bin 的總個數， si 為影像中每一個像素點 i 的飽和度值、而 s 則為整張影像飽和度的平均值。利用高斯函數作為飽和度直方圖的權重，越中間的值就給予越高的權重，色彩越淡或過飽和的部分則給予的權重就越低。同樣的，曝光度準則也會給予亮度適中的畫面較高分，因此其表示是則可表 v v. 示為 S LI .  i 2 vi 1 n 2 e 。S Li 表示此張影像於亮度評估準則運算出來的分數，  k i 1  2. k 為亮度直方圖中 bin 的個數， vi 為影像中每一個像素點 i 的亮度值、而 v 則為整張影像的亮度值平均。在銳利度方面，我們期望主體出現的區域能夠越清晰越好，其他非主體區域 28.

(39) 的清晰程度則相對不重要。銳利度準則估計方式為. 1 n  ( Fi  Si ) ， Fi 為 ROF 圖中 n i 1. 第 i 個像素點的亮度值， Si 為顯著圖(3.1.2 節)中第 i 個像素點的亮度值，兩個值得值域都在 0 到 1 之間。 n 則為影像大小。顯著圖中亮點越密集且亮點月亮的區域表示主體越有可能的區域，此區域的亮度值較高，倘若此範圍在 ROF 圖中相對應的區域若亮點也較高，則表示主體物清晰。反之在 ROF 圖中相對應的區域的亮度值較低，則表示主體物模糊較不清楚。. 3.3、攝影機動作分析導播選出來的畫面，除了要能夠賞心悅目之外，更重要的是能夠引起觀賞者的興趣，而攝影師在拍攝時的運鏡方式便提供了重要的線索。參考 [Abd10]，我們歸納出三種具有重要意義的運鏡方式作為虛擬導播系統選鏡時的參考依據。第二、三小節則進一步說明如何運用光流向量估計(optical flow estimation) [Luc81]來偵測攝影機運鏡情況，並針對偵測結果進行分類。. 3.3.1、攝影機動作評估準則當攝影機有 zoom in 動作時，通常表示拍攝到的場景有特殊事件發生，Katz [Kat95]稱之為「訊息鏡頭」(information shots)，此時應該給予該畫面較高的選鏡優先權，而攝影機 zoom out 時，則表示特殊事件的結束或是拍攝的場景有多個主體在互動，在特殊事件結束後的全景畫面或是拍攝主體間互動的情況能夠讓觀 29.

(40) 賞者增加參與感，而這種沒有傳遞訊息的鏡頭，可以讓導播在剪輯時用來將故事填滿，使剪輯後的影片觀賞起來更加豐富而不單調，Katz 稱此種類別的運鏡方式為「裝飾鏡頭」(decorative shots)。另外，當攝影機持續移動卻突然定格時，表示拍攝到的場景可能有值得注意的事件發生，Abdollahian 稱這一類的運鏡方式為「Move and hold」[Abd10]，此時也應將該畫面被選擇播出的優先權提高。. 3.3.2、光流向量估計(optical flow estimation)運用於攝影機運鏡偵測光流法是一種可以表達影像動作情形的技術，我們使用 Rosten 及 Drummond 所提出的角點偵測方法 FAST (Feature from Accelerated Segment Test) [Ros08]，將偵測到的角點作為影像的特徵點，再對這些特徵點進行光流向量的估計。以下將詳述其作法。 a.角點偵測(corner detection) FAST (Feature from Accelerated Segment Test)角點偵測能夠大幅降低光流向量估計的計算時間。如圖 3-14 所示，以圖中之點 p 為中心，作一周長為 16 的圓。. 30.

(41) 圖 3-14、FAST 角點偵測示意圖。[Ros08]. 觀察圓周上的 16 個像素點，根據以下公式給予此 16 個像素點特定狀態：.  dark , I i  I p  t Statei   bright , I p  t  I i Statei 為利用上述公式計算後，第 i 個像素點的狀態， i  1,...,16 。 I i 為第 i 個像素點的亮度值， I p 為中心點 p 的亮度值， t 為閥值。當有連續 m 個以上像素點的狀態相同時，則 p 點即為特徵點。本系統使用的參數 m 為 9。. 圖 3-15、FAST 角點偵測結果圖，綠點為偵測到的特徵點。. b.光流向量估計(optical flow estimation) 31.

(42) 為了得知攝影機的運鏡方向，我們利用 FAST 角點偵測獲得特徵點之後，使用 Lucas-Kanade 光流演算法 (又稱 hierarchical optical flow estimation) [Luc81]來估計每一特徵點之光流向量。Lucas-Kanade 假設兩張 frames 中的物體位移很小，在小範圍內大致不會改變，因此，令 p 為影像中某一特徵點，並給定一個大小固定的視窗，光流向量在以 p 點為中心的視窗內可以被保持住，也就是說，光流向量 (Vx ,Vy ) 必須滿足：. f x (qi )Vx  f y (qi )Vy   ft (qi ) ， i  1, 2,..., n. qi 為視窗內的 1 到 n 個點， f x (qi ) 及 f y (qi ) 為 qi 在影像上水平方向及垂直方向的偏導數， ft (qi ) 則為時間的偏導數。將上述算式改寫成矩陣形式則可表示為. Av  b ，其中.  f x (q1 ) f y (q1 )    ft (q1 )      f (q )  f x (q2 ) f y (q2 )  Vx  t 2   A ， v    ，以及 b   。     Vy        f x (qn ) f y (qn )    ft (qn ) . 根據最小平方誤差法計算 AT Av  AT b 或是 v  ( AT A)1 AT b 來求解方程式 Av  b ，  f x (qi )2  f x (qi ) f x (qi )  Vx     i 將結果帶入原式可得到     i 2  V f ( q )  y   f y (qi ) f x (qi )  y i  i  i. 1.   f x (qi ) ft (qi )   i    f (q ) f (q )  。 y i t i    i. (Vx ,Vy ) 即為所得的光流向量。. 3.3.3、動作分析評估分數得到影像中的光流向量之後，我們簡單地對這些向量進行分類，以區分攝影機運鏡的類別，比方說放大、縮小或是平移。給予每一個光流向量 (Vx ,Vy ) 一個 32.

(43) 方向標籤，其分類方式如下：. , Vx  0, Vy  0  pan  till , Vx  0, Vy  0  Labeli    zoom Vx  0, Vy  0  stable , Vx  Vy  0 接著統計四種標籤的個數，一張影像中數量最多的方向標籤即可表示當時攝影機之運鏡情況。圖 3-16 及圖 3-17 是放大(zoom in)及平移(pan)的範例圖，上圖為輸入之影像序列，將方向標籤個數經過正規化處理，下表呈現的是四種方向標籤在所有標籤個數中所佔的比例。我們在 3.3.1 小節提到，當攝影機運鏡為 zoom in 之後、zoom out 之後以及 move-and-hold 時，便給予該畫面之較高的選鏡優先權，但由於攝影機正在動作時，導播不宜選擇該畫面。因此，攝影機動作分數給予方式如圖 3-16 之統計表所示，在第 35 張 frame 的放射方向標籤(radius labels) 所佔的比例逐漸減少，且方向不變之標籤(stable labels)逐漸攀升，此現象表示攝影機剛結束縮放動作，為最佳切換畫面的時機，便給予第 35 張 frame 一分。也 1, L(t )  L(t  1) 就是說，攝影機動作的分數可表示為 Scamera (t )   ， Scamera (t ) 表示 0, L(t )  L(t  1). 第 t 張 frame 的攝影機動作分數， L(t ) 與 L(t -1) 分別表示第 t 張 frame 與第 t  1 張 frame 的方向標籤，也就是說，當攝影機的方向突然改變時，則給予該張 frame 較高的攝影機動作分數。. 33.

(44) 圖 3-16、Zoom in 範例。上圖為影像序列，下表為對應的四種方向標籤的統計表。. 圖 3-17、Move-&-hold 範例。. 3.4、時空連續分析導播除了選出觀賞者有興趣的畫面之外，更重要的是能夠將這些畫面銜接起來時看起來很連貫。切換畫面時，兩個畫面間的亮度差異、色調差異、景別長短、以及不同主體所在位置的距離不宜太大，以免產生觀賞者的不適感。在亮度連續性及色彩連續性方面，於 3.2.3 小節說明的方式，在 HSV 色彩空間下，每一張 frame 皆帶有亮度直方圖，並同時替每張影像建立色調(Hue)直方圖，便可藉由卡方距離(chi-squared distance)來估計兩張 frames 在亮度及色調上的差異。其色調表示式如下：. 1 SC _ Color ( Si (t ))  bC. bC. [ H C ( Si , j (t ))  H C ( S j (t  1))]2. j 1. ( H C ( Si , j (t ))  H C ( S j (t  1)). . 34. , i  1, 2,3..

(45) S (t  1) 為虛擬導播在 t  1 時間選擇出來的畫面、 Si (t ) 為 t 時間的候選畫面，在演講者系統中共有三個候選鏡頭，分別為拍攝全景的鏡頭、拍攝演講者的鏡頭、及拍攝觀眾的鏡頭，因此 i 為 1,2,3。 H C ( Si , j ) 則表示鏡頭 i 的色調直方圖中，第 j 個 bin 的值，同樣的， S j (t  1) 為播出畫面的色調直方圖中，第 j 個 bin 的值， bC 則為值方圖的 bin 之總個數。倘若色彩連續性分數 SC _ Color (Si (t )) 的數字越大，則表示兩張影像的顏色差異越大。同樣的，亮度連續性也是運用卡方距離(chi-squared distance)來評估：. 1 SC _ Light ( Si (t ))  bL. bL. [ H L ( Si , j (t ))  H L ( S j (t  1))]2. j 1. ( H L ( Si , j (t ))  H L ( S j (t  1)). . , i  1, 2,3.. 同理，H L (Si , j (t )) 及 H L (S j (t  1)) 為相對應的亮度直方圖中，第 j 個 bin 的值、bL 為. 圖 3-18、景別長短的比較。亮度直方圖之 bin 的總個數。景別(shot length)是指由於攝影機與被拍攝的物體之間的距離不同，而使得被拍攝的物體在畫面中所呈現的大小不同。如圖 3-18 所示，景別較長(全景)可包含較多資訊，常用來描述景物主體與背景時空的關係；景別較短(特寫)在於凸顯主體物的局部特徵，通常用來強調情節的戲劇張力或主題的情緒氣氛。由於景別長. 35.

(46) 短有各自的用途及特色，適當的運用景別轉換可以使得故事情節更加緊湊且較為豐富。然而，在轉換景別時，景別長短差異過大則會造成人眼的不適。通常景別較長的畫面會傳達空間中較多資訊，包含較多物體，顏色在空間上的分布較為複雜。而較短的景別，通常表現物體的局部特徵，物體於畫面中所佔的比例較多，顏色的複雜程度則相對較低。因此我們對每個畫面計算其顏色在空間上的變異數，變異數越高表示景別越長，變異數越低表示景別越短，而景別間的連續性便可以由變異數之間的差異得知，可表示為：. SC _ Scene (Si (t ))  Var (Si (t ))  Var (S (t 1)), i  1, 2,3 S (t  1) 為 t  1 時間由虛擬導播選擇出來的畫面， Var ( Si ) 即為在 t 時間的候選畫面 Si 中，顏色的在空間上的變異數，分別由水平方向之變異數 Varh ( Sc ) 以及垂直方向之變異數 Varv ( Sc ) 組成，即 Var ( S ) . 1  (Varh (Sc )  Varv (Sc )) ， Sc 為畫 2c c. 面 S 的第 c 個色彩頻道(color channel)，使用的是 RGB 色彩空間，因此 c=1, 2,3 。. 而顏色在空間中水平方向及垂直方向的變異數計算方式可由以下表示:. Varh ( Sc ) . 1 ( Px  M h ( Sc ))2  Sc ( P)  N P. ,. M h ( Sc ) . 1  Px  Sc ( P) N P. Varv ( Sc ) . 1 ( Py  M v ( Sc ))2  Sc ( P)  N P. ,. M v ( Sc ) . 1  Py  Sc ( P) . N P. Sc ( P) 為畫面 S 中第 P 個像素點在第 c 個 color channel 的值， Px 及 Py 分別為影像中第 P 個像素點的水平座標及垂直座標、 N 為整張影像的像素點個數。 36.

(47) 切換畫面時，不同主體出現在不同畫面的位置不宜差距太大，以避免人的眼球轉動距離太長，一旦播放時間稍長，則容易產生疲勞感。針對主體位置連續性，以下列表示式計算其分數：. SC _ Position (Si )  d ( P(Si (t )), P(S (t 1))), i  1, 2,3. ， P(Si (t )) 為候選畫面 Si 在 t 時間的主體位置， P(S (t  1)) 為 S (t  1) 畫面在 t  1 時間的主體位置， d ( ) 為歐幾里得距離(Euclidean distance)函數。. 37.

(48) 第四章多重畫面決策. 虛擬導播系統使用反傳遞類神經網路 (counterpropagation network,CPN) [Hec86]來對多個畫面進行決策。本章將詳細說明為何使用 CPN 網路做為畫面決策的模型，再敘述如何將其運用至畫面決策中。第一節將描述選用 CPN 網路的理由與簡述其設計原理、第二節將說明如何將 CPN 網路運用在畫面決策上。. 4.1、真實導播與 CPN 網路本節將描述 CPN 網路的設計精神與真實導播之間的對應，再進一步簡述 CPN 網路的架構。. 4.1.1、真實導播與 CPN 網路的連結. 真實導播在一場演講或節目的錄製中，導播是其中的靈魂人物，雖然導播的地位如此重要，但是絕大部分的導播並非科班出生。一般而言，導播的養成必須從攝影、剪輯開始學習，要成為合格導播必須有快速的臨場反應能力、領導力與觀察力，而這些能力的培養，必須從基層做起。累積到一定的經驗後，便開始到有經驗的導播旁學習如何指揮攝影師、選鏡等。起初先從模仿中學習，等到技能純熟後，再慢慢加入自己的風格，成為獨當一面的導播。 38.

(49) 導播的選鏡方式沒有一定的準則而且學習過程緩慢，因此只能從反覆的操作、練習中慢慢體會，在心中形成屬於自己的選鏡規則。而這些規則最後會逐漸的轉變成具有自我風格的”規則庫”。. CPN 網路 CPN 網路於 1986 年由 Robert Helcht-Nielsen 所提出。此網路通常適用於近似函數(approximation. functions)的問題或是有關聯想、記憶等問題。也就是說，. 當輸入與預期輸出之間，並非簡單的函數關係(例如：線性函數)可以描述時，CPN 網路會利用自身的結構”記憶”輸入與預期輸出之間的關係，而此關係可以視為一條”規則”，這些規則將累積形成一組”規則庫”。. 真實導播與 CPN 網路的連結考慮 CPN 網路的建構，其原理是利用輸入資料對應至預期輸出之間的關係，進而建立規則庫；而真實導播則是利用模仿前輩選鏡的方式與技巧，建立自身的規則庫。規則庫建立完成後，當一組新的輸入資料進入 CPN 網路時，此網路會自動選出與輸入資料最相近的規則，並將對應於此規則的預期結果輸出；對照真實導播在選鏡時的思考模式，當導播收到攝影師傳來的影像時，會憑藉自身的經驗(已建立好的規則庫)選出最適合的鏡頭播出。 39.

(50) 以上真實導播的運作模式正符合 CPN 網路的建構精神，因此本研究使用 CPN 網路做為學習選鏡與畫面決策的模型。. 4.1.2、CPN 網路簡介圖 4-1 是完全連結的倒傳遞類神經網路的架構圖，主要分成五層，分別由兩層輸入層(input layers)、兩層輸出層(output layers)、以及一層隱藏層(hidden layer) 所組成。圖中的輸入層分別輸入兩組資料，一組為 X 輸入層的輸入值，輸入訓練資料的相關資訊，表示為 xi ， i  1,..., n ，每層有 n 個神經元；另一組為 Y 輸入層的輸入值，輸入的是相對應於 X 輸入值的預期結果，用 y1 ,..., ym 來表示，而該層的神經元個數共有 m 個。反傳遞神經網路最重要的特色在於將輸入的資料分類，便可輕易判斷相對應的輸出結果。架構圖中，由 R1 到 R p 神經元所構成的隱藏層，又可稱為類別層 (cluster layer)。類別層中的每個神經元代表每一個類別，而連接 X 輸入層的神經元 x1 ,..., xn 與隱藏層神經元之間的權重向量 w ji ，用於判斷每組輸入值被歸類為 R1 到 R p 的哪一個類別；同樣的，連接 Y 輸入層的神經元 y1 ,..., ym 與隱藏層神經元之間的權重向量 u jk ，也是用於將 Y 輸入層的神經元分門別類。每一組輸入值被分類後，便可經由連結該類別神經元與輸出層之間的權重向量 vkj 、 tij 判斷，直接輸出對應的結果。倘若輸入的是 X 輸入層的神經元輸入值 x1 ,..., xn，輸出的則是對應的結果值 y1* ,..., ym* ；若是輸入 Y 輸入層的神經元 y1 ,..., ym ， 40.

(51) 輸出的便是對應於該預期結果的輸入值 x1* ,..., xn* 。上述連結輸入層與隱藏層之間的權重向量 w ji 、 u jk ，以及連結輸出層與隱藏層之間的權重向量 vkj 、 tij 的訓練方式將於 4.2 節說明。. 圖 4-1、完全連結反傳遞類神經網路架構圖。. 4.2、CPN 網路學習演算法用於畫面決策完全連結反傳遞網路的其中一項特色，在於輸入一組預期的結果至網路中，會得到一組相對應的輸入資訊。然而，虛擬導播決策出來的畫面，不全然由一種狀況觸發，也就是說，假設導播切換至全景畫面時，可能是因為講者與觀眾有頻繁的互動，抑或是設備有突發狀況而播放的安全畫面。因此，我們不需要 X 輸出層的結果，便將完全連結反傳遞網路的架構圖簡化，更新後的架構如圖 4-2 所示，稱之為 Forward-mapping CPN。. 41.

(52) 圖 4-2、Forward-mapping CPN 架構圖。. 圖 4-3、Kohonen 層(左)與 Grossberg 層(右)示意圖。. Forward-mapping CPN 的網路架構是由輸入層、一層隱藏層、以及一層輸出層所組成。主要分成兩個部分：如圖 4-3 所示，左圖中黃色虛線框選的區域，稱為 Kohonen 層。該層的學習演算法為非監督式學習，使用「贏者全拿」 (winner-take-all)演算法來訓練權重向量 w ji 。另一個部分，稱為 Grossberg 層，如圖 4-3 右圖中，黃色虛線框選之處。此層使用的是 Grossberg 演算法來訓練權重向量 u jk ，屬於一種監督式學習演算法。由於隱藏層的神經元表示一種類別，也可表示一種規則，而隱藏層與輸入層和輸出層之間的連結關係，則可以視為一句 42.

(53) 完整的規則敘述；也就是說，網路的運作可看成「If x is w, then y is u.」。將 Forward-mapping CPN 網路套用於虛擬導播系統中，其中，X 輸入層的神經元則是由第三章評估出來的影像分數，每一個鏡頭皆有 13 個分數，因此，三個畫面共有 39 個輸入值；對應的輸出值 y1* ,..., ym* ，則是決策後的播放影像。而隱藏層中的類別神經元可表示為拍攝現場的各種狀況，例如觀眾舉手、演講者有指示動作等。因此，分類的動作可視為判斷該鏡頭屬於何種狀況發生。. 4.2.1、Kohonen 層學習演算法隱藏層中每一個神經元可代表一個規則，因此整個 Kohonen 層即可視為一個規則庫控制。此階段主要是對輸入的資料進行分類，使用的是贏者全拿演算法 (winner-take-all)，屬於非監督式學習演算法，其演算法流程如下： 1. 輸入訓練資料之影像分數 x1 ,..., xn ， n 為 39。 2. 運用下列公式計算每一個類別及其相連權重的相似度。 n. d j   | xi (t )  w ji (t ) | . i 1. d j 表示當第 t 組訓練資料輸入時，連結第 j 個類別的權重向量與該訓練資料的相似程度。 3. 選出 d j 最小的類別，作為贏家。如圖 4-4 所示，只有贏家所連結到的權重才能被更新。. d winner  min d j . j 1,..., n. 43.

(54) 圖 4-4、winner-tak-all 示意圖。 4. 為了避免贏家所連結的權重與輸入值的差異仍然過大，因此使用閥值 (threshold)  來做篩選。如果 d winner 小於  ，表示權重與輸入足夠相似，前進至步驟 5 調整連結權重。如果 d winner 大於 ，表示權重與輸入值仍然不夠相似，需要新增一個類別來表示該輸入的狀態，細節於步驟 6 說明。 5. 更新連結到贏家的權重，更新公式如下：. wwinner ,i (t  1)  wwinner ,i (t )  [ xwinner ,i (t )  wwinner ,i (t )] 1  為學習速率，初始值為，隨著遞迴運算進行，  值會持續減少，收斂速 2 度越來越快。 6. 如果輸入值沒有找到所屬的類別，便於隱藏層中新增一個神經元作為新的類別。根據下列公式給予與新節點相連的權重：. wp 1,i (t  1)  x(t ) v p 1,k (t  1)  y* (t ) 即是將上一個時間點的輸入值作為連結 X 輸入層的權重，以及上一個時間點 44.

(55) 的 Y 輸入層作為連結輸出層的權重。. 圖 4-5、winner-take-all 演算法。步驟 6 新增節點示意圖。 4.2.2、Grossberg 層學習演算法 Grossberg 層中，判斷分類好的類別必須輸出哪一種結果是這個階段主要的工作。權重學習的方式是使用 Grossberg 演算法，屬於一種監督式學習法，也就是必須藉由輸入期望的目標來更新權重。流程與 Kohonen 層類似。其演算法的流程如下： 1. 輸入訓練資料之影像分數 x1 ,..., xn ， n 為 39。輸入相對應 x1 ,..., xn 的預期結果 y1* ,..., ym* ， m 為 3。 2. 運用下列公式計算每一個類別及其相連權重的相似度。 dj . n.  | x (t )  w i 1. i. ji. (t ) | .. d j 表示當第 t 組訓練資料輸入時，連結第 j 個類別的權重向量與該訓練資料的相似程度。 3. 選出 d j 最小的類別，作為贏家。如圖 4-6 所示，只有贏家所連結到的權重才 45.

(56) 能被更新。. d winner  min d j j 1,..., n. 4. 同樣只更新連結到贏家的權重，更新公式如下：. wwinner ,i (t  1)  wwinner ,i (t )  [ xwinner ,i (t )  wwinner ,i (t )] * uwinner ,k (t  1)  wwinner ,k (t )   [ ywinner , k (t )  uwinner , k (t )].  為學習速率，此階段為一定值，即為在 Kohonen 層最後收斂的值。  是 Grossberg 層的學習速率，為一固定值。. 圖 4-6、Grossberg 演算法。 4.2.3、Forward-mapping CPN 於測試(testing)階段之架構圖 4-7 是 Forward-mapping CPN 在測試(testing)階段的架構圖。在同一演講場景中，三台攝影機拍攝到的畫面，皆帶有一組影像分數，此處會以收到的三組分數(一共 39 個分數)作為輸入，透過先前訓練好的權重值 w，可以判斷此時拍到的狀態屬於何種事件。判斷完此時為何種情境狀態之後，同樣也可以直接經由先前訓練好的權重 u，直接輸出決策後的畫面。 46.

(57) 圖 4-7、Forward-mapping CPN 之 testing 架構圖。. 47.

(58) 第五章實驗結果. 本章將介紹實驗結果、使用者介面、以及實驗時所使用到的器材設備。5.1 節將說明在實驗進行之前的準備工作；5.2 節將介紹虛擬導播系統如何進行實驗，其中包含實驗器材以及實驗的初步結果；5.3 節則是與其他決策方法做比較。. 5.1、實驗前的準備工作本節將介紹實驗進行之前必須準備的工作，如使用者介面的設計以及畫面決模型的訓練，都將在此節中詳細說明。 5.1.1、使用者介面. 圖 5-1、虛擬導播系統之使用者介面。. 如同真實的導播機，使用者介面設計如圖 5-1 所示，在介面上方有三個方框，分別顯示來自三部攝影機拍攝到的影像(演講者畫面、觀眾畫面、以及全景畫面)， 48.

(59) 左下方最大的方框則是顯示經過決策後，想要播出的畫面。右下方則是操控面板，若是需要虛擬導播自動選鏡時，便按下位於右下方的虛擬導播鍵即可自動選鏡；使用者若是想要手動選取畫面，也可選擇面板上方的三個選取畫面鍵(播放演講者畫面鍵、播放觀眾畫面鍵、播放全景畫面鍵)。下方其餘按鍵，則可提供使用者觀看特徵擷取後的影像(圖 5-2)，用以確認畫面的決策是否合理。. 圖 5-2、操控面板。 (左上)選取全景畫面的顯著圖像、(右上)選取全景畫面的三一法則示意圖、 (左下)選取講者畫面的光流向量圖、(右下)選取觀眾畫面的 ROF 圖。. 49.

(60) 5.1.2、訓練(training)決策模型虛擬導播系統所使用的訓練資料，是本實驗室於團體會議時所錄製的，影片時間總長為 47 分鐘，擷取前面 15 分鐘共 27000 張影格(frames)做為訓練資料。由於本系統使用 CPN 網路作為畫面決策的模型，CPN 網路屬於監督式學習網路，因此本實驗邀請一位傳播相關科系並且具有導播經驗的學生，替訓練資料提供預期的輸出結果；也就是說，將先前錄製好的演講影片播放給這位同學看，同時播放在相同時空下的講者畫面、觀眾畫面、以及全景畫面，並請這位傳播相關科系同學扮演真實導播的角色，替這些畫面選取最適合的畫面播放。而在選取播放畫面的同時，系統也同時在訓練決策模型。而訓練決策模型時，只需按下操控面板右下角的按鍵(圖 5-4)，切換成訓練模式即可開始手動選鏡。. 圖 5-3、人工選鏡以提供預期輸出資料。. 圖 5-4、人工選鏡之使用者介面。 50.