虛擬觀眾攝影師系統

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：方瓊瑤博士陳世旺博士. 虛擬觀眾攝影師系統. Virtual Audience Cameraman System. 研究生：廖軒嘉撰中華民國一百零三年六月.

(2) 摘要虛擬觀眾攝影師系統 Virtual Audience Cameraman System 廖軒嘉. 本研究的主旨在於建立一套模擬專業攝影師並以觀眾為拍攝主體的虛擬觀眾攝影師系統。現今社會中許多資訊的傳播都是透過演講方式，而為了讓觀賞者能隨時觀看演講內容，聘請專業攝影團隊紀錄整場演講是最直接的方式。然而現代生活的人力資源成本不斷提升，聘請一組專業攝影團隊的成本並不低，因此本研究發展一套虛擬觀眾攝影師系統來節省人力資源成本，同時提供專業攝影技巧以製作高規格影片。本研究以兩台 Pan Tilt Zoom Camera(PTZ 攝影機)為一組作為實驗設備，一台稱為 global-view 攝影機，另一台為稱 local-view 攝影機。Global-view 攝影機是用來代表攝影師的雙眼，主要功能是監控畫面與主體偵測並找出畫面中感興趣的區域(Region Of Interesting, ROI)；Local-view 攝影機則是用來代表攝影師手上的攝影機，在系統決定 ROI 與運鏡所需要的一切資訊後，local-view 攝影機就會實際執行運鏡動作並進行拍攝。本系統的主要目的是模仿專業攝影師的拍攝技巧並自動進行運鏡拍攝動作，而為了符合專業攝影師的拍攝技巧與手法，每次運鏡前系統皆需要先決定運鏡方式、景別、主體等要素。首先系統從 global-view 攝影機所提供的連續影像中擷取具有描述觀眾行為的 motion 特徵，再將這些特徵經過運算處理並找出畫面中的候選 ROI，接著將這些候選 ROI 輸入 STA(spatio-temporal attention neural model)，STA 能夠紀錄並提供相關資訊來協助系統找出最適合拍攝的 ROI。之後系統計算欲拍攝的 ROI 與鏡頭中心位置的對應關係，並依據輸入的資料輸出最適合該情況的運鏡方式和景別用以啟動 local-view 攝影機運鏡拍攝；而 local-view 攝影機所拍攝的主體挑選與拍攝畫面的質感主要是以美學以及光學的特徵分析來做為判斷標準，本研究透過上述流程來模擬專業攝影學的拍攝技巧。實驗結果顯示，本系統所運用的方法可以進行即時且流暢的運鏡動作並可準.

(3) 確模擬專業攝影師的拍攝手法，符合專業攝影團隊來拍攝記錄演講錄製的需求。. 關鍵字：虛擬觀眾攝影師、STA(Spatio-Temporal Attention neural model)、運鏡、專業攝影學。.

(4) Abstract Virtual Audience Cameraman System by Hsuan-Chia Liao. This thesis proposes a virtual audience cameraman system to capture the audience videos automatically. Nowadays the contents of lectures can be broadcast widely and rapidly by digital videos, thus to capture digital videos of important lectures for the viewers is an essential work. However, the cost to hire a video-recording team, including professional photographers, to capture good-quality digital videos is very high. Thus this study developed a virtual audience cameraman system which can obtain good-quality digital videos automatically and reduce the cost of hiring a professional video-recording team. In this study, two PTZ cameras are mounted together to be a set, one is the global-view camera and the other is the local-view camera. The global-view camera can be regarded as the photographer's eyes. It can be used to monitor the whole audience and help the region of interesting (ROI) detection. The local-view camera can be regarded as the photographer's camera on hand. It can be used to capture the videos from ROI after the system determines the location of ROI. Since the purpose of this system is to simulate the camera-control behaviors of professional photographers to capture the audience videos, the proposed system needs to decide the camera steering mode, shot class, and the objects before camera steering. First, the system obtains input videos from the global-view camera and then detects the audience motion features to locate the ROI candidates. The ROI candidates are then input into the spatiotemporal attention (STA) neural model. The STA neural model can record and provide information to help the system to identify the most suitable shooting ROI. Further, the system computes the relative distance between the location of the ROI on the frame and the center of the camera lens, and outputs the appropriate steering mode of the local-view camera. The local-view camera then captures the output videos from the location of ROI by considering the viewpoint of aesthetics and the analysis result of optical characteristics. Through the above process this system can simulate professional photography shooting skills..

(5) The experimental results show that the proposed method can steer the camera immediately, automatically, and smoothly. It can also simulate the style of professional photographers accurately.. Keywords：Virtual Audience Cameraman System, STA (Spatiotemporal Attention) neural model, Camera Steering, Professional Photography..

(6) 致謝. 在碩士生活的兩年生涯中，承蒙眾多人的幫助，雖然時間不是很長卻讓我有不小的成長。誠摯感謝我的指導教授陳世旺老師、方瓊瑤老師，兩位指導老師所傳授的不僅僅只有學術領域，更不時於會談之餘教導我做人處事的道理，讓我在追求真理的過程中不忘重視人情。在此特別感謝方瓊瑤老師，方老師常常不厭其煩的告知我必須注意的事項，讓我做事能比較從容順利，並且提醒我不斷的思考和吸收新知才能突破以往的思維，發現新的可能，即使結果不如想像中美好，但歷經思考的過程，懂得如何獨立解決問題正是我所學習到的寶貴經驗。感謝 IPCV 實驗室的所有成員，梁祐銘老師、王俊銘學長與羅安鈞學長每週於百忙之中撥空一起來參與實驗室團體報告，參與討論研究上面臨的困難，並且提供我解決的方法或技巧，讓我的研究得以順利進行與完成。感謝許之凡學長與呂佳儒學姊在碩士生活中提供給我許多意見與幫助，也與我一同分享歡樂。感謝貞佑和俊宇在這段時間共同的努力和扶持，即便大家最後都一副要崩潰的樣子，但是我們終究挺過來了！感謝昆賢、冠宇和淳雅的大力幫忙和支持，也感謝所有曾經餐與我研究與實驗的所有人。最後，非常感謝大家一直以來對於我的鼓勵與讚美，以及批評與指教，尤其是對於我的包容，希望往後每位師長、每位夥伴、每位朋友都能夠繼續互相扶持，在接下來的人生都能一路順遂，謝謝大家。.

(7) 目錄目錄............................................................................................................................... i 圖目錄......................................................................................................................... iii 表目錄...........................................................................................................................v 第一章緒論.................................................................................................................1 第一節、研究背景與目的...................................................................................1 第二節、研究困難...............................................................................................4 第三節、研究範圍與限制...................................................................................6 第四節、論文架構...............................................................................................6 第二章文獻探討.........................................................................................................8 第一節、自動化攝影師系統相關研究...............................................................8 第二節、自動化攝影師系統相關技術............................................................. 11 第一項、主體選取..................................................................................... 11 第二項、主體動作偵測.............................................................................12 第三章系統概述.......................................................................................................15 第一節、系統架設環境.....................................................................................15 第二節、系統流程.............................................................................................18 第四章 ROI 選取 .......................................................................................................22 第一節、觀眾動作分析.....................................................................................22 第二節、候選 ROI 偵測 ....................................................................................23 第三節、ROI 挑選 .............................................................................................27 第五章運鏡路線規劃...............................................................................................30 第一節、攝影機控制.........................................................................................30 第二節、運鏡方式與構圖規則.........................................................................33 第一項、主體大小.....................................................................................34 第二項、影像構圖規則.............................................................................39 第六章實驗結果.......................................................................................................42 第一節、ROI 選取的正確率 .............................................................................42 i.

(8) 第一項、第一段影片實驗結果.................................................................44 第二項、第二段影片實驗結果.................................................................46 第三項、第三段影片實驗結果.................................................................48 第二節、本系統運鏡評估.................................................................................49 第三節、與過去研究拍攝結果比較.................................................................53 第四節、本系統對於拍攝場地的適用性.........................................................57 第一項、第一段影片實驗結果.................................................................57 第二項、第二段影片實驗結果.................................................................58 第七章結論與未來工作...........................................................................................60 第一節、結論.....................................................................................................60 第二節、未來工作.............................................................................................60 參考文獻.....................................................................................................................62. ii.

(9) 圖目錄圖 1. 1、2011-2016 WORLDWIDE SELF-PACED ELEARNING FIVE-YEAR GROWTH RATED BY REGION[1] ..................................................................................................1. 圖 1. 2、各式演講場合(A)新型產品發表[17](B)論文發表[18](C)記者會[19] .........2 圖 1. 3、自動化演講錄製系統架設圖 ........................................................................3 圖 1. 4、演講廳類型(A)階梯式演講廳[3](B)水平式演講廳[4].................................5 圖 2. 1、AUTOAUDITORIUM 拍攝模擬圖[BIA98] ........................................................8 圖 2. 2、多台攝影機合作拍攝架構[RUI04] ...............................................................9 圖 2. 3、不同光線運用的攝影範例[20](A)順光(B)逆光 .........................................10 圖 2. 4、SALIENCY MAP DETECTION(A)原始影像 (B)主體偵測結果[LAN09] ...........12 圖 2. 5、根據群體運動特徵偵測群體走向[WU10] .................................................12 圖 2. 6、KINECT 的外部構造[12] ..............................................................................13 圖 2. 7、利用 KINECT 所得到的影像(A)彩色影像(B)深度影像[13] .......................14 圖 2. 8、KINECT 捕捉的骨架資訊[12] ......................................................................14 圖 3. 1、PTZ 攝影機(A)正面 (C)硬體設備[14]........................................................15 圖 3. 2、PTZ 攝影機架設方式，上方是 GLOBAL-VIEW 攝影機，下方是 LOCAL-VIEW 攝影機(A)側視圖(B)俯視圖.........................................................................17 圖 3. 3、虛擬攝影師之拍攝觀眾系統流程圖 ..........................................................18 圖 3. 4、系統決定候選 ROI(A)MOTION 特徵圖(B)MOTION 特徵密度圖(C)候選 ROI 選取結果 ......................................................................................................19 圖 3. 5、系統採用 STA 決定 ROI(A)ROI 選取結果(B)運鏡後拍攝畫面(C)STA 輸出層激發狀態 ..................................................................................................20 圖 3. 6、系統人臉偵測(A)ROI 選取結果(B)運鏡後人臉偵測結果(C)主要拍攝人臉選取 ..............................................................................................................20 圖 4. 1、演講觀眾動作分類圖 ..................................................................................22 圖 4. 2、LUCAS-KANADE OPTICAL FLOW 計算範圍差異圖 .......................................24 圖 4. 3、金字塔型架構追蹤示意圖[15] ...................................................................27 圖 4. 4、注意力圖像(A)原始影像(B)根據左圖原始影像建立的注意力圖像 ........27 圖 4. 5、STA 類神經網路架構圖[FAN03] ................................................................28 iii.

(10) 圖 4. 6、輸入層與輸出層的權重連結圖 ..................................................................29 圖 4. 7、墨西哥帽函數圖形 ......................................................................................29 圖 5. 1、GLOBAL-VIEW 與 LOCAL-VIEW 攝影機的水平旋轉移動參數示意圖 ........31 圖 5. 2、GLOBAL-VIEW 與 LOCAL-VIEW 攝影機的垂直傾斜移動參數示意圖 ........33 圖 5. 3、HAAR MASKS 之範例 ....................................................................................35 圖 5. 4、INTEGRAL IMAGE 計算之圖例(A)INTEGRAL IMAGE 中 I ( x, y) 之 INTENSITY 值所涵蓋的計算範圍(B)INTEGRAL IMAGE 中 D 範圍的 INTENSITY 值總和之計算示意圖 ......................................................................................................36 圖 5. 5、ADABOOST 演算法[VIO04] ..........................................................................37 圖 5. 6、多層分類器架構(正圓形為分類器的篩選階段)[13] ................................39 圖 5. 7、三一法則比較圖 ..........................................................................................40 圖 5. 8、顏色的對比與色系(A)以鮮明的對比突顯主體[9](B)(C)不同的整體色調帶來不同的視覺效果[10]................................................................................40 圖 6. 1、實驗一第一段影片擷取片段 ......................................................................45 圖 6. 2、實驗一第二段影片擷取片段 ......................................................................47 圖 6. 3、實驗一第三段影片擷取片段 ......................................................................48 圖 6. 4、實驗二全景影片擷取片段 ..........................................................................50 圖 6. 5、實驗二本系統拍攝之運鏡影片擷取片段 ..................................................51 圖 6. 6、實驗二評分項目觀賞者評分長條圖(A)清楚地表達主體(B)內容的吸引力(C) 畫面的構圖(D)拍攝技巧的運用(E)整體觀看舒適度(F)評分項目平均分數...53 圖 6. 7、實驗三實驗影片擷取片段 ..........................................................................54 圖 6. 8、實驗三評分項目觀賞者評分長條圖(A)清楚地表達主體(B)內容的吸引力(C) 畫面的構圖(D)拍攝技巧的運用(E)整體觀看舒適度(F)評分項目平均分數...56 圖 6. 9、實驗四第一段影片全景影片擷取片段 ......................................................57 圖 6. 10、實驗四第一段影片本系統拍攝之運鏡影片擷取片段 ............................58 圖 6. 11、實驗四第二段影片景影片擷取片段 ........................................................58 圖 6. 12、實驗四第二段影片本系統拍攝之運鏡影片擷取片段 ............................59. iv.

(11) 表目錄表 1- 1、工商錄影價目表[2] ......................................................................................... 3 表 3- 1、AXIS 5512 型 PTZ 攝影機詳細規格表[14] ................................................ 16 表 5- 1、運鏡方式 ....................................................................................................... 34 表 6- 1、實驗一第一段影片結果 ............................................................................... 44 表 6- 2、實驗一第二段影片結果 ............................................................................... 46 表 6- 3、實驗一第三段影片結果 ............................................................................... 48 表 6- 4、實驗二之觀賞者評分結果 ........................................................................... 52 表 6- 5、實驗三之觀賞者評分結果 ........................................................................... 55. v.

(12) 第一章緒論本章第一節將介紹本研究的背景與目的；第二節與第三節會說明研究相關的困難與限制；最後第四節則敘述本論文的基本架構。. 第一節、研究背景與目的近年來，隨著資訊與網路的蓬勃發展，資訊不斷的推陳出新，網路寬頻的傳輸速度也不斷的提升，讓人們可以透過網際網路快速的傳輸影像、聲音等多媒體資訊，使得網路逐漸成為資訊傳遞的主要媒介之一。不斷的學習與接收新的資訊也已經成為生活中一個相當重要的課題，因此以網路傳遞為基礎的數位學習及其應用越來越受企業界、學術界等各界的重視，世界各國也紛紛將數位化的科技教育列為國家未來發展重要計畫項目。根據美國 Ambient Insight 研究機構於 2011 年所進行的「全球市場自定進度的電子學習產品和服務」調查報告中，觀察最近年來各國數位學習領域的發展，藉由國家型計畫之經費支持，全球市場在 2011 年達到 356 億美元，估計至 2016 年將可以達到 515 億美元，其中年複合成長率為 7.6%(如圖 1.1 所示)。. 圖 1. 1、2011-2016 Worldwide Self-paced eLearning Five-year Growth Rated by Region[1] 現今資訊傳遞與接收的方式繁多，而最直接的方式是透過各種演講形式來達到資訊的傳遞與接收，在演講的場合上觀眾能直接與演講者進行面對面的溝通，透過直接的對答是資訊傳播最有效的傳達方式之一。近年來社會中許多資訊的傳 1.

(13) 播都是以演講方式進行，例如：新型產品發表、論文發表、記者會等(如圖 1.2 所示)，內容涵蓋了各個領域，兼具學術與應用等各層面。演講內容與主講者表達方式皆是學習與教學之重要資源，也是學生及在職員工們相當重視的學習教材。但安排一場演講需要配合場地與演講者的時間，因而並非所有想聽的觀眾皆能抽空前來參與，所以要如何將演講內容記錄並提供給無法親自前來的觀眾觀看是一個相當重要的問題。. (a). (b). (c). 圖 1. 2、各式演講場合(a)新型產品發表[12](b)論文發表[13](c)記者會[14] 紀錄演講內容最直接的方式就是聘請一組專業攝影團隊將整場演講拍攝記錄下來，藉由他們專業的攝影技術將整個演講、研討會等活動過程與內容全部收錄，並以數位媒體形式保存這些演講內容，觀賞者可以透過觀看數位媒體的方式來重現該場演講。而要完整錄製一場演講，其攝影團隊主要的工作流程相當繁複，其中必須包含：進行活動地點的場地勘驗、活動當天的拍攝作業、拍攝影片的後製剪輯及輸出等，如此繁複的作業流程，需要相當的成本與人力資源。根據[Row01]和[Bae03]的研究得知聘請專業團隊拍攝花費的成本，可以歸納成固定成本與重複人事成本。固定成本主要屬於硬體設施部分，主要包含了電腦、麥克風、攝影機等設備，重複人事成本主要屬於拍攝團隊人員薪資(如表 1-1)。然而現代生活的人力資源成本不斷提升，聘請一組專業攝影團隊對一般預算有限但又須經常紀錄活動的非營利學校或公司行號等是相當沉重的負擔。但若為了節省人力資源成本而聘請缺乏專業攝影經驗的人來拍攝，所拍攝出的影片往往會缺乏美感及流暢度等，甚至於降低觀眾觀看的意願，因此開發自動化演講錄製系統有其必要性。. 2.

(14) 表 1- 1、工商錄影價目表[蔡 13] 公司. 項目. 價格(台幣). DVworld 專業錄影製作. 活動實況錄影. 12000/4 hrs 15600/8hrs. OIS 原創映像多媒體工作室. 活動實況錄影. 6000+/3hrs. 絕攝錄影工坊. 三小時會議錄影. 8000/3hrs. 采攝錄影工坊. 三小時會議錄影. 8000/3hrs. 喬崴薾攝影中心. 畢業典禮錄影. 12000/6hrs. ALIC 專業攝影工坊. 工商活動攝錄影. 9000/8hrs(單機) 16000/8hrs(雙機). 憶彩錄影工作室. 三小時會議錄影. 8000/hrs. 恆彩錄影工坊. 工商活動攝錄影. 9000/8hrs(單機) 16000/8hrs(雙機). 數位錄影公司. 工商錄影. 4000/2hrs. 南廣傳播事業有限公司. 婚禮錄影. 12000/全天. 利用自動化演講錄製系統(如圖 1.3 所示)拍攝一場完整的演講又可大致分為四個主要部分，第一是以演講者為主體的拍攝系統，主要記錄整場演講的內容與講者的肢體動作和表達方式；第二是以觀眾為主體的拍攝系統，用來記錄觀眾與演講者之間的互動關係，而觀眾的反應與動作也可表現出這場演講活動所散發出的氣氛；第三是以全景畫面拍攝系統，用來拍攝整體演講的場地與所有參與者，可以完整的表達整體演講的畫面；第四是整合前面三者的導播系統，導播系統需要整合前三者的畫面並決定哪一個畫面是目前最佳輸出畫面。. 圖 1. 3、自動化演講錄製系統架設圖 3.

(15) 上述四個部分都是自動拍攝一場完整的演講不可或缺的要素，每部分都有其存在價值，不同的部分所欲表達給觀賞者的訊息也不盡相同，演講者畫面主要給觀賞者完整的演講資訊；觀眾畫面主要給觀賞者本場演講的現場氣氛；全景畫面主要給觀賞者本場演講的整體資訊；而導播需要在適當的時機選擇最合適的畫面給觀賞者。近年來有許多研究的發展重點都放在以演講者為主體，但觀眾畫面所能帶給觀賞者的訊息也是相當重要的部分，因此本研究的主旨著重於上述自動化演講錄製系統中第二部分，建立一個以觀眾為拍攝主體並能模擬真實攝影師的虛擬觀眾攝影師系統。該系統功能包括自動判定與選取感興趣的區域 (Region Of Interesting, ROI)做為拍攝目標，並操作攝影機運鏡動作完成錄影程序。透過合適的運鏡方式可以達到不同的拍攝效果，而且本系統的目標並不局限於觀看演講的觀眾，而是希望能夠透過不同的拍攝角度與運鏡方式來適應各種場合下的觀眾目標，例如球賽、音樂會、戲劇等不同場合都能夠達到專業的錄影效果。虛擬觀眾攝影師系統的輸入資料為攝影機所拍攝的畫面，在以往拍攝畫面中，大多數的拍攝畫面都是以演講者為主，而觀眾席上的活動往往都被忽視。但觀眾其實不僅僅只是配角，而是整個活動中相當重要的部分，觀眾的各種反應能表現當下活動進行的情況，更是帶動活動氣氛與活動成功與否的重要指標。例如在球賽中，當比賽狀況激烈時，觀眾席上群情激昂的畫面能夠帶起激情；在表演的高潮迭起時，觀眾的表情與反應的畫面能夠表達表演張力，藉由穿插現場觀眾的畫面，不僅能增加轉播畫面的多樣性與可看性，還可以激發影片觀看者的臨場感與參與感，所以觀眾在各類活動中是不可或缺的重要成員。本研究的目標即為模擬專業的攝影師的拍攝方式，提供使用者專業的攝影技術並自動化完成攝影工作，不但能夠將數位內容以最佳的品質保存，更讓觀眾從活動中的配角變成活動相當重要的一環。本系統所拍攝出的觀眾畫面皆以觀眾為主要拍攝對象，所拍攝出的畫面不僅具有活動流程中一定的代表性，更能讓導播擁有更多的畫面選擇空間。. 第二節、研究困難為了能夠順利拍攝到觀眾席上各式各樣的精彩畫面，本系統在開發時所需要考慮與克服的因素繁多，在蔡侑廷的論文[蔡13]中已經提出一些與本研究相同的 4.

(16) 困難，而本研究將可能遇到的問題作出整理與說明，其中包括演講環境光線的變化問題、拍攝主體如何決定的問題、觀眾席座位設計多樣性的問題、觀眾入座和離席時的干擾問題、以及為了配合不同拍攝環境場合的運鏡手法、觀眾座位背光問題、運鏡與動作偵測同步問題、攝影機與系統間通訊問題等。以下對此分別說明： 1.. 演講環境光線的變化問題：自動化演講錄製系統首要考慮的是光線的影響，例如：室內光源的開關、調整與改變，以及其改變時所造成的光影變化，亦會導致觀眾席畫面內容偵測的困難。. 2.. 拍攝主體如何決定的問題：本系統是以觀眾為拍攝主體，因此觀眾席上的每位觀眾都可能成為拍攝的目標，但拍攝觀眾並不侷限於拍攝單一觀眾，可能也包含群體觀眾。而該如何偵測與如何從中挑選出最合適的主體來拍攝將是本研究一大難題。. 3.. 觀眾席座位設計多樣性的問題：觀眾座位依場地的不同有各式各樣的規格，一般觀眾席分為平面式和階梯式二種，且階梯式觀眾席的坡度並不統一(如圖1.4(a)(b)所示)，不同觀眾席亦有不同的顏色、擺設與風格。觀眾席的規格對於系統的偵測上會產生許多不確定因素，系統開發時必須要多方納入考慮避免影響系統的運作。. (b). (a). 圖 1. 4、演講廳類型(a)階梯式演講廳[2](b)水平式演講廳[3] 4.. 觀眾入座和離席時的干擾問題：在典禮或是演講進行的時候，常會有觀眾起身離開座位或是中途入座的情形，此現象導致畫面中常有物體在移動，系統必須自動判斷當下情況是否必須拍攝擷取並輸出。. 5.

(17) 5.. 配合不同拍攝環境場合的運鏡手法：從專業攝影學的觀點來看，依照拍攝的場景與主體不同運用的運鏡手法也不同，例如拍攝演講的場合與拍攝運動的場合所使用的運鏡手法就有著極大的差異。因此，自動的配合不同場合調整不同的運鏡手法也是本系統開發時需考慮的因素。. 6.. 觀眾座位背光問題：在許多的演講場合中，演講者需要透過投影片的輔助來陳述演講內容，但由於投影片的放映需要將光線調整成比較暗的環境。因此觀眾座位常常坐落於演講場地中背光的位置，而觀眾背光的問題也會增加系統偵測與運算上的困難，在開發時需要能因應不同光線變化解決觀眾背光的問題。. 7.. 運鏡與動作偵測同步問題：本系統雖然會自動化偵測 ROI 與自動選擇最適合的運鏡方式，但兩者間存在著一些矛盾。當系統在選取 ROI 與選定運鏡方式時需要一些運算時間，但運算過程都是在動作發生後才去執行，因此可能會導致運鏡反應時間太長的問題，在開發時需要增快運算速度來達到即時拍攝的效果。. 8.. 攝影機與系統間通訊問題：由於攝影機與系統之間的溝通與傳輸方式是透過網路傳遞，但若牽扯到網路傳輸便需要面對可能的資料遺失、傳輸延遲等問題，這些也是本系統需要克服的重要項目。. 第三節、研究範圍與限制本研究主要以拍攝靜態活動場地中的觀眾為主，針對具有固定位置的觀眾來做偵測與拍攝。因此，本研究假設拍攝期間內每位觀眾的活動範圍不超過一個座位的範圍。其次，由於本研究選用的攝影機是由 AXIS 公司所出產的 P5512 半球型網路攝影機，其攝影機拍攝靜態鏡頭的拍攝範圍為 51.6 度、水平旋轉角度為 360 度、垂直傾斜角度為 180 度、12 倍光學縮放與 4 倍數位縮放，因此整體觀眾的分佈範圍須限制在此範圍內。. 第四節、論文架構本論文的第二章將會介紹相關的文獻探討；第三章會說明系統的架設環境以及系統的流程；第四章介紹如何從輸入影像擷取系統所需之特徵；第五章為系統的運鏡選擇，此章會詳述如何模仿專業攝影師對運鏡使用的判斷；第六章為實驗結果，將實際在活動現場進行拍攝，測試拍攝結果是否合乎專業水準；最後第七 6.

(18) 章為結論與未來工作。. 7.

(19) 第二章文獻探討本章將以自動化攝影師系統相關的研究為出發點，探討有關於拍攝演講場合的相關研究與拍攝影像時所需注意到的相關問題。. 第一節、自動化攝影師系統相關研究為了將演講內容記錄並提供給無法親自前來的觀眾觀看，也為了降低拍攝記錄演講的人力資源成本，近年來有許多相關於自動化拍攝演講場合的研究。 [Bia98]在 1998 年發展了一套自動演講轉播系統稱為 AutoAuditorium(如圖 2.1 所示)，AutoAuditorium 採用多台可動式攝影機來進行演講拍攝，這些攝影機結合影像分析軟體來偵測並追蹤演講者的動向，增加了影片畫面的活潑性；[Rui01] 與[Cho10]提出運用一套智慧型自動攝影系統來降低人力資源成本，對於拍攝演講場合也提出了許多論點，例如：攝影機種類的選用、攝影機架設數量與攝影機擺放位置等；[Oni04]所發展的系統，除了可自動偵測講者的動向外，還能偵測講者的動作，利用這二種資訊來決定攝影機的運作方式，使得系統所提供的錄影畫面更具實用價值。類似以上的自動演講錄製系統還包括[Bia04]、[Zha08]等研究，也提出了在不同的場合，如何紀錄與拍攝整個演講或廣播等。. 圖 2. 1、AutoAuditorium 拍攝模擬圖[Bia98] 事實上，到目前為止，大部份的研究，還是把拍攝重心放在演講者身上，較少考慮到觀眾部份，而觀眾不僅僅只是前來參加本場演講而已，從觀眾的反應還有與演講者間的對應動作也能帶給觀賞者不同的理解。[Rui04]在其研究中，探 8.

(20) 討如何用較低的成本，並能同時有效地拍攝演講者與觀眾；[Li05]則探討當演講者與觀眾之間有互動時，應該考慮兩者互動的情況，配合不同的互動情境選擇不同的拍攝手法。. 圖 2. 2、多台攝影機合作拍攝架構[Rui04] 由上述的相關研究中可知利用多台攝影機同時運作進行演講拍攝是未來的主要趨勢，但在多台攝影機同時運作進行演講拍攝時，需要特別注意各攝影機之間的溝通、協調與合作的機制。[Rui03]提出使用兩台攝影機來模擬真實攝影師( 如圖 2.2 所示 F，並將其稱之為虛擬攝影師，其中一台是廣角固定式的攝影機，扮演攝影師的眼睛負責偵測場景中的狀況，另一台是一可動式攝影機，扮演攝影師的攝影機負責追蹤與拍攝。在上述的情境中，攝影機必須要相互溝通與支援才能達成較佳的拍攝品質，而攝影機間相關訊息的傳遞就需要依賴各攝影機之間的溝通、協調與合作的機制，而利用系統自動判斷與控制多台攝影機進行拍攝有下列優點： 1. 攝影機鏡頭的調整將更穩定：鏡頭的轉動或移動由機械控制，不易有不規則的搖動或是震動，畫面拍攝的結果將更平穩。 2. 不易錯失精彩鏡頭：單一攝影師無法在進行局部拍攝的同時觀察會場中其他聽眾的變化，可能因此漏掉了許多精彩鏡頭。若系統規劃兩台以上攝影機同時運作，由一台攝影機監控觀眾席全景，其他攝影機根據全景的畫面內捕捉特寫鏡頭，則能夠同時兼顧較多的場景。 9.

(21) 3. 可以有更優質的畫面規劃：上述的多攝影機系統可自動尋找適合拍攝的畫面，通過各攝影機之間的溝通與合作，在全景之下找較具美感的畫面。此外，拍攝演講場合自動化的同時也不能忘記拍攝畫面所需要的影片品質，為了提升影片品質，攝影機自動拍攝時取景的角度與運鏡的方式也是本研究一個重要的課題。攝影機取景時需要注意畫面的平衡，在攝影學中畫面組成的平衡感可以透過光影、空間、色彩三樣必要的元素來判斷。在光影方面，「順光」(如圖 2.3(a)所示)時的光線會讓色彩最鮮麗而且飽和，很適合拍攝風景影片，但不適用在人像攝影。「逆光」(如圖 2.3(b)所示)拍攝有時能讓主題或目標物更有立體感，但是強光會造成畫面模糊，易失去前景或背景的細節。在空間方面，攝影機需拍攝到足夠的空間才能把主題或目標物的地位展現，可藉由縮放鏡頭調整畫面裡前景所佔的比例，或是移動鏡頭的動作來完成。另一方面，若畫面前景單薄或結構薄弱，亦可以用同樣的方法找尋支撐畫面豐富性的前景。在色彩方面，簡單的色調和鮮明的對比能襯托出前景的存在感。由於色彩比較難調整，若是找不到適合的畫面，可適當地把焦距專注在前景，讓背景模糊以降低其對前景的影響。 [Dat06]也提出為了使拍攝畫面更加和諧，拍攝畫面應該依據美學的觀點和主體位置、大小來決定畫面的構圖；[呂 13][蔡 13]提出拍攝畫面結合攝影學中美學分析的部分，此部分包含了拍攝畫面的色彩、光影以及構圖三個元素，將拍攝畫面結合美學分析可以提供觀賞者更舒適的觀看品質。. (a). (b). 圖 2. 3、不同光線運用的攝影範例[20](a)順光(b)逆光. 10.

(22) 第二節、自動化攝影師系統相關技術自動化攝影師系統主要目的為拍攝主體，並依據主體的動作來做相對應的反應，所以系統首要功能是選取適當的目標為主體，並偵測該主體動作，且將偵測的資訊轉換成對應的反應動作。以下將分成兩個部分來探討相關的技術，第一部份將探討主體選取的相關技術；第二部份則探討偵測主體動作的相關技術。. 第一項、主體選取目前有多種不同類型的應用需先進行主體選取，例如追蹤物體、辨識身分等。 [Xin11]提出同時追蹤運動場上的多名運動選手的技術，其偵測主體的方法是採用 template matching 的技術。首先把選手在場上的完整影像以及被部分遮蔽的影像當作 templates，然後將影像輸入系統中使用 template matching 的技術找出場上的主體。[Kel11]則是提出從多個攝影機拍攝同一主體的畫面中挑選出最好的鏡頭，由於該研究的有對畫面中的人數限制為一人，所以只要偵測畫面中前景的部份就能夠確認主體的位置與涵蓋的範圍。其中 saliency map detection 也是被廣為研究的主體選取技術之一，[Lan09]就是 illuminated 使用 saliency map detection 的技術作為景別主體區域的選取。然而 saliency map detection 多以顏色作為特徵，並以高斯模糊函數去 model 相近的顏色組成同一區塊，並以分水嶺演算法將不同顏色的區塊區分開來，然後再擷取出顏色相較於周圍特別突出的區塊視為主體(如圖 2.4 所示)。[Ber06]則是認為主體上的邊緣應該有特定的長度，因此以 edge 的長度作為主體偵測的主要特徵。 [Ber06]所提的偵測方式也可以被看作一種紋理的偵測，在實驗結果中顯示，多數細小破碎的邊緣會被去除，留下完整而長度較長的邊緣作為專注區域及為主體可能的位置。以上兩類 saliency map 的偵測方式雖然有所不同，其意都在偵測畫面中集中而和周圍特徵相異的區塊，所以用這類方式取得的主體必須和背景在特徵上有明顯的差異。以上兩類偵測目標的方法所偵測到的主體在本質上有所不同， template matching 事先擬定的 templates 作為目標的模型，因此主體勢必與 templates 有一定程度的相仿；而 saliency map detection 則是以設定規則的方式求得符合規則的主體，但並不確定主體之實際模樣。 11.

(23) (b). (a). 圖 2. 4、Saliency map detection(a)原始影像 (b)主體偵測結果[Lan09]. 第二項、主體動作偵測主體動作偵測主要是透過找出畫面中的動作特徵，將這些特徵做適當的分析來偵測主體動作，而因應不同應用需求選擇適當的特徵選取方法可以提升偵測出主體動作的正確率。本研究需要尋找畫面中 motion 性質的特徵，常見的特徵擷取方法是 optical flow，optical flow 是利用影像中的光流變化來找出畫面中具 motion 性質的像素點位置，可用來描述相對於觀察者的運動所造成的觀測目標、表面或邊緣的運動。[Wu10]與[Sol12]提出針對群體運動來做判定的運用畫面中群體的特徵點，利用 optical flow 將特徵點與時間關係來找出特徵點的軌跡移動，利用群體的軌跡移動來判斷群眾的群體行為走向(如圖 2.5 所示)。圖 2.5 下排是將原始輸入影片經過一段時間後累積出的物體走向軌跡圖，上排是將下排中所選定區域的放大圖，由圖中的軌跡方向可以判斷出群體行為走向。. 圖 2. 5、根據群體運動特徵偵測群體走向[Wu10] 12.

(24) 除了利用影像中的 optical flow 特徵來偵測主體動作外，近年來透過各種感應器來偵測主體動作也相當受到注目。微軟(Microsoft)公司所開發的感應器 Kinect(如圖 2.6 所示)，藉由 Kinect 所提供的資源應用，使用者不需使用任何的手持裝置，即可直接藉由身體動作操控系統。Kinect 可接收彩色影像與深度影像兩種訊息來進行主體動作偵測。彩色影像由 Kinect 硬體設備中的 RGB 鏡頭取得；深度影像由左右兩邊的紅外線發射器和紅外線 CMOS 攝影機產生；系統可以透過彩色影像(如圖 2.7(a)所示)與深度影像(如圖 2.7(b)所示)，將兩者所擁有的資訊整合得出使用者骨架資訊(如圖 2.8 所示)，並辨識出該動作。圖 2.7 之左圖是 Kinect 所得到彩色影像，將其與深度影像資訊整合並經過計算後，可以得到右圖的人體骨架資訊，因此使用者只需透過一般的手勢即可直接操作系統介面。. 圖 2. 6、Kinect 的外部構造[9] 上述兩種運用不同技術偵測主體動作的方法，optical flow 是利用影像上的光流變化，找出畫面中具 motion 性質的像素點位置；而 Kinect 藉由硬體輔助得到彩色影像與深度影像，將兩個資訊整合後得知使用者的骨架資訊，透過骨架分析來偵測主體動作。而本研究所選用的主體偵測方式為 optical flow，因為演講場合中觀眾人數並非僅只兩三人，而 Kinect 所能得知的主體動作雖然較為細微，但其偵測人數僅限於兩人以下，與本研究的目標不符，而 optical flow 可直接偵測整個觀眾席中具 motion 性質的像素點位置，將這些 motion 像素點位置分析計算後可得到觀眾席中擾動現象最大的區域，較適合本研究的應用。. 13.

(25) (b). (a). 圖 2. 7、利用 Kinect 所得到的影像(a)彩色影像(b)深度影像[李 12]. 圖 2. 8、Kinect 捕捉的骨架資訊[9] 自動化攝影師系統主要目標是選取主體拍攝，因此選取主體的方法將影響系統拍攝上的精彩度，但除了達成選取主體拍攝外，自動化攝影師系統還要能適用於各種拍攝場合，且拍攝畫面需符合專業攝影規則，因此硬體的選用和架設方式與拍攝影像所需應用的技術也是相當重要。下一章將會介紹本研究所選用的硬體與架設環境。. 14.

(26) 第三章系統概述本章將詳細介紹虛擬觀眾攝影師系統的系統架設環境以及流程圖，第一節將描述本系統的硬體結構與架設環境；第二節將介紹本系統的基礎運作流程。. 第一節、系統架設環境為了達成自動化虛擬攝影師拍攝的目的，同時也為了能在各種不同的場地和環境下使用，以及能夠更方便的操控攝影機，所以本研究選用 Pan Tilt Zoom Camera(PTZ 攝影機，如圖3.1所示)用來作為拍攝觀眾的攝影機。 PTZ 攝影機與傳統攝影機及一般網路攝影機(Webcam)不同之處在於，PTZ 攝影機除了具備左右轉動(Pan)、上下傾斜(Tilt)和拉近與拉遠(Zoom)等自由地旋轉鏡頭的功能外，同時能讓系統透過網路傳輸直接的遠端操作攝影機各項功能與取得即時影像。. (a). (b). 圖 3. 1、PTZ 攝影機(a)正面 (c)硬體設備[10] 本研究所選用之 PTZ 攝影機是由 AXIS 公司所製作的5512型 PTZ 攝影機(如圖3.1所示)。5512型 PTZ 攝影機是一種採用半球形鏡頭可大範圍旋轉的網路攝影機，水平旋轉移動範圍-180度至180度，垂直傾斜移動範圍-90度至90度，鏡頭縮放倍率可達到12倍光學縮放和4倍數位縮放，影像設定上可自動化調整顏色、亮度、銳利度、白平衡、曝光控制、背光補償、日夜模式切換等攝影拍攝功能。(AXIS 5512型 PTZ 攝影機詳細規格見表3.1所示). 15.

(27) 表 3- 1、AXIS 5512 型 PTZ 攝影機詳細規格表[10]. 5512型 PTZ 攝影機所具備的功能可以適應各種拍攝場地與環境，包括階梯式場地(如圖1.2(a)所示)與平面式場地(如圖1.2(b)所示)，藉由調整攝影機鏡頭的拍攝角度與攝影機設置於場地的位置來取得較好的拍攝視野與畫面，其中自動調整 16.

(28) 的相關功能可以讓系統更輕易的拍攝出較佳的畫面品質。在本研究中因為觀眾坐落於場地各處，在採用單一攝影機的情況下並無法達到即時拍攝與監控的要求，因而本系統同時使用兩台 PTZ 攝影機來達到較佳的拍攝效果。其架設方式是以一上一下擺放(如圖3.2所示)，該攝影機的架設概念是以攝影學的角度考量後的結果。傳統攝影師在工作時除了操控手中的拍攝鏡頭外，還需要透過攝影師的雙眼，以專業的攝影觀點來觀察全場情境，並選擇適當的目標與運鏡手法來拍攝。[Rui01]的研究中也提到，偵測、辨識與拍攝等工作不應該只單獨由一台攝影機來做處理，應該由兩台以上的攝影機來做分工，以達到較佳的運作效能。因此本研究的兩台 PTZ 攝影機分別擁有不同的工作內容，擺設於上面的 PTZ 攝影機用來當作攝影師的雙眼，稱為 global-view 攝影機，用以回傳全景畫面提供系統監控整體的會場環境。擺設於下面的 PTZ 攝影機用來當作攝影師操控於手中的拍攝鏡頭，稱為 local-view 攝影機，負責鏡頭移動拍攝與回傳拍攝結果。本系統透過 global-view 攝影機來收集演講場地中的影像資訊，將所得到的影像資訊經過分析與計算得到影像中的 ROI(詳情請見第四章)與運鏡相關資訊( 詳情請見第五章)，然後依所得到資訊來操控 local-view 攝影機運鏡拍攝，等到 local-view 攝影機就定位拍攝後，會對所拍攝到的畫面進行專業攝影標準的評估與計算(詳情請見第五章)，最後依照運算結果進行 local-view 攝影機鏡頭微調並將畫面輸出。. (b). (a). 圖 3. 2、PTZ 攝影機架設方式，上方是 global-view 攝影機，下方是 local-view 攝影機(a)側視圖(b)俯視圖. 17.

(29) 第二節、系統流程本系統運作流程圖(如圖3.3所示)，可分為兩大部份，第一部分是 global-view 的部分，此部分主要處理 global-view 攝影機所提供全景影像中的監控與計算，第二部分是 local-view 的部分，主要處理操作 local-view 攝影機所需要的運鏡與拍攝相關資訊。. 圖 3. 3、虛擬攝影師之拍攝觀眾系統流程圖第一部分系統透過 global-view 攝影機取得演講場合中的連續全景影像，首先需要先找出候選 ROI，候選 ROI 是指畫面中觀眾動作較大與動作較為集中的區域。本研究利用 optical flow 找出畫面中所有 motion 像素點位置與移動距離資訊(詳情請見第四章)，去除雜訊後所得到的結果用以表示影像中觀眾的 motion 資訊。再將所得到的資訊依照密集分散度轉換成 motion 密度圖，motion 密度圖轉換方式是透過 motion 點與其移動距離累計統計而成，依據密度高低給予不同的顏色深淺度，顏色較深的區域 motion 密度較大，顏色較淺的區域 motion 密度 18.

(30) 較小，而顏色越深越集中的區域本系統會優先選取為候選 ROI(如圖3.4所示)。圖 3.4(a)是利用 optical flow 找出畫面中所有具有 motion 性質的像素點位置；圖3.4(b) 是將所找到的 motion 性質的像素點位置與 optical flow 的向量轉換成之密度圖；圖3.4(c)是經由密度圖中找密度最高的區域並選定候選 ROI 之結果。. (a). (b). (c). 圖 3. 4、系統決定候選 ROI(a)motion 特徵圖(b)motion 特徵密度圖(c)候選 ROI 選取結果找出候選 ROI 後，需要再決定此候選 ROI 是否適合拍攝，本研究利用 STA 類神經網路(spatio-temporal attention neural model)，STA 能夠紀錄並提供相關資訊來協助系統找出最適合拍攝的 ROI(詳情請見第四章)。將此候選 ROI 輸入 STA 後會先計算候選 ROI 所對應到 STA 輸出層中的激發值是否在安全值以下，如果激發值在安全值以下，則將此候選 ROI 選取為最適合拍攝的 ROI，並將此 ROI 輸入 STA 激發對應區域的激發值，如果激發值在安全值以上，則將此候選 ROI 抑制後並重新找尋新的候選 ROI。演講場合中會有些持續的動作，這些動作可能造成此區域重複被選取為候選 ROI，而利用 STA 激發值的特性可以解決此問題，STA 可記錄 global-view 攝影機拍攝畫面中曾經被選取為 ROI 的區域，因此可以避免不停的拍攝特定區域，讓其他區域也有被拍攝的可能，而且 STA 會隨著時間降低激發值，因此被抑制過的候選 ROI 再經過一段時間後將有機會再次被選取。圖3.5(a)是系統 ROI 選取結果，ROI 決定後操控 local-view 攝影機運鏡至 ROI 拍攝；圖3.5(b)是 local-view 攝影機運鏡至 ROI 拍攝的結果；圖3.5(c)是將所拍攝的 ROI 輸入 STA 輸出層後之激發狀態圖。. 19.

(31) (a). (b). (c). 圖 3. 5、系統採用 STA 決定 ROI(a)ROI 選取結果(b)運鏡後拍攝畫面(c)STA 輸出層激發狀態因此第二部分系統會先計算移動至 ROI 所需要的相關運鏡資訊後，操控 local-view 攝影機運鏡拍攝 ROI(詳情請見第五章)，local-view 攝影機到達定位後，進行人臉偵測(詳情請見第五章)。拍攝畫面中可能會有很多的人臉，因此利用所找出人臉中心位置資訊與 ROI 的位置資訊找出最顯著的人臉來做為本次拍 ROI 的主體觀眾。由於本系統是以觀眾為拍攝主體，因此在拍攝畫面中觀眾臉部必須要能被完整拍攝到，所以運鏡拍攝時須考量並拍攝到觀眾的臉部位置，否則拍攝畫面將失去主體性(如圖3.6所示)。圖3.6(a)是系統 ROI 選取結果，ROI 決定後操控 local-view 攝影機運鏡至 ROI 拍攝；圖3.6(b)需確定所拍攝畫面中是否有觀眾，因此對畫面做人臉偵測來確定畫面中之觀眾；圖3.6(c)由於所偵測到的觀眾人臉可能有很多，透過計算找出本次主要拍攝人臉。. (a). (b). (c). 圖 3. 6、系統人臉偵測(a)ROI 選取結果(b)運鏡後人臉偵測結果(c)主要拍攝人臉選取最後本研究的另一個目的是要符合專業攝影學的拍攝標準，將專業攝影學利用美學與光學分析來做評估(詳情請見第五章)，對所拍攝到的畫面做偵測與計算後，操作 local-view 攝影機進行微調，使得拍攝畫面符合專業的攝影標準。總而言之，本研究利用上述流程來完成拍攝觀眾的目的，對於畫面中觀眾擾 20.

(32) 動區域採用 optical flow 特徵做偵測，再根據偵測結果找出候選 ROI，之後將候選 ROI 輸入 STA 中找出適合系統拍攝的 ROI，然後依據系統所計算出的運鏡相關資訊進行運鏡拍攝，攝入的畫面經過人臉偵測再結合畫面的美學分析，最後再微調攝影機取得最佳的拍攝畫面。. 21.

(33) 第四章 ROI 選取本系統是以觀眾為拍攝主體，然而觀眾是群體目標並非為個體目標，透過 global-view 攝影機所提供全景影像，並從全體觀眾中找出觀眾動作擾動的區域和找出適合拍攝的 ROI 是本研究的第一要務。首先第一節將介紹觀眾的動作分析；第二節與第三節會說明本系統 ROI 選取方式，從候選 ROI 到決定 ROI 的相關細節。. 第一節、觀眾動作分析本研究的拍攝主體是觀眾，而觀眾的動作分析的結果取決於選取拍攝觀眾區域的優劣。本研究限定觀眾的動作幅度不超過自己所在座位區域。因此依照觀眾的動作幅度大小，可分成靜態動作與動態動作兩個主要類別。而此二類別又可依據做出相同動作的觀眾人數細分成個人動作與群體動作。在此本研究對於個人動作的人數定義是 1 至 3 人，群體動作的人數則為 3 人以上。透過觀察演講場合中觀眾的動作得知，觀眾產生動作並沒有特定規律與時間，大都與演講內容與演講進度相關，因此本研究擬利用以上區分方式找出觀眾動作中較具代表性也較常出現的幾項動作(如圖 4.1 所示)。圖 4.1 顯示觀眾常見動作包含以下幾項：交談、討論、笑、打瞌睡、點頭表示同意、舉手、起立坐下與鼓掌等動作。. 圖 2.1 觀眾動作分類圖 4. 1、演講觀眾動作分類圖 22.

(34) 根據以上觀眾動作的分類可知，當某些觀眾產生動作時，當下產生動作的觀眾會產生出動作擾動的區域。因此從 global-view 攝影機所提供全景影像中，找出畫面中具有擾動的區域即是本系統所需之候選 ROI。. 第二節、候選 ROI 偵測為了在觀眾全景畫面中找出具有擾動的區域，本研究參考[Luc86]所提出運動向量估計的方法，先從觀眾全景畫面中找出能表示擾動的特徵，再根據這些特徵找出擾動密集區域，將此區域選取為候選 ROI。擾動的特徵的擷取，本研究選用[Bou00]所提出 Lucas-Kanade optical flow 的方法來進行，因為 optical flow 能找出畫面中具 motion 性質的像素點位置，再依據所找出的 motion 性質的像素點密集度選出候選 ROI。 Lucas-Kanade optical flow 是採用金字塔型的架構，該架構是將影像的解析度分為多個層次，由上至下其解析度則由低至高，先在低解析度的影像進行粗略追蹤，再往底層解析度較高的影像進行較細緻的追蹤。本節首先介紹一般較常見 optical flow。該方法假設影像上某像素點在極短時間內產生位移時，其 intensity 值並不會改變，此位移的速度向量就是該像素點的 optical flow 方向，E ( x, y, t ) 表示在時間 t 時，影像中像素點 ( x, y ) 的 intensity 值，而 x 和 y 代表經過時間 t 的原來落在 ( x, y ) 位置的像素點位移量，由上述假設可以列出方程式如下：. E( x, y, t )  E( x  x, y  y, t  t ). (式 4.1). 其中，將(式 4.1)右方公式用泰勒展開式展開後可得：. E ( x  x, y  y, t  t )  E ( x, y, t )  Ex x  Ey y  Et t. (式 4.2). 接著將(式 4.2)帶回(式 4.1)中並同時除以 t 後，化簡可得：. Ex. x y  Ey  Et  0 t t. (式 4.3). 當取樣時間 t 很小時，可將(式 4.3)改寫為：. Ex. dx dy  Ey  Et  0 dt dt. 設u . (式 4.4). dx dy 、v  為影像中像素點 ( x, y ) 的 x 和 y 的水平與垂直分量的運動速 dt dt 23.

(35) 度，而 (u, v) 即為所求像素點的 optical flow。以下將介紹利用 Lucas-Kanade optical flow 來追蹤特徵點的方法。此方法考慮一段序列影像 I , I  {I1, I 2 , , IT }，令 [ Px , Py ] , t {1,2, , , T } t. 為影像中的一特徵點 P 的位置， I t (P) 表示影像中特徵點 P 的 intensity 值， 為極短的時間變化， x 和 y 為 P 在  時間內的位移變化量。在假設 P 在間隔相鄰畫面之間的移動夠小且 intensity 值不變的前提下移動到下一個時間的 P 像素點位置上，可以得知下式：. It x, y   It  ( x  x, y  y). (式 4.5). . 其中 P 的位置為 ( x  x, y  y) ， v  (v x , v y ) 是 P 在極短時間內的移動速. . 度，而 Lucas-Kanade optical flow 目的就是要找到最佳的 v 值，使(式 4.5)的匹配函數  的誤差值最小。令 wx , wy 為 P 周圍的搜尋區域的 1 長寬(如圖 4.2 所示)， 2 誤差函數  定義如下：. .  (v )   (v x , v y ) p x  wx. . p y  wy.   (I. x  p x  wx y  p y  w y. t . ( x  x, y  y )  I t ( x  v x , y  v y )) 2. (式 4.6). 圖 4. 2、Lucas-Kanade optical flow 計算範圍差異圖為了得到 v x 與 v y 最佳值 vxo p t, v yo p t ，將  函數分別對 v x 與 v y 偏微並令其為零，可以得到.  (vx ) vx v. 0. (式 4.7). x  v xopt. 24.

(36)  (v y ) v y. 0. (式 4.8). v y  v yopt. 將(式 4.7)與(式 4.8)經由一次泰勒展開式展開可得  p x  wx  (v )  2  v x x  p x  wx. p y  wy. [( I. y  p y  wy. t . ( x  x, y  y )  I t ( x, y ) . I t I I vx  t v y ]  t x y x. (式 4.9)  p x  wx  (v )  2  v y x  p x  wx. p y  wy. [( I. y  p y  wy. t . ( x  x, y  y )  I t ( x, y ) . I t I I vx  t v y ]  t x y y. (式 4.10) 其中 I t  ( x  x, y  y)  I t ( x, y) 可解釋為影像對時間的微分. ( x, y)  ([ px  wx , px  wx ],[ p y  wy , p y  wy ]). It . I  I t  ( x  x, y  y)  I t ( x, y) t. (式 4.11). 在微分方面，因為影像是數位訊號，其像素座標皆為整數而非連續數值，因此可用有限差分來計算微分值。令影像寬度為 W ，高度為 H 時，則.  I t ( x  1, y )  I t ( x, y )  I  I ( x  1, y )  I t ( x, y ) Ix  t   t x  2 I ( x , y )  I t ( x  1, y )   t. if x  1 if 1  x  W.  I t ( x, y  1)  I t ( x, y )  I ( x, y  1)  I t ( x, y ) I  Iy  t   t y  2 I ( x , y )  I t ( x, y  1)   t. if y  1 if 1  y  H. (式 4.12). if x  W. (式 4.13). if y  H. 將(式 4.12)與(式 4.13)帶回(式 4.9)與(式 4.10)可得  p x  wx  (v )  2  v x x  p x  wx  p x  wx  (v )  2  v y x  p x  wx. p y  wy. . [I t I x  vx I x  v y I x I y ]. (式 4.14). [I t I x  v y I y  vx I x I y ]. (式 4.15). 2. y  p y  wy p y  wy. . 2. y  p y  wy. 將所求 (v x , v y ) 寫成矩陣型式為. 25.

(37)  p x  wx p y  w y 2    Ix  x  p x  wx y  p y  w y  p x  wx p y  w y   IxIy  x  p x  wx y  p y  wy.  Iy x  p x  wx y  p y  w y  v x    I x I t  p  w p x  wx y y   I y I t  2 v y    Iy    x  p x  wx y  p y  w y    1 將(式 4.16)改寫為 Gv  b 則 v  G b 即為所求結果。 p x  wx. . p y  wy. I. x. (式 4.16). 上述式子中 wx , wy 的範圍越大表示搜尋的範圍越大，當特徵點的移動較大時，可將搜尋的範圍調大，但也會付出較多的運算時間，本研究中使用的是. wx  10, wy  10 大小的搜尋範圍。由於上述是假設相鄰畫面之間特徵點的移動量是相當小的，對於移動距離較大的特徵點無法正確的追蹤，因此 Lucas-Kanade optical flow 的方法會再利用另一種金字塔型架構的影像表示法來克服特徵點移動距離過大的問題。首先定義 I L 為影像的第 L 層， L  {0,1,2,  , Lm } ，其中 I 0 為原始影像， I L 的影像解析度為 I L 1 的一半，以影像解析度 640  480 為例， Lm  3 ，則 I 0. 為 640  480 、 I 1 為 320  240 、 I 2 為 160  120 、 I 3 為 80  60 以此類推。利用此金字塔型的影像表示法再以雙線性內挿的方式來計算下一層每個像素的強度值，因此可以將計算的精確度提高至半個像素點。以下是此方法的計算公式：. 1 L 1 I ( 2 x, 2 y ) 4 1  [ I L 1 (2 x  1,2 y )  I L 1 (2 x  1,2 y )  I L 1 (2 x,2 y  1)] 8 1 L 1  [ I (2 x  1,2 y )  I L 1 (2 x  1,2 y  1)  I L 1 (2 x  1,2 y  1)] 16. I L ( x, y ) . (式 4.17) 接著在上述金字塔型的架構中進行追蹤，先計算 Lm 層的特徵點在影像中的移動距離，再依序計算 Lm  1 層的移動距離，直到第零層為止，圖 4.3 是一個架構為三層的特徵點追蹤示意圖，由高層低解析度至低層高解析度追蹤，圖中不同顏色表示不同特徵，最高層會先找到最初步的特徵，再往下層追蹤，由於解析度提升，因此所上層所追蹤的特徵相對位置可能會改變，並找出原特徵點中附近的新的特徵點，由此方法往下類推追蹤至最低層，利用這樣的方法可以有效的提高整個追蹤器的穩定度。在本論文方法中，所採用的是四層的金字塔架構，也就 26.

(38) 是 Lm  3 。. 圖 4. 3、金字塔型架構追蹤示意圖[謝 95] 利用 Lucas-Kanade optical flow 找出全景觀眾畫面中具 motion 性質的像素點位置，再計算各個像素點間的距離，找出畫面中 motion 點密度最高的區域，將此區域選為候選 ROI。. 第三節、ROI 挑選由於上述方法是將畫面中 motion 點密度最高的區域選取為候選 ROI，而此方法可能會造成畫面中某些持續產生 motion 點的區域重複選取為候選 ROI，因此本研究運用注意力圖像(attention map)來記錄所拍攝過的 ROI，並根據 attention map 中的資訊來決定候選 ROI 是否可成為真正的 ROI，藉此避免 ROI 重複選取拍攝的情形發生。以下將詳述實作方法的內容。 Attention maps 是指在背景是靜態的狀況下，畫面中的動點往往是觀賞者聚集注意力的區域，而此區域與本研究所定義的 ROI 具有相同的性質。因此本研究使用 STA(spatio-temporal attention neural model)[Fan03]來模擬注意焦點集中的過程，並建立注意力圖像(attention maps)(如圖 4.4 所示)。. (a). (b). 圖 4. 4、注意力圖像(a)原始影像(b)根據左圖原始影像建立的注意力圖像 27.

(39) STA 類神經網路分為兩層，一層為輸入層(input layer)，另一為輸出層(output layer)，輸出層亦稱為 attention layer(如圖 4.5 所示)。輸出層中每個神經元都與其鄰近神經元連接，稱之為階層內部連結(within-layer connections)，用來傳遞抑制訊息就是 inhibitory connection。輸入層的每個神經元與輸出層的每個神經元皆有連結稱為 excitatory connection，而這些連結主要用來傳遞刺激訊息，為完全連結 (full-connected)。. 圖 4. 5、STA 類神經網路架構圖[Fan03] 輸入層與輸出層的神經元各自組成一個二維陣列，陣列的大小即為輸入影像之大小。令 wij 表示輸入層神經元 n j 與輸出層神經元 ni 連結的權重，而輸入層與輸出層間的連結之權重給定方式，如圖 4.6 所示，假設二維高斯函數 G 的中心位於輸出層神經元 ni 上，則 ni 與鄰近的神經元 nk 形成一位置向量(position vector). rki ，輸入層神經元 n j 與輸出層神經元 nk 的權重 wkj 則可表示為 G(rki ) 。二維高斯函數可以使得某個輸入層神經元的刺激在輸入後會刺激到對應的輸出層神經元，進而產生刺激分散的現象。然而輸出層的神經元則會互相抑制，而這種抑制機制可以用「墨西哥帽(Mexican-hat)」函數 M (rk ) 來模擬(如圖 4.7 所示)，其中 rk 表示神經元 nk 距離中心神經元 ni 的距離向量。此種函數的控制方式會造成輸出層的神經元產生激發狀態聚集的現象。. 28.

(40) 圖 4. 6、輸入層與輸出層的權重連結圖. 圖 4. 7、墨西哥帽函數圖形運用上述的類神經網路建構出的注意力圖像，如圖 4.4(b)所示。圖 4.4(b)中注意力圖像是一種灰階影像，亮點分佈的區域表示動點出現與系統所拍攝過的位置。STA 連結值向量會經由輸入後激發對應的連結值向量，而其他區域的連結值向量也會被抑制，因而本研究利用此特性，將候選 ROI 與 STA 所對應區域先做相關資訊的比對，確定此候選 ROI 是否重複進行選取拍攝，如果 STA 內此 ROI 對應區域已經被激發，則重新尋找新的 ROI，若 STA 內此 ROI 對應區域未被激發，則將此候選 ROI 選定為正式 ROI 進行運鏡拍攝，並將此候選 ROI 相關資訊作為輸入層輸入 STA 進行對應區域激發。透過上述方法，先使用 Lucas-Kanade optical flow 可以從 global-view 攝影機所提供全景影像中找出全體觀眾中找出有擾動的 motion 點位置，在找出畫面中 motion 點位置密度最高的區域來當作候選 ROI，再將候選 ROI 透過 STA 相關資訊找出適合拍攝的正式 ROI。. 29.

(41) 第五章運鏡路線規劃系統選定 ROI 後，會啟動 local-view 攝影機進行運鏡拍攝，而其中有關於 local-view 攝影機運鏡到 ROI 進行拍攝的相關參數將在第一節中說明，第二節將介紹運鏡方式與構圖規則。. 第一節、攝影機控制決定 ROI 後，在啟動 local-view 攝影機運鏡前，系統需先決定兩台攝影機的相對運鏡參數，本節將對於兩台攝影機間的運鏡參數計算來做說明。前述曾提到本系統兩台攝影機是以上下相疊擺放 ( 如圖 3.2 所示 ) ，當 global-view 攝影機輸入之全景影像中之 ROI 被選定後，需要先決定出 local-view 攝影機目前鏡頭的中心位置與 ROI 的中心位置，以及兩者中心位置間運鏡所需要的水平旋轉和垂直傾斜移動角度。假設真實空間中 global-view 攝影機鏡頭中心位置座標為 G( xg , y g , z g ) ， local-view 攝影機鏡頭中心位置座標為. L( xl , yl , zl ) ，ROI 的中心位置座標為 R( xr , yr , zr ) ，global-view 攝影機拍攝 ROI 中心的成像位置座標為 R( xr , yr , zr ) 。在計算 local-view 攝影機鏡頭水平旋轉移動角度時(圖5.1所示)，由於兩台攝影機是以上下相疊擺放，因此以水平 z 軸視線往 xy 平面垂直觀看，可將兩台攝影機鏡頭中心投影在 xy 平面上，該二投影點會重疊在平面上的同一點，即 ( xg , y g )  ( xl , yl ) 。另外 ROI 的中心位置 R 與 R 亦可投影至此平面，分別得到點 T 與 T  ，在此 xy 平面被稱為水平拍攝平面。經由上述的投影可知 ( x g , y g ) 是攝影機鏡頭中心投影於水平拍攝平面上點 M 之座標， ( xr , y r ) 是 ROI 中心投影於水平拍攝平面時點 T 之座標，. ( xr , yr ) 是 ROI 中心成像位置投影於水平拍攝平面時點 T  之座標。圖 5.1 中 y  yr 直線為真實影像線， ( xRL , yr ) 與 ( xRR , yr ) 是攝影機在水平拍攝平面於真實影像線的拍攝臨界點， y  yr 直線為影像成像線， ( xRL , yr ) 與. ( xRR , yr ) 是攝影機在水平拍攝平面於影像成像線的拍攝臨界點。此時點 M 30.

(42) 對真實影像線 ( y  yr ) 作垂直線兩者相交於 M R  ( x g , yr ) ，且點 M 對影像成像線 ( y  yr ) 作垂直線兩者相交於 ( x g , y r ) 。令兩攝影機的焦距皆為. f ， d 是攝影機鏡頭中心到真實影像線的垂直距離，  G 是 global-view 攝影機鏡頭於水平拍攝平面拍攝範圍最大的角度，  L 是欲求得 local-view 攝影機鏡頭中心運鏡至 T 於水平拍攝平面所需的水平旋轉角度。由圖 5.1 中可明顯看出 M R 與 T 的距離為 ( x g  x r ) 2 ，且 M R 與 T  的距離為 ( x g  x r  ) 2 。 M R 與 T 的距離還可利用相似三角形來計算 ( x g  xr ) 2 . . ( x g  xr ) 2 ( x RL   x g ). 2. ( x g  xr ). 2. ( x RL  x g ) 2. (式 5.1). ( x RL   x g ) 2. d tan  G . 將已知參數帶入(式 5.1)可以求得 d ，然後再將 d 帶入(式 5.2)計算求出  L ：.  (x  x )2 g r  L  tan  d   1.    . (式 5.2). 圖 5. 1、Global-view 與 local-view 攝影機的水平旋轉移動參數示意圖 31.

(43) 在計算 local-view 攝影機鏡頭垂直傾斜移動角度時(如圖 5.2 所示)，由於兩台攝影機是以上下相疊擺放，因此以垂直 z 軸視線往 yz 平面垂直觀看，可將兩台攝影機鏡頭中心投影在 yz 平面上。另外 ROI 的中心位置 R 與 R 亦可投影至此平面，分別得到點 T 與 T  ，在此 yz 平面被稱為垂直拍攝平面。經由上述投影可知 ( y g , z g ) 是 global-view 攝影機鏡頭中心投影於垂直拍攝平面上點 G 之座標， ( y l , z l ) 是 local-view 攝影機鏡頭中心投影於垂直拍攝平面上點 L 之座標， ( y r , z r ) 是 ROI 中心投影於垂直拍攝平面上點 T 之座標，. ( y r  , z r  ) 是 ROI 中心成像位置投影於垂直拍攝平面上點 T  之座標。圖 5.2 中 y  yr 直線為真實影像線， ( yr , zTL ) 與 ( yr , zTR ) 是攝影機在垂直拍攝平面於真實影像線的拍攝臨界點。 y  yr 直線為影像成像線， ( yr , zTL ) 與. ( yr , zTR ) 是攝影機在垂直拍攝平面於影像成像線的拍攝臨界點。此時點 G 對真實影像線 ( y  y r ) 作垂直線兩者相交於 N R  ( y r , z g ) ，且點 G 對影像成像線 ( y  y r  ) 作垂直線兩者相交於 N R  ( y r  , z g ) 。令兩攝影機的焦距皆為 f ， d 是攝影機鏡頭中心到真實影像線的垂直距離， h 是兩台攝影機鏡頭中心的高度差， h 是 global-view 攝影機鏡頭於在垂直拍攝平面拍攝範圍最大的角度，  h 是欲求得 local-view 攝影機鏡頭中心運鏡至 T 於在垂直拍攝平面所需的垂直傾斜角度。由圖 5.2 中可明顯看出 N R 與 T 的距離為 ( z g  z r ) 2 ，且. N R 與 T  的距離為 ( z g  z r  ) 2 。 N R 與 T 的距離還可利用相似三角形來計算 (z g  zr ). 2. . . ( z g  z r ) 2 ( z TL   z g ). 2. ( z g  z r ). 2. ( zTL  z g ) 2. (式 5.3). ( zTL  z g ) 2. d tan  h . 將以知參數帶入(式 5.3)可以求得 d ，然後再將 d 帶入(式 5.4)計算求出  h ：.  (z  z )2  h  g r   h  tan   d    1. (式 5.4). 32.

(44) 圖 5. 2、Global-view 與 local-view 攝影機的垂直傾斜移動參數示意圖上述式中的參數，除了真實距離 d 和 local-view 攝影機所需求得的水平旋轉角度  L 、垂直傾斜角度  h 外，其餘皆是已知參數。對於攝影機的移動所需參數只需將已知參數帶入上述式中，所得結果即可得知控制 local-view 攝影機鏡頭運鏡拍攝 ROI 所需要的運鏡參數。得知 local-view 攝影機鏡頭運鏡拍攝 ROI 所需要的運鏡參數後，需要再決定目前 local-view 攝影機要使用何種運鏡方式前往拍攝 ROI，與 local-view 攝影機拍攝 ROI 畫面後拍攝畫面的構圖規則，這些將在下一節做說明。. 第二節、運鏡方式與構圖規則選定 ROI 後，系統需決定攝影機運鏡前往 ROI 的運鏡方式，選定運鏡方式並操控攝影機拍攝後，本系統會再對所拍攝到的畫面分析構圖與美學標準，依據所分析結果微調攝影機以取得最佳的拍攝畫面與品質。以下將分別對於本系統選定運鏡方式與構圖和美學分析說明。 33.

(45) 本研究運鏡方式分為定點拍攝(cut)、推鏡頭(zoom in)、拉鏡頭(zoom out)、水平旋轉(pan)、垂直傾斜(tilt)等運鏡方式(如表 5-1 所示)。其中 zoom in 主要用來掌握運鏡後拍攝畫面中的主體大小；pan 和 tilt 主要配合 ROI 的選定來調整攝影機拍攝 ROI 時的攝影角度，最後根據影像構圖規則來微調影像中主體物位置。表 5- 1、運鏡方式 Camera movement. Chinese name. Definition. Cut. 定點攝影. No camera movement.. Zoom in. 推鏡頭. A change in the lens focal length with gives the illusion of moving the camera closer.. Zoom out. 拉鏡頭. A change in the lens focal length with gives the. Pan right. 水平向右. Horizontal movement, right.. Pan left. 水平向左. Horizontal movement, left.. Tilt up. 垂直向上. Vertical movement of the camera angle,. illusion of moving the camera further away.. pointing the camera up . Tilt down. 垂直向下. Vertical movement of the camera angle, pointing the camera down.. Pan right (angle A). 沿角度 A. Movement along angle A, right.. 由左向右 Pan left (angle A). 沿角度 A. Movement along angle A, left.. 由右向左 Pan right (angle B). 沿角度 B 由左向右. Movement along angle B, right.. Pan left (angle B). 沿角度 B 由右向左. Movement along angle B, left.. 第一項、主體大小主體是攝影師所要呈現的目標物，同時也是畫面的結構重心。拍攝畫面的主體的大小影響著欲拍攝的目標能否被突現出來，藉由控制主體在畫面中所佔的大小比例，還可以傳達不同含意的主題。例如拍攝主體為觀眾時，為了突顯所選定的觀眾，被選定的觀眾在畫面中的所佔的比例就不能太小，以影像大小的三分之一為佳。本系統拍攝主體以觀眾為主，由於臉部是大多是攝影師拍攝人像時最為關注的部位，因此若以觀眾作為拍攝的主題，臉部的資訊是相當重要。同時臉部也是觀眾席上的觀眾較容易完整擷取的部分。人臉的偵測方法已經被研究多時，本研究採用的人臉偵測方法是由[Vio04] 34.

(46) 所提出的 Adaboost 演算法，其使用的特徵是 Haar features。Haar feature 擷取方式是由兩個或多個黑色和白色的矩形相鄰組成的 Haar masks(如圖 5.3 所示)，計算方式是比較黑色區塊與白色區塊 intensity 值的差異。對於影像中人臉的不同部位使用不同的 Haar massk 會有不同的效果，像是鼻子的 intensity 值總和會大於臉頰的 intensity 值總和等等，Haar features 就是利用這種簡單的概念擷取出的特徵。此外，若搭配積分影像(integral image)技術還能加速 Haar features 擷取時的計算，減少許多執行時間。. 圖 5. 3、Haar masks 之範例利用 integral image 可加速 Harr feature 的擷取，傳統 Harr feature 擷取使用如圖5.3的檢測窗格中指定位置的相鄰矩形，計算每一個矩形的 intensity 值之和，以這些和的差值做為特徵。傳統作法的缺點就是計算時間過長，利用 integral image 可解決此問題。Integral image 實際上為一個二維矩陣的查找表，該矩陣的每一個元素值為左上方矩形內 intensity 值之和。如圖5.4(a)中座標點 ( x, y ) 所在位置之元素值為左上灰色部分區域內 intensity 值之和。想得到矩形間 intensity 值之和的差值只需要從 integral image 中查詢端點之值進行運算即可，藉此可以大幅度地降低運算時間。在 integral image 中，對於一個輸入影像將其表示為一個矩陣 I ，矩陣 I 中之元素 ( x, y ) 的 integral image 代表向左邊界至上邊界所圍起來的區塊的 intensity 值總和(如圖 5.4(a)所示)，定義如下：. I ( x, y) .  I (i, j ). (式 5.9). 1i  x ,1 j  y. 其中 I ( x, y) 代表 integral image 中元素 ( x, y ) 的值， I (i, j ) 代表輸入影像中像素點 (i, j ) 的 intensity 值。如此定義，建立好 integral image 後，便可快速求得輸入影像中一矩形內的 intensity 值總和。以圖 5.4(b)為例，欲計算 D 區域內的 intensity 值總和，必須先在 integral image 中取得點 P1 、 P2 、 P3 、 P4 的值，分別表示為： 35.

(47) P1  A. (式 5.10). P2  A  B. (式 5.11). P3  A  C. (式 5.12). P4  A  B  C  D. (式 5.13). 其中 P1 代表 A 區域的 intensity 值總和、 P2 代表 A 區域加上 B 區域的 intensity 值總和，以此類推。之後利用簡單的加減，即可算出 D 區域內的 intensity 值總和。. P4  P3  P2  P1   A  B  C  D    A  C    A  B   A  D. (b). (a) 圖 5. 4、Integral image 計算之圖例(a)Integral image 中涵蓋的計算範圍(b)Integral image 中. (式 5.13). 之 intensity 值所. 範圍的 intensity 值總和之計算示意圖. 藉由 integral image，Haar feature 擷取便可更快速的求出黑色區塊和白色區塊內的 intensity 值總和，再相減求出特徵值。 Adaboost 演算法的基本原理是對整張影像以上述人臉偵 polarity 測的方法，進行地毯式的人臉特徵比對，並從中擷取出不同尺寸、位置的區塊，經由訓練出來的分類器判斷是否為人臉，最後輸出符合分類器檢測的人臉區域。Adaboost 演算法所訓練出來的分類器，是由多個弱分類器(weak classifier)組合而成的一個強分類器(strong classifier)，其原理是在每輪的運算決定一個弱分類器，最後將這些弱分類器組成一個強分類器(如圖 5.6 所示)。. 36.