以觀眾為拍攝主體之虛擬攝影師系統
96
0
0
全文
(2) 摘要. 本研究的目的乃在於建立以觀眾為拍攝主體之虛擬攝影師系統。由於人力成 本的不斷提高,聘請商業攝影團隊為演講或會議拍攝影片對一般預算有限的非營 利學校或公司行號是一個沉重的負擔。若為了節省成本而讓缺乏攝影經驗的人來 掌鏡,往往會讓影片缺乏美感及流暢度,甚至是降低觀賞的意願。本研究所提出 之系統除了能夠節省人力開銷,還提供專業攝影技巧以製作高規格影片。 本研究以兩台 PTZ 攝影機作為實驗設備,架設於拍攝場地的左或右前方,兩 台 PTZ 攝影機具有不同的功能,一台為全景 PTZ 攝影機,另一台為運鏡 PTZ 攝 影機。全景 PTZ 攝影機代表攝影師的雙眼,將拍攝場地的全景的連續影像輸入到 系統協助系統的全景監控與主體偵測。運鏡 PTZ 攝影機則是攝影師手上的攝影機 ,在系統決定運鏡所需之一切資訊後,運鏡 PTZ 攝影機就會實際執行運鏡動作。 本系統的功能為模仿攝影師的拍攝技巧並自動進行運鏡動作,每次運鏡皆需 要運鏡的種類、景別、主體等要素。系統從全景 PTZ 攝影機輸入連續影像,從中 擷取四種具描述觀眾行為的 motion 特徵。接著將這些特徵經過模糊化(fuzzifierion) 處理讓這些數值轉換成自然語言的表達方式,以便於分析攝影師的運鏡習慣。接 著將這些特徵輸入自動運鏡模型(automatic camera movement model),該模型能夠 紀錄專業攝影師的運鏡習慣,並依據輸入的特徵輸出適合該情況的運鏡以及景別 種類。拍攝主體的挑選則以五種分別代表不同美感的特徵作為判斷標準。在完成 運鏡要素的計算後,將資料傳送至運鏡 PTZ 攝影機執行運鏡動作。 實驗結果顯示,本系統可進行即時且流暢的運鏡動作且具專業攝影的運鏡水 準,符合演講錄製的需求。. 關鍵字: 攝影師、運鏡、美學、自動機 I.
(3) Abstract. This study proposed an automatic virtual cameraman system for audience. Because of increasing of personnel costs, to employ commercial photography team filming speeches or conferences is a heavy burden for the nonprofit school or company line number that budget limited. If In order to save costs and let person who lack of photography to shoot, it often causes the videos which not smooth and aesthetics. Our system not only can save personnel costs, but makes professional videos with photographic. System equipment includes two PTZ web-cameras which are located right front or left front of the lecture theatre. These two PTZ web-cameras have different functions. One, which named full-shot PTZ camera, grabs auditorium screen and input continuous images to system. Another one , which named camera movement PTZ camera, do camera movement after system computes all necessary camera movement information. Camera movement information includes camera movement class, shot class, and subject. To get this information, system first input continuous images from full-shot PTZ camera. Then extracting four motion features which represent four kinds of audiences’ behavior. For combining motion features and natural language, system fuzzifier motion features. To decision camera movement and shot, we construct automatic camera movement model (ACMM), an automata model. ACMM records photographers’ habit of camera movement and shot. It can pick up suitable camera movement and shot by input fuzzy motion features. After that, system will choose. II.
(4) subject by using four aesthetic features, which are continuous, repeated, luminance and composition. Last, system operates camera movement PTZ camera to finish recording. In the experiment, there are eleven kinds of camera movement and six kinds of shot in the ACMM. And ACMM was trained with six lecture videos. Compared to amateur’s recording and point shooting, our system is really performance well than them. Beside, system can real time work, so it won’t lose any shot on the auditorium.. Index item: cameraman, camera movement, aesthetics, automata.. III.
(5) 誌謝. 兩年的碩士生活結束了,雖然時間不是很長卻讓我有不小的成長,和大學時 期不同,碩士更需要獨立思考以及表達的能力,這是方老師一再向我強調的。不 論是哪個領域、哪種研究主題都不見得都有前人鋪路。因此唯有不斷的思考和吸 收新知才能突破以往的思維,發現新的可能,即使結果不如想像中美好,但歷經 思考的過程,懂得如何獨立解決問題正是我所學習到的寶貴經驗。 在這兩年的求學之路上我受到許多朋友及老師的幫助,讓我能夠一步步走到 這裡,讓我能夠抬頭挺胸的走向人生的下一個路程。感謝方瓊瑤老師在這兩年對 我的教導,即使我停留在同一個瓶頸,老師每次都能給我很多想法和建議,沒有 老師積極的催促和監督,我的進度很難維持在跑道上。感謝陳世旺老師的高等影 像和電腦視覺課程讓我更了解影像處理的技術和理論,同時要感謝梁祐名老師在 百忙之中抽空擔任我們的口試委員。另外要感謝系辦每位成員的照顧,還有阿谷 的幫忙讓我的實驗能夠順利。 一個契機讓我踏入原本應該額滿的 CVIU LAB,從看著俊麟大師兄和派大星的 水深火熱到和欣紘以及瑋鴻一同努力奮戰,都讓我感到慶幸能夠來到這裡。感謝 CVIU 的各位夥伴們這兩年來的共同奮鬥。感謝派大星帶給 LAB 歡樂,感謝俊麟替 大家解惑以及好歌喉。感謝欣紘和瑋鴻在這段時間共同的努力和扶持,即便大家 最後都一副要崩潰的樣子,但是我們終究挺過來了!感謝巧珊、懿禎和良謙的大 力幫忙和支持,沒有你們分享和維持 LAB 的能量可就一切免談了。另外要感謝米 奇、胡禎和其他 LAB 的常客們以及 IPCV LAB 的各位與我們互相照顧。 最後,感謝我的家人在在這段時間的鼓勵和陪伴,如今我順利抵達畢業的大 門,希望往後每位師長、每位夥伴、每位朋友都能夠繼續互相扶持,在接下來的 人生都能一路順遂,謝謝大家! IV.
(6) 目錄 摘要.................................................................................................................................. I Abstract .......................................................................................................................... II 誌謝............................................................................................................................... IV 目錄................................................................................................................................ V 圖目錄..........................................................................................................................VII 表目錄........................................................................................................................... IX 第一章 緒論................................................................................................................. 1 第一節 研究背景與目的 ................................................................................... 1 第二節 研究困難 ............................................................................................... 5 第三節 論文架構 ............................................................................................... 7 第二章 文獻探討......................................................................................................... 8 第一節 攝影與錄影技術................................................................................... 8 第二節 虛擬攝影師系統之相關研究............................................................. 17 第三章 系統概述......................................................................................................... 21 第一節 架設環境 ............................................................................................. 21 第二節 系統流程 ............................................................................................. 23 第四章 資料前處理與特徵擷取................................................................................. 30 第一節 影像前處理......................................................................................... 30 第二節 特徵擷取 ............................................................................................. 32 第三節 特徵模糊化......................................................................................... 35 第五章 運鏡選取......................................................................................................... 38 第一節 運鏡切換條件 ..................................................................................... 38 第二節 自動運鏡模型(automatic camera movement model,ACMM) ........ 41 第三節 景別決定(shot decision) ..................................................................... 49 第六章 主體選取與運鏡路線規劃............................................................................. 51 第一節 主體候選者產生................................................................................. 51 第二節 主體挑選............................................................................................. 53 第三節 運鏡路線規劃..................................................................................... 59 第七章 實驗結果與討論............................................................................................. 64 第一節 系統設定 ............................................................................................. 64 第二節 系統運作範例 ..................................................................................... 71 第三節 自動拍攝結果與討論 ......................................................................... 72 第八章 結論與未來工作............................................................................................. 78 第一節 結論 ..................................................................................................... 78 V.
(7) 第二節 未來工作 ............................................................................................. 79 參考文獻....................................................................................................................... 82. VI.
(8) 圖目錄 圖 1.1 圖 1.2 圖 1.3 圖 2.1 圖 2.2 圖 2.3. 自動化演講錄製系統架構................................................................................. 3 專業與業餘的攝影實例..................................................................................... 4 不同的室內演講場地......................................................................................... 7 三種基礎構圖法................................................................................................. 9 不同光線運用的攝影範例................................................................................. 9 顏色的對比與色系........................................................................................... 10. 圖 2.4 不同景深下所拍攝的影像,表現出不同的畫面主體................................... 11 圖 2.5 各種景別範圍示意圖....................................................................................... 13 圖 2.6 大遠景與遠景的拍攝實例............................................................................... 14 圖 2.7 全景與中景的拍攝實例................................................................................... 15 圖 2.8 特寫與大特寫的拍攝實例............................................................................... 15 圖 3.1 PTZ 攝影機 ....................................................................................................... 21 圖 3.2 PTZ 攝影機架設於水平地面演講廳示意圖 ................................................... 22 圖 3.3 PTZ 攝影機架設角度示意圖 ........................................................................... 23 圖 3.4 全景 PTZ 攝影機實際拍攝影像 ...................................................................... 23 圖 3.5 系統流程圖....................................................................................................... 24 圖 3.6 Motion feature extraction 流程圖 ...................................................................... 25 圖 3.7 Camera movement decision 流程圖 .................................................................. 26 圖 3.8 Path planning 流程圖......................................................................................... 28 圖 4.1 語言變數之類屬函數示意圖........................................................................... 37 圖 5.1 FSM 結構圖....................................................................................................... 41 圖 5.2 Moore 和 Mealy 模型結構圖 ............................................................................ 42 圖 5.3 自動運鏡系統結構圖....................................................................................... 43 圖 5.4 Training data 分別轉換成各 TPM 之範例 ....................................................... 45 圖 5.5 ACMM 運作流程圖 .......................................................................................... 48 圖 6.1 Integral image 與 Harr feature 示意圖 .............................................................. 52 圖 6.2 Cascade classifier 概念圖 .................................................................................. 53 圖 6.3 井字構圖法與井字構圖遮罩........................................................................... 54 圖 6.4 畫面中直線與井字遮罩標準線距離示意圖................................................... 55 圖 6.5 HSV 色彩模型................................................................................................... 57 圖 6.6 重複性評比範例............................................................................................... 58 圖 6.7 第一類運鏡流程示意圖................................................................................... 59 圖 6.8 第二類運鏡流程示意圖................................................................................... 60 圖 6.9 沿觀眾席方向示意圖....................................................................................... 61 VII.
(9) 圖 6.10 景別特徵......................................................................................................... 62 圖 7.1 經過訓練的 ACMM 模型 ................................................................................ 67 圖 7.2 CMS 轉移示意圖 .............................................................................................. 72 圖 7.3 實驗結果 1(運鏡 1~4) ...................................................................................... 73 圖 7.4 實驗結果 1(運鏡 5~9) ...................................................................................... 74 圖 7.5 實驗結果 1(運鏡 10~14) .................................................................................. 75 圖 7.6 實驗結果 2(運鏡 1~5) ...................................................................................... 76 圖 7.7 實驗結果 2(運鏡 6~9) ...................................................................................... 77. VIII.
(10) 表目錄 表 1.1 工商錄影價目表................................................................................................. 2 表 2.1 各種景別的介紹............................................................................................... 12 表 4.1 Fuzzy motion feature 與語意變數對照表 ........................................................ 36 表 5.1 Fuzzy motion feature 與其語意值對照表 ........................................................ 38 表 5.2 攝影機運動的數據資料................................................................................... 40 表 5.3 運鏡持續時間與運鏡種類關係........................................................................ 41 表 6.1 Value 值與亮度評比對照表.............................................................................. 56 表 7.1 Training set 介紹................................................................................................ 64 表 7.2 TPM 元素值列表 .............................................................................................. 67 表 7.3 TPM 權重值列表 .............................................................................................. 69 表 7.4 SPM 元素值列表............................................................................................... 69 表 7.5 T0 j 元素值列表 ................................................................................................. 71 表 7.6 T0 j 權重值表 ..................................................................................................... 71 表 7.7 S 02 元素值表..................................................................................................... 72. IX.
(11) 第一章. 緒論. 第一節 研究背景與目的 本研究的主要目標乃在於建立一套具專業水準的自動化演講錄製系統。在網 路寬頻快速提升以及儲存設備價格日漸下降的影響之下,各種媒體的傳輸及保存 已經不是資訊科技發展的瓶頸,反倒是數位內容的缺乏才是目前所面臨的問題。 優質數位內容的製作通常需要高額的預算,以演講錄製為例,若是要獲得專 業的錄製影片,現今的做法是雇用專業的攝影團隊錄製演講過程,再經由選鏡、 剪輯等後製處理,以得到高品質的影片。攝影團隊拍攝的過程分成三個主要的部 分:(1)事前場勘作業,(2)現場拍攝,以及(3)事後剪輯後製。支出成本則分為:(1) 以購置器材為主的固定成本以及(2)以聘請人員為主的人事成本。通常固定成本在 器材設置妥當之後就僅剩定期維修的費用,但攝影師則是在每次錄影都要雇用, 因此人事成本會不斷的重複支出。對於預算有限的公司行號或非營利的學校教學 機構來說,這樣長期的成本支出將是難以承受的負擔。 表1.1為一般攝錄影公司所提供的錄影服務價目表,由於每次進行實況錄影就 有一定的成本在,所以錄影時間越少反而每單位時間的價格越昂貴。而且大多數 公司都是以單一攝影機作業作為前提進行報價,若是想要用兩台以上的攝影機來 拍攝,那報價可能超過倍以上。若為了節省成本,選擇單一固定攝影機針對演講 者及其演講內容拍攝錄製成影片,內容勢必較為枯燥、單調,對觀看者的觀看意 願以及學習成效可能有負面的影響。為了提供專業的錄影品質並節省人事成本, 開發並建立一套具專業水準的自動化演講錄製系統是必要的。. 1.
(12) 表1.1 工商錄影價目表 公司. 項目. 價格. DVworld專業錄影製作. 活動實況錄影. 12000/4 hrs 15600/8hrs. OIS 原創映像多媒體工 作室. 活動實況錄影. 6000+/3hrs. 絕攝錄影工坊. 三小時會議錄影. 8000/3hrs. 采攝錄影工坊. 三小時會議錄影. 8000/3hrs. 喬崴薾攝影中心. 畢業典禮錄影. 12000/6hrs. ALIC專業攝影工坊. 工商活動攝錄影. 9000/8hrs(單 機) 16000/8hrs (雙機). 憶彩錄影工作室. 三小時會議錄影. 8000/hrs. 恆彩錄影工坊. 工商活動攝錄影. 9000/8hrs(單 機) 16000/8hrs (雙機). 數位錄影公司. 工商錄影. 4000/2hrs. 南廣傳播事業有限公司 婚禮錄影. 12000/全 天. 要開發自動化演講錄製系統以達到專業的攝影水準,必須先了解攝影團隊的 整個拍攝的過程。首先,拍攝團隊會在演講開始之前勘察場地,並決定適用攝影 器材及器材的擺設位置。為了讓拍攝的角度和畫面的內容更多元活潑,通常會架 設多台攝影機,同時拍攝演講者、觀眾或是整個會場。在進行拍攝時,每個攝影 機都由一個攝影師掌鏡,攝影師除了要確實掌握拍攝的目標,同時拍攝的畫面必 須兼具攝影的美感。拍攝完畢後,所有的影片將經由攝影團隊進行影片剪接、配 音、字幕搭載、畫面特效等處理,所有步驟完成後才算是一次完整的拍攝工作。 自動化演講錄製系統的架構如圖1.1,包含四個子系統,分別稱為虛擬導播子 系統,虛擬攝影師子系統,演說文譯子系統,以及手動操控子系統。虛擬攝影師 子系統控制著多台攝影機,分別用來拍攝演講者、聽眾、以及全場,因此虛擬攝 影師子系統又可分成演講者攝影師次子系統,聽眾攝影師次子系統,以及全場攝 影師次子系統,在自動化的架構下所有這些次子系統均可自行運作,並將拍得的 視訊直接傳給虛擬導播子系統。虛擬導播子系統便從虛擬攝影師子系統傳來的視 訊中選取最佳者,配合演講者的聲音,演講內容(如Power Point 檔和展示用. 2.
(13) videos),以及由演說文譯子系統所提供的字幕,結合成畫面一起輸出。總結虛擬 導播子系統的工作將包括有:視訊剪輯,配音,搭載演說字幕及演講內容成一畫 面輸出。. 自動化演講錄製系統. 虛擬導播 子系統. 講者攝影師 次子系統. 虛擬攝影師 子系統. 演說文譯 子系統. 以觀眾為拍攝主體之虛擬攝影師系統 (聽眾攝影師次子系統). 手動操控 子系統. 全場攝影師 次子系統. 圖 1.1 自動化演講錄製系統架構 本研究的目的為自動化演講錄製系統中之虛擬攝影師子系統--聽眾自動錄影 系統的研發,內容為開發以觀賞演講的觀眾作為主體的錄影系統。其功能為系統 能自動選取拍攝目標,並操作攝影機完成錄影程序。然而專業的錄影工作不只需 要挑選適合的拍攝目標,採取合適的「運鏡」更是決定影片好壞的關鍵,並同時 以美學的觀點選取適合的主體位置。而且本系統的目標不局限於演講的聽眾,而 是希望能夠透過輸入不同的場地參數的方式讓以適應各種場地,例如球賽、音樂 會、戲劇等不同場合都能夠提供正確地而專業的錄影效果。因此本研究以自動運 鏡、目標挑選、美學專業為主軸,將聽眾攝影師次子系統重新命名為「以觀眾為 拍攝主體之虛擬攝影師系統」。 以觀眾為拍攝主體之虛擬攝影師系統的輸入資料為攝影機所拍攝的畫面,在 以往節省成本的思維下大多只使用一台攝影機。然而單一攝影機所能捕捉到的鏡 頭非常有限,大多數的鏡頭都集中在演講者身上,而觀眾席上的活動往往都會被 3.
(14) 忽視。由觀察網路上的演講影片可發現觀眾在其中出現的時間通常十分短暫。然 而觀眾不只是配角,更是整個活動的一部分。觀眾的各種反應能表現當下活動進 行的情況,是帶動活動氣氛的重要指標。在賽況激烈時,觀眾席上群情激昂的畫 面能夠帶起激情;在表演的高潮,觀眾鼓掌的畫面能夠表達感動。藉由穿插現場 觀眾的畫面,能增加轉播畫面的多樣性與可看性,還可以激發影片觀看者的臨場 感與參與感,是在各類轉播中不可或缺的畫面。. (b). (a). (c). (d). 圖1.2 專業與業餘的攝影實例[Niu12] (a)(b)專業的攝影實例 (c)(d)缺乏專業 攝影技巧的攝影實例 因此,雖然觀眾所占的拍攝時間或許不長,但是專業且具規畫的運鏡能使整部影 片流暢且不枯燥,然而大多數的非專業攝影師卻無法達到這個標準。舉例而言, 從觀察網路上的演講影片可以發現,當鏡頭轉到觀眾席時最常用的手法是以定點 攝影的方式,特寫觀眾席的一部分。依照專業攝影的觀點來看,定點攝影屬於偏 靜態的運鏡方式,在沒有其他運鏡手法輔助下,過多靜止的鏡頭會使得原本就以 靜態為主的演講更為僵硬,甚至會降低觀賞著觀看的意願。Niu 等人在2012年提 出影片在專業程度上的評比方法[Niu12],圖1.1為專業和非專業的攝影實例,除了 主要目標的強調、顏色的控制之外,還提到停留在同一個運鏡的攝影時間也是影 4.
(15) 片專業度的重要指標,因為這代表攝影師無法在有限的空間進行變化,而且缺乏 詳細的運鏡路線規劃。另外,這些定點拍攝的鏡頭通常不具有主題性,違反了此 類運鏡手法的使用原則,有時連觀眾起身離開這種不該入境的情況也出現在影片 之中。正確的運鏡安排,應該搭配動態的運鏡手法,像是用搖攝的方式呈現整個 場面,或是搭配推移或是拉遠鏡頭營造靜態畫面所缺乏的動感。 總之,攝影觀念或是手法上的差異足以讓影片的評價呈現兩極。一個專業的攝影 師必須能夠藉由專業的攝影觀念,因地制宜選用最適合的運鏡方式讓觀賞者有足 夠的興趣繼續觀賞。而目前的演講拍攝影片大都缺乏專業的攝影技術,尤其在觀 眾畫面的拍攝上。本研究的目標即為模擬專業的攝影師的拍攝方式,提供使用者 專業的攝影技術並自動化完成攝影工作。不但能夠將數位內容以最佳的品質保存 ,同時節省長期拍攝團隊錄製影片的大量成本。另外,本系統為了增加泛用性和 實用性,系統將會依攝影師的拍攝習慣來建立各種不同的拍攝場合的運鏡習慣模 組,其目的是為了讓虛擬攝影師系統能配合不同的場合都能提供完整的功能。. 第二節 研究困難 為了順利捕捉聽眾席上各式各樣的精彩畫面,聽眾及全場自動錄影系統開發 時需要考慮與克服的環境因素眾多,包括攝影主體如何決定的問題、聽眾席座位 設計的多樣性問題、聽眾席座位排列的坡度問題、聽眾入座和離開時的干擾問題 、以及配合不同環境場合的運鏡習慣等。以下分別說明之: 1.. 攝影主體如何決定的問題:由於本系統是以觀眾為主體,觀眾席上的每個觀 眾都能夠當作拍攝目標。亦或是可能有比起觀眾更具有吸引力的目標,像是 有強烈 motion 的區域、或是主體不局限於單一個體之上。該如何偵測,以及 如何從中挑選出合適的主體來拍攝將是一大難題。. 2.. 觀眾席座位設計的多樣性問題:聽眾座位依場地的不同有各式各樣的規格( 如圖1.2(a)(b)所示),有些較寬有些較窄,亦有不同的顏色,這些不確定因素 的影響在系統開發時均應納入考慮。例如聽眾臉部的偵測技術能否處理座位 的顏色貼近膚色的問題。另外,若拍攝背景會隨著時間而改變,那聽眾整體 5.
(16) 或個別反應的偵測技術能否過濾這類的背景變化。 3.. 聽眾席座位排列的坡度問題:一般聽眾席的分為平面和階梯式二種,且階梯 式聽眾席的坡度並不統一(如圖1.2(c)(d)所示)。聽眾席座位排列的坡度會影響 到攝影機拍攝到的聽眾角度,例如聽眾臉部與身上的特徵會因為攝影角度而 改變。另外,在聽眾席坡度比較緩和的情況下後排聽眾容易被前排聽眾遮蔽 而影響到拍攝的畫面。. 4.. 聽眾入座和離開時的干擾問題:在典禮或是演講進行的時候,常會有聽眾起 身離開座位或是中途入座的情況。如此現象導致畫面中常有物體在移動、進 入、離開,系統必須自動判斷當下情境的畫面是否必要擷取並輸出。例如若 是頒獎典禮時領獎人自聽眾席起身上台領獎,則系統可能需全程追蹤並擷取 該領獎人的相關鏡頭。但若只是一般聽眾起身離開座位,則系統最好忽略此 類的動作。. 5.. 配合不同環境場合的運鏡習慣:從觀看電視轉播的經驗中可知不同的性質的 節目或是運動賽事中運鏡的方式差異頗大。例如在轉播演講的場合,講者的 畫面通常佔大部份的比例,而聽眾的畫面則會分段地穿插在其中,且該類畫 面常是聽眾做筆記或是專注於聽講的畫面。通常在聽眾提問時才會包括較多 的聽眾特寫畫面。而若是運動類的轉播,像是網球或棒球比賽,運鏡的方式 比較有規律,觀眾的畫面除了遠景外,一般會在暫停時間對選手的教練或親 人有較多的特寫畫面。因此,自動的配合不同場合進行不同的運鏡習慣是本 系統開發時考慮的因素之一。. 6.
(17) (a). (b). (c) (d) 圖1.3 不同的室內演講場地 (a)(b)兩種不同造型的觀眾席座椅[20][21] (c)(d)兩 種不同坡度的觀眾席[22][23]. 第三節 論文架構 本論文的第二章將會介紹專業攝影師所需要具備的專業攝影技巧;第三章會說明 系統的架設環境以及系統的流程;第四章介紹如何從輸入影像擷取系統所需之特 徵;第五章為系統的運鏡選擇,此章節會詳述如何模仿專業攝影師對運鏡使用的 判斷;第六章為拍攝主體的選取,以及各種運鏡的自動路線規劃;第七章為實驗 結果,將以實際攝影器材測試在活動現場進行拍攝,測試是否合乎專業水準;最 後第八章為結論與未來工作。. 7.
(18) 第二章. 文獻探討. 第一節 攝影與錄影技術 想要模仿專業的攝影師的手法拍出優質的作品,必須先了解一個專業的攝影師所 應該具備的能力。一位專業的攝影師需要熟稔各種攝影技巧、運鏡手法並具敏銳 的美感,才能捕捉到適合拍攝的畫面。 攝影技巧包含構圖、光影以及色彩三個組構成畫面的主要元素。構圖指的是畫面 中空間的配置,被拍攝的主體以何種比例、何種位置安排在畫面裡是奠定影片可 看性的基礎。適當的構圖能夠突顯主體的存在而不至於讓畫面顯得擁擠或繁亂。 一般較常使用的構圖方法有「三分構圖法」 、 「井字構圖法」以及「對角線構圖法 」[1][2],以「三分構圖法」(圖2.1(a))為例,把欲拍攝的畫面以垂直線或是水平線 分成三等份,並保持主體分別存在於被均分的三個區域中。在拍攝風景時,等分 線的位置通常是和水平線重合,或是用來區分遠、中、近景。另外「井字構圖法 」(圖2.1(b))又被稱為「黃金分割法」是最常被使用、也是入門攝影必須先熟悉的 構圖方法。該方法是將畫面以九宮形式切割,並讓主體維持在線上或是交點上。 「對角線構圖法」(圖2.1(c))可增加畫面的幾何張力,在處理簡約場景時,可嘗試 尋找明顯或隱形的對角線,無論存在一條或兩條對角線,都能讓畫面更戲劇化。 其他另有「放射線構圖法」 、 「延伸性構圖法」[4]等等諸多構圖方法,要靈活運用 這些構圖方法,需要累積相當的攝影經驗,也是本研究所要解決的課題之一。. 8.
(19) (a). (b). (c). 圖2.1 三種基礎構圖法[4] (a)三分構圖法 (b) 井字構圖法(黃金分割法) (c)對 角線構圖法 在光線的運用上,不同的光線能夠幫助攝影者讓影像帶出不同的感覺,例如攝影 師希望景物清晰呈現時,可使用「正光」(順光)。正光即為讓光線從鏡頭對主體 的方向發出,能夠讓主體清晰易見並讓色彩鮮麗而且飽和(如圖2.2(a)),但是由於 主體上沒有陰影,較欠缺層次及立體感。想帶出層次感的話,從主體側邊打上的 「側光」能令主體更顯凸出,展現景物細節質感(如圖2.2(b)),拍攝人像經常用到 側光拍攝。若想表現具戲劇感的氣氛,可將主體放於「背光」(逆光)的位置。若 拍攝人像時配合閃光燈補光,則更能加強氣氛,獲得具戲劇性的效果(如圖2.2(c)) 。但用閃光燈補光的方式易失去前景或背景的細節,而且容易造成背景過度曝光 造成畫面模糊。靈活運用不同的光線除了能夠獲得理想的攝影效果,還能營造各 種截然不同的意境和氣氛。礙於硬體上的限制,本研究並沒有將操控燈光器具納 入研究範圍。但是藉由攝影機獲得的影像資訊,鏡頭能夠從全景畫面中自動判斷 並挑選光影效果較佳或是符合現在情況氣氛的局部畫面加以特寫,同時避開不符 專業標準的區域。. (a). (b). 圖 2.2 不同光線運用的攝影範例[5] (a)順光 (b)側光 (c)逆光 9. (c).
(20) 在色彩方面,簡單的色調和鮮明的對比能襯托出前景的存在感(如圖2.3(a))。此外 ,畫面氛圍會隨著的畫面整體顏色的不同而有所改變,暖色系的顏色會讓人覺得 放鬆、溫暖(如圖2.3(b)),冷色系則帶給觀眾理性、清楚的感受(如圖2.3(c))。由於 在演講場地的顏色並不容易隨時改變,而且色彩的調整通常在影片的後製階段處 理。因此本研究從影像的資訊判別每次取景的畫面顏色是否符合標準,若是背景 混雜或找不到適合的畫面,可適當地把焦距專注在前景,讓背景模糊以降低其對 前景的影響。. (a). (b). (c). 圖2.3 顏色的對比與色系 (a)以鮮明的對比突顯主體[9] (b)(c)不同的整體色調 帶來不同的視覺效果[10] 除了以上三個畫面的構成元素之外,「景深」的調整對攝影而言也是一門重要的 學問。景深就是當對焦完成後,景物在底片上呈現完全清楚的距離範圍,也就是 「焦點前後清楚的範圍」 。因此景深是「一段距離」 ,在這段距離內的物體都應該 是清楚的。不同的景深下所拍攝的影像會表現出不同的畫面主體,如圖2.4所示。 圖2.4 (a)中使用較深的景深,因此並無法明確定義主體;而圖2.4(b)的景深較圖 2.4(a)為淺,較遠的景物變得模糊,主體逐漸浮現;(c)則是三張圖片裡使用景深 最淺者,唯有較靠近焦距的景物有清楚的輪廓,主體的位置十分明顯。影響景深 的要素有三,光圈的大小、鏡頭焦距的長短、攝影距離的遠近。用大光圈、長焦 段、近距離拍攝的組合可以霧化背景、保留清晰主體來突顯主題。攝影時景深的 遠近並沒有一定的標準,完全因應攝影師的需求來做調整。但通常風景照會使用 深景深(因為想整個風景變得清楚銳利),而人像照便會使用淺景深(因為想人物在. 10.
(21) 相中變得突出),不過並不代表使用其他景深的方法是錯誤的,完全要視攝影需求 而定。. (a). (b). (c). 圖2.4 不同景深下所拍攝的影像,表現出不同的畫面主體[8] (a)光 圈 f/8 (深景深) (b)光圈 f/5.6 (中景深) (c)光圈 f/2.8 (淺景深) 此外,攝影機自動拍攝時取景的角度與運鏡的方式也是本研究一個重要的課題。 攝影機取景的角度可表達明確的主題或目標物,並交代目標物的動作與表情,呈 現有秩序的美感,且可使畫面產生立體結構[6]。以人眼的視平角為水平的標準, 攝影機的視角比視平角高稱為高角或仰角,反之為低角或俯角。攝影機視角的改 變,會使影像的構圖傳達不同感覺。例如攝影機的視角與人眼的視平角齊高時( 水平鏡頭),是最常被運用且為表現現實生活的最佳角度;攝影機鏡頭由低處往上 拍攝(仰角鏡頭)則會使主題或目標物明顯加大,呈現威嚴感令人敬畏,可營造誇 張戲劇效果或恐怖氣氛,突顯衝擊力;攝影機鏡頭由高處往下拍攝(俯角鏡頭), 則會使主題或目標物變小,可表現出渺小、哀傷、孤寂與無助感;若攝影機鏡頭 由主題或目標物側邊拍攝(側角鏡頭),則可增加立體感,保持主體與背景和環境 間適當的距離,增加構圖的深度;最後,若攝影機鏡頭傾斜拍攝(傾斜鏡頭),會 讓主體或目標物產生失去平衡的感覺,可表達主觀的不安、打鬥與災難的現場氣 氛。 主體在畫面中所佔的比例以及呈現的景觀範圍是影響整體平衡的重要因素,這項. 11.
(22) 畫面的結構要素在攝影技術當中被稱作「景別」。景別的影響要素有二:一為攝 影機和景物的距離;二為攝影機鏡頭的焦距。無論是主體和攝影機距離的變化, 或是攝影機在固定位置調整鏡頭焦距都能引起主體在畫面上的大小變化。這種畫 面上景物大小的變化所構成的不同取景範圍即為景別的變化,而掌握景別的變動 是一種重要的表現手段。不同的景別,表現的是不同的視野、不同的空間範圍以 及視覺節奏。藉由各種畫面景別的單獨展現、前後排列、段落組合等鮮活運用, 將能表現出截然不同的情境和視覺效果。景別依照主體在畫面中的比例可以分為 七類,由小而大為大遠景、遠景、中景、近景、特寫、大特寫,表2.1簡單的定義 了這七種景別,其詳細定義與適用場合將在以下段落詳述。圖2.5則說明了以人為 主體的情況下,主體和畫面的比例關係。 表 2.1 各種景別的介紹[12] 景別. 中文名. 說明. 稱 Extra Long Shot. 大遠景. 指整個大環境,此時主體的大小已無關緊要. Long Shot. 遠景. 景物主體約占鏡頭的 3/4 到 1/3,其範圍定義較 為模糊. Medium Long Shot. 全景. 景物全身外加上下空間. Medium Shot. 中景. 景物主體的 1/2 左右. Medium Close-Up. 近景. 景物主體的 1/4 左右. Close-Up. 特寫. 景物主體的局部細節. Extra Close-Up. 大特寫. 景物主體的細部放大. (1) 大遠景:大遠景是視距最遠、展現空間最遼闊的景別(圖2.6(a))。其目的在於 強調多個主體間以及主體和環境之間的關係,並呈現整個背景訊息,同時帶 來開闊和整體感。主體在大遠景中所佔的比例極小,不容易描述事件的過程 。大遠景大多是肉眼難以觀察到的,因而具有非實體的感受,適合用來表達 情緒或意境,通常使用於影片的開頭或結尾,以說明完整的場景內容。. 12.
(23) 遠景. 全景. 特寫 近景 中景 全景. 圖 2.5 各種景別範圍示意圖[12] (2) 遠景:遠景主要用於表達主體的動向以及和環境間的空間關係。遠景中的主 體較大遠景顯著,雖然畫面整體上看來背景的訊息仍佔多數,但多個主體間 和主體與環境間的互動更為明顯。比起大遠景所象徵的情境,遠景將連結主 體和環境的狀況和氣氛清楚的展現出來(圖2.6(b))。而大遠景和遠景這兩種景 別,都常被用於定場鏡頭(establishing shot)的拍攝[註1],以說明主體間的關 係,例如互相的方向與動向。 (3) 全景:全景一般用在表現人物全身形象或是特定場景全貌的畫面。全景在涵 蓋主體全貌的同時保留一定範圍的環境或主體的活動空間,藉此能夠完整地 表現人物的形體動作,並透過對人物或人物間形體動作的描述刻劃內心情感 。相較於遠景所帶有的氣氛和大遠景的意象,全景著重於主體的特殊結構與 其意涵,並藉由特定環境和特定場景表現或是解釋特定人物及場景。例如圖 13.
(24) 2.7(a)所呈現的是兩個足球員之前的進攻與防守,藉著觀察畫面中的兩個主體 的動作和相互位置,讓觀賞者了解此一畫面的意涵。. (a). (b). 圖 2.6 大遠景與遠景的拍攝實例[14] (a)大遠景 (b)遠景 (4) 中景:中景多是指人物膝蓋以上或是場景局部的畫面,是人眼所熟悉的畫面 裁切方式,就好似平時所注意到的客觀世界一般。中景能夠忠實呈現人物的 線條和細部動作,能夠具體描述人物的神態和姿勢,藉此更進一步透露出心 理的狀態。從圖2.7(b)中球員的動作和表情即清楚的展露出其生動的欣喜之情 。此外,比起遠景的飄渺不定,中景帶有指向性,意指讓觀眾聚焦於目標之 上,指示觀眾畫面的重點。因此中景非常適合用來表述敘事的內容,像是交 代故事情節或是描寫事物之間的關係,環境和人物的整體形象則降於次要角 色。 (5) 特寫:特寫是指只拍攝某一景物來對該景物做特別描寫的一種構圖方式,雖 然保有主體旁且與主體有關者之背景,但影像中與環境相關的訊息並不多。 特寫可對主體的特徵進行充分的描寫,並能產生強烈的視覺印象。對人物的 刻畫來說,就如同為了描述人物的表情而產生的景別。使用特寫常會利用縮 短景深來模糊背景,藉此突顯主體的存在,如圖2.8(a)所示。. [註1] 定場鏡頭是影片一開始,或一場戲的開頭,用來明確交代地點的鏡頭,通常是一種視 野寬闊的遠景。. 14.
(25) (a). (b). 圖 2.7 全景與中景的拍攝實例[15] (a)全景 (b)中景 (6) 大特寫:大特寫又稱作細部特寫,是為單純對景物的某一細部做誇張描寫的 構圖方式,影像中並不保留主體周圍的背景。一般而言,大特寫更清楚的描 寫景物的特徵或是細節,由於幾乎沒有什麼背景的訊息,大特寫本身必須帶 有特別強烈的意義才足以推動敘事的情節。通常,大特寫的表現方式帶有誇 大情節的效果,圖2.8(b)為貓眼大特寫,帶有被注視、緊盯的強烈意圖。. (a). (b). 圖 2.8 特寫與大特寫的拍攝實例[14] (a)特寫 (b)大特寫 專業的運鏡處理是提升影片品質另一個重要的因素。運鏡與否可謂靜態和動 態攝影最大的不同之處,靜態攝影不須運鏡,其重點在於化瞬間為永恆,能捕捉 的唯有一刻的畫面,因此單一畫面的配置和張力顯得十分重要;動態攝影則利用 運鏡方式來結合時間的要素,藉由連續的畫面表達單張畫面難以呈現的「故事性 」,讓觀眾的焦點能有順序的流動在畫面的各個主體上。運鏡可以藉此突顯拍攝 目標物並吸引觀眾的注意力。運鏡的技巧[3]就是利用攝影機的推、拉、晃、移、 跟和甩等形式的運動進行拍攝的方式,是一種在鏡頭邊界侷限中,拓展畫面視野 15.
(26) 的方法。藉由鏡頭的移動,讓畫面從靜態變成動態,串聯並組織不同的連續畫面 。常用的運鏡方式列舉如下: (1) 推拉鏡頭:推鏡頭相當於攝影機以直線的方式向該主體逐漸地靠近拍攝,而 拉鏡頭則是攝影機以直線的方式逐漸地遠離拍攝主體。推鏡頭的作用是突顯 並介紹在影片中出現的主體,而拉鏡頭則能夠展現出主體所在的環境。 (2) 搖鏡頭:搖鏡頭指攝影機的位置不動,只是鏡頭變動拍攝的方向。其作用可 逐一的展示所要描述的場景。在起始點到終點的過程裡所拍攝到的內容都有 被展示的需要,而非單單帶過。 (3) 移鏡頭:移鏡頭即是把攝影機放置在移動車上沿著軌道一邊移動一邊拍攝運 鏡方式。這種鏡頭的作用是為了表現場景中的主體之間的空間關係,或者把 一些事物連貫起來加以表現。 (4) 跟鏡頭:跟鏡頭指攝影機跟隨著被拍攝物體運動的方式運鏡拍攝,使處於動 態中的主體在畫面中的位置保持不變,而其他的前後景則可能不斷的變換。 這種運鏡方式可以突出運動中的主體。 (5) 升降鏡頭:升降鏡頭則是上下移動攝影機的運鏡方式,是一種從多視點表現 場景的方法,其變化的技巧有垂直方向,斜向升降和不規則升降。在拍攝的 過程中不斷改變攝影機的高度和仰俯角度,會給聽眾造成豐富的視覺感受。 (6) 甩鏡頭:甩鏡頭是指一個場景拍攝結束後不停機,鏡頭急速「搖轉」向另一 個方向,使得鏡頭搖轉過程中所拍攝下來的內容變得模糊不清楚。此方式主 要用來強調空間的轉換和同一時間內在不同場景中所發生的並列情景。 (7) 旋轉鏡頭:旋轉鏡頭則是使得被拍攝主體或背景呈旋轉效果的運鏡方式。 (8) 晃動鏡頭:晃動鏡頭則是用來產生強烈的震撼力和描述主觀情緒,像是精神 恍惚、乘車搖晃等情況。此外運鏡時亦應注意鏡頭運動應該保持均速、平穩 、果斷,另外還要考慮到的就是前後鏡頭節奏和速度的一致性。不應無故停 頓或者上下左右前後晃動,這樣不但影響內容的表達,而且使得觀眾眼花缭 亂,毫無頭緒。 另外,轉場的處理,特別是在不同攝影機畫面相互轉換時的轉場處理,亦是 16.
(27) 自動化演講錄製系統開發時需要考慮的因素[1]。理論上一部影片由多個片段所組 成,而每個片段又由許多鏡頭所組成,每個鏡頭的切換或是片段的結尾都是一個 場景的轉換,稱之為轉場。在轉場時要考量影片內容的流暢度。轉場的方式可分 為「技巧轉場」與「非技巧轉場」。其中技巧轉場是利用特效後製來處理場景轉 換,例如淡出、淡入、翻頁、定格等;「非技巧轉場」則是仰賴畫面間直接切換 的手段來實現轉場,用鏡頭的移動自然地完成場景的轉換。自動演講錄製系統同 時提供不同的轉場處理方式自動插入或讓導播手動選擇。. 第二節 虛擬攝影師系統之相關研究 以觀眾為主體之虛擬攝影師系統的目的為研發一套以演講為場合、觀眾為主 體、並自動操作攝影機進行運鏡之系統。該系統的主要功能之一在於挑選與拍攝 現場狀況最為適合的運鏡手法。目前尚未發現和該功能相關之論文,因此以下將 以技術為導向介紹相關技術之文獻。 2.1 景別(shots) 景別代表的是被拍攝的主體所占整個畫面的空間比例,其類別在前一個小節 已稍微介紹。儘管在各種景別的區分上仍有模糊空間,不過大抵有個標準能夠參 考。Cherif 等人[Che07]曾探討利用何種特徵可判斷幾種電影中常見的景別,其中 主體皆為人物。在這份研究報告中,人物的臉部高度與臉的底部和畫面底部的距 離被發現為一個分類景別的良好特徵。 Lang 等人[Lan09]則是對運動場上的選手們做主體的辨識與景別的界定,首 先以 saliency map 方法找出畫面中的專注區域(attention field),也就是被認定為觀 賞者比較容易集中注意力的區域。然後以該區域的長寬為基礎,和畫面的長寬做 比較所得到的比例做為特徵對系統進行 training,所得到的分類結果即為景別的分 類。 另外,Chakraborty 等人[Cha12]同樣對運動場上的主體進行鎖定並判斷景別 。Chakraborty 等人把重心放在排球場上的攝影需求,以辨識球場上正在被擊飛的 排球軌跡作為主體。另外,該研究以事前架設好的四個不同位置的攝影機來代表 不同的景別。每個攝影機代表一種景別,每種景別代表能夠拍攝到的不同賽事重 17.
(28) 點。景別是利用事先定義的攝影機角度和鏡頭的縮放程度來判斷,主要原因為鏡 頭所拍攝的主體(排球軌跡)和周圍的環境(球員的位置和動作)都有其限制和方便 球評解說的攝影角度。 從景別判斷的相關文獻可以得知,大多數研究對景別的定義多是以主體的長 寬與輸入影像的長寬的比例做為景別的判斷標準,也有少數研究和[Cha12]一樣事 先定義幾個不同的拍攝位置做為不同景別。以前者的方法來說,系統必須要先偵 測並決定什麼是主體才能利用比例做判斷,若是限定以人物為主體,那人臉偵測 的技術將扮演重要的角色。後者則需要多台固定位置的攝影機作為前提,因此拍 攝的內容內容可能缺少了運鏡能所具有的運動效果。 2.2 主體選取(target selection) 從景別判斷的相關研究可以得知,欲確認景別必須先決定主體的位置或是大 小,因此選擇主體的方法將會大大影響景別判斷的成效。目前有多種選取主體的 方法應用於不同類型的研究,例如追蹤物體、辨識身分等應用都需要先偵測到主 體的存在才進行後續的流程。Xing 等人[Xin11]提出同時追蹤運動場上的多名運動 選手的技術,其偵測主體的方法是採用 templates matching 的技術。Xing 等人先 把選手在場上的完整影像以及被部分遮蔽的影像當作 templates,然後當影像輸入 系統,就用 templates matching 的技術找出場上的主體。Kelly 等人[Kel11]則是提 出從多個攝影機拍攝同一主體的畫面中挑選出最好的鏡頭,由於該研究的有對畫 面中的人數進行限制(一人),所以只要偵測畫面中前景的部份就能夠確認主體的 位置與涵蓋的範圍。 Saliency map detection( 專注 分布偵測 )也是被廣為研究的 主體 選取技術之一 [Xu12][Ber06][Dor12][Lin11],Lang 等人的研究[Lan09]就是使用 saliency map detection 的技術作為景別主體區域的選取。Saliency map detection 多以顏色作為 特徵[Xu12] [Dor12][Lin11],並以高斯模糊函數將相近的顏色分作同一個類別,或 是以分水嶺演算法將不同顏色的區塊區分開來,然後再擷取出顏色相較於周圍特 別突出的區塊。Berengolt 等人[Ber06]則是以 edge(邊緣)的長度作為主要特徵,他 們認為主體上的邊緣應該有特定的長度。他們所提的偵測方式也可以被看作一種 紋理的偵測,在他們的實驗結果中,多數細小破碎的邊緣會被去除,留下完整而 18.
(29) 長度較長的邊緣作為專注區域。以上兩類 saliency map 的偵測方式雖然有所不同 ,其意都在偵測畫面中集中而和周圍特徵相異的區塊,所以以這類方式取得的主 體必須和背景在特徵上有明顯的差異。 以上兩類偵測目標的方法在主體的確定性上有所不同,templates matching 事 先擬定的 templates 作為目標的模型,因此主體勢必與 templates 有一定程度的相 仿;而 saliency mapdete detection 則是以設定規則的方式求得符合規則,但並不確 定實際模樣為何的主體。 2.3 美學(aesthetic)相關研究 Aesthetic 在影像的領域中係指畫面的美感,由於「美感」這個主觀程度較高 的個人感受難以被量化,因此與美感相關的研究大多以專業攝影的觀點作為基礎 對一個畫面做出審美評比。例如已經有許多研究者提出以構圖(composition)判斷 評比美感的方法[Ban07][Lia12][Su12],其利用攝影常用的構圖法,如三分構圖法 、井字構圖法、對角線構圖法當作標準。接下來對原影像擷取邊緣特徵以及用 saliency map 挑選出主體位置,然後檢視這些邊緣特徵及主體的位置是否符合這 些構圖法的結構。Liang 等人[Lia12]利用這個方法重新調整畫面的窗格大小及位 置,等同於以攝影師的觀點重新調整畫面的構圖。在構圖法的選擇上,Banerjee 等人[Ban07]以三分構圖法,Su 等人[Su12]以井字構圖法,Liang 等人[Lia12]則使 用了多種構圖法來對畫面作構圖美感評比。 另外,Li 等人[Li09]提出以其他特徵作為美感評比標準的方法,其做法為從 影像中擷取兩大類的特徵。第一種是整體特徵,其內容包括畫面中的顏色在色彩 空間的分布、模糊程度、邊緣密度等等,該類特徵帶給觀賞者強烈的第一印象。 第二種是局部特徵,先把原畫面依 graph cut 技術[Bov01]分割成多個區塊,再以 每個區塊內部的模糊程度、邊緣密度,以及區塊間的相似程度和構圖作為特徵。 最後透過事先定義的規則。 以上的研究皆為探究單張畫面美感程度為主,Niu 等人[Niu12]除了單張畫面 的美感分析之外,另外提出了包含時間要素的影片美感評比系統,該研究從影片 中擷取多個靜態與動態特徵作為美感評比的標準。靜態的特徵包含雜訊、對焦、 曝光、色彩,其中雜訊指的是干擾畫面的任何外在因素,例如光源不佳的環境或 19.
(30) 是儀器問題造成畫面模糊等等。對焦指的是焦點的位置、景身的深淺,主要會影 響主體的清晰程度。曝光指的是曝光時間是否適當,其功能為調節畫面的亮度。 色彩代表畫面的色彩是不是足夠亮麗、飽和。動態的特徵則有 motion 雜訊、拍攝 時間、畫面的連續性。motion 雜訊在該研究中的定義為攝影機晃動所產生的 motion ,這類雜訊不只多餘、還會干擾觀賞影片的舒適度。拍攝時間指的是鏡頭停留在 同一個畫面的持續時間,由於畫面長時間的停留缺乏變化性,因此應試時的改變 運鏡或是切換場景以保持影片的活力。畫面的連續性代表鏡頭移動的平滑程度, 快速的移動鏡頭而使得畫面在短時間內完全改變多為轉場時使用,若有過多這類 移動鏡頭的方式出現會使得影片的節奏過於雜亂而難以觀賞。 不論是靜態或是動態的美感特徵都是一個專業的攝影師應該要考慮的,靜態 的特徵多為畫面的邊緣結構、色彩、主體位置和模糊程度。動態的特徵則從 motion 的擷取作為基礎,衍伸出 motion 的變化活潑度、有沒有多餘的 motion 產生等等 特徵。. 20.
(31) 第三章 系統概述. 第一節 架設環境 此節將介紹本研究之系統所使用的攝影器材以及攝影機架設的環境,用以說 明實驗的實際情況。 為了能夠讓電腦遠端操縱攝影機,並且同時具備運動攝影機的功能,本研究 採用 Pan Tilt Zoom Camera (PTZ 攝影機,如圖3.1(a))作為本系統的輸入及輸出窗 口。所謂的 PTZ 攝影機,和坊間一般的監視用攝影機相較之下,具有較靈活的角 度變化能力,意指其鏡頭可以同時進行左右轉動(Pan)、上下傾斜(Tilt)和拉近與拉 遠(Zoom)等鏡頭運動。而透過 PTZ 攝影機的靈活性,可以在拍攝過程中隨時改變 攝影的角度所涵蓋的區域以及清晰程度。和傳統僅能單一方向運動的攝影機相比 ,PTZ 攝影機擁有更好的監控效果。而且藉由架設多台 PTZ 攝影機並利用其空間 上的相對關係,就能夠以較少的攝影機數量達到智慧型監控的目的。. (a). (b). 圖 3.1 PTZ 攝影機 (a)PTZ 攝影機 (b)全景 PTZ 攝影機與運鏡 PTZ 攝影機. 本系統同時使用兩台 PTZ 攝影機,其中一台負責拍攝會場的全景,另一台負 責模仿攝影機鏡頭的運作。圖3.1(a)為 PTZ 攝影機的實際外貌,圖3.1(b)則為運鏡 21.
(32) PTZ 攝影機及全景 PTZ 攝影機的相對位置示意圖。全景攝影機的主要任務在監控 全景,取代攝影師雙眼的功能,而運鏡攝影機的主要任務則是為了取代攝影師手 中的攝影機。運鏡攝影機會因為操作運鏡的關係使得觀察區域變得較為狹窄。很 可能會在運鏡進行當中錯失全景範圍才能偵測到的資訊,接連影響到後續運鏡的 決策;除了視野受到限制,運鏡操作時同時會增加 motion 上的雜訊,同樣會干擾 判斷後續的運鏡方法。像是左右或上下移動鏡頭都會造成偵測畫面中主體 motion 的雜訊產生。因此,本研究中全景 PTZ 攝影機負責監控並擷取拍攝場地中用於判 斷運鏡方法的資訊,而運鏡 PTZ 攝影機則是在系統分析完全景 PTZ 攝影機所擷 取的資訊並做出下一個運鏡指令後,把指定的運鏡手法實際展現出來。. 圖 3.2 PTZ 攝影機架設於水平地面演講廳示意圖 圖3.2為全景和運鏡 PTZ 攝影機架設示意平面圖,圖中紅色的方塊出現的區 域為觀眾席,黑色的攝影機圖示即為 PTZ 攝影機的架設位置。為了減少校正上的 誤差,兩台 PTZ 攝影機被設置在相鄰的位置,水平距離10到15公分、垂直距離15 到20公分之內為容許範圍。另外,為了準確地偵測到主體位置以避免運鏡失誤, 全景 PTZ 攝影機和觀眾正面的夾角必須控制在一定範圍之內。圖3.3為全景 PTZ 攝影機架設角度示意圖,圖3.3(a)為俯角𝜃𝑑 ,其範圍在0° 到30° 之間;圖3.3(b)為水 平偏差角𝜃ℎ,其範圍為0° 到40°。兩者的角度大小皆於影響主體辨識的重要因素。 因此在系統能夠容忍的範圍內定義最大化適用角度以方便全景 PTZ 攝影機的架 設。 22.
(33) (b). (a). 圖3.3 PTZ 攝影機架設角度示意圖 (a)垂直俯角 (b)水平偏差角 本系統藉由調整攝影機架設高度和位置即可適用於不同類型的觀眾席場地 ,包括不同顏色、不同形式的座椅以及坡度。圖3.4為本系統實際運作時全景 PTZ 所拍攝的影像,圖3.4(a)為階梯式演講廳,座位較為擁擠且觀眾間有互相遮蔽的情 形;圖3.4(b)為一般會議室,地面為水平且座位間的間隔較寬,兩者在場地的坡度 、座椅顏色和造型上都不同。另外,本系統要求室內的光線以能夠清楚辨識觀眾 正面為原則,因此在架設系統時會先排除觀眾背光的情形。. (a). (b). 圖3.4全景 PTZ 攝影機實際拍攝影像 (a)階梯式演講廳 (b)會議室(水平地面). 第二節 系統流程 以觀眾為拍攝主體之虛擬攝影師系統之流程圖如圖3.5所示,其主要架構分為 運動特徵擷取(motion feature extraction)、運鏡判斷(camera movement decision)以及 路線規劃(path planning) 三個部分。Motion feature extraction 包含連續畫面的. 23.
(34) motion 擷取、motion feature 的擷取以及 motion feature 的模糊化(fuzzification)。 Camera movement decision 包含判斷是否需要切換運鏡、運鏡的選擇以及景別的選 擇。Path planning 包括拍攝主體候選者的偵測、拍攝主體的選擇以及運鏡路線的 規劃,最後操作運鏡 PTZ 攝影機進行運鏡的動作。以下會對這三個主要流程做進 一步的說明。. Frame input. Motion feature extraction. Camera movement decision. Path planning. PTZ work 圖 3.5 系統流程圖 圖3.6為 motion feature extraction 之流程圖,分為 MEHI calculation、feature extraction 以及 feature fuzzification 三個部分。首先從全景 PTZ 輸入連續影像,然 後對每張影像偵測 motion,為求運算的便利及速度,偵測 motion 的方法使用差值 影像法(intensity difference image,IDI)。以此法所得到的 motion 為單一時點的資 訊,只能知道 motion 產生,而不能得到 motion 的方向和持續性。因此使用 motion history image (MHI) 技術來擷取連續的 motion 資訊,MHI 以重疊 IDI 和隨時間衰 減的方式記錄 motion 的時序性。但是由於 MHI 具覆蓋先前 motion 資訊的性質, 此性質會造成被覆蓋 motion 能量的佚失而不利於某些 motion feature 的擷取。因 此本研究利用改變 MHI 重疊的方式另創 motion energy history image (MEHI)讓 motion 的能量不會被覆蓋以便於 feature 的擷取。 24.
(35) 在完成 motion 資訊的擷取後,接著進行 feature extraction 的步驟,該步驟會 從 MHI 及 MEHI 共擷取四種 motion features。此四種特徵分別為運動強度(motion strength)、運動集中度(motion concentration)、運動強度亂度值(motion strength entropy)、運動方向亂度值(motion orientation entropy)。這四種 features 能夠代表觀 眾的熱烈程度和動作的一致性,可以來判斷適合的運鏡。 由於這五種 motion features 都是明確的數值,難以和人類的感覺做連結,例 如由上個步驟擷取的 motion strength 是一個數值,但是以人的觀點來度量這項特 徵通常會以「強」、「弱」來區分。Fuzzification 是個連結這兩種關係的方法,可 將純數值和人類的語言中的語義結合對應,讓使用者能夠用語言表達的方式定義 規則。如此不但可將 motion features 和攝影師判斷運鏡的標準作結合,同時也利 於人工擷取 motion features。關於 motion feature extraction 之內容將在第四章詳細 介紹。 MHI calculation. MEHI calculation. Motion strength entropy. Motion strength. Motion concentration. Feature fuzzification 圖 3.6 Motion feature extraction 流程圖. 25. Motion orientation entropy.
(36) Frame input. Motion feature extraction. Fuzzy motion features. CM change check. No. Does CM change?. CM timer. Yes CM transition. Shot decision 圖 3.7 Camera movement decision 流程圖 圖3.7為 camera movement decision (CM decision)的流程圖,分為 CM change checking、CM transition、shot decision 三個主要步驟。Change check 的步驟主要 在確認切換運鏡的必要性,影響運鏡是否切換的要素有二,第一是 fuzzy motion feature 值的改變,第二是前一個運鏡的持續時間。Fuzzy motion features 是上一個 步驟所得到的模糊化 motion features,若是這些特徵值發生變化表示畫面中的 motion features 已經有明顯足以辨認的強弱差異,系統在其發生大幅變化時應該 要採取改變運鏡的動作。運鏡的持續時間是指運鏡開始執行到切換至下一次運鏡 的時間間隔,運鏡持續時間太短會造成短時間內連續的切換而使得影片混亂而且 瑣碎。若是運鏡持續時間太長又會讓人感覺缺乏變化,透過相關研究[Chu09]得知 ,一般影片的運鏡持續時間約在5.3秒左右。因此本系統設定運鏡持續時間的最短 26.
(37) 為3秒(3秒內不得切換運鏡),最長不超過6秒(6秒內必須切換運鏡)來避免以上問題 。若運鏡持續時間不到最短時間或是 fuzzy motion features 沒有變化就被視為不需 要切換運鏡(回到輸入連續影像),反之則進入下一個步驟 CM transition。 CM transition 的目的在於選擇合適的運鏡種類,這個步驟除了必須考慮如何 模仿攝影師的經驗判斷外,另外還需考慮鏡頭間的關聯性。系統要模仿攝影師必 須要有能夠學習並記錄攝影師習慣的能力,並且要能夠將攝影師的經驗轉化成系 統能夠接受的型式。鏡頭間的關聯性指的是連續運鏡之間的關係,前幾個運鏡可 能間接或直接的影響到下一個運鏡的選擇,例如連續的定點攝影、定點攝影接著 拉近或拉遠以及拉近後橫移等等。本研究提出 automatic camera movement model (ACMM)以解決上述的問題,ACMM 以 finite state machine (FSM)為基礎,主要結 構分為 camera movement state (CMS)以及 transition probability model (TPM)。CMS 如同 FSM 的 states,先前的每個輸入都會影響到 CMS 的轉移,也可以說是具有 紀錄先前輸入的性質,這個性質有利於運鏡間關聯性的建立。任意兩個 CMS 間 皆有 TPM 連接,TPM 具有指向性,其功能為記錄攝影師的運鏡習慣。ACMM 的 輸入為 fuzzy motion features,並將這些特徵值放入與當前 CMS 連接且方向向外 的 TPM 中。每個接收到輸入的 TPM 將會產生一轉移機率,然後挑選具最高機率 的 TPM 做為轉移方向。而該 TPM 所指方向之 CMS 的輸出即為下一個運鏡。 在決定合適的運鏡之後,shot decision 步驟將決定與該運鏡配合的景別。 ACMM 的每個 TPM 上都具有景別機率模型 (shot probability model),該模型統計 了通過此 TPM 的景別機率分布。藉由上一步驟所挑選出的 TPM 其上的景別機率 模型可以得到每種景別的使用率,為避免每次都只用同一種景別,在挑選景別時 以使用率的高低作為選取的機率以增加選擇的多元性。以上關於 CM decision 的 部分將在第五章作詳細介紹。 圖3.8為 path planning 之流程圖,主要步驟分別為 face target detection、motion target detection、target decision 以及 CM path planning。當 ACMM 決定運鏡及景 27.
(38) 別後,path planning 將會決定拍攝主體並依據所決定的運鏡規劃運鏡 PTZ 攝影機 鏡頭的移動路線。拍攝的候選主體有兩種產生方式,一種是以觀眾的臉部作為目 標,另一種是以產生 motion 的區域中心做為目標。由於本系統以觀眾為拍攝主體 ,因此以觀眾臉部的拍攝較為優先。Motion targets 則做作為備用以及排序 face targets 的條件之一。. Camera movement decision. Face target detection. Motion target detection. Target decision. CM timer. CM path planning. PTZ Work 圖 3.8 Path planning 流程圖 利用前一步驟挑選出拍攝候選主體之後,target decision 將從中決定拍攝主體 。其決策標準包含構圖(composition)、專注分布(saliency map)、光線明暗、主體 與畫面中心的距離以及主體和 motion targets 的距離。經由以上條件的評比將會選 出此次運鏡的拍攝主體。Composition 代表畫面的構圖,在構圖法中以井字構圖法 最為普遍。因此本研究以此構圖法作為標準,將攝影主體候選者放置在井字構圖 法中的理想位置來計算構圖評分[Ban07]。Saliency map 表示畫面中被觀賞者注意 區域的分布,該值越高表示越容易受到注意。由於光線的明暗會影響到拍攝的效 果,畫面中過於黑暗或是明亮的部分將被評為不適合拍攝的區域。主體與畫面中 心的距離會影響運鏡 PTZ 攝影機移動的幅度,移動幅度越大越容易影響到與前一. 28.
(39) 張畫面的連續性。另外,主體和 motion target 的距離越近表示該觀眾可能正在動 作,相較於其他沒有 motion 相鄰的觀眾較為突出,因此兩者之間的距離越近越適 合當作拍攝主體。 最後,CM path planning 將會依運鏡種類的不同替拍攝主體規劃運鏡 PTZ 的 移動路線及產生運鏡 PTZ 的控制參數。運鏡 PTZ 的控制參數包含起始位置(start point)、結束位置(end point)、運鏡速度(move speed)及推拉速度(zoom speed)。其 中 start point 及 end point 與運鏡的種類相關;move speed 會依 motion strength 強 弱作改變;zoom speed 的快慢則和景別與拍攝主體的面積比有關。最後這些參數 將會轉成 PTZ 的指令傳送給運鏡 PTZ,執行運鏡的動作。Path planning 的詳細作 法將會在第六章說明。. 29.
(40) 第四章 資料前處理與特徵擷取. 第一節 影像前處理 4.1.1差值影像(intensity difference image) 為了擷取 motion 的時間特徵,首先必須先得到影像中的 motion 資訊。差值 影像法是一個快速且有效的 motion 偵測方法。當物體移動時,在物體當前位置和 前一個位置有顏色差異的情況下則差值影像上會呈現出 intensity 值的差異。利用 這個性質可以知道物體是否移動,並能得到畫面中何處產生 motion。令 I t 為時間 t 之灰階影像, I t ( x, y) 為 I t 中座標為(x,y)的 pixel 的 intensity 值; I t 1 為時間 t 1之 灰階影像, I t1 ( x, y) 為 I t 1 中座標為(x,y)的 pixel 的 intensity 值,其中 1 x W , 1 y H ,W 為 I t 的寬度,H 為 I t 的高度。則 t 時間的差值影像 Dt 計算方式如下. :. Dt ( x, y) I t ( x, y) I t 1 ( x, y) 當 Dt 中某個 pixel 的 intensity 值越大代表該處的 motion 越明顯,反之則越微 弱,微弱的 motion 可視為雜訊,由於雜訊可能干擾 motion feature 的擷取構成影 響,所以系統對 Dt 進行二值化處理。令 Tthe 為二元化之門檻值,則時間 t 之二值 化差值影像 Bt 公式如下:. 1 Bt ( x, y ) 0. if Dt ( x, y ) Tthe otherwise. 上式中若 Dt ( x, y) 大於門檻值 Tthe ,將 Bt ( x, y) 值設為1,反之,則設為0。 4.1.2 Motion history image (MHI) 利用上述差值影像擷取 motion 的方法雖然能夠擷取當前 motion 的位置,卻 無法得知 motion 的移動方向和不同 motion 發生的先後關係,若利用 motion history image(MHI)則可保留更多 motion 資訊[Bob01]。令 為 intensity 值的上限(在灰階 30.
(41) 影像中為255), Bt 為時間 t 之二值化差值影像, 0 k 1,k 為遞減倍率,則 MHI 的計算方式如下: MHI ( x, y, t ) max( 0, k MHI ( x, y, t 1)). if Bt ( x, y) 1 otherwise. 當 Bt ( x, y) 值為1代表該 pixel 的位置 ( x, y) 產生 motion,則 MHI ( x, y, t ) 值設為 , 其餘沒有在時間 t 偵測到 motion 的 pixel 的 intensity 值皆乘上遞減倍率 k。其上述 公式的目的在疊加連續的差值影像保存連續的 motion 資訊,並隨時間降低沒有 motion 產生的 pixel 位置的 intensity 值。因此 MHI 上 intensity 值較高的 pixel 代表 其所在位置 motion 發生的時間較晚,反之則代表 motion 發生時間較早。藉此能 夠由 MHI 影像中 intensity 值的高低判斷 motion 產生的先後,進一步能夠分析物 體移動的方向。 4.1.3 Motion energy history image (MEHI) MHI 會把 motion 發生所在位置的 pixel 之 intensity 值更新設為最大灰階值, 此舉的用意在於區別 motion 發生的次序。然而這個作法同時也產生了一個缺點, 當物體沿著相同的的軌跡來回移動時,MHI 影像中在軌跡上的 pixels 的 intensity 值會不斷地更新到最大值。因此即使物體在同樣的軌跡上重複移動數次,在 motion 發生的位置上只會存留最近一次的 motion 資訊。雖然 MHI 作法能保留 motion 移動方向的資訊,但卻無法提供 motion 是否重複發生的資訊。 為保留 motion 是否重複發生的資訊,本研究改良 MHI 計算公式,建構 motion energy history image (MEHI)。令 k 為遞減倍率,0 k 1, a 為增加倍率,1 a 2 , Bt 為時間 t 之二值化差值影像,MEHI 初始值為一全零影像,則 MEHI 如下所 示: min( , a MEHI ( x, y, t 1)) MEHI ( x, y, t ) max( 0, k MEHI ( x, y, t 1)). if Bt ( x, y) 1 otherwise. 每當 Bt ( x, y) 值為1時將 MEHI ( x, y, t 1) 值乘上 a 以得到 MEHI ( x, y, t ) ,即使同一 個 pixel 的位置不斷有 motion 產生,也能和單次移動所造成之 motion 有所區隔,. 31.
(42) 讓每個 motion 的資訊都能保存下來而不被覆蓋。雖然 MEHI 能夠留下能量的資訊 ,但因為重複發生 motion 的位置上的 pixel 有較高的 intensity 值會影響紀錄 motion 產生的先後的資訊。所以本研究會依照不同 motion features 的需求分別在 MHI 或 MEHI 上進行擷取。. 第二節 特徵擷取 本節將介紹五種 motion features,包含 motion strength ( m s )、motion concentration ( mc )、motion strength entropy ( m se )、motion orientation entropy ( moe )和 action (act) 等五種特徵。 4.2.1 Motion strength Motion strength 的數值高低代表畫面中觀眾的動作多寡。一段影片若具有較 高的 motion strength 即為畫面中出現較多的 motion,若以拍攝觀眾席的角度來看 ,這象徵著觀眾的氣氛熱烈。例如賽場上的球員展現美技時,觀眾揮手狂歡的情 形,在這種觀眾情緒高昂情況下,由於興奮使然,動作會變多幅度會變大,motion strength 自然會較高。若一段影片的 motion strength 較小,則反映出觀眾平靜的態 度,也可能是賽況緊張的令人屏息,亦或是專注於講台上的演講者。因此 motion strength 可以說是代表現場氛圍的一項重要資訊。 Motion strength 的擷取方法為累計 MEHI 中每個 pixel 的 intensity 值。令 I ME 為 一 MEHI 影像,W 為 I ME 之寬度,H 為 I ME 之高度, 為 intensity 值的上限(在灰 階影像中為255),則 I ME 的 motion strength m su 為: W. H. msu I ME ( x, y ) / x 1 y 1. 為了讓不同大小的影像都能有等質量的 motion strength,本研究將 m su 除以 I ME 的 面積進行正規化,正規化結果 m s 為:. ms msu /(W H ) 32.
(43) 4.2.2 Motion concentration Motion concentration 代表 motion 發生區域的集中程度,在同樣 motion strength 值的情況下,motion 可能集中發生在畫面中的一個區域,也可能平均散佈在整個 畫面中。而當 motion 發生的區域較為集中,攝影師較可能將目標放在 motion 發 生的位置,並且調整景別和使用的運鏡以符合 motion 集中區域的大小。若是同樣 的 motion 量平均分布在畫面當中,代表幾乎每位觀眾都有動作發生,此時的場景 可能是群起揮手、起立拍手或是散場。在這種狀況下所使用的運鏡多為緩慢的左 右移動或是定點拍攝,景別也以能夠包含大多數觀眾的遠景或大遠景為主。 Motion concentration 的 擷 取 方 式 如 下 : 首 先 對 MHI 影 像 作 connected component 處理,將 MHI 中 intensity 值不為0且相連的 pixel 當作一個區塊,因為 面積較大的區塊代表活動的區域較大,比起小幅度的動作,大範圍的運動較容易 引起攝影師的注意,因此每個區塊以面積做為權重。令共 MHI 中有 b 個區塊,其 中一個區塊 p i 的重心座標為 (Cix , Ciy ) , wi 為 p i 區塊的權重, 1 i b , i N 。 (C mx , C my ) 為區塊 p i 的加權中心,則 C mx 、 C my 分別為: b. C mx . wi Cix i 1. b. wi. b. , C my . i 1. w C i. i 1. y i. b. w i 1. i. 令 dis () 為幾何距離函數,d 為 MHI 影像的對角線長度,則 motion concentration mc 如下式所示: b. mc . w dis ((C i 1. i. x i. , Ciy ), (C mx , C my )) b. d wj j 1. 當 moiton 的區塊面積差異小且中心座標分散時, dis (Ci , Cm ) 值會上升,進而造成. mc 值的下降。若有面積特別大的區塊存在,加權中心會靠近面積較大的區塊,因 此會取得較大的權重值,所以 mc 在區塊集中的情況下會上升。 33.
(44) 4.2.3 Motion strength entropy 在4.2.1節所介紹的 motion strength 雖然能夠記錄整體的 motion strength,卻不 能從中分別得知每個 motion 區塊的 motion strength 差異。即使一張 MEHI 中有強 烈的 m s ,卻無法提供每個 motion 區塊的相對強弱關係。任何 motion 的表現方式 ,不論是整體或是相互關係都可能是影響運鏡和的景別的因素,例如各 motion 區塊的 motion strength 都差不多,極可能是一種整體觀眾的動作,而不再單是個 別觀眾的動作。整體觀眾的動作的意思是指由多位觀眾共同完成的動作,像是大 家一起拍手或是波浪舞一類的共同動作。如果各 motion 區塊間的 motion strength 差異大,則真正在發生的有效 motion 可能只有少數幾個,其餘強度較弱的 motion 多為雜訊。 在分析 motion strength 歧異度的部分,本研究選擇了 entropy 作為訂定歧異程 度的方法。Entropy 的概念源自於物理學,本用來表達熱力學系統的無序程度, 現今則廣泛應用於資訊科學上。Entropy 在資訊領域代表的意涵為對資料類別不 確定性的測量,當資料的類別越一致,entropy 將會越低,也代表資料大多屬於同 一類。 為求得 motion strength entropy,首先將 m s 值依照大小分為 k 類( m1s ~ m sk ),令 b 為 MEHI 做 connected component 處理後產生的 motion 區塊數量,p 為機率質量 函數,則 m se 如下式所示: k. mse p(msi ) log p(msi ) i 1. 當 m se 越大代表各個區塊的 m s 值分布於不同的強度類別,表示觀眾間動作強度差 異大,反之則代表觀眾間動作強度差異小。 4.2.4 Motion orientation entropy 不同的動作發生在觀眾席上具有不同的意義。當初不只是動作上的差異,有. 34.
相關文件
以下簡單介紹魔術三角形: 如圖 1, 若三角形每邊有 三個數且數字和都是定值, 稱為 3 階 (傳統) 魔術三角形; 如圖 2, 若每邊有三 個數且較大兩數和減最小數的差都是定值, 稱為
如圖,將一張長方形紙張,對摺再對摺,然後剪下一長為 3 公分、寬為 2 公分的長方形,則剪 下的部分展開後的圖形為. 形,且其周長為
圖4 1 整合資訊系統風險 圖4.1 整合資訊系統風險..
所有精教 的圖書 二年級 課程統籌主任. 三年級 課程統籌主任、圖書館主任
備註 表列課程 以系上開 設之課程 為主. 以系上開
建議多協助學生進 行運用工具實作的 機會,亦可嘗試將 部分概念以圖像化 (如流程圖、太陽 圖等)的形式呈現
The main goal of this research is to identify the characteristics of hyperkalemia ECG by studying the effects of potassium concentrations in blood on the
我們分別以兩種不同作法來進行模擬,再將模擬結果分別以圖 3.11 與圖 3.12 來 表示,其中,圖 3.11 之模擬結果是按照 IEEE 802.11a 中正交分頻多工符碼(OFDM symbol)的安排,以