第二章 文獻探討
第二節 虛擬攝影師系統之相關研究
以觀眾為主體之虛擬攝影師系統的目的為研發一套以演講為場合、觀眾為主 體、並自動操作攝影機進行運鏡之系統。該系統的主要功能之一在於挑選與拍攝 現場狀況最為適合的運鏡手法。目前尚未發現和該功能相關之論文,因此以下將 以技術為導向介紹相關技術之文獻。
2.1 景別(shots)
景別代表的是被拍攝的主體所占整個畫面的空間比例,其類別在前一個小節 已稍微介紹。儘管在各種景別的區分上仍有模糊空間,不過大抵有個標準能夠參 考。Cherif 等人[Che07]曾探討利用何種特徵可判斷幾種電影中常見的景別,其中 主體皆為人物。在這份研究報告中,人物的臉部高度與臉的底部和畫面底部的距 離被發現為一個分類景別的良好特徵。
Lang 等人[Lan09]則是對運動場上的選手們做主體的辨識與景別的界定,首 先以 saliency map 方法找出畫面中的專注區域(attention field),也就是被認定為觀 賞者比較容易集中注意力的區域。然後以該區域的長寬為基礎,和畫面的長寬做 比較所得到的比例做為特徵對系統進行 training,所得到的分類結果即為景別的分 類。
另外,Chakraborty 等人[Cha12]同樣對運動場上的主體進行鎖定並判斷景別
。Chakraborty 等人把重心放在排球場上的攝影需求,以辨識球場上正在被擊飛的 排球軌跡作為主體。另外,該研究以事前架設好的四個不同位置的攝影機來代表 不同的景別。每個攝影機代表一種景別,每種景別代表能夠拍攝到的不同賽事重
18
點。景別是利用事先定義的攝影機角度和鏡頭的縮放程度來判斷,主要原因為鏡 頭所拍攝的主體(排球軌跡)和周圍的環境(球員的位置和動作)都有其限制和方便 球評解說的攝影角度。
從景別判斷的相關文獻可以得知,大多數研究對景別的定義多是以主體的長 寬與輸入影像的長寬的比例做為景別的判斷標準,也有少數研究和[Cha12]一樣事 先定義幾個不同的拍攝位置做為不同景別。以前者的方法來說,系統必須要先偵 測並決定什麼是主體才能利用比例做判斷,若是限定以人物為主體,那人臉偵測 的技術將扮演重要的角色。後者則需要多台固定位置的攝影機作為前提,因此拍 攝的內容內容可能缺少了運鏡能所具有的運動效果。
2.2 主體選取(target selection)
從景別判斷的相關研究可以得知,欲確認景別必須先決定主體的位置或是大 小,因此選擇主體的方法將會大大影響景別判斷的成效。目前有多種選取主體的 方法應用於不同類型的研究,例如追蹤物體、辨識身分等應用都需要先偵測到主 體的存在才進行後續的流程。Xing 等人[Xin11]提出同時追蹤運動場上的多名運動 選手的技術,其偵測主體的方法是採用 templates matching 的技術。Xing 等人先 把選手在場上的完整影像以及被部分遮蔽的影像當作 templates,然後當影像輸入 系統,就用 templates matching 的技術找出場上的主體。Kelly 等人[Kel11]則是提 出從多個攝影機拍攝同一主體的畫面中挑選出最好的鏡頭,由於該研究的有對畫 面中的人數進行限制(一人),所以只要偵測畫面中前景的部份就能夠確認主體的 位置與涵蓋的範圍。
Saliency map detection( 專 注 分 布偵測 ) 也 是被 廣 為 研 究 的 主體 選取 技 術 之 一 [Xu12][Ber06][Dor12][Lin11],Lang 等人的研究[Lan09]就是使用 saliency map detection 的技術作為景別主體區域的選取。Saliency map detection 多以顏色作為 特徵[Xu12] [Dor12][Lin11],並以高斯模糊函數將相近的顏色分作同一個類別,或 是以分水嶺演算法將不同顏色的區塊區分開來,然後再擷取出顏色相較於周圍特 別突出的區塊。Berengolt 等人[Ber06]則是以 edge(邊緣)的長度作為主要特徵,他 們認為主體上的邊緣應該有特定的長度。他們所提的偵測方式也可以被看作一種 紋理的偵測,在他們的實驗結果中,多數細小破碎的邊緣會被去除,留下完整而
19
長度較長的邊緣作為專注區域。以上兩類 saliency map 的偵測方式雖然有所不同
,其意都在偵測畫面中集中而和周圍特徵相異的區塊,所以以這類方式取得的主 體必須和背景在特徵上有明顯的差異。
以上兩類偵測目標的方法在主體的確定性上有所不同,templates matching 事 先擬定的 templates 作為目標的模型,因此主體勢必與 templates 有一定程度的相 仿;而 saliency mapdete detection 則是以設定規則的方式求得符合規則,但並不確 定實際模樣為何的主體。
2.3 美學(aesthetic)相關研究
Aesthetic 在影像的領域中係指畫面的美感,由於「美感」這個主觀程度較高 的個人感受難以被量化,因此與美感相關的研究大多以專業攝影的觀點作為基礎 對一個畫面做出審美評比。例如已經有許多研究者提出以構圖(composition)判斷 評比美感的方法[Ban07][Lia12][Su12],其利用攝影常用的構圖法,如三分構圖法
、井字構圖法、對角線構圖法當作標準。接下來對原影像擷取邊緣特徵以及用 saliency map 挑選出主體位置,然後檢視這些邊緣特徵及主體的位置是否符合這 些構圖法的結構。Liang 等人[Lia12]利用這個方法重新調整畫面的窗格大小及位 置,等同於以攝影師的觀點重新調整畫面的構圖。在構圖法的選擇上,Banerjee 等人[Ban07]以三分構圖法,Su 等人[Su12]以井字構圖法,Liang 等人[Lia12]則使 用了多種構圖法來對畫面作構圖美感評比。
另外,Li 等人[Li09]提出以其他特徵作為美感評比標準的方法,其做法為從 影像中擷取兩大類的特徵。第一種是整體特徵,其內容包括畫面中的顏色在色彩 空間的分布、模糊程度、邊緣密度等等,該類特徵帶給觀賞者強烈的第一印象。
第二種是局部特徵,先把原畫面依 graph cut 技術[Bov01]分割成多個區塊,再以 每個區塊內部的模糊程度、邊緣密度,以及區塊間的相似程度和構圖作為特徵。
最後透過事先定義的規則。
以上的研究皆為探究單張畫面美感程度為主,Niu 等人[Niu12]除了單張畫面 的美感分析之外,另外提出了包含時間要素的影片美感評比系統,該研究從影片 中擷取多個靜態與動態特徵作為美感評比的標準。靜態的特徵包含雜訊、對焦、
曝光、色彩,其中雜訊指的是干擾畫面的任何外在因素,例如光源不佳的環境或
20
是儀器問題造成畫面模糊等等。對焦指的是焦點的位置、景身的深淺,主要會影 響主體的清晰程度。曝光指的是曝光時間是否適當,其功能為調節畫面的亮度。
色彩代表畫面的色彩是不是足夠亮麗、飽和。動態的特徵則有 motion 雜訊、拍攝 時間、畫面的連續性。motion 雜訊在該研究中的定義為攝影機晃動所產生的 motion
,這類雜訊不只多餘、還會干擾觀賞影片的舒適度。拍攝時間指的是鏡頭停留在 同一個畫面的持續時間,由於畫面長時間的停留缺乏變化性,因此應試時的改變 運鏡或是切換場景以保持影片的活力。畫面的連續性代表鏡頭移動的平滑程度,
快速的移動鏡頭而使得畫面在短時間內完全改變多為轉場時使用,若有過多這類 移動鏡頭的方式出現會使得影片的節奏過於雜亂而難以觀賞。
不論是靜態或是動態的美感特徵都是一個專業的攝影師應該要考慮的,靜態 的特徵多為畫面的邊緣結構、色彩、主體位置和模糊程度。動態的特徵則從 motion 的擷取作為基礎,衍伸出 motion 的變化活潑度、有沒有多餘的 motion 產生等等 特徵。
21