虛擬攝影師系統之相關研究

第二章文獻探討

第二節虛擬攝影師系統之相關研究

以觀眾為主體之虛擬攝影師系統的目的為研發一套以演講為場合、觀眾為主體、並自動操作攝影機進行運鏡之系統。該系統的主要功能之一在於挑選與拍攝現場狀況最為適合的運鏡手法。目前尚未發現和該功能相關之論文，因此以下將以技術為導向介紹相關技術之文獻。

2.1 景別(shots)

景別代表的是被拍攝的主體所占整個畫面的空間比例，其類別在前一個小節已稍微介紹。儘管在各種景別的區分上仍有模糊空間，不過大抵有個標準能夠參考。Cherif 等人[Che07]曾探討利用何種特徵可判斷幾種電影中常見的景別，其中主體皆為人物。在這份研究報告中，人物的臉部高度與臉的底部和畫面底部的距離被發現為一個分類景別的良好特徵。

Lang 等人[Lan09]則是對運動場上的選手們做主體的辨識與景別的界定，首先以 saliency map 方法找出畫面中的專注區域(attention field)，也就是被認定為觀賞者比較容易集中注意力的區域。然後以該區域的長寬為基礎，和畫面的長寬做比較所得到的比例做為特徵對系統進行 training，所得到的分類結果即為景別的分類。

另外，Chakraborty 等人[Cha12]同樣對運動場上的主體進行鎖定並判斷景別

。Chakraborty 等人把重心放在排球場上的攝影需求，以辨識球場上正在被擊飛的排球軌跡作為主體。另外，該研究以事前架設好的四個不同位置的攝影機來代表不同的景別。每個攝影機代表一種景別，每種景別代表能夠拍攝到的不同賽事重

點。景別是利用事先定義的攝影機角度和鏡頭的縮放程度來判斷，主要原因為鏡頭所拍攝的主體(排球軌跡)和周圍的環境(球員的位置和動作)都有其限制和方便球評解說的攝影角度。

從景別判斷的相關文獻可以得知，大多數研究對景別的定義多是以主體的長寬與輸入影像的長寬的比例做為景別的判斷標準，也有少數研究和[Cha12]一樣事先定義幾個不同的拍攝位置做為不同景別。以前者的方法來說，系統必須要先偵測並決定什麼是主體才能利用比例做判斷，若是限定以人物為主體，那人臉偵測的技術將扮演重要的角色。後者則需要多台固定位置的攝影機作為前提，因此拍攝的內容內容可能缺少了運鏡能所具有的運動效果。

2.2 主體選取(target selection)

從景別判斷的相關研究可以得知，欲確認景別必須先決定主體的位置或是大小，因此選擇主體的方法將會大大影響景別判斷的成效。目前有多種選取主體的方法應用於不同類型的研究，例如追蹤物體、辨識身分等應用都需要先偵測到主體的存在才進行後續的流程。Xing 等人[Xin11]提出同時追蹤運動場上的多名運動選手的技術，其偵測主體的方法是採用 templates matching 的技術。Xing 等人先把選手在場上的完整影像以及被部分遮蔽的影像當作 templates，然後當影像輸入系統，就用 templates matching 的技術找出場上的主體。Kelly 等人[Kel11]則是提出從多個攝影機拍攝同一主體的畫面中挑選出最好的鏡頭，由於該研究的有對畫面中的人數進行限制(一人)，所以只要偵測畫面中前景的部份就能夠確認主體的位置與涵蓋的範圍。

Saliency map detection( 專注分布偵測 ) 也是被廣為研究的主體選取技術之一 [Xu12][Ber06][Dor12][Lin11]，Lang 等人的研究[Lan09]就是使用 saliency map detection 的技術作為景別主體區域的選取。Saliency map detection 多以顏色作為特徵[Xu12] [Dor12][Lin11]，並以高斯模糊函數將相近的顏色分作同一個類別，或是以分水嶺演算法將不同顏色的區塊區分開來，然後再擷取出顏色相較於周圍特別突出的區塊。Berengolt 等人[Ber06]則是以 edge(邊緣)的長度作為主要特徵，他們認為主體上的邊緣應該有特定的長度。他們所提的偵測方式也可以被看作一種紋理的偵測，在他們的實驗結果中，多數細小破碎的邊緣會被去除，留下完整而

長度較長的邊緣作為專注區域。以上兩類 saliency map 的偵測方式雖然有所不同

，其意都在偵測畫面中集中而和周圍特徵相異的區塊，所以以這類方式取得的主體必須和背景在特徵上有明顯的差異。

以上兩類偵測目標的方法在主體的確定性上有所不同，templates matching 事先擬定的 templates 作為目標的模型，因此主體勢必與 templates 有一定程度的相仿；而 saliency mapdete detection 則是以設定規則的方式求得符合規則，但並不確定實際模樣為何的主體。

2.3 美學(aesthetic)相關研究

Aesthetic 在影像的領域中係指畫面的美感，由於「美感」這個主觀程度較高的個人感受難以被量化，因此與美感相關的研究大多以專業攝影的觀點作為基礎對一個畫面做出審美評比。例如已經有許多研究者提出以構圖(composition)判斷評比美感的方法[Ban07][Lia12][Su12]，其利用攝影常用的構圖法，如三分構圖法

、井字構圖法、對角線構圖法當作標準。接下來對原影像擷取邊緣特徵以及用 saliency map 挑選出主體位置，然後檢視這些邊緣特徵及主體的位置是否符合這些構圖法的結構。Liang 等人[Lia12]利用這個方法重新調整畫面的窗格大小及位置，等同於以攝影師的觀點重新調整畫面的構圖。在構圖法的選擇上，Banerjee 等人[Ban07]以三分構圖法，Su 等人[Su12]以井字構圖法，Liang 等人[Lia12]則使用了多種構圖法來對畫面作構圖美感評比。

另外，Li 等人[Li09]提出以其他特徵作為美感評比標準的方法，其做法為從影像中擷取兩大類的特徵。第一種是整體特徵，其內容包括畫面中的顏色在色彩空間的分布、模糊程度、邊緣密度等等，該類特徵帶給觀賞者強烈的第一印象。

第二種是局部特徵，先把原畫面依 graph cut 技術[Bov01]分割成多個區塊，再以每個區塊內部的模糊程度、邊緣密度，以及區塊間的相似程度和構圖作為特徵。

最後透過事先定義的規則。

以上的研究皆為探究單張畫面美感程度為主，Niu 等人[Niu12]除了單張畫面的美感分析之外，另外提出了包含時間要素的影片美感評比系統，該研究從影片中擷取多個靜態與動態特徵作為美感評比的標準。靜態的特徵包含雜訊、對焦、

曝光、色彩，其中雜訊指的是干擾畫面的任何外在因素，例如光源不佳的環境或

是儀器問題造成畫面模糊等等。對焦指的是焦點的位置、景身的深淺，主要會影響主體的清晰程度。曝光指的是曝光時間是否適當，其功能為調節畫面的亮度。

色彩代表畫面的色彩是不是足夠亮麗、飽和。動態的特徵則有 motion 雜訊、拍攝時間、畫面的連續性。motion 雜訊在該研究中的定義為攝影機晃動所產生的 motion

，這類雜訊不只多餘、還會干擾觀賞影片的舒適度。拍攝時間指的是鏡頭停留在同一個畫面的持續時間，由於畫面長時間的停留缺乏變化性，因此應試時的改變運鏡或是切換場景以保持影片的活力。畫面的連續性代表鏡頭移動的平滑程度，

快速的移動鏡頭而使得畫面在短時間內完全改變多為轉場時使用，若有過多這類移動鏡頭的方式出現會使得影片的節奏過於雜亂而難以觀賞。

不論是靜態或是動態的美感特徵都是一個專業的攝影師應該要考慮的，靜態的特徵多為畫面的邊緣結構、色彩、主體位置和模糊程度。動態的特徵則從 motion 的擷取作為基礎，衍伸出 motion 的變化活潑度、有沒有多餘的 motion 產生等等特徵。

在文檔中以觀眾為拍攝主體之虛擬攝影師系統 (頁 27-31)

第二章 文獻探討

第二節 虛擬攝影師系統之相關研究

第二章文獻探討

第二節虛擬攝影師系統之相關研究