第五章 運鏡選取
第二節 自動運鏡模型(automatic camera movement model,ACMM)
自動運鏡模型(automatic camera movement model,ACMM)是以有限狀態機 (finite-state machine,FSM)作為樣板所構築的模型,其功能為決定使用何種運鏡
,同時保持運鏡間的關聯性。FSM 如圖5.1所示[25],其架構包含了輸入(input)、
狀態(state)、轉移(transition)。State 的功能為紀錄系統的狀態,而 transition 則代
運鏡種類 運鏡持續時間(s)
下限 上限
Pan 4.5 6
Tilt 3.5 5
Zoom 4.5 6
Cut 2 3.5
表5.3運鏡持續時間與運鏡種類關係
圖5.1 FSM 結構圖[25]
42
表著狀態之間轉移的方向。例如圖5.1中若輸入的資料經由 transition 1進入 state 1
,接著可能經由 transition 2前往 state 2或是經由 transition 4進入 state n。若是前者 的情況第二次的轉移只可能經由 transition 3回到 state 2,而後者則會一值停留在 state n,兩者的發展趨勢將會有所不同。
圖中 state 之間的箭頭符號則代表 transition,transition 代表由一個 state 前往 下一個 state 的動作,每個 transition 的發生都必須滿足該 transition 所帶有的條件
。FSM 依照輸出方式的不同可分為兩種不同的模型。一種被稱為 Moore 模型,另 一種為 Mealy 模型。Moore 模型中其輸出值依附於 state 之下,依 state 不同而不 同。圖5.2(a)為一 Moore 模型的範例,其中 x、y、z 為輸入值;q 、0 q 、1 q 、2 q 為3 state;a、b、c 為輸出值。依照 Moore 模型的輸出方式,當 state 為q 時輸出 b,0 state 為q 時輸出 a,以此類推。Mealy 模型的輸出則同時建立在 state 和 input 上1
,輸入值和當時的 state 會共同決定輸出值。圖5.2(b)為一 Mealy 模型的範例,x
、y、z 為輸入值;q 、0 q 、1 q 、2 q 為 state;a、b、c 為輸出值。當 state 為3 q 、0 輸入為 z 時,輸出為 a。當 state 為q 且輸入為 y 時輸出為 a,輸入為 x 或 z 時則1 輸出為 c。
而本研究使用的是 Moore 模型和 Mealy 模型的綜合體,亦即一部份的輸出依 附於 state 之下,另一部分的輸出則同時考量 state 和 input 的情況。因為本系統以
圖5.2 Moore 和 Mealy 模型結構圖[26] (a)Moore 模型 (b)Mealy 模型
(a) (b)
43
運鏡種類為 state,所以運鏡種類的輸出可以交由 state 自行決定。而景別會受到不 同運鏡變化的影響,在兩種不同的運鏡間轉換會使用不同的景別,因此景別輸出 需要由 input 和 state 共同決定。
5.2.1 ACMM 結構
本研究提出的 ACCM 主要結構分為輸入(input)、運鏡狀態(camera movement states,CMS)以及轉移機率模型(transition probability model,TPM),如圖5.3所示
。圖中每一個圓形圖示代表一個 CMS,每一個箭頭符號皆代表一個 TPM。ACMM 中共有 k 個 CMS,kN,則每個 CMS 擁有k1個方向向外的 TPM 和 k 個方向 向內的 TPM。ACMM 的 input 為前章所述的四種 fuzzy motion features,分別為m~s
、m~ 、c m~ 、se m~ ,而 ACMM 的輸出為景別以及運鏡種類。前面曾經提到其輸出oe 方式為 Moore 模型和 Mealy 模型的綜合體,系統將根據 CMS 輸出運鏡種類並由 CMS 和 input 同時決定景別。
CMS 為類似 FSM 中的 state,令C 為 label 為 i 之 CMS,i 1ik,iN,k 為運鏡的種類數量,每一個C 都對應到不同的運鏡狀態。每次的運鏡特徵輸入都i
… …
… …
圖 5.3 自動運鏡系統結構圖
44
會影響 CMS 的轉移,例如在某些特徵出現的情況下造成系統由C 轉移到i Cj,而
後Cj又可能因為下一個輸入轉移到和Cj較為相關的 CMS,其中1i,jk , N
j
i, 。藉由 CMS 之間的相互關係,當一段連續的現場特徵向量輸入 ACMM
,系統將會依照該特徵序列挑選出與其最合適的連續運鏡。
TPM 是一個具有指向性,並存在於兩個 CMS 之間的機率模型。TPM 的實際 結構為一個五維矩陣,四個維度分別對應四個 fuzzy motion features,每個維度大 小取決於其對應的 fuzzy motion feature 的模糊集數量。矩陣中所記錄的值代表在 不同輸入的情況下該 TPM 被選為 CMS 轉移路線的機率。令m ~1 m 分別為四個4 fuzzy motion features 之模糊集數量,Tij為方向由 i 往 j 之 TPM,1i, jk,i,jN
, k 為 CMS 之 數 量 , 則 Tij 矩 陣 中 所 對 應 m ~1 m 之 機 率 值 可 表 示 成4 ]
1 , 0 [ ,
) , , ,
( 1 2 3 4 ij ij
ij m m m m p p
T 。
TPM 可用來記錄專業攝影師就觀察畫面中的 fuzzy motion feature 所作出對運 鏡選擇的判斷經驗,每當系統需要切換運鏡,ACMM 即利用 TPM 得知在該 input 的情況下專業攝影師會如何選擇運鏡。本研究將攝影師以 fuzzy motion features 作 為判斷運鏡依據的經驗經過分析和統計後放入 TPM 之中,其處理方式將在後面 做說明。
45
TPM 的 training data 的形式如圖5.4所示,每一筆 training data 所記錄的資訊 包含運鏡切換的時間(time)、四個 fuzzy motion features 的模糊值、使用的景別、
運鏡以及拍攝主體屬於觀眾或講者。為方便記錄,除了時間以外的所有資料項都 以數字或單一英文字母來表示,fuzzy motion features 以小於其模糊集數量的自然 數表示其變數值,景別和運鏡則是不同數字代表運鏡或景別的類別,主體的部分
…
…
圖 5.4 Training data 分別轉換成各 TPM 之範例
… … …
Training data
46
則以“a”代表觀眾、“s”代表講者。圖5.4的左方為原始 training data,每一筆資料由 左至右包含運鏡發生時間(time)、m~ 、s m~ 、c m~ 、se m~ 、景別、運鏡以及主體類別oe
,圖5.4的右方則是經過分析後並拆解後的結果。圖5.4左方的藍色框是為同一筆 資料,紅色框的內容則為判斷該筆資料屬於哪個 TPM 的依據。紅色框所指的資 料項為運鏡的種類,以紅色框內上半部的數字1作為起始點,下半部的數字1做為 終點,所以藍色框中的資料屬於T 的 training data。因此原始的 training data 被分11 類到k 個資料矩陣2 TDij再分別整合至對應的Tiju,T 為方向由 i 往 j 且未經正規化iju 之 TPM,其中1i,j k,i,jN,k 為 CMS 之數量。
要注意的是,本研究因為以觀眾為拍攝主體,所以只會留下主體為觀眾的資 料,每筆資料含有五個 fuzzy motion features 以及景別共六個資料項。在完成所有 training data 的分類後,接下來要將資料放入對應的 TPM 中進行統計。令TDij的
47
48
Transition probability calculation
Transition decision
Shot probability calculation Input
Output
圖 5.5 ACMM 運作流程圖 Shot decision
49 probability model,SPM)以 fuzzy motion features 為輸入,並輸出每個景別被挑選 的機率,該模型依附於每個 TPM 之下。一旦 state Cnext被決定,被選為轉移路線