影像品質的分析與評估 - 自動化演講錄製系統之虛擬導播子系統

虛擬導播主要的工作是選出最適合的畫面播放，在選擇之前則必須先對影像進行分析及評估。本章將分成四個類別來討論，分別為美學分析(aesthetic

analysis)、光學分析(optical analysis)、時空連貫性分析(continuity analysis)、以及動作分析(action analysis)。本章節將詳細說明各類別的評選準則、特徵擷取方法、

以及如何將評估結果參數化。

3.1、美學分析(aesthetic analysis)

人類在觀賞一張影像時，首先會注意到的物體我們稱之為主體。一般而言，

主體在畫面中所佔據的大小以及所在的位置會影響人類對此張影像的觀感因此在攝影美學領域中，經常藉由將主體擺放至適當的位置來傳達視覺平穩的效果。

根據 [Liu10]，我們可以歸納出三種常見的構圖原則：三一法則(rule of third)、視覺平衡法則(visual balance)以及主體大小法則(size of salient)。

3.1.1、美學評估準則

a.三一法則(rule od third)

三一法則(rule od third)的概念是運用兩條水平線及兩條垂直線排成「井」字形，將影像切割成大小相同的九等分，這四條線則稱之為「黃金分割線」，而黃

金分割線所交叉形成的四個點，稱作「黃金點」。主體位置與黃金點越接近，或是主體延伸的線條（例如地平線）越貼近黃金分割線，皆能夠在視覺上獲得舒適平穩的感覺（圖 3-1）。

b.視覺平衡準則(visual balance)

視覺平衡準則(visual balance)強調的是畫面的平衡感，當影像中有明確的主體物或是有較豐富且明顯的線條結構出現時，此物體在視覺上便會產生比較重的重量感，這項準則講求的是重量比例的調配必須均衡。比方說當一個主體位於影像的右上方，而另一個主體位在影像的左下方時，就是一張視覺平衡的影像（圖 3-2）。

圖 3-1、三一法則比較圖。

圖 3-2、視覺平衡比較圖。左圖是較符合視覺平衡準則之影像。

c.主體的大小(size of salient)

主體的大小(size of salient)則影響著欲拍攝的主題能否被突現出來，藉由控制主體在畫面中所佔的大小比例，來傳達不同含意的主題。根據不同的拍攝需求，

主體的大小便有不同的限制，例如拍攝主體為演講者時，為了突顯主題，講者在畫面中的所佔的比例就不能太小，以影像大小的三分之一為佳。除此之外，為了替演講素材保留空間，如投影布幕、道具等，必須替演講者視線延伸的方向及動作方向多留一點空間，一來是方便攝影機運鏡，二來可以保持畫面的美感。

3.1.2、主體物偵測

為了取得畫面中主體的位置及大小，我們運用注意力圖像(attention map)

[Yen04]尋找動態的主體物，以及[Liu11]提出的多解析度對比(multi-scale contrast) 方法來製作靜態顯著圖(static saliency map)，並將這兩張圖結合形成一張顯著圖

(saliency map)。由於影像中可能出現兩個以上的主體物，我們將利用平均位移分群(mean-shift clustering)演算法[Che85]對顯著圖的顯著區域做分群，以區分出不同的主體物。以下將詳述實作方法的內容。

a.注意力圖像(attention maps)

在靜態的背景前，會「動」的物體往往是人類聚集注意力的區域，因此我們使用 STA (spatio-temporal attention neural model) [Fan02, Fan03]來模擬注意焦點集中的過程，並建立注意力圖像(attention maps)(圖 3-3)[Yen04]。

STA 類神經網路分為兩層，一層為輸入層(input layer)，另一為輸出層(output

layer)，亦稱為 attention layer。圖 3-4 為 STA 類神經網路架構圖。輸出層中每個神經元都與其鄰近神經元有連接，稱之為階層內部連結(within-layer connections)，

用來傳遞抑制訊息。輸入層的每個神經元與輸出層的每個神經元皆有連結，而這些連結主要用來傳遞刺激訊息，為完全連結(full-connected)。

輸入層與輸出層的神經元各自組成一個二維陣列，陣列的大小即為輸入影像之大小。令w 表示輸入層神經元_ij n 與輸出層神經元_j n 連結的權重，輸入層與輸_i

圖 3-3、注意力圖像。左圖為原始影像，右圖是根據左圖原始影像建立的注意力圖像。

圖 3-4、STA 類神經網路架構圖[Fan03]。

出層間的連結之權重給定方式，如圖 3-5 所示，假設二維高斯函數 G 的中心位於 輸出層神經元n 上，則_i n 與鄰近的神經元_i n 形成一位置向量(position vector)_k r ，_ki 輸入層神經元n 與輸出層神經元_j n 的權重_k w 則可表示為_kj G r( )_ki 。二維高斯函數可以使得某個輸入層神經元的刺激在輸入後會刺激到對應的輸出層神經元，進而產生刺激分散的現象。然而輸出層的神經元則會互相抑制，而這種抑制機制可以用「墨西哥帽(Mexican-hat)」函數M r 來模擬(圖 3-6)，其中( ) r 表示距離函數中 心的位置向量。此種函數的控制方式會造成輸出層的神經元產生激發狀態聚集的現象。

運用上述的類神經網建構出的注意力圖像，如圖 3-3 所示，注意力圖像是一種灰階影像，亮點分佈的區域表示主體可能出現的位置，亮點分佈漸層的方向則表示主體物移動的方向。

圖 3-5、輸入層與輸出層的權重連結圖。

圖 3-6、墨西哥帽函數圖形。

b. 靜態顯著圖(static saliency map)

靜態影像中倘若有一塊區域的顏色、線條結構、形狀或是方向與其周遭的背景或物體有較大的差異時，通常會使得人類聚集較多的注意力在此。根據此項特性，便可以將多解析度對比法(multi-scale contrast)運用於偵測影像中的靜態顯著物。其方法是對影像進行邊緣偵測，對此邊緣圖建立六層的高斯影像金字塔

(Gaussian image pyramid)，如圖 3-7 所示，再將這六層影像縮放至同一大小，並疊合形成靜態顯著圖。

將注意力圖像與靜態顯著圖結合後，如圖 3-8 所示，則最後成為虛擬導播所參考的顯著圖(saliency maps)。

圖 3-7、靜態主體物偵測流程圖。

(a) (b) (c)

圖 3-8、顯著圖。(a)靜態顯著圖、(b)注意力圖像、(c)為前面兩張結合後的顯著圖。

c. 平均位移分群演算法(mean-shift clustering algorithm)

假設空間中散佈著n個資料點，X 

 

x_{i i}ⁿ_₁為每個資料點位置x 的集合(圖_i

這些都是虛擬導播避免選擇到的鏡頭。因此我們建立 ROF(regions of focus)圖來 偵測影像較清晰的區域。

銳利度偵測主要找出影像中清晰的區域，一般而言，清晰的地方通常保留較多細節，越模糊的區域細節則越不明顯。首先將輸入影像轉成灰階圖像，將此張灰階影像通過高斯模糊濾波器(Gaussian blur filter)得到模糊的灰階影像，分別對輸入灰階圖及模糊灰階圖都製作水平方向及垂直方向的梯度圖(圖 3-12)。分別對不同的方向的灰階梯度圖與模糊影像梯度圖做影像相減，如圖 3-13 所示，得到的影像即為細節較明顯的細節圖。最後將得到的垂直方向細節圖與水平方向細節圖

疊合在一起，即為 ROF (regions of focus)圖。

圖 3-11、左排影像為輸入影像，右排為相對應之 ROF 圖。

圖 3-12、原始灰階影像之梯度圖(左)水平方向(右)垂直方向。

賞者增加參與感，而這種沒有傳遞訊息的鏡頭，可以讓導播在剪輯時用來將故事填滿，使剪輯後的影片觀賞起來更加豐富而不單調，Katz 稱此種類別的運鏡方式為「裝飾鏡頭」(decorative shots)。

另外，當攝影機持續移動卻突然定格時，表示拍攝到的場景可能有值得注意的事件發生，Abdollahian 稱這一類的運鏡方式為「Move and hold」[Abd10]，此時也應將該畫面被選擇播出的優先權提高。

3.3.2、光流向量估計(optical flow estimation)運用於攝影機運鏡偵測

光流法是一種可以表達影像動作情形的技術，我們使用 Rosten 及 Drummond 所提出的角點偵測方法 FAST (Feature from Accelerated Segment Test) [Ros08]，將偵測到的角點作為影像的特徵點，再對這些特徵點進行光流向量的估計。以下將詳述其作法。

a.角點偵測(corner detection)

FAST (Feature from Accelerated Segment Test)角點偵測能夠大幅降低光流向 量估計的計算時間。如圖 3-14 所示，以圖中之點 p 為中心，作一周長為 16 的圓。

b.光流向量估計(optical flow estimation)

圖 3-14、FAST 角點偵測示意圖。[Ros08]

圖 3-15、FAST 角點偵測結果圖，綠點為偵測到的特徵點。

為了得知攝影機的運鏡方向，我們利用 FAST 角點偵測獲得特徵點之後，使 用 Lucas-Kanade 光流演算法 (又稱 hierarchical optical flow estimation) [Luc81]來估計每一特徵點之光流向量。Lucas-Kanade 假設兩張 frames 中的物體位移很小，

在小範圍內大致不會改變，因此，令 p 為影像中某一特徵點，並給定一個大小固

in 之後、zoom out 之後以及 move-and-hold 時，便給予該畫面之較高的選鏡優先權，但由於攝影機正在動作時，導播不宜選擇該畫面。因此，攝影機動作分數給 frame 的方向標籤，也就是說，當攝影機的方向突然改變時，則給予該張 frame 較高的攝影機動作分數。

34 圖，便可藉由卡方距離(chi-squared distance)來估計兩張 frames 在亮度及色調上的

差異。其色調表示式如下：

圖 3-17、Move-&-hold 範例。

切換畫面時，不同主體出現在不同畫面的位置不宜差距太大，以避免人的眼球轉動距離太長，一旦播放時間稍長，則容易產生疲勞感。針對主體位置連續性，

以下列表示式計算其分數：

( ) ( ( ( )), ( ( 1))), 1, 2,3.

C Position i i

S S  d P S t P S t  i 

_，

( ( ))_i

P S t 為候選畫面S 在_i t時間的主體位置， ( (P S t1))為 (S t1)畫面在t1時間的主體位置， ( )d 為歐幾里得距離(Euclidean distance)函數。

在文檔中自動化演講錄製系統之虛擬導播子系統 (頁 27-48)