視訊切割技術探討

第二章文獻探討

2.1 視訊切割技術探討

討論片段變化偵測(Shot change detection, SCD)的方法日益漸多，整理方法並比較優劣得失的文章[2][30][15]應運而生，以下大致探討常見的視訊切割技術。

2.1.1 像素的比較 ( Pixel-based method)

判別有無切換影像，直覺想法是將兩影像間同位置的點做比較。最簡單的方法是將相鄰兩影像對應位置的像素(Pixel) 相減，並設下適當的門檻值 (Threshold)，最後統計整張影像像素差絕對值的總和，是否超過門檻值來判斷 [13]。但當像素差異大時，此類方法無法區分以下情況：(1)部分區域的劇烈改變，

(2)整體區域的小幅改變，因此對於攝影機、物體振動和光源影響相當敏感。Zhang

等人提出改善的方法，在比較影像間之像素前，先使用 3 乘 3 濾波器對影像作 smooth 的處理[32]，但仍無法完全免除物體振動與光源變化造成的影響。

而 Yi 等人使用兩個階段來找出場景改變的地方，先使用最簡單的方法對相

鄰畫面的像素相減得 MAFD(1)，並配合適當的門檻值，粗略地過濾掉 90%冗餘

的重複畫面；接著對剩餘10%的畫面做較細微的計算，其利用畫面間彼此區域性

差異相似，取二階導數的概念得SDMAFD(2)來找出有場景改變的地方[29]。

1 1

0 0

1 ( , ) ( , )

M N

n n n

i j

MAFD f i j f i j

− −

= = −

= ∑∑ −

⁽¹⁾

n n n

SDMAFD

MAFD

−

MAFD

₋ (2)

2.1.2 以區塊為基礎的比較 ( Block-based method)

相對於像素比較是整體影像間的差異，以區塊的做法較能凸顯區域性質的變化。[25]將影像切割成多個相同大小的區塊，藉由定義的區塊比對(Block-matching) 技術，找尋影像間相似區塊位置，區塊間偏移的距離為運動向量(Motion vector)，

觀察各區塊運動向量來判斷有無切換影像；此方法雖能較不受攝影機振動影響，

但在教學影片中，出現的文字詞語，經常重複出現在不同影像，受限於區塊比對技術(區塊大小的設計與比對方式)，反而無法區別出這些變化。

2.1.3 直方圖的比較 ( Histogram-based method)

直方圖方法能統計出影像色彩(color)的分布情況[4,26,27]，且較不受攝影機

及物體晃動影響，但卻會失去空間結構上的資訊，使得直方圖分佈相似的兩張不同影像，無法區分。[19]為加入空間資訊，先將影像分成 4×4 個區塊，接著算出

各區塊Histogram 值，並計算連續兩張影像相同位置區塊的 Chi-square 值來進行判斷；[7]延伸在不同色彩空間(Color space)，數個特徵選取的方式(Bin-to-bin、

average)與維度變化上的組合分析比較；但此類方法具有的空間資訊有限，對場景沒有改變，背景幾乎相同的教學影片而言，效果不彰。

2.1.4 以叢集為基礎的比較 ( Cluster-based method)

視訊切割的問題可視為將影片中的影像分成兩類( 2-class )的問題(一為切換影像、另一為相同影像)，此類方法，可免除處理不同影片時，門檻值設定的問題。[6]使用的特徵是基於像素的 SDM(Spatial Difference Metric)和直方圖的 HDM(Histogram Difference Metric)，算出相鄰影像間的差異分數，對應到二維空間，藉由 fuzzy c-means 叢集演算法予以分類(圖 2.1)；[33,8]則額外運用色彩資訊。但此類方法前提須慎選特徵與對應至適當的維度上，找出足以區分此兩類影像的特性，否則效果仍有限。

圖2.1 使用 FCM 的分類結果[6]

2.1.5 以模型導向的比較 ( Model-driven method)

至今所述的方法，都是以取得資料數據後，所做的分析為主，為由下而上 (Bottom-up)的方法；而從另一個角度，就是觀察影片結構本身符合的數學模型，

也稱之為由上而下的方法(Top-down)。[10]根據片段變化的特性(切換時的影像數、影像間相似度的趨勢)來制定模型(圖 2.2)，再分別對相鄰影像，相隔數個影像計算相似的分數，來與定義的模型曲線比較，區分出是何種片段變化。

圖2.2 Transition model [10]

2.1.6 以特徵為基礎的比較 ( Feature-based method)

特徵值方式意指定義出適當的方法，將影片畫面計算成一序列的數值，再使用此特徵值來進行比較判斷。Peng 等人提出在 RGB 色彩空間下，分別將 R、G、

B 三個成分 (Component) 向量化，接著使用 K-L 轉換 (Karhunen-Loeve

(Second principle axis)，給予權重做線性組合取得所需特徵向量，對影片中所有畫面進行上述過程，最後用滑動視窗(Sliding window)來偵測發生場景變化的切點 [22]。

另外使用邊緣偵測(Edge detection)，因具有較不受光源影響和保留人類視覺

上空間結構資訊的優點，[31]使用 Canny edge detector 來找出邊緣圖(Edge map)，

並計算前後影像邊緣出現(Entering)及消失(Exiting)的區域，保留其中位移量(Bias) 明顯的部分，做為判斷影像改變的依據；[17]用使用相同的 Edge detector 來找出邊緣(Edge)，接著由連通成分(Connected component)來區分出文字區域的邊緣和非文字區域的邊緣，之後只採用非文字區域的邊緣，考慮最小邊界矩形(Minimum boundary rectangle)中的密度、面積、質心位置來算相似程度，最後使用 K-means

分出兩群，離散程度較大的視為有發生場景改變。使用此類方法，較適合在背景色彩幾乎不變與內容差異僅有文字、表格與圖片線條變化的教學影片。

2.1.7 整合及比較多種技術

Fang 等人採用色彩直方圖 (Color histogram)(3) 、動態補償 (Motion compensation)(4)、紋理(Texture)(5)三種特徵，藉由模糊理論(Fuzzy theory)與決策樹(Decision tree)來找出直接切換的切點，另使用邊緣偵測來決定融解(Dissolve) 特效發生的區間[3]。

256 256 256

1 1 1

1 1 min( , ) min( , ) min( , ) 3

i i i i i i

i rj rj gj gj bj bj

j j j

HI I I I I I I

− − −

= = =

⎡ ⎤

⎛ ⎞

= − ⎜ ⎝ ⎟ ⎠ ⎣ ⎢ ∑ + ∑ + ∑ ⎥ ⎦

⁽³⁾

' ' '

1 ^B ( )

i n n n n n n

MC Y Y U U V V

N

₌

∑

− + − + − ⁽⁴⁾

, , 1

TD 1

i 4 d i d i

d d

Energy Energy

₋

∑

−

∑

⁽⁵⁾

Ngo 等人依序取出固定長度的影像，利用統計的方法，找出屬於投影片區域的背景(Background)區域，並觀察在排版上的特性，利用規則找出文字區塊，之後對影像間此兩種區域特徵，計算相似分數，來予以判別影片的切點，另外使用商業版OCR 軟體，將文字辨識，與原始電子檔投影片做比對(Matching)[28]。

上述方法，有使用多種特徵來找出變化時明顯變化的圖騰，可彼此截長補短，但在決定有無切點變化時，各特徵的分數權重，卻難以決定，需要以大量的實驗輔助；而另外偵測文字的方法，在教學影片中，往往只有標題較易辨識成功，

對於相同主題的內容變化，不易處理。

在文檔中於教學影片上進行索引和教學重點探勘之研究 (頁 15-21)

第二章 文獻探討

2.1 視訊切割技術探討

1 ( , ) ( , )

= ∑∑ −

SDMAFD

MAFD

MAFD

1 1 min( , ) min( , ) min( , ) 3

⎡ ⎤

⎛ ⎞

= − ⎜ ⎝ ⎟ ⎠ ⎣ ⎢ ∑ + ∑ + ∑ ⎥ ⎦

MC Y Y U U V V

N

∑

Energy Energy

∑

∑

第二章文獻探討