第二章 文獻探討
2.1 視訊切割技術探討
討論片段變化偵測(Shot change detection, SCD)的方法日益漸多,整理方法並 比較優劣得失的文章[2][30][15]應運而生,以下大致探討常見的視訊切割技術。
2.1.1 像素的比較 ( Pixel-based method)
判別有無切換影像,直覺想法是將兩影像間同位置的點做比較。最簡單的方 法 是 將 相 鄰 兩 影 像 對 應 位 置 的 像 素(Pixel) 相 減 , 並 設 下 適 當 的 門 檻 值 (Threshold),最後統計整張影像像素差絕對值的總和,是否超過門檻值來判斷 [13]。但當像素差異大時,此類方法無法區分以下情況:(1)部分區域的劇烈改變,
(2)整體區域的小幅改變,因此對於攝影機、物體振動和光源影響相當敏感。Zhang
等人提出改善的方法,在比較影像間之像素前,先使用 3 乘 3 濾波器對影像作 smooth 的處理[32],但仍無法完全免除物體振動與光源變化造成的影響。
而 Yi 等人使用兩個階段來找出場景改變的地方,先使用最簡單的方法對相
鄰畫面的像素相減得 MAFD(1),並配合適當的門檻值,粗略地過濾掉 90%冗餘
的重複畫面;接著對剩餘10%的畫面做較細微的計算,其利用畫面間彼此區域性
差異相似,取二階導數的概念得SDMAFD(2)來找出有場景改變的地方[29]。
1 1
1
0 0
1 ( , ) ( , )
M N
n n n
i j
MAFD f i j f i j
MN
− −
= = −
= ∑∑ −
(1)1
n n n
SDMAFD
=MAFD
−MAFD
− (2)2.1.2 以區塊為基礎的比較 ( Block-based method)
相對於像素比較是整體影像間的差異,以區塊的做法較能凸顯區域性質的變 化。[25]將影像切割成多個相同大小的區塊,藉由定義的區塊比對(Block-matching) 技術,找尋影像間相似區塊位置,區塊間偏移的距離為運動向量(Motion vector),
觀察各區塊運動向量來判斷有無切換影像;此方法雖能較不受攝影機振動影響,
但在教學影片中,出現的文字詞語,經常重複出現在不同影像,受限於區塊比對 技術(區塊大小的設計與比對方式),反而無法區別出這些變化。
2.1.3 直方圖的比較 ( Histogram-based method)
直方圖方法能統計出影像色彩(color)的分布情況[4,26,27],且較不受攝影機
及物體晃動影響,但卻會失去空間結構上的資訊,使得直方圖分佈相似的兩張不 同影像,無法區分。[19]為加入空間資訊,先將影像分成 4×4 個區塊,接著算出
各區塊Histogram 值,並計算連續兩張影像相同位置區塊的 Chi-square 值來進行 判斷;[7]延伸在不同色彩空間(Color space),數個特徵選取的方式(Bin-to-bin、
average)與維度變化上的組合分析比較;但此類方法具有的空間資訊有限,對場 景沒有改變,背景幾乎相同的教學影片而言,效果不彰。
8
2.1.4 以叢集為基礎的比較 ( Cluster-based method)
視訊切割的問題可視為將影片中的影像分成兩類( 2-class )的問題(一為切換 影像、另一為相同影像),此類方法,可免除處理不同影片時,門檻值設定的問 題。[6]使用的特徵是基於像素的 SDM(Spatial Difference Metric)和直方圖的 HDM(Histogram Difference Metric),算出相鄰影像間的差異分數,對應到二維空 間,藉由 fuzzy c-means 叢集演算法予以分類(圖 2.1);[33,8]則額外運用色彩資 訊。但此類方法前提須慎選特徵與對應至適當的維度上,找出足以區分此兩類影 像的特性,否則效果仍有限。
圖2.1 使用 FCM 的分類結果[6]
2.1.5 以模型導向的比較 ( Model-driven method)
至今所述的方法,都是以取得資料數據後,所做的分析為主,為由下而上 (Bottom-up)的方法;而從另一個角度,就是觀察影片結構本身符合的數學模型,
也稱之為由上而下的方法(Top-down)。[10]根據片段變化的特性(切換時的影像 數、影像間相似度的趨勢)來制定模型(圖 2.2),再分別對相鄰影像,相隔數個影 像計算相似的分數,來與定義的模型曲線比較,區分出是何種片段變化。
圖2.2 Transition model [10]
2.1.6 以特徵為基礎的比較 ( Feature-based method)
特徵值方式意指定義出適當的方法,將影片畫面計算成一序列的數值,再使 用此特徵值來進行比較判斷。Peng 等人提出在 RGB 色彩空間下,分別將 R、G、
B 三 個 成 分 (Component) 向 量 化 , 接 著 使 用 K-L 轉 換 (Karhunen-Loeve
10
(Second principle axis),給予權重做線性組合取得所需特徵向量,對影片中所有 畫面進行上述過程,最後用滑動視窗(Sliding window)來偵測發生場景變化的切點 [22]。
另外使用邊緣偵測(Edge detection),因具有較不受光源影響和保留人類視覺
上空間結構資訊的優點,[31]使用 Canny edge detector 來找出邊緣圖(Edge map),
並計算前後影像邊緣出現(Entering)及消失(Exiting)的區域,保留其中位移量(Bias) 明顯的部分,做為判斷影像改變的依據;[17]用使用相同的 Edge detector 來找出 邊緣(Edge),接著由連通成分(Connected component)來區分出文字區域的邊緣和 非文字區域的邊緣,之後只採用非文字區域的邊緣,考慮最小邊界矩形(Minimum boundary rectangle)中的密度、面積、質心位置來算相似程度,最後使用 K-means
分出兩群,離散程度較大的視為有發生場景改變。使用此類方法,較適合在背景 色彩幾乎不變與內容差異僅有文字、表格與圖片線條變化的教學影片。
2.1.7 整合及比較多種技術
Fang 等 人 採 用 色 彩 直 方 圖 (Color histogram)(3) 、 動 態 補 償 (Motion compensation)(4)、紋理(Texture)(5)三種特徵,藉由模糊理論(Fuzzy theory)與決策 樹(Decision tree)來找出直接切換的切點,另使用邊緣偵測來決定融解(Dissolve) 特效發生的區間[3]。
256 256 256
1 1 1
1 1 1
1 1 min( , ) min( , ) min( , ) 3
i i i i i i
i rj rj gj gj bj bj
j j j
HI I I I I I I
n
− − −
= = =
⎡ ⎤
⎛ ⎞
= − ⎜ ⎝ ⎟ ⎠ ⎣ ⎢ ∑ + ∑ + ∑ ⎥ ⎦
(3)' ' '
1
1 B ( )
B
N
i n n n n n n
n
MC Y Y U U V V
N
==
∑
− + − + − (4), , 1
TD 1
i 4 d i d i
d d
Energy Energy
−=
∑
−∑
(5)Ngo 等人依序取出固定長度的影像,利用統計的方法,找出屬於投影片區域 的背景(Background)區域,並觀察在排版上的特性,利用規則找出文字區塊,之 後對影像間此兩種區域特徵,計算相似分數,來予以判別影片的切點,另外使用 商業版OCR 軟體,將文字辨識,與原始電子檔投影片做比對(Matching)[28]。
上述方法,有使用多種特徵來找出變化時明顯變化的圖騰,可彼此截長補 短,但在決定有無切點變化時,各特徵的分數權重,卻難以決定,需要以大量的 實驗輔助;而另外偵測文字的方法,在教學影片中,往往只有標題較易辨識成功,
對於相同主題的內容變化,不易處理。
12