• 沒有找到結果。

第二章 文獻探討

2.1 視訊切割技術探討

討論片段變化偵測(Shot change detection, SCD)的方法日益漸多,整理方法並 比較優劣得失的文章[2][30][15]應運而生,以下大致探討常見的視訊切割技術。

2.1.1 像素的比較 ( Pixel-based method)

判別有無切換影像,直覺想法是將兩影像間同位置的點做比較。最簡單的方 法 是 將 相 鄰 兩 影 像 對 應 位 置 的 像 素(Pixel) 相 減 , 並 設 下 適 當 的 門 檻 值 (Threshold),最後統計整張影像像素差絕對值的總和,是否超過門檻值來判斷 [13]。但當像素差異大時,此類方法無法區分以下情況:(1)部分區域的劇烈改變,

(2)整體區域的小幅改變,因此對於攝影機、物體振動和光源影響相當敏感。Zhang

等人提出改善的方法,在比較影像間之像素前,先使用 3 乘 3 濾波器對影像作 smooth 的處理[32],但仍無法完全免除物體振動與光源變化造成的影響。

而 Yi 等人使用兩個階段來找出場景改變的地方,先使用最簡單的方法對相

鄰畫面的像素相減得 MAFD(1),並配合適當的門檻值,粗略地過濾掉 90%冗餘

的重複畫面;接著對剩餘10%的畫面做較細微的計算,其利用畫面間彼此區域性

差異相似,取二階導數的概念得SDMAFD(2)來找出有場景改變的地方[29]。

1 1

1

0 0

1 ( , ) ( , )

M N

n n n

i j

MAFD f i j f i j

MN

= =

= ∑∑ −

(1)

1

n n n

SDMAFD

=

MAFD

MAFD

(2)

2.1.2 以區塊為基礎的比較 ( Block-based method)

相對於像素比較是整體影像間的差異,以區塊的做法較能凸顯區域性質的變 化。[25]將影像切割成多個相同大小的區塊,藉由定義的區塊比對(Block-matching) 技術,找尋影像間相似區塊位置,區塊間偏移的距離為運動向量(Motion vector),

觀察各區塊運動向量來判斷有無切換影像;此方法雖能較不受攝影機振動影響,

但在教學影片中,出現的文字詞語,經常重複出現在不同影像,受限於區塊比對 技術(區塊大小的設計與比對方式),反而無法區別出這些變化。

2.1.3 直方圖的比較 ( Histogram-based method)

直方圖方法能統計出影像色彩(color)的分布情況[4,26,27],且較不受攝影機

及物體晃動影響,但卻會失去空間結構上的資訊,使得直方圖分佈相似的兩張不 同影像,無法區分。[19]為加入空間資訊,先將影像分成 4×4 個區塊,接著算出

各區塊Histogram 值,並計算連續兩張影像相同位置區塊的 Chi-square 值來進行 判斷;[7]延伸在不同色彩空間(Color space),數個特徵選取的方式(Bin-to-bin、

average)與維度變化上的組合分析比較;但此類方法具有的空間資訊有限,對場 景沒有改變,背景幾乎相同的教學影片而言,效果不彰。

8

2.1.4 以叢集為基礎的比較 ( Cluster-based method)

視訊切割的問題可視為將影片中的影像分成兩類( 2-class )的問題(一為切換 影像、另一為相同影像),此類方法,可免除處理不同影片時,門檻值設定的問 題。[6]使用的特徵是基於像素的 SDM(Spatial Difference Metric)和直方圖的 HDM(Histogram Difference Metric),算出相鄰影像間的差異分數,對應到二維空 間,藉由 fuzzy c-means 叢集演算法予以分類(圖 2.1);[33,8]則額外運用色彩資 訊。但此類方法前提須慎選特徵與對應至適當的維度上,找出足以區分此兩類影 像的特性,否則效果仍有限。

圖2.1 使用 FCM 的分類結果[6]

2.1.5 以模型導向的比較 ( Model-driven method)

至今所述的方法,都是以取得資料數據後,所做的分析為主,為由下而上 (Bottom-up)的方法;而從另一個角度,就是觀察影片結構本身符合的數學模型,

也稱之為由上而下的方法(Top-down)。[10]根據片段變化的特性(切換時的影像 數、影像間相似度的趨勢)來制定模型(圖 2.2),再分別對相鄰影像,相隔數個影 像計算相似的分數,來與定義的模型曲線比較,區分出是何種片段變化。

圖2.2 Transition model [10]

2.1.6 以特徵為基礎的比較 ( Feature-based method)

特徵值方式意指定義出適當的方法,將影片畫面計算成一序列的數值,再使 用此特徵值來進行比較判斷。Peng 等人提出在 RGB 色彩空間下,分別將 R、G、

B 三 個 成 分 (Component) 向 量 化 , 接 著 使 用 K-L 轉 換 (Karhunen-Loeve

10

(Second principle axis),給予權重做線性組合取得所需特徵向量,對影片中所有 畫面進行上述過程,最後用滑動視窗(Sliding window)來偵測發生場景變化的切點 [22]。

另外使用邊緣偵測(Edge detection),因具有較不受光源影響和保留人類視覺

上空間結構資訊的優點,[31]使用 Canny edge detector 來找出邊緣圖(Edge map),

並計算前後影像邊緣出現(Entering)及消失(Exiting)的區域,保留其中位移量(Bias) 明顯的部分,做為判斷影像改變的依據;[17]用使用相同的 Edge detector 來找出 邊緣(Edge),接著由連通成分(Connected component)來區分出文字區域的邊緣和 非文字區域的邊緣,之後只採用非文字區域的邊緣,考慮最小邊界矩形(Minimum boundary rectangle)中的密度、面積、質心位置來算相似程度,最後使用 K-means

分出兩群,離散程度較大的視為有發生場景改變。使用此類方法,較適合在背景 色彩幾乎不變與內容差異僅有文字、表格與圖片線條變化的教學影片。

2.1.7 整合及比較多種技術

Fang 等 人 採 用 色 彩 直 方 圖 (Color histogram)(3) 、 動 態 補 償 (Motion compensation)(4)、紋理(Texture)(5)三種特徵,藉由模糊理論(Fuzzy theory)與決策 樹(Decision tree)來找出直接切換的切點,另使用邊緣偵測來決定融解(Dissolve) 特效發生的區間[3]。

256 256 256

1 1 1

1 1 1

1 1 min( , ) min( , ) min( , ) 3

i i i i i i

i rj rj gj gj bj bj

j j j

HI I I I I I I

n

= = =

⎡ ⎤

⎛ ⎞

= − ⎜ ⎝ ⎟ ⎠ ⎣ ⎢ ∑ + ∑ + ∑ ⎥ ⎦

(3)

' ' '

1

1 B ( )

B

N

i n n n n n n

n

MC Y Y U U V V

N

=

=

− + − + − (4)

, , 1

TD 1

i 4 d i d i

d d

Energy Energy

=

(5)

Ngo 等人依序取出固定長度的影像,利用統計的方法,找出屬於投影片區域 的背景(Background)區域,並觀察在排版上的特性,利用規則找出文字區塊,之 後對影像間此兩種區域特徵,計算相似分數,來予以判別影片的切點,另外使用 商業版OCR 軟體,將文字辨識,與原始電子檔投影片做比對(Matching)[28]。

上述方法,有使用多種特徵來找出變化時明顯變化的圖騰,可彼此截長補 短,但在決定有無切點變化時,各特徵的分數權重,卻難以決定,需要以大量的 實驗輔助;而另外偵測文字的方法,在教學影片中,往往只有標題較易辨識成功,

對於相同主題的內容變化,不易處理。

12

相關文件