視訊切割技術探討

第二章文獻探討

2.1 名詞解釋

2.2.1 視訊切割技術探討

2.2.1.1 像素與直方圖的變化

判斷兩畫面間是否有所變化，較簡單的方法則是將兩畫面間同位置的點做比較。其中最簡單的方法則是將相對位置的點做相減動作，並設下適當的門檻值

(Threshold)，最統計出整張畫面之中總共有多少點被判斷為有變化。此方法對於攝影機的震動相當敏感，因此，Zhang 等人中利用濾波器計算帄均值(Averaging

Filter)去進行比較，以求降低震動及雜訊的影響[36]。而 Zhou 等人利用 Red-Green (R-G)的色彩樣本空間，計算出兩畫面間相對位置點之間的 R-G 差值總和，再將此數據製作成直方圖，並設下適當門檻值，且利用滑動視窗(Sliding Window)動態判斷出有變化的候選畫面(Candidate)，最後再進行錯誤判斷偵測(False Positive

Elimination)，來偵測出確切的片段影片切割點[39]。

Sze 等人則提出一套 Temporally Maximum Occurrence Frame (簡稱 TMOF 或是 k-TMOF)方法來擷取出主要畫面(key frame)，TMOF 是將一連串的影片畫面中相對位置點的色彩資訊另做一個直方圖，每個直方圖會設下適當的直方條數量

(Bins)以減少運算時間，在 320 × 240 畫面大小的影片中，一共需要產生出 320 × 240 個色彩直方圖，並取出直方圖中最高的前 k 個值，將其帄均後計算出此點於主要畫面中的色彩[30, 31]。如圖 2.4 所示。

Liaw 等人提出在非交錯 (De-interlacing) 影片下，設定適當的門檻值，去計

算不同畫面間相對位置點的變化量，藉此定義出分別屬於前景及背景的像素，再由這些像素所構成的畫面，來偵測出主要畫面以及切割點[13]。

相對於直接利用畫面中各點資料製作直方圖運算[2, 19]，以適當的方式統計出特徵值而形成直方圖[6, 14]，再由比較直方圖去進行偵測。由於直接採用直方圖而省去了空間資訊，較能減少攝影機因為震動所造成的誤判影響。因為直方圖對於影片中的局部變化敏感度較低，並且可能發生兩張完全不同的畫面，卻因特徵值相似而被判定為無變化。由於直方圖所依賴的是全場景的變動來進行偵測，

而教學影片因為攝影機固定，背景並無改變，因此將教學影片直接採用直方圖方式進行切割效果並不理想。

2.2.1.2 選用特徵值方式 (Feature-base)

特徵值方式意指定義出適當的方法，將影片畫面計算成一序列的數值，再利用此特徵值來進行比較判斷。Lin 等人提出結合語言文字特徵的概念，先將教學影片中的文字內容剖析出來，再利用適當長度的滑動視窗進行比較，計算出各畫

圖 2.4 TMOF 示意圖，本圖取自[30]

面中的文字內容相似程度(Similarity)，並將文字分類成名詞、動詞、副詞等七類，

將此七類型分別產生七條不同的特徵向量(Feature vector)，最終再計算各畫面內文字內容的七條特徵向量的相似程度[15]。Saez 等人則是定義出 Luminance Distance 及 Contour-based Distance，再藉由比較各畫面中的 Distance 值，來選出有變化的畫面所在[25]。Zhang 等人利用 Average Intensity Difference 計算出直方圖，觀察並定義出畫面切換以及閃光(Flash)情況下的直方圖模組，藉此偵測出影片中的畫面變化是場景切換抑或是閃光[37]。Zhao 等人則是將所有的影片畫面對映到一個特徵空間(Feature Space)下，一特徵點代表一個畫面，而藉由已經偵測完畢的主要畫面，將兩個連續主要畫面的特徵點連線，而欲分類的畫面計算其特徵點至主要畫面連線的最短距離(Nearest Feature Line-NFL)，而達到將影片中所有畫面分類並切割的效果[38]。

由於特徵值方式是藉由特定的演算法，來分析影像後所得到的數據，而非直接進行點對點的運算，因此較不容易受到畫面稍許震動的影響；但相對地，特徵值方式可能因為影片經過多次壓縮後的失真，而產生出來的誤差而造成誤判。而整段教學影片中背景變化量較少，因此若單獨採用特徵值方式直接對教學影片運算，則必需更加謹慎地選用特徵值。

2.2.1.3 叢集分類 (Clustering)

叢集分類在資料處理中是屬於相當強健的方法，而在影片分割領域中，也有許多方法搭配叢集分類進行片段影片的偵測，而其中 k-means 在叢集分類處理中

是較常使用的技術。 [3,16]則是將各畫面轉換為統計數據，再將其數據叢集分類；

Chang 先將影片各畫面轉換至矩陣空間(Metric Space)，再對各畫面在此空間下所代表的點，計算點與點之間的 Semi-Hausdorff Distance，最後再依照此距離數據來進行叢集動作[5]。而[9, 10, 41]是利用色彩資訊的差異進行叢集分類。Naphade 先計算出影片中所有畫面間的 HDM (histogram difference metric)和 SDM (spatial

difference metric)，再依照 HDM 及 SDM 之間的關係圖進行叢集分類[18]。

叢集分類方法應用在影片分割中，通常是將影片其中的一個畫面換算為一個值、一個點，再將各點進行叢集，此方法通常比點對點的全畫面比對運算更為迅速，但由於失去了空間資訊，因此對於局部變化的敏感度較差，在某些情況下則會因為數據轉換的緣故，使得時間點相差甚遠的兩畫面，被叢集分類於同一類，

因而產生誤判情況，因此如果要應用在教學影片之中，則需要結合其他方法的幫助，將其誤判情況盡可能地降低。

2.2.1.4 MPEG 編碼下的技術

由於多媒體影片通常容量過大，為了傳輸或處理需求，影片壓縮技術的重要性與日俱增。在大量壓縮影片的環境下，壓縮影片需先將其解壓縮而造成的耗時處理，為了加速運算，因此衍生出利用已壓縮影片所內含技術的偵測方法，其中，

MPEG 壓縮格式仍為現今市面上最為流通的壓縮技術。

MPEG 畫面可細分為許多區塊，而這些區塊則分為內部區塊(Intra-coded Block)、向前推算區塊(Forward-coded Block)、向後推算區塊(Backward-coded

Block)、向前及向後推算區塊(Bi-directionally interpolated Block)，而 MPEG 可再分為 I 畫面(Intra-coded Frame)、P 畫面(Predictive-coded Frame)、B 畫面

(Bidirectionally predictive-coded frame)，其中 I 畫面皆由內部區塊所組成，P 畫面是由內部區塊及向前推算區塊所組成，B 畫面則是由內部區塊、向前推算區塊、

向後推算區塊、向前及向後推算區塊四種區塊所組成。

利用 MPEG 壓縮格式中的離散餘弦轉換 (Discrete Cosine Transform, DCT)

8 × 8 區塊(Block)，再將計算出來的區塊運動向量 (Block Motion Vector)當作特徵值，接著再進行比對判斷是否將影片切割[11, 29, 34]；另外則有利用 MPEG 中

I、P、B 畫面中所內含區塊的特性，以及畫面間的相對關係，來判斷出場景轉換的時間點[17, 21, 28]。

於教學影片中使用 MPEG 壓縮，並利用其壓縮理論的特性，可達到解壓縮影像而取得許多有價值的特徵值，好處是不必耗費時間於解壓縮，因而達到加速運算的效果，並且在壓縮過後，影片檔案容量大幅降低，可節省儲存空間。

2.2.1.5 整合及比較多種技術

Browne等人採用色彩直方圖(Color Histogram)、邊緣偵測(Edge Detection)以及 MPEG中的區塊(Macroblock)變化三種技術分別計算出符合的數據，再利用三種技術的組合而形成一個較高準確率的整合技術[4]。Vinod則是結合了色彩直方圖

(Color Histogram)以及離散餘弦轉換(DCT)兩種技術，引用利用點對點比較的 Histogram Backprojection (BP)技術，以區域為單位進行運算比較的Focused Color

Intersection (FCI)技術，以及利用離散餘弦轉換的Focused DCT matching (FDCT) 三種方式，並提出BP+FDCT及FCI+FDCT兩種組合技術來進行偵測運算[33]。

Gargi 則是比較現有的色彩直方圖及 MPEG 下的所有相關技術。在色彩直方圖下，

有多種的色彩空間(RGB、HSV、LUV 等等)及多種的差值運算方式(Bin-to-Bin

Difference、Chi-square Test Histogram Difference、Histogram Intersection、Average Color)，並比較在不同的色彩空間下，不同差值運算方式的正確率；而在 MPEG 中，則是比較不同的編碼方式對正確率所造成的影響，以及單一或多種利用 I、P、

B 畫面間變化的結果，來比較出何種組合下的正確率更為提升[7]。

在文檔中投影片換頁特效分類之研究:以教學影片為例 (頁 14-19)

第二章 文獻探討

2.1 名詞解釋

2.2.1 視訊切割技術探討

第二章文獻探討