第二章 文獻探討
2.1 名詞解釋
2.2.1 視訊切割技術探討
2.2.1.1 像素與直方圖的變化
判斷兩畫面間是否有所變化,較簡單的方法則是將兩畫面間同位置的點做比 較。其中最簡單的方法則是將相對位置的點做相減動作,並設下適當的門檻值
(Threshold),最統計出整張畫面之中總共有多少點被判斷為有變化。此方法對於 攝影機的震動相當敏感,因此,Zhang 等人中利用濾波器計算帄均值(Averaging
Filter)去進行比較,以求降低震動及雜訊的影響[36]。而 Zhou 等人利用 Red-Green (R-G)的色彩樣本空間,計算出兩畫面間相對位置點之間的 R-G 差值總和,再將 此數據製作成直方圖,並設下適當門檻值,且利用滑動視窗(Sliding Window)動態 判斷出有變化的候選畫面(Candidate),最後再進行錯誤判斷偵測(False Positive
Elimination),來偵測出確切的片段影片切割點[39]。
Sze 等人則提出一套 Temporally Maximum Occurrence Frame (簡稱 TMOF 或 是 k-TMOF)方法來擷取出主要畫面(key frame),TMOF 是將一連串的影片畫面中 相對位置點的色彩資訊另做一個直方圖,每個直方圖會設下適當的直方條數量
(Bins)以減少運算時間,在 320 × 240 畫面大小的影片中,一共需要產生出 320 × 240 個色彩直方圖,並取出直方圖中最高的前 k 個值,將其帄均後計算出此點於 主要畫面中的色彩[30, 31]。如圖 2.4 所示。
Liaw 等人提出在非交錯 (De-interlacing) 影片下,設定適當的門檻值,去計
算不同畫面間相對位置點的變化量,藉此定義出分別屬於前景及背景的像素,再 由這些像素所構成的畫面,來偵測出主要畫面以及切割點[13]。
相對於直接利用畫面中各點資料製作直方圖運算[2, 19],以適當的方式統計 出特徵值而形成直方圖[6, 14],再由比較直方圖去進行偵測。由於直接採用直方 圖而省去了空間資訊,較能減少攝影機因為震動所造成的誤判影響。因為直方圖 對於影片中的局部變化敏感度較低,並且可能發生兩張完全不同的畫面,卻因特 徵值相似而被判定為無變化。由於直方圖所依賴的是全場景的變動來進行偵測,
而教學影片因為攝影機固定,背景並無改變,因此將教學影片直接採用直方圖方 式進行切割效果並不理想。
2.2.1.2 選用特徵值方式 (Feature-base)
特徵值方式意指定義出適當的方法,將影片畫面計算成一序列的數值,再利 用此特徵值來進行比較判斷。Lin 等人提出結合語言文字特徵的概念,先將教學 影片中的文字內容剖析出來,再利用適當長度的滑動視窗進行比較,計算出各畫
圖 2.4 TMOF 示意圖,本圖取自[30]
面中的文字內容相似程度(Similarity),並將文字分類成名詞、動詞、副詞等七類,
將此七類型分別產生七條不同的特徵向量(Feature vector),最終再計算各畫面內文 字內容的七條特徵向量的相似程度[15]。Saez 等人則是定義出 Luminance Distance 及 Contour-based Distance,再藉由比較各畫面中的 Distance 值,來選出有變化的 畫面所在[25]。Zhang 等人利用 Average Intensity Difference 計算出直方圖,觀察 並定義出畫面切換以及閃光(Flash)情況下的直方圖模組,藉此偵測出影片中的畫 面變化是場景切換抑或是閃光[37]。Zhao 等人則是將所有的影片畫面對映到一個 特徵空間(Feature Space)下,一特徵點代表一個畫面,而藉由已經偵測完畢的主要 畫面,將兩個連續主要畫面的特徵點連線,而欲分類的畫面計算其特徵點至主要 畫面連線的最短距離(Nearest Feature Line-NFL),而達到將影片中所有畫面分類並 切割的效果[38]。
由於特徵值方式是藉由特定的演算法,來分析影像後所得到的數據,而非直 接進行點對點的運算,因此較不容易受到畫面稍許震動的影響;但相對地,特徵 值方式可能因為影片經過多次壓縮後的失真,而產生出來的誤差而造成誤判。而 整段教學影片中背景變化量較少,因此若單獨採用特徵值方式直接對教學影片運 算,則必需更加謹慎地選用特徵值。
2.2.1.3 叢集分類 (Clustering)
叢集分類在資料處理中是屬於相當強健的方法,而在影片分割領域中,也有 許多方法搭配叢集分類進行片段影片的偵測,而其中 k-means 在叢集分類處理中
是較常使用的技術。 [3,16]則是將各畫面轉換為統計數據,再將其數據叢集分類;
Chang 先將影片各畫面轉換至矩陣空間(Metric Space),再對各畫面在此空間下所 代表的點,計算點與點之間的 Semi-Hausdorff Distance,最後再依照此距離數據來 進行叢集動作[5]。而[9, 10, 41]是利用色彩資訊的差異進行叢集分類。Naphade 先 計算出影片中所有畫面間的 HDM (histogram difference metric)和 SDM (spatial
difference metric),再依照 HDM 及 SDM 之間的關係圖進行叢集分類[18]。
叢集分類方法應用在影片分割中,通常是將影片其中的一個畫面換算為一個 值、一個點,再將各點進行叢集,此方法通常比點對點的全畫面比對運算更為迅 速,但由於失去了空間資訊,因此對於局部變化的敏感度較差,在某些情況下則 會因為數據轉換的緣故,使得時間點相差甚遠的兩畫面,被叢集分類於同一類,
因而產生誤判情況,因此如果要應用在教學影片之中,則需要結合其他方法的幫 助,將其誤判情況盡可能地降低。
2.2.1.4 MPEG 編碼下的技術
由於多媒體影片通常容量過大,為了傳輸或處理需求,影片壓縮技術的重要 性與日俱增。在大量壓縮影片的環境下,壓縮影片需先將其解壓縮而造成的耗時 處理,為了加速運算,因此衍生出利用已壓縮影片所內含技術的偵測方法,其中,
MPEG 壓縮格式仍為現今市面上最為流通的壓縮技術。
MPEG 畫面可細分為許多區塊,而這些區塊則分為內部區塊(Intra-coded Block)、向前推算區塊(Forward-coded Block)、向後推算區塊(Backward-coded
Block)、向前及向後推算區塊(Bi-directionally interpolated Block),而 MPEG 可再 分為 I 畫面(Intra-coded Frame)、P 畫面(Predictive-coded Frame)、B 畫面
(Bidirectionally predictive-coded frame),其中 I 畫面皆由內部區塊所組成,P 畫面 是由內部區塊及向前推算區塊所組成,B 畫面則是由內部區塊、向前推算區塊、
向後推算區塊、向前及向後推算區塊四種區塊所組成。
利用 MPEG 壓縮格式中的離散餘弦轉換 (Discrete Cosine Transform, DCT)
8 × 8 區塊(Block),再將計算出來的區塊運動向量 (Block Motion Vector)當作特 徵值,接著再進行比對判斷是否將影片切割[11, 29, 34];另外則有利用 MPEG 中
I、P、B 畫面中所內含區塊的特性,以及畫面間的相對關係,來判斷出場景轉換 的時間點[17, 21, 28]。
於教學影片中使用 MPEG 壓縮,並利用其壓縮理論的特性,可達到解壓縮影 像而取得許多有價值的特徵值,好處是不必耗費時間於解壓縮,因而達到加速運 算的效果,並且在壓縮過後,影片檔案容量大幅降低,可節省儲存空間。
2.2.1.5 整合及比較多種技術
Browne等人採用色彩直方圖(Color Histogram)、邊緣偵測(Edge Detection)以及 MPEG中的區塊(Macroblock)變化三種技術分別計算出符合的數據,再利用三種技 術的組合而形成一個較高準確率的整合技術[4]。Vinod則是結合了色彩直方圖
(Color Histogram)以及離散餘弦轉換(DCT)兩種技術,引用利用點對點比較的 Histogram Backprojection (BP)技術,以區域為單位進行運算比較的Focused Color
Intersection (FCI)技術,以及利用離散餘弦轉換的Focused DCT matching (FDCT) 三種方式,並提出BP+FDCT及FCI+FDCT兩種組合技術來進行偵測運算[33]。
Gargi 則是比較現有的色彩直方圖及 MPEG 下的所有相關技術。在色彩直方圖下,
有多種的色彩空間(RGB、HSV、LUV 等等)及多種的差值運算方式(Bin-to-Bin
Difference、Chi-square Test Histogram Difference、Histogram Intersection、Average Color),並比較在不同的色彩空間下,不同差值運算方式的正確率;而在 MPEG 中,則是比較不同的編碼方式對正確率所造成的影響,以及單一或多種利用 I、P、
B 畫面間變化的結果,來比較出何種組合下的正確率更為提升[7]。