投影片換頁特效分類之研究:以教學影片為例

全文

(1)國立臺灣師範大學資訊教育研究所碩士論文. 指導教授：李忠謀教授. 投影片換頁特效分類之研究:以教學影片為例 Detection and Classification of Special Effects within Lecture Slides. 研究生：白恒瑞撰. 中華民國九十七年七月.

(2) 論文摘要投影片換頁特效分類之研究白恒瑞. 由於錄影工具的大眾化，使得人人皆能夠自行錄製影片，而線上教學系統即可利用老師授課時所錄製的影片，置於線上供學生隨時學習甚至複習。但由於一節課影片相當冗長，而學生在複習時也許只對某些上課片段不了解，為了避免觀看特定片段卻需要下載完整影片而浪費許多時間，於是視訊切割的重要性相對地大大增加，但由於教師在製作投影片時，會為了授課時更加地生動活潑，因此投影片中除了靜態的文字和圖片之外，仍有著動態文字特效、動態圖片、動態換頁特效等等效果加入，因此本研究希望提出一個方法，可以判斷出動態換頁特效的存在，並正確地將其分類。本研究可分為兩個主要階段：第一階段為取出有變化的畫面，採用較簡易快速的 pixel difference 演算法，並由灰階及二元化兩方資訊相輔相成，從大量的連續畫面中偵測出含有變化的許多動態變化片段資訊出來。第二階段則是偵測換頁特效，此動態效果在此研究中定義成三種類型，分別是掃瞄線變化類別(SCT)、分散式變化類別(DCT)、位移變化類別(MCT)。SCT 的判斷方式是先求出水平及垂直投影圖，再利用連續畫面中各畫面與首張及結尾畫面之間進行 DPAO 演算法比較求出最小距離，再依照分別對於首張及結尾畫面的距離數據計算其相關性，達到一定程度的負相關者則判斷為 SCT 類別；DCT 則是使用與首張和結尾畫面的灰階圖相減，並計算含有變動的 pixel 數量，再依照相同的相關性計算方式判斷是否為 DCT 類別；MCT 則為不符合前兩項類別則為此類別。最後再經由區塊比對將被判定為 SCT 及 DCT 的資料中再次進行分類，以求更高的分類正確率。本研究以 avi 格式影片作為實驗，將自動偵測出投影片換頁特效的起始點，並將換頁特效分類，實驗結果其偵測準確率可達 96%以上，而分類準確率可達 91%。 i.

(3) 誌謝在此將誌謝獻給每一位在我研究生的生涯中曾給予我鼓勵及批判的人。首先，我要感謝的是李忠謀老師三年來的指導，在研究中給予我高度的發揮空間，並且在討論中提出適當的看法，將我的研究引導到正確的路上。由於老師兼任許多校內要職，因此工作上相當忙碌，但仍然不忘抽出時間聽我們報告研究進度，並且給予適當的指導，因此要對辛勞的老師特別說聲-謝謝您。另外還要感謝口試期間，葉富豪博士以及林育慈博士撥出時間來擔任口試委員，並且在檢閱我的研究及論文時提出許多良好的改善建議，使我的論文能夠更加完善。此外，還要感謝在碩一時期，曾經指導過我的曾元顯老師，雖然對於沒能完成碩一時期的研究主題，但仍然相當地感激曾老師在兩年前給予我的許多指教。而同樣在碩一時期，在師大資訊中心半工半讀的我，同樣受到許多資訊中心同仁的照顧，也特別感謝陳白莉組長總是體諒我在研究上的壓力，讓我時常為了研究而延宕資料中心的份內工作。接著要感謝的則是實驗室中的好夥伴們，學長姐在電腦視覺領域上概念的引導，以及報告時的指正，還有在我遇到問題時不厭煩地給予我建議；感謝同學彥呈及威至，與我在課程及研究中互相切磋討論，也感謝與我同時期口試的學妹謹萍，許多口試的細節以及研究的甘苦能夠相互分享；最後則是感謝學弟妹們幫忙準備口試的相關事宜，並接手實驗室中各項的雜務，使我們能夠專心的準備論文及口試。最後，我由衷地感謝我的家人，特別是我的父母，儘管我未能順利地在兩年內完成碩士學位，但你們仍然給予我心靈及經濟上無條件的支持，因為你們的鼓勵，我才能再度打起精神來完成碩士論文的研究，在此謹將這本論文獻給摯愛的父母。三年來的碩士生活隨著論文及口試的完成而落幕，一路走來雖然幾經波折，但受到許多人的鼓勵，最終仍然順利地完成。這三年來讓我體會、學習到許多事情，也了解到自己仍有相當大的發展空間能夠加強，因此期許自己在未來能夠不斷的成長。 ii.

(4) 目錄附表目錄................................................................................................................v 附圖目錄...............................................................................................................vi 第一章. 緒論......................................................................................................1. 1.1. 研究動機............................................................................................1. 1.2. 研究目的............................................................................................2. 1.3. 研究範圍及限制................................................................................3. 1.4. 論文架構............................................................................................3. 第二章 2.1. 2.2. 文獻探討..............................................................................................4 名詞解釋............................................................................................4 2.1.1. 教學影片................................................................................4. 2.1.2. 階層式影片............................................................................5. 2.1.3. 換頁片段畫面........................................................................6. 文獻探討............................................................................................7 2.2.1. 2.3 第三章. 視訊切割技術探討................................................................7. 2.2.1.1. 像素與直方圖的變化................................................7. 2.2.1.2. 選用特徵值的方式....................................................8. 2.2.1.3. 叢集分類....................................................................9. 2.2.1.4. MPEG 編碼下的技術..............................................10. 2.2.1.5. 整合及比較多種技術..............................................11. 2.2.2. 文字投影比對技術..............................................................12. 2.2.3. 教學影片處理相關..............................................................13. 定義換頁特效類別..........................................................................13 偵測及分類方法................................................................................15. 3.1. 研究目標..........................................................................................15. 3.2. 系統流程..........................................................................................17. 3.3. 偵測變動畫面..................................................................................19 iii.

(5) 3.4. 3.5 第四章. 換頁特效的分類..............................................................................20 3.4.1. 動態規劃最佳演算法..................................................20. 3.4.2. 灰階點對點相減比對..................................................23. 3.4.3. 區塊比對......................................................................24. 門檻值討論......................................................................................26 實驗結果及討論................................................................................28. 4.1. 實驗影片來源..................................................................................28. 4.2. 實驗結果..........................................................................................29. 第五章. 4.2.1. 動態換頁效果所在位置之偵測結果..................................29. 4.2.2. 動態換頁效果之分類結果..................................................30. 結論及未來研究................................................................................36. 5.1. 結論..................................................................................................36. 5.2. 未來研究..........................................................................................37. 參考文獻..............................................................................................................38. iv.

(6) 附表目錄表 3.1. 實驗時所用的各個門檻值數據..........................................................27. 表 4.1. 投影片簡報及內含投影片張數..........................................................29. 表 4.2. 動態換頁效果所在位置之偵測正確率..............................................30. 表 4.3. 特效分類結果......................................................................................31. 表 4.4. 整體分類結果......................................................................................33. v.

(7) 附圖目錄圖 1.1. 教學影片片段分割說明........................................................................2. 圖 2.1. 階層式影片示意圖................................................................................5. 圖 2.2. 靜態瞬間轉換........................................................................................6. 圖 2.3. 動態逐漸轉換........................................................................................6. 圖 2.4. TMOF 示意圖[30] ...............................................................................8. 圖 3.1. DPAO 分類樹......................................................................................16. 圖 3.2. 基礎分類處理流程..............................................................................16. 圖 3.3. 系統流程圖..........................................................................................17. 圖 3.4. DPAO 演算法匹對之簽名比對投影圖[32]......................................21. 圖 3.5. DPAO 投影圖比對示意圖[32]..........................................................22. 圖 3.6. 區塊比對過濾影像資訊......................................................................25. 圖 3.7. 完整分類處理流程圖..........................................................................26. 圖 4.1. 教學影片片段分割說明......................................................................32. 圖 4.2. DCT 特效中僅少量區塊變動示意圖.................................................33. 圖 4.3. 插入(向右)特效的變動情況..............................................................34. 圖 4.4. 流紋(橫向)特效的變動情況..............................................................34. vi.

(8) 第一章. 緒論. 1.1 研究動機由於電腦科技躍進式地發展，使得多媒體科技應孕而生。多媒體(Multimedia) 泛指聲音及影像，而影像又可區分為靜態及動態的，如圖片及影片。這些多媒體資料現今已被廣泛地運用在各個領域，尤其是在網際網路上發展出許多便利的系統，如視訊會議(Video Conference)能讓工作者省去舟車勞苦、網路電話(Internet Phone)能使得分隔兩地的親友免費地暢所欲談、數位資料典藏(Digital Archive)可以永保藝術作品不壞等。而由於對多媒體資料的使用及要求與日俱增，因此在壓縮技術上不斷地改良，許多高畫質低容量的壓縮技術隨之發展出來，讓多媒體資料的發展及傳播更加迅速，也因此，視訊切割(Segmentation)、搜尋(Querying)、索引(Index)各種方便使用者的管理技術更成為近年來的熱門研究。由於錄影工具的大眾化，使得人人皆能夠自行錄製影片，再加上網際網路的風行，串流視訊(Video Streaming)的即時觀看技術也成為當紅應用。舉例來說，線上教學(Online Learning)系統即可以利用老師授課時所錄製的影片，置於線上供學生隨時學習甚至複習。但是由於一節課影片一般來說都相當地冗長，而學生在複習時也許只對某些片段不了解，為了避免觀看特定片段卻需要下載完整影片而浪費許多時間，於是視訊切割的重要性相對地大大增加，但由於教師在製作投影片時，會為了授課時更加地生動活潑，因而投影片中有著動態文字特效、動態圖片、動態換頁效果等等特效加入，因此本研究針對含有動態換頁效果的投影片，提出. 1.

(9) 一套偵測與分類特效的完整流程，可以判斷出動態換頁效果的存在，並正確地將特效分類出來，以求達到了解影片內容中的特效資訊。. 1.2 研究目的本研究目的為分析含有動態換頁效果之投影片的教學影片，正確地偵測出動態換頁效果所在位置，並依照特效的不同特色，定義出多種特效種類，再針對不同的特效種類進行不同的演算法，將特效分類出來。本研究以片段變化偵測(Shot Change Detection)方法，來找出整個影片中有所變化的影片畫面(Frame)，如圖 1.1 所示。並將已被偵測出有變化的連續影片畫面，來進行動態換頁效果分類。. 動態換頁效果. 靜態換頁效果. Gradual Shot Change. Shot Cut. 片段影片 Shot 1. 片段影片 Shot 2 時間軸圖 1.1 教學影片片段分割說明. 2. 片段影片 Shot 3.

(10) 1.3 研究範圍及限制本研究所針對教學影片為相當普遍的 AVI 格式，並利用 OpenCV[1]所提供的常用數媒函式將影片擷取成許多單張連續畫面(Frame)，再進行一連串的偵測而找出所該切割的所在畫面，最終再將冗長的教學影片切割成許多片段影片。而本研究的教學影片環境及限制如下： (1). 教學影片是在普通教室中，教師利用單槍投影機投影教學投影片於布幕上錄製而成，其畫面中投影片占超過 80%。. (2). 本研究限制使用 Microsoft Office2003 中所提供下列的動態換頁效果：溶解、插入、抽出、放射、收縮、單一輻射線、擦拭、流紋。上述特效具有明顯可辨識的特性(如全景分散式變化、局部掃瞄線變化等)，不似混合式特效難以明確分類；而其他諸如棋盤、百頁窗等特效同時具有全景分散式變化及局部掃瞄線變化混合的特色則不在本研究範圍。. (3). 每頁投影片內容皆不為空白。. (4). 每張投影片內容的解說時間皆不低於一秒。. 1.4 論文架構本論文共分五章，第二章為定義本研究中的重要名詞及文獻探討，第三章為流程圖及特效的偵測與分類演算法，第四章討論實驗結果及錯誤原因，第五章為結論及未來研究發展。. 3.

(11) 第二章. 文獻探討. 名詞解釋. 2.1. 教學影片. 2.1.1. 教學影片指的是在室內環境之下，教師利用投影機將一連串事先製作好的投影片按照順序投影在布幕之上所進行的教學，而教學影片與一般影片不同之處有： (1) 背景多為靜態背景：教學授課所錄製的教學影片多為室內的、單純的、靜態的背景，有別於室外的、複雜的、動態的背景，只有少數情況如教師或學生經過畫面時背景才有短時間的變化。 (2) 攝影機及畫面固定：由於投影布幕位置固定，所以教學前將攝影機架設完畢後則不需要攝影師操作，並不會再移動或拉近(Zoom in)、拉遠(Zoom out)，有別於一般影片中有攝影師掌鏡，影片畫面因為情境需要會有所變化。 (3) 投影片占畫面大部份：有別於一般影片中的主要物件是人，教學影片中的主角則是投影片，整個教學過程中投影片的位置不會變動；相反地，人在影片中出現及移動時則必需將其忽略。. 4.

(12) 階層式影片. 2.1.2. 影片就像是一個階層式的管理架構一般，由許多的靜態畫面(Frames)組成一個片段影片(Shot)，由幾個片段影片組成一個場景(Scene)，再由所有的場景組成整個完整的影片。場景在定義上的意義是有相似的場合及事件的集合，不同場景之間則有相當大的差異；而片段則是在同一個場景中，有許多個相似事件可分割而成單一片段。舉例來說，在體育課之中，投籃測驗及百米跑步測驗各為一個場景，其中每一位同學上場的內容則為一個片段，而此堂體育課則是由投籃測驗和百米跑步所組成的一個完整的影片。本研究由於實際上課教學影片多為固定背景，因此可視為整段影片只有單一場景，但每一頁投影片則視為不同的片段。如圖 2.1 所示。. 教學影片. 場景 1. 片段 1. 片段 2. 場景 2 片段 3. 圖 2.1 階層式影片示意圖. 5.

(13) 換頁片段畫面. 2.1.3. 由於教學影片只有單一場景，主要的分別則在於各張投影片的不同，因此可將每張投影片時的授課內容視為一個片段影片，其中，每個片段中的靜態畫面差異不大，而由於常有教師為了授課更加生動，因此會加入許多動態效果。因此在兩個片段影片之間的轉換，可分為靜態的瞬間切換(Abrupt Shot Change)或者是動態的逐漸轉換(Gradual Shot Change)效果。如圖 2.2-2.3 所示。. (a). (b). (c). (d). 圖 2.2 靜態瞬間轉換圖(a)至圖(d)為四張連續畫面，其中圖(b)及圖(c)兩畫面之間發生靜態瞬間轉換。. (a). (b). (c). (d). (e). (f). (g). (h). (i) 圖 2.3 動態逐漸轉換圖(a)至圖(i)為九張連續畫面，顯示出動態逐漸轉換的變化過程。. 6.

(14) 2.2. 文獻探討. 2.2.1. 視訊切割技術探討. 2.2.1.1. 像素與直方圖的變化. 判斷兩畫面間是否有所變化，較簡單的方法則是將兩畫面間同位置的點做比較。其中最簡單的方法則是將相對位置的點做相減動作，並設下適當的門檻值 (Threshold)，最統計出整張畫面之中總共有多少點被判斷為有變化。此方法對於攝影機的震動相當敏感，因此，Zhang 等人中利用濾波器計算帄均值(Averaging Filter)去進行比較，以求降低震動及雜訊的影響[36]。而 Zhou 等人利用 Red-Green (R-G)的色彩樣本空間，計算出兩畫面間相對位置點之間的 R-G 差值總和，再將此數據製作成直方圖，並設下適當門檻值，且利用滑動視窗(Sliding Window)動態判斷出有變化的候選畫面(Candidate)，最後再進行錯誤判斷偵測(False Positive Elimination)，來偵測出確切的片段影片切割點[39]。 Sze 等人則提出一套 Temporally Maximum Occurrence Frame (簡稱 TMOF 或是 k-TMOF)方法來擷取出主要畫面(key frame)，TMOF 是將一連串的影片畫面中相對位置點的色彩資訊另做一個直方圖，每個直方圖會設下適當的直方條數量 (Bins)以減少運算時間，在 320 × 240 畫面大小的影片中，一共需要產生出 320 × 240 個色彩直方圖，並取出直方圖中最高的前 k 個值，將其帄均後計算出此點於主要畫面中的色彩[30, 31]。如圖 2.4 所示。 Liaw 等人提出在非交錯 (De-interlacing) 影片下，設定適當的門檻值，去計. 7.

(15) 算不同畫面間相對位置點的變化量，藉此定義出分別屬於前景及背景的像素，再由這些像素所構成的畫面，來偵測出主要畫面以及切割點[13]。相對於直接利用畫面中各點資料製作直方圖運算[2, 19]，以適當的方式統計出特徵值而形成直方圖[6, 14]，再由比較直方圖去進行偵測。由於直接採用直方圖而省去了空間資訊，較能減少攝影機因為震動所造成的誤判影響。因為直方圖對於影片中的局部變化敏感度較低，並且可能發生兩張完全不同的畫面，卻因特徵值相似而被判定為無變化。由於直方圖所依賴的是全場景的變動來進行偵測，而教學影片因為攝影機固定，背景並無改變，因此將教學影片直接採用直方圖方式進行切割效果並不理想。. 圖 2.4 TMOF 示意圖，本圖取自[30]. 2.2.1.2. 選用特徵值方式 (Feature-base). 特徵值方式意指定義出適當的方法，將影片畫面計算成一序列的數值，再利用此特徵值來進行比較判斷。Lin 等人提出結合語言文字特徵的概念，先將教學影片中的文字內容剖析出來，再利用適當長度的滑動視窗進行比較，計算出各畫. 8.

(16) 面中的文字內容相似程度(Similarity)，並將文字分類成名詞、動詞、副詞等七類，將此七類型分別產生七條不同的特徵向量(Feature vector)，最終再計算各畫面內文字內容的七條特徵向量的相似程度[15]。Saez 等人則是定義出 Luminance Distance 及 Contour-based Distance，再藉由比較各畫面中的 Distance 值，來選出有變化的畫面所在[25]。Zhang 等人利用 Average Intensity Difference 計算出直方圖，觀察並定義出畫面切換以及閃光(Flash)情況下的直方圖模組，藉此偵測出影片中的畫面變化是場景切換抑或是閃光[37]。Zhao 等人則是將所有的影片畫面對映到一個特徵空間(Feature Space)下，一特徵點代表一個畫面，而藉由已經偵測完畢的主要畫面，將兩個連續主要畫面的特徵點連線，而欲分類的畫面計算其特徵點至主要畫面連線的最短距離(Nearest Feature Line-NFL)，而達到將影片中所有畫面分類並切割的效果[38]。由於特徵值方式是藉由特定的演算法，來分析影像後所得到的數據，而非直接進行點對點的運算，因此較不容易受到畫面稍許震動的影響；但相對地，特徵值方式可能因為影片經過多次壓縮後的失真，而產生出來的誤差而造成誤判。而整段教學影片中背景變化量較少，因此若單獨採用特徵值方式直接對教學影片運算，則必需更加謹慎地選用特徵值。 2.2.1.3. 叢集分類 (Clustering). 叢集分類在資料處理中是屬於相當強健的方法，而在影片分割領域中，也有許多方法搭配叢集分類進行片段影片的偵測，而其中 k-means 在叢集分類處理中. 9.

(17) 是較常使用的技術。 [3,16]則是將各畫面轉換為統計數據，再將其數據叢集分類； Chang 先將影片各畫面轉換至矩陣空間(Metric Space)，再對各畫面在此空間下所代表的點，計算點與點之間的 Semi-Hausdorff Distance，最後再依照此距離數據來進行叢集動作[5]。而[9, 10, 41]是利用色彩資訊的差異進行叢集分類。Naphade 先計算出影片中所有畫面間的 HDM (histogram difference metric)和 SDM (spatial difference metric)，再依照 HDM 及 SDM 之間的關係圖進行叢集分類[18]。叢集分類方法應用在影片分割中，通常是將影片其中的一個畫面換算為一個值、一個點，再將各點進行叢集，此方法通常比點對點的全畫面比對運算更為迅速，但由於失去了空間資訊，因此對於局部變化的敏感度較差，在某些情況下則會因為數據轉換的緣故，使得時間點相差甚遠的兩畫面，被叢集分類於同一類，因而產生誤判情況，因此如果要應用在教學影片之中，則需要結合其他方法的幫助，將其誤判情況盡可能地降低。 2.2.1.4. MPEG 編碼下的技術. 由於多媒體影片通常容量過大，為了傳輸或處理需求，影片壓縮技術的重要性與日俱增。在大量壓縮影片的環境下，壓縮影片需先將其解壓縮而造成的耗時處理，為了加速運算，因此衍生出利用已壓縮影片所內含技術的偵測方法，其中， MPEG 壓縮格式仍為現今市面上最為流通的壓縮技術。 MPEG 畫面可細分為許多區塊，而這些區塊則分為內部區塊(Intra-coded Block)、向前推算區塊(Forward-coded Block)、向後推算區塊(Backward-coded. 10.

(18) Block)、向前及向後推算區塊(Bi-directionally interpolated Block)，而 MPEG 可再分為 I 畫面(Intra-coded Frame)、P 畫面(Predictive-coded Frame)、B 畫面 (Bidirectionally predictive-coded frame)，其中 I 畫面皆由內部區塊所組成，P 畫面是由內部區塊及向前推算區塊所組成，B 畫面則是由內部區塊、向前推算區塊、向後推算區塊、向前及向後推算區塊四種區塊所組成。利用 MPEG 壓縮格式中的離散餘弦轉換 (Discrete Cosine Transform, DCT) 8 × 8 區塊(Block)，再將計算出來的區塊運動向量 (Block Motion Vector)當作特徵值，接著再進行比對判斷是否將影片切割[11, 29, 34]；另外則有利用 MPEG 中 I、P、B 畫面中所內含區塊的特性，以及畫面間的相對關係，來判斷出場景轉換的時間點[17, 21, 28]。於教學影片中使用 MPEG 壓縮，並利用其壓縮理論的特性，可達到解壓縮影像而取得許多有價值的特徵值，好處是不必耗費時間於解壓縮，因而達到加速運算的效果，並且在壓縮過後，影片檔案容量大幅降低，可節省儲存空間。 2.2.1.5. 整合及比較多種技術. Browne等人採用色彩直方圖(Color Histogram)、邊緣偵測(Edge Detection)以及 MPEG中的區塊(Macroblock)變化三種技術分別計算出符合的數據，再利用三種技術的組合而形成一個較高準確率的整合技術[4]。Vinod則是結合了色彩直方圖 (Color Histogram)以及離散餘弦轉換(DCT)兩種技術，引用利用點對點比較的 Histogram Backprojection (BP)技術，以區域為單位進行運算比較的Focused Color. 11.

(19) Intersection (FCI)技術，以及利用離散餘弦轉換的Focused DCT matching (FDCT) 三種方式，並提出BP+FDCT及FCI+FDCT兩種組合技術來進行偵測運算[33]。 Gargi 則是比較現有的色彩直方圖及 MPEG 下的所有相關技術。在色彩直方圖下，有多種的色彩空間(RGB、HSV、LUV 等等)及多種的差值運算方式(Bin-to-Bin Difference、Chi-square Test Histogram Difference、Histogram Intersection、Average Color)，並比較在不同的色彩空間下，不同差值運算方式的正確率；而在 MPEG 中，則是比較不同的編碼方式對正確率所造成的影響，以及單一或多種利用 I、P、 B 畫面間變化的結果，來比較出何種組合下的正確率更為提升[7]。文字投影比對技術. 2.2.2. 由於文字對於資訊傳遞的重要性，為了快速辨別出兩段文字之間的差異，或者是代表身份的簽名是否經過偽造，因此文字比對一直是個重要的研究問題，常見的文字比對技術為 Projection Profile (PP)，該技術將黑白畫面中的文字投影 Vertical Projection Profile(VPP)或是 Horizontal Projection Profile (HPP)，再利用比對兩張黑白畫面所形成的 VPP 及 HPP，來辨識出是否內容一樣。將 PP 應用在文字比對上，先將 HPP 或 VPP 計算出來，再藉由 HPP 及 VPP 中的資訊，定義出適合的特徵值選取方式，來比對文字內容的差異[22, 24, 32, 40]。Gatos[8]實作並比較 PP 及 RLSA (Run Length Smoothing Algorithm)兩方法在圖文交錯的文件下的執行效率及正確性；Khedekar[12]則是利用文章的斷行特性，將文件投影至 HPP，由於純文字部份會有規律的變化，因此在 HPP 之中可藉由不規律變化的區塊，找. 12.

(20) 出圖片所在的水帄位置；Sawaki[26]則是應用在黑白文件中擁有複雜背景下的文字偵測，首先將 HPP 計算出來，接著再依照每條水帄線中黑白之間的變化量，因此可以將極少量變化，意即全黑或全白背景資訊過濾，再經過雜訊處理，可求得文字偵測的結果。教學影片處理相關. 2.2.3. 以上文獻的方法，都不是針對教學影片情況下進行處理的，因此許多情況下，有些技術雖然使用在教學影片中偵測出畫面變化，但卻可能是背景中的物件移動，而非教學影片中的主角—投影片，因此，針對教學影片所進行的偵測方法則必需有所調整。Repp[23]提出先利用語音辨識軟體，將教學影片內容轉換為文字之後，再利用IT-Thesaurus clustering Algorithm及文字檢索中的Phrasing兩種方法進行叢集動作，最後將依照叢集結果進行教學影片的切割。在Yokoi[35]的研究中，影片分割的依據來源有兩個，教師手寫偵測 (Chalkboard Writing Detection, CWD)及語音偵測 (Voice Activity Detection, VAD)，CWD所使用的方法則是利用點對點的差值，計算出物體(在此通常指教師)所在，再藉由物體的變動資訊進行切割，最後再將CWD及VAD語音中的變化資訊進行比較，才真正切割出各段的片段影片。. 2.3. 定義換頁特效類別本研究限定下列換頁特效：溶解、擦拭、放射、收縮、單一輻射線、插入、. 抽出、流紋，其中特效僅溶解及單一輻射線無不同之方向性，其他皆有如上、下、. 13.

(21) 左、右，抑或是上下、左右之不同，在本研究中各種不同方向性之特效變化皆有採用。經由觀察得之，換頁特效可先分為位移以及非位移的，如插入特效是藉由下一張投影片逐漸從外位移進來蓋過前一張投影片，因此可視為位移特效；而擦拭特效則是前後兩張投影片所在位置相同，但是由一條掃瞄線逐漸取代過去，因此視為非位移特效。接著，由於非位移特效又可分為掃瞄線變化及分散式變化，如溶解特效是在整張投影片中，隨機的位置逐漸改變，無法預測下一張畫面會有哪些像素改變；而擦拭特效如上面所說，有一條掃瞄線逐漸取代，因此有可預測改變像素所在的特性。藉由上述的觀察，本研究將特效分為三種類別： 1.. 掃瞄線變化類別(Scanning Change Type，SCT)：如掃瞄線般逐漸取代前一張投影片的變化，如擦拭、放射、收縮、單一輻射線等特效。. 2.. 分散式變化類別(Dispersal Change Type，DCT)：隨機般地於影像中任何像素分散式地進行改變，如溶解特效。. 3.. 位移變化類別(Moving Change Type，MCT)：兩相鄰投影片中，其中一張或者兩張投影片以位移方式進行換頁特效，如插入、抽出、流紋等特效。. 14.

(22) 第三章偵測及分類方法本章共分為 4 個小節，3.1 節說明本研究之研究目標，3.2 節為本研究系統流程，3.3 節為偵測畫面變化的方法，3.4 節敘述依照特效分類類別的不同，所採用的不同演算法，3.5 節則討論研究中定義的門檻值。. 研究目標. 3.1. 使用壓縮格式的影片進行處理. 1.. 由於現今的壓縮技術越發成熟，所以由數位攝影機所錄製下來的影片有許多都已經是壓縮過的影片格式，而 AVI 為現今常見的壓縮格式。本研究將處理 AVI 壓縮格式的教學影片，並擷取出影片中所有的畫面資訊來進行處理。 2.. 找出教學影片中有變化的連續畫面教學影片背景固定，並不如一般影片是隨著場景需要而變化；教學影片. 的主角是投影片，與一般影片的主角是人並不相同，因此在第 2.2 節中文獻所提出的片段畫面變化偵測方法並不完全適用於教學影片，故本研究需要依照教學影片的特性來調整偵測的方法，方能適用於教學影片的處理。 3.. 將有變化的連續畫面進行分類因為換頁特效的特性不同，因此需要將其進行分類，並依照各類別的特. 性採用不同的演算法進行判斷處理。首先，本研究採用 Dynamic Programming Algorithm Optimization (DPAO，詳細請見 3.4.1) 演算法，希望藉由 DPAO. 15.

(23) 演算法偵測出屬於 SCT 類別的換頁特效(如圖 3.1 所示)；. 圖 3.1 DPAO 分類樹接著，提出灰階相減的演算法，將不屬於 SCT 類別的換頁特效再次分類為屬於 DCT 類別，及不屬於 DCT 類別(即為 MCT 類別)，所形成的基礎分類樹則如圖 3.2 所示。由於不屬於 MCT 類別的 SCT 及 DCT 類別皆是非位移性的換頁特效，而灰階相減的演算法會將所有非位移性的換頁特效判定為 DCT，因此必需先經由 DPAO 演算法分類後，再經由灰階相減演算法分類，並不可交換其次序。. 圖 3.2 基礎分類處理流程 16.

(24) 3.2. 系統流程圖 3.3 為本研究的系統流程圖，主要分為取出有變化的畫面及分類換頁特效. 兩步驟。. 輸入影片. 擷取影像畫面. 二元化畫面點對點相減. 灰階畫面點對點相減. 判斷兩連續畫面之間是否有變化. No. Yes Step 1 取出有變化的連續畫面. 將連續發生變動的畫面合併為連續畫面資訊. Step 2 分類換頁特效. 進行DPAO演算法判斷是否屬於SCT類別. No. Yes Yes 區塊比對演算法. 進行GLPD演算法判斷是否屬於DCT類別. No. 區塊比對演算法. 高變化低變化. 中變化. SCT. DCT. 圖3.3 系統流程圖. 17. MCT.

(25) 步驟一為取出有變化的畫面，由於一個教學影片是由非常大量的畫面所組成，而其中在教學過程中有相當大量的近似靜態畫面，因此為了減少樣本數量，而需進行一連串的處理動作。首先，因為教學影片中的投影片畫面較為單純，色彩變化極少，因此為了加速運算，而將所有的畫面進行灰階化。由於影片於錄製時，不能保證室內的光線亮度皆無變化，因此為了減少亮度的影響，而將所有畫面(已灰階化)進行正規化動作。定義灰階值相減門檻值 T1，Pixel 灰階值差大於 T1 則此點視為有變化，接著統計畫面中有變化的總點數；同時將灰階圖進行 Otsu[20] 演算法取得二元化門檻值進行二元化，並將每兩張臨近畫面進行相減動作，再經過 Close(先 Erode 再 Dilate)去除雜訊的運算，最後統計二元化相減畫面中的總點數，再分別為灰階值差及二元化圖差設下不同的門檻值 T2 及 T3，捨去無用的未變化畫面，並取出被判定為有所變化的畫面後，將連續變動畫面的所在位置資訊送入步驟二進行處理。步驟二為偵測換頁類型，首先將連續畫面以投影圖(Projection Profile)的方式，進行 DPAO 演算法來判斷是否屬於掃瞄線變化類別(SCT)，不屬於掃瞄線變化類型的動態連續畫面則以 Gray Level Pixel Difference 計算，判斷其中變化是否符合分散式變化類別(DCT)，不屬於分散式變化類別則歸入位移變化類別(MCT)，而在 SCT 及 DCT 類別中再加以進行區塊比對演算法，修正誤判成 SCT 或 DCT 類別的換頁特效。. 18.

(26) 3.3. 偵測變動畫面有別於一般偵測靜態的畫面瞬間切換，僅需每隔多張畫面進行偵測；本研究. 則需偵測一連串的動態換頁變化，不能略過任何一張畫面資訊，在處理上更為耗時，因此本研究採用較為簡易的 Pixel Difference 演算法為主要偵測方法。本研究採用同步進行灰階圖及二元化圖的偵測來判斷畫面是否變化。灰階圖變動偵測採用[36]中 Zhang 等人所採用的 Gray Level Pixel Difference 方法，並加入適當的灰階變化門檻值 T1，並統計兩臨近畫面間有變動的總點數(如式 3.1-3.2)，其中 N 為總畫面張數，W 為畫面寬度，H 為畫面高度，AGk 表示第 k 張畫面的灰階化之影像，x、y 則為畫面中的座標位置，ADGk (x, y)則表示第 k 張灰階畫面與第 k+1 張灰階畫面的(x,y)座標點判定為是否有變化，而DGk (k)則表示第 k 張灰階畫面與第 k+1 張灰階畫面間被判定為變化的總點數，座標參數 x 介於 1 至 W 之間，座標參數 y 介於 1 至 H 之間，畫面編號參數 k 則介於 1 至(N-1)之間。 ADGk x, y = DG k =. H y=1. 1, if |AGk x, y − AGk+1 x, y | > 𝑇1 0, otherwise W x=1 ADGk (x, y) ,. k = 1 … (N − 1). (式 3.1) (式 3.2). 灰階圖轉換成二元化圖的二元化門檻值採用 Otsu 演算法[20]，利用 Otsu 演算法找出的最佳門檻值 T，能將影像畫面分為黑白兩叢集，兩叢集之間的差異會最大。進行二元化處理後，再將每兩臨近畫面進行相減(式 3.3)，並進行 Close 運算(先 Erode 再 Dilate)去除雜訊(式 3.4)，最後再統計兩張二元化畫面間的差異值(式 3.5)。其中ABk 表示第 k 張畫面的二元化之影像， ADBk (x, y)則表示第 k. 19.

(27) 張二元化畫面與第 k+1 張二元化畫面的(x,y)座標點是否有變化，ADBk ′ 代表經過 close 的去雜訊運算後的第 k 張與第 k+1 張的二元化差值影像，而DB k 則表示第 k 張二元化畫面與第 k+1 張二元化畫面間被判定為變化的總點數，座標參數 x 介於 1 至 W 之間，座標參數 y 介於 1 至 H 之間，畫面編號參數 k 則介於 1 至(N-1) 之間。 ADBk x, y = |ABk x, y − ABk+1 x, y |. (式 3.3). ADBk ′ = Dilate Erode ADBk. (式 3.4). DB k =. H y=1. ′ W x=1 ADBk (x, y). (式 3.5). 在找出兩臨近畫面間灰階圖及二元圖的差異值後，分別為其定義門檻值 T2 及 T3，當符合DG k > T2 or DB k > T3 條件下，則視此第 k 張及 k+1 張畫面間為有變化。由於本研究著重於動態的換頁特效偵測，有別於一般的靜態瞬間切換，因此需要找出連續符合有變化之畫面的畫面串。藉由觀察得之，僅管是靜態瞬間切換，在錄影壓縮下仍有 1 至 2 張畫面的連續變動，因此定義動態換頁特效為最少連續 3 張畫面符合變化條件，並找出整個教學影片中所有符合此條件的畫面串資訊。. 3.4. 換頁特效的分類. 3.4.1 動態規劃最佳演算法在二元化影像中，將影像轉換為投影圖再加以比對是個廣為使用的方法，而. 20.

(28) 在教學影片錄製時，可能因為外力的發生(如風吹布幕、攝影機或投影機震動等)，造成前後兩張影像內容是相同的投影片，但所在影像中的位置卻有稍許差異，僅管相差極微小，倘若直接使用未調整過的投影圖進行比對，將會發生巨大的差異結果，因此，本研究採用 Tian[32]中所提出的投影圖之動態規劃最佳演算法 (Dynamic Programming Algorithm Optimization)，簡稱 DPAO，該研究將 DPAO 應用在簽名比對上(如圖 3.4 所示)，利用 DPAO 將投影圖進行最佳動態規劃調整後，可求出兩投影圖之間最小距離，稱之為動態規劃距離(Dynamic Programming Distance，DPD)。. (a)DPAO 匹對前. (b)DPAO 匹對後. 圖 3.4 DPAO 演算法匹對之簽名比對投影圖圖中藍線及綠線為兩個不同的簽名投影圖，圖(a)直接將投影圖依照相同座標位置進行比較，圖(b)則是經由 DPAO 匹對後，兩投影圖可以調整到最佳的位置來進行比較。本圖取自[32]。. DPAO 中，定義兩投影圖 R=r1 ,r2 ,…,rL 1 ，V=v1 , v2 ,…,vL 2 ，兩投影圖之間的距離為D R, V ，在本研究中稱之為 Dynamic Programming Distance(DPD)，g ik , jk 表示第 1 至 k 點累積的兩投影圖之間的最小距離，d ik , jk 表示在第 k 點時分別所映對到投影圖 R 及 V 中的向量差距值，即為第 k 點時將增加的距離；d ik , jk 的係數. 21.

(29) 則由行進路徑來決定，路徑採用無限制同一方向次數的動態方程式，由向右、向上、右上三個方向所組成，其中向右及向上路徑的距離係數為 1，右上路徑的距離係數為 2(式 3.7)，因此當計算至兩投影圖的終點(L1,L2)時，將g(iL 1 , jL 2 )值除以總和加權參數 L1+L2 則為所求的最小距離D R, V ，DPAO 的投影圖比對如圖 3.5 所示。 D R, V =. g ik , j k. g(i L 1 ,j L 2 ). (式 3.6). L 1 +L 2. g ik , j k − 1 + d(ik , jk ) = min g ik − 1, jk − 1 + 2d(ik , jk ) g ik − 1, jk + d(ik , jk ). (式 3.7). 圖 3.5 DPAO 投影圖比對示意圖。本圖取自 [32]。. 由於動態換頁特效的不同方向性(上、下、左、右)，因此本研究將影像分為垂直投影圖(Vertical Projection Profile, VPP)及水帄投影圖(Horizontal Projection Profile, HPP)分別進行處理，並且將連續變動畫面間的各張影像與 22.

(30) 首張及尾張影像分別進行 HPP 及 VPP 的 DPD 計算，因此會產生出 4 組距離數據 HPP-DPDS、HPP-DPDE、VPP-DPDS、VPP-DPDE(S 代表首張影像，E 代表尾張影像)，另因投影片的掃瞄線逐漸變化，會滿足於距離首張影像越近的越相似(DPDS 越小) 並與尾張影像差異越大(DPDE 越大)；反之距離首張影像越遠的越不相似(DPDS 越大) 並與尾張影像差異越小(DPDE 越小)。所以推知 HPP-DPDS 與 HPP-DPDE 或是 VPP-DPDS 與 VPP-DPDE 其中一組會形成負相關趨勢，因此，將 HPP-DPDS、HPP-DPDE 以及 VPP-DPDS、VPP-DPDE 兩組共四串數據帶入統計學相關係數函式，其中 N 為總資料筆數，σx 及σy 是數據 X 及數據 Y 的標準差。 Correlationxy =. x−x (y−y ) Nσ x σ y. (式 3.8). 計算得到水帄投影圖的相關係數(Correlation of Horizontal Projection Profile，CHPP)及垂直投影圖的相關係數(Correlation of Vertical Projection Profile，CVPP)，此兩相關係數則為掃瞄線變化類別特徵值，並定義 T4 門檻值(由於必需為負相關，因此 T4<0)，當滿足CHPP < T4 or CVPP < T4 條件，則此連續變動畫面判定為掃瞄線變化類別。 3.4.2 灰階點對點相減比對有別於掃瞄線變化類別是具有方向性逐步地改變，分散式變化類別是在投影片影像中無法預估的位置進行變化，因此本研究採用 3.3 節中所提 Gray Level Pixel Difference (GLPD)方法，由整個投影片畫面中任何一點的變化計算來處理，而不同於 3.3 節的是，在此不是計算每兩張臨近畫面的變動量，而是計算連. 23.

(31) 續畫面中的各張影像與首張及尾張影像的 DG 值(見 3.9-3.12 式，AG、ADG、DG 值定義請參考 3.3 節)，其中 S 代表首張影像，E 代表尾張影像，座標參數 x 介於 1 至 W 之間，座標參數 y 介於 1 至 H 之間，畫面編號參數 k 則介於 2 至(N-1)之間。 ADGk,S (x, y) = DGS k =. H y=1. ADGk,E (x, y) = DGE k =. H y=1. 1, 𝑖𝑓 |AGk x, y − AGS x, y | > 𝑇1 0, else W x=1 ADGk,S (x, y). 1, 𝑖𝑓 |AGk x, y − AGE x, y | > 𝑇1 0, else W x=1 ADGk,E (x, y). (式 3.9 ) (式 3.10) (式 3.11) (式 3.12). 接著依照 3.4.1 所提過的相關係數計算方式，將DGS 及DGE 兩組數據帶入 3.8 式，計算得到灰階點對點相減比對的相關係數(Correlation of Difference of Gray， CDG)並定義 T5 門檻值(由於必需為負相關，T5<0),當滿足CDG < T5 時，則此連續變動畫面判定為分散式變化類別。 3.4.3 區塊比對 3.4.1-3.4.2 中所提的分類處理流程如圖 3.2 所示，而由於各分類的偵測演算法仍有一定的錯誤分類情況，因而在此希望能提出一個加強的方法，來將錯誤的分類修正。本研究採用[27]中的區塊比對(Block Matching，BM)的分割方式，將影像切成 12 個區塊，並且將連續變動畫面的首尾兩張影像進行 Otsu 二元化，再對兩張二元化影像做加總動作，如此可建立出含有投影片內容資訊所在區域的過濾影像 (如圖 3.6 所示)。. 24.

(32) (a). (b) (c) 圖 3.6 區塊比對過濾影像資訊圖(a)為首張影像資訊，圖(b)為尾張影像資訊，圖(c)為過濾影像資訊，是加總圖(a)及圖(b)的資訊所成的過濾影像。接著分別針對每個區塊進行 3.3 中的 GLPD 演算法計算出 DG 值(僅計算符合過濾影像中有資訊的點)，並定義門檻值 T6 及 T7 (T7>T6)，當 DG 值小於 T6 時，此區塊視為無變化，給予區塊變動分數(Block Change Value，BCV)為 0；當 DG 值大於 T6 並小於 T7 時，則判定此區塊為有變動，給予 BCV 為 1；如 DG 值大於 T7 時則判定此區塊為劇烈變動，給予 BCV 為 2。接著計算區塊變動分數總和，並除以總區塊數量(如區塊在過濾影像中為空白則不計入)，得到區塊比對特徵值 (Block Matching Feature，BMF)，在此定義 T8 及 T9 (T9>T8)，當BMF < T8 時，代表是 SCT 類別，BMF > T8 and BMV < T9 時，則判定此變動類型為 DCT 類別， BMF > T9 時則表示為 MCT 類別。由於經過 DPAO 及灰階相減演算法後被判定為 MCT 類別的換頁特效，皆為具有不規則劇烈變動的特色，因此即使再次使用區塊比對演算法，仍會全數被判定為 MCT 類別，因此，區塊比對演算法只針對經過 DPAO 及灰階相減演算法後，被判定為 SCT 及 MCT 類別的換頁特效再次進行分類，所形成的完整分類樹則如圖 3.7 所示。. 25.

(33) 圖 3.7 完整分類處理流程圖. 3.5. 門檻值討論本研究中使用九個門檻值，門檻值的數值設定則是經由測詴實驗來進行人工. 定義。以下討論各個門檻值的作用以及對於本研究及實驗的影響。門檻值 T1 主要作用為篩選出灰階畫面中，灰階值變動較大的點，T1 將會直接影響到判定為變動的點，並間接影響到之後系統判定兩連續畫面間是否有變動，因此，T1 對於整個系統在偵測動態換頁效果的影響相當大。門檻值 T2 及 T3 則是用來判斷畫面是否變化，藉由判斷灰階及二元化畫面中有變動的點是否大於 T2(T3)，來判斷兩張相鄰畫面之間是否有變化，此判斷結果將影響到動態換頁效果的偵測出來的數量、連續畫面長度及正確性。門檻值 T4 及 T5 為 SCT 及 DCT 相關係數的門檻值，由於符合 SCT(DCT)的動態. 26.

(34) 換頁特效中，代入相關係數計算的兩組數據必定呈現負相關，因此 T4 及 T5 必定小於 0，當計算出來的相關係數小於 T4(T5)，則判定為 SCT(DCT)，但由於之後仍有進行區塊比對進行再次分類，將錯誤的分類導正，因此 T4 及 T5 的影響程度較小。門檻值 T6 及 T7 則在區塊比對中，用來判斷此區塊的變動情況，當區塊中變動的總點數大於 T7 時，則判定此區塊為劇烈變動，BCV 值為 2；當區塊中變動的總點數小於 T6 時，則判定此區塊為無變動，BCV 值為 0；當區塊中變動的總點數介於 T6 及 T7 間時，則判定此區塊為有變動，BCV 值為 1，由以上定義可知，T7 必定大於 T6。此二門檻值將直接影響每個區塊的變動判定結果，並間接影響到後續區塊比對中分類為三類特效的結果，因此 T6 及 T7 對本研究具有相當大的影響。門檻值 T8 及 T9 則在區塊比對中用來分類該畫面為何種換頁特效，當 BMF 值大於 T9 時，則判定此換頁特效為 MCT；當 BMF 值小於 T8 時，則判定此換頁特效為 SCT；當 BMF 值介於 T8 及 T9 間時，則判定此換頁特效為 DCT，由以上定義可知， T9 必定大於 T8。此二門檻值將直接影響三類特效的分類結果，因此 T8 及 T9 對本研究分類結果亦有相當大的影響。表 3.1 實驗時所用的各個門檻值數據門檻值實驗用數值門檻值. 實驗用數值. T1. 10. T6. 0.7. T2. 1000. T7. 1. T3. 2000. T8. 0.7. T4. -0.8. T9. 1. T5. -0.8. 27.

(35) 第四章. 實驗結果及討論. 本章對所提出的換頁特效的偵測及分類演算法進行實驗，並針對實驗結果以及錯誤原因進行討論。本章共分為三小節，4.1 節說明實驗影片來源，4.2 節說明實驗結果及討論錯誤原因。. 4.1. 實驗影片來源本實驗投影片簡報皆使用微軟(Microsoft)的 PowerPoint 2003 來進行編輯，. 並限定使用 PowerPoint 2003 中所提供的下列動態換頁特效：擦拭、收縮、放射、單一輻射線、溶解、插入、抽出、流紋，其中擦拭、插入、抽出等特效含有上、下、左、右四個方向的不同，流紋特效則有上下、左右之分，而在本實驗中每個簡報皆隨機使用上述限定的特效種類。本實驗共有 48 個簡報檔案，所有簡報共有 1067 張投影片，等同於共有 1019 個動態換頁特效。如表 4.1 所示，其中編號 18 的簡報內含 82 張投影片最多，編號 24 的簡報內含 6 張投影片為最少。本研究將上述的 48 份投影片簡報，在實際上課教室分別放映及利用數位攝影機錄影成畫面大小為 720 × 480 的 MPEG 影片，並將其轉錄為 AVI 格式之影片。本實驗採用之投影片簡報主要來源有二類，第一類為教師上課授課所用之簡報檔案，共 27 個簡報屬於此類，占 56%；第二類則為會議或上課中報告所使用之簡報，共 21 個簡報屬於此類，占 44%。投影片背景則含有單純或複雜背景。. 28.

(36) 表 4.1 投影片簡報及內含投影片張數. 4.2. 實驗結果本實驗主要分為兩個部份，4.2.1 說明動態換頁特效所在位置的偵測結果，. 4.2.2 討論動態換頁特效的分類成效。 4.2.1. 動態換頁特效所在位置之偵測結果. 在本節討論動態換頁特效位置的偵測結果，並不考慮特效的分類情況，在此實驗採用廣泛採用的 Recall 及 Precision Rate，定義如式 4.1-4.2 所示，其中nc 為正確偵測的數目，nm 為未偵測的數目，nf 為錯誤偵測的數目。Recall 及 Precision Rate 皆介於 0 至 1 之間，其值越接近 1 則正確率越高，反之則正確率較低。 Recall =. nc. (式 4.1). n c +n m. Precision =. nc n c +n f. 29. (式 4.2).

(37) 如 4.1 節中所提，本實驗所有簡報共有 1019 個特效總數。在這 1019 個特效中，共有 1011 個特效正確偵測出來，有 8 個特效未偵測出來，另外則有 46 個並非屬於此 1019 個簡報中所含特效，卻被錯誤偵測出來，經過觀察實驗結果得知，錯誤偵測的原因皆來自於外在因素，如環境光源變化、關閉攝影機時造成攝影機振動等情況皆容易發生錯誤偵測。本研究在動態換頁效果的偵測中，Recall Rate 達到 99%，Precision Rate 則有 96%，如表 4.2 所示。表 4.2 動態換頁效果所在位置之偵測正確率特效總數. 1019. 4.2.2. 特效. 應偵測特效. 不應偵測特效. Recall. Precision. 正確偵測. 卻未偵測. 卻錯誤偵測. Rate. Rate. 1011. 8. 46. 99%. 96%. 動態換頁特效之分類結果. 本節討論動態換頁特效的分類成效，正確率之計算採用如式 4.2 所示之 Precision Rate，在此nc 為分類正確的數目，nf 為分類錯誤的數目。在此將表 4.2 中所提正確偵測出來的 1011 個特效進行分類處理，其中共含有 444 個 SCT、249 個 DCT、318 個 MCT 類型，三種類別的分類情況如表 4.3 所示。. 30.

(38) 表 4.3 特效分類結果特效類別. 特效總數. 判定為 SCT. 判定為 DCT. 判定為 MCT. Precision Rate. SCT. 444. 431. 0. 13. 97%. DCT. 249. 18. 228. 3. 92%. MCT. 318. 49. 8. 261. 82%. SCT 類型有 431 個正確分類為 SCT，0 個誤判為 DCT，13 個誤判為 MCT 類別， Precision Rate 為 97%。在本實驗中，並無 SCT 誤判為 DCT 的情況發生，由於本研究所採用的 DPAO 演算法，在 48 個簡報影片中，當未遭受外界干擾(如環境光源變化、攝影機振動等)的情況下，DPAO 演算法將實際是 SCT 類別的換頁特效歸類為 SCT 的正確率高達 100%。並且在區塊比對演算法下，SCT 類別於每兩相臨畫面變化中必定集中於少數區塊，因此也不容易誤判為 DCT 類別。而 SCT 誤判為 MCT 的情況則有 3%，共 13 個。主要原因來自於換頁特效過程中同時發生環境光源變化，如下圖 4.1 所示。SCT 誤判為 MCT 類別必需經過 DPAO 及 GLPD 兩演算法的錯判，由於在換頁特效過程中同時發生環境光源變化，在 DPAO 演算法中，由於經過二元化處理，因此當環境光源亮度改變，投影片內的投影圖資訊也將劇烈改變，因此在計算 DPD 距離時，與首尾兩張畫面比較並不符合線性改變的情況；而在 GLPD 演算法中，由於環境光源的突然改變，亮度改變時的畫面與首尾兩張畫面相減的變化總點數突然劇增，也不符合線性改變的情況，因此. 31.

(39) 在本實驗中，不管是 SCT 或是 DCT 類別，當發生環境光源變化時，皆相當容易被誤判為 MCT 類別。. (a). (b) (c) (d) 圖 4.1 環境光源變化圖(a)至圖(d)為四張連續影像，其中圖(b)及圖(c)之間發生光源變化. DCT 類型則有 228 個正確分類為 DCT，18 個誤判為 SCT，3 個誤判為 MCT 類別， Precision 值為 92%。其中 DCT 誤判為 SCT 的情況為 7%，共 18 個。主要原因則是首尾兩張影像中有大於一半的區塊內有資料，但僅有少數 1-2 個區塊中的資訊有變化，因此在區塊比對演算法中，將被誤判為 SCT 類別，如圖 4.2 所示，假設此處區塊比對特徵值(BMF)門檻值 T8=0.7、T9=1.0，在圖 4.2 的例子中含有資訊的總區塊數為 7，總區塊變動分數(總和 BCV)值為 2，因此 BMF 值為 0.29 (2/7)， BMF< T8，因此將被錯判為 SCT 類別，而非 DCT 類別。. 而 DCT 誤判為 MCT 的情況有 1%，共 3 個。如同 SCT 誤判為 MCT 一樣，主要原因來自於在換頁特效過程中同時發生環境光源變化。. 32.

(40) (a). (b). (c). (d). 圖 4.2 DCT 特效中僅少量區塊變動示意圖 (a)首張畫面 (b)-(c)為 DCT 特效變化過程畫面 (d)尾張畫面. 至於 MCT 類型則是有 261 個分類正確為 MCT，49 個誤判為 SCT，8 個誤判為 DCT 類別，Precision 值為 82%。其中 MCT 誤判為 SCT 的情況有 15%，共 49 個，此誤判僅發生在插入、抽出特效情況，以插入特效來說，首張影像所代表的投影片並不移動，因此針對首張影像所計算的 DPD(Dynamic Programming Distance) 符合線性增加的情況，而針對尾張影像所計算的 DPD 則是不規律變化(如圖 4.3 所示)；並不像流紋等特效是前後兩張投影片皆進行位移，造成 DPD 的不規律變. 33.

(41) 動(如圖 4.4 所示)。因此，插入、抽出特效在計算 DPAO 演算法時，較容易被誤判為 SCT 類別。. (a). (b). (c). (d). (e). 圖 4.3 插入(向右)特效的變動情況圖(a)至圖(e)為插入特效的示意連續圖。圖(a)及圖(b)間隔了三個畫面，依此類推，圖(b)至圖(e)亦是各自間隔了三個畫面. (a). (b). (c). (d). (e). 圖 4.4 流紋(橫向)特效的變動情況圖(a)至圖(e)為流紋特效的示意連續圖。圖(a)及圖(b)間隔了三個畫面，依此類推，圖(b)至圖(e)亦是各自間隔了三個畫面. 而 MCT 誤判為 DCT 的情況則是 3%，共 8 個。此錯誤原因主要是經過兩次的錯誤判斷所造成，首先是在插入、抽出特效下被誤判成 SCT 類別，而在區塊比對演算法時，由於同時變動的區塊總數較多(總 BCV 較高)，因此造成 BMF 值較高，因此被改判為 DCT 類別，因而產生出 MCT 誤判為 DCT 的錯誤。. 34.

(42) 最後可歸納出三種類型總計 1011 個換頁特效，其中正確分類共 920 個，錯誤分類共 91 個，整體分類的正確率 Precision Rate 為 91%，如表 4.4 所示。表 4.4 整體分類結果特效總數. 正確分類. 錯誤分類. Precision. 1011. 920. 91. 91%. 35.

(43) 第五章. 結論及未來研究. 5.1 結論本研究提出一個針對投影片切換時的動態效果，將其偵測並分類的完整流程，能夠將教學影片中自動擷取出動態換頁效果所在位置，並進行分類，最終將所有的動態換頁效果分為三種類別。本研究流程共分為兩個主要階段：第一階段是動態換頁效果偵測，由計算每兩張鄰近影像間的差距，找出含有換頁特效的連續變動畫面所在；第二階段是動態換頁效果的分類，依照第一階段中偵測的結果，將各段連續變動畫面進行判斷處理，將其分類到適當的類別。由實驗結果，可得到以下結論： (1) 無論投影片為單純或複雜背景，皆能有效偵測並分類出換頁特效。 (2) 採用簡易的特效偵測及分類演算法，卻仍有良好的成效。 (3) 無法正確處理環境光源變化及攝影機振動等環境因素所造成的錯誤。 (4) 使用大量點對點相減演算法，部份錯誤情況無法完全避免。本研究仍存在許多限制： (1) 設下大量的門檻值，需多次調整出適當的門檻值。 (2) 無法處理人物在畫面中走動的情況。本研究主要貢獻有兩點： (1) 將動態規劃最佳演算法(DPAO)導入教學影片中進行比對。. 36.

(44) (2) 有別於一般教學影片中投影片的靜態切換偵測，本研究針對動態換頁效果的投影片，提出一個完整的偵測及分類流程，並定義出 SCT、DCT、 MCT 三種不同的動態效果類別，並依照不同類別特性來進行不同的演算法處理。. 5.2 未來研究為了讓本研究能夠更加準確的偵測及分類動態效果，以及能適用於實際的上課教學影片，以下則提出幾點未來可以加以改進的地方： (1) 由於本研究針對於動態效果，因此不能略過任何一張影像資訊，必需處理極為大量的影像，因此考慮到執行速率，所以採用計算較為簡易的演算法，但相對的正確率有所下降，因此如果能找出更為迅速或正確的演算法，將有助於本研究的計算耗時及正確率。 (2) 本研究是由不同的演算法模組所進行處理分類，因此能夠針對個別的分類演算法(DPAO、GLPD、BM)進行替換或改進，以求更為加強本研究分類的正確性。 (3) 本研究針對於換頁時的特效，而不包含同一張投影片中的個體特效(如文字飛入)，因此如果能針對此個體特效建立出另一套偵測流程，將更能適用於生動的教學投影片。 (4) 本研究不考慮於錄製影片時，發生同學及老師進出畫面的情況，因此如果能加入此類額外處理判斷，將更能適用於實際的上課影片。. 37.

(45) 參考文獻. [1] Open Source Computer Vision Library (OpenCV) http://www.opencv.org. [2] Y. Abdeljaoued, T. Ebrahimi, C. Christopoulos and I.M. Ivars, ―A New Algorithm For Shot Boundary Detection‖, Proceedings of the 10th European Signal Processing Conference, Tampere, Finland, September 2000. [3] J. C. Bezdek, and N.R. Pal, ―Some New Indexes of Cluster Validity‖, IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, Vol. 28, No. 3, pp.301-315, Jun 1998. [4] P. Browne, A. F. Smeaton, N. Murphy, N. O'Connor, S. Marlow and C. Berrut, ― Evaluating and Combining Digital Video Shot Boundary Detection Algorithms‖, Proceedings of Irish Machine Vision and Image Processing Conference, 2000. [5] H.S. Chang, S. Sull and S.U. Lee, ―Efficient Video Indexing Scheme for Content-Based Retrieval‖, IEEE Transactions On Circuits And Systems For Video Technology, Vol. 9, No. 8, pp. 1269-1279, December 1999. [6] A.M. Ferman, A.M. Tekalp and R. Mehrotra, ―Robust color histogram descriptors for video segment retrieval and identification‖, IEEE Transactions On Image Processing, Vol. 11, No. 5, pp. 497-508, May 2002. [7] U. Gargi, R. Kasturi and S.H. Strayer, ―Performance Characterization of Video-shot-change Detection Methods‖, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 10, No. 1, pp. 1-13, February 2000. [8] B. Gatos and N. Papamarkos, ―Applying Fast Segmentation Techniques at a Binary Image Represented by a Set of Non-Overlapping Blocks‖, Proceedings of the Sixth International Conference on Document Analysis and Recognition, pp. 1147-1151, 2001. [9] Y. Gong, ―An Accurate and Robust Method for Detecting Video Shot Boundaries‖, Proceedings of IEEE International Conference on Multimedia Computing and Systems, Vol. 1, pp. 850-854, July 1999. [10] B. Gunsel, A. M. Ferman and A. Murat Tekalp, ―Temporal Video Segmentation Using Unsupervised Clustering and Semantic Object Tracking‖, Journal of Electronic Imaging, Vol. 7, No. 3, pp. 592-604, July 1998.. 38.

(46) [11] S. Ji and H.W. Park, ―Region-based Video Segmentation using DCT Coefficients‖, Proceedings of IEEE International Conference on Image Processing, Vol. 2, pp.150-154, 1999. [12] S. Khedekar, V. Ramanaprasad, S. Setlur and V. Govindaraju, "Text - Image Separation in Devanagari Documents‖, Proceedings of the 6th International Conference on Document Analysis and Recognition, Washington, DC, USA, Vol. 2, pp. 1265-1269, 2003. [13] C Lin, M Sheu, H Chiang, C Liaw and C Tsai, ―An Efficient Video De-interlacing with Scene Change Detection‖, Proceedings of the 5th International Conference on Information, Communications and Signal Processing, pp. 36-40, December 2005. [14] Z. Lei, W. Chou, J. Zhong and C.H. Lee, ―Video Segmentation Using Spatial and Temporal Statistical Analysis Method‖, Proceedings of IEEE International Conference on Multimedia and Expo, New York, Vol. 3, pp. 1527-1530, July 2000. [15] M. Lin, J.F. Nunamaker, M. Chau and H. Chen, ―Segmentation ofLecture Videos Based on Text: A Method Combining Multiple Linguistic Features‖, Proceedings of the 37th Hawaii International Conference on System Sciences, 2004, Big Island, Hawaii, pp. 3-11, 2004. [16] H. Lu, Y.P. Tan, X. Xue and L. Wu, ―Shot Boundary 'Detection using Unsupervised Clustering and Hypothesis Testing‖, Proceedings of IEEE International Conference on Communications, Circuits and Systems, Vol. 2, pp.932-936, June 2004. [17] J. Nang, S. Hong and Y. Ihm, ―An Efficient Video Segmentation Scheme for MPEG Video Stream using Macroblock Information‖, Proceedings of the 7th ACM international conference on Multimedia, Orlando, Florida, United States, pp. 23-26, 1999. [18] M.R. Naphade, R. Mehrotra, A.M. Ferman, J. Warnick, T.S. Huang and A.M. Tekalp, ―A High-performance Shot Boundary Detection Algorithm using Multiple Cues‖, Proceedings of IEEE International Conference on Image Processing, Vol. 1, pp. 884-887, October 1998. [19] C. O’Toole1, A. Smeaton, N. Murphy and S. Marlow, ―Evaluation of Automatic Shot Boundary Detection on A Large Video Test Suite‖, Proceedings of The Challenge of Image Retrieval, Newcastle, UK, pp. 25-26 February, 1999. [20] N. Otsu, ―A threshold selection method from gray-level histograms‖, IEEE Transactions on Systems, Man and Cybernetics, pp. 62–66, 1979.. 39.

(47) [21] S.C. Pei and Y.Z. Chou, ―Efficient MPEG Compressed Video Analysis using Macroblock Type Information‖, IEEE Transactions On Multimedia, Vol. 1, No. 4, pp. 321-333, December 1999. [22] T.M. Rath and R. Manmatha, ―Word Image Matching Using Dynamic Time Warping‖, Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Vol. 2, pp. 521-527, June 2003. [23] S. Repp and C. Meinel, ―Semantic Indexing for Recorded Educational Lecture Videos‖, Proceedings of the 4th Annual IEEE Int. Conference on Pervasive Computing and Communications Workshops, pp. 240-245, March 2006. [24] R. J. Rodrigues and A. C. G. Thomé, ―Cursive Character Recognition - A Character Segmentation Method using Projection Profile-based Technique‖, Proceedings of The 4th World Multi-conference on Systemics, Cybernetics and Informatics SCI 2000 and The 6th International Conference on Information Systems, Analysis and Synthesis ISAS 2000 - Orlando, USA - August 2000. [25] E. Saez, J.I. Benavides and N. Guil, ―Reliable Real Time Scene Change Detection in MPEG Compressed Video‖, Proceedings of IEEE International Conference on Multimedia & Expo, Vol. 1, pp. 567-570, June 2004. [26] M. Sawaki and N. Hagita, ―Text-Line Extraction and Character Recognition of Document Headlines With Graphical Designs Using Complementary Similarity Measure‖, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 10, pp. 1103-1109, October 1998. [27] B. Shahraray, ‖Scene Change Detection and Content-Based Sampling of Video Sequences‖, in Digital Video Compression: Algorithms and Technologies, Arturo Rodriguez, Robert Safranek, Edward Delp, Editors, Proc. SPIE 2419, pp. 2-13, February 1995. [28] T. Shin, J.G. Kim, H. Lee and J. Kim, ―Hierarchical Scene Change Detection in An MPEG-2 Compressed Video Sequence‖, Proceedings of IEEE International Symposium on Circuits and Systems, Vol. 4, pp. 253-256, June 1998. [29] A. Stegner and R. Klette, ―Evaluation of mpeg motion compensation algorithms‖, Tech. Rep., The University of Auckland, October 1997. [30] K.W. Sze, K.M. Lam and G. Qiu, ―A New Key Frame Representation for Video Segment Retrieval‖, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 15, No. 9, pp. 1148-1155, September 2005.. 40.

(48) [31] K.W. Sze, K.M. Lam and G. Qiu, ―An Optimal Key Frame Representation for Video Shot Retrieval‖, Proceedings of IEEE International Symposium on Intelligent Multimedia, Video and Speech Processing, pp. 270-273, October 2004. [32] W. Tian and Y. Qiao, ―Off-line Chinese Signature Verification based on Optimal Matching of Projection Profiles‖, Proceedings of the 6th World Congress on Intelligent Control and Automation, Dalian, China, Vol. 2, pp. 10240-10244, June 2006. [33] V.V. Vinod and H. Murase, ―Object Location Using Complementary Color Features: Histogram and DCT‖, Proceedings of the 13th International Conference on Pattern Recognition, Vol. 1, pp. 554-559, August 1996. [34] Z. Wang, G. Liu and L. Liu, ―A Fast And Accurate Video Object Detection And Segmentation Nethod In The Compressed Domain‖, Proceedings of IEEE International Conference Neural Networks & Signal Processing, Nanjing, China, Vol. 2, pp. 1209-1212, December 2003. [35] T. Yokoi and H. Fujiyoshi, ―Generating A Time Shrunk Lecture Video by Event Detection―, Proceedings of IEEE International Conference on Multimedia & Expo, Toronto, Ontario, Canada, pp. 873-876, July 2001. [36] H.J. Zhang, A. Kankanhalli and S.W. Smoliar, ―Automatic Partitioning of Full-motion Video‖, Multimedia Systems, Vol. 1, No. 1, pp. 10-28, 1993. [37] D. Zhang, W. Qi and H.J. Zhang, ―A New Shot Boundary Detection Algorithm‖, Proceedings of the Second Pacific Rim Conference on Multimedia: Advances in Multimedia Information Processing, pp. 63-70, 2001. [38] L. Zhao, W. Qi, S. Z. Li, S.Q. Yang and H.J. Zhang, ―Content-based Retrieval of Video Shot Using The-improved Nearest Feature Line Method‖, Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 3, pp. 1625-1628, 2001. [39] J. Zhou and X.P. Zhang, ―A Web-Enabled Video Indexing System‖, Proceedings of the 6th ACM SIGMM international workshop on Multimedia information retrieval, New York, USA, pp. 307-314, 2004. [40] Y. Zhu, T. Tan and Y. Wang, ―Font Recognition Based on Global Texture Analysis‖, IEEE Transactions Pattern Analysis and Machine Intelligence, Vol. 23 No.10, pp.1192-1200, October 2001. [41] Y. Zhuangt, Y. Rui, T. S. Huang and S. Mehrotra, ―Adaptive Key Frame Extraction using Unsupervised Clustering‖, Proceedings of IEEE International Conference on Image Processing, Vol.1, pp. 866-870, October 1998.. 41.

(49)