以投影片單應性映射之相關特徵進行演講影片分析研究

全文

(1)國立台灣師範大學資訊工程研究所碩士論文. 指導教授: 李忠謀博士. 以投影片單應性映射之相關特徵進行演講影片分析研究 Using Slides Homographic Characteristics for Speech Video Segmentation. 研究生: 林祐生撰中華民國一零三年七月.

(2) 2.

(3) 摘要投影簡報檔是講者用來輔助說明、提供註記，以及引領觀眾快熟掌握重點的工具，但缺點是無法清楚表達細節；配合影音多媒體串流，不論在教學、會議或是演說等場合中，可以完整的提供觀眾更多的細節資訊，但是也因此需要一個更有效率的方式來瀏覽內容。本文提出一個有效率而且準確的方法，將投影片以及影音內容配對。主要流程分為三個部份，首先找出影音串流的候選影像，以減少後續配對是所花的時間，接著找出影像特徵，計算候選影像及投影片匹配的特徵點，取得相似度。然後使用鄰近點差異及隨機抽樣一致將可信度低的特徵濾除；如果條件許可，利用單應性特徵得到投影片的約略位置。利用投影片在畫面中的比例將畫面分類為「有投影片」及「無投影片」兩類畫面。接著將「有投影片」的部分在利用前面取得的相似度直接配對，並且利用投票機制修正結果，最後可以正確的找出 96% 的畫面切換時間點。. 關鍵字: 候選畫面、影像匹配、隨機抽樣一致、影像單應性.

(4) Abstract Matching slides with video data frame is a method to provide users a quick way skim over the whole video by any given slide content, and will also help people quickly to jump to any point in the video, which may improve the user expereinces. But manually add mark to each time stamp in the video is time wasting. In this research , we develop an automatic process to achieve this. By given slides file and video file input, the proposed method will output segmented results. First, we use a heuristic method to eliminate duplicated and similar frames in recorded speech video. Then applying matching process based on SIFT. Then the matched candidates would be filtered by nearest neighbor ranking, which is suggested by D.G. Lowe. After we got matched candidates, a non-slide-frame detection will prune frames without slides displayed. Before output, we refine the recognition results with context scoring machanisims. The applying to a voting schema to improve the results of frame-slides pairs, and were achieved about 96% coverages of slide-frame switches.. Keywords: Candidate frame extraction, Slide-frame matching, RANSAC, Homography.

(5) 致謝承蒙業師李忠謀教授費心指導，在初入實驗室不久就給我機會擔任該學期的資料結構助教，經兩個學期的歷練，使我更熟悉資料結構的意義，奠定爾後研究的重要基礎。研究上，感謝老師總是耐心地指出許多我忽略的細節，提供不同面向想法與實用的建議。此外，老師也提供許多資源及機會讓我們參與國際級的計劃，不論是程式技術或是在待人接物上都有許多值得學習之處。這段期間還有兩個很重要學長政杰和德清，在每週的小組報告中對我們提出優缺點等看法，學長們學識淵博，常常可以提出不同的觀點讓我們看待不同的研究有更寬廣的視野。在研究中期，更是仰賴政杰學長的協助，使我不至於離開原本的研究方向太遠。同時也感謝 VIP. Lab. 其他多位學長姐，在研究之路上指引明燈。特別感謝系上的葉梅珍助理教授，對與圖形識別以及多媒體系統設計兩門課讓我學到許多知識與經驗，得以應用在後續研究中；感謝各位口試委員不吝提出各種寶貴的意見，使得本論文能夠更加完整且嚴謹。感謝系辦的行政人員提供妥善的設備與且幫我們規劃好許多雜事，讓我們做可以專注于研究上。修業期間，其實大小雜事不斷發生，有時候的確讓人心情煩亂，幸好有同儕. Micky 萬事通、樂觀巧珊總是在研究形卡住時提供正面的建議，Yi-Chun 這個壯漢教我正確的健身方法、皮皮也是很常常找我參加戶外活動放風、鈺新是個技術宅，常常陪我待 Lab 到晚上。感謝信實、蘇凌凌、Dishomer 在最後關頭協助口試流程的進行，以及 Win 這個攝影師常常在關鍵時刻留下夢幻美照，還有感謝 Ting 在開學不久就開始協助我在 Lab 的雜務，有你們這群研一的夥伴加入為 Lab 增添許多活力與歡樂；祝福你們學、事業順利。最後，感謝老天讓我很幸運的能認識 Christy，感謝 Christy 在這兩年來的一路陪伴，不吝給與鼓勵或批評，以及協助本論文的完成；感謝我的家人，他們一直默默地支持我，感謝的話一頁不能書盡；回首兩年多研究生活，在師大受到諸位師長教誨、同學、朋友及家人的支持、協助與鼓勵，實有寫不完的感謝話語，在碩士生涯告一段落之際，僅以此論文作為未來工作、研究之基礎，期待將來能對社會有所貢獻。林祐生謹誌公館師大. 2014 年 07 月.

(6) What the public wants is the image of passion, not passion itself. Roland Barthes. 6.

(7) 目錄圖片. 引 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 表格. 引 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 第一章. 緒論. III V 1. 1.1. 研究動機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.2. 研究困難 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.3 1.4. 研究目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 研究範圍及限制 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3 3. 1.5. 論文架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 第二章. 文獻探討. 5. 2.1. 名詞定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.2 2.3. 候選畫面選取 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 特徵取得方式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6 7. 2.3.1. 特徵點偵測 (Feature Detection) . . . . . . . . . . . . . .. 8. 2.3.2. 特徵描述單元 (Feature Descriptor Extraction) . . . . . .. 10. 2.3.3 2.3.4. 其它特徵取得方式 (Other Methods) . . . . . . . . . . . . 特徵點匹配 (Keypoints Matching) . . . . . . . . . . . . .. 12 13. 2.3.5. 特徵點質量評估 (Keypoints Matching Evaluation) . . . .. 13. 2.4.1. . . . . . . . . . . . . . . . . . . . . . 直接特徵比較 . . . . . . . . . . . . . . . . . . . . . . . .. 14 15. 2.4.2. 人物遮蔽 (Occlusion) . . . . . . . . . . . . . . . . . . . .. 16. 2.4.3. 失焦及低解析度的錄影影像 . . . . . . . . . . . . . . . . .. 17. 2.4.4. 其他情形 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2.4. 投影片與影音串流匹配方法. 2.5. 投影片與影音串流匹配之應用 . . . . . . . . . . . . . . . . . . . .. 18 19. 2.6. 投影片定位 (Slides Registration) . . . . . . . . . . . . . . . . . .. 20. 第三章. 研究方法. 21. 3.1. 方法流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 22. 3.2. 前處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 處理對象 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 23 24. 單應性相關特徵 (Homographic Characteristics) . . . . . . . . . .. 27. 3.3.1. 27. 3.2.1 3.3. 尺度不變特徵轉換 (SIFT) . . . . . . . . . . . . . . . . . .. -I-.

(8) 3.4 3.5. 3.3.2. 匹配特徵點 . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 3.3.3 3.3.4. 單應性 (Homography) 及投影 (Projection) . . . . . . . .. . . . . . . . . . . . . . . . .. 33 34. 區分畫面類別 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. 3.4.1. 辨識畫面 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36 37. 3.5.1. 建立更多特徵辨識畫面 . . . . . . . . . . . . . . . . . . . .. 38. 3.5.2. 投票機制 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. 第四章. 4.1 4.2. 4.3 4.4. 4.5. 4.6. 利用高斯混合模型分類 . . . . . . . . . . . . . . . . . . . .. 實驗. 43. 環境及資料設定 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 43. 4.1.1. 成效評估方式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 43 46. 4.2.1. 主要評估方式. . . . . . . . . . . . . . . . . . . . . . . . .. 46. 4.2.2 4.2.3. 執行時間分析. . . . . . . . . . . . . . . . . . . . . . . . . 記憶體使用量 . . . . . . . . . . . . . . . . . . . . . . . .. 47 47. 前處理之相關實驗結果 . . . . . . . . . . . . . . . . . . . . . . . .. 48. 4.3.1. 畫面分類結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 48 49. 4.4.1. 靈敏度 . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 4.4.2. 切換點命中率. . . . . . . . . . . . . . . . . . . . . . . . .. 49. 畫面辨識結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 測試資料 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 畫面減少率、涵蓋率 . . . . . . . . . . . . . . . . . . . . .. 4.5.1. 準確度 . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 50 50. 4.5.2. 涵蓋率、命中率 . . . . . . . . . . . . . . . . . . . . . . .. 52. 4.5.3 4.5.4. 方法比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . 時間軸配對結果 . . . . . . . . . . . . . . . . . . . . . . .. 53 54. 時間及儲存空間分析 . . . . . . . . . . . . . . . . . . . . . . . . .. 54. 第五章. 5.1. 隨機抽樣一致性 (RANSAC). 結論. 57. 未來工作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 附錄 A. 實驗圖表. 57 59. A.1 其他實驗比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 59. A.2 影片縮略圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 61. 參考文獻. 68. II.

(9) 圖片. 引. 2.1. 流程 -在配對投影片與影像中處理人物遮蔽的問題 . . . . . . . . . .. 17. 2.2. 流程 -改善失焦畫面的投影片匹配 . . . . . . . . . . . . . . . . . .. 18. 2.3. 流程 -投影片對齊架構 . . . . . . . . . . . . . . . . . . . . . . . .. 19. 2.4. 流程 -Talk-miner . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 3.1 3.2. 本研究的方法流程 . . . . . . . . . . . . . . . . . . . . . . . . . . 前處理 -連續畫面相減差異值總和 . . . . . . . . . . . . . . . . . .. 22 24. 3.3. 前處理 -部分連續畫面差異值 . . . . . . . . . . . . . . . . . . . . .. 25. 3.4 3.5. 前處理 -以平均差異過濾後的畫面分布 . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. 26 26. 3.6. 前處理 -截取出畫面時間點前後比較圖 . . . . . . . . . . . . . . . .. 27. 3.7 3.8. 高斯差分尺度金字塔 . . . . . . . . . . . . . . . . . . . . . . . . . 高斯差分局部極值點 . . . . . . . . . . . . . . . . . . . . . . . . .. 28 29. 3.9. 極值點重採樣 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 30. 3.10 SIFT 梯度方向計算方式 . . . . . . . . . . . . . . . . . . . . . . .. 31. 3.11 多梯度方向處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.12 SIFT 特徵描述單元 . . . . . . . . . . . . . . . . . . . . . . . . .. 32 32. 3.13 對投影片及錄影畫面的特徵點辨識結果 . . . . . . . . . . . . . . . .. 33. 3.14 特徵點配對結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.15 RANSAC 流程圖 . . . . . . . . . . . . . . . . . . . . . . . . . .. 34 35. 3.16 RANSAC 示意圖 . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 3.17 畫面相似度分布示意圖 . . . . . . . . . . . . . . . . . . . . . . . .. 37. 3.18 特徵點配對結果直方圖 . . . . . . . . . . . . . . . . . . . . . . . . 3.19 後處理的特徵點配對結果直方圖 . . . . . . . . . . . . . . . . . . .. 38 38. 3.20 預測投影片編號 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 39. 3.21 預測投影片編號失敗案例 . . . . . . . . . . . . . . . . . . . . . . . 3.22「畫面 -投影片」匹配之相似度關係 (coates 片段 1) . . . . . . . . .. 39 40. 3.23「畫面 -投影片」匹配之相似度關係 (coates 片段 2) . . . . . . . . .. 41. 4.1. 資料集參考縮略圖 . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. 4.2. 實驗二 -畫面分類：ROC 曲線 . . . . . . . . . . . . . . . . . . . .. 52. 前處理 -最後留下的單一畫面點. III.

(10) 4.3. 畫面辨識：時間軸配對結果 (coates) . . . . . . . . . . . . . . . . .. 55. 4.4 4.5. 實驗四 -時間分析. . . . . . . . . . . . . . . . . . . . . . . . . . . 實驗四 -儲存空間分析 . . . . . . . . . . . . . . . . . . . . . . . .. 56 56. 5.1. 未來工作 -一致性 vs 涵蓋率 . . . . . . . . . . . . . . . . . . . . .. 58. 5.2. 未來工作 -自匹配之結果示意圖. . . . . . . . . . . . . . . . . . . .. 58. A.1 前處理 -畫面減少率在不同方法及資料集之比較 . . . . . . . . . . .. 59. A.2 前處理 -候選畫面之涵蓋率 . . . . . . . . . . . . . . . . . . . . . . A.3 以時間軸呈現的影片序列 . . . . . . . . . . . . . . . . . . . . . . .. 60 61. A.4 實驗二 -畫面分類：分類結果參考縮略圖 . . . . . . . . . . . . . . .. 62. A.5 實驗三 -畫面辨識：結果參考縮略圖 (coates) . . . . . . . . . . . .. 63. A.6 實驗三 -畫面辨識：結果參考縮略圖 (rozenblit) . . . . . . . . . . . A.7 實驗三 -畫面辨識：結果參考縮略圖 (chaves) . . . . . . . . . . . .. 64 65. A.8 畫面辨識：時間軸配對結果 (chaves). . . . . . . . . . . . . . . . .. 66. A.9 畫面辨識：時間軸配對結果 (rozenblit) . . . . . . . . . . . . . . .. 67. IV.

(11) 表格. 引. 3.1. 辨識結果範例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 3.2. 以投票方法找出辨識結果範例 . . . . . . . . . . . . . . . . . . . .. 42. 3.3. 投票結果之一致性表示 . . . . . . . . . . . . . . . . . . . . . . . .. 42. 4.1. 本研究採用的開發、實驗運算機器 . . . . . . . . . . . . . . . . . .. 44. 4.2 4.3. 本研究採用之資料集及其屬性 . . . . . . . . . . . . . . . . . . . . 本研究採用資料之挑戰 . . . . . . . . . . . . . . . . . . . . . . . .. 44 46. 4.4. 實驗一 -前處理之畫面減少率 . . . . . . . . . . . . . . . . . . . . .. 48. 4.5 4.6. 實驗一 -前處理之畫面切換點、投影片出現數量涵蓋率 . . . . . . . . 實驗二 -畫面分類：靈敏度及其相關結果 . . . . . . . . . . . . . . .. 49 50. 4.7. 實驗二 -畫面分類：切換點命中率分析 . . . . . . . . . . . . . . . .. 51. 4.8 4.9. 實驗三 -畫面辨識：準確度 . . . . . . . . . . . . . . . . . . . . . . 實驗三 -畫面辨識：涵蓋率 . . . . . . . . . . . . . . . . . . . . . .. 51 53. 4.10 和 [36] 畫面辨識：比較 . . . . . . . . . . . . . . . . . . . . . . .. 53. V.

(12) 第一章緒論投影片簡報檔是演講者或報告人事前準備用來使觀眾快速瞭解說明主題的重點，許多公司的產品發表會、概念發表、跨國會議，也都會使用簡報檔來呈現內容，一方面可以快速達到行銷效果，另一方面透過簡報的過程，也可以讓許多原本不了解的人，有機會可以快速認識公司的產品內容，了解使用產品的方法。隨著資訊量的增加，單靠平面的簡報內容已經無法滿足大部份讀者、觀眾的需求，講者在說明時的肢體語言與聲調，透過聲音以及影像等多媒體資訊的輔助，使觀眾更能瞭解講者要表達的內容。拜現代網路科技之賜，傳輸大量的多媒體訊息已不是困難的問題，現在除了有整合式的簡報、課程平台如：Video. lectures[48], Confreaks[45], NGL[50]。許多公司、教育機構也會提供線上串流服務，例如 Youtube[49], Coursera [46], Khan Academy, Edux, TED[47] 等，除此之外，有些公司的產品發表或是開發者會議，也會提供處理好的內容，讓使用者既能夠看到完整的聲音影像，也可以清楚地搭配簡報內容觀看，例如：Google IO, Apple. WWDC, PyVideo 平台等等。在上述的應用中，有些會希望取得前者的畫面內容，一來可以幫助影片點閱人能夠依據投影片內容快速定位到錄影片段對應的時間點，二來對於初次點閱影片的人可以迅速了解整個演說內容的實際時間分配情形，對於多次點閱影片的人則可以藉由時間點迅速進入要觀看的區段，提升這類應用系統的使用經驗，而這個取得影片片段定位的過程就是影片分割。. -1-.

(13) 1.1 研究動機因為前一節列出的服務多數為商業用途，我們無法輸入自行拍攝的影片進而得到的影片分割結果，因此我們需要一個能夠自動找出分割影片的方法；此外錄影的某些場景，因為拍攝手法的關係，在影像中可能無法清楚看到講者說明的內容，因此點閱人會需要要原始簡報檔作為輔助閱讀工具，以了解講者要表達的概念。這時候，如果能有自動的機制協助帶出簡報頁面，便能讓觀眾更了解演講內容，不僅保留應用服務所提供的臨場感，也及時的把完整的資訊呈獻給觀眾，因此除了畫面切換時間點，找到對應的投影片內容也十分重要。另外一種情況是，讀者希望從簡報檔的內容找到對應影片的時間點，因為這樣可以快速進入想要看的內容，一般來說這個動作是點閱影片者自行瀏覽定位，但一段演說通常至少 20 分鐘以上，會議的內容更可能長達 2 至 3 小時，若自行手動定位，往往需花費許多時間。因此事前如能有自動的處理機制將時間及對應影片轉換點找出，就可以省下許多時間。為了找出對應畫面和投影片的關係，我們將通常在錄影期間可能出現的畫面分為兩類，其一是含有動畫內容、手寫文字註記、使用圖片或圖表等不同複雜度的相關演講內容畫面；而錄影機視角切換、錄影位置變動、錄影畫面移動到非投影區域等外力因素也會導致畫面變化，而這類畫面是屬於和投影片不相關的畫面。為了提升結果的準確度，我們希望先找出相關度較高的畫面。. 1.2 研究困難在現有的研究中如 [7, 20, 21, 30, 31]，都是對於投影片和錄影畫面的關係作為研究的對象，其中 [7] 提出利用人工標記投影片和錄影畫面開啟了這個領域的研究，後. 2.

(14) 續的 [20, 21, 29] 則是在自動化標記配對過程有所貢獻，Talk Miner[30] 和 Cheung 等人 [31] 則是提出進一步的相關延伸與應用。由於 Fan 等人的研究 [20, 24, 36] 採用影片的關鍵畫面作為匹配投影片的候選畫面；而配對時使用 SVM 模型來做非投影片畫面內容及有投影片畫面內容之分類，以及用投影片前後的畫面大小與時間關係等機率模型，記算過程複雜且需要較多計算量。基於這些因素與困難，本研究朝向簡化計算過程的目標發展，希望能得到相似的結果。. 1.3 研究目的總合前述原因，本研究希望找出輸入為影片及投影片的對應時間切換分割點及其匹配影片畫面與投影片內容。而方法是利用計算錄影及投影畫面的尺度不變性特徵轉換「SIFT」及電腦視覺領域中的畫面單應性轉換矩陣「Homography」取得相關對應特徵「Characteristics」相似度，來自動決定對應的結果希望藉此簡化流程，提升運算速度，並且能維持準確率。. 1.4 研究範圍及限制本研究的錄影畫面局限在影片內容需要人類肉眼可明確辨識 (畫面解析度大於. 720 ∗ 480)，模糊不清或是人眼無法識別的影像不在我們的研究範圍內。輸入投影片是以每張固定畫面為編號，不包含動畫分頁內容。. 3.

(15) 1.5 論文架構本論文將分為五個章節，在第2章將探討畫面特徵的取得方式與投影片和畫面匹配的相關工作，第3章會說明本研究使用的方法及流程，第4章說明實驗結果及其細節，最後是第5章討論本研究遇到的問題及未來工作。. 4.

(16) 第二章文獻探討本研究是建立在靜態投影片以及動態影片之間的關聯，在更進一步說明相關技術前，這裡將對後面常出現的名詞作一些定義。前處理的部分，本研究為了減少冗餘畫面而採用類似關鍵畫面的取得技術，在2.2 節討論取得關鍵畫面的方法；取得候選畫面後匹配畫面和投影片需要能夠定義兩張圖像的相似性，因此在2.3節討論特徵取得的方式。2.4節討論的是與本研究相關的其他方法以及整合性的討論。. 2.1 名詞定義 1. 投影片 (Slide images) 講者對於說明內容的重點整理，圖表呈現，或是其他說明輔助的視覺化內容。. 2. 電子簡報檔 (Presentation file) 整合一部分的投影片組成的集合，一般可以是微軟公司的簡報檔，包含動畫特效，以及註解功能，隨著麥金塔作業系統的演進，該公司的 keynote 也成為許多人的簡報檔製作選擇之一，此外也有人選用 Adobe 公司的可攜帶文件檔案，但是對於動畫的功能較為欠缺。. 3. 演說影片 (Speech video) 這裡將演說影片定義為一般場合中使用投影片作為輔助工具，由台上演講者對台下觀眾演說的錄影片段，在片段中可能包含觀眾席的畫面，講者本人特寫，投影片特寫等各種影像媒體的呈現方式。. -5-.

(17) 4. 畫面 (Frame) 畫面是影片的最小基本單位，每個畫面具有長，寬，時間點以及顏色等屬性。. 5. 候選畫面 (Candidate frame) 利用畫面的屬性，將大部份類似的畫面濾除後，最後得到視覺差異較大的畫面，稱為候選畫面。. 2.2 候選畫面選取由於本研究所關注的演說影片時間至少持續 20 分鐘以上，以每秒鐘 30 個畫面來計算，會含有 20分 ∗ 60秒 ∗ 30張 = 36000 畫面之多，假設每張畫面處理的時間設計在 500 毫秒以下，也須花費五個小時來處理。但事實上，這麼做浪費了很多運算量在重複的畫面上，如果能夠利用方法將原本明顯相同的畫面濾除，只保留需要的候選畫面，便可以省下很多時間。對於候選畫面的選取的研究，發展歷史已經有近二十年，其中可以分為直接操作影片畫面的方法 [8, 19, 22, 34]，早期的研究例如 [8] 等人的研究將其歸類為幾個方法：. 1. 以片段為條件 (Shot-based) 這個方法的優點是相當簡單，快速，直接取得每個片段的起點或中間畫面作為候選畫面，如此一來被過濾掉的畫面相當多，但是在我們的研究中，一個片段仍可能包含好幾個投影片切換，因此直接使用這個方法，反而容易剔除太多候選畫面，導致結果不完全。. 2. 以運動方向為條件 (Motion based) 這個方法主要是分析不同畫面間的動作方向。. 6.

(18) 3. 以顏色特徵為條件 (Color feature based) 這個方法是利用顏色的差異或是統計來決定候選畫面，最簡單的方式，就是將兩個相鄰的畫面直接相減，統計出所以差異量比較大的畫面變化，以統計上的離群值來決定候選畫面，另一個常見的方法是統計每張圖的顏色分布情形，例如 [22]，利用顏色分布的變化量來決定是否為候選畫面，本研究的前處理階段採用第一個方法，但是因為在” 某些” 情況，投影片的變化成度如果太小，用這個方法反而會有錯誤，因此我們採取下面的方法在最佳花匹配結果時使用。而近期的方法開始則是利用壓縮過的影片格式，取得特定的畫面後再計算候選畫面。在 Sujatha[39] 的研究中，整理了許多方式，其中 Liu[11] 是利用 mpeg 格式的 B 畫面，先以 Zhang[5] 的方法將影片的片段取出，再以他們提出的三角模型 (Triangle-model) 計算畫面運動方向，最後可以得到候選畫面而不必設定任何過濾閥值。而在 Gianluigi[17] 等人的研究中則是提到改良基於顏色分布的方法，做法是加入波形統計 (Wavelet statistics)[4] 以及邊緣方向分布 (Edge direction. histogram)[6]，作為相似度計算的基礎，並且提出數個和其他方法的比較。. 2.3 特徵取得方式觀察投影片的組成，我們可以發現，大多是由有規律的文字構成，而通常投影片中會有較多的邊、角點以及被標記出來的特殊區域，如果能夠知道這些資訊，就可以找出類似的畫面，而在電腦視覺的特徵偵測 (Feature Detection) 方法中，就是有很多利用這些特徵來找出可能具有特徵的地方，並計算特徵描述單元 (Feature. Descriptor)。在匹配不同影像的時候，因為投影片和錄影畫面的顏色落差、大小變化、動畫變. 7.

(19) 形等等因素，造成無法利用直接點對點的比較方式來找出搭配的候選畫面和投影片，因此，需要利用隱藏在影像分析之後的數據，找出類似的特徵分布，用此判別是否為配對影片。而這樣的方法一般是利用所謂的特徵點匹配來達成。為了要匹配成對的特徵，需要利用特徵偵測方法找出每張影像中的特徵點 (Feature Keypoints)，有了特徵點之後，就能根據其幾何性質來決定相似度，但是只有幾何資訊仍無法決定特徵的相似程度。例如兩個圖中在坐標 (1，1) 都有特徵點，但是其顏色不同，那這兩個特徵點就很不相似，而顏色就是這兩個特徵點的描述方式之一。通常一個好的特徵點除了顏色之外，需要更多有用的資訊，這些資訊可以是角度、亮度、甚至是設計好專門用來描述特徵的資料結構。所以我們需要特徵描述單元. (Descriptor) 的計算方法 (Feature extractor)，接下來的兩小節，就「如何取得特徵點」與「如何取得特徵描述單元」來探討。. 2.3.1 特徵點偵測 (Feature Detection) 取得特徵點的方法有很多種，而最近的研究較常見的方式為找出「角」或「區塊」特徵，然後回報這些特徵的位置，作為計算特徵描述單元之用。近十年來相當知名的方法之一是利用尺度不變特徵轉換 (SIFT)[12]，這個方法本身模擬了人眼視網膜處理不同影像的辨識原理，核心概念是利用高斯差分 (Difference of Gaussian)，計算得到具可能是「邊」的特徵點，透過將影像的不同尺寸高斯模糊後得到的結果相減來取代計算量相對複雜的高斯拉普拉斯轉換 (Laplacian of Gaussian)。. 2006 年後又陸續發展出許多新方法，如 Bay[15]、Rosten[18] 等等。和 SIFT 不同的是，SURF 的核心是利用海森矩陣行列式 (Determinant of the Hessian) 找出特徵點在的地方。採用方形模糊 (Box blur) 來逼近海森矩陣的行列式，此外，這裡採用預先建立數個不同尺度的核心濾波器，和 SIFT 相比，除了不必每張圖都要作. 8.

(20) 影像的縮放來建立不同尺度的特徵，而且少了不同尺度相減的步驟，比起來節省了很多計算量。. FAST[18] 是 Features from Accelerated Segment Test 的縮寫，在主要的想法是透過特徵點的選取後，檢查範圍內的像素灰度差異是否大於一定值。演算法主要分為三個步驟。. 1. 特徵候選對每一點的半徑作分割並計算灰度值，通過閥值的像素點保留作為特徵候選點，通常分為 9 個點 (FAST-9). 2. 角點偵測 (Corner detection) 利用角點偵測，找出具有角度變換的區域，將這些區域狀態標記為 [較暗、相似或較亮 (-1，0，1)]. 3. 非極大值抑制最後，利用非極大值抑制 (Non-Maximum Supression, NMS)，除去不是最大值的點，來取得合理的特徵點作為特徵點選取方法，相較於 SIFT、SURF，FAST 提供了相當快速得到特徵點的方法，但是這個方法不具有尺度不變性。. FAST 後來又延伸出許多版本，例如 FASTER[33]、AGAST[32] 其中 AGAST 被後來的 BRISK[37] 採用，這是基於 FAST 的改良方法，首先定義新的角點偵測函數，以利接下來的二元搜尋樹的建立，並且設計了三個和記憶體存取時間相關的參數，然後使用深度優先搜尋 (Depth First Search, DFS)，以及動態規劃 (Dynamic. Programming) 來建立耗時最少的最佳化決策樹。而為了要更有效率的存取鄰近區域. 9.

(21) 的亮度變化，這個方法設計一個自適應的樹狀結構，使得計算量減少，而且是適用在大多數影像的情形。最後比較了數個 FAST 設定，都有顯著的速度改善。. 2.3.2 特徵描述單元 (Feature Descriptor Extraction) 找到特徵點之後，我們需要了解每個特徵點所代表的意義，如此才能夠確定兩個點的相似性。這方面的研究，比較經典的有 SIFT[12] 利用區域梯度值的統計結果來描述特徵點，例如下圖所示。先以特徵點為中心，向周遭延伸出 8*8 的區域，分別計算梯度後再將區域分為 4 個 4*4 的子區域，分別統計 8 個梯度分布的方向，作為特徵主方向，然後利用 4 ∗ 4 ∗ 8 = 128 個值構成 128 維度的描述向量。由於 128 個描述值仍然太多，後來提出的 SURF[15](Speeded Up Robust. Features) ，改變了特徵描述單元的設計。和 SIFT 相同的是他仍然提供一組特徵的最大方向以及一個固定維度的特徵描述向量。但是取得方向的方法，是利用特徵點周圍半徑為 6 個尺度大小，以 60 度為扇形區域，每次轉動 5 度，統計 Haar 小波特徵的水平以及垂直響應總和，小波波長為 4 個尺度，最後是以最大的響應方向作為特徵方向。取得方向後，以特徵點為中心，建立一個 20 個尺度長寬的方形，其中分為 4*4 個子區域，每個區域內取出 5*5 個像素點的相對於主方向的水平和垂直小波特徵值和，以及絕對值之和，共 4 種特徵描述，構成 4 ∗ 4 ∗ 4 = 64 個維度的描述單元。這個描述元可依需要改為 3 ∗ 3 ∗ 4 = 36 個維度，但除了稍微改善配對時的速度，對準確度並沒有顯著提升，對於非即時的應用，沒有必要採用。此外這個方法雖然減少了描述元方向的計算量，但是仍沒有改變描述的主方向對局部特徵的依賴性。. BRIEF[42] 是西元 2011 年提出的方法，整個過程主要是對已知的特徵點取出一個固定大小的區塊 𝑝，對區塊影像作高斯模糊處理，然後利用該方法提出的 𝜏 測試，透過隨機選取不同位置的亮度二元值，得到一個固定長度的二元字串，預設的. 10.

(22) 大小是 64 個位元組，一般稱 brief-64。該方法也透過實驗得到在某些固定的隨機分布可以有最好的辨識結果。這個方法因為是二元字串，因此匹配時，使用漢明距離. (Hamming distance) 作為相似度的分析，在相同維度下，比歐式距離 (Euclidean distance) 快很多。但是這個描述元沒有提供尺度、角度等資訊，此外測試方法只看亮度，所以對雜訊較為敏感，因此不利於本研究在畫面轉變時的匹配。為了改良 BRIEF 不具旋轉不變性，後來提出的 ORB[38](Oriented BRIEF) ，除了利用積分圖 (Integral Image) 來改良二值化 𝜏 測試的抗噪能力，並且使用考慮方向的 FAST 版本 oFAST(Oriented FAST)，利用 Harris 角點量測 [3](corner. measure) 來排名並取出前 N 個超過門檻特徵點，對於 BRIEF 無法處理尺度變化的特性，這個方法也提出尺度金字塔來產生不同尺度的 Fast 特徵點，但是因為 Harris 角點量測對於尺度變化沒有不變性，因此對於不同尺度都需要計算一次。接着使用”Intensity Centroid” 對於每個特徵點計算角點的方向，如此就得到特徵的方向描述；然後，為了取得快速取得旋轉的特徵，只對 𝜏 測試選出來的測試點作旋轉，並且利用機器學習的方法 (PCA) 排除區辨能力較差 (變異數相對小) 的特徵組成成分，最後得到一個特徵描述單元 rBRIEF，結合 oFAST 就是 ORB 的主要貢獻。. BRISK[37] 的縮寫是 Binary Robust Invariant Scalable Keypoints ，採用 AGAST 的演算法加上尺度空間特徵點偵測 (Scale-Space keypoint detection) 來取得特徵點，使得特徵點具有尺度不變性；接着參考 DAISY[35] 的影像濃度特徵描述方式設計一個可參數化的特徵描述元，方法是對於每個尺度特徵點取出固定位置的. 60 個參考點，為了要避免鋸齒化影像對結果產生偏差，因此每個參考點對於特徵點分別以距離為權重作高斯模糊，然後計算參考點配對的局部梯度值，計算得到特徵方向。對於特徵描述的部分，採用類似 BRIEF 的 𝜏 測試，但是加入旋轉變量 𝛼(類似於 ORB)，然後一樣取得 512 位元長度的描述元，在同樣的輸出量下能比 BRIEF. 11.

(23) 更快得到結果。此外，BRISK 的描述元使用固定的參考點，因此對於鄰近參考點的. 𝜏 測試較不會因為高斯模糊而失真；加上取得參考點數較少 (60 個) ，運算速度可以大幅提升；最後，這個設計考慮的是限制空間的亮度改變，因此保有區域亮度一致就是合理的使用 𝜏 測試。BRISK 可以透過 SSSE 等硬體計算加速處理 6 倍之多。另外一個 Freak[41] 則是改良 BRISK、ORB 而來，受到人眼視網膜的啟發，觀察視網膜的神經細胞分布，發現大部分是集中在中心的部分，因此將描述元的設計改良自 BRISK，變成主要集中於特徵點中心取出 43 個點，每個點會有許多重疊的參考區域，並且使用一位元的高斯差分 (Difference of Gaussians) 來計算 𝜏 測試，利用和 ORB 類似的方法篩選區辨能力較大的特徵，取得前 512 組表現較好的二元特徵，然後再分為 4 個部分，分別代表特徵的精細程度。此外因為人眼視覺時也具有由粗到細感覺方式，因此這個方法在搜尋匹配時，模擬人眼掃視的過程，先比較前半段的特徵，也就是較粗略的部分，如果相似度小於一定的閥值，才進一步拿後半段特徵來比較。. 2.3.3 其它特徵取得方式 (Other Methods) 除了較常見的以像素點為基本單位找到特徵描述單元，還有一種方式是以區域為特徵單位，這類方法主要是找出影像中具有區辨力的特徵，例如 MSER[13]。MSER 本身是偵測影像中區域特徵的演算法，因為它具有不受角度、光度、大小變化影響的特色，而且演算法本身不需要運算量較大的模糊濾波器，所以也是本研究考慮使用的特徵點取得方式之一。他利用一系列灰度閥值對影像作二值化，然後記錄不同閥值的結果得到的區域，最後利用較寬鬆的灰度閥值測試並且留下較穩定的區域。. 12.

(24) 2.3.4 特徵點匹配 (Keypoints Matching) 取得特徵點之後，問題就在於如何有效且準確的找出對應不同影像及投影片的特徵點，我們可以很直觀的利用暴力法 (BruteForce) 對於每個存在投影片中的的特徵點，直接計算其他畫面中特徵點的相似度，這個方法在於如何定義有效的相似度，因為不同的特徵描述元採取的資料結構不同，例如 SIFT 是 128 維度的浮點數構成的相量，一般會採用歐式距離作為相似度計算的依據；而 ORB、BRISK 這類特徵描述元使用的是二元值，因此大部分會採用漢明距離來代表相似度。除了單一特徵點的比較，要將投影片和畫面匹配，需要更多特徵點來決定相似度，而每張投影片和影片畫面可以取得的特徵點數量往往相當龐大，因此利用有效的方法如 Flann Based. Matcher 或是 KNN matcher 來找出匹配點就是相當候選的工作。在取得配對的特徵點後，很容易發現許多不是配對的特徵點也被匹配，進而影響準確率，因此 [36] 利用 RANSAC[1] 的方法來排除離群值，如此便可大幅提升配對的品質。. 2.3.5 特徵點質量評估 (Keypoints Matching Evaluation) 由於前面列出的方法在不同情況的應用中會有不同的效果，為了有效率的瞭解這些方法的差異性，Mikolajczyk[14] 比較了早期影像特徵描述的性能，其中如. SIFT，PCA-SIFT，以及該文中提出利用位置變化量及方向分布來強化 SIFT 的描述 (Gradient Location And Orientation Histogram, GLOH)，比較方法是藉由定義的特徵點相似度閥值過濾掉相似度低的特徵點後利用查全率 (recall) 及查準率. (precision)，計算正確對應到的特徵點及所有取得點的關係，然後統計如映射、縮放、旋轉、模糊、jpeg 壓縮、光影變化等情況下的實驗結果，結論是 SIFT，GLOH，. PCA-SIFT 相較於其他早期的方法都有明顯較好的表現，而 SIFT 更是在多數情況. 13.

(25) 中具有優勢，反而是 GLOH 增加了計算量，但卻沒有顯著改良準確度。. Juan[25] 僅對 SIFT、SURF 以及 PCA-SIFT 等三種方法作比較，主要方法是利用 KNN 來匹配結果以及 RANSAC[1] 來濾除在空間中不一致的點，結論是 SIFT 在處理旋轉和尺度改變有較好的結果，而 SURF 則是在處理速度、光暗變化以及模糊時仍有不錯的匹配度。. Tuytelaars[23] 整理了近二十年來的特徵點偵測方法，並且將之分類為 (角點： SIFT、SURF、FAST、物體輪廓：Hessian、區塊：MSER、Suprepixel)、提出幾個特徵點偵測器的量化指標 (如重複性、強韌性、準確性、有效性)、能否處理影像的各種不變性 (旋轉、縮放、映射)，整理並討論各方法優劣，這篇文章並沒有數據上的比較，而僅有特徵點偵測亦無法提供進一步的相似度判斷，不過此文提供了許多理解如何選擇特徵點的思考角度。前年由 Miksik[44] 提出的論文中，比較了數個近代常用的區域特徵比對方法，其中包含前面章節提到的 SIFT、SURF、FAST、MSER、BRIEF、ORB、BIRSK 等方法。主要是看特徵取得的記憶體大小、重複性、全準率 (Precision-Recall)、以及特徵取得速度的比較，並且分別對於特徵點和特徵描述元作比較。結論是 ORB、. BRIEF 對於記憶體的需求較小，ORB、(SURF+BRIEF)、BRISK 在速度上有明顯優勢，準確度方面則是 SURF+LIOP[40] 或 SURF+BRISK 這兩種方法有較好的表現。LIOP 在計算速度以及消耗記憶體較大。. 2.4 投影片與影音串流匹配方法將投影片與影音串流匹配最早始於 Abowd 等人的 Project 2000[7] 計劃，當時是以手動的方式做配對，故非常耗費人工。後來才開始引入了自動辨別的方法，如. 14.

(26) [9] 就用亮度不變的特徵來找出影片中包含投影片的區域，並且利用空間關係來找出連續匹配的投影片。. 2.4.1 直接特徵比較直接比較畫面和投影片特徵的方法在 2006 年左右時出現，如 Fan 等人 [16]，將畫面分為三種類別「完整投影片 ( Full-slide)」、「部分投影片 (Small-slide)」、以及「沒有投影片 (No-slide)」。然後採用 SIFT[12] 取得特徵，並且利用 RANSAC[1] 除去可能性較低的參考點，加上背景模型的建立、顏色矯正等方法，來處理這個問題。處理的流程分為四個步驟. 1. 首先將所有的畫面標記為「未分類 (Undecided)」，並且利用 RANSAC 得到屬於「完整 (Full)」，或是「部分 (Small)」的畫面。. 2. 第二步，利用上一步得到的結果，建立一個二元分類器，分別利用特徵點 (Keypoint-based score) 相似度以及正規化的交互程度 (Normalized Cross Correlation) 作為相似度計算的依據，將畫面標記為「完整投影片 (Full-slide)」或「部分投影片 (Small-slide)」；. 3. 如果在第一部有找到標記為「部分」的畫面，則做非監督式的背景建模，例如 SVM，利用已知的背景模型來找出屬於「沒有投影片 (No-slide)」的畫面。 4. 最後，對剩下未成功標記為匹配的畫面再做一次強度更高的 RANSAC，得到完成的結果。如果畫面中包含完整的投影片，只利用 SIFT 就能有不錯的結果，相似度的算法是直接透過歐式空間取得閥值(式. 2.1)，然後以最鄰近點的方法找到相似度高. 15.

(27) 的配對，但是攝影畫面往往包含移動鏡頭或是縮放、動畫等等，因此這時候利用. RANSAC[1] 透過投影空間的單應性將相似度低的 SIFT 特徵點濾除，這裡採用正規化直接線性轉換 [10] (Normalized Direct Linear Transformation) 來估計轉換矩陣. H。在文中提到如果畫面出現完整投影片或是投影片佔有超過 50% 的面積都有不錯的效果，主要困難的地方在於部分投影片的匹配情況。. 𝑑(𝑃𝐴 , 𝑃𝐵 )2 < 𝜏2 𝑑(𝑃𝐴′ , 𝑃𝐵 )2. (式. 2.1). 2.4.2 人物遮蔽 (Occlusion) 在 Fan 等人於 2007 年提出來的方法 [20] 中，認為大部分的情況，在攝影機出現轉場特效時，例如縮放，則不會有投影片的切換；反之，若在攝影畫面靜止時，則容易出現投影片切換。他們利用這個特性，引入隱馬可夫模型 (Hidden Markov. Model, HMM)，也就是考慮不同時間的狀態變化的可能性。最後得到投影片在大部分情況是「有序地」出現，而非隨機變化。這個工作流程分為三個步驟圖 2.1，在取得輸入後，利用如 [16] 的方式將畫面分為三類，接著利用電腦視覺的單應性 (Homography) 以及分類好的畫面類別判斷攝影機事件 (例如縮放)，最後將時間資訊以及得到的事件利用 HMM 模型計算最出有可能的序列。除了上述方法，Gigonzac[21] 等人在 07 年時提出對於非專業攝影畫面之投影片配對，他們主要關注如何處理光影變化以及視線遮蔽的問題，因為在教室或是比較小型的室內利用投影機得到的教學影像，通常比較昏暗，此外也因此容易出現講者擋到畫面的問題，造成配對困難；因此這篇採用畫面明暗度先做投影片區域偵測，並且利用侵蝕和擴張處理被遮蔽的部分，然後利用 HMM 做投影片識別，用 Viterbi 演算. 16.

(28) 法找出合理的順序，得到配對的投影片；此外，他們也提到找出的區域，可以將高解析度的投影片取代原本拍攝到的模糊畫面。在 Lin[26] 等人的研究中提到使用連續的畫面得到特徵區域 (Eigenregion) ，並且使用形態學的方法，改善區域形狀，用來處理人物遮蔽的問題。此外，這個研究使用邊緣偵測加上動態時間歸整來做投影片配對；結果顯示在在數種設定好的光影變化下，都有極好的結果，但是考慮人物遮蔽時，準確度有顯著下降 (約 88%)。. 2.4.3 失焦及低解析度的錄影影像由於現代的演說呈現方式多元化，使得拍攝畫面常常含有各種不同角度的投影畫面，而在不同畫面間的切換就可能產生模糊投影畫面，除此之外，某些場合因人為操縱失誤也可能導致部分片段是模糊的畫面，這些都會降低匹配的準確度。因此在. [29] 提出改善這部分問題的方法，他們的系統架構如圖 2.2，整體而言一樣分為三個步驟，但是對於投影片匹配的處理採用 Gabor 紋路特徵，這個特徵對於失焦仍可保持不變，而且在畫面中投影片區域的偵測不是使用 RANSAC 而是 Hough 轉換. 圖 2.1: 由 Fan[20] 等人提出的流程. 17.

(29) (Hough transform)，相較於直接利用光流法 (Optical-flow) 來找出攝影事件，使用 Homogeneous motion detection 演算法找出可能發生攝影事件的畫面；此外，由於出現人物阻擋攝影畫面使得匹配投影片更加困難，以及同時出現阻擋且變換投影片的可能性並不高，因此這裡不考慮這些情況，結果顯示對於含有動畫的影片辨識度仍不高。. 2.4.4 其他情形在 2009 年開始有人對於這類問題做更多細節的討論，如 Wang[27] 等人將投影片在畫面中的狀態 (Small-slide) 再細分為三種，並且討論 [20] 這個研究在某些情況下可能出現的問題；如投影片含有動畫效果、具有重複性質的投影片 (大綱)、變化幅度很小的投影片、以及模糊的投影效果造成影像畫面失真，這些問題在該方法中仍然無法有效解決。而單獨依賴特徵匹配並無法得到好的結果，相較於 [20]，這個研究增. 圖 2.2: Wang[29] 等人提出改善失焦畫面匹配的流程. 18.

(30) 加了顏色特徵以及紋理特徵，並且利用一個失焦偵測模型分別加以處理 (圖 2.3) ，得到的結果顯示在失焦的畫面並沒有很一致的改善，也就是某些影片仍然無法直接採用這樣的方法。. Fan[36] 等人在 2011 年時提出較完整的方法描述，並且針對區域特徵、投影片與畫面的時間關聯、攝影事件做更詳細的說明，並且列出演算法，以及提供詳細的實驗結果。. 2.5 投影片與影音串流匹配之應用投影片和影音畫面匹配的結果，除了可以直接拿來做為快速瀏覽拍攝的影片所使用，也可以用來後續增強觀眾的使用體驗，例如 [28] 這個工作，除了對偵測到的投影片畫面重新處理，用投影片取代原本較為模糊化的畫面 [43]，並且找出出現在畫面中的鐳射點標記比較重要的區域。. 圖 2.3: Wang[27] 等人提出投影片對齊架構. 19.

(31) 另一個類似的工作，Talk Miner[30] 在 2010 年時被提出，主要是利用 OCR 截取畫面中包含文字的部分，以及人臉偵測，用來判斷是否為投影片畫面；然後以. SVM 分類並找出投影片和畫面之間的關係，最後建立一個系統讓使用者可以透過關鍵字的搜尋找出相關度高的課程影片，過程如圖 2.4。. 2.6 投影片定位 (Slides Registration) 在配對投影片時會遇到的其中一個問題，是由於投影片出現在畫面中不一定剛好佔滿整個畫面，而且隨著攝影機拍攝角度變動，也可能出現形變，因此如果可以找出在影片畫面中的投影片位置，便可以區隔背景和前景，這將大大增加匹配的準度，而在其他應用中，例如 Kharitonova[43] 等人以及 Cheung[31] 等人的研究也都會使用這類技術；後面會討論例如利用明暗度二值化、RANSAC、或是特別為這個問題設置的方法 Bundle adjustment[24]. 圖 2.4: Talk Miner[30] 課程影片搜尋應用的流程. 20.

(32) 第三章研究方法本研究參考 [20] 的方法架構，他主要利用特徵點偵測、辨識的方法找出特徵點，然後基於這些特徵點，利用 SVM 建立背景模型，將畫面分類為沒有包含投影片的及有包含投影片的畫面兩類，對於包含投影片的畫面，在這個階段以 RANSAC 來提高相似度，投影片的符合程度可達 80% 左右，最後利用時間模型修正時間與投影片順序的關係，本研究希望在維持準確度的同時做執行速度的改良，因此以單應性映射後的投影區域比值作為無投影片分類特徵，取代 SVM 模型建立需要較大計算量的缺點。此外辨識有投影片的畫面本研究採用多個特徵加權結果來共同決定，不但提升準確度，也將投影片出現會有前後順序的時間因素限制去除。接下來的小節中，在 3.1將介紹本研究的系統架構，3.2會說明資料前處理的過程，3.3節說明本研究取得影像之單應性相關特徵之方法，包含 3.3.1節使用 [12] 的方法找出影像中的尺度不變特徵點及其描述方式，3.3.2節說明特徵點匹配方法及如何以最臨近與次鄰近匹配點比值濾除不相似的特徵點；3.3.4提到如何使用 RANSAC 的方法得到更加具有區辨力的特徵點及其單應性矩陣；找到有效的特徵點後，在3.4節說明如何將畫面分類為「有投影片」及「無投影片」兩類，本研究以配對結果的單應性映射面積比例作為門檻值，將不符合門檻值的畫面當作無投影片的畫面；經過上面的方法，3.5節說明如何在最後剩下約 0.2% 的畫面中取得有畫面的辨識結果；. 3.5.1利用單一畫面配對全部投影片的相似度辨識最可能的結果。3.5.2以投票方式選出正確的投影片，並且利用定義的投票信度來修正配對的結果。. - 21 -.

(33) 3.1 方法流程本研究提出的方法流程如圖 3.1，首先我們先對輸入的影片做前處理，因為本研究辨識結果是基於影片的特徵配對而得，因此需要執行大量的特徵點匹配計算，而匹配又跟輸入的投影片頁數有關，因此如果能去除類似畫面便能減少計算量，我們將完成前處理的畫面稱為候選畫面，其數量可以剩下不到 1%，以本實驗的研究結果來估算，經過此步驟可以從三天的時間節省為 20 分鐘。在取得候選畫面後，分別對投影片和候選畫面找出特徵點及其對應的特徵，因為畫面可能是其他非投影片的背景，所以特徵可能包含各式各樣的結果，本研究對於這樣的問題，先以最臨近方法找出前兩名相似的匹配點，然後分別以 (最相似/次相似) 配對點的相似度比值作為濾除依據，再以隨機多樣性一致 (RANSAC) 的方法找出配對的影像與投影片之單應性特徵矩陣，分別得到單應性映射到畫面的邊界及. RANSAC 得到的的匹配點集合。. 圖 3.1: 本研究提出的流程，左方為輸入資料錄影畫面及投影片，錄影畫面會先經過前處理選出候選畫面，接著利用候選畫面與所有的投影片配對，然後利用配對結果做畫面分類、辨識，最後利用投票過程修正投票結果得到輸出. 22.

(34) 找出在畫面中的匹配特徵點後，可以本研究直接利用匹配點的平均相似度作為配對特徵之一；但是經過前處理的候選畫面可能包含其他非投影片的部分，例如台上的講者，而這部分也可能出現特徵點，因此造成直接以全部匹配點平均的相似度不夠準確；所以我們對所有的配對結果另外定義選出 4 種「投影片 -畫面」層級的特徵，這些特徵包含單應性映射後的對應點平均、映射面積比例等，我們發現面積比例佔有十分顯著的區辨力。利用映射面積比我們在這個階段可以再除去約 80% 的「無投影片」畫面並且在實驗中保留 100% 的錄影轉換片段。在 Recognition 的階段，我們已經保留大部分具有「投影片」的畫面，從實驗結果來看約剩 0.2%，因此可以直接用上述過程中找到最相似的投影片直接作為辨識結果。但是因為單一辨識結果不能保證結果的正確性，也沒有辦法法排除「無投影片」的畫面，因此我們採用前面定義的五種特徵投票來決定最後判別的「投影片 -畫面」配對，在我們的研究範圍內，可以找出 100% 的投影片，及 95% 正確的「對應投影片」畫面切換片段。. 3.2 前處理由於配對的過程是檢查所有投影片對應到所有畫面的相似度，因此在處理主要配對流程之前，若先濾除連續的類似畫面，減少多餘的配對計算，可以節省在重複計算特徵點的時間；我們不採用固定時間取樣畫面的方式，因為同樣畫面可能連續出現一段時間，因此固定時間取樣仍然會出現許多類似畫面，使用本研究提出的方法，才能將連續的類似畫面濾除。此外，投影片的尺寸大小也會影響特徵點計算速度，因此這個階段同時也將投影片縮放至與影片畫面相同尺寸。. 23.

(35) 3.2.1 處理對象為了方便後面的描述，我們在這裡限定義要處理的對象，以及基本的相關名詞。在這裡要找出的候選畫面是從所有畫面選出，因此將處理對象集合記為所有出現在錄影片段中的畫面編號 𝐹 = {𝑓𝑖 |𝑓𝑖 ∈ video input}，我們希望去掉連續且類似的畫面，從數位影像中，最簡單的方式是直接觀察兩張畫面的紅、藍、綠通道值總和相減後的差異如，其相減的方式定義為. 𝑤. ℎ. 𝑑𝑖𝑗 = ∑ ∑ 𝑎𝑏𝑠(𝑖𝑚𝑔𝑗 (𝑥, 𝑦) − 𝑖𝑚𝑔𝑖 (𝑥, 𝑦)) 𝑥=0 𝑦=0. where 𝑖𝑚𝑔𝑖 (𝑥, 𝑦) = 𝑠𝑢𝑚(𝑅𝑖𝑥𝑦 , 𝐺𝑖𝑥𝑦 , 𝐵𝑖𝑥𝑦 ). 我們將前後兩張畫面 (𝑓𝑡 , 𝑓𝑡+1 ) 相減後的差異值取絕對值加總，會出現如圖 3.2的特徵，圖中波峰處即為差異較大的候選畫面，但是這樣做容易因為畫面背景的雜訊或是光影變化導致候選畫面數量仍然相當多；因此我們採取平均一段時間的畫面，建立背景影像(式. 3.1)，然後取該時間的最後一張畫面作為候選參考畫面並與之相減，記為 𝑑𝑓𝑡 = 𝑑𝑏𝑔𝑡 ,𝑓𝑡 ；我們將所有的畫面計算後會得到如圖 3.3的結果，可以看. 圖 3.2: 將連續兩個錄影畫面相減後，分別觀察紅 (R)、綠 (G) 、藍 (B) 三種顏色的個別差異，縱軸為差異量，橫軸為畫面編號. 24.

(36) 到圖中橫軸代表畫面編號，縱軸代表計算後的值，畫面變化明顯的地方會出現較大的波峰。 𝑡−30. 𝑏𝑔𝑡 =. ∑𝑓=𝑡 𝑖𝑚𝑔𝑓. (式. 3.1). 30. 我們將所有的畫面與背景畫面差異記錄下來，並且計算這些差異值平均，然後保留差異值大於平均的畫面編號為一個新的集合 𝐹𝑓𝑑 ，如(式. 3.2)，過濾的結果如圖圖 3.4，可以看到大部分的點去除後，剩下的是畫面有成群出現的趨勢。. 𝐹𝑓𝑑 = {𝑓𝑖 |𝑑𝑓𝑖 >. ∑𝑛𝑗=1 𝑑𝑓𝑗 𝑠𝑖𝑧𝑒(𝐹 ). }. (式. 3.2). 最後，我們保留每個連續的畫面群組中的最大差異值作為候選畫面 𝐹𝑐 ，其結果示意如圖 3.5，我們在這個階段，可以濾除 99% 以上的畫面，而節省同比例的匹配時間。. 圖 3.3: 部分連續畫面差異值，𝑑𝑓𝑡 為圖中 diff 線段，以全部的 𝑑𝑓𝑡 平均作為門檻過濾後可以得到圖 3.4的結果. 25.

(37) 𝐹𝑐 = {𝑓𝑖 |𝑎𝑟𝑔𝑚𝑎𝑥(𝑑𝑓𝑖 ), ∀𝑓𝑖 ∈ each frame groups}. 經過上述的處理方式，為了驗證這個方法的有效性，我們觀察了幾個片段中的結果，發現確實能夠有效的減少畫面數量，並且得到差異幅度顯著的畫面，如圖 3.6 中的藍線為實際資料的結果，而黑線則是計算出來的結果，可以看到在黑線的波峰處，. 圖 3.4: 以平均差異過濾後的畫面分布為數個群集，從這些片段後可以發現畫面十分相似，因此再取出每個連續片段的最大的畫面差異以降低候選畫面數量. 圖 3.5: 經圖 3.4過濾後，最後留下的單一畫面點，圖中紅點即包含視覺差異較大的錄影畫面時間點，後續方法將以此作為配對畫面對象. 26.

(38) 都是畫面出現明顯變化的點，且和前一個畫面確實不同，和下一個續畫面則是十分相似。. 3.3 單應性相關特徵 (Homographic Characteristics) 因為畫面中可能出現投影片的位置與大小無法確定，且錄影畫面的顏色和投影片的原始顏色可能有誤差，為了在這種的情形找出投影片在畫面中的位置，並且顧及不會被平移、縮放、旋轉等因素影響，本研究使用尺度不變特徵 [12] 的方法來找出影像特徵。. 3.3.1 尺度不變特徵轉換 (SIFT) 這個方法主要包含四個步驟，首先，為了具有尺度不變性，他建立一個尺度空間金字塔如圖 3.7 左方，金字塔中每層 (octave) 包含不同解析度 (Resolution) 的原始影像，而每組中又分為數個尺度 (Scale) 的高斯影像 𝐺(𝑥, 𝑦, 𝜎)，這些尺度利用高斯. 圖 3.6: 比較候選畫面和該畫面前後相鄰畫面比較圖，此圖在每個時間點下方標記出對應的實際投影片編號，上方前後時間點的對應畫面，藍線為實際片段區間，黑線則是根據平均相減計算出來的變化量. 27.

(39) 模糊計算得到，用來模擬人類視覺由近到遠的對焦程度。第二步是找出特徵點的位置與方向，這些特徵點會出現在物體的邊緣，為了取得邊緣影像，先利用取得的尺度空間影像，將相鄰影像相減得到高斯差分結果(式. 3.3)，這是一種近似於高斯拉普拉斯 [2]LoG(Laplace of Guassian) 的方法(式. 3.4)，可以用來強化影像細節，並且找出邊緣特徵；. 𝐷(𝑥, 𝑦, 𝜎) = (𝐺(𝑥, 𝑦, 𝑘𝜎) − 𝐺(𝑥, 𝑦, 𝜎)) ⊗ 𝐼(𝑥, 𝑦). 𝐿(𝑥, 𝑦, 𝜎) = 𝐿(𝑥, 𝑦, 𝑘𝜎) − 𝐿(𝑥, 𝑦, 𝜎). (式. 3.3). (式. 3.4). 接着找出發生在邊緣影像上的極值點，方法是比較每個像素點與周圍 3 × 3 × 3 的像素點灰度值大小，留下具有最大或最小的點如圖 3.8，用這些點作為描述特徵的位置；但因為取樣的關係，造成區域極值可能不是真的最大或最小值圖 3.9，因此再利用. 圖 3.7: 高斯差分尺度金字塔 [12]. 28.

(40) 泰勒展開式將高斯差分結果(式. 3.3)展開如(式. 3.5). 𝐷(𝑋) = 𝐷 +. 𝜕𝐷𝑇 1 𝜕 2𝐷 + 𝑋𝑇 𝑋 𝜕𝑋 2 𝜕𝑋 2. (式. 3.5). 最小化後得到實際的區域極值點(式. 3.6)。. 𝜕 2 𝐷−1 𝜕𝐷 𝑋(𝑥, 𝑦, 𝜎) = − 𝜕𝑋 2 𝜕𝑋. (式. 3.6). 此外，對於邊緣上的極值點，如果只有一個方向被找出，被認為是不穩定的特徵點，因此利用類似 Harris 角點檢測的方法，用來過濾邊緣彎曲程度不高的位置，為了降低計算量，這個方法透過計算 Hessian(式. 3.7)矩陣的 Trace 與行列式值 (determinant) 來找出邊緣彎曲程度不高的點(式. 3.8)、(式. 3.9)，其中 𝜆𝑚𝑎𝑥 為. 圖 3.8: 高斯差分局部極值點，由上到下分別為 𝐷(𝑘2 𝜎), 𝐷(𝑘𝜎), 𝐷(𝜎). 29.

(41) Hessian 矩陣最大特徵值，𝜆𝑚𝑖𝑛 為最小特徵值，𝛾 = 𝜆𝜆𝑚𝑎𝑥 。 𝑚𝑖𝑛. ⎡𝐷𝑥𝑥 (𝑥, 𝑦) 𝐷𝑥𝑥 (𝑥, 𝑦)⎤ ⎥ 𝐻(𝑥, 𝑦) = ⎢ ⎢ ⎥ 𝐷 (𝑥, 𝑦) 𝐷 (𝑥, 𝑦) 𝑦𝑦 ⎦ ⎣ 𝑥𝑦. (式. 3.7). ⎧ { 𝑇 𝑟(𝐻) = 𝐷𝑥𝑥 + 𝐷𝑦𝑦 = 𝜆𝑚𝑎𝑥 + 𝜆𝑚𝑖𝑛 ⎨ { 𝐷𝑒𝑡(𝐻) = 𝐷𝑥𝑥 𝐷𝑦𝑦 − 𝐷𝑦𝑦 2 = 𝜆𝑚𝑎𝑥 ⋅ 𝜆𝑚𝑖𝑛 ⎩. (式. 3.8). 𝑇 𝑟(𝐻)2 (𝜆 + 𝜆𝑚𝑖𝑛 )2 (𝛾 + 1)2 = 𝑚𝑎𝑥 = 𝐷𝑒𝑡(𝐻) 𝜆𝑚𝑎𝑥 ⋅ 𝜆𝑚𝑖𝑛 𝛾. (式. 3.9). 接着，為了找出能夠描述特徵方向的值，選擇對於具有特徵點的尺度影像 𝐿，並且對其做有限差分(式. 3.11)，以特徵點為中心，計算半徑為 1.5𝜎 的像素，得到強度值. 𝑚 及角度 𝜃。. 圖 3.9: 極值點重採樣. 30.

(42) 𝐿(𝑥, 𝑦) = 𝐺(𝑥, 𝑦, 𝜎) × 𝐼(𝑥, 𝑦). (式. 3.10). ⎧ { 𝑚(𝑥, 𝑦) = √(𝐿(𝑥 + 1, 𝑦) − 𝐿(𝑥 − 1, 𝑦))2 + (𝐿(𝑥, 𝑦 + 1) − 𝐿(𝑥, 𝑦 − 1))2 ⎨ { 𝜃(𝑥, 𝑦) = 𝑎𝑟𝑐𝑡𝑎𝑛( 𝐿(𝑥,𝑦+1)−𝐿(𝑥,𝑦−1) ) 𝐿(𝑥+1,𝑦)−𝐿(𝑥−1,𝑦) ⎩ (式. 3.11) 得到梯度方向和強度後，將其以每 10 度為一個區間，統計每個區間的數量圖 3.10，以最多數量的方向分布為主方向，若有其他方向達到主方向分布的 80% 則判定為輔方向，用來加強特徵點的穩定性，對於具有多方向的特徵點，將複製特徵描述單元並保留兩個不同方向的結果圖 3.11。最後，為了提升特徵點在光線變化、視角轉換的強韌性，在每個特徵點的四周的像素也納入考慮，因為生物視覺神經細胞對於梯度變化可以視為某種頻率及方向的表示，故特徵點周圍區域的梯度分布可以作為特徵描述的參考；方法是以特徵點為中心，0.5𝜎 的範圍，分為 4 × 4 的區塊，計算每個區塊梯度方向的分布，這裡將方向分為 8 個，每 45 度為一個區間，最後可以形成一個 4 × 4 × 8 = 128 維度的描述單元向量圖 3.12。. 圖 3.10: SIFT 梯度方向計算方式. 31.

(43) 3.3.2 匹配特徵點下圖 3.13即為使用 SIFT 方法套用在投影片及畫面中的結果。可以發現上 (錄影畫面) 和下 (投影片) 有十分類似的特徵點分布。找到特徵後就可以藉由特徵點的配對，找出相似度高的圖片。這部分，常見的方法有最接近距離法 (NN:Nearest Neighbor)，暴力搜尋法 (BruteForce 即 1-NN)，後面這個方法就是直接對所有點比較特徵點距離，然後搜尋最相似的結果，判斷為配對，計算過程較單純；但根據 D.G.Lowe 博士的建議，採用兩個最接近的候選點比. 圖 3.11: 多梯度方向處理. 圖 3.12: SIFT 特徵描述單元. 32.

(44) 較其距離，然後以門檻值過濾，是比較好的方式，因此我們採取前者。而 NN 的方法則是找出鄰近的兩個相似點，過濾掉距離差異小於一定門檻的特徵. (本研究為 10%)。在本研究的實驗的過程中，因為暴力法並沒有辦法有效的將足夠特徵點濾除，導致不相似的特徵點過多影響結果；因此後來採用 NN 的方法 (圖 3.14的所有線段) 取得所有配對後，濾除相似度差異小於 0.8 的節點，在一般情況下，可以過濾原本所有特徵點的 90%。大幅的提高在配對時需要的相似度判斷準確性。. 3.3.3 單應性 (Homography) 及投影 (Projection) 有了匹配的特徵點，我們利用這些可信度高的影像特徵點計算出對應的投影片對應錄影畫面的單應性，找出投影片在錄影畫面中的位置與大小的資訊，這些資訊在後面用來分類畫面是否具有投影片時十分有用；方法是以對應特徵點 𝑝𝑎 , 𝑝𝑏 計算出單應性 (Homography) 矩陣 𝐇 如(式. 3.13) 並且求得最小誤差作為投影模型，但是因為我們事前沒辦法確定所有的特徵點都在投影片的範圍內 (甚至有些畫面沒有出現投. 圖 3.13: 對投影片及錄影畫面的特徵點辨識結果，左至右分別為原圖、灰階化的結果、特徵點及其描述方式. 33.

(45) 影片)，因此我們需要找出誤差最小的單應性矩陣，而使用 RANSAC 的方法利用多次迭代後找出誤差最小的模型，是最直觀的做法。. ⎡𝑤′𝑥𝑎 ⎤ ⎡ℎ11 ℎ12 ℎ13 ⎤ ⎡𝑥𝑎 ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ 𝑝𝑎 = ⎢ 𝑦𝑎 ⎥ , 𝑝𝑏 ′ = 𝑝𝑎 ⋅ 𝑤′ = ⎢ 𝑤′𝑦𝑎 ⎥ , 𝐇𝐚𝐛 = ⎢ℎ21 ℎ22 ℎ23 ⎥ ⎢ ⎢ ⎥ ⎢ ⎥ ⎥ ⎢ ⎢ ⎥ ⎢ ⎥ ⎥ 1 𝑤′ ℎ ℎ ℎ ⎣ ⎦ ⎣ ⎦ ⎣ 31 32 33 ⎦ 𝑝𝑏 ′ = 𝐇𝐚𝐛 ⋅ 𝑝𝑎 , where 𝐇−𝟏 𝐛𝐚 = 𝐇𝐚𝐛. (式. 3.12). (式. 3.13). 3.3.4 隨機抽樣一致性 (RANSAC) 為了找出誤差最小的單應性矩陣，假設在能將投影片能對應到畫面的前提下，給定一組少量的群內值 (inliers)，就能找出整體的群內值的單應性投影對應，進而發現不再投影範圍內的群外值，就本研究的應用而言，即是畫面雜訊、人物背景的特徵點。以下我們用圖 3.15及圖 3.16說明其流程，圖 3.16a分別是投影畫面 (Target) 與投影片 (Template) 的特徵點，圖 3.16b是隨機選定的三個點。. 圖 3.14: 特徵點配對結果，其中綠色線段為採用 RANSAC 過濾後的線段，右邊綠色方框為利用過濾後的特徵點找出的轉換矩陣. 34.

(46) 除了用來決定一個平面，同時用來測試是否存在 Target 中有最小誤差的配對，若有就保留下來，並且加入更多點觀察是否仍然滿足夠小的誤差；重複這個模式 N 次，找出誤差最小的結果，通常就是一個足夠好的配對，其虛擬碼列於 (Algorithm.. ??)。這個方法顯然會隨着迭代次數增加而降低誤差，但也會因此需要更多計算時間。圖 3.14為本研究採用 RANSAC 後的結果示意圖，可以看到找到的綠色線段在右邊的綠框範圍內，此外配對到的特徵點數量也少了許多。. 圖 3.15: RANSAC 流程圖. (a) 投影片與畫面特徵點. (b) 隨機選取參考群內值. (c) RANSAC 估計結果. 圖 3.16: 應用在尋找影像單應性的 RANSAC 流程示意圖. 35.

(47) 3.4 區分畫面類別在此節將介紹如何利用取得的特徵點有效辨識出屬於投影片的部分，及不屬於投影片的部分。整個流程分為先利用全域的相似度採用高斯混合模型辨識出無投影片的畫面，這部分有近 100% 的準確度，再以單一畫面配對所有投影片的相似度來決定畫面屬於投影片的編號。. 3.4.1 利用高斯混合模型分類每張錄影畫面，都有可能是投影片中的任意結果，包含任何一張投影片、或者只拍攝到一張投影片的局部區域、甚至不包含任何投影片內容，因此這個階段的工作就是在投影片中找出最相似的配對畫面。這是一個頗困難的問題，因為在配對到的特徵點中相同的特徵點擁有較高的相似度，然而即使是不同的配對，也可能出現非常高的相似度，造成配對結果的判定無法單以配對相似度來判斷。此外，如果投影片包含雷同的內容，或是採用動畫呈現結果，都會對結果有十分顯著的影響。基於上述原因，先辨識出非投影片，和投影片兩大類別的畫面，以降低後續辨識投影片出錯的機率。從投影片的的二元分類着手，本研究將相似度定義為所有配對特徵點的距離直接相加取平均，如圖 3.17，從該圖可以很明顯發現，屬於非投影片的相似度和投影片的相似度的分布大致上分為兩個群集，從這個角度出發，為了能夠動態決定在不同錄影片段的結果，本研究採用高斯混合模型來預測分類結果。如圖中的綠色 (下半段) 及粉紅 (上半段) 網底，這個階段可以達到 98% 以上的分類準確率。由側面觀察，可以發現由混合模型找出的結果中，被錯誤分類為非投影片的部分，有許多聚集在圖 3.18的最右端，可以看到許多被標記為有投影片頁碼的分類情. 36.

(48) 形，而這些顯然錯誤的歸類，是因為採用高斯混合模型時，不同的高斯分布在標準差不同情況有不同的重疊程度所導致；就本研究而言，這些過高的相似度在大部分場合都意味着屬於沒有投影片的畫面，因此這裡會作一個預測結果的後處理，將相似度高於無投影片分類的結果直接判斷為無投影片，結果如圖 3.19，可以看到錯誤的標記在右方大幅降低，藉此甚至可將無投影片的判斷準確度提升至接近 100%。. 3.5 辨識畫面觀察有投影片的相似度分布，可以從圖 3.20觀察相似度在錄影畫面和投影片之間的關係，我們很容易發現大部分正確的投影片和畫面具有較高的相似度，然而某些例外的情況如圖 3.21 就出現無法套用這個判斷方式的反例。. 圖 3.17: 畫面相似度示例，其中縱軸為相似度倒數，故值越低越相似，橫軸為畫面編號，以時間排序。藍線為高斯混合模型找出的平均值，綠色圓點為包含投影片的畫面，紅色 x 為非投影片的畫面，五角形為預測為投影片的結果，六角形為預測為非投影片的結果. 37.

(49) 圖 3.18: 特徵點配對統計直方圖，由圖 3.17 統計相似度出現頻率的分布情況，並且加入預測結果標記，-1 為非投影片分類。其他數字為預測的投影片編號，綠色線段是預測為有投影片的分類，紅色則是沒有投影片的分類. 圖 3.19: 經過後處理可以發現在右邊的投影片編號大多數被校正為無投影片的分類，少部分仍然出錯的情形是因為這些畫面中包含較多非投影片的雜訊，如人物背景等等. 3.5.1 建立更多特徵辨識畫面因為我們發現以單一特徵沒辦法在這個階段辨識出「無投影片」的畫面，且在某些配對可以發現只依賴平均相似度有許多不足之處，因此我們分別又定出以「前 50 名的相似度平均」、「經 RANSAC 取得的配對相似度平均」、「單應性映射範圍內配對負權重相似度平均」、及「單應性映射投影面積比例」等共五種相似度特徵。我們. 38.

(50) 圖 3.20: 觀察相似度在每個畫面和投影片的關係，可以發現大部分正確的投影片具有較高的相似度 (較低的距離) 圖中紅色為實際值，綠色為預測結果，白色為相似度倒數，值越大代表約不相似，x 軸為投影片編號，y 軸為錄影畫面按時間排序的編號，z 軸為相似度倒數. 圖 3.21: 這個圖中顯示大部分的相似度都很接近時，會產生錯誤的判斷結果 x 軸為投影片編號，y 軸為錄影畫面按時間排序的編號，z 軸為相似度倒數取出部分候選畫面呈現如圖 3.22及圖 3.23所示。從圖中可以明顯看到由單應性特徵取得的面積比例在這裡是區辨力相當高的特徵之一，而前 50 名特徵點平均取得的結果透過前一節的高斯模型分類方式也有相當的區辨力。下表3.1為去除無投影片的畫面後，以畫面為主找出所有配對的投影片中的最相似的作為辨識結果。如前面所提到，用單一特徵作判斷，在這個階段無法決定沒有投影片的畫面，所以我們重新觀察表中的選項發現：在大部分情形中，如果有過半的特徵可以辨識出同一張投影片，那通常會和實際結果一樣。例如 Frame ID 10127，有. 4 個特徵都將畫面辨識為 9 的結果，和實際結果相符。. 39.

(51) Similarity Comparison [univ_07-coates] Mean Dist 325. Slide ID. 40. 300 275. 30. 250 20. 225 200. 10 200. 175 225. 250. 275. 300. Candidate ID. 325. 350. 375. 150. Rdist. 325. Slide ID. 40. 300 275. 30. 250 20. 225 200. 10. 175 200. 225. 250. 275. 300. Candidate ID. 325. 350. 375. Inv Rdist. 0 −3000. Slide ID. 40. −6000 −9000. 30. −12000 −15000. 20. −18000 −21000. 10. −24000 200. 225. 250. 275. 300. Candidate ID. 325. 350. 375. 圖 3.22: 圖中橫軸為投影片編號，縱軸為候選畫面編號顏色為相似度，越小越相似，由上而下包含「全部配對點相似度平均」、「經 RANSAC 取得的配對相似度平均」、「單應性映射範圍內配對負權重相似度平均」等特徵計算的結果. 3.5.2 投票機制有了前一節的前提，我們利用這五個特徵以及相同的權重決定一致性. (Consistency) 如表 3.3，並且在一致性低於一半時，將結果判斷為「無投影片」，如表3.2。這個步驟可大增結果的正確性。. 40.

(52) Similarity Comparison [univ_07-coates] Top50. 330 300. 40. Slide ID. 270 240. 30. 210 180. 20. 150 120. 10. 90 200. 225. 250. 275. 300. Candidate ID. 325. 350. 375. Area Ratio > 0.9. 40. Slide ID. 0.9 0.7. 30. 0.6 0.5. 20. 0.4 0.3. 10. 0.1 200. 225. 250. 275. 300. Candidate ID. 325. 350. 375. 圖 3.23: 圖中橫軸為投影片編號，縱軸為候選畫面編號顏色為相似度，越小越相似，由上而下包含「前 50 名的相似度平均」、「單應性映射投影面積比例」等特徵計算的結果表 3.1: Ground 為實際對應的投影片編號，-1 為沒有投影片的畫面，Area 為以投影片在錄影畫面中的面積比，Top50 為前 50 個相似的配對平均值，Mean 為全部配對的相似度平均，RANSAC 為以單應性投影範圍內的配對作平均，Inversed 為負權重平均. Frame ID Ground Area Top50 Mean RANSAC Inversed 4510 7848 8522 10127 11252 16397 17353 28460 65191 67011. 1 6 7 9 11 -1 15 -1 47 -1. 1 6 7 9 11 15 15 45 1 33. 1 6 7 9 11 15 15 4 47 8. 41. 1 6 7 3 11 15 15 3 47 2. 1 6 7 9 11 2 15 4 47 2. 1 48 2 3 11 2 15 3 39 2. < 0.1.

(53) 表 3.2: 下表中在 Ground（實際值）之後的欄位由左至右分別為 Area：單一區域比值的結果，A,Top50：區域比值及前 50 相似配對平均的投票結果，AT,Mean：單以區域、前 50 平均、所有平均共同決定的結果，All：採用3.1所有特徵判斷的投票結果，All+Refine：全部的投票結果加上下個節所使用的改良方法。. Frame ID Ground Area A,Top50 AT,Mean All All+Refine 4510 7848 8522 10127 11252 16397 17353 28460 65191 67011. 1 6 7 9 11 -1 15 -1 47 -1. 1 6 7 9 11 15 15 45 1 33. 1 6 7 9 11 15 15 -1 -1 -1. 1 6 7 9 11 15 15 -1 47 -1. 1 6 7 9 11 15 15 -1 47 2. 1 6 7 9 11 15 15 45 47 33. 但是從整體的結果來看，如4.3中的紫色線段，可以發現在部分一致性過低的投影片仍然會有錯誤的結果。因此最後一個動作就是我們將投票辨識完成的結果重新修正，我們將每個投影片出現的前後兩個一致性落差過大的結果，重新投票決定最後的辨識投影片編號。. 表 3.3: 表中欄位參考3.2的定義，內容為對應投票方式的一致性，因本表 Frame ID 不連續，無法觀察得到在文中提到的現象，可參考圖 4.3。. Frame ID Ground 4510 7848 8522 10127 11252 16397 17353 28460 65191 67011. 1 6 7 9 11 -1 15 -1 47 -1. Area A,Top50 AT,Mean 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%. 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 50.0% 50.0% 50.0%. 42. All All+Refine. 100.0% 100.0% 100.0% 80.0% 100.0% 80.0% 66.7% 60.0% 100.0% 100.0% 100.0% 60.0% 100.0% 100.0% 33.3% 40.0% 66.7% 60.0% 33.3% 60.0%. 100.0% 100.0% 100.0% 66.7% 100.0% 100.0% 100.0% 33.3% 66.7% 33.3%.

(54) 第四章實驗本章將針對前述方法說明相關的實驗結果，4.1節會說明實驗環境及資料特性、取得來源等細節；4.2節說明主要的方法成效評估方式，包含覆蓋率、時間、及使用的儲存容量。本研究共規劃三個階段的實驗，分別驗證每個階段的成效，且包含獨立的結果討論，也就是說，每個實驗都規劃獨立觀察的部分以了解方法本身的成效。第一階段在4.3節討論前處理的結果；第二階段4.4節，討論畫面分類的結果，並且得出選擇那些特徵比較適合「畫面 -投影片」層級的分類。最後一個階段是4.5節，說明整體的切換點正確率、完整時間軸的比較、以及實驗所使用的錄影與投影片之配對結果縮略圖的展示。. 4.1 環境及資料設定實驗的主要運算環境如下列表 4.1，在實驗的過程中為了避免錯誤而中斷以及加速後續實驗進行，特別加入硬碟及時存取的機制，因此實驗速度仰賴於硬碟存取，特別列出之。實際運行的結果，發現在其他平台確實有近兩倍的執行速度。程式平台為. Ubuntu 13.10 Linux, Python 2.7.6, OpenCV 2.4.8. 4.1.1 測試資料本研究的測試資料搜集自 [27, 36]，其中 [36] 的資料詳細屬性列於4.2，該資料亦提供標記結果 (包含所有取樣的畫面、且提供攝影機角度變化狀態)，但經過實驗. - 43 -.

以投影片單應性映射之相關特徵進行演 講影片分析研究

以投影片單應性映射之相關特徵進行演講影片分析研究