使用結構性輸出之機器學習方法於電影精彩度預測

全文

(1)國立台灣師範大學資訊工程研究所碩士論文. MOVIE HIGHLIGHT DETECTION USING STRUCTURED OUTPUT LEARNING 使用結構性輸出之機器學習方法於電影精彩度預測. 研究生：許浩禎指導教授：葉梅珍博士. 中華民國. 102 年. 7. 月.

(2) 摘要. 在多媒體內容分析領域的近期研究中，針對時間事件的偵測成為了廣泛探討的議題。一個可靠的時間事件偵測技術存在著許多的應用，例如個人視角的生活觀察及預測大範圍災害持續時間等。從這些應用中，我們可以發現早期事件偵測 (Early event detection)也漸漸受到重視。對於人們在觀賞電影時，可以很自然地了解到接下來的劇情將要進入精彩，如果可以讓機器也能如人類感知般，了解到電影的精采度變化，將是一件有趣的工作。在本論文中，我們提出一個藉由機器學習模型結構性輸出支持向量器 (Structured Output SVM) 的方法實現電影上的精采度偵測器，有別於傳統 SVM 的輸出侷限於一個數字或一個標籤，Structured Output SVM 的輸出格式可以是一個複雜的結構物件，例如是一張圖片、一個框架或是一段時間區間等等。在預測精彩片段的學習上，Structured Output SVM 提供了更有彈性的輸出，使我們能夠更直接的解決問題。在本篇論文中，我們利用電影動作片進行實驗，並透過此模型所計算的信心度自動的辨識出精彩場景。. 關鍵字: 多媒體內容分析，時間事件偵測，機器學習. ii.

(3) ABSTRACT In multimedia content analysis research, early detection of temporal events from sequential data has been a popular topic. For example, there exist many potential applications from highlight review in first person perspective to video security. This thesis presents an early highlight detection system for movies. The proposed method is based on Structured Output SVM (SOSVM). Unlike conventional SVMs, SOSVM provides structured output, which is more suitable for a highlight detection task. Among many genres of movies, we conducted experiments on action movies. The experimental results show the developed system can be used to automatically identify highlight scene segments with high confident scores.. Keywords Multimedia content analysis; Early detection; Structured Output SVM;. iii.

(4) 誌謝在台師大研究所這兩年中，首先非常感謝我的指導教授葉梅珍老師。感謝老師總是有耐心且細心的指導我在多媒體領域上的知識。從每次的實驗室報告中，引導我學習有條理地去瞭解領域中的最新知識，訓練我對於專業領域的思考。老師總是循循善誘的帶領我們進入多媒體領域，對於我的資質駑鈍總是能心平氣和地給予我最好的建議及協助。在這兩年中，我不但學習到了多媒體領域的知識，也從老師身上學到了如何成為一個好的指導者，學習老師的文筆及溝通，也是學生未來極力想達成的目標。在多媒體實驗室這兩年，老師給了我參與多項會議的機會，包括日月潭的 CVGIP、墨爾本的 ICME 及奈良的 ACM，參加這些大型會議對我來說就好像劉姥姥進大觀園，初見世面，注目不暇。從這些會議中，看到全世界的研究者精采的成果，更了解自己在知識上的薄弱，也有幸能親身感受在書海無涯漫遊的快感。感謝老師給我這麼多開闊自己視野的機會，這是我在研究所前所未有的收穫。同時我也要感謝實驗室的成員們:文博、柏逸、百琮、淳卉、媖詞、晏瑋、尹廷、曉薇、少廷。感謝文博、柏逸在我碩一的時候，給予我在修課上的建議，無時無刻陪在實驗室與我討論報告及作業。感謝百琮，每次在我危急之秋，都不辭辛勞地跑來指導我、解救我，相信有你這樣的老闆，員工一定是很幸福的。感謝淳卉、媖詞在課業與論文上時常和我討論，幫我釐清了許多的盲點，與你們一同學習互相勉勵真的很快樂。感謝學弟妹們，在你們的報告中，我得到了許多在研究上的啟發，特別感謝晏瑋、尹廷不辭辛勞的幫我準備實驗資料，希望學弟妹在往後的研究中也能順順利利的。最後要感謝我的家人及貞宜，謝謝你們願意給我這個機會，繼續攻讀碩士，給予我鼓勵與支持，總是當我最堅強的後盾，讓我能心無旁騖的繼續念書。學生許浩禎 2013/07/26 iv.

(5) 目錄附表目錄. v. 附圖目錄. vi. 第一章. 簡介. 1. 1.1. 研究背景與動機...…………………………………………2. 1.2. 系統架構…………...………………………………………4. 1.3. 文章架構………...…………………………………………6. 第二章. 相關研究探討. 7. 2.1. 電影內容分類及特徵擷取...………………………………8. 2.2. 機器學習應用於事件偵測…...……………………………9. 第三章. 產生訓練樣本及特徵擷取……………………………......12. 3.1. 產生訓練樣本……….........………………………………13. 3.2. 特徵擷取…………......……………...……………………13. 第四章. 建立精彩場景偵測器. 16. 第五章. 實驗結果分析. 20. 5.1. 電影集…………......……………...………………………20. 5.2. 平均偵測率與偽陽性率.....………………………………21. 5.3. 平均發佈偵測時間與偽陽性率.....………………………25. 5.4. 評估動作片類型中其他系列的影片結果.....……………29. 5.5. 精彩場景發佈預測.....……………………..………..……32. 5.6. 即時精采度偵測.....…………………………..……..……33. 第六章. 結論與未來工作. 34. 第七章. 參考文獻. 34. 附表目錄表 5.1: 測試電影集相關資料…………......…….……………...……20. v.

(6) 附圖目錄圖 1.1: 訓練流程圖…………..............................………………………..……4 圖 1.2: 測試流程圖…………..............................…………………….….……4 圖 2.1: 運動精采度偵測流程圖…………...............................…………….…10 圖 2.2: 戲劇情感精采度偵測流程圖…………........................................……11 圖 3.1: 產生訓練樣本及特徵擷取流程圖…………................................……12 圖 3.2: 鏡頭切換擷取示意圖…………....................................................……14 圖 3.3:音量變化量………….....................................................................……16 圖 5.2: The Fast and the Furious 的正確偵測率對偽陽性率的結果...............22 圖 5.3: 2 Fast 2 Furious 的正確偵測率對偽陽性率的結果............................22 圖 5.4: The Fast and the Furious Tokyo Drift 的正確偵測率對偽陽性率的結果..............................................................................................23 圖 5.5: Fast & Furious 4 的正確偵測率對偽陽性率的結果...........................23 圖 5.6: Fast Five 的正確偵測率對偽陽性率的結果.......................................24 圖 5.7: The Fast and the Furious 的平均發佈偵測時間對偽陽性率的結果..........................................................................................................26 圖 5.8: 2 Fast 2 Furious 的平均發佈偵測時間對偽陽性率的結果................26 圖 5.9: The Fast and the Furious Tokyo Drift 的平均發佈偵測時間對偽陽性率的結果..................................................................................27 圖 5.10: Fast & Furious 4 的平均發佈偵測時間對偽陽性率的結果.............27 圖 5.11: Fast Five 的平均發佈偵測時間對偽陽性率的結果.........................28 圖 5.12: 終極警探 4 的正確偵測率對偽陽性率的結果.................................29 圖 5.13: 變形金剛 3 的正確偵測率對偽陽性率的結果.................................30 圖 5.14: 終極警探 4 的平均發佈偵測時間對偽陽性率的結果.....................30 圖 5.15: 變形金剛 3 的平均發佈偵測時間對偽陽性率的結果.....................31 圖 5.16: 終極警探 4 所有場景的精采預測發佈表示圖.................................32 圖 5.17: 變形金剛 3 所有場景的精采預測發佈表示圖.................................32 圖 5.18: 即時電影精彩度變化及精采度預測示範.........................................33. vi.

(7) 第一章簡介在多媒體內容分析領域的最新研究中，針對時間事件的偵測成為了廣泛探討的議題。關於可靠的時間事件偵測存在著許多的應用，例如從個人視角的生活觀察到預測大範圍災害持續時間等研究上，在近幾年都有廣泛的探討關於預測事件的研究。從這些應用中，我們可以發現早期事件偵測(Early event detection)也漸漸受到重視。對於人們在觀賞電影時，可以很自然地了解到接下來的劇情將要進入精彩，如果可以讓機器也能如人類感知般，了解到電影的精采度變化，將是一件有趣的工作。在本研究中，我們提出一個藉由結構性輸出之機器學習模型(SOSVM)實現運用在電影上的精采度偵測器，有別於傳統 SVM 的輸出侷限於一個數字或一個標籤，SOSVM 輸出格式可以是一個複雜的結構物件，例如是一張圖片、一個框架或是一段時間區間等等。在預測精彩片段的學習上，SOSVM 提供了更有彈性的輸出，使我們能夠更直接的解決問題。在本篇論文中，我們利用電影類型中的動作片進行實驗，透過此模型所計算的信心值自動的辨識出精彩場景。. 1.

(8) 1.1 研究背景與動機. 由於網路發展與數位媒體的普及，平均每年全球電影總產量高達數千部，電視劇高達數百齣，而網路上流傳的多媒體串流更是難以估計。隨著如此快速成長的龐大影音資料量，在多媒體內容分析的研究中，讓電腦自動了解影片內容的能力，成為了令人關注的議題。當我們觀賞電影的時候，透過劇情的發展，我們能夠輕易地了解到故事即將進入高潮，我們能夠感受到劇情漸漸的緊湊，故事的張力也慢慢的達到了高峰，如果能夠使得電腦能利用電腦視覺的特徵來達到預測電影劇情發展的精采變化將是一件有趣的事情。而如何將人類的感知轉換成電腦所能理解的特徵，也是一項富有挑戰性的議題。預測電影中精采片段研究中主要面臨著兩個挑戰，首先人們在觀賞電影時，總是能清楚地了解到電影即將進入精彩的片段，但是如何使電腦能夠準確地預測電影即將進入精彩的片段並非是一件容易的事，在傳統針對時間事件的偵測，大部分的研究針對事件偵測應用在電影上，選擇擷取影片的片段來進行評分，如此的做法必須要將整段影片讀取結束後才能得到片段的精采度分數，缺乏即時獲得分數的彈性。其次，電影本身的資訊太過廣泛，影片的編排呈現相對於其他多媒體影像，例如運動影片、新聞播報、監視系統等等也相對的複雜，此外電影涵蓋了各種不同類型的劇情片，而不同種類的劇情片故事表達的方式也大不相同，如何有效的利用事件偵測器及挑選具鑑別力的特徵，攸關了偵測器預測的準確與 2.

(9) 否。通常，我們當我們在欣賞一部電影時，我們可以很自然地了解目前的場景是否是精彩片段，也能感受到接下來的劇情是否要漸漸精彩。透過我們的感官，我們能夠針對所接受到的資訊得到感知。同樣地，我們也希望電腦也能夠具備同樣的能力，因此我們希望能探討如何能夠讓電腦也能像人類感知般能夠去了解電影的精采度變化。在本篇論文中，我們專注在電影的動作片上，主要透過機器學習的方式(SOSVM)建立一個可以用來偵測電影精彩場景的偵測器，自動的偵測出電影精彩片段的場景。在過去相關的研究中，如何達到事件偵測，主要分為兩大方法: 一是機率分析預測。例如 Hidden Markov Model(HMM)，透過機率分析來進行事後機率的判斷。二是利用機器學習的方式。例如 Support Vector Machine(SVM)，透過輸入特徵經過訓練學習，可以達到偵測等目的。然而這些方法運用在即時預測上皆有其限制，例如 HMM 在事件預測的研究中有著不錯的表現，然而 HMM 是針對局部的特徵機率分布得到最高機率值，在 HMM 的模型中是無記憶性的，無法利用前後文的信息，同時 HMM 需要透過大量的統計資料來獲得比較穩定的機率分析，應用在電影的精采度預測上有著較差的準確度及實現的困難，而傳統的 SVM 輸出侷限於一個數字或一個標籤。因此使用 SOSVM，輸出可以不再侷限於一個數字，可以是一個複雜的結構物件(complex structured object)，例如是一張圖片、一個框架或是一段時間區間等等。在預測精彩片段的學習上，SOSVM 提供了更有 3.

(10) 彈性的輸出，使我們能夠更直接的解決問題。本研究的貢獻歸納如下: 一、我們提出了一個自動化預測電影精彩場景的偵測器。二、使用結構性輸出支持向量機(SOSVM)提供更具彈性且準確的預測結果。. 1.2 系統架構本研究的系統架構，針對訓練流程及測試流程分別如圖 1.1、圖 1.2 所示，流程敘述如下:. 圖 1.1: 訓練流程圖. 圖 1.2: 測試流程圖 4.

(11) 在訓練的步驟，如圖 1.1 所示，輸入資料為數部電影，在進入機器學習的步驟前，我們必須先對電影做處理以符合機器學習模型的需求，因此在我們的研究中，我們將這些處理分為幾個步驟: 產生訓練樣本、特徵擷取，接著透過機器學習的方式(SOSVM)訓練一部電影精彩度偵測器。一、首先，在產生訓練樣本(Training sample creation)的步驟中，針對機器學習 (SOSVM)的訓練方法，主要工作有兩個項次: 合成訓練樣本及標註精彩場景，相關細節將在第三章進行討論。二、接著在特徵擷取(Feature Extraction)的步驟中，我們將電影區分為視覺畫面及背景音源，在本研究中從視覺方面，我們挑選了鏡頭切換頻率(Shot change rate) 為視覺特徵，而在聲音特徵上，我們使用了節奏頻率(Tempo)及音量變化量來 (Volume variation)表達聲音在精采度上的表現，關於特徵擷取的細節，我們將在第三章進行討論。四、在機器學習的訓練中，輸入資料為標籤(label)及視覺特徵與聽覺特徵的整合的樣本，在我們的實驗上，我們選擇了輸出較具彈性的結構性輸出支持向量機 (SOSVM)來訓練電影精彩度偵測器，相關細節將在第四章探討。在測試的步驟，如圖 1.2 所示，在本研究中，我們進行兩種測試方式，透過訓練所學習出來的精彩度偵測器模型。首先，我們輸入一部影片，利用滑動視窗 (Sliding windows)的方式模擬影片的播出，透過學習模型，我們可以給予每個滑動視窗(Sliding window)一個精采度分數，透過分析整部影片的精采度變化，我們可以利用設定門檻值的方式，來評估我們的偵測器能多快發布預測。另外一個測試模型為輸入為影片中的任何一段，在我們的實驗中，我們以場景(Scene level) 為單位進行分割，透過學習模型，我們評估每一段場景的分數變化，在精采的場 5.

(12) 景中，能夠有明顯的分數變化，反之，在一般的場景中，分數多數落於負數或呈現低變化度的狀況。而在輸出的結果中，我們將輸出一組向量包含精彩場景的起始時間及精采度偵測發布時間。因此，在本研究中，我們透過結構性輸出支持向量機(SOSVM)機器學習來訓練精采度特徵，用以實現即時偵測電影精彩場景的方法。. 1.3 文章架構本文在第二章中，將針對有關於時間事件偵測器及應用於電影精彩場景偵測與特徵定義之文獻做歸納與探討。在第三章節部分，先對電影資料做初步的整理，包含前處理步驟及特徵擷取的部分進行討論。進入第四章，我們將介紹本研究系統所使用的方法部分，利用 Max-Margin Early Event Detection[4]中所介紹的方法，應用於電影精彩場景偵測器上。最後第五、六章分別說明實驗結果與結論。. 6.

(13) 第二章文獻探討許多的研究在電影題材上，大部分都著重於分析低階特徵以及各種不同的電影分類策略上，而較少部分研究關於電影精彩片段的相關研究，將輸出定義為一個固定長度的精彩片段較缺乏彈性。而針對電影中包含著大量的資訊，困難點在於人們的感受與電腦的認知之間的語意間隙(Semantic Gap)，因此越來越多的研究趨勢在多媒體內容分析上試圖去弭平人類與機器之間的認知差距。在相關工作的文獻探討中，主要區分為兩大區塊。首先是了解如何去定義精采度片段的特徵使得訓練能夠具有鑑別度，以及關於時間事件偵測器的訓練方式，使得電腦能夠判斷觀賞者對於電影精采程度的感知。在試圖弭平人類與機器之間的認知差距的想法上，要使得電腦能夠進行分析判斷的第一步驟便是將多媒體內容特徵化。因此，在特徵擷取上，傳統應用於電腦視覺領域的主要特徵包括了色彩、對比、亮度、運動量、片段長度等，在過去的研究中針對多媒體內容特徵有著許多的研究，例如在不同類型的用色特徵[2] 的研究中發現，不同類型的電影，具備著不同的運鏡手法，來吸引觀眾的目光，色彩能夠用來營造情境的氣氛，此研究中選擇了五種不同的電影類型作為分析對象，使用的特質包括了色彩、對比、飽和度。由這篇研究可以得知，了解色彩是解析電影的重要步驟之一，透過量化分析電影色彩的方式，能夠比較不同類型的電影片段之間彼此相似及相異之處。同時電影所表達的主題不同時，色調也會有截然不同的表現，因此可以透過此篇研究發現，可以利用影片的色彩標準差及顏色分布比例來預測電影類型。接著是如何利用所得到的特徵使得電腦得以分析其內容，而最廣為人知的便 7.

(14) 是機器學習，而在機器學習的選擇上，結構化支持向量機提供了彈性的輸出，使得即時預測變得更加的可靠， SOSVM 通常被廣泛地運用在語音辨識上，透過機器學習來得到一序列的語音標籤。而 SOSVM 也可用在分類問題上，如 Yue[3] 應用 SOSVM 來針對多樣子集合的句子進行分類。而 Minh[4]是與本研究最相關的論文，在這篇論文中是利用 SOSVM 針對臉部表情進行即時的預測。在此研究中，利用 SOSVM 學習到特定表情的成長曲線，然後在測試影片中比對與特定表情曲線中的落點，進而判斷是否將開始連續性的表情動作。基於時間事件偵測的在各個領域的成功應用，接下來我們分別討論與電影相關文獻及時間事件偵測的相關應用與分析。. 2.1 電影內容分類及特徵擷取因應與日俱增的數位影音視頻資料進行妥善的管理，使得多媒體內容分析 (Multimedia content analysis)的研究工作成為一門非常重要的議題。許多基於影音的特徵分析研究已被提出，從應用在電影的特徵分析上，Wang[2]的研究中，特別針對色彩、對比、飽和度對於不同類型電影間的關聯性進行分析，Hsu [1]也利用了低層級特徵對於預告片透過決策樹(Decision tree)的策略進行分類，從以上兩篇研究中也了解到不同類型電影的拍攝偏好的顏色選擇及低層級特徵的分佈比例確實有明顯的差異。例如: 恐怖片的顏色分布較偏向於深色系，針對動作片，鏡頭切換頻率較高，電影進行的節奏也較快。. 針對不同類型電影有著不同的特徵分布，有效的讓分類的工作透過這些研 8.

(15) 究有了較明確的方向。Wu [2]的研究中選擇愛情文藝類、恐怖驚悚類、喜劇類、科幻類、動作冒險類五種電影類型作為分析對象。每類選擇三十部影片，每部影片透過數位色彩統計軟體處理，獲得該片對比、飽和度、亮度、紅色、綠色、黃色、藍色的數值，經由計算可獲得每一類型各項色彩資訊的平均值和平均標準差。藉由圖表整理分析和單因子變異數分析，來獲得各類型影片的色彩特徵以及比較不同類型用色的異同。而Hsu[1]則選擇了動作片，劇情片，恐怖片。藉由電影的一些原則，四種可計算的特徵: 平均鏡頭長度(Average shot length)，色彩豐富度 (Color variance)，運動量(Motion)和明亮度(Lighting key) 被拿來分析這些特徵是否適合用來分類電影。. 2.2 機器學習應用於事件偵測在多媒體領域中，針對時間事件偵測的相關研究越來越受到注意，在各個領域皆有潛在的應用。在這個小節，我們探討幾篇與本研究較為相關的文獻及研究。首先針對精采度相關的研究中，有著許多研究針對運動類型的影片進行內容分析，在 Wang[5]的研究中，作者針對足球運動影片進行運動場景精彩度的偵測並且針對影片進行語意分類，架構如圖 2.1 所示，將影片分割成影像及聲音的部分，並且分別擷取視覺特徵及聽覺特徵，接著透過 Support Vector Machine(SVM)進行學習出場景的語意特徵並利用 Hidden Markov Model(HMM)進行場景的語意分類來進行影片的內容分析與擷取精彩片段的總結。而針對影片的內容分析研究中. 9.

(16) 圖 2.1: 運動精采度偵測流程圖(出自參考文獻[5]). Lin[6]針對戲劇類的影片進行情感精彩片段分析，如圖2.2所示，作者認為在戲劇類的影片中存在著豐富的情感特徵，人們在觀賞這類類型的影片時所關心與感受到的是角色之間的互動及情感表達，因此透過這篇研究的系統可以擷取出具有豐富情感的場景，並且自動編排產生預告片。在這篇研究中，作者擷取了音樂情感 (Music emotion)及視覺特徵(Visual feature)做為特徵。其中音樂情感特徵中，作者利用A. Mehrabian[7]定義的三個屬性來表示包括:興奮(Arousal)利用1及0分別表示興奮(Exciting)或鎮靜(Calming),價(Valence)表示正負(Positive/Negative)以及支配(Dominance)利用1及0分別表示場景控制(A sense of control)或自由行動 (freedom to act)。而在視覺特徵中作者選用了臉部表情(Human face)、拍攝時間 (Shot duration) 及運動量(Motion Magnitude)。在臉部表情的部分，作者偵測每個. 10.

(17) 圖 2.2: 戲劇情感精采度偵測流程圖(出自參考文獻[6]) 幀(Frame)所出現的人臉個數，出現越多人臉的幀得到越多觀眾的注意。而在拍攝時間特徵中，作者認為較短的拍攝時間較能喚起觀眾的興奮感(Arousal)而導演會利用較長的拍攝時間來表達浪漫及慢步調以吸引觀眾的注意。而在這篇研究中，希望找到情感較豐富的精采片段，因此針對拍攝時間特徵，較長的拍攝時間有較高的分數。最後一個特徵是運動量，運動向量為一個向量，包含了方向以及運動量，作者認為運動量可以用來表達情感的精采度，與拍攝時間的想法相似，場景擁有較低的運動量，表達了故事劇情呈現較低步調的呈現手法，往往也能表達較多的情感。因此低運動量有較高的分數。透過回歸分析的方法分辨基於情感的精彩片段，從這個研究中發現取得有區辨性的特徵，可以幫助我們找到所需要的精采度片段。. 11.

(18) 第三章產生訓練樣本及特徵擷取. 圖 3.1: 產生訓練樣本及特徵擷取流程圖在前置處理工作最主要的目的是將影片轉換成機器學習方法可輸入的資料，首先給予系統一部電影，我們將前置處理工作分為兩個部分: 產生訓練樣本 (Training sample creation)及特徵擷取(Feature extraction)。在基於視聽覺特徵 (Audio visual feature)進行電影內容分析的相關研究中，針對電影的處理基本單位依據複雜度由低到高概略可以區分為框架層級(Frame level)、拍攝層級(Shot level)、場景層級(Scene level)、事件層級(Event level)及故事層級(Story level)等。因此我們可以把電影精采度偵測問題視為將故事層級的影片分隔成複雜度較低的層級，以方便機器進行分析。在我們的訓練機器學習的方法中，我們將電影分割以場景(Scene level)為單位，並以拍攝層級(Shot level)為單位擷取一個視覺特徵:鏡頭切換頻率(Shot change rate)及以框架(Frame level)為單位擷取的聽覺特徵: 音量變化量(Volume change) 和音樂節拍(Music tempo)。為了建置電影中精彩場景的 Ground truth，我們針對每部影片的每個場景邀請了三個人進行投票，若該場景擁有大於兩票的票數，則我們就將該場景標註為精彩場景。接下來將針對上述幾個步驟做詳細的說明。. 12.

(19) 3.1 產生訓練樣本首先，在電影分割的工作上，也有不少相關的研究，針對場景層級的開發策略已有相當的累積。然而，至今仍沒有一個對於所有類型電影都能夠可靠的切割出以場景(Scene level)為基本單位的方法，而且經常在一些電影片段中，對於場景邊界的判斷模擬兩可，造成自動化切割的困難。因此本研究利用影片分割軟體 Movie maker[9]搭配劇情腳本輔助，來進行電影場景紀錄。此外，為了特徵擷取的需要，我們需要將電影轉出音訊檔，以方便聲音特徵的擷取。而對於建置電影中精彩場景的 Ground truth，對於每部影片的每個場景我們邀請了三個人進行投票，若該場景擁有大於兩票的票數，我們就將該場景標註為精彩場景。在我們的實驗中，一部影片通常包含 4 到 7 個精彩場景。針對訓練樣本的合成，我們產生一組 , …. ,. 訓練集合. ，其中. 由三個一般場景與一個精彩場景所組成，. 其中針對每部電影的精彩場景，搭配三個隨機挑選的一般場景合成一個訓練樣本，而. 表示樣本中，精彩場景的起始時間。. 3.2 特徵擷取在本研究中，我們將電影的特徵組成，區分為視覺特徵(Visual feature)及聽覺特徵(Audio feature)。首先，我們取用鏡頭切換頻率(Shot change rate)做為視覺特徵。本研究利用一個較為簡單的作法來進行鏡頭切換偵測的工作，首先將每一個畫面切割成多個相同大小的區域，並分別統計各個區域的強度(Intensity)直方圖，如圖 3.2 所示。其中，對於影片的上下半部會有固定大小的黑邊區域，因此可以先將其裁切，而針對區塊的數目，當切割過多的區域，在計算相似度時複雜 13.

(20) 圖 3.2: 鏡頭切換擷取示意圖，原始畫面大小為 672 * 288 pixels，切割為 7 ﹡3 共 21 個區域，每個區域大小為 96 ﹡96 pixels 度會增加，甚至造成準確率不增反減的情況。因為區塊的變化需要能夠容忍物體在畫面上的移動或者是鏡頭的平移、放大縮小等等的些許變動。在我們的實驗分析中，依照畫面大小為 672 * 288 的影片資料，切割成 7 ﹡3 個區塊，有著較穩定的切割效果。將畫面切割成多個區域後，根據相似度計算公式 3.1，計算當前畫面與前一個畫面兩者對應區域的 Bhattacharyya 係數做為相似度，相似度越高者，表示前後兩張畫面屬於連續畫面，彼此之間沒有切換鏡頭的改變。在我們的實驗中，我們設定相似度低於 90%為鏡頭切換的畫面，並記錄該畫面的編號，做為之後統計鏡頭切換頻率的依據。. 公式 3.1. 其中，P 和 Q 分別表示前、後兩張畫面的強度直方圖向量。R 表示分割區塊總數而 B 表示直方圖的欄位個數(Bins)。針對鏡頭切換頻率(Shot change rate)，我們的設計是利用一個移動視窗(Sliding 14.

(21) window)來進行統計，當視窗區間出現幾次鏡頭切換，我們就記錄下當下的個數做為特徵值，當畫面的切換頻率越高，表示當下的精采度越精彩。而在我們的實驗設計中，我們設定移動視窗(Sliding window)的大小為 5 秒，而每次的移動為 1 秒。而在聽覺特徵的選取上，我們選用了音量變化量(Volume change)、音樂節拍 (Music tempo)。針對電影動作片，對於音量變化量，我們認為背景音樂、音效、人物間的講話也能傳達故事發展的精采度，當故事處於敘述階段時，音量的變化較為平穩，大部分的場景存在著輕快的音樂或是較為平緩的人物對談。反之，當劇情發展到了精采的部分，往往存在著爆破、飛車、打鬥等等的畫面，其音效變化也較一般場景來的劇烈。而背景音樂也會是節奏比較頻繁的呈現來映襯劇情的發展。因此我們認為當聲音變化量越大時，顯示當下電影的精采度越高。圖 3.3 顯示了終極警探 4 電影的其中一段影片的聲音變化度，其中可以發現當 80~130 秒時，聲音的變化量有著持續性的高峰，顯示這個區段的劇情是較為緊湊的。而另外一個聽覺特徵為音樂節拍(Music tempo)，如同視覺特徵，運動量(Motion) 擁有向量及移動量，聽覺特徵在音量變化量可以表達聲音表現的幅度，而音樂節拍則可以表達音樂所呈現的頻率，在人類的感知中，節拍頻率較低的音樂，會穰人們感覺比較放鬆，例如:協奏曲、圓舞曲等等，而當節拍頻率較高的音樂，可以讓人感到振奮或激昂，例如:進行曲、交響曲等等。因此對應到動作片上面，我們認為當精彩場景的發生，會存在著較高的節拍頻率。在我們的實驗中，我們利用了 D. Ellis[8] 所提供的 MATLAB function code ，來擷取音樂節拍。. 15.

(22) 圖 3.3: 終極警探 4 電影的其中一段 [500 秒到 650 秒] 影片的音量變化量. 第四章建立精彩場景偵測器在上一章節中，我們整理了聽覺及視覺特徵，並且準備了精彩場景的標籤。本章節將說明我們如何利用結構性輸出支持向量機(SOSVM)學習訓練一個電影精彩度偵測器的方法。此外，對於評估能夠多快發佈精采度預測上，我們利用手動標籤精彩片段及學習曲線，透過學習參數的方式來得到可靠的精彩片段預測。因此在本研究中，我們希望實驗部分能夠設計一套系統能夠即時撥放影片，並追蹤每個片段的精采度評分，同時能夠預測目前及未來的場景是否為精彩片段的可能性。以使用者的角度來評估，機器學習預測是否足夠即時且準確。結構性輸出支持向量機(SOSVM)是由 Ioannis Tsochantaridis 等人在 2005 年所提出，目前被應用在各種領域的研究中，其中以聲音辨識最為廣泛。基於 SOSVM 的彈性輸出，讓我們可以從機器學習中，得到更多的資訊，因此在本研究中，我們利用 SOSVM 做為系統的訓練方法，以下概略描述整個學習的運算模式，關於公式的推導過程，詳情可參考原始文獻[10]，其中我們遵照 Hoai and Minh[4]描述 SOSVM 的公式代號來說明我們應用在電影精彩度分析的工作上。. 16.

(23) , …. ,. 首先我們定義訓練輸入樣本. ，其中. 為第個訓練樣. 本，而在我們的研究中，我們將一個樣本設計為三個非精彩場景結合一個精彩場景做為一個樣本進行學習。而我們的做法是將每一部影片分為精彩群組及非精彩群組對於每個精彩群組中的場景搭配三個從非精彩群組中隨機挑選的三個場景進行組合，而. = [. ,. ] 由兩個變數組成，分別表示訓練樣本中精彩場景的起. 始時間。假設精采片段長度的區間介於度符合區間限制，從開始時間為. 和. ，我們用. 表示為一個從長. frame 到一個結束時間介於. 到. frame. 的影片子集合:. . 其中. 表示長度，. 和. 分別表示一個樣本. 公式 4.1. 的最小及最大長度，. 則. 表示任何可能為精彩場景的區間，當為空集合表示沒有任何精彩場景發生。接著我們要訓練一個精彩場景偵測器. ，場景偵測器可以接受一段影片. 並輸出該段影片的精采度分數及所發生的區間: 公式 4.2 而我們利用. 來表示樣本中的特徵向量，因此我們可以將. 展開為一. 個線性精采度分數偵測的公式:. 公式 4.3. 上述的公式 4.2 中. 表示為一個樣本，而. ，為權重向量，b 為偏差. 值。但是基於上面的作法，必須要在整個 y 讀取完之後才能得到分數，無法達到 17.

(24) 即時預測精采度(Early event detection)的目的。根據 Hoai and Minh 的研究發現[4]，我們可以利用部分精采度事件做為訓練樣本，我們的事件偵測器將可以學習到偵測部分事件，進而達到即時預測的效果。因此我們需要修改上述的輸入公式。定義. 為. 的一個部分精采度場景，表示偵測到 t 秒時已發生的精彩場景，我們. 可以用. 來表示。其中. 可為空的區段，因此我們可以改寫偵. 測器的公式: 公式 4.4 而在偵測部份精彩事件的步驟中，我們必須確保當執行到第 t 秒時，. 擁有最. 高的分數，因次我們必須要加入一條限制式到訓練公式中:. 公式 4.5. 接著在 SOSVM 中，我們希望能夠學習到精彩場景及非精彩場景足夠大的差異，因此我们需要去規範一個邊際. 並且加入到限制式中:. 公式 4.6. 其中. ，在定義完上述的限制式之後，我們便可以得到以下. 的學習方程式:. ,. 公式 4.7. ,. 18.

(25) 其中. 為差額變數(slack variables)，在. 中表示在第 t 秒時所占精彩場. 景的比例，當所占的比例越高時，表示的邊際將越大，藉此學習出與非精彩場景的差異度。而在測試的設計部分，我們選取一部影片中的所有場景當作樣本集進行測試評估。每一個樣本為一個場景，針對每個樣本我們有連續的精采度分數及發佈時間用來分析結果，接下來在下一個章節，我們將針對我們實驗的部分，進行說明並提供實驗分析的結果。. 19.

(26) 第五章實驗結果與分析 5.1 電影集在影片的類型上，我們選擇了動作類型的影片在進行實驗。而我們挑選了玩命關頭(The Fast and The Furious)的第一集到第五集。有關電影的相關資料見表格 5.1，包含電影名稱、上映年份、影片時間、影片總場景個數、精彩場景個數及精彩場景編號。表 5.1: 測試電影集相關資料。 ID. 電影名稱. 年份. 片長 (分). 場景個數. 精彩. 精彩場景編號. 場景. 1. The Fast and the Furious. 2001. 107. 39. 5. {6,12,19,33,35}. 2. 2 Fast 2 Furious. 2003. 108. 19. 4. {1,7,11,19}. 3. The Fast and. 2006. 105. 44. 6. {3,4,13,25,28,36}. Fast & Furious 4. 2009. 107. 32. 7. {1,3,11,17,. Fast Five. 2011. the Furious Tokyo Drift. 4. 5. 23,30,32} 131. 66. 7. {2,8,16,41, 46,52,53}. 20.

(27) 5.2. 正確偵測率與偽陽性率首先我們利用正確偵測率(true positive rate)與偽陽性率(false positive rate,. FPR) 來評估我們的電影精彩偵測器是否能夠正確的偵測出精彩片段。關於正確偵測率，我們定義為在門檻值下，精彩場景仍然可以發佈偵測的成功率有多少。而偽陽性率則是在同樣的門檻值下，不應該發佈精彩偵測卻發佈精彩偵測的比例有多少，X 軸表示偽陽性率(false positive rate, FPR)而 Y 軸表示正確偵測率(true positive rate)，透過 TPR 對應 FPR 所產生 ROC 曲線，我們利用 ROC 曲線下的面積來評估偵測器的精準度。在這個實驗中，我們分別使用 SVM 及 MMED 來學習權重進行評估比較，在 SVM 的訓練樣本設計上，我們將原先的合成樣本中的精彩場景片段設為 Positive example，一般場景設為 Negative example，並根據 Minh [4]的初始設定，將一般場景的部分切割成等長的 20 等份，而 MMED 則利用我們在第四章所介紹的學習模型學習權重。圖 5.2、圖 5.3、圖 5.4、圖 5.5、圖 5.6，分別表示針對電影資料第一集到第五集的測試結果，X 軸表示偽陽性率(false positive rate, FPR)而 Y 軸表示正確偵測率(true positive rate)，紅色實線表示 MMED 的 ROC 曲線，藍色虛線表示 SVM 的 ROC 曲線，右下曲線說明旁的數字表示 ROC 曲線的面積。. 21.

(28) 圖 5.2: 測試影片 The Fast and the Furious 的正確偵測率對偽陽性率的結果。. 圖 5.3: 測試影片 2 Fast 2 Furious 的正確偵測率對偽陽性率的結果。. 22.

(29) 圖 5.4: 測試影片 The Fast and the Furious Tokyo Drift 的正確偵測率對偽陽性率的結果。. 圖 5.5: 測試影片 Fast & Furious 4 的正確偵測率對偽陽性率的結果。. 23.

(30) 圖 5.6: 測試影片 Fast Five 的正確偵測率對偽陽性率的結果。對於測試的結果，針對兩個機器學習 SVM 及 MMED 在 ROC 的評估中都有著不錯的表現，在五部的影片中 MMED 仍然有較佳的精準度比 SVM 的方法。在偽陽性率(false positive rate, FPR)為 0.3 的情況下，我們的系統在五部影片的統計下除了測試影片 Fast & Furious 4 的平均正確率降到 72%，其他影片在兩個方法中都呈現完全正確的準確度，具有不錯的效果。而在 0.2 的情況下，系統仍然維持著平均正確率 82%，顯示我們的系統對於正確偵測出精彩場景有著穩定的輸出。. 24.

(31) 5.3. 平均發佈偵測時間與偽陽性率另外一個針對精彩場景偵測器的評估是關於精彩場景的發佈時間是不是足. 夠快，在這個實驗中，針對平均發佈偵測時間(Normalized time to detect) ，我們定義為在門檻值下，偵測器發佈的時間占場景總長度的比例來表示。而偽陽性率(false positive rate, FPR)則是在同樣的門檻值下，不應該發佈精彩偵測卻發佈精彩偵測的比例有多少。X 軸表示偽陽性率(false positive rate, FPR)而 Y 軸表示平均發佈偵測時間(Normalized time)，通常我們稱之為 Activity Monitoring Operating Curve(AMOC)，與 5.1 所評估的方法相同，我們比較 SVM 與 MMED 在發佈電影精彩場景預測的速度，X 軸表示偽陽性率(false positive rate, FPR)當數字越小表示錯誤率越低，Y 軸表示平均發佈偵測時間(Normalized time)，當 Y 軸值為 1 表示偵測器要到整部影片都讀取結束才能了解場景為精彩，因此當 Y 軸值越小，偵測器能越早發佈表示偵測器能夠比較早預測到該場景為精彩場景。紅色線表示 MMED 的 AMOC 曲線而藍色虛線表示 SVM 的 AMOC 曲線，圖 5.7、圖 5.8、圖 5.9、圖 5.10、圖 5.11，分別表示針對電影資料第一集到第五集評估早期測試精彩場景的結果。. 25.

(32) 圖 5.7: 測試影片 The Fast and the Furious 的平均發佈偵測時間對偽陽性率的結果。. 圖 5.8: 測試影片 2 Fast 2 Furious 的平均發佈偵測時間對偽陽性率的結果。. 26.

(33) 圖 5.9: 測試影片 The Fast and the Furious Tokyo Drift 的平均發佈偵測時間對偽陽性率的結果。. 圖 5.10: 測試影片 Fast & Furious 4 的平均發佈偵測時間對偽陽性率的結果。. 27.

(34) 圖 5.11: 測試影片 Fast Five 的平均發佈偵測時間對偽陽性率的結果。. 對於平均發佈偵測時間中，我們發現以偽陽性率(false positive rate, FPR) 為 0.4 來觀察 AMOC，可以發現影片 1、影片 2 及影片 5 平均可以在精彩場景進行到片段的前 1/5 片段就能夠發佈精彩預測，而雖然影片 3 及影片 4 發佈時間較沒影片 1、影片 2 及影片 5 來得迅速，卻也都在影片的前半部就能進行發佈，造成 The Fast and the Furious Tokyo Drift 及 Fast & Furious 4 偵測效果較差的原因可能包含兩個原因: 場景時間區間太小使得偵測器無法在短時間獲得足夠的資訊來判斷精采度及精彩場景出現的精采元素屬於短周期呈現的結果，例如: 瞬間的爆炸、短時間的槍戰等等，造成偵測器誤解為干擾的資訊。然而從 AMOC 的分析結果顯示，我們的偵測器可以達到早期發佈的效果，並且擁有不錯的成果。. 28.

(35) 5.4 評估動作片類型中其他系列的影片結果在這個實驗中，我們利用玩命關頭(The Fast and The Furious)的第一集到第五集進行訓練，並針對兩部非同一系列的動作片來評估是否在非同一系列的動作片會有不一樣的評估效能。我們分別選擇了終極警探 4(Die Hard 4)及變形金剛 3(Dark Of The Moon)利用 SVM 與 MMED 如 5.1 小節及 5.2 小節所介紹方法學習權重並且分別評估兩部影片的 ROC，如圖 5.12、圖 5.13 及 AMOC，如圖 5.14、圖 5.15。. 圖 5.12: 終極警探 4(Die Hard 4)的正確偵測率對偽陽性率的結果。 29.

(36) 圖 5.13: 變形金剛 3(Dark Of The Moon)的正確偵測率對偽陽性率的結果。. 圖 5.14: 終極警探 4(Die Hard 4)的平均發佈偵測時間對偽陽性率的結果。 30.

(37) 圖 5.15: 變形金剛 3(Dark Of The Moon)的平均發佈偵測時間對偽陽性率的結果。從 ROC 及 AMOC 的結果中可以發現，針對使用玩命關頭(The Fast and The Furious) 系列電影所訓練的精采度偵測器運用在終極警探 4(Die Hard 4)及變形金剛 3(Dark Of The Moon)兩部動作片中，所呈現的準確度仍然是不錯的。在兩部電影中的 ROC 在 SVM 及 MMED 機器學習方法所學習出來的權重，運用在我們偵測器中的比較，我們發現 MMED 跟 SVM 都呈現不錯的結果，但 MMED 相對 SVM 略為穩定。在 AMOC 的表現上，對於兩個機器學習的方法，在 FTP 大於等於 0.3 的狀況下，偵測器都能在影片的前 1/5 就能發佈偵測，表示對於我們的訓練的偵測器應用在不同系列的同類型影片中仍然是有效的。而在 FPT 小於 0.3 的情況下，兩部影片的 AMOC 略遜於偵測玩命關頭(The Fast and The Furious)系列電影的結果，顯示訓練樣本的多樣性增加有助於偵測器在預測精彩場景上的效能。. 31.

(38) 5.5 精彩場景發佈預測在這個實驗中，我們將應用 SOSVM 與 MMED，並利用玩命關頭(The Fast and The Furious)的第一集到第五集進行訓練，針對終極警探 4(Die Hard 4)及變形金剛 3(Dark Of The Moon)兩部影片中的所有精彩場景評估偵測器的預測時間，分別如圖 5.16 及圖 5.17。圖中藍線表示 SOSVM 發佈精彩場景時間，紅線表示 MMED 發佈精彩場景時間，紅藍線重疊表示兩個偵測器在同一時間發佈。從圖示中，我們可以發現偵測器都能在影片的前半部發佈精彩預測，並且 MMED 的預測所需時間皆小於等於 SOSVM。. 圖 5.16 終極警探 4(Die Hard 4)所有場景的精采預測發佈表示圖. 圖 5.17 變形金剛 3(Dark Of The Moon)所有場景的精采預測發佈表示圖. 32.

(39) 5.6 即時精采度偵測在我們的系統中，我們可以呈現整部電影的精采度變化，透過滑動視窗(Sliding window)，我們可以模擬影片的即時撥放，並針對每一秒的影片即時的給予一個精采度分數來表示現在的精采度分數，由圖 5.12 的示意圖，我們的系統可以在畫面上方呈現整個影片的撥放，並在下方即時的呈現影片的精采度變化，紅線的部分則表示我們的精采度偵測器在當時發佈了接下來的場景將進入精彩階段。從圖示可以很清楚的看到在紅線後，影片的精采度分數呈現劇烈的變動及較高的分數結果。. 圖 5.18 即時電影精彩度變化及精采度預測示範. 33.

(40) 第六章結論與未來工作本篇論文研究使用結構性輸出之機器學習方法於電影精彩度預測，在特徵擷取的工作中，我們選取了鏡頭切換頻率(Shot change rate)為視覺特徵，而在聲音特徵上，我們使用了節奏(Tempo)及音量變化(Volume change)來表達聲音在精采度上的表現，以及參考 Minh[4]的研究，使用結構性輸出支持向量器 (Structured Output SVM)做為機器學習的方法。我們訓練出一個應用在偵測電影精彩度的偵測器，同時在本研究實驗中發現我們的偵測器有著穩定的偵測準確度以及不錯的早期偵測發佈時間。在未來的工作中，我們希望可以增加更多其他電影類型的特徵，預期系統具備分析所有類型的影片的模型。另一方面，早期事件偵測器也擁有許多潛在的應用在各個領域中，透過早期事件偵測器能夠讓我們能夠透過機器自動的了解事件即將發生。. 第七章參考文獻 [1]. Wen-Hsing Hsu,Hui-Yu Huang. Constructing a Movie Genre Classifier Based on Low Level Visual Features,MS Thesis, National Tsing Hua University, 2006.. [2]. Fang-Yi Wu. Characteristic Color Usage in Different Film Categories,MS Thesis, National Chino Tung University, 2007. [3]. Yisong Yue, Thorsten Joachims. Predicting diverse subsets using structural SVMs, ICML 2008: 1224-1231, 2007.. [4]. Hoai, Minh & De la Torre. Max-Margin Early Event Detection, CVPR 2012.. [5]. Jin-jun Wang, “Sport highlight detection from key word sequences using HMM ” ICME, 2004 34.

(41) [6]. Keng-Sheng Lin and Homer H.Chen, “Automatic highlights extraction for drama video using music emotion and human face features”, MMSP, 2011.. [7]. A. Mehrabian, “Pleasure-arousal-dominance: A general framework for describing and measuring individual differences in temperament,” Current Psychology, col. 14, no. 4, pp. 261–292, 1996.. [8]. D. Ellis, “Beat Tracking by Dynamic Programming”, J. New Music Research, Special Issue on Beat and Tempo Extraction, vol. 36 no. 1, pp. 51-60, March 2007.. [9] http://windows.microsoft.com/zh-tw/windows-live/movie-maker#t1=overview. [10] Ioannis Tsochantaridis, Thorsten Joachims, Thomas Hofmann and Yasemin Altun , “Large Margin Methods for Structured and Interdependent OutputVariables,” JMLR, Vol. 6, pages 1453-1484,2005. 35.

(42)