文章架構

第一章簡介

1.3 文章架構

本文在第二章中，將針對有關於時間事件偵測器及應用於電影精彩場景偵測與特徵定義之文獻做歸納與探討。在第三章節部分，先對電影資料做初步的整理，

包含前處理步驟及特徵擷取的部分進行討論。進入第四章，我們將介紹本研究系統所使用的方法部分，利用 Max-Margin Early Event Detection[4]中所介紹的方法，

應用於電影精彩場景偵測器上。最後第五、六章分別說明實驗結果與結論。

第二章文獻探討

是機器學習，而在機器學習的選擇上，結構化支持向量機提供了彈性的輸出，使

究有了較明確的方向。Wu [2]的研究中選擇愛情文藝類、恐怖驚悚類、喜劇類、一些原則，四種可計算的特徵: 平均鏡頭長度(Average shot length)，色彩豐富度 (Color variance)，運動量(Motion)和明亮度(Lighting key) 被拿來分析這些特徵是否適合用來分類電影。且分別擷取視覺特徵及聽覺特徵，接著透過 Support Vector Machine(SVM)進行學習出場景的語意特徵並利用 Hidden Markov Model(HMM)進行場景的語意分類來

進行影片的內容分析與擷取精彩片段的總結。而針對影片的內容分析研究中

圖 2.1: 運動精采度偵測流程圖(出自參考文獻[5])

Lin[6]針對戲劇類的影片進行情感精彩片段分析，如圖2.2所示，作者認為在戲劇類的影片中存在著豐富的情感特徵，人們在觀賞這類類型的影片時所關心與感受到的是角色之間的互動及情感表達，因此透過這篇研究的系統可以擷取出具有豐富情感的場景，並且自動編排產生預告片。在這篇研究中，作者擷取了音樂情感 (Music emotion)及視覺特徵(Visual feature)做為特徵。其中音樂情感特徵中，作者利用A. Mehrabian[7]定義的三個屬性來表示包括:興奮(Arousal)利用1及0分別表示興奮(Exciting)或鎮靜(Calming),價(Valence)表示正負(Positive/Negative)以及支配(Dominance)利用1及0分別表示場景控制(A sense of control)或自由行動 (freedom to act)。而在視覺特徵中作者選用了臉部表情(Human face)、拍攝時間 (Shot duration) 及運動量(Motion Magnitude)。在臉部表情的部分，作者偵測每個

圖 2.2: 戲劇情感精采度偵測流程圖(出自參考文獻[6])

幀(Frame)所出現的人臉個數，出現越多人臉的幀得到越多觀眾的注意。而在拍攝時間特徵中，作者認為較短的拍攝時間較能喚起觀眾的興奮感(Arousal)而導演會利用較長的拍攝時間來表達浪漫及慢步調以吸引觀眾的注意。而在這篇研究中，

希望找到情感較豐富的精采片段，因此針對拍攝時間特徵，較長的拍攝時間有較高的分數。最後一個特徵是運動量，運動向量為一個向量，包含了方向以及運動量，作者認為運動量可以用來表達情感的精采度，與拍攝時間的想法相似，場景擁有較低的運動量，表達了故事劇情呈現較低步調的呈現手法，往往也能表達較多的情感。因此低運動量有較高的分數。透過回歸分析的方法分辨基於情感的精彩片段，從這個研究中發現取得有區辨性的特徵，可以幫助我們找到所需要的精采度片段。

第三章產生訓練樣本及特徵擷取

圖 3.1: 產生訓練樣本及特徵擷取流程圖

在前置處理工作最主要的目的是將影片轉換成機器學習方法可輸入的資料，

首先給予系統一部電影，我們將前置處理工作分為兩個部分: 產生訓練樣本 (Training sample creation)及特徵擷取(Feature extraction)。在基於視聽覺特徵 (Audio visual feature)進行電影內容分析的相關研究中，針對電影的處理基本單位依據複雜度由低到高概略可以區分為框架層級(Frame level)、拍攝層級(Shot level)、場景層級(Scene level)、事件層級(Event level)及故事層級(Story level)等。

因此我們可以把電影精采度偵測問題視為將故事層級的影片分隔成複雜度較低的層級，以方便機器進行分析。在我們的訓練機器學習的方法中，我們將電影分割以場景(Scene level)為單位，並以拍攝層級(Shot level)為單位擷取一個視覺特徵:鏡頭切換頻率(Shot change rate)及以框架(Frame level)為單位擷取的聽覺特徵:

音量變化量(Volume change) 和音樂節拍(Music tempo)。為了建置電影中精彩場景的 Ground truth，我們針對每部影片的每個場景邀請了三個人進行投票，若該場景擁有大於兩票的票數，則我們就將該場景標註為精彩場景。接下來將針對上述幾個步驟做詳細的說明。

3.1 產生訓練樣本

覺特徵(Audio feature)。首先，我們取用鏡頭切換頻率(Shot change rate)做為視覺特徵。本研究利用一個較為簡單的作法來進行鏡頭切換偵測的工作，首先將每一個畫面切割成多個相同大小的區域，並分別統計各個區域的強度(Intensity)直方圖，如圖 3.2 所示。其中，對於影片的上下半部會有固定大小的黑邊區域，因此可以先將其裁切，而針對區塊的數目，當切割過多的區域，在計算相似度時複雜

圖 3.2: 鏡頭切換擷取示意圖，原始畫面大小為 672 * 288 pixels，切割為 7 ﹡3 共 21 個區域，每個區域大小為 96 ﹡96 pixels

度會增加，甚至造成準確率不增反減的情況。因為區塊的變化需要能夠容忍物體在畫面上的移動或者是鏡頭的平移、放大縮小等等的些許變動。在我們的實驗分

析中，依照畫面大小為 672 * 288 的影片資料，切割成 7 ﹡3 個區塊，有著較穩定的切割效果。

將畫面切割成多個區域後，根據相似度計算公式 3.1，計算當前畫面與前一個畫面兩者對應區域的 Bhattacharyya 係數做為相似度，相似度越高者，表示前後兩張畫面屬於連續畫面，彼此之間沒有切換鏡頭的改變。在我們的實驗中，我們設定相似度低於 90%為鏡頭切換的畫面，並記錄該畫面的編號，做為之後統計鏡頭切換頻率的依據。

^{公式 3.1}

其中，P 和 Q 分別表示前、後兩張畫面的強度直方圖向量。R 表示分割區塊總數而 B 表示直方圖的欄位個數(Bins)。

針對鏡頭切換頻率(Shot change rate)，我們的設計是利用一個移動視窗(Sliding

window)來進行統計，當視窗區間出現幾次鏡頭切換，我們就記錄下當下的個數做為特徵值，當畫面的切換頻率越高，表示當下的精采度越精彩。而在我們的實驗設計中，我們設定移動視窗(Sliding window)的大小為 5 秒，而每次的移動為 1 秒。

圖 3.3: 終極警探 4 電影的其中一段 [500 秒到 650 秒] 影片的音量變化量

第四章建立精彩場景偵測器

在上一章節中，我們整理了聽覺及視覺特徵，並且準備了精彩場景的標籤。

本章節將說明我們如何利用結構性輸出支持向量機(SOSVM)學習訓練一個電影精彩度偵測器的方法。

此外，對於評估能夠多快發佈精采度預測上，我們利用手動標籤精彩片段及學習曲線，透過學習參數的方式來得到可靠的精彩片段預測。因此在本研究中，

我們希望實驗部分能夠設計一套系統能夠即時撥放影片，並追蹤每個片段的精采度評分，同時能夠預測目前及未來的場景是否為精彩片段的可能性。以使用者的角度來評估，機器學習預測是否足夠即時且準確。

結構性輸出支持向量機(SOSVM)是由 Ioannis Tsochantaridis 等人在 2005 年所提出，目前被應用在各種領域的研究中，其中以聲音辨識最為廣泛。基於 SOSVM 的彈性輸出，讓我們可以從機器學習中，得到更多的資訊，因此在本研究中，我們利用 SOSVM 做為系統的訓練方法，以下概略描述整個學習的運算模式，關於公式的推導過程，詳情可參考原始文獻[10]，其中我們遵照 Hoai and Minh[4]描述 SOSVM 的公式代號來說明我們應用在電影精彩度分析的工作上。

首先我們定義訓練輸入樣本 , …. , ，其中為第個訓練樣

即時預測精采度(Early event detection)的目的。根據Hoai and Minh 的研究發現[4]，

其中

為差額變數(slack variables)，在中表示在第 t 秒時所占精彩場

景的比例，當所占的比例越高時，表示的邊際將越大，藉此學習出與非精彩場景的差異度。

而在測試的設計部分，我們選取一部影片中的所有場景當作樣本集進行測試評估。每一個樣本為一個場景，針對每個樣本我們有連續的精采度分數及發佈時間用來分析結果，接下來在下一個章節，我們將針對我們實驗的部分，進行說明並提供實驗分析的結果。

第五章實驗結果與分析

5.1 電影集

在影片的類型上，我們選擇了動作類型的影片在進行實驗。而我們挑選了玩命關頭(The Fast and The Furious)的第一集到第五集。有關電影的相關資料見表格 5.1，包含電影名稱、上映年份、影片時間、影片總場景個數、精彩場景個數及

5.2 正確偵測率與偽陽性率

首先我們利用正確偵測率(true positive rate)與偽陽性率(false positive rate, FPR) 來評估我們的電影精彩偵測器是否能夠正確的偵測出精彩片段。關於正確偵測率，我們定義為在門檻值下，精彩場景仍然可以發佈偵測的成功率有多少。

而偽陽性率則是在同樣的門檻值下，不應該發佈精彩偵測卻發佈精彩偵測的比例有多少，X 軸表示偽陽性率(false positive rate, FPR)而 Y 軸表示正確偵測率(true positive rate)，透過 TPR 對應 FPR 所產生 ROC 曲線，我們利用 ROC 曲線下的面積來評估偵測器的精準度。在這個實驗中，我們分別使用 SVM 及 MMED 來學習權重進行評估比較，在 SVM 的訓練樣本設計上，我們將原先的合成樣本中的精彩場景片段設為 Positive example，一般場景設為 Negative example，並根據 Minh [4]的初始設定，將一般場景的部分切割成等長的 20 等份，而 MMED 則利用我們在第四章所介紹的學習模型學習權重。圖 5.2、圖 5.3、圖 5.4、圖 5.5、圖 5.6，

分別表示針對電影資料第一集到第五集的測試結果，X 軸表示偽陽性率(false positive rate, FPR)而 Y 軸表示正確偵測率(true positive rate)，紅色實線表示 MMED 的 ROC 曲線，藍色虛線表示 SVM 的 ROC 曲線，右下曲線說明旁的數字表示 ROC 曲線的面積。

圖 5.2: 測試影片 The Fast and the Furious 的正確偵測率對偽陽性率的結果。

圖 5.3: 測試影片 2 Fast 2 Furious 的正確偵測率對偽陽性率的結果。

圖 5.4: 測試影片 The Fast and the Furious Tokyo Drift 的正確偵測率對偽陽性率的結果。

圖 5.5: 測試影片 Fast & Furious 4 的正確偵測率對偽陽性率的結果。

圖 5.6: 測試影片 Fast Five 的正確偵測率對偽陽性率的結果。

對於測試的結果，針對兩個機器學習 SVM 及 MMED 在 ROC 的評估中都有著不錯的表現，在五部的影片中 MMED 仍然有較佳的精準度比 SVM 的方法。

在偽陽性率(false positive rate, FPR)為 0.3 的情況下，我們的系統在五部影片的統計下除了測試影片 Fast & Furious 4 的平均正確率降到 72%，其他影片在兩個方法中都呈現完全正確的準確度，具有不錯的效果。而在 0.2 的情況下，系統仍然維持著平均正確率 82%，顯示我們的系統對於正確偵測出精彩場景有著穩定的

在文檔中使用結構性輸出之機器學習方法於電影精彩度預測 (頁 12-0)

第一章 簡介

1.3 文章架構

第二章 文獻探討

第三章 產生訓練樣本及特徵擷取