建立精彩場景偵測器

在上一章節中，我們整理了聽覺及視覺特徵，並且準備了精彩場景的標籤。

本章節將說明我們如何利用結構性輸出支持向量機(SOSVM)學習訓練一個電影精彩度偵測器的方法。

此外，對於評估能夠多快發佈精采度預測上，我們利用手動標籤精彩片段及學習曲線，透過學習參數的方式來得到可靠的精彩片段預測。因此在本研究中，

我們希望實驗部分能夠設計一套系統能夠即時撥放影片，並追蹤每個片段的精采度評分，同時能夠預測目前及未來的場景是否為精彩片段的可能性。以使用者的角度來評估，機器學習預測是否足夠即時且準確。

結構性輸出支持向量機(SOSVM)是由 Ioannis Tsochantaridis 等人在 2005 年所提出，目前被應用在各種領域的研究中，其中以聲音辨識最為廣泛。基於 SOSVM 的彈性輸出，讓我們可以從機器學習中，得到更多的資訊，因此在本研究中，我們利用 SOSVM 做為系統的訓練方法，以下概略描述整個學習的運算模式，關於公式的推導過程，詳情可參考原始文獻[10]，其中我們遵照 Hoai and Minh[4]描述 SOSVM 的公式代號來說明我們應用在電影精彩度分析的工作上。

首先我們定義訓練輸入樣本 , …. , ，其中為第個訓練樣

即時預測精采度(Early event detection)的目的。根據Hoai and Minh 的研究發現[4]，

其中

為差額變數(slack variables)，在中表示在第 t 秒時所占精彩場

景的比例，當所占的比例越高時，表示的邊際將越大，藉此學習出與非精彩場景的差異度。

而在測試的設計部分，我們選取一部影片中的所有場景當作樣本集進行測試評估。每一個樣本為一個場景，針對每個樣本我們有連續的精采度分數及發佈時間用來分析結果，接下來在下一個章節，我們將針對我們實驗的部分，進行說明並提供實驗分析的結果。

第五章實驗結果與分析

5.1 電影集

在影片的類型上，我們選擇了動作類型的影片在進行實驗。而我們挑選了玩命關頭(The Fast and The Furious)的第一集到第五集。有關電影的相關資料見表格 5.1，包含電影名稱、上映年份、影片時間、影片總場景個數、精彩場景個數及

5.2 正確偵測率與偽陽性率

首先我們利用正確偵測率(true positive rate)與偽陽性率(false positive rate, FPR) 來評估我們的電影精彩偵測器是否能夠正確的偵測出精彩片段。關於正確偵測率，我們定義為在門檻值下，精彩場景仍然可以發佈偵測的成功率有多少。

而偽陽性率則是在同樣的門檻值下，不應該發佈精彩偵測卻發佈精彩偵測的比例有多少，X 軸表示偽陽性率(false positive rate, FPR)而 Y 軸表示正確偵測率(true positive rate)，透過 TPR 對應 FPR 所產生 ROC 曲線，我們利用 ROC 曲線下的面積來評估偵測器的精準度。在這個實驗中，我們分別使用 SVM 及 MMED 來學習權重進行評估比較，在 SVM 的訓練樣本設計上，我們將原先的合成樣本中的精彩場景片段設為 Positive example，一般場景設為 Negative example，並根據 Minh [4]的初始設定，將一般場景的部分切割成等長的 20 等份，而 MMED 則利用我們在第四章所介紹的學習模型學習權重。圖 5.2、圖 5.3、圖 5.4、圖 5.5、圖 5.6，

分別表示針對電影資料第一集到第五集的測試結果，X 軸表示偽陽性率(false positive rate, FPR)而 Y 軸表示正確偵測率(true positive rate)，紅色實線表示 MMED 的 ROC 曲線，藍色虛線表示 SVM 的 ROC 曲線，右下曲線說明旁的數字表示 ROC 曲線的面積。

圖 5.2: 測試影片 The Fast and the Furious 的正確偵測率對偽陽性率的結果。

圖 5.3: 測試影片 2 Fast 2 Furious 的正確偵測率對偽陽性率的結果。

圖 5.4: 測試影片 The Fast and the Furious Tokyo Drift 的正確偵測率對偽陽性率的結果。

圖 5.5: 測試影片 Fast & Furious 4 的正確偵測率對偽陽性率的結果。

圖 5.6: 測試影片 Fast Five 的正確偵測率對偽陽性率的結果。

對於測試的結果，針對兩個機器學習 SVM 及 MMED 在 ROC 的評估中都有著不錯的表現，在五部的影片中 MMED 仍然有較佳的精準度比 SVM 的方法。

在偽陽性率(false positive rate, FPR)為 0.3 的情況下，我們的系統在五部影片的統計下除了測試影片 Fast & Furious 4 的平均正確率降到 72%，其他影片在兩個方法中都呈現完全正確的準確度，具有不錯的效果。而在 0.2 的情況下，系統仍然維持著平均正確率 82%，顯示我們的系統對於正確偵測出精彩場景有著穩定的輸出。

5.3 平均發佈偵測時間與偽陽性率

另外一個針對精彩場景偵測器的評估是關於精彩場景的發佈時間是不是足夠快，在這個實驗中，針對平均發佈偵測時間(Normalized time to detect) ，我們定義為在門檻值下，偵測器發佈的時間占場景總長度的比例來表示。而偽陽性率(false positive rate, FPR)則是在同樣的門檻值下，不應該發佈精彩偵測卻發佈精彩偵測的比例有多少。X 軸表示偽陽性率(false positive rate, FPR)而 Y 軸表示平均發佈偵測時間(Normalized time)，通常我們稱之為 Activity Monitoring Operating Curve(AMOC)，與 5.1 所評估的方法相同，我們比較 SVM 與 MMED 在發佈電影精彩場景預測的速度，X 軸表示偽陽性率(false positive rate, FPR)當數字越小表示錯誤率越低，Y 軸表示平均發佈偵測時間(Normalized time)，當 Y 軸值為 1 表示偵測器要到整部影片都讀取結束才能了解場景為精彩，因此當 Y 軸值越小，偵測器能越早發佈表示偵測器能夠比較早預測到該場景為精彩場景。紅色線表示 MMED 的 AMOC 曲線而藍色虛線表示 SVM 的 AMOC 曲線，圖 5.7、圖 5.8、圖 5.9、圖 5.10、圖 5.11，分別表示針對電影資料第一集到第五集評估早期測試精彩場景的結果。

圖 5.7: 測試影片 The Fast and the Furious 的平均發佈偵測時間對偽陽性率的結果。

圖 5.8: 測試影片 2 Fast 2 Furious 的平均發佈偵測時間對偽陽性率的結果。

圖 5.9: 測試影片 The Fast and the Furious Tokyo Drift 的平均發佈偵測時間對偽陽性率的結果。

圖 5.10: 測試影片 Fast & Furious 4 的平均發佈偵測時間對偽陽性率的結果。

圖 5.11: 測試影片 Fast Five 的平均發佈偵測時間對偽陽性率的結果。

對於平均發佈偵測時間中，我們發現以偽陽性率(false positive rate, FPR) 為 0.4 來觀察 AMOC，可以發現影片 1、影片 2 及影片 5 平均可以在精彩場景進行到片段的前 1/5 片段就能夠發佈精彩預測，而雖然影片 3 及影片 4 發佈時間較沒影片 1、影片 2 及影片 5 來得迅速，卻也都在影片的前半部就能進行發佈，造成 The Fast and the Furious Tokyo Drift 及 Fast & Furious 4 偵測效果較差的原因可能包含兩個原因: 場景時間區間太小使得偵測器無法在短時間獲得足夠的資訊來判斷精采度及精彩場景出現的精采元素屬於短周期呈現的結果，例如: 瞬間的爆炸、短時間的槍戰等等，造成偵測器誤解為干擾的資訊。然而從 AMOC 的分析結果顯示，我們的偵測器可以達到早期發佈的效果，並且擁有不錯的成果。

5.4 評估動作片類型中其他系列的影片結果

在這個實驗中，我們利用玩命關頭(The Fast and The Furious)的第一集到第五集進行訓練，並針對兩部非同一系列的動作片來評估是否在非同一系列的動作片會有不一樣的評估效能。我們分別選擇了終極警探 4(Die Hard 4)及變形金剛 3(Dark Of The Moon)利用 SVM 與 MMED 如 5.1 小節及 5.2 小節所介紹方法學習權重並且分別評估兩部影片的 ROC，如圖 5.12、圖 5.13 及 AMOC，如圖 5.14、

圖 5.15。

圖 5.12: 終極警探 4(Die Hard 4)的正確偵測率對偽陽性率的結果。

圖 5.13: 變形金剛 3(Dark Of The Moon)的正確偵測率對偽陽性率的結果。

圖 5.14: 終極警探 4(Die Hard 4)的平均發佈偵測時間對偽陽性率的結果。

圖 5.15: 變形金剛 3(Dark Of The Moon)的平均發佈偵測時間對偽陽性率的結果。

從 ROC 及 AMOC 的結果中可以發現，針對使用玩命關頭(The Fast and The Furious) 系列電影所訓練的精采度偵測器運用在終極警探 4(Die Hard 4)及變形金剛 3(Dark Of The Moon)兩部動作片中，所呈現的準確度仍然是不錯的。在兩部電影中的 ROC 在 SVM 及 MMED 機器學習方法所學習出來的權重，運用在我們偵測器中的比較，我們發現 MMED 跟 SVM 都呈現不錯的結果，但 MMED 相對 SVM 略為穩定。在 AMOC 的表現上，對於兩個機器學習的方法，在 FTP 大於等於 0.3 的狀況下，偵測器都能在影片的前 1/5 就能發佈偵測，表示對於我們的訓練的偵測器應用在不同系列的同類型影片中仍然是有效的。而在 FPT 小於 0.3 的情況下，

兩部影片的 AMOC 略遜於偵測玩命關頭(The Fast and The Furious)系列電影的結果，顯示訓練樣本的多樣性增加有助於偵測器在預測精彩場景上的效能。

5.5 精彩場景發佈預測

在這個實驗中，我們將應用 SOSVM 與 MMED，並利用玩命關頭(The Fast and The Furious)的第一集到第五集進行訓練，針對終極警探 4(Die Hard 4)及變形金剛 3(Dark Of The Moon)兩部影片中的所有精彩場景評估偵測器的預測時間，分別如圖 5.16 及圖 5.17。圖中藍線表示 SOSVM 發佈精彩場景時間，紅線表示 MMED 發佈精彩場景時間，紅藍線重疊表示兩個偵測器在同一時間發佈。從圖示中，我們可以發現偵測器都能在影片的前半部發佈精彩預測，並且 MMED 的預測所需時間皆小於等於 SOSVM。

圖 5.16 終極警探 4(Die Hard 4)所有場景的精采預測發佈表示圖

圖 5.17 變形金剛 3(Dark Of The Moon)所有場景的精采預測發佈表示圖

5.6 即時精采度偵測

在我們的系統中，我們可以呈現整部電影的精采度變化，透過滑動視窗(Sliding window)，我們可以模擬影片的即時撥放，並針對每一秒的影片即時的給予一個精采度分數來表示現在的精采度分數，由圖 5.12 的示意圖，我們的系統可以在畫面上方呈現整個影片的撥放，並在下方即時的呈現影片的精采度變化，紅線的部分則表示我們的精采度偵測器在當時發佈了接下來的場景將進入精彩階段。從圖示可以很清楚的看到在紅線後，影片的精采度分數呈現劇烈的變動及較高的分數結果。

圖 5.18 即時電影精彩度變化及精采度預測示範

第六章結論與未來工作

本篇論文研究使用結構性輸出之機器學習方法於電影精彩度預測，在特徵擷取的工作中，我們選取了鏡頭切換頻率(Shot change rate)為視覺特徵，而在聲音特徵上，我們使用了節奏(Tempo)及音量變化(Volume change)來表達聲音在精采度上的表現，以及參考Minh[4]的研究，使用結構性輸出支持向量器 (Structured Output SVM)做為機器學習的方法。我們訓練出一個應用在偵測電影精彩度的偵

在文檔中使用結構性輸出之機器學習方法於電影精彩度預測 (頁 22-0)

第五章 實驗結果與分析