• 沒有找到結果。

偵測各類電影精彩片段之研究

N/A
N/A
Protected

Academic year: 2021

Share "偵測各類電影精彩片段之研究"

Copied!
56
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授: 葉梅珍. 博士. 偵測各類電影精彩片段之研究 A Framework for Detecting Highlights in Movies. 研究生: 中華民國. 蔡晏瑋 103. 撰 年. 7 月.

(2) 摘 要. 在多媒體內容分析領域中,影片精彩片段之偵測是一個十分熱門的議題。在 過去的研究當中,許多的方法針對運動類型的影片做精彩片段之偵測。對於十分 龐大的電影資料,使用者在挑選自己想要收看的影片時會花費大量的時間。因此, 如何讓使用者更有效率地去挑選一部想要收看的影片,變成了一個有趣的議題。 在本論文中,我們提出了一個對於各類電影精采片段偵測的方法。藉由偵測出精 彩片段,做為使用者挑選影片的參考。我們所提出的方法建立在結構化輸出之機 器學習模型 Structured Output SVM(SOSVM)上以及影像中的特徵分析。其中特徵 部分,分為視覺及聽覺兩種。視覺特徵使用的為中階特徵,為鏡頭切換頻率以及 鏡頭標籤。聽覺特徵則是基本的音量大小以及聲音頻率。而結構化輸出的機器學 習方法有別於傳統 SVM 的輸出侷限於一個數字或一個標籤,其輸出可以是一個 複雜的結構物件。因此在預測精彩片段的學習上,結構化輸出的機器學習方法使 我們能夠更直接解決問題。在實驗中,我們使用動作片類型電影以及喜劇片類型 電影作為資料庫。整體系統對於兩種不同類型的電影的精彩片段預測皆呈現出不 錯的準確率。. 關鍵字: 多媒體內容分析,精采片段偵測,機器學習. i.

(3) Abstract. Highlights detection in videos has been a popular topic in the field of multimedia content analysis. For example, several approaches were proposed to address the highlights detection problem in sport videos. Considering voluminous movie data, a system that can show highlights on movie channels, would greatly help users select films. This paper presents a framework for detecting movie highlights. The proposed method is built upon recent advancements in structured output learning, and image attribute techniques. In feature extraction, it was divided into visual and audio parts. In visual part, we used mid-level feature which are shot change rate and shot label. In audio part, we used volume and music frequency as features. In structured output learning, unlike conventional Support Vector Machine, Structured Output Support Vector Machine provides structured output, which is more suitable for a highlight detection task. Experiment using action and comedy movies show that the system can successfully predict highlight for both genres of films under testing.. Keywords Multimedia content analysis; Highlight detection; Machine learning;. ii.

(4) 誌 謝 在就讀台師大資訊工程研究所的這兩年當中,首先十分感謝我的指導教授葉 梅珍老師。感謝老師總是十分有耐心的給予我在做研究時的一些意見、方向。在 課堂中,我從老師身上學習到多媒體領域上最基礎的相關知識、以及在這個領域 當中的最新技術發展。而從每次實驗室的報告當中,老師也引導我去理解目前這 個領域中的發展趨勢,訓練我在這個領域中專業的思考能力。然而,在這兩年中, 我也不僅學習到專業知識,也學習到了如何分工去完成一個專案,在專案中如何 去做最適當的分工合作。在多媒體實驗室的兩年當中,老師也讓我有多次投稿的 機會,我也從這些投稿的機會中,學習到要從更多不同的方面來解讀一篇論文。 更了解到自己在研究方面較為薄弱的部分。感謝老師給予我許多開闊視野的機會, 去理解到做一個好的研究的困難程度,這是這兩年來我很大的收穫。 而在這兩年的時間中,我也要感謝實驗室的夥伴們 : 浩禎、媖詞、淳卉、 尹廷、少廷、曉薇、宜璁、玉婷、冠儀。感謝浩禎、媖詞、淳卉三位學長姐們, 在我剛來這間實驗室時,給予我修課時的幫助,也告訴我許多在讀一篇論文時的 基本知識,也幫我解決許多在報告時的問題。感謝隊友尹廷、少廷、曉薇,在這 兩年當中,一起討論作業和報告,更重要的是,在最後做研究論文時,大家一起 努力完成自己的論文,跟你們一起學習真的很快樂。感謝宜璁、玉婷、冠儀,帶 給實驗室許多的歡樂還有在論文上一些不一樣的見解,對我真的幫助很多。 最後,要感謝我的家人,謝謝你們給予我這個機會攻讀碩士學位,給予我最 大的支持與鼓勵,讓我在攻讀學位時,能夠心無旁鶩的面對研究論文時的挑戰。 學生 蔡晏瑋 2014/07/29 iii.

(5) 目錄 第一章 簡介........................................................ 1 1.1. 研究動機.................................................... 2. 第二章 相關研究探討 ............................................... 7 第三章 系統設計................................................... 13 3.1. 電影前處理................................................. 13. 3.1.1 電影場景切割............................................. 13 3.1.2 精彩場景標註............................................. 14 3.1.3 訓練樣本合成............................................. 14 3.2. 特徵擷取................................................... 15. 3.2.1 視覺特徵................................................. 16 3.2.2 聽覺特徵................................................. 21 3.3. 早期事件偵測 Max-margin early event detection (MMED) ....... 24. 第四章 實驗結果與分析 ............................................ 28 4.1. 電影資料集................................................. 28. 4.2. 實驗評估方式............................................... 31. 4.3. 實驗結果分析............................................... 32. 第五章 結論與未來工作 ............................................ 46 5.1. 結論....................................................... 46. 5.2. 未來工作................................................... 46. 參考文獻........................................................... 47. iv.

(6) 附表目錄 表 3.1 鏡頭分類資料庫................................................................................... 18 表 4.1 動作類型電影資料庫........................................................................... 29 表 4.2 喜劇類性電影資料庫........................................................................... 30. v.

(7) 附圖目錄 圖 1.1 駭客任務精彩劇照.....................................................................................3 圖 1.2 少林足球精彩劇照.....................................................................................3 圖 2.1 棒球類型影片之精彩片段偵測流程圖.....................................................8 圖 2.2 戲劇情感精彩度偵測流程圖.....................................................................9 圖 2.3 場景情緒分類系統流程圖....................................................................... 11 圖 3.1 系統架構流程圖....................................................................................... 13 圖 3.2 鏡頭類別代表圖....................................................................................... 18 圖 3.3 MPEG-7 edge histogram 中的邊緣類型.................................................. 19 圖 3.4 鏡頭分類問題 5-fold cross validation 正確率......................................... 20 圖 3.5 聲音大小示意圖....................................................................................... 22 圖 3.6 ACF 運算示意圖 ...................................................................................... 23 圖 5.1 訓練集:3,4,5 測試集:1 ........................................................................... 32 圖 5.2 訓練集:3,4,5 測試集:6 ........................................................................... 32 圖 5.3 訓練集:3,4,5 測試集:8 ........................................................................... 32 圖 5.4 訓練集:3,4,6 測試集:1 ........................................................................... 33 圖 5.5 訓練集:3,4,6 測試集:5 ........................................................................... 33 圖 5.6 訓練集:3,4,6 測試集:8 ........................................................................... 33 圖 5.7 訓練集:3,5,6 測試集:1 ........................................................................... 33 圖 5.8 訓練集:3,5,6 測試集:4 ........................................................................... 33 圖 5.9 訓練集:3,5,6 測試集:8 ........................................................................... 33 圖 5.10 訓練集:4,5,6 測試集:1 ......................................................................... 33 圖 5.11 訓練集:4,5,6 測試集:3 ......................................................................... 33 圖 5.12 訓練集:4,5,6 測試集:8 ......................................................................... 33 圖 5.13 訓練集:1,3,4 測試集:2 ......................................................................... 34 圖 5.14 訓練集:1,3,4 測試集:5 ......................................................................... 34 圖 5.15 訓練集:3,4,5 測試集:2 ......................................................................... 35 圖 5.16 訓練集:3,4,5 測試集:1 ......................................................................... 35 vi.

(8) 圖 5.17 訓練集:1,4,5 測試集:2 ......................................................................... 35 圖 5.18 訓練集:1,4,5 測試集:3 ......................................................................... 35 圖 5.19 訓練集:1,3,5 測試集:2 ......................................................................... 36 圖 5.20 訓練集:1,3,5 測試集:4 ......................................................................... 36 圖 5.21 動作片類型實驗平均統計結果(1) ....................................................... 37 圖 5.22 動作片類型實驗平均統計結果(2) ....................................................... 37 圖 5.23 動作片類型實驗平均統計結果(3) ....................................................... 38 圖 5.24 喜劇片類型實驗平均統計結果(1) ....................................................... 38 圖 5.25 喜劇片類型實驗平均統計結果(2) ....................................................... 39 圖 5.26 The Fast and the Furious 之 ROC 值...................................................... 41 圖 5.27 Fast & Furious 之 ROC 值 ..................................................................... 41 圖 5.28 The Fast and the Furious Tokyo Drift 之 ROC 值 .................................. 42 圖 5.29 Fast Five 之 ROC 值............................................................................... 42 圖 5.30 Fast & Furious 6 之 ROC 值 .................................................................. 42 圖 5.31 Transformers: Dark of the Moon 之 ROC 值 ......................................... 42 圖 5.32 Bruce Almighty 之 ROC 值.................................................................... 43 圖 5.33 Click 之 ROC 值..................................................................................... 43 圖 5.34 Yes Man 之 ROC 值 ............................................................................... 43 圖 5.35 I Love you Phillip Morris 之 ROC 值 .................................................... 43 圖 5.36 Mr. Popper’s Penguins 之 ROC 值 ......................................................... 44. vii.

(9) 第一章. 簡介. 在現今這個資訊爆炸的時代,由於網路發展及數位媒體的普及化,以致於各 式各樣的電視劇、影集、電影的年產量高達數千部以上。網路上所流傳的多媒體 串流影音數量更是難以估計。 在本研究中,將針對不同類型的電影去做其精彩片段之偵測。我們提出了一 個對於各類電影精采片段偵測的方法,方法建立在機器學習上以及影像中的特徵 分析。 在本論文中,將以動作片類型電影以及喜劇片類型電影進行實驗分析,透過 我們的方法所學習出的模型所計算的分數,來偵測精彩場景的片段。. 1.

(10) 1.1 研究動機 由於網路發展及數位媒體的普及化,以致於各式各樣的電視劇、影集、電影 的年產量高達數千部以上。網路上流傳的多媒體串流影音數量更是難以估計。因 此在多媒體的內容分析中,如何讓電腦有能力去理解影片內容的研究議題,是十 分有趣的。 一般在日常生活當中,人們經過一天上班或上課的忙碌之後,回到家之後總 是想好好放鬆自己一天緊繃的壓力,以電影當作娛樂是許多人們的首選。由於電 視頻道的電影台十分多樣化,所以如何去挑選一部自己想要看的影片是常常碰到 的一個問題。人們常常都是拿著遙控器,不斷地切換頻道去挑選自己想看的影片。 但往往都是很難找到自己想要看的節目,甚至是在轉到其他頻道的過程中,漏掉 了自己原本有興趣的影片。因此,我們想去實現一個功能,可以提供該部電影的 精彩片段做為參考,就可以更有效率地去觀賞自己想要收看的電影,也就不會因 為不斷挑選電影的過程中,而去遺漏掉電影中的許多故事片段,造成無法理解電 影劇情的問題。因此如何讓使用者有效率地去檢索電影內容,便成了一項未來急 迫需求的技術。 以電影來說,一部電影所要敘訴的是一個龐大的故事劇情。而一個龐大的故 事劇情又是由許多的故事片段所組成的。而這些故事片段中,又會有一些是較為 精采的部分,用來強調這整段故事劇情中,較為重要的事件。如圖 1.1 及圖 1.2 分別為電影駭客任務以及少林足球中重要事件的劇照。這些重要事件在整部電影 的故事架構中扮演著重要的部分,而且會讓觀眾留下深刻的印象,這就是影片中 較為精彩的部分。. 2.

(11) 圖 1.1 駭客任務精彩劇照. 圖 1.2 少林足球精彩劇照. 針對在電影上,電影的情節總有高低起伏,人們在欣賞電影的過程中,總是 期待著精采的片段發生,而在精采的片段中,是否存在著某些共同的特徵點,令 觀眾認為該片段是精彩的部分,是值得我們去探討的議題。 1.2 研究目的 首先,在觀賞一部電影的時候,透過劇情的發展,我們能夠輕易地了解到 故事即將進入高潮部分,能夠感受到劇情漸漸的緊湊,故事的張力也慢慢的達到 3.

(12) 了高峰,很容易就可以清楚的了解到電影在哪個時間點會進入精彩的片段。再者, 電影本身的資訊十分多元,電影也分成許許多多不同的類型,而這些不一樣類型 的電影,其呈現整個故事架構的方式也不盡相同。如果能夠利用電腦視覺的特徵 來達到預測電影劇情發展的精采變化。以及如何將人類的感知轉換成電腦所能理 解的特徵,都是富有挑戰性的議題。 一般我們對於電影的理解是由聲音及影像所組成的,想針對電影的內容來做 分析探討,就需要從聲音和影像來著手。從聲音方面來看,一部電影的聲音變化, 相對於該電影的劇情走向,是十分相關的。舉例來說:當一段故事發展到較為緊 湊的片段時,該片段劇情的聲音大小聲變化可能較為明顯。那對於每一張影像來 說,每一張影像的組成就是顏色、邊緣線條等等來組成的。那麼,除了這些比較 表面的特徵之外,背後的電影拍攝手法也是構成一部電影的重要元素之一。電影 的拍攝手法對於整部電影來說,像是電影的靈魂。透過運鏡手法的變化,可以在 每一段劇情中,達到不一樣的效果。舉例來說:像是突然把鏡頭從遠拉到近,那 麼可能是要強調某個事物的特寫,也可能是要去營造緊張氣氛的效果。所以電影 的拍攝手法,並不是針對特定類型電影才具有的明顯特徵,而是每一部電影劇情 鋪陳背後的關鍵因素。因此,如何應用電影的聲音訊號來製作特徵,以及如何將 電影的拍攝手法轉換成電腦視覺特徵的方式呈現表示出來,並將其應用來做電影 精彩片段的預測,是本篇研究所要探討的。. 本研究的貢獻歸納如下: 一、本論文應用機器學習的方法於不同類型的電影中偵測其精彩片段。 二、對於電影的內容,我們使用特徵的方式來做描述,並對電影當中的運鏡方式,. 4.

(13) 提出了鏡頭標籤特徵。 三、我們的系統在不同類型的電影中,對於精彩片段的偵測有著不錯的準確率。. 1.3 系統架構 我們所提出的系統架構的整體流程分為訓練及測試兩大部分。在訓練部分, 主要分為三個步驟來進行 :. 一、第一步驟為電影前處理,前處理主要是將電影作場景切割、標註精彩片段之 標籤以及訓練樣本之合成,相關細節將在第三章中探討。 二、第二步驟為特徵擷取,在這個步驟當中,是從電影呈現方式的兩大方面著手。 將電影區分為視覺及聲音兩種。分別從視覺及聲音兩方面,抽取合適的特徵 來描述電影的精彩片段,相關細節將在第三章探討。 三、第三步驟為機器學習。透過機器學習的方式,將事先準備好的電影資料集, 經過第一、二步驟的處理後,當作訓練樣本。使用 SOSVM 作為機器學習的 方法,輸入資料為標籤(Label)及視覺特徵與聲音特徵整合之後的樣本。相關 細節將在第四章中探討。. 在測試部分中,首先,輸入的是一部影片。再對這部輸入的影片,作特徵的 擷取,接著在使用從訓練步驟中所學習出來的模型,去預測出該部影片的精彩度 分數曲線。. 5.

(14) 1.4 文章架構 本篇論文在第二章中,將針對於有關影片精彩片段擷取之文獻做歸納以及探 討。在第三章中,會介紹本篇論文的系統,包含對於影片的標籤、所抽取的特徵 以及所使用的機器學習方法 Max-Margin Early Event Detection[1]如何應用於電影 精采片段偵測上進行討論。最後,第四、五章中將分別說明實驗資料來源、實驗 結果以及結論。. 6.

(15) 第二章. 相關研究探討. 在現今這個多媒體爆炸的時代,針對多媒體內容分析的研究十分廣泛。而在 這些研究當中,有一部分是對於精彩片段偵測的問題進行探討的。而在這些針對 精采片段的問題當中,所提出的方法大多是針對某一類型的影片使用低階特徵去 做分析探討。 針對電影這類的多媒體分析,很大的挑戰就是電影相對於其他影片包含了大 量的內容資訊,困難的地方在於人們的感受與電腦認知之間的差距。因此,在多 媒體內容分析中,越來越多的研究是想要縮短人們和電腦之間的認知差距。 在先前的相關工作中,使得電腦能夠對多媒體內容進行分析的方式,就是將 多媒體內容特徵化。在特徵擷取中,傳統應用於電腦視覺領域當中的主要特徵有 色彩、對比度、亮度、運動量、片段長度等。文獻[2]中,作者針對了不同類型 的用色特徵中發現,不同類型的電影,具備著不同的運鏡手法,用來吸引觀眾的 目光。色彩能夠用來營造電影劇情中情境的氣氛,這篇研究中選擇了五種不同類 型的電影作為分析對象,使用的特徵有色彩、對比度還有飽和度。從這篇研究中 發現,色彩對於龐大的電影資料來說,是解析的重要步驟之一。透過電影色彩的 量化分析,能夠比較不同類型的電影片段中,彼此之間的相似及相異之處。而不 同類型的電影,整體色調的差距十分顯著。例如: 恐怖片的顏色分布較偏向於深 色系。而不同類型的電影中也會有不同的特徵呈現方式。動作類、喜劇類、科幻 類、恐怖驚悚類、愛情文藝類五種不同類型的電影當作分析的資料。每類選擇三 十部影片,每部影片透過數位色彩統計軟體處理,獲得該片對比、飽和度、亮度、 紅色、綠色、黃色、藍色的數值,經由計算可獲得每一類型各項色彩資訊的平均 值和平均標準差。藉由圖表整理分析和單因子變異數分析,來獲得各類型影片的 7.

(16) 色彩特徵以及比較不同類型用色的異同。 而針對精采片段的偵測中,許多的文獻都是針對單一類型的影片作探討。 Boril[3] 的研究中,針對了棒球類型的影片作其精彩片段的偵測。. 圖 2.1 : 棒球類型影片之精采片段偵測流程圖 (出自參考文獻[3]). 整體流程將對於影片中最為重要的兩樣東西分別做探討。在影像方面,[3]的文 獻中,先將影片切成影像,再針對於 Shot boundary 去做偵測;另外一個就是對 於棒球轉播中的重播畫面去做偵測。而在聲音方面,此篇論文也對聲音資料做了 分割,將聲音資料分為語音及背景音樂用來作興奮度的分析,在棒球轉播中,語 音資訊扮演了十分重要的角色,因此分割出來做探討是有其必要的。 Lin [4] 針對戲劇類的影片進行情感精彩片段分析,如圖 2.2 所示,作者認 為在戲劇類的影片中存在著豐富的情感特徵,人們在觀賞這類類型的影片時所關 心與感受到的是角色之間的互動及情感表達,因此透過這篇研究的系統可以擷取 出具有豐富情感的場景,並且自動編排產生預告片。在這篇研究中,作者擷取了. 8.

(17) 音樂情感(Music emotion)及視覺特徵(Visual feature)做為特徵。其中音樂情感特 徵中,作者利用 A. Mehrabian [5] 定義的三個屬性來表示包括:興奮(Arousal)利 用 1 及 0 分別表示興奮(Exciting)或鎮靜(Calming),價(Valence)表示正負 (Positive/Negative)以及支配(Dominance)利用 1 及 0 分別表示場景控制(A sense of control)或自由行動(freedom to act)。而在視覺特徵中作者選用了臉部表情 (Human face)、拍攝時間(Shot duration) 及運動量(Motion Magnitude)。. 圖 2.2 戲劇情感精彩度偵測流程圖 (出自參考文獻[4]). 在臉部表情的部分,作者偵測每個幀(Frame)所出現的人臉個數,出現越多人臉 的幀得到越多觀眾的注意。而在拍攝時間特徵中,作者認為較短的拍攝時間較能 喚起觀眾的興奮感(Arousal)而導演會利用較長的拍攝時間來表達浪漫及慢步調 以吸引觀眾的注意。而在這篇研究中,希望找到情感較豐富的精采片段,因此針 對拍攝時間特徵,較長的拍攝時間有較高的分數。最後一個特徵是運動量,運動 9.

(18) 向量為一個向量,包含了方向以及運動量,作者認為運動量可以用來表達情感的 精采度,與拍攝時間的想法相似,場景擁有較低的運動量,表達了故事劇情呈現 較低步調的呈現手法,往往也能表達較多的情感。因此低運動量有較高的分數。 透過回歸分析的方法分辨基於情感的精彩片段,從這個研究中發現取得有區辨性 的特徵,可以幫助我們找到所需要的精采度片段。 Hanjalic [6] 這篇論文則針對了影片內容的呈現方式做出了分析。這篇論文 是第一個對於影片中情緒程度做出描述,所提出的方法為 Valence-Arousal (VA) 模型。其中模型中所提到的 Valence 為情緒中屬於正面或負面的程度,Arousal 為情緒的強度。從影片當中抽取低階特徵,其特徵分別為運動強度、鏡頭變化率、 聲音短時能量與基音特徵。透過上述的特徵,可以得到影片的 V-A 曲線。雖然 上述的方法在檢測電影情感內容時都能獲得較好的結果,但主要仍是針對特定電 影類型。 Wang [7] 這篇論文中,使用基於內容的聲音以及影像特徵去對電影的場景 進行基本情緒的分類。整體架構如圖 2.3 所示。提出的方式也是先將影片分成影 像以及聲音來做處理。在聲音方面,先將聲音分為音樂、對話以及環境信號來做 處理,構成音樂部份的特徵。而在影像部分,則是使用主光、運動量等基於視頻 的資訊。最後結合成一個場景特徵向量,用以作場景中情緒分類的工作。. 10.

(19) 圖 2.3 場景情緒分類系統流程圖 (出自參考文獻[7]). Smeaton [8] 中,則是想要從整部動作片電影中去自動挑出預告片。提出的 方法為結合視覺以及聲音特徵,視覺特徵為:鏡頭長度、運動量、相機移動的程 度。聽覺特徵則是要去分出音樂、沉寂、演講、環境音樂或者是其他類型的聲音 在整個音軌中所占有的比例。而聽覺特徵中的分出動作則是對每一個類型皆訓練 一個分類器,使用的 SVM 機器學習方式。最後結合上述的特徵之後,再使用 SVM 的機器學習方式,去挑選出該鏡頭是否在預告片當中。 從上述的幾個相關研究中,我們發現了不同類型的電影具備了其獨特的呈現 方式。而在精彩度偵測的方面,許多的研究都是針對單一類型的影片去做分析, 對於特定類型的電影給予其精彩片段的定義,進而一步的設計出最適用於該類型 的特徵表示法。在特徵表示法的部分都會將其分為影像資訊及聲音資訊分別的去 11.

(20) 做分析探討。 總結來說,特徵的抽取可以決定一個精彩片段偵測成果的好壞。從上述探討 的文獻中,發現許多的特徵可以用來表示多媒體內容。我們的題目,不同於上述 的文獻之處就是本論文是將對於不同類型的電影去做精彩片段的偵測。所面臨的 挑戰就是如何發現適用於不同類型電影中的有力特徵。. 12.

(21) 第三章. 系統設計. 我們所提出的方法是監督式學習(Supervised learning)。在本章節中,將討論 如何訓練一個用來自動偵測精彩片段的偵測器。圖 3.1 是本論文的系統架構流程 圖。圖中包含了訓練(Training)和測試(Testing)流程。在訓練流程中,輸入為電影 以及其精彩片段的標記(Highlight annotations),輸出的為一個用來預測精彩片段 分數的模型。在測試流程中,輸入為一段影片,然後透過在訓練流程中所訓練出 來的模型去預測出對應該影片的精彩度分數曲線。 整 體 系 統 架 構 將 分 為 三 個 部 分 來 探 討 , 分 別 為 電 影 前 處 理 (Movie preprocessing)、特徵抽取(Feature extraction)以及機器學習(Machine learning)。其 相關細節將在接續的章節中討論。. 圖 3.1 系統架構流程圖. 3.1. 電影前處理. 3.1.1 電影場景切割 在多媒體研究領域,以視聽覺特徵(Audio visual feature)進行電影內容分析的. 13.

(22) 相關研究中,針對電影的處理基本單位根據其複雜度由高到低概略可以區分為故 事層級(Story level)、事件層級(Event level)、場景層級(Scene level)、拍攝層級(Shot level)以及框架層級(Frame level)等。為了讓機器方便進行分析,本論文以場景層 級(Scene level)作為處理電影的基本單位。在電影分割的工作中,針對場景層級 的開發策略已有一定程度的累積。然而,至今仍沒有一個可靠的方法能對於所有 類型電影以場景(Scene level)為單位去做分割。而我們所使用的方法為 Movie maker[9] 再搭配劇情腳本輔助,來進行電影場景的分割。. 3.1.2 精彩場景標註 對於建置電影當中精彩場景的 Ground truth,我們邀請了三個人進行投票。 首先,會先讓邀請的三個人看完該部電影,再對電影進行標註。標註的方式為對 於每一部經過本論文中電影場景切割方法後所分割成的所有場景進行投票。整體 的投票機制就是如果該場景獲得兩票以上的票數,就將該場景標註為精彩場景。 而在投票的機制中,對於精彩場景的定義為整部電影中較為重要的故事片段,而 這些重要的故事片段通常會讓觀眾留下深刻的印象,會讓觀眾記得這部電影主要 的劇情有哪些。其中,若有故事片段是跨越我們所切割出的場景時,則會去選擇 最重要的部分所出現的場景來當作精彩場景。透過上述的定義之後,將被邀請的 三個人所投票之結果當作電影資料庫的 Ground truth。 在實驗的電影資料庫當中,一部電影大部分分割成 30 至 40 個場景,經過精 彩場景標註過後,一部電影通常包含 4 至 8 個精彩場景。. 3.1.3 訓練樣本合成 為了使用在章節 3.3 中提到的 MMED [1] 方法,必須要先進行訓練樣本的合 14.

(23) 成。針對訓練樣本合成,產生一組訓練集合(X1,Y1) ,….., (Xn,Yn),其中 Xi 由三個 一般場景與一個精彩場景所組成。在本論文中,做法是將每一部影片中的所有場 景分為精彩場景群組以及非精彩場景群組,其中對於每部電影的精彩場景,去搭 配三個從非精彩場景群組中隨機挑選的場景來合成為一個訓練樣本。而 Yi = [si,ei] 表示樣本中,精彩場景的開始與結束時間。. 3.2 特徵擷取 一般人們在欣賞電影時,多數僅注意到由演員演出的劇情故事,而去忽略了 電影的情節故事其實還需要由攝影、聲音、場面調度與剪接等形式語言來呈現。 例如就攝影的部分來說,電影所使用的電影底片、顏色、燈光亮度、攝影機取鏡 的角度、所用的景深長度、放映時螢幕的寬度、攝影機的移動以及取景等都會影 響看影片時的感受,當然也會為電影產生不同的意義。而就聲音的部分,不少的 電影學者都曾指出電影中的聲音在過去的電影分析中嚴重地被忽視。雖然電影本 質上是影像的藝術,但是聲音的重要性不容忽視。電影中除了對話外,還有音效 以及配樂都是構成觀眾整體觀影感受與電影的敘事進行的重要元素。角色的對話 或自言自語是劇情的重要內容,音效及配樂則是協助影片營造重要的效果與情緒 以及劇情高潮時所需要的情感配合。因此,在特徵擷取這個步驟中,如何找到能 夠精確地描述電影精彩片段的特徵,是本篇研究的重點。有別於傳統在電腦視覺 中描述電影畫面著重在低階的視覺特徵,例如: 色彩,對比,亮度等,我們希望 能夠找到具鑑別性用來區分電影精彩度內容的特徵,因此研究電影中精彩片段及 其他片段有何差異的特點,並且思考如何將此特點轉化成電腦可計算的數據,即 是這步驟所研究的議題。在本篇論文中,特徵擷取的部分將分為兩類來探討。分. 15.

(24) 別為視覺特徵(Visual feature)及聽覺特徵(Audio feature)。. 3.2.1 視覺特徵 在視覺特徵方面,就是對影像去做適當的特徵擷取。然而,透過先前的研究 中,發現淺而易見的影像特徵會根據不同電影的類型產生決定性影響。基於這樣 的原因,並無法使用這些基本的特徵來當作視覺特徵。在電影中,不同的類型, 都會有其獨特的呈現方式,根據不同的鏡頭拍攝以及不同的導演,呈現的方式更 是千變萬化。基於這樣的發現,在視覺特徵的採用部分,並不採用顏色之類的低 階特徵(Low-level feature),使用的是中階特徵(Middle-level feature),分別是鏡頭 切換頻率(Shot change rate)以及鏡頭分類標籤(Shot label)。 我們對電影的觀察中發現,鏡頭在電影的呈現中扮演著十分重要的角色,透 過鏡頭的變化,可以做出劇情上的鋪陳,例如 : 當電影劇情演到較為緊張的時 刻時,鏡頭切換頻率會變多。基於這樣的發現,本論文中以鏡頭切換頻率(Shot change rate)當作其中一種的視覺特徵。 在本論文中,利用的是一個較為簡單的方法來進行鏡頭切換的工作。首先, 將每一個畫面切割成多個相同大小的區塊,再分別統計各個區域的強度(Intensity) 直方圖。在電影當中,影片的上下半部都會有固定大小的黑邊區域。因此,在鏡 頭切換的做法中,在擷取影片中的影像(Video frame)時,會先對其作裁切的動作。 而針對影像要分割的區塊數目,當切割成過多的區域時,在計算相似度時複雜度 會增加,甚至造成準確率不增反降的情形。因為區塊的變化需要能容忍物體在畫 面上的移動或者是鏡頭平移、縮小、放大等等些許變動。透過實驗分析之後,依 照畫面大小為 672 * 288 的影片資料,切割成 7 * 3 個區塊,會有較為穩定的切割. 16.

(25) 效果。 將畫面切割成 7 * 3 個區塊後,根據相似度公式 3.1,計算當前畫面與前一個 畫面兩者相對應區域的 Bhattacharyya 係數當作相似度。相似度越高者,代表著 當前畫面跟前一個畫面屬於連續畫面,兩者之間沒有切換鏡頭的改變。在本論文 的方法中,設定相似度低於 90%時為鏡頭切換畫面,並記錄該畫面的編號,用來 統計鏡頭切換頻率。. 1. β(P, Q) = ∑𝑅𝑟=1 ∑𝐵𝑖=1 √𝑝𝑟𝑖 𝑞𝑟𝑖. 公式 3.1. 𝑅. 在公式 3.1 中,P 和 Q 分別表示當前畫面及前一張畫面的強度直方圖向量。R 表 式影像分割的區塊總數,而 B 表示的是直方圖的欄位個數(Bins)。 針對鏡頭切換頻率的設計,使用的是移動視窗(Sliding window)來進行統計。當移 動視窗區間裡出現幾次鏡頭切換,就去紀錄當下的個數當作特徵值,當畫面的切 換頻率越高,表示當下的劇情可能是在精彩片段之中。在實驗設計中,移動視窗 (Sliding window)的大小為 5 秒,每一次移動 1 秒。 而從鏡頭的方面來觀察一部電影,電影背後的運鏡手法也是會對整部電影產 生影響的。根據不同的電影類型、不同的導演等等因素,每一部電影的運鏡手法 都是不相同的,透過這樣不同的運鏡手法,更可以去針對不同的劇情需求,產生 其獨特的效果。因此,我們認為找出電影運鏡的手法來當作特徵,可以幫助針對 每一種類型的電影更為準確地做出其精彩片段的預測。 針對運鏡手法的特徵設計,我們將其視為一個鏡頭分類(Shot classification) 問題,針對每一張從影片擷取出的影像(Frame)去做鏡頭分類。圖 3.2 中為鏡頭分. 17.

(26) 類問題中,分類問題中的鏡頭類別,由左至右分別為遠鏡頭(Wide shot)、中鏡頭 (Middle shot)以及特寫鏡頭(Close-up shot)。. Wide. Middle. Close-up. 圖 3.2 鏡頭類別代表圖(來自 Google image search). 表 3.1 鏡頭分類資料庫 Category. Number of images. Wide. 326. Mid. 335. Close-up. 355. 在鏡頭分類問題(Shot classification)中,使用的是監督式學習方法(Supervised learning)。首先,第一步驟就是針對這個分類問題,另外去收集了一份資料庫, 表 3.1 為資料庫的詳細資料。總共收集了 1016 張圖片來當作資料庫。第二步驟 則是對這些影像作適當的特徵抽取。對於電影中每個 frame 觀察過後,我們發現 了影像中的顏色和邊緣特性,足以幫助我們做鏡頭分類問題。因此,在鏡頭分類. 18.

(27) 問題中的特徵抽取,採用了 HSV color histogram 和 MPEG-7 Edge histogram 用來 當作每一個 frame 的特徵。在 HSV color histogram 中,使用的做法為先將每一張 frame 中的顏色轉換到 HSV 的色彩空間,使用色調(Hue)和飽和度(Saturation)來 當作每一個 frame 的顏色特徵,其中色調量化為 16 份,飽和度量化為 4 份。顏 色特徵的長度為 64 維。而 MPEG-7 Edge histogram 則是用圖像中的每個子圖像 的 5 種不同類型的邊緣值方圖來表示。對於每一張 frame 都分成 4*4 個子圖,分 別去計算垂直邊緣、水平邊緣、45 度邊緣、135 度邊緣、無方向邊緣的邊緣直方 圖,細節如圖 3.3 所示。整個邊緣直方圖特徵的長度為 80 維。. 圖 3.3 MPEG-7 edge histogram 中的邊緣類型. 最後的步驟則是機器學習,使用的是支持向量機(Support vector machine, SVM) 當作機器學習方法。對於事先從 Google image search 所收集來的資料庫,也對其 做交叉驗證(Cross validation),相關細節如圖 3.4 所示,圖中 Y 軸為正確率值、X. 19.

(28) 軸分別為各個 fold 的正確率,最後一個為整體的平均值。整體資料庫的正確率 達到了 80.71%。 而在鏡頭分類問題中,所選擇的三個類別有一些容易混淆的情況。在特寫類 別與中鏡頭類別中,在收集資料庫時就有發現一些應該屬於中鏡頭類別的影像在 Google Image Search 上是分在特寫類別。因此需要做出修正,總計為不到 3%所 收集下來的影像需做人工的調整。. Color_hist+Edge 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 1. 2. 圖 3.4. 3. 4. 5. avg. 鏡頭分類問題 5-fold cross validation 正確率. 最後,將從 Google image search 收集而來的 1016 張影像當作訓練的樣本,經過 特徵抽取、機器學習的步驟後所產生的模型,來對電影的每一個 frame 做分類問 題。最後將每一個 frame 分類的結果,依據其分類到的鏡頭標籤類型組合成一字. 20.

(29) 串序列,用來當作電影運鏡手法的特徵表示法。. 3.2.2 聽覺特徵 電影當中除了影像之外,最容易觀察到的就是聲音。如果在觀賞一部電影時, 對整部影片採取靜音的動作,那麼觀眾會更難的去理解電影中的劇情鋪陳。因此, 聲音在電影當中是十分重要的。一部電影當中,根據其劇情需要,導演會運用不 同類型的音樂呈現方式來詮釋故事的劇情。在本論文中,先對電影作聲音的抽取, 利用所抽取出的音樂檔來進行聽覺特徵的分析計算。 在聽覺特徵方面,對於整部電影的觀察過後,發現音量對於整部電影是一個 十分明顯的特徵。對於音量大小,我們認為背景音樂、音效、人物間的對話也能 傳達故事發展的精采度,當故事處於敘述階段時,音量的大小較為平穩,大部分 的場景存在著輕快的音樂或是較為平緩的人物對談。反之,當劇情發展到了較為 緊張刺激的片段時,其音量大小也較一般場景來的劇烈。因此聲音大小具有顯示 當下電影精采度的能力。在本論文中,使用的是移動視窗(Sliding window),對於 事先抽取出來的音樂檔做計算。在移動視窗裡,對移動視窗中的最大音量及最小 音量去做相減的運算,得到該區間內的音量大小。在實驗設計中,移動視窗 (Sliding window)的大小為 5 秒,每一次移動 1 秒。 在聲音方面,除了音量大小的基本特徵外,另一個很明顯的聽覺特徵就是頻 率。如同視覺特徵,運動量(Motion)擁有向量及移動量,聽覺特徵在音量大小可. 21.

(30) 以表達聲音表現的幅度,而頻率則可以表達音樂所呈現的情境、狀況。在人類的 感知中,頻率較低的音樂,會讓人們感覺比較放鬆,例如:協奏曲、圓舞曲等等, 而頻率較高的音樂,可以讓人感到振奮或激昂,例如:進行曲、交響曲等等。. 圖 3.5 聲音大小示意圖 在頻率特徵的計算上,做法是對於事先抽取出的音樂檔去做分析運算。首先,在 抽取出的聲音訊號中,使用移動視窗(Sliding window)的方式。在實驗設計中,移 動視窗(Sliding window)的大小為 5 秒,每一次移動 1 秒。在計算頻率之前,必須 先對移動視窗作處理。所使用的方式為 ACF(Auto Correlation Functions)運算。 ACF(Auto Correlation Functions)是一個基於時域演算的方法,稱作自相關演 算法,主要是使用自相關函數來計算一個移動視窗 s( i ), i = 0,…, n−1 和本身的 相似度:它的數學式如下:. ACF(τ) =. 1 𝑁. ∑𝑁−1 𝑛=0 𝑠(𝑛)𝑠(𝑛 + τ). 22. 公式 3.2.

(31) 其中 τ 是時間延遲量(以取樣點為單位) 。公式 3.2 表示 ACF 就是將一段音框 平移一段時間τ,然後跟原本的音框做自相關運算,就可以得到一段跟原本音框 相同長度的序列,然後去取這一段序列中的第一 Local maximum,與第二 Local maximum,這二個點發生的時間差,就是音高週期,也就是這一段音框的基頻所 在。圖 3.6 為上述文字的圖形示意。. 圖 3.6 ACF 運算示意圖. 對於做完 ACF 運算的滑動視窗,我們還要在做一次處理。處理的公式如下. Frequency =. sampling frequency. 公式 3.3. (Index_2−Index_1). 23.

(32) 其中 Index_1 和 Index_2 為滑動視窗中,第一 Local maximum,與第二 Local maximum 的索引,sampling frequency 為抽取出的聲音檔中的取樣頻率。透過公 式 3.3 的計算,得到每一個滑動視窗的頻率值,用來當作方法中的頻率特徵。. 3.3 早期事件偵測 Max-margin early event detection (MMED) 在上一節中,我們針對了聽覺及視覺特徵分別去做探討,分別設計出四個特 徵;並且也對影片做前處理,切割成以場景(Scene level)為單位和其精彩場景標 註過後的訓練集資料。在本小節中,將說明如何利用結構性輸出支持向量機 (SOSVM)學習訓練出一個精彩度偵測器。另外,對於評估精采度預測上,利用 手動標籤精彩片段及學習曲線,透過學習參數的方式來得到可靠的精彩片段預 測。 結構性輸出支持向量機(SOSVM)是由 Ioannis Tsochantaridis 等人在 2005 年所提出,目前被廣泛應用在各種領域的研究中。其中又以聲音辨識最為廣泛。 基於 SOSVM 的彈性輸出,將可以從機器學習中獲得到更多的資訊。因此,在本 研究中,使用 SOSVM 做為系統的訓練方法,以下概略描述整個學習的運算模式, 關於公式的推導過程,詳情可參考原始文獻[10]。其中我們遵照 Hoai and Minh[1] 描述 SOSVM 的公式代號來說明應用在電影精彩度分析的工作上。 首先,輸入事先準備好的訓練樣本 (𝑋1 , 𝑌1 ), …. ,(𝑋 𝑛 , 𝑌 𝑛 ),其細節在章節 3.1.3 中有詳細說明。 假設精采片段長度的區間介於 ℓ𝑚𝑖𝑛 和 ℓ𝑚𝑎𝑥 ,我們用 𝒴(t) 表示為一個長度. 24.

(33) 符合區間限制,從開始時間為1𝑠𝑡 frame 到一個結束時間介於1𝑠𝑡 到 𝑡𝑡ℎ frame 的 影片子集合:. 𝒴(t) = {𝓎 ∈ 𝒩 2 | 𝓎 ⊂ [1, 𝔱], ℓ𝑚𝑖𝑛 ≤ |𝓎| ≤ ℓ𝑚𝑎𝑥 } ∪ {𝜙}.. 公式 4.1. 其中| ∙ | 表示長度, ℓ𝑚𝑖𝑛 和 ℓ𝑚𝑎𝑥 分別表示一個樣本𝑋 𝑖 的最小及最大長度,𝒴(t) 則表示任何可能為精彩場景的區間,當為空集合表示沒有任何精彩場景發生。 接著將要訓練一個精彩場景偵測器 𝒢(𝑋) ,場景偵測器可以接受一段影片 並輸出該段影片的精采度分數及所發生的區間:. 𝒢(𝑋) = argmax 𝑓(𝑋𝑦𝑖 ; 𝜃). 公式 4.2. 𝑦∈𝒴(ℓ). 而我們利用 φ(𝑋𝑦𝑖 ) 來表示樣本中的特徵向量,因此可以將𝑓(𝑋𝑦𝑖 ; 𝜃)展開為一個線 性精采度分數偵測的公式:. 𝑓(𝑋𝑦 ; 𝜃) = {. 𝑤 𝑇 𝜑(𝑋𝑦 ) + 𝑏, 𝑖𝑓 𝑦 ≠ 0 , 0. , 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 .. 公式 4.3. 上述的公式 4.2 中 𝑋𝑦𝑖 表示為一個樣本,而 𝜃 = (𝑤, 𝑏) ,𝑤 為權重向量,b 為偏 差值。但是基於上面的作法,必須要在整個 y 讀取完之後才能得到分數,無法達 到即時預測精采度(Early event detection)的目的。根據 Hoai and Minh 的研究發現 [4],可以利用部分精采度事件做為訓練樣本,我們的事件偵測器將可以學習到 偵測部分事件,進而達到即時預測的效果。因此需要修改上述的輸入公式。定義 𝑦𝑡𝑖 為 𝑦 𝑖 的一個部分精采度場景,表示偵測到 t 秒時已發生的精彩場景,以 𝑦𝑡𝑖 = 𝑦 𝑖 ∩ [ 1 , 𝑡 ] 來表示。其中 𝑦𝑡𝑖 可為空的區段,因此我們可以改寫偵測器的公式: 𝑖 𝒢(𝑋[1,𝑡] ) = argmax 𝑓(𝑋𝑦𝑖 ). 公式 4.4. 𝑦∈𝒴(t). 25.

(34) 而在偵測部份精彩事件的步驟中,必須確保當執行到第 t 秒時, 𝑦𝑡𝑖 擁有最高的 分數。因而必須要加入一條限制式到訓練公式中:. 𝑓 (𝑋𝓎𝑖 𝑖 ) > 𝑓(𝑋𝑦𝑖 ) , ∀𝑦 ∈ 𝒴(t). 公式 4.5. 𝑡. 接著在 SOSVM 中,我們希望能夠學習到精彩場景及非精彩場景之間足夠的差異, 因此,需要去規範一個邊際 △ ( 𝑦𝑡𝑖 , y) 並且加入到限制式中:. 𝑓 (𝑋𝑦𝑖 𝑖 ) > 𝑓(𝑋𝑦𝑖 ) + △ ( 𝑦𝑡𝑖 , y) , ∀𝑦 ∈ 𝒴(t). 公式 4.6. 𝑡. 其中∆(𝑦𝑡𝑖 , y) = 1 −. 2|𝑦𝑡𝑖 ∩ 𝑦| |𝑦𝑡𝑖 |+|𝑦|. ,在定義完上述的限制式之後,便可以得到以下的學. 習方程式: 1. 𝐶. 2. 𝑛. ‖𝑤‖2 + ∑𝑛𝑖=1 𝜀 𝑖 , minimize 𝑖 𝑤,𝑏,𝜀 ≥0. 𝑠. 𝑡. 𝑓 (𝑋𝑦𝑖 𝑖 ) ≥ 𝑓(𝑋𝑦𝑖 ) + ∆(𝑦𝑡𝑖 , 𝑦) − 𝑡. 𝜀𝑖 |𝑦𝑖𝑡 | 𝑢( 𝑖 ) |𝑦 |. 𝒴(t). 其中. ,. ∀i, ∀t = 1, … . , 𝑙 𝑖 , ∀𝑦 ∈. 公式 4.7 𝜀𝑖 |𝑦𝑖𝑡 |. 𝑢( 𝑖 ) |𝑦 |. |𝑦 𝑖 |. 為差額變數(slack variables),在 𝑢 (|𝑦𝑡𝑖 |) 中表示在第 t 秒時所占精彩場. 景的比例,當所占的比例越高時,表示的邊際將越大,藉此學習出精彩場景與非 精彩場景的差異度。 透過上述的學習方法後,將可以訓練出一個用來偵測精彩片段的模型。而在 測試流程中,輸入一部影片,透過對於影片的特徵抽取,再使用所訓練出來的模 型去預估精彩度分數。而在實驗當中,選取一部影片當中所有場景當作樣本集來. 26.

(35) 進行測試評估。每一個樣本為一個場景,針對每個樣本我們有連續的精采度分數 用來分析結果。在下一章節中,將對於整體實驗細節做出說明,包括整個電影資 料庫的收集資料以及影片做完測試之後的結果分析。. 27.

(36) 第四章. 實驗結果與分析. 在本章節中,將對影片測試的結果做出分析探討。實驗中,將分為兩個部份。 第一個 部 分 為 針對 動 作類型 電影 (Action movie)以 及喜 劇類型 電 影 (Comedy movie)分別訓練一個模型,然後個別做出預測的結果分析,第二個部分則是對於 所有電影只訓練一個偵測器的預測結果分析。. 4.1 電影資料集 在電影資料集的收集,選擇了七部動作類型的電影(Action movie),分別為 The Fast and the Furious、2 Fast 2 Furious、The Fast and Furious Tokyo Drift、 Fast and Furious 4、Fast Five、Fast & Furious 6。六部玩命關頭系列電影以及 Transformer : Dark Of The Moon 變形金剛 3,當作動作類型電影的資料庫。另外 也收集了五部喜劇類型的電影(Comedy movie),分別為 Bruce Almighty 王牌天神、 Click 命運好好玩、Yes Man 沒問題先生、I Love you Philip Morris 娘子漢大丈 夫、Mr. Popper’s Penguins 波普先生的企鵝。五部電影當作喜劇類型電影的資料 庫。其中電影類型的資訊皆來自 IMDB[15]所提供的分類結果。 表 4.1 和表 4.2 為實驗中電影資料庫的詳細資訊。其中包含電影名稱、上映 年份、影片時間、影片總場景個數、精彩場景個數、精彩場景編號及導演(表 4.1) 演員(表 4.2)。. 28.

(37) 表 4.1 動作類型電影資料庫 ID. 電影名稱. 年份 片長 場 精 精彩場景編號. 導演. (分) 景 彩 個 場 數 景. 1. The Fast and the 2001 107. 39 6. {6,12,19,33,35}. Furious 2. Rob Cohen. 2 Fast 2 Furious. 2003 108. 19 4. {1,7,11,19}. John Singleton. 3. The Fast and the 2006 105. 44 6. {3,4,13,25,28,36} Justin. Furious Tokyo Drift. 4. 5. 6. 7. Fast & Furious. 2009 107. Fast Five. 2011 131. Fast & Furious 6. Transformers:. Lin. 2013 131. Dark 2011 154. of the Moon. 32 7. 66 7. 32 6. 37 5. {1,3,11,17,23,30,. Justin. 32}. Lin. {2,8,16,41,46,52,. Justin. 53}. Lin. {1,11,16,22,28,. Justin. 30}. Lin. {6,12,19,33,35}. Michael Bay. 29.

(38) 表 4.2 喜劇類型電影資料庫 ID. 電影名稱. 年份 片長 場 精 精彩場景編號. 演員. (分) 景 彩 個 場 數 景. 1. Bruce Almighty. 2003 101. 46 8. {7,12,14,16,23, 25,28,42}. 2. 3. Click. Yes Man. 2006 107. 2008 104. 48 7. 36 6. Jim Carrey. {23,24,33,39,45,. Adam. 47,48}. Sandler. {7,9,13,18,24,26} Jim Carrey. 4. I Love you Phillip 2009 98. 65 7. Morris 5. Mr. Popper’s. 2011 94. Penguins. 30. 32 8. {17,36,37,39,50,. Jim. 57,64}. Carrey. {9,10,13,15,16,. Jim. 21,26,28}. Carrey.

(39) 至於實驗設計中,第一個部分將根據電影資料庫中電影的類型來分別說明。 在動作片類型電影中,以導演 Justin Lin 所拍攝的電影中挑選一部、導演 Rob Cohen 所拍攝的 The Fast and The Furious 和導演 Michael Bay 所 拍 攝的 Transformers: Dark of the Moon 當作測試集(Testing set)。其餘導演 Justin Lin 所拍 攝的電影當作訓練集(Training set)來進行實驗分析及探討。 在喜劇類型電影中,以演員為 Jim Carrey 的電影中挑選一部、演員為 Adam Sandler 的 Click 當作測試集(Testing set)。其餘演員為 Jim Carrey 的電影當作訓練 集(Training set)來進行實驗分析及探討。. 4.2 實驗評估方式 首先,我們利用正確偵測率(True positive rate, TPR)與偽陽性率(False positive rate, FPR) 來評估本論文的電影精彩偵測器是否能夠正確的偵測出精彩 片段。關於正確偵測率,定義為在門檻值 ξ 下,精彩場景仍然可以發佈偵測的成 功率有多少。而偽陽性率則是在同樣的門檻值 ξ 下,不應該發佈精彩偵測卻發佈 精彩偵測的比例有多少,X 軸表示偽陽性率(False positive rate, FPR)而 Y 軸表示 正確偵測率(True positive rate),透過 TPR 對應 FPR 所產生 ROC 曲線,利用 ROC 曲線下的面積來評估偵測器的精準度。在這個實驗中,分別使用 SVM 及 MMED 來學習權重進行評估比較,在 SVM 的訓練樣本設計上,我們將原先的合成樣本 中的精彩場景片段設為 Positive example,一般場景設為 Negative example,並根. 31.

(40) 據 Minh [1]的初始設定,將一般場景的部分切割成等長的 20 等份,而 MMED 則 利用我們在第三章所介紹的學習模型學習權重。. 4.3 實驗結果分析 圖 5.1 至圖 5.12 為動作片類型電影的實驗結果。圖片說明中數字代表的是電 影編號,其詳細內容在表 4.1 中可以查閱。 X 軸表示偽陽性率(False positive rate, FPR)而 Y 軸表示正確偵測率(True positive rate, TPR),紅色實線表示 MMED 的 ROC 曲線,藍色虛線表示 SVM 的 ROC 曲線,右下曲線說明旁的數字表示 ROC 曲線的面積。. 圖 5.1 訓練集:3,4,5 測試集: 1. 圖 5.2 訓練集: 3,4,5 測試集: 6 圖 5.3 訓練集: 3,4,5 測試集: 8. 32.

(41) 圖 5.4 訓練集:3,4,6 測試集: 1. 圖 5.5 訓練集: 3,4,6 測試集: 5 圖 5.6 訓練集: 3,4,6 測試集: 8. 圖 5.7 訓練集:3,5,6 測試集: 1. 圖 5.8 訓練集: 3,5,6 測試集: 4 圖 5.9 訓練集: 3,5,6 測試集: 8. 圖 5.10 訓練集:4,5,6 測試集: 1. 圖 5.11 訓練集: 4,5,6 測試集: 3 圖 5.12 訓練集: 4,5,6 測試集:8 33.

(42) 圖 5.1 至圖 5.3 由左至右為一組實驗對照,依此類推。在動作片類型當中總共有 四組對照,從結果圖中發現跟訓練集具有相同導演的的測試電影,整體 ROC 的 面積值會稍微高過其他兩個與訓練集不同導演的測試電影,而產生這樣的現象, 我們推測是由系統中的 shot label 特徵所產生的差異性。在稍後的章節中,將會 針對單一特徵對系統的平均貢獻度做出探討。. 圖 5.13 至圖 5.20 為喜劇片類型電影的實驗結果。圖片說明中數字代表的是電影 編號,其詳細內容在表 4.2 中可以查閱。 X 軸表示偽陽性率(False positive rate, FPR)而 Y 軸表示正確偵測率(True positive rate, TPR),紅色實線表示 MMED 的 ROC 曲線,藍色虛線表示 SVM 的 ROC 曲線,右下曲線說明旁的數字表示 ROC 曲線的面積。. 圖 5.13 訓練集: 1,3,4 測試集: 2. 圖 5.14 訓練集: 1,3,4 測試集: 5. 34.

(43) 圖 5.15 訓練集: 3,4,5 測試集: 2. 圖 5.16 訓練集: 3,4,5 測試集: 1. 圖 5.17 訓練集: 1,4,5 測試集: 2. 圖 5.18 訓練集: 1,4,5 測試集: 3. 35.

(44) 圖 5.19 訓練集: 1,3,5 測試集: 2. 圖 5.20 訓練集: 1,3,5 測試集: 4. 圖 5.13 以及圖 5.14 由左至右為一組實驗對照,依此類推。在喜劇片類型的電影 當中總共有四組對照,從圖 5.13 至圖 5.20 中,發現跟訓練集具有相同演員的測 試電影,整體 ROC 的面積值會高過於其他兩個與訓練集不同演員的測試電影。 而這樣的現象,跟動作片類型相同,推測是由系統中的 shot label 特徵所產生的 差異性。在稍後的章節中,將針對單一特徵對系統的平均貢獻度做出探討。. 在動作類型的電影(Action movie)當中,比較當測試集和訓練集的電影為相同導 演所拍攝的以及當測試集和訓練集的電影為不同導演所拍攝的實驗平均結果。下 圖 5.21、圖 5.22 以及圖 5.23 為動作片類型的平均統計結果,其中也提供了每一 個特徵的 ROC 值以及結合四種特徵的結果分析。. 36.

(45) 圖 5.21 動作片類型實驗平均統計結果(1). 圖 5.22 動作片類型實驗平均統計結果(2). 37.

(46) 圖 5.23 動作片類型實驗平均統計結果(3). 在喜劇類型的電影(Comedy movie)當中,比較當測試集和訓練集的電影為相同演 員時以及當測試集和訓練集的電影為不同演員時的實驗平均結果。下圖 5.24、圖 5.25 為喜劇片類型的平均統計結果,其中也提供了每一個特徵的 ROC 值以及結 合四種特徵的結果分析。. 圖 5.24 喜劇片類型實驗平均統計結果(1). 38.

(47) 圖 5.25 喜劇片類型實驗平均統計結果(2). 從圖 5.21、圖 5.22、圖 5.23、圖 5.24 以及圖 5.25 的觀察中,我們發現根據訓練 集與測試集的導演(演員)因素的不同,造成了整體系統的準確率的不同。而從本 論文所設計的特徵中,鏡頭分類特徵(Shot label)對應於實驗設計,產生了有趣的 結果。在圖 5.21、圖 5.22、圖 5.23、圖 5.24 以及圖 5.25 的鏡頭分類(Shot label) 特徵值中,對應於測試集跟訓練集為不同導演(演員)時,對整個系統的正確率幫 助較低。 在動作片類型電影中,鏡頭分類特徵的平均準確率在不同導演的條件下為 64.23 % 以及 56.34 %,在相同導演的條件下為 81.44 %。 在喜劇類型電影中,鏡頭分類特徵的平均準確率在不同演員的條件下為 56.73 %,在相同演員的條件下為 76.54 %。. 39.

(48) 從上述對於兩類電影的鏡頭分類特徵結果分析中,發現了鏡頭分類特徵跟訓 練集以及測試集的導演(演員)因素有關。換句話說,本論文中所設計的鏡頭分類 (Shot label)特徵可以呈現出一位導演是如何的去製作一部電影,或者是一位演員 如何的去扮演一個角色。 另外一個視覺特徵-鏡頭切換頻率(Shot change rate),在圖 5.21、圖 5.22、圖 5.23、圖 5.24 以及圖 5.25 中,發現其皆具有不錯的準確率。整體來說,在不同 導演(演員)或相同導演(演員)的因素下,鏡頭切換頻率都能對整體系統提供不錯 的貢獻度。 在聽覺特徵方面-音量大小(Volume),在圖 5.21、圖 5.22、圖 5.23、圖 5.24 以及圖 5.25 中,發現音量特徵在整體系統中皆提供了不錯的效能。對於先前在 精彩片段的觀察中,音量大小在精彩片段時會有較為劇烈的變化做出了驗證。 另一個聽覺特徵-聲音頻率(Frequency),我們發現了有趣的現象。在圖 5.21、 圖 5.22、圖 5.23、圖 5.24 以及圖 5.25 中,在不同導演/演員或者是相同導演/演員 的條件下,皆提供了穩定的效能。 結合了上述四種特徵,在整個系統中,動作片類型電影在不同導演的條件下, 整體平均準確率達到了 85.55 % 以及 89.33 %,在相同導演條件下,整體平均準 確率則達到了 92.23 %。其中在前面的兩個準確率值,反映了即使是使用同一個 系列的電影當作訓練集所訓練出來的偵測器,用來偵測一個不是該系列的電影時, 依舊可以達到不錯的效果。喜劇類型電影在不同演員的條件下,整體平均準確率. 40.

(49) 為 75.52 %,在相同演員的條件下,整體平均準確率達到 89.72 %。從上述幾個 準確率來分析,本論文中的系統、方法在不同類型的電影中,皆達到了不錯的準 確率。而造成整體準確率有所差別的主要原因則來自於鏡頭分類特徵,根據訓練 集與測試集的差別,鏡頭分類特徵會對這個差別反應出一定程度的影響,進而影 響到整體的準確率。. 而在實驗中的第二個部分,使用 Leave-One-Out Cross Validation 的方式進行 驗證。主要目的是想驗證本論文的系統在不是對每一類型訓練一個偵測器的情況 下的準確率分析。方式為將 N 部電影中,選出一部當作測試,而剩下的 N-1 部 電影做為訓練集的測試方式,總共進行 N 次的交叉驗證。 圖 5.26 至圖 5.36 為使用 Leave-One-Out Cross Validation 方式進行實驗之後 的 ROC 圖,其電影的詳細內容在表 4.1 中可以查閱。. 圖 5.26 The Fast and the Furious 之 ROC 值. 圖 5.27 Fast & Furious 之 ROC 值. 41.

(50) 圖 5.28 The Fast and the Furious Tokyo Drift 之 ROC 值. 圖 5.30 Fast & Furious 6 之 ROC 值. 圖 5.29 Fast Five 之 ROC 值. 圖 5.31 Transformers: Dark of the Moon 之 ROC 值. 42.

(51) 圖 5.32 Bruce Almighty 之 ROC 值. 圖 5.33 Click 之 ROC 值. 圖 5.34 Yes Man 之 ROC 值. 圖 5.35 I Love you Phillip Morris 之 ROC 值. 43.

(52) 圖 5.36 Mr. Popper’s Penguins 之 ROC 值. 從上述的實驗圖中,發現動作片混合喜劇片的訓練集對於整體系統來說,準 確率是有下滑的趨勢。以動作片的類型來說,圖 5.26 至圖 5.31 的結果對應到不 使用混合類型的訓練集時,其中圖 5.26、圖 5.27 以及圖 5.29 的 The Fast and the Furious、Fast & Furious 以及 Fast Five 這三部電影跟前一個實驗做比較時多了一 點的提升。而圖 5.28 以及圖 5.31 的 The Fast and the Furious Tokyo Drift、 Transformers: Dark of the Moon 兩部電影跟前一個實驗相比時,則呈現差不多的 準確率。但是,在圖 5.30 的 Fast & Furious 6 則出現了反效果,跟前一個實驗相 比差距較大。整個動作片類型的平均跟之前相比稍微差了一些。. 44.

(53) 以喜劇片類型來說,圖 5.32 至圖 5.36 的結果對應到不使用混合類型的訓練 集時,這五部電影 Bruce Almighty、Click、Yes Man、I Love you Phillip Morris、 Mr. Popper’s Penguins 跟前一個實驗相比較時,皆出現了準確度下降的現象。而 又以圖 5.32 以及圖 5.35 的 Bruce Almighty、I Love you Phillip Morris 出現了較大 的差距。整個喜劇片類型的平均跟之前相比較差。 根據我們所觀察到的現象,本論文的系統在使用混合類型的訓練集時,仍舊 可以提供一定程度的準確率,但跟原先對每一個類型皆訓練一個偵測器時相比, 系統的準確率是較為不好的。主要原因就是電影在不同類型當中,其獨特的呈現 方式所導致。. 45.

(54) 第五章. 結論與未來工作. 5.1 結論 本篇論文研究中,提出了偵測各類電影精彩片段的框架。不同於之前的研究, 大多針對於特定類型的影片去偵測其精彩片段。本論文中所提出的方法可以偵測 不同類型影片之精彩片段。在方法中,特徵擷取部份,使用了鏡頭切換頻率(Shot change rate)以及鏡頭標籤(Shot label)做為視覺特徵。而在聲音特徵方面,則是選 擇音量大小(Volume)以及音樂頻率(Frequency)。機器學習部分,參考 Minh[1]的 研究,利用結構性輸出支持向量機(Structured Output SVM)做為機器學習的方法。 透過這個方法所產生的模型,在本研究的實驗中發現,在不同類型的電影中,我 們的偵測器有著穩定的偵測準確率。進一步說明了我們所使用的視覺、聽覺特徵 以及 MMED 機器學習方法對於這個工作是有效的。. 5.2 未來工作 在未來工作部分,針對鏡頭標籤(Shot label)中對於鏡頭做分類的問題,本論 文中目前是做三類的分類。我們希望能擴展鏡頭標籤的總類別數,如此一來,便 能更精準的去呈現一部電影中鏡頭的拍攝手法。另外,針對整體系統,在內容分 析上,除了觀察到根據內容的變化所產生的特徵之外,跟內容最息息相關的就是 語意內容。透過對於語意特徵的探討,開發出適合的特徵,便可以對於內容更精 準的描述,進一步對整體的系統更有幫助。. 46.

(55) 參考文獻 [1]. Minh Hoai and Fernando De la Torre. “Max-Margin Early Event Detection”, CVPR, 2012.. [2]. Fang-Yi Wu, “Characteristic Color Usage in Different Film Categories,” MS Thesis, National Chino Tung University, 2007.. [3]. Hynek Boril, Abhijeet Sangwan, Taufiq Hasan, John H.L.Hansen,“Automatic Excitement-Level Detection for Sports Highlights Generation”, ISCA,2010.. [4]. Keng-Sheng Lin, Ann Lee, Yi-Hsuan Yang, Cheng-Te Lee and Homer H. Chen, “Automatic Highlights Extraction for Drama Video Using Music Emotion and Human Face Features” MMSP, 2011.. [5]. Albert Mehrabian, “Pleasure-arousal-dominance: A general framework for describing and measuring individual differences in temperament,” Current Psychology, col. 14, no. 4, pp. 261–292, 1996.. [6]. Alan Hanjalic, and Li-Qun Xu. “Affective video content representation and modeling.” IEEE Transactions on Multimedia, vol. 7, no. 1, (2005): 143-154.. [7]. Hee-Lin Wang, and Loong-Fah Cheong. “Affective understanding in film.” IEEE Transactions on Circuits and Systems for Video Technology, vol. 16, no. 6, (2006): 689-704.. [8]. Alan F. Smeaton, Bart Lehane, Noel E. O’Connor, Conor Brady and Gary Craig. "Automatically selecting shots for action movie trailers." ACM MIR, 2006.. [9]. Wen-Huang Cheng, Yung-Yu Chuang, Bing-Yu Chen, Ja-Ling Wu, Shao-Yen Fang, Yin-Tzu Lin, Chi-Chang Hsieh, Chen-Ming Pan, Wei-Ta Chu, Min-Chun Tien. “Semantic-Event Based Analysis and Segmentation of 47.

(56) Wedding Ceremony Videos”, MIR, 2007. [10]. Ioannis Tsochantaridis, Thorsten Joachims, Thomas Hofmann and Yasemin Altun,. “Large. Margin. Methods. for. Structured. and. Interdependent. OutputVariables,” JMLR, Vol. 6, pages 1453-1484,2005 [11]. Min Xu, Jinqiao Wang, Muhammad Abul Hasan, Xiangjian He, Changsheng Xu, Hanqing Lu, Jesse S. Jin, “Using context saliency for movie shot classification”, ICIP, 2011.. [12]. Muhammad Abul Hasan, Min Xu, Xiangjian He, Ling Chen, “Shot Classification Using Domain Specific Features for Movie Management”, DASFAA, 2012.. [13]. Movie maker http://windows.microsoft.com/zh-tw/windows-live/movie-maker#t1=overview. [14]. Yisong Yue, Thorsten Joachims. “Predicting diverse subsets using structural SVMs”, ICML, 2008.. [15]. Internet Movie Database (IMDB) http://www.imdb.com/. 48.

(57)

參考文獻

相關文件

陶7處相片 結合定向運動,小組共同尋找相片中的 交趾陶位置,並以該圖片進行推銷嘉義 的微廣告創作. 海報

[r]

 統計報表-全院及各單位均可設定日期區間監測 MDROs 數量趨勢:(1)泡泡圖:可設定菌種數量級 距及泡泡呈現的大小,以便從統計圖上監測

表 6.3.2 為不同電壓下,驅動整個系統運作所需電流。圖 6.3.2 為 測試情形。其中紅燈代表正常工作。結果證明只要太陽能板能夠提供

(當短片提及中秋節後,展示燈籠)在片 段中看到什麼食物?月餅(提供圖片讓學 生選擇)(初步建立中秋節、燈籠和月餅

從「【A Story】 以巴衝突介紹」的圖片及故事中,你覺得最特別或印象最深刻的一段在

地函、地核。所 謂 的地殼,就是 一層 由堅硬的 岩石所 構 成的薄殼,只 不過 這 層薄殼並 不是完 整 的一片,而是 像一 塊大拼圖,由 數十 片稱為「板塊 」的 薄 殼拼合而 成,雖 說

按圖索證 ────從圖象考證近現代中國的歷史發展 初中及高中 抗戰勝利七十周年圖片集:徐宗懋藏品選 初中及高中