基於卷積神經網路的電影海報概念分析

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：葉梅珍博士. 基於卷積神經網路的電影海報概念分析 Concept Analysis in Movie Posters via Convolutional Neural Networks. 研究生：中華民國. 林君儒 106. 年. 撰 7. 月.

(2) 摘要近年來現代人擁有多樣化的休閒娛樂方式，觀賞電影依舊是許多人的首要選擇，電影海報則扮演電影宣傳方式的重要角色，其設計者會以視覺上多樣的元素製作出符合影片風格、概念且具有吸引力的畫面，而這些視覺上的設計元素會與電影息息相關。人們能夠透過視覺輕易地從海報感受出電影的概念，而這些在海報中讓我們可以依據視覺感官接收到的電影海報概念可能有些甚麼？本論文假設電影海報設計的模式與電影的類型有相當程度的關係，在相似的電影類型中，會使用相同的電影海報設計元素。我們從 IMP Awards 網站上收集了近十年(2006 ─2015 年)的電影海報作為研究的資料集，並從 IMDb 網站上取得各部電影的類型資訊及關鍵字。我們利用對於圖像辨識有優秀結果的卷積神經網路 (Convolutional Neural Network)技術來取出電影海報中的特徵，並以電影關鍵字和情緒視為電影海報概念來分析其記錄大量影像特徵的神經元是否會與其之間有關聯性存在。在本論文的實驗結果發現，利用卷積神經網路對電影海報作電影類型之多標籤分類有良好的分類結果，而且 Fc7 層取出的特徵向量維度並不影響分類之效能。然而，以電影關鍵字和情緒視為電影海報概念之分析的部分，實驗顯示以本論文的方式進行分析，其與神經元的值之間的關聯性不明顯。. 關鍵字: 電影海報、多媒體內容分析、卷積神經網路、情緒.

(3) ABSTRACT In recent years, people have a variety of entertainments; however, watching movies is still the primary choice of many people. Movie posters are playing an important role in advertising a film. People can easily capture the concepts of a poster based on the visual cues it reveals. But, what exactly are the concepts? In this paper, we assume that the design of a movie poster is related to the movie genre; in other words, movies of the same genre may use a similar style in designing the movie posters. We collect movie posters from the IMP Awards website released during 2006 to 2015 as a study case and obtain the genres and keywords of each movie from the IMDb website. We use the Convolutional Neural Network as the main analysis technique, which has shown excellent performances on image recognition, to extract the features (neuron values) of a movie poster. Finally, we analyze the correlation between neuron values and keywords (and emotions), which are considered concepts a movie poster may have. Our study shows that using Convolutional Neural Network for classifying movie posters has a great performance, and the dimension of the Fc7 layer doesn’t affect the classification effectiveness. However, the correlation between neuron values and keywords (and emotions) is not obvious using the analysis approaches proposed in this thesis.. Keywords. Movie poster; Multimedia Content Analysis; Convolutional Neural. Network; Emotion.

(4) 誌. 謝. 兩年碩士生涯即將進入尾聲，在這段過程中經歷了許多值得回憶的事物，雖然時間不長，卻使我獲益良多。能夠完成這本論文，首先要感謝的是我的指導教授葉梅珍老師，不論是論文或課堂上，謝謝老師的教導與建議，讓我在研究所的兩年中成長很多；我還要感謝口試委員陳世旺老師以及陳祝嵩博士，兩位對於我的論文細心審閱並提供寶貴的意見，使這份論文更加完善。同時，我也要感謝實驗室的學長：宜聰、祚禎在碩一時的照顧，當作業和研讀論文遇到問題時，提供協助並替我解惑。感謝實驗室的好夥伴：全燊、書堯、奕男，在我研究遇到瓶頸時幫我集思廣益，尤其在最後的幾個月給予我許多幫助，並在艱難的時候彼此激勵，讓我在這兩年學習的路上不孤單。感謝伯儒、祐瑄、雯琳，即使在不同實驗室也能時常互相扶持並照顧彼此，這段過程有你們陪伴真的很開心。感謝實驗室的學弟們，特別是明哲、奕寧帶給實驗室許多歡樂以及無私的幫忙，祝福學弟們在未來的研究能順順利利。最後也最重要的是感謝我摯愛的家人和士徵，謝謝你們一路上默默地陪伴，總是給予我無條件的支持和鼓勵，在繁忙之餘還願意與我討論和提供想法及建議給我，是我最堅強、最溫暖的後盾，因為有你們的陪伴，讓我能夠堅持到底完成碩士論文，真的很謝謝你們。. 君儒 2017/07/31. i.

(5) 目錄附表目錄........................................................................................................................ iii 附圖目錄........................................................................................................................ iv 第一章簡介................................................................................................................... 1 1.1 研究背景與動機.............................................................................................. 1 1.2 研究目的.......................................................................................................... 3 1.3 論文架構.......................................................................................................... 4 第二章相關研究探討................................................................................................... 5 2.1 卷積神經網路.................................................................................................. 5 2.2 分析方法.......................................................................................................... 6 2.3 電影分類相關工作.......................................................................................... 8 第三章電影海報資料集............................................................................................. 10 3.1 資料收集........................................................................................................ 10 3.2 資料分類........................................................................................................ 10 3.3 關鍵字............................................................................................................ 12 第四章電影類型分類................................................................................................. 14 4.1 預訓練與微調................................................................................................ 14 4.2 分類結果評估................................................................................................ 16 第五章分析................................................................................................................. 17 5.1 關鍵字............................................................................................................ 17 5.2 情緒................................................................................................................ 18 5.3 電影海報概念分析........................................................................................ 19 5.3.1 關鍵字.................................................................................................. 19 5.3.2 情緒...................................................................................................... 21 第六章實驗結果......................................................................................................... 23 6.1 電影類型分類實驗........................................................................................ 23 6.1.1 特徵向量維度 d................................................................................... 23 6.1.2 電影類型分類實驗結果..................................................................... 26 6.2 分析電影海報概念之評估............................................................................ 27 6.2.1 關鍵字.................................................................................................. 27 6.2.2 情緒...................................................................................................... 29 第七章結論................................................................................................................. 35 參考文獻....................................................................................................................... 36. ii.

(6) 附表目錄表表表表表表. 2.1 6.1 6.2 6.3 6.4 6.5. 更改電影類別標籤的規則[6] .................................................................... 9 各個特徵向量維度於訓練時之實驗數據 ............................................... 24 各個特徵向量維度得出的模型使用於測試集之實驗數據曲線圖 ....... 25 Caffe+SVM 與本論文方法之五次交叉驗證平均實驗結果數據比較 .. 26 隨機方式產生神經元配對關鍵字之精確率與召回率 ........................... 29 本論文不同方法產生神經元配對關鍵字之精確率與召回率 ............... 29. iii.

(7) 附圖目錄圖圖圖圖圖圖圖. 1.1 1.2 2.1 2.2 2.3 2.4 3.1. Yahoo 奇摩電影(左圖)、電影時刻 app (右圖) ......................................... 2 Christophe Courtois 整理出的其中兩個例子[1] ....................................... 3 卷積神經網路架構圖 ................................................................................. 5 Caffe 卷積神經網路架構圖[7]................................................................... 6 將神經元視覺化[3] .................................................................................... 6 CBOW 與 Skip-gram 模型示意圖[11] ..................................................... 7 資料集中電影 Everest (2015)的電影海報圖 .......................................... 10. 圖 3.2 各個電影類型的統計數據 ....................................................................... 11 圖 3.3 每部電影的標籤數統計分布圖 ............................................................... 11 圖 3.4 The Good Night 的電影類型 .................................................................... 12 圖 3.5 每張電影海報的關鍵字數量統計圖 ....................................................... 13 圖 4.1 以電影海報資料集對 Krizhevsky[9]的網路做微調 ............................... 15 圖 5.1 Plutchik's[17]定義的 24 種情緒 ............................................................... 19 圖 6.1 各個特徵向量維度於訓練時之實驗數據曲線圖 ................................... 24 圖 6.2 各個特徵向量維度得出的模型使用於測試集之實驗數據曲線圖 ....... 25 圖 6.3 Caffe+SVM 與本論文方法之五次交叉驗證平均實驗結果數據比較柱狀圖 .............................................................................................................................. 26 圖圖圖圖. 6.4 6.5 6.6 6.7. 以不同 K 值使用 24 個情緒計算神經元內之情緒的熵 ........................ 31 以不同 K 值使用 8 個內圈情緒計算神經元內之情緒的熵 .................. 32 以不同 K 值使用 8 個基本情緒計算神經元內之情緒的熵 .................. 33 於 308 神經元中的電影海報 ................................................................... 34. iv.

(8) 第一章簡介在本章節中，我們探討研究的背景動機以及說明實驗目的。透過觀察電影與海報設計，引領出關於本論文題目之想法以及研究分析的方法。. 1.1 研究背景與動機近年來由於科技的蓬勃發展，這個世代人們擁有多樣化的休閒娛樂方式，其中觀賞電影可以同時帶來視覺與聽覺的感官享受，因此看電影依舊是許多人調適心情與放鬆的選擇。隨著電影產業的興盛，電影作品不可勝數且千變萬化。在觀眾不是無時無刻看到預告片的前提之下，海報這門最直接的視覺先決，就扮演了吸引觀眾目光的第一門檻1。電影海報已經成為電影宣傳方式中的領頭羊，透過精心的設計，化為觀眾挑選影片的關鍵。在這網際網路發達且行動裝置普及的時代，除了到電影院或是影片出租店選擇想觀看的影片之外，生活型態的改變，使得許多人也會利用電影網或是電影的相關應用程式來挑選。從這些地方可以發現，電影海報不僅是實體店面必備的宣傳方式，在網頁上也成為迅速抓住眾人目光的重要角色，如圖 1.1 所示。電影海報將藉由設計者為每部電影量身訂做而使用不同的手法來展現，藉此傳達出此部電影擁有的資訊，進而引起觀眾對影片的興趣以及觀看的慾望。. 1. in 微創, https://www.inmovie.com.tw/review/3961 1.

(9) 圖 1.1. Yahoo 奇摩電影(左圖)2、電影時刻 app (右圖). 電影是結合視覺與聽覺的藝術作品，而電影海報作為宣傳電影的重要工具，透過各種視覺傳達的方式，將電影的主題、類型以及關鍵訊息傳遞給觀眾。電影海報的設計者會以視覺上多樣的元素製作出符合影片風格、概念且具有吸引力的畫面，而這些視覺上的設計元素會與電影息息相關。一位名為 Christophe Courtois 的法國部落客，整理了幾百張好萊塢知名的電影海報，將相似設計風格的海報以拼接的方式組合成一張圖，如圖 1.2 所示。由圖 1.2 左圖可以發現這些海報都是以大眼睛為主要視覺，一般會是驚悚片或是科幻片用此類方式塑造出氛圍。圖 1.2 右圖則皆以藍色調為主，碧海藍天的背景，通常是與動物有關的電影或是大自然的紀錄片所利用的手法。由此可觀察出，電影海報應該存在某些特定的設計形式，使用相同的重點元素作搭配，進而將電影的概念及重要訊息表現出來，而以 Christophe Courtois 整理出的例子則可以發現，電影海報的設計風格會與電影的類型有關。. 2. Yahoo 奇摩電影, https://tw.movies.yahoo.com/ 2.

(10) 圖 1.2. Christophe Courtois 整理出的其中兩個例子[1]. 本論文假設電影海報設計的風格與電影的類型有相當程度的關係，在相似的電影類型中，會使用相同的電影海報設計方式，進而分析出在這些電影海報中所含有的視覺元素是否與哪些電影海報概念有關。. 1.2 研究目的電影海報的設計與電影必須要有相當緊密的關係，才能使觀眾藉由海報中看出電影的訊息與風格，進而選擇是否要觀看這部電影。其中前者是以視覺特徵表示，而後者則是如電影類別、標籤、分級等概念或語意來呈現。本論文主要研究目的為分析出電影海報中使用的設計元素可能會傳遞出那些電影海報概念。我們能夠透過視覺輕易地從海報感受出電影的概念與共通性，即使同為大眼睛為主要畫面的電影海報，也可以透過設計者使用不同元素的搭配而傳遞出不同的電影訊息，使我們瞭解此部電影可能具有的概念及內容，而這些在海報中讓我們可以依據視覺感官接收到的電影海報概念可能有些甚麼？因此本論文利用對於圖像辨識有優秀結果的深度學習網路技術來取出隱藏在電影海報中的特徵，分析其記錄大量影像特徵的神經元是否會與特定的電影海報概念有關。 3.

(11) 1.3 論文架構本論文在第二章中，會對於卷積神經網路及實作分析之參考文獻和電影相關研究做討論。在第三章，會對於使用的資料庫收集與使用方法詳細的敘述。在第四章，說明使用卷積神經網路取得電影海報影像特徵的方法。在第五章，說明電影海報概念的定義和選取方法，以及於神經元分析的方式。在第六章，說明實驗設置及實驗結果。最後，在第七章的部分提出我們的結論。. 4.

(12) 第二章相關研究探討本章節將相關研究分成三個部分來探討：一是本論文用於電影海報分類之卷積神經網路的介紹；二是引領出本論文作電影海報概念分析方法的相關文獻以及幫助本論文實作分析之工具介紹；三為電影分類之相關工作。. 2.1 卷積神經網路本論文使用 Caffe[2]來實作卷積神經網路（Convolutional Neural Networks，簡稱 CNN），Caffe 是由 Berkeley Vision and Learning Center（BVLC）建立的一個清晰且高效的深度學習框架，它是個純粹的 C++/CUDA 架構，能夠支持命令行、 Python 和 MATLAB 接口，可以在 CPU 和 GPU 之間直接無縫切換，並且有提供幾個已訓練好的參數模型可以使用。圖 2.1 和圖 2.2 分別為卷積神經網路之架構圖以及 Caffe 卷積神經網路的架構圖。. 圖 2.1 卷積神經網路架構圖3. 3. http://code.flickr.net/2014/10/20/introducing-flickr-park-or-bird/ 5.

(13) 圖 2.2. Caffe 卷積神經網路架構圖[7]. 2.2 分析方法在[3][4][5]論文中，提到了使用深層網路對臉部相關分類後，發現在最後的隱藏層中，某些神經元會與臉部的特徵表示特別有關係。作者們將神經網路的神經元作視覺化，把同個神經元有值的圖片取出，依照圖片在神經元值的以低、中、高分別組合成群組，將圖片作平均圖後呈現出來，判斷出此神經元可能代表哪種臉部特徵，如圖 2.3 所示，黃色的字體代表此神經元一至二最有代表性的特徵屬性。藉此可發現在訓練完的網路，其最後隱藏層的神經元可能分別會有代表著可以分辨輸入之圖片的屬性存在，因此本論文使用相同的概念，取出訓練完後的最後隱藏層(Fc7)視為電影海報視覺元素，作為分析電影海報概念的依據。. 圖 2.3. 將神經元視覺化[3]. 6.

(14) Word2Vec[11]為一個藉由類神經網路的模型訓練語言模型的工具，其透過學習後能夠將每個詞都映射到一個特定的多維向量，而此向量具有語意以及語法的意義，可以用來表示詞對詞之間的關係，並且在投影後的向量空間中會含有些較特殊的性質，例如相同屬性的詞可能在空間中會靠得較近等等。Word2Vec 的模型有兩種，分別為 CBOW（Continuous Bag-Of-Words）和 Skip-gram，兩者的差別在於 CBOW 的模型輸入為上下文的詞向量，輸出為預測出的詞向量，如圖 2.4 所示，即是利用字詞的上下文來預測字。而 Skip-gram 的模型輸入則是某個詞向量，輸出為上下文的詞向量，如圖 2.4 所示，即是利用字詞來預測出此字詞的上下文。本論文將使用 Word2Vec 對電影關鍵字進行訓練來產生模型，並選擇語意分析效果較好的 Skip-gram 模型，由輸出的向量可以得到關鍵字與關鍵字之間的關係。. 圖 2.4. CBOW 與 Skip-gram 模型示意圖[11]. 7.

(15) 在[16]論文中，提出人的情感會因不同的文化和語言不同，因此作者對多種語言分別建立一個語言相依的方法來自動對一張圖片產生一組形容詞與名詞的字組(Adjective Noun Pairs , ANP)。在執行偵測 ANP 的部分，作者使用卷積神經網路並利用他們蒐集的 Large-scale Multilingual Visual Sentiment concept Ontology(MVSO)資料集作微調後，效果比[14][15]好很多。另外，作者透過群眾外包統計出 ANP 與情緒關鍵字的關聯性，再根據此關聯性計算出每個 ANP 的情緒分數。本論文將使用其英文語言的模型對電影海報產生 ANP 和對應的情緒分數，進而將電影海報的情緒分數視為電影海報概念，對特徵向量進行分析。. 2.3 電影分類相關工作 [6]論文提出，人類可以快速利用視覺上的細節從電影海報中理解出電影的類型，因此作者們假設可以利用一些如顏色、邊緣偵測的低階特徵就能自動辨認出電影海報的類型。作者們共蒐集了 1500 張電影海報，使用 1000 張作為訓練，500 張作為測試來作多標籤的電影類型分類。此論文共使用 6 個電影類型，分別為 Drama, Action, Animated, Comedy, War, Horror，並且將原本的多標籤電影類型依照他們的規則改成至多只有兩個他們所使用的電影類型，如表 2.1 所示。與本論文不同之處為我們蒐集更多的資料，使用深度學習的方式來作多標籤分類，並且保留住原先蒐集到的各個電影類別共 23 類，再利用得出的特徵向量來分析這些特徵是否與電影海報概念有關。 8.

(16) 表 2.1. 更改電影類別標籤的規則[6]. 9.

(17) 第三章電影海報資料集本論文從 IMP Awards4網站上收集了近十年(2006─2015 年)的電影海報作為資料集，並從 IMDb5網站上取得各部電影的類型資訊以及關鍵字。. 3.1 資料收集於 IMP Awards 網站中共收集了 3,465 部電影，同一部電影可能會不只有一張電影海報，如圖 3.1，本論文將每張電影海報個別拆開，視為獨立資料作為輸入，因此共收集了 14,210 張電影海報。. 圖 3.1 資料集中電影 Everest (2015)的電影海報圖，此電影共有四張電影海報，將視為獨立資料輸入卷積神經網路。. 3.2 資料分類在收集回來的資料中，每部電影的電影類型可能會不只一種，共有 23 類電影類型，分別為 Action,,Adventure, Animation, Biography, Comedy, Crime, 4 5. IMP Awards, http://www.impawards.com/ IMDb, http://www.imdb.com/ 10.

(18) Documentary, Drama, Family, Fantasy, History, Horror, Music, Musical, Mystery, News, Romance, Sci-Fi, Short, Sport, Thriller, War, Western，各個電影類型的統計資訊如圖 3.2 所示。每部電影的電影類型標籤數量統計如圖 3.3 所示，x 軸為電影海報的電影類型標籤數量，y 軸則為電影海報的統計數量，一部電影最多會有 8 個. WESTERN. 419. WAR. 156. 3964 THRILLER. SPORT. 7 SHORT. SCI-FI. 424. 2351. 2485 ROMANCE. NEWS. 44. 1411 MYSTERY. 319 MUSICAL. 580 MUSIC. 1263 HORROR. 591 HISTORY. FANTASY. FAMILY. DRAMA. DOCUMENTARY. CRIME. COMEDY. 818. 2228. 2277. 2479. 6293. 4892 887 BIOGRAPHY. ANIMATION. ADVENTURE. ACTION. 1478. 4027. 4013. 電影類型標籤，最少則會有 1 個電影類型標籤，其平均值大約為 3.05。. 圖 3.2 各個電影類型的統計數據。Drama 最多，Short 最少。. 圖 3.3 每部電影的標籤數統計分布圖。一部電影最多有 8 個標籤，最少則有 1 個標籤。. 11.

(19) 由於本論文假設海報設計元素會受到電影類型的影響，因此藉由上述之 23 種電影類型作為電影海報的標籤。將電影海報所擁有的電影類型之值設為 1，未擁有的電影類型之值設為 0，並依上述之順序產生共 23 維的向量作為電影海報的多標籤，如圖 3.4 所示，電影《The Good Night》的電影類型有 Comedy、Drama、 Fantasy、Music 以及 Romance，箭頭下方為依上述方式產生的 23 維多標籤向量。. 圖 3.4 The Good Night 的電影類型有 Comedy、Drama、Fantasy、Music、Romance，箭頭下為其產生的 23 維多標籤向量。. 3.3 關鍵字為了分析這些電影海報中所含有的視覺元素是否會與哪些電影海報概念有關聯，本論文將 IMDb 網站上取得的電影情節關鍵字視為可能與視覺元素有關之電影海報概念，收集回來的資料總計有 51,955 個不同的關鍵字。各個關鍵字於資料集的數量統計中，一個關鍵字最多會在 5,628 個電影海報出現，最少則會在一個電影海報出現，而一個關鍵字於電影海報出現數量的平均值大約為 39.9，標準差大約為 169.4 ，其中出現最多的前三名分別為 “ death ” 、 “ murder ” 以及 “flashback”。圖 3.5 為於資料集中每張電影海報擁有的關鍵字數量統計資訊，x 12.

(20) 軸為電影海報所擁有的關鍵字數量，y 軸則為電影海報的數量統計，一張電影海報最多有 661 個關鍵字，最少則有 1 個關鍵字，其平均值大約為 145.7。. 圖 3.5 每張電影海報的關鍵字數量統計圖. 13.

(21) 第四章電影類型分類本論文假設電影海報風格與電影的類型有相當程度的關係，在相同的電影類型中，會使用相似的電影海報風格，因此我們需要先利用對於圖像辨識有優秀結果的深度學習網路技術來取出隱藏在電影海報中的特徵，進而可以分析其記錄大量影像特徵的神經元是否會與特定的電影海報概念有關。本論文將收集好的資料集以 3:1:1 的比例隨機分成訓練集、驗證集以及測試集三個部分來做五次交叉驗證(5-fold cross-validation)。. 4.1 預訓練與微調首先，使用 Krizhevsky et al.[7]的卷積神經網路的模型來做預訓練。此模型是在 ImageNet 資料集[8]上以 1,000 個物件類別做為輸出，來對圖片做分類之網路模型。接著，再使用本論文所收集的資料集對預訓練後的網路參數做微調。以電影海報的圖片做為輸入，並將最後的輸出改為 23 個電影類型，代表輸入之圖片被分到每個電影類型的機率。參考[3][4][5]論文可以發現最後隱藏層的神經元可能分別會有代表著可以分辨輸入之圖片的屬性存在，我們將使用相同的概念，而由於要以第二層的全連接層所得出的特徵向量作為分析電影海報概念的依據，因此本論文將 4,096 維的特徵向量改為 d 維，d 的數值將由實驗結果來決定，如圖 4.1 所示。. 14.

(22) 圖 4.1 以電影海報資料集對 Krizhevsky[7]的網路做微調. 神經網路在訓練過程中需要一個可以用來決定在訓練時如何懲罰網路預測之結果與真實結果之間差異的計算，即是損失函數。不同的損失函數適用於不同類型的任務，如 Sigmoid Cross-Entropy loss function(Sigmoid 交叉熵損失函數)則常使用於多個獨立二分類問題。由於海報分類是屬於多標籤分類問題，標籤的向量中會有不只一個 1，參考[9]，本論文利用 Sigmoid 交叉熵損失函數懲罰網路時，會先對輸出的標籤使用 Sigmoid 函數來產生預測的概率，再使用 cross-entropy loss 來計算網路預測之結果與真實結果之間差異，使得每張輸入的圖片可以得到多個預測目標的概率分佈，因此本論文使用其作為網路的損失函數。計算公式如下：. 𝑁. 1 𝐸 = − ∑[𝑝𝑛 log 𝑝̂𝑛 + (1 − 𝑝𝑛 ) log(1 − 𝑝̂𝑛 )] 𝑁. (4.1). 𝑛=1. 其中 n 為每張輸入的圖片，N 為輸入圖片之總數，𝑝𝑛 為真實標籤，𝑝̂𝑛 為輸出標籤經由 sigmoid function 𝜎(∙)計算後產生的概率向量。. 15.

(23) 4.2 分類結果評估本論文使用精確率（Precision）和召回率（Recall）來作為評估的指標，將預測出的標籤與真實標籤做比較。精確率是計算正確標籤除以總預測生成標籤的數量，而召回率則是計算正確標籤除以真實有標籤的數量。參考[10][13]論文，我們會計算每個類別的精確率與召回率，以及總精確率與總召回率，而平均值則分別取自所有類別和所有測試例子。每個類別的精確率與召回率之計算公式如下：. per-class precision. per-class recall. 𝑐. 𝑁 ∑𝑡𝑖=1 𝑖𝑝 𝑡 𝑁𝑖. =. 1. =. 1. (4.2). 𝑐. 𝑁 ∑𝑡𝑖=1 𝑖𝑔 𝑡 𝑁𝑖. (4.3). 其中 t 代表總類別數，𝑁𝑖𝑐 為在類別 i 中預測正確的圖片數，𝑁𝑖𝑝 表示預測為類別 i 𝑔. 之圖片數，而𝑁𝑖 則表示真實資料為類別 i 之圖片數。總精確率與總召回率之計算公式如下：. overall precision. =. overall recall. =. 16. ∑𝑡𝑖=1 𝑁𝑖𝑐. 𝑝. ∑𝑡𝑖=1 𝑁𝑖. ∑𝑡𝑖=1 𝑁𝑖𝑐. 𝑔. ∑𝑡𝑖=1 𝑁𝑖. (4.4). (4.5).

(24) 第五章分析在本章節中，我們將會使用由第四節中訓練完的卷積神經網路取得的特徵向量來進行分析，主要目的為分析其記錄大量影像特徵的神經元是否會與特定的電影海報概念相關。我們將電影海報概念分析分為兩個部分，分別使用 3.3 節的關鍵字以及利用[16]對資料產生的情緒作為可能與影像特徵神經元有關的電影海報概念，並個別說明如何利用卷積神經網路取得的特徵向量與電影海報概念作分析。. 5.1 關鍵字為了分析關鍵字與特徵向量之間是否有關聯，由於資料集中共有 51,955 個不同的關鍵字，因此本論文使用兩種不同的方式處理，減少關鍵字的數量後進行分析，一為參考 IMDb 網站提供電影與關鍵字之相關性，篩選出與每部電影以相關性排序的前十個關鍵字，二則是利用 Word2Vec 取得關鍵字的向量，根據關鍵字之間的關係對其做分群，將同一群之關鍵字視其擁有相同概念。我們將資料集中每張電影海報的關鍵字視為同一段落，將資料給 Word2Vec 進行訓練來產生模型。本論文實作部分是使用 Genism Word2Vec Lib6來訓練關鍵字之 Word2Vec 模型，並選擇語意分析效果較好的 Skip-gram 模型，其中參數的設定使在訓練過程中出現少於 5 次的關鍵字會被 Word2Vec 判定頻率過低而被省略，. 6. Genism Word2Vec Lib, https://radimrehurek.com/gensim/models/word2vec.html 17.

(25) 我們將剩餘的關鍵字透過訓練好的模型產生 100 維的詞向量來表達每個關鍵字的特徵。由於在之後分析的步驟中，我們會採用 Term Frequency-Inverse Document Frequency(TF-IDF)的概念，因此在分群之前先計算出每個關鍵字之逆向檔案頻率 (IDF)，並將 IDF 值為 0 的關鍵字去除，接著再利用相似性傳遞(Affinity Propagation, AP)分群演算法[12]對剩餘的關鍵字作分群。 AP 分群演算法與 k-means 法不同的地方是 AP 分群演算法並不需要事先定義群的個數，且此演算法所尋找的聚類中心點(Exemplar)是在資料集中的真實資料點，而非另外生成的群中心，因此所有的資料點皆有可能為 Exemplar。我們以 Word2Vec 產生的 100 維向量視為關鍵字之座標，使其計算 cosine similarity 表示關鍵字與關鍵字之間的關係，產生資料點的相似度矩陣 s，而參考度 p 則是相似度矩陣所有值的中位數，其值會影響最終分群之群中心數量。本論文將分群結束後的群中心皆視為一個概念關鍵字，而群內的所有資料點皆以群中心取代，也就是將同一群的關鍵字以群中心之關鍵字作為代替，視為屬於相同概念之關鍵字，最後再以這些包含電影概念的關鍵字對卷積神經網路取得的特徵向量作分析。. 5.2 情緒本論文假設電影海報的類型可能與情緒之間存有關聯性，如喜劇片的海報應該會感受到開心，而恐怖片的海報可能會感受到噁心。我們使用[16]的英文語言的模型對電影海報產生 Adjective Noun Pairs（ANP）和對應的情緒分數，將情緒 18.

(26) 分數視為電影海報概念。其英文語言模型中共有 4,341 個不同的 ANP，情緒則是使用 Plutchik’s[17]定義的 24 種情緒，對每張圖片產生各個情緒的分數，每張圖片的 24 種情緒分數總合為 1。Plutchik’s[17]所定義的 24 種情緒如圖 5.1 所示，共有 8 種基本情緒(Basic Emotion)，在每個基本情緒中皆含有三個不同程度的情緒。. 圖 5.1 Plutchik's[17]定義的 24 種情緒. 5.3 電影海報概念分析為了分析電影海報概念元素，我們將使用於電影類型分類時之訓練集、驗證集合併作為分析依據，並以測試集作為分析結果之評估的資料集。. 5.3.1 關鍵字首先，我們對每個固定神經元設定一個閥值，以大於閥值之資料視為其在這個神經元有活躍的反應，接著以在神經元有活耀反應的所有資料與其所擁有的關鍵字作針對神經元的電影海報概念配對。主要參考兩個計算結果，分別為關鍵字 19.

(27) 之 TF-IDF 值以及關鍵字的分數。 Term Frequency-Inverse Document Frequency(TF-IDF)為一種常用於資訊檢索和文字探勘的加權方法，其可用於評估一個字詞對於文件的集合或是詞庫中某一文件的重要程度。TF-IDF 包含了兩個部分，分別是詞頻(Term Frequency，TF)以及逆向文件頻率(Inverse Document Frequency，IDF)。其中 TF 表示字詞於單一文件中出現之頻率，計算方式如下 𝑇𝐹𝑖,𝑗 =. 𝑛𝑖,𝑗 ∑𝑘 𝑛𝑘,𝑗. (5.1). 上式中的𝑛𝑖,𝑗 為該字詞於文件𝑑𝑗 中出現的次數，分母為在此文件𝑑𝑗 中所有字詞的出現次數總和。而 IDF 則是表示字詞在整個文件集合中的出現的文件數量，計算方式如下 𝐼𝐷𝐹𝑖 = 𝑙𝑜𝑔. 𝑁 𝑛𝑖. (5.2). 上式中的 N 為整個文件集合的總文件數量，𝑛𝑖 則為文件中有包含該字詞的文件數量。因此我們可以運用 TF-IDF 的概念計算關鍵字對於單一神經元的重要程度，以關鍵字視為字詞，神經元視為單一文件，因此整個文件集合的總文件數量為卷積神經網路取得的特徵向量維度 d，也就是最後隱藏層的神經元數量，計算方式如下 𝑇𝐹𝐼𝐷𝐹𝑖,𝑗 = 𝑇𝐹𝑖,𝑗 × 𝐼𝐷𝐹𝑖. (5.3). 而計算關鍵字之分數的部分，我們將在這個神經元有活躍的反應的電影海報取出，以其在神經元之值視為反應的程度。為了要計算在此神經元中所有不同關 20.

(28) 鍵字的分數，我們將電影海報所擁有的關鍵字以反應的程度作為權重，全部資料計算完後將同一關鍵字之值相加，再統計這個神經元所有不同的關鍵字於此神經元出現的次數，以此作正規化的計算，視為此關鍵字於這個神經元的分數，計算方式如下式所示 𝐾. 1 𝑗 𝑆𝑖 (𝑘𝑒𝑦𝑤𝑜𝑟𝑑𝑗 ) = ∑ 𝑁𝑖 (𝐼𝑘 ) 𝐾. (5.4). 𝑘=1. 其中𝑆𝑖 (𝑘𝑒𝑦𝑤𝑜𝑟𝑑𝑗 )為在第 i 個神經元中的第 j 個關鍵字之分數，K 為第 j 個關鍵字 𝑗. 在第 i 個神經元中出現的次數，𝑁𝑖 (𝐼𝑘 )則為在第 i 個神經元中有關鍵字 j 的第 k 張海報 I 之神經元的值。最後，我們分別使用 TF-IDF 值以及將 TF-IDF 值與關鍵字的分數之值相乘的結果，排序後選擇值最高的前幾個關鍵字視為此神經元主要代表的電影概念元素。. 5.3.2 情緒首先，我們對每張海報僅考慮其特徵向量中之特徵值最大的前 K 個神經元，將每張海報分配到最後隱藏層維度總數 d 個堆中的 K 個堆裡。接著再個別針對最後隱藏層維度總數 d 個堆中的每一堆，考慮被分到此堆的海報所含有的情緒分數，以此堆中的情緒出現之機率來計算這個神經元的熵(Entropy)，其代表在這個神經元內之情緒的混亂程度，例如若分配到一個神經元中的海報所含有的情緒都有 “joy”，且其他情緒出現的次數皆是少量，其熵會較低，若分配到一個神經元中的海報所含有的情緒皆不同，出現多種情緒且每個情緒的數量皆差不多，則表示 21.

(29) 這個神經元中的情緒混亂程度很高。本論文分別使用全部的 24 種情緒，以及圖 5.1 Plutchik’s[17]定義的 24 種情緒中最內圈的 8 種情緒和 8 種基本情緒共三種進行分析。在每張海報各被分到 K 堆裡後，為了與以情緒為主題的概念關鍵字分析做比較，考量每張海報在 8 種內圈情緒中大於平均情緒分數的情緒個數平均值為 1.8772，所以我們對每張海報的情緒只考慮使用[16]的英文語言的模型對電影海報產生 ANP 對應的情緒分數最高的 2 個情緒，接著將這些被分到特定神經元內的海報以其所含有的情緒來計算整個神經元內情緒出現機率的熵。每個神經元內之情緒出現機率的熵計算方式如下式所示 𝑐. 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 = − ∑ 𝑝𝑖 𝑙𝑜𝑔𝑐 𝑝𝑖 𝑖. 其中 c 為情緒種類的總數，𝑝𝑖 為第 i 個情緒在此神經元中出現的機率。. 22. (5.5).

(30) 第六章實驗結果 6.1 電影類型分類實驗本論文將收集好的資料集以 3:1:1 的比例隨機分成訓練集 8,526 張電影海報、驗證集 2,842 張電影海報以及測試集 2,842 張電影海報三個部分做五次交叉驗證 (5-fold cross-validation) ，並且透過實驗結果來決定第二層的全連接層所得出的特徵向量維度 d 的數值。由於資料集中的電影類型標籤數不平均，在隨機將資料集分成五等份後，為求各電影類型於訓練及測試時皆有出現，我們手動調整較少的 Short 以及 News 兩個電影類型的海報分布，使其接近平均分配。. 6.1.1 特徵向量維度 d 我們分別使用 64、128、256、512、1024、2048、4096 作為特徵向量的維度候選，實驗各個維度的特徵向量分類之效能如何，其中迭代次數則是由實驗結果得出為 5,000 代，繼續增加會造成過度擬合的情形發生。表 6.1 和圖 6.1 為各個特徵向量維度於訓練時之實驗數據以及數據曲線圖，其中 O-P 為總精確率，O-R 為總召回率，C-P 和 C-R 則分別為每個類別的精確率與召回率。表 6.2 和圖 6.2 則為各個特徵向量維度得出的模型使用於測試集之實驗數據以及數據曲線圖。以實驗結果發現，特徵向量維度的數值並不影響分類之效能，因此本論文參考[4]，將 d 設為 512 作為第二層全連接層所得出的特徵向量維度。 23.

(31) 表 6.1 各個特徵向量維度於訓練時之實驗數據. #FC7-output. O-P. O-R. C-P. C-R. 64. 0.7046. 0.4915. 0.4077. 0.2695. 128. 0.6766. 0.5302. 0.4014. 0.3031. 256. 0.6707. 0.5481. 0.5083. 0.3345. 0.6619. 0.5675. 0.5611. 0.3518. 1024. 0.6533. 0.5794. 0.5193. 0.3737. 2048. 0.6567. 0.6006. 0.4937. 0.3918. 4096. 0.6801. 0.5857. 0.5689. 0.3830. 512. iteration. 5000. Val_pre_recall_5000itt 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 64. 128. 256 O-P. 512 O-R. 1024 C-P. 2048. C-R. 圖 6.1 各個特徵向量維度於訓練時之實驗數據曲線圖. 24. 4096.

(32) 表 6.2 各個特徵向量維度得出的模型使用於測試集之實驗數據曲線圖. #FC7-output. O-P. O-R. C-P. C-R. 64. 0.6887. 0.4726. 0.3947. 0.2621. 128. 0.6672. 0.5099. 0.4416. 0.2915. 256. 0.6570. 0.5332. 0.5475. 0.3204. 0.6606. 0.5432. 0.5341. 0.3404. 1024. 0.6408. 0.5661. 0.4955. 0.3597. 2048. 0.6393. 0.5771. 0.4815. 0.3778. 4096. 0.6610. 0.5635. 0.5428. 0.3698. 512. iteration. 5 0 0 0. Test_pre_recall_5000itt 0.8 0.6 0.4 0.2 0 64. 128. 256 O-P. 512 O-R. 1024 C-P. 2048. C-R. 圖 6.2 各個特徵向量維度得出的模型使用於測試集之實驗數據曲線圖. 25. 4096.

(33) 6.1.2 電影類型分類實驗結果為了評估本論文使用卷積神經網路訓練之電影類型分類模型的效能如何，我們將同樣的資料集使用於 Krizhevsky et al.[7]的卷積神經網路之模型，將電影海報作為輸入後，取出在輸出層前一層之特徵向量，並使用被廣泛運用於學習技術的支持向量機進行電影海報多標籤分類，作為比較對象。其中支持向量機的工具則是選擇使用國立臺灣大學林智仁教授所開發的 LibSVM 來實作，並計算五次交叉驗證的平均與本論文五次交叉驗證之平均做比較。如表 6.3 與圖 6.3 所示，我們的方法於總精確率(O-P)與總召回率(O-R)大約高了 40%與 35%，而在每個類別的精確率(C-P)與召回率(C-R)的平均分別大約高了 35%與 23%。表 6.3 Caffe+SVM 與本論文方法之五次交叉驗證平均實驗結果數據比較. O-P. O-R. C-P. C-R. Caffe+SVM. 0.2634. 0.2190. 0.1354. 0.1116. Our model. 0.6619. 0.5594. 0.4803. 0.3425. 0.6 0.5 0.4 0.3 0.2 0.1 0 O-P. O-R. C-P. Caffe+SVM. C-R. Our model. 圖 6.3 Caffe+SVM 與本論文方法之五次交叉驗證平均實驗結果數據比較柱狀圖. 26.

(34) 6.2 分析電影海報概念之評估本論文將使用於電影類型分類時之訓練集、驗證集合併作為分析依據，共有 11,368 張電影海報，並以電影分類時之測試集作為分析結果之評估的資料集，共為 2,842 張電影海報。. 6.2.1 關鍵字本論文對於以關鍵字視為電影海報概念作與神經元配對分析共使用兩種不同的方式處理。第一種為我們參考 IMDb 網站提供電影與關鍵字之相關性，篩選出與每部電影最相關的十個關鍵字後，共有 10,867 個不同的關鍵字作為分析依據。另一部分則是經由 Word2Vec 訓練後，將原先資料集中 51,955 個不同的關鍵字作篩選，使出現少於 5 次的關鍵字被省略後剩餘 34,763 個關鍵字。接著，計算每個關鍵字之逆向文件頻率(IDF)，將 IDF 值為 0 的關鍵字去除，最終剩餘 24,526 個不同的關鍵字來使用 AP 分群演算法進行分群，經過計算後共得到 801 個群。由於卷積神經網路取得的特徵向量與關鍵字的關聯並沒有真實資料存在，因此我們以測試集的海報是否標籤被配對為神經元有關聯之關鍵字以及海報是否在神經元有活躍反應的方式來計算每個神經元的精確率與召回率。精確率為在單一神經元中有活躍反應的海報數量和同時也有標籤此關鍵字之海報數量的比例，召回率則為有被標籤為此關鍵字之海報數量和在神經元中同時也有活躍反應的海報數量的比例。本論文共使用三種不同嚴格程度之閥值作為判斷每個神經元活 27.

(35) 躍之門檻，分別為資料對同一維度特徵值大於零之總和取平均、對同一維度特徵值有反應的資料中反應最大之值乘以 0.8 以及對同一維度特徵值有反應的資料中反應最大之值乘以 0.5 之值。作為評估之比較對象有兩個，一為以篩選出每部電影最相關的十個關鍵字後之 10,867 個不同的關鍵字，移除 IDF 值為 0 的關鍵字，隨機分配五個關鍵字至每個神經元中，另一個則是將出現次數最多次的前五名關鍵字放入每個神經元中作配對，實驗結果如表 6.4 所示。表 6.5 為本論文使用不同方法對各個神經元產生配對關鍵字之實驗結果，並以闕值為對同一維度特徵值有反應的資料中反應最大之值乘以 0.8 為例，分別為使用最相關的 10,867 關鍵字移除 IDF 值為 0 的關鍵字之後計算 TF-IDF 排序的前五名、使用分群後的 801 個概念關鍵字以 5.4 式計算關鍵字分數排序的前五名、使用分群後的 801 個概念關鍵字同時考慮關鍵字分數和 TF-IDF 的排序前五名。實驗結果可以發現，使用 TF-IDF 之方法是有幫助的。由於關鍵字之資料較分散且雜亂，許多關鍵字是針對電影中的片段內容而與電影海報較無關聯性，如 eat banana、reference to the bible，且每個關鍵字在資料集中平均僅會在大約 39.9 個資料中出現，而最後隱藏層的神經元記憶了部分影像特徵，對於概念越複雜之關鍵字，若只以單一神經元可能較不足以表達該關鍵字，因此，以本論文使用的分析方法，關鍵字與單一神經元之間的關聯性不如預期的高。. 28.

(36) 表 6.4 隨機方式產生神經元配對關鍵字之精確率與召回率. Random_RelevantTop-10. Precision Recall. Popular_keyword_RelevantTop-10. Max*50%. Max*80%. AVG. Max*50%. Max*80%. AVG. Mean. 0.0023. 0.0020. 0.0025. 0.0679. 0.0822. 0.0369. Std. 0.0082. 0.0276. 0.0031. 0.0701. 0.2018. 0.0166. Mean. 0.0187. 0.0005. 0.2011. 0.0349. 0.0021. 0.2363. Std. 0.0749. 0.0031. 0.2135. 0.0313. 0.0055. 0.0823. 表 6.5 本論文不同方法產生神經元配對關鍵字之精確率與召回率. TF-IDF_Relevant Top-10. Score _Exemplar TF-IDF*Score_Exemplar Max*80%. Precision Recall. Mean. 0.1225. 0.1243. 0.2482. Std. 0.2724. 0.2587. 0.3257. Mean. 0.0277. 0.0011. 0.0022. Std. 0.0811. 0.0028. 0.0038. 6.2.2 情緒在對情緒作分析的部分中，本論文將每張海報以取其特徵向量中最大的前 K 個神經元，K 之值分別使用了 1、2、3、4、5，並將所有海報分成 512 堆。接著藉由被分到特定神經元中的海報計算神經元內之情緒出現機率的熵(Entropy)，我們分別以全部的 24 種情緒、最內圈的 8 種情緒和 8 種基本情緒進行分析。實驗結果如圖 6.4、圖 6.5、圖 6.6 所示，可以發現在三種方法中，K 值使用 1 的話會有較多神經元內之情緒的熵較低，經過驗證後發現，其熵低的神經元皆為所含的圖片數量較少的。由三個實驗結果可以發現，在 K 為 4 和 5 的時候每個神經元的 29.

(37) 熵呈現差不多的狀態，而不管是在 24 種情緒、最內圈的 8 種情緒和 8 種基本情緒進行分析，或是使用不同的 K 值，第 308 神經元的熵皆是低的，因為經過這個神經元的海報僅有一張，其海報圖如圖 6.7 所示，在 24 情緒分數中最高的兩個情緒分別為 fear 和 interest。經過驗證我們發現熵的值較低的神經元，全部皆是因為那些神經元內的圖片數量較少的緣故，導致其熵值低。除了熵，我們另計算神經元的值跟情緒分數的皮爾遜相關係數，正相關最大值為 0.1907，負相關最大值為 -0.1547，分別在弱相關與弱負相關區間。所以以本論文的方法分析，我們認為 Fc7 之神經元的值與情緒概念之間的關聯性不如預期的明顯，並且偏向沒有關係。. 30.

(38) 6.4 (a). 6.4 (b). 6.4 (c). 6.4 (d). 6.4 (e). 圖 6.4 以不同 K 值使用 24 個情緒計算神經元內之情緒的熵. 31.

(39) 6.5 (a). 6.5 (b). 6.5 (c). 6.5 (d). 6.5 (e). 圖 6.5 以不同 K 值使用 8 個內圈情緒計算神經元內之情緒的熵. 32.

(40) 6.6 (a). 6.6 (b). 6.6 (c). 6.6 (d). 6.6 (e). 圖 6.6 以不同 K 值使用 8 個基本情緒計算神經元內之情緒的熵. 33.

(41) 圖 6.7 於 308 神經元中的電影海報. 34.

(42) 第七章結論在本論文中，我們使用卷積神經網路對電影海報作電影類型之多標籤分類，以及以電影關鍵字和利用[16]對電影海報產生的情緒分數作為電影海報概念來分析其與卷積神經網路的神經元之間的關聯性。實驗結果發現利用卷積神經網路對電影海報作電影類型之多標籤分類有良好的分類結果，而且 Fc7 層取出的特徵向量維度並不影響分類之效能。而在對關鍵字視為電影海報概念之分析的部分，以本論文使用的方法分析出其與特徵向量中的單一神經元之關聯性不高。由於關鍵字的資料較於分散，而最後隱藏層的神經元記憶了部分影像特徵，對於概念越複雜之關鍵字，若只以單一神經元可能較不足以表達該關鍵字。而在情緒概念分析之部分，我們假設電影海報的類型可能與情緒之間存有關聯性，實驗顯示以本論文的方式進行分析，電影海報的情緒分數與神經元的值之間的關聯性不明顯。綜合以上兩個分析結果，較抽象的概念，可能沒辦法僅考慮 Fc7 層的特徵值來分析其與神經元之間的關聯性。由於本論文主要是以神經元的值來作為分析的依據，使用的電影海報概念資料較分散，在未來工作當中，可以嘗試改以電影影片作為輸入，影片中會有多張幀，而同部電影的概念會相同，可以解決資料分散的問題，或是強迫 Fc7 層與輸出層和電影海報概念有關聯，再進行分析。另外，對電影海報作分類的結果，未來則可以應用於電影海報設計之推薦。. 35.

(43) 參考文獻 [1]. Les Sibères Affiches de Christophe Courtois, http://afficheschristophecourtois.blogspot.tw/ [2]. Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In arXiv preprint arXiv:1408.5093, 2014. [3]. P. Luo, Z. Zhu, Z. Liu, X. Wang, X. Tang. Face model compression by distilling knowledge from neurons. In AAAI Conference on Artificial Intelligence, 2016. [4]. Z. Liu, P. Luo, X. Wang, X. Tang. Deep learning face attributes in the wild. In International Conference on Computer Vision (ICCV), 2015. [5]. Y. Sun, X. Wang, X. Tang. Deeply learned face representations are sparse, selective, and robust. In arXiv preprint arXiv:1412.1265, 2014. [6]. M. Ivašić-Kos, M. Pobar, L. Mikec. Movie posters classification into genres based on low-level features. In International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO), pp. 1148–1153, 2014. [7]. A. Krizhevsky, I. Sutskever, G. E. Hinton. ImageNet classification with deep convolutional neural networks. In International Conference on Neural 36.

(44) Information Processing Systems (NIPS), 2012. [8]. J. Deng, W. Dong, R. Socher, L. J. Li, K. Li, F. F. Li. ImageNet: A large-scale hierarchical image database. In International Conference on Computer Vision and Pattern Recognition (CVPR), pp. 248–255, 2009. [9]. S. Shankar, V. K. Garg, R. Cipolla. Deep-carving: Discovering visual attributes by carving deep neural nets. In International Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3403-3412, 2015. [10]. J. Wang, Y. Yang, J. Mao, Z. Huang, C. Huang, W. Xu. Cnn-rnn: A unified framework. for. multi-label. image. classification.. In. arXiv. preprint. arXiv:1604.04573, 2016. [11]. T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of word representations in vector space. In International Conference on Learning Representations (ICLR), 2013. [12]. B. J. Frey, D. Dueck. Clustering by passing messages between data points. Science, vol. 315, pp. 972-976, 2007. [13]. Z. Ren, H. Jin, Z. Lin, C. Fang, A. Yuille. Multi-instance visual-semantic embedding. In arXiv preprint arXiv:1512.06963, 2015. [14]. D. Borth, R. Ji, T. Chen, T. Breuel, S. F. Chang. Large-scale visual sentiment ontology and detectors using adjective noun pairs. In ACM Conference on 37.

(45) Multimedia (MM), 2013. [15]. T. Chen, D. Borth, T. Darrell, S. F. Chang. DeepSentiBank: Visual sentiment concept classification with deep convolutional neural networks. In arXiv preprint arXiv:1410.8586, 2014. [16]. B. Jou, T. Chen, N. Pappas, M. Redi, M. Topkara, S. F. Chang. Visual affect around the world: A large-scale multilingual visual sentiment ontology. In ACM Conference on Multimedia (MM), 2015. [17]. R. Plutchik. Emotion: A psychoevolutionary synthesis. Harper & Row, Publishers, 1980.. 38.

(46)