劇院照片之有趣區域偵測

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：. 葉梅珍. 博士. 劇院照片之有趣區域偵測 Selecting interesting regions for automated cinemagraph. 研究生：. 詹媖詞. 中華民國. 102. 撰年. 7 月.

(2) 摘要. 劇院照片是 2011 年開始發展的一種新的照片型態，照片中有著局部動態的效果，且該動態區域內影像的變化是連貫與不斷重複的。讓電腦來自動建置劇院照片是一個很大的挑戰，我們需要設計一個方法能夠在影片中選擇哪些區域該保留動態，而其它區域呈現靜態。現今建置劇院照片的工作，絕大多數皆是半自動的建置方法，在本論文我們提出一個全自動的方法建置劇院照片，著重的方向為如何去尋找影片中的有趣區域問題。首先，我們會輸入一段影片，接著結合多個影片特徵去計算影片內容的有趣度分數，並且找出的有趣區域有著最大的有趣值分數。這個問題可以被視為在圖形中找最大權重連接子圖的問題。我們的方法是很有效的，並且能夠結合多特徵與找出的區域為不規則的形狀。. 關鍵字. 劇院照片、有趣區域、最大權重連接子圖. ii.

(3) ABSTRACT Selecting interesting regions for automated cinemagraph by Ying-Tzu Chan. Cinemagraph is a new type of medium that contains within itself a living moment and allows a glimpse of time to be experienced and preserved endlessly. Automatically creating a cinemagraph from a short video by a computer is a great challenge.In particular, we need a approach that determines which part of the video should preserve the dynamics while others are kept in static. Existing solutions are mostly semi-automatic. In this paper, we propose a fully automatic approach for creating a cinemagraph and focus on the interesting region selection problem. First, given an input video we calculate the interestingness score that combines several features, and find a region with the maximum cumulative score. This problem can then be viewed as finding the Maximum Weight Connected Subgraph (MWCS) problem. The proposed approach is effective, as it uses multiple features and enables the selection of irregular regions.. Keywords Cinemagraph; Interesting region; Maximum weight connected subgraph. iii.

(4) 誌謝感謝我的指導老師葉梅珍教授，在我就讀碩士班兩年中的指導。老師細心教導了許多影像處理和多媒體領域的專業知識，使我的基礎更加的穩健。在研究過程中，遇到瓶頸也適時的為我解惑，並且指引方向，使我的研究能夠順利完成。另外實驗室成員每個星期固定的研究討論，大家共同討論多媒體領域中許多有貢獻的論文方法和研究，也使我在做研究上會用不同角度去分析探討和實驗。感謝 MMLAB 的學長 POPO、LBY 和百琮，在我碩一的時候給我許多課業上的幫助和教導，除了學業上的幫助，在閒暇之餘也一起度過了許多快樂的時光和晚上的宵夜。此外，也謝謝浩禎和淳卉，在碩二一起奮鬥寫論文的日子，一起熬夜討論和做實驗，在最難熬的時光有你們的陪伴真的開心，一起完成了人生中最後的求學階段。最後也謝謝碩一的學弟妹們，幫忙論文實驗和在苦悶的日子有你們一起聊天抒發壓力，希望學弟妹們在未來的一年也能夠順利的完成碩士論文。最後也感謝我的家人，給予我許多支持。在未來的生活中，我會記住這兩年的時光，努力的朝下一個階段邁進。. 詹媖詞 2013.08.05. iv.

(5) 目錄附圖目錄 ................................................................................................ vi 第一章緒論 ........................................................................................... 7 1.1 研究背景與動機 ................................................................................ 7 1.2 論文架構 ........................................................................................... 8. 第二章文獻探討 ................................................................................... 9 第三章. 方法及步驟 ............................................................................. .11 3.1 特徵擷取 ........................................................................................... 12 3.2 圖形表示法 ....................................................................................... 12 3.3 節點和邊之設計................................................................................ 13 3.4 節點權重之設計................................................................................ 17 3.5 最大權重連接子圖 ............................................................................ 17 3.6 合併基底影像與動態區域影像......................................................... 18. 第四章實驗結果與分析....................................................................... 21 4.1 實驗設計 ........................................................................................... 21 4.2 實驗一結果與分析 ............................................................................ 23 4.3 實驗二結果與分析 ............................................................................ 26 4.4 權重設計之分析................................................................................ 28 4.5 格式比較 ........................................................................................... 30. 第五章結論 .......................................................................................... 32 5.1 結論 ....................................................................................................32. 參考文獻 ................................................................................................ 33. v.

(6) 附圖目錄圖 3.1：建置劇院照片之系統流程圖 ....................................................................11 圖 3.2.1：影片切割示意圖...................................................................................... 13 圖 3.2.2：經過量化後之運動方向 ........................................................................14 圖 3.4.1：三種不同節點關係之示意圖.................................................................16 圖 3.6.1：不同時間點被選到的節點 ....................................................................18 圖 3.6.2：有趣區域中所有被選到之節點 ............................................................. 19 圖 4.1.1：問卷一範例 ........................................................................................... 22 圖 4.1.2：問卷二範例 ........................................................................................... 23 圖 4.2.1：問卷一之問題一結果 ............................................................................ 24 圖 4.2.2：選項 3，選擇之有趣區域，( a )為本論文之結果，( b )為[5] ......25 圖 4.2.3：選項 4，選擇之有趣區域，( a )為本論文之結果，( b )為[5] ......25 圖 4.2.4：滿意度平均分數 .................................................................................... 26 圖 4.3.1：實驗二結果 ........................................................................................... 27 圖 4.3.2：上方的線代表使用者選項與我們的方法所選出結果之相似度下方的線代表使用者彼此之間的距離 ................................................ 28 圖 4.3.3：圖 4.3.2 之相似度與距離的值 ............................................................. 28 圖 4.4.1：紅色區域為自動選出之有趣區域 ......................................................... 29 圖 4.4.2：三個特徵的平均權重 (X 軸:三個特徵和四個區域，Y 軸為權重值) .................................................................................................................................30 圖 4.4.3：三個特徵各自在不同區域的平均值 ..................................................... 30 圖 4.5.1：原始影片之 avi 和 gif 格式(單位:MB) .............................................. 31 圖 4.5.2：原始影片和兩個方法的劇院照片之 gif 格式(單位:MB) .................. 31 圖 4.5.3：本論文方法產生的劇院照片不同格式之比較(單位:MB) .................. 31 圖 4.5.4：[5] 產生的劇院照片不同格式之比較(單位:MB) ............................ 31 圖 4.5.5：10 部影片各自的解析度 .....................................................................31. vi.

(7) 第一章緒論 1.1 研究背景與動機隨著科技的進步，人們利用相機來紀錄生活比寫日記以單純的文字記錄生活還要普遍，無論是數位相機、單眼相機，以及幾乎人手一支的手機上都有相機的功能。現在的相機不單單只是照相，通常伴隨有錄影的功能，更能完整地記錄人們的生活。隨著網際網路的發展快速，許多社交平台都提供儲存照片、上傳影片的功能，不僅提供使用者保存拍攝的照片或影片的網路空間，還可以分享給他人觀看，提升人與人在網路上的互動。因此，使用相機記錄生活已經成為人類日常生活中不可或缺的部分。在這一、兩年發表的相機中，已經有部分相機有一項新功能，此功能為按下快門後，相機會錄下短短 3~5 秒的動態時刻，和傳統的錄影不同，此項功能也指出在未來，相機會發展出捕捉瞬間動態美的照片功能。「有些美麗要用時間來收錄，有些美麗只能用瞬間來抓住。」簡單的兩句話解釋了靜態攝影與動態攝影的差異與精髓，不管是照片或是影片都各有各的長處與價值在，不過卻也都有無法克服的先天本質問題。傳統的照片是完全靜止，對於當下場景的動態資訊則有所遺失。而影片雖然保留住了當時所有的動態資訊，但必須花費更多的空間去儲存。我們在觀賞煙火時，雖然可以利用相機拍下煙火照片，但照片無法呈現煙火在星空綻放那一瞬間的燦爛，而影片雖可以完整呈現，但所需的空間和傳遞的速度卻無法比照片來的便利，因此發展出劇院照片 (Cinemagraph)這樣的一種照片型態。劇院照片結合兩者的優點，保留住了影片中重要的動態資訊和使用較少的空間來儲存。因此近年來許多攝影師開始迷上劇院照片(Cinemagraph)，結合兩種攝影手法的優點，形成一種前衛的攝影藝術。 7.

(8) 在製作劇院照片的過程中，如何在影片裡所有的動態區域中選擇製作成劇院照片的區域，是此篇論文的目的。影片中的有趣區域通常會吸引使用者的目光，也就是視覺注意力。根據[2]的實驗，發現使用者目光會在影片中有著大量動作的區域停留較長的時間，因此在選擇有趣區域時，此篇論文選擇以動量為考量的出發點。雖然選擇以動量為出發點，但影片的內容各式各樣，若單純考量選擇動量最大的區域，並無法適用於各種影片。因此我們希望能建立一個能幫助使用者製作符合期待的劇院照片系統，由於系統必須要有其通用性，因此考量多種影片特徵，並且怎麼將其做結合是我們所必須研究的目標。. 1.2 論文架構本篇論文第二章將介紹現有建置劇院照片之相關研究。第三章介紹本論文自動建置劇院照片之方法，包含所使用的特徵和如何將找尋有趣區域之問題，轉成在圖學領域中找最大子圖的問題及產生劇院照片。第四章為實驗結果，將介紹實驗如何設計與實驗結果的相關分析。最後第五章為結論與未來工作。. 8.

(9) 第二章文獻探討在建置劇院照片的研究中，大多數現有的方法是讓使用者選擇動態區域來建置劇院照片，而本論文則著重於如何讓電腦自動選擇動態區域來建置劇院照片。在現有的劇院照片研究議題中，[1]所提出製作劇院照片的方法，首先對影片做移動偵測與分割，找出影片中所有的動態區域，讓使用者自行選擇要選用哪一塊區域來製作劇院照片，系統會根據使用者所選的動態區域，分別去計算該區域影像的差異值平方和(Sum of Squared Difference, SSD)，目的是為了使劇院照片的起始影像和結束影像要夠相似，才能確保劇院照片的動態區域畫面變化有連貫性。此外， [3]提出了一個建置劇院照片的介面軟體，該軟體提供了一個很方便的介面讓使用者自行選擇想要保留下來的動態區域以及起始和結束時間。針對使用者所選擇的區域，使之與背景之間的影像進行切割，藉此可以得到背景畫面呈現靜止，而部分畫面繼續動作的效果。上述所提相關工作皆為讓使用者去手動選擇想要保留之區域後，便直接製作劇院照片，但影片內容會有因拍攝時手震或是物體移動之不可避免之狀況，因此 [4]則針對動態區域之穩定度提出方法。在上述建置劇院照片的工作中，[1]為半自動的建置方法，[3]為提出人性化的介面軟體，[4]則強調於後端處理使影片更加穩定，這些工作皆為使用者手動去選擇動態區域，和前述工作不同的是[5]提出了自動化建置劇院照片方法，著重於要如何讓電腦自動根據設計的演算法去選取動態區域。首先會對整部影片做動量計算，在選擇動態區域的部分，會根據動量之大小、方向的一致性或是變化 9.

(10) 度等選擇因素來分別計算，每次產生的劇院照片結果只會根據其中一項因素來自動選擇要保留的動態區域，求出此動態區域的方法是利用[6]、[7]所提出的高效子視窗搜尋. (Efficient Subwindows Search) ，該方法利用分支界限法. (Branch-and-bound)自動找出符合該項因素的最佳區域。由於[5]的方法在選擇區域的時後，是根據單一因素來做決定，勢必無法適用於絕大多數的影片，因此，此篇論文便將選擇區域的因素延伸成同時考慮許多不同的因素來做為選擇的依據，這樣的做法，便可提高此系統的通用性。除了提高通用性之外，[5]所利用[6]、[7]之高效子視窗搜尋法，最終得到的結果必定會是一個長方體，因為其形狀限制的因素，可能會遺失重要的特徵點或是包含太多不必要的雜訊，且因為形狀的關係，對於大多數的動量資訊會無法確切的表達，故此篇論文希望所找出的區域能夠突破高效子視窗搜尋形狀限制的缺點，改以較彈性的不規則區域來呈現所選擇的區域，因此在找尋有趣區域時，不採用[5]、[6]、[7]所使用的高效子視窗搜尋方法，而使用[8]、[9]之高效區域搜尋法( Efficient Region Search )。. 10.

(11) 第三章方法與步驟本論文所提出的方法將會整合影片中的多個特徵，在整段影片的時間和空間上，讓電腦自動分析得到一個最有趣的區域來形成劇院照片。同時希望此區域能夠突破固定形狀的限制，以不規則且較自然的形狀來表示。並希望電腦所求得的有趣區域結果，能夠符合我們使用者的觀點。我們的方法流程如下，首先會輸入一段影片，使用 Lucas-Kanade 光流法[10] 計算影片中每個像素點的動量大小和動量方向作為前兩個特徵，此外為了描述外觀在空間上的資訊，本篇論文也使用了 RGB 色彩作為第三個特徵。接著為了在影片三維空間中找到一個不規則的有趣區域，我們將問題轉換成在圖論領域裡，找尋最大權重子圖的問題，並且說明將影片轉換成圖的步驟，包括如何計算每個節點之權重。最後，我們使用分支切線演算法(branch-and-cut algorithm)來有效率的解決最大權重子圖之問題。. 圖 3.1：建置劇院照片之系統流程圖. 11.

(12) 3.1. 特徵擷取為了選擇一個有趣的區域，必須定義甚麼是有趣的。在有趣的定義上[2]研. 究指出，使用者對於影片中有著大量動量資訊的區域，會停留較久的目光，因此定義有趣的第一個依據為動量較大的區域。另外，影片中除了動量的大小，也提供了移動方向，若是物體移動方向規律，並且在一段時間內有著一致性，也較容易吸引使用者注意，故第二個依據為運動方向的一致性。因為動量資訊只能提供動的資訊，無法確切的呈現在外觀上的變化，除了在動量上做分析，還必須考慮動態區域中外觀上的變化，因此本論文使用外觀上的差異度為第三個特徵。因此，本論文定義有趣的區域為有較大動量、運動方向一致和外觀上有顯著的差異。. 3.2. 圖形表示法本研究的目的為在影片中找到一個不規則的動態區域來製作劇院照片，影片. 中的基本單位為體素(voxel)，可以想像成一個影片是由許多體素相連組成的圖 (graph)。為了在影片中找一個動態區域，此動態區域中的特徵值加總為最大，故可將問題轉換成在圖形中找一個最大權重連接子圖(Maximum Weight Connected Subgraph)的問題。為了將問題對應到尋找最大權重連接子圖問題，首先必須定義如何將影片轉換成圖，並且設計圖中的節點和邊。首先將影片定義為一圖形 G = ( V, E )，其中 V 為圖形中節點的集合，E 為邊的集合。在節點的設計上，我們將影片分割成若干個相同大小的區塊，每個 12.

(13) 區塊大小為度，也就是說. ，其中 r、c 為影像的長和寬作等分切割，t 為影像的時間長。每一個切割後得到的區域及為圖形中的一個節點。. 圖 3.2.1：影片切割示意圖. 3.3. 節點和邊之設計. 為了在圖形中找到一個有著最大權重的子圖，因此必須先設計節點的權重。根據章節 3.1，在特徵的選取上，本論文使用了動量大小、運動方向之一致性和像素點之顏色差異度來做為選取有趣區域之特徵，首先定義每個節點分數的目標函數如下 : [公式 3.3.1] 其中，. 為節點，、. 和. 分別為三個選用的特徵：動量大小、運動方向之. 一致性和像素點之顏色差異度。. 、. 和. 為特徵之權重，以下分別說明. 三個特徵之計算。每個節點的大小為. ，其中. ，因此每個節點有著. 個像. 素點。根據 Lucas-Kanade 光流法[10]之計算，可求得影像中每一個點的運動向量值。每個節點的運動量，本方法是使用該節點的平均運動量來表達，也就是在該節點中每一個像素點之運動向量值累加，即為該區塊的運動量總和，並將該節點. 13.

(14) 的運動量總和除以該節點的體積，以求得該節點平均運動量。因此目標函數的運算公式如下： [公式 3.3.2] 其中，. 為節點 v 的運動量總和，. 為 v 的體積。. 第二個特徵運動方向的一致性，使用 Lucas-Kanade 光流法[10]可以得到每個像素點之運動方向。因為運動方向是 0°至 360°，為了方便表達，我們將運動方向量化成八等分，每 45°表示一個方向，如圖 3.2.2 所示。. 圖 3.2.2：經過量化後之運動方向. 為了計算節點中像素點之方向一致性，本論文使用了熵(Entropy)來計算節點之方向一致性，熵為計算資料分布純度常用的方法。節點中運動向量一致性目標函數的運算公式如下：８. 公式 14.

(15) 其中. 為節點中屬於第個方向之像素點個數。第三個特徵為外觀上顏色之變化度。每個節點的顏色變化度，和第一個特徵. 計算的方法相同，是使用該節點的平均變化度來表達，也就是在該節點中每一個像素點之變化度累加，即為該區塊的變化度總和，並將該節點的變化度總和除以該節點的體積，以求得該節點平均變化度。因此目標函數的運算公式如下：. 公式. 分別計算每個節點之三個特徵後，因每個特徵都有不同的權重，在下一節會說明本研究如何設計特徵之權重。. 3.4. 節點權重之設計在設計特徵權重上，我們根據影片內容去自動調整權重之大小。通常，有趣. 區域應該是影片中比較特別之區域。因此在權重之設計上，我們使用了對比度的概念以自動調整特徵權重值。為了計算節點和節點之間的對比度，首先我們根據節點之局部位置和整體位置之關係，設計了三種不同的節點關係，分別為影像層次(frame level)、局部層次(local cubic level)和整體層次(global video level)，以下分別針對各個層次做說明。影像層次(frame level)，是以影像二維空間為出發點，在同一張影像中所有節點彼此之間，對於三個特徵值的對比度。局部層次(local cubic level)則是以三維局部空間為出發點，對比度之設計是以該節點和其周遭鄰居為比較對象，鄰居的選擇為以該節點為中心，在同一張影像上周遭八個節點和前後兩張影像總共 26. 15.

(16) 個鄰居來計算對比度。最後一個層次為整體層次(global video level)，該層次便是節點和影片中所有節點之對比度。如圖 3.4.1 所示，(a)為影像層次，(b)為局部層次，(c)為整體層次。. (a). (b). (c). 圖 3.4.1：三種不同節點關係之示意圖. 節點之間的關係有上述三種，因我們的權重設計方法是依據對比度，所以三個特徵值之權重在各個層次下都須個別計算一次。根據 3.3 節可以求得每個節點之三個特徵值，本節將說明特徵值之權重如何依據對比度自動做調整。首先，在不同層次下我們可以得知每個節點在各個特徵值上的分佈情形，因為我們在權重的設計上是使用對比度為依據，因此分佈情況和其他節點較為不同之節點，在我們的研究中會給予較高之權重，權重之算法如下: [公式 3.4.1] 因為我們將對比度的比較關係分為三個層次，因此每個節點分別在各個層次都會得到一個有趣度的分數，所以最後必須將三個層次下的分數結合起來作為該節點最後的有趣值，因此我們將節點分數的算法整理如下 : 16.

(17) [公式 3.4.2] 其中，. 、. 和. 為該節. 點分別在不同層次下求得的有趣度分數。公式如下: [公式 3.4.3] [公式 3.4.4] [公式 3.4.5] 其中，M、D 和 V 的值是相同的，W1、W2 和 W3 為權重值，會根據在不同層次的節點關係中做自動的調整。. 3.5. 最大權重連接子圖經由上述 3.1 至 3.4 章節，我們將影片轉換成用圖形來表示，也求得了各個. 節點有趣度的分數，接下便會說明如何在圖形中找最大權重連接子圖。由於我們先前計算之節點有趣度分數皆為正數，若是直接尋找最大子圖，將會得到整部影片為最大權重子圖，因此在分數的設計上，必須稍做修改。因為我們已經將所有節點之分數求得，在設計上會依據節點分數之平均值為基準，大於平均值的節點分數設計為正數，小於則設計為負數，因此算法修改如下: ′. 其中，. 為原始節點分數，. [公式 3.5.1]. 為平均值，. ′. 為經過修改後的新分數。. 經過此項設計便會使得節點分數有正有負，本方法便使用新的節點分數在圖形中 17.

(18) 求出最大權重連接子圖。最大權重連接子圖是一個 NP 問題，如果直接去搜尋將會花費很大量的時間成本，為了加速找出我們想要的結果，本論文使用了[8]和[9]所提供之方法和開放源碼，該演算法首先會將最大權重連接子圖問題轉換成獎勵收集斯坦利樹 ( Prize-Collecting Steiner Tree, PCST )問題，轉換的過程已經被所證明，接著為了加速搜尋的時間，會使用分支切線法來加速，詳細的過程可以參考[8]和[9]。經過此演算法找出之最大權重連接子圖即為在影片中的有趣區域。. 3.6. 合併基底影像與動態區域影像自動在影片中選出有趣區域在時間上起始和終止時間與空間上的位置後，我. 們便需要合併基底影像與動態區域影像來製作劇院照片。因為本研究所找出的有趣區域在空間與時間上呈現不規則的狀態，因此對每一個影像中，我們會選出的節點是不同的，如圖 3.6.1 所示，紅色格子為在不同時間點被選到的節點。. 圖 3.6.1：不同時間點被選到的節點. 除了可以得知在每個影像中被選擇到的有趣節點之外，我們也可以得知在整 18.

(19) 段有趣區域中所有被選到節點之位置，如圖 3.6.2，藍色節點為在整段有趣區域時間中所有被選到之節點位置。. 圖 3.6.2：有趣區域中所有被選到之節點. 因此我們可以將節點分成兩大類，第一類為在該時間點有被選到之紅色節點，第二類為在當下沒被選到之藍色節點，但在整段有趣區域其他時間點被選到。在合併基底影像和動態區域時，根據不同節點必須做不同的處理。首先，因為紅色節點為該時間點上有趣的區域，因此在做合併時，紅色節點的部分本研究都讓其呈現動態，但藍色節點因為在整部影片中雖然屬於有趣區域，但是在不同時間點上有可能是不有趣的，因此針對藍色節點的處理，我們分為兩個部分。首先我們考慮藍色節點在短時間內是否會變成紅色節點，若在短時間內會轉變成紅色節點，在合併影像時，該節點便讓其呈現動態。若是藍色節點在短時間內不會轉變為紅色節點，在合併該張影像時便讓其保持靜止。需要這麼處理的原因為，我們在合併動態區域時，會想專注於在該時間點上最有趣的區域使其保留住動態資訊，藍色節點雖然在其他時間點是有趣的，但在這個時間點卻可能為不重要的背景，因此經過這樣的處理，可以將大部分的背景給靜止化。 19.

(20) 因為不同影片中，藍色節點會呈現靜止的時間長度無法固定，為了避免其靜止一段很長的時間後，突然轉變成紅色之動態節點，造成外觀上的不連續，因此每五張影像的時間長度，我們便會置換一次藍色節點之內容，使用當下影像來置換，以避免長時間靜止後，突然轉變動態之外觀上的不連續。在設計好有趣區域中所有節點何時動態與何時靜態後，接下來為了要使劇院照片的動態區域畫面變化連貫且不斷重複，因此我們將整部影片分成兩個部分，第一部分為整部影片第一張影像到有趣區域起始影像，第二部分為有趣區域的結束影像到整部影片的最後一張影像，從這兩群影像中尋找外觀上相似度最高的兩張影像為劇院照片的第一張影像與最後一張影像，且將第一張影像設為基底影像。在決定好基底影像和動態區域影像之變化後，便將其依序合併成最後的劇院照片。. 20.

(21) 第四章實驗結果與分析本章節將介紹本論文的實驗設計、實驗結果及實驗結果的分析與討論。. 4.1 實驗設計我們準備了十部影片，利用網路問卷的方式進行實驗。在實驗的設計上，我們想要知道使用多特徵和有趣區域呈現不規則的狀態下之劇院照片是否受使用者喜愛，和所選擇出之有趣區域是否符合大多數使用者之期待。因此本論文設計了兩個問卷來做調查。第一個問卷，我們提供了原始影片，和兩個不同方法製作出的劇院照片，其中一個劇院照片是本論文的方法所建置出之劇院照片，另一個為[5]之方法所建置的劇院照片，第一個問卷最主要之目的為多特徵與不規則區域之劇院照片和單一特徵與固定形狀之劇院照片的比較。因此會請使用者針對兩個劇院照片選擇較喜愛的選項，此外也會請使用者分別對兩個劇院照片評分滿意度。圖 4.1.1 為問卷一範例。第二個問卷為針對本研究所選出之有趣區域是否符合使用者之期待，因此問卷中會提供原始影片，和對影片中的動態區域進行編號，讓使用者選擇哪些動態區域是他們覺得保留下來製作成劇院照片是有趣的。圖 4.1.2 為問卷二範例。兩個問卷我們分別請了 45 個使用者，總共 90 個使用者來做實驗，問卷一和 21.

(22) 問卷二之使用者沒有重覆，因我們不希望使用者看過製作出的劇院照片結果而影響問卷二之調查，故將問卷一與問卷二之使用者分隔開來。. 圖 4.1.1：問卷一範例. 22.

(23) 圖 4.1.2：問卷二範例. 4.2 實驗一結果與分析實驗一在設計上共有兩個問題，第一個為本論文所建置之劇院照片和[5]方法之劇院照片作比較。由實驗結果可得知，我們的方法所建置的劇院照片，在題組中皆獲得了較高的票數，因為原始影片為各式各樣的，顯示出了我們的方法使用多特徵來製作劇院照片是有其通用性，可以使用於在大多數影片中自動找尋有. 23.

(24) 趣區域，此外在使用不規則區域的呈現上，也改善了使用固定形狀的限制。圖 4.2.1 為本研究之劇院照片和[5]的比較，藍色分別為我們建置劇院照片之使用者喜愛得票情形，紅色為[5]的劇院照片。. 圖 4.2.1：問卷一之問題一結果. 實驗結果顯示，十部影片製作出之劇院照片，本論文都獲得了較多票數，因此我們挑出其中我們的方法得票數相對較少之選項 3 來討論。圖 4.2.2 為選項 3 所選擇之有趣區域，(a)為本論文方法所選擇之區域，(b)為[5]。兩個方法所選出之有趣區域效果都不錯，但可以看出，我們的方法，保留住了劇院照片之精神，局部的動態效果。. 24.

(25) (b). (a). 圖 4.2.2 : 選項 3，選擇之有趣區域，( a )為本論文之結果，( b )為[5]. 此外我們也討論在結果中，我們得到最多票數的選項 4 來做分析，圖 4.2.3 為選項 4 之結果，(a)為本論文方法所選擇之區域，(b)為[5]。經由結果顯示，由於[5]之方法選擇出的有趣區域，比須為固定形狀，且只考慮單一特徵，在選擇有趣區域時，較容易造成物件的切割，使用者在選擇喜愛的劇院照片時，對物件被切割到的效果呈現較不喜愛的反應，因此我們的方法選用不規則之區域便能改善這樣的限制，實驗結果也顯示，較受使用者喜愛。. (a). (b). 圖 4.2.3：選項 4，選擇之有趣區域，( a )為本論文之結果，( b )為[5]. 問卷一的第二個問題為使用者對本研究之劇院照片和[5]之劇院照片作滿意 25.

(26) 度的評分，滿意度的評分上，非常滿意為 5 分、滿意為 4 分、普通為 3 分、不滿意為 2 分和非常不滿意為 1 分。根據使用者所選之滿意度，我們統計 10 個選項之個別的平均得分和兩個方法之平均得分。圖 4.2.4 為顯示結果。. Ours [5]. 1 4.24 3.47. 2 4.29 2.71. 3 4.13 3.64. 4 3.60 2.40. 5 3.93 2.49. 6 4.11 2.51. 7 3.53 2.96. 8 3.64 2.64. 9 4.07 3.07. 10 3.91 2.87. 平均 3.95 2.88. 圖 4.2.4 : 滿意度平均分數. 4.3 實驗二結果與分析實驗二的目的為調查本研究方法所選擇之有趣區域是否符合使用者觀點。經由實驗結果顯示，我們的方法，對影片中最有趣的區域都有選擇到，再次的驗證了，同時考慮多特徵，針對各種不同的影片都可以找到使用者覺得最有趣的區域，增加了我們方法的通用性，和使用的特徵是強而有力的且能互相輔助我們找到影. 26.

(27) 片中最有趣的區域。圖 4.3.1 為 10 部影片使用者覺得有趣區域的票數，紅色為我們的方法會選擇到之有趣區域。. 圖 4.3.1 : 實驗二結果此外，我們還分析了使用者選項與我們的方法所選出結果之相似度，在相似度的計算我們使用了 Tanimoto Similarity，根據結果顯示，對十部影片之平均相似度 72%，代表我們的方法滿足了七成使用者對有趣區域的符合度。此外，我們也分析使用者彼此間喜好不同對相似度的影響。我們利用漢明距離( Hamming Distance )，來計算使用者選項之距離，求出之距離越大即代表使用者彼此之間喜好差距越大，反之則越相近，結果如圖 4.3.2 與圖 4.3.3，可以發現使用者彼此間距離越大，會使我們的方法所選出之有趣區域和使用者選出之有趣區域相似度降低，我們使用了皮爾森係數來計算使用者彼此距離與我們和使用者之間相似度 27.

(28) 之相關程度，求出之結果為 -0.8643，皮爾森係數的定義為，越接近 1 為正相關，越接近-1 為負相關，0 為沒有關係，因此可以發現使用者彼此之間喜好距離與我們和使用者的相似度呈現負相關的關係。這是因為使用者彼此之間喜好有所分歧，因有趣區域是很主觀的選擇，若是使用者彼此之間差異越大，會使我們方法與其之相似度降低，但總體平均我們的方法還是滿足了七成使用者之喜好。. 圖 4.3.2 : 上方的線代表使用者選項與我們的方法所選出結果之相似度下方的線代表使用者彼此之間的距離. 圖 4.3.3 : 圖 4.3.2 之相似度與距離的值. 4.4 權重設計之分析這一節為我們方法在權重設計上之分析，探討我們權重自動調整的計算方式 28.

(29) 是否有效的幫助選出影片中有趣之區域，我們利用瀑布這個例子來分析，首先我們知道最後自動選出之有趣區域為瀑布和一部分的水氣，如圖 4.4.1。接著，我們將影片內容大致切割成四部分方便分析，此四部分為天空、水氣、瀑布和其他區域。. 圖 4.4.1 : 紅色區域為自動選出之有趣區域首先，我們先分析第一個特徵動量大小的權重。在這個例子中，動量值最大的區域會在水氣的部分，但是動量權重最大的部分卻在瀑布區域，這說明瀑布在動量大小的分布是此部影片中較為特殊的區域，在這影片中水氣動量很大且面積也大，而天空和其他部分幾乎是靜止，動量很小且面積也很大，因此瀑布的動量值雖然不是最大，但在分布上是極為特殊的，所以在我們權重設計上瀑布區域的動量權重平均會最大，加大了演算法會選到瀑布區域的機會。方向的一致性和顏色上的變化度，在這個例子下情形很類似，瀑布區域的一致性很高，其他區域都較為雜亂，顏色上的變化度在水氣區域很明顯的最多，其他區域為少量的變化。我們可以發現，我們設計的權重計算方式，最後選出的區域至少會有一個最大的 29.

(30) 權重，代表在不同特徵下，我們的方法能選到各自最特殊的地方。參考圖 4.4.2 和圖 4.4.3。. 圖 4.4.2 : 三個特徵的平均權重 (X 軸:三個特徵和四個區域，Y 軸為權重值). M 6.75. Waterfall D 9.12. V 3.16. M 3.81. Sky D 7.19. V 4.71. M 8.77. Mist D 2.38. V 8.46. M 5.33. Other D 5.76. V 6.13. 圖 4.4.3 : 三個特徵各自在不同區域的平均值. 4.5 格式比較在做視訊壓縮時，會考慮兩張影像之間的關聯性，對不同的地方做壓縮，或者直接使用前一張畫面，以大量減少儲存的資料量，達到較好壓縮效果。在章節 3.6 合併基底影像與動態區域影像中，我們提及在製作劇院照片時，為了節省檔案空間而設計了藍色節點和紅色節點，為了突顯設計藍色節點在節省檔案大小上的優點，在格式的選用上，我們使用了 GIF 和 WMV 兩種格式來做比較。以下為十部影片在不同格式下之結果。 30.

(31) 原始影片 (AVI) 原始影片 (GIF). 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 347. 124. 128. 137. 77.8. 129. 128. 77.6. 230. 75.2. 83.9. 9.45. 16.8. 34.5. 15.9. 36.7. 33.6. 13.4. 38.4. 14.5. 圖 4.5.1 : 原始影片之 avi 和 gif 格式(單位:MB) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 原始影片(GIF). 83.9. 9.45. 16.8. 34.5. 15.9. 36.7. 33.6. 13.4. 38.4. 14.5. Our Cinemagraph (GIF). 1.28. 7.78. 3.71. 8.49. 1.7. 18.3. 10.9. 4.04. 2.55. 13.4. [5] Cinemagraph (GIF). 8.48. 3.76. 15.1. 34.5. 15.8. 36.6. 33.3. 3.2. 39.9. 12.4. 圖 4.5.2 : 原始影片和兩個方法的劇院照片之 gif 格式(單位:MB) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Our Cinemagraph (GIF). 1.28. 7.78. 3.71. 8.49. 1.7. 18.3. 10.9. 4.04. 2.55. 13.4. Our Cinemagraph ( WMV ). 0.23. 0.32. 0.32. 0.34. 0.14. 0.90. 0.42. 0.99. 0.20. 0.60. 圖 4.5.3 : 本論文方法產生的劇院照片不同格式之比較(單位:MB) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. [5] Cinemagraph (GIF). 8.48. 3.76. 15.1. 34.5. 15.8. 36.6. 33.3. 3.2. 39.9. 12.4. [5] Cinemagraph (WMV). 2.55. 0.19. 1.05. 1.02. 0.95. 1.65. 1.03. 1.22. 1.70. 0.56. 圖 4.5.4 : [5] 產生的劇院照片不同格式之比較(單位:MB) size(row) size(colunm). 1 324 576. 2 576 324. 3 576 324. 4 512 384. 5 400 226. 6 448 252. 7 576 324. 圖 4.5.5 : 10 部影片各自的解析度. 31. 8 384 216. 9 576 324. 10 576 324.

(32) 第五章結論 5.1 結論本研究提出了一個自動建置劇院照片的方法，著重於有趣的動態區域之自動選擇。在選擇有趣區域時，我們同時考慮了多特徵為選擇有趣區域之依據，因為影片是各式各樣的，單一特徵無法適用於各種影片，實驗結果顯示，同時考慮了多特徵適用於在絕大多數的影片中找尋有趣區域，也凸顯了我們使用的特徵和特徵權重之設計有效的幫助我們找尋影片中之有趣區域。此外，在有趣區域的呈現上，使用了不規則的形狀，大大的避免物件被切割之情形，也符合影片裡動態區域之真實情況，在效果之呈現上深受使用者喜愛。實驗的結果顯示，兩份問卷分別為數 45 份的實驗資料中，本研究所自動化建置的劇院照片符合大多數使用者的觀點與喜愛。. 32.

(33) 參考文獻. [1]. James Tompkin, Fabrizio Pece,Kartic Subr, Jan Kautz, “Towards Moment Imagery:. Automatic. Cinemagraphs”. Conference. on. Visual. Media. Production(CVMP), 2011. [2]. Wolf Kienzle, Bernhard Schölkopf, Felix A. Wichmann, and Matthias O. Franz, “How to find interesting locations in video: a spatiotemporal interest point detector learned from human eye movements”, In Proceedings of the 29th DAGM conference on Pattern recognition, 2007 [3]. Neel Joshi, Sisil Metha, Steven Drucker, Eric Stollnitz, Hugues Hoppe, Matt Uyttendaele, Michael Cohen, “Cliplets: Juxtaposing Still and Dynamic Imagery”, Microsoft Technical Report, 2012. [4]. Jiamin. Bai,. Aseem. Agarwala,. Maneesh. Agrawala,. and. Ravi. Ramamoorthi. ”Selectively De-Animating Video”, ACM Transactions on Graphics, 2012. [5]. Mei-Chen Yeh and Po-Yi Li, "An Approach to Automatic Creation of Cinemagraphs", ACM MM, 2012 [6]. C. H. Lampert, M. B. Blaschko, and T. Hofmann, “Beyond sliding windows: Object localization by efficient subwindow search”, In Proceedings IEEE Conference on Computer Vision and Pattern Recognition, 2008 33.

(34) [7]. Lampert, C. H., M. B. Blaschko and T. Hofmann, “Efficient Subwindow Search: A Branch and Bound Framework for Object Localization”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009 [8]. S. Vijayanarasimhan and K. Grauman, “Efficient Region Search for Object Detection”, In Proceedings IEEE Conference on Computer Vision and Pattern Recognition, 2011 [9]. C.-Y. Chen and K. Grauman, “Efficient Activity Detection with Max-Subgraph Search”, In Proceedings IEEE Conference on Computer Vision and Pattern Recognition, 2012 [10]. B. D. Lucas and T. Kanade, “An iterative image registration technique with an application to stereo vision”,. In Proceedings of Imaging Understanding. Workshop, pages 121—130, 1981. 34.

(35)