劇院照片建置自動化之研究
全文
(2) 摘要 劇院照片建置自動化之研究 李柏逸. 劇院照片是 2011 年開始發展的一種新的照片型態,即一張照片中有某些區 域是會動的,且該動態區域內影像的變化是連貫、合理、且能不斷重複的。手動 製作劇院照片是一件費時耗工的工作,通常使用者必須拍攝好一段影片並利用影 像處理軟體對影片中的每一張影像編修欲保留之動態區域,最後再將其合併。此 外,如何選擇動態區域使得製作出的劇院照片更有趣、更吸引人亦是一個問題。 現今對自動化建置劇院照片的研究之中,大多的方法會先找出影片中所有動態區 域,進而讓使用者決定要保留哪一部分動態區域。本論文提出的方法著重於動態 區域的選擇,以計算的方法自動篩選動態區域,選擇較為吸引人注意且使用者會 感興趣的一塊區域。我們提出一個全自動化建置劇院照片的方法,讓劇院照片的 製作更為簡易方便。使用者只須拍攝好影片即可製作出一張劇院照片。實驗結果 顯示,我們提出的方法所選擇的動態遮罩區域大部分符合一般使用者的觀點。. 關鍵字:劇院照片、動態分析. ii.
(3) ABSTRACT A study on Automatic Cinemagraph by Bo-Yi Li Cinemagraph was presented in 2011, which is a new type of media that contains one or a few dynamic regions presented in a continuous, seamless and looping manner. Manually creating cinemagraphs is usually tedious, where a user is required to carefully select and edit frames and regions to produce an interesting cinemagraph. Moreover, the task of selecting good dynamic regions itself is challenge for end users. There exist a few cinemagraph rendering tools but most of them are semi-automatic, and a user has to label the dynamic regions in the process. In this paper, we present a fully automatic approach; in particular, we emphasis on a computational approach to determine a region that may highly likely include interesting moving patterns and receive users’ attentions in a video. The method has been tested on several videos and the experiments show good results. Keywords Cinemagraph; Motion analysis;. iii.
(4) 致謝 感謝我的指導老師葉梅珍老師在過去兩年指導,讓我在影像和多媒體領域的 專業知識有長足的進步,使我的基礎更加穩健。在兩年研究所的生涯裡,老師總 是在我研究遇到瓶頸時為我解惑,並耐心的教導我。有所怠惰時,適時的鼓勵我、 鞭策我,讓我可以順利完成兩年的學業。老師在平常繁忙的教學事務中,還要抽 空為我指點迷津、與我討論我的研究工作、幫我想辦法解決問題,讓我深感佩服, 若是沒有老師幫助,我的研究不會如此順利,謝謝老師,老師您辛苦了。 感謝 MM lab 的學長 Aniki、白橘、宇辰,在我研一那個徬徨無助的日子裡, 給我快樂充實的一年,對於我的學業及專業知識上都有相當大的幫助。感謝我的 同學百琮、淳卉,陪我一起共同奮戰,度過了作業、報告、project 一堆的生活。 感謝 POPO、浩禎、媖詞,在二年級那段最煎熬的日子裡為我鼓勵、給我動力及 生活上的幫助。研究所的日子裡有你們的陪伴讓我非常開心,謝謝你們。 最需要感謝的是我的家人,謝謝爸爸、媽媽您們的付出,讓我可以完成研究 所的學業,我知道過去兩年我犧牲了許多與您們相處的時間,您們也都盡量的不 要打擾我,擔心影響到我的課業,在此我要對您們說聲對不起,也要對您們說聲 謝謝。當然還要感謝我的姊姊及 Leticia,謝謝妳們的忍讓與關心。 在未來的日子裡,我會記住過去兩年來你們的付出及關心朝著人生的下一個 階段邁進,努力的盡我所學,謝謝大家。. 李柏逸 2012.08.21 iv.
(5) 目錄 中文摘要.....................................................................................................ii 英文摘要....................................................................................................iii 致謝............................................................................................................iv 目錄.............................................................................................................v 附圖目錄 ................................................................................................... vi 第一章 緒論 .............................................................................................. 7 1.1 研究背景與動機 .................................................................................. 7 1.2 系統架構 .............................................................................................. 8 1.3 論文架構 .............................................................................................. 9. 第二章 文獻探討 .................................................................................... 10 2.1 現有的劇院照片建置自動化技術 ...................................................... 10 2.3 顯著區域偵測 ...................................................................................... 11 2.3 動態表徵法 ......................................................................................... 12 2.3.1 光流法....................................................................................... 12 2.3.2 結構相似性測量....................................................................... 12 2.3.3 週期性運動偵測....................................................................... 13. 第三章 方法及步驟 ................................................................................ .15 3.1 制定動態區域選擇問題 ...................................................................... 16 3.2 擷取動態區域 ...................................................................................... 17 3.2.1 運動量最大區域........................................................................ 17 3.2.2 運動方向不同區域.................................................................... 20 3.2.3 運動方向一致區域.................................................................... 22 3.3 加速搜索動態區域 .............................................................................. 23 3.3.1 高效子視窗搜尋........................................................................ 23 3.3.2 界限函數.................................................................................... 25 3.4 合併基底影像與動態區域影像 .......................................................... 28. 第四章 實驗結果 ..................................................................................... 30 4.1 實驗設計 .............................................................................................. 30 4.2 實驗結果 .............................................................................................. 31. 第五章 結論 ............................................................................................. 33 v.
(6) 5.1 結論 ....................................................................................................... 33 5.2 未來工作 ............................................................................................... 33. 參考文獻 ................................................................................................... 34 附圖目錄 圖 1.1:自動化建置劇院照片之系統架構................................................................ 8 圖 2.1:SSIM 計算結果範例 .................................................................................... 13 圖 2.2:週期性運動之類型(出自參考文獻[16])................................................... 14 圖 3.1:光流法示意圖............................................................................................... 15 圖 3.1.1:從一段影片中擷取動態區域示意圖....................................................... 16 圖 3.2.1:運動量最大區域示意圖........................................................................... 18 圖 3.2.2:影片中需要計算的區塊示意圖............................................................... 18 圖 3.2.3:積分影片轉換示意圖............................................................................... 19 圖 3.2.4:積分影片計算示意圖............................................................................... 20 圖 3.2.5:運動方向不同區域示意圖....................................................................... 21 圖 3.2.6:利用角度表示運動方向........................................................................... 21 圖 3.2.7:運動方向一致區域示意圖....................................................................... 22 圖 3.3.1:2-D 高效子視窗搜尋示意圖 ................................................................... 24 圖 3.3.2:3-D 高效子視窗搜尋示意圖一 ............................................................... 25 圖 3.3.3:3-D 高效子視窗搜尋示意圖二 ............................................................... 25 圖 3.3.4:運動量最大區域之上界值計算示意圖................................................... 26 圖 3.3.5:. 之曲線圖 ............................................................................ 28. 圖 3.4.1:合併劇院照片示意圖............................................................................... 29 圖 4.1:實驗範例....................................................................................................... 30 圖 4.2:實驗結果統計長條圖................................................................................... 31 圖 4.3:實驗結果討論............................................................................................... 32. vi.
(7) 第一章 緒論 1.1 研究背景與動機 現今的生活之中,隨著科技的進步,利用相機來紀錄我們的生活是再平常不 過的事了,無論是數位相機、單眼相機,甚至在我們的手機上都有拍照及攝影的 功能。另外,隨著網路的發達,許多網路平台都提供儲存及分享照片的功能,例 如:facebook,flickr,以及無名小站等。在傳統的照片中,所儲存的內容是靜態 的,例如:我們可以把一棵樹拍下來儲存於照片中,但是卻無法傳達樹葉搖曳這 樣的動態資訊。再者,若是以影片的形式拍攝,當影片內容傳遞的動態資訊過多, 觀賞者的注意力容易被樹以外的動態資訊所吸引,且佔用的容量相較於照片大為 許多。因此 2011 年發展出劇院照片(Cinemagraph)[1, 2]這樣的一種新的照片型態。 劇院照片是由攝影師 Jamie Beck 與平面設計師 Kevin Burg 合作的結晶[1]。 它將靜止的畫面與一小部分重覆的動作結合成一張照片,換句話說,一張照片裡 有某些區域是會動的。這樣的照片形式,顛覆了我們對於傳統照片的印象,如果 傳統照片捕捉了某一瞬間的時刻,而劇院照片則告訴我們在那個時刻發生的事情, 給我們感覺彷彿抓住生命中的某一時刻,在觀賞照片的時候有不同的體悟。 隨著劇院照片技術的發展,照片的內容將不再只是靜止的,而是能夠動起來。 此外,劇院照片亦有許多的應用,包括數位雜誌及數位相框。未來電子雜誌裡的 照片、以及數位相框裡的照片,是可以動起來的。 手動製作劇院照片須先將拍攝好的影片轉換成一序列的影像,決定一張影像 作為基底影像。其次,在這一序列的影像中藉由人力一張一張地去編修欲保留的 動態區域。最後,將所選擇的基底影像與 7.
(8) 欲保留的動態區域影像合併,即完成一張劇院照片。這樣的程序是一件費時 耗工的過程,且當影片中動態區域不只一個部份時,如何選擇動態區域使得最後 製作完成的劇院照片更吸引人的目光,對於一般使用者來說是一個挑戰。現有的 自動化建置劇院照片之研究[2, 3],多為建置一個半自動的系統,讓使用者選擇要 保留的動態區域。而本論文的目的為實現全自動化建置劇院照片,讓使用者輸入 一段影片,輸出結果即為一張劇院照片。核心技術為一個計算的方法,讓電腦自 動選擇動態遮罩,並且此自動選擇的結果能夠貼近一般使用者的觀點。. 1.2 系統架構 系統流程圖如圖 1.1 所示,步驟敘述如下:. 圖 1.1:自動化建置劇院照片之系統架構 首先,在前處理(Pre-processing)的步驟中,我們會先對影片做去除手震[14] 8.
(9) 的步驟,主要是因為在最後合成劇院照片時,將對每一張目標影像切割動態區域, 並將這一段動態區域的影像與基底影像合併,使合併後動態區域影像與基底影像 之接合處較為自然。 接著,對影像做動態分析,計算影像中每一個像素點的運動向量及運動方向。 藉由定義目標函數,依據運動向量或運動方向擷取動態區域,得到動態區域時序 及空間上的位置。 最後,根據動態區域影像時序及空間上的位置,在後處理的步驟,合併動態 區域影像與對應的基底影像,完成最後的劇院照片。. 1.3 論文架構 本篇論文第二章將介紹現有的自動化建置劇院照片之方法及如何自動選擇 動態區域之相關研究。第三章介紹本論文提出的自動化建置劇院照片之方法,包 含影片內容的表示法、動態區域的選擇準則、加速搜索動態區域之方法及劇院照 片的產生。第四章為實驗結果與探討,將介紹實驗的設計與結果,及對實驗結果 的相關分析。最後第五章為結論與未來工作。. 9.
(10) 第二章 文獻探討 自動化建置劇院照片的研究中,大多現有的方法是讓使用者決定動態的區域 [2,3],而本論文則著重於如何讓電腦自動選擇動態區域。本節除了回顧現有的 自動化建置劇院照片之技術,亦會探討自動選擇動態區域之相關研究。. 2.1 現有的自動化建置劇院照片技術. 劇院照片的研究議題中,[2]提出一個快速且完整的自動化建置劇院照片的 方法,先對影片做移動物體偵測與分割找出影片中所有的動態區域,使用的方法 是計算 Chebyshev distance 或者 structural similarity(SSIM)[4]。在他們實驗的結 果 中 , Chebyshev distance 是 一 個 比 較 快 速 的 方 法 , 而 structural similarity (SSIM)[4]則有較佳的結果,因此作者建議根據不同的需求來選擇其中之一。求 出所有動態區域之後,讓使用者來選擇其中之一動態區域,而為了使該動態區域 的畫面變化有連貫性與重複性,會根據所選擇之區域的所有影像,計算差異值平 方和(Sum of Squared Difference, SSD)[5],找出動態區域起始影像與動態區域結 束影像之間最小的SSD值,以確保動態區域內畫面變化有連貫性。最後,以動態 區域起始影像為基底影像結合這段動態區域的所有影像,產生劇院照片。 另一個自動化建置劇院照片的研究[3],將包含靜態與動態資訊這類形的圖 片定義為cliplet,作者們提出並實作一個新的使用者介面,讓使用者輸入一段影 片,從影片中選擇一張影像當做基底影像,之後再選擇想要保留的動態區域,並 可讓使用者決定該動態區域的起始時間點與結束時間點。 10.
(11) 2.2 顯著區域偵測 在觀看一張影像時,人類的注意力會被這張影像的某些區域所吸引,而這些 區域稱之為該張影像的顯著區域。許多顯著區域偵測方法使用了視覺注意力心理 學中的視覺注意力理論,其中,與本研究相關的是選擇注意力方面的理論[10]。 在選擇注意力的研究議題上主要有兩大論點,一個是以空間為基礎,一個是以物 體為基礎。以空間為基礎的論點主張,注意力開始作用時,是以外界空間的特定 範圍的刺激來引起我們的注意力,而在這範圍外的刺激則會被忽略。以物體為基 礎的論點主張,注意力開始作用時,是以外界物體本身為特定範圍的刺激來引起 我們的注意力。 顯著區域偵測是電腦視覺領域重要的研究,大部分的方法是利用圖片中的低 階特徵如:顏色、亮度、方向等,並用 center-surround 的方式分析出圖片中劇烈 變化的區域,再將各種特徵分析出來的值合併成顯著區域圖(saliency map)。[7] 使用影像中的對比度、計算中央與周圍直方圖差及顏色的空間分佈做為特徵,根 據這些特徵分析出來的值合併為顯著區域圖。[8]提出- Context-aware saliency detection,與傳統的顯著區域偵測不同的地方在於,作者們認為,經過顯著區域 偵測的結果,該區域的周圍應當也是值得被注意的。近年來,也有針對影片的顯 著區域偵測之研究,其原理亦同於圖片中的顯著區域偵測,不同的是所使用的特 徵為影片的運動特徵。在[9]所提出的方法中,其可以應用於圖片與影片的顯著 區域偵測方法,稱之為 Spatiotemporal saliency detection。其中所使用的特徵,在 空間顯著區域偵測上是計算中央與周圍區域的邊緣方向及顏色方向的距離,在時 間顯著區域偵測上是計算中央與周圍區域之時間梯度的絕對值和差 (Sum of Absolute Difference, SAD),最後將空間與時間之顯著區域偵測合併。 11.
(12) 2.3 動態表徵法 2.3.1 光流法 光流法(Optical flow)是一個廣泛被應用在移動物體偵測、移動物體分割等相 關研究上的技術,其概念是利用連續影像中,像素強度在時間上的變化,將物體 在三維空間的運動速度投影到影像平面上,以求得移動物體在二維平面的運動場, 也就是每一個像素點的移動方向。其中又以 L-K 光流法(Lucas-Kanade optical flow)[4]及 H-S 光流法(Horn-Rhunck optical flow)[7]最常被使用到。H-S 光流法 的特性在於,相鄰的光流向量會有連續性的變化,受雜訊影響較小,但其計算速 度較慢。L-K 光流法的計算速度較快,但僅能對移動較短的像素點計算。. 2.3.2 結構相似性測量 結構相似性(structure similarity, SSIM)[15]為一用來測量圖片品質的方法,對 重新編碼過的圖片衡量它與原始圖片優劣程度。其做法是比較兩張圖片的亮度、 對比度及結構。SSIM 也應用於移動物體分割,影像序列中連續兩張影像 t 與 t+1, 經過 SSIM 計算後,可得 SSIM index map,如圖 2.1,圖中每一個像素值表示[0,1], 當值越接近 1 表示這個像素點從時間 t 到 t+1 是沒有移動的,越接近 0 表示是有 移動的。因此,利用 SSIM 計算影片中所有連續影像後,可得運動物體於空間上 的位置。. 12.
(13) 圖 2.1:SSIM 計算結果範例 2.3.3 週期性運動偵測. 週期性運動是辨識動作的主要觀念,[16]提出了一個週期性運動偵測方法利 用物件追蹤、概率主成分分析(probabilistic Principal Component Analysis, pPCA)及 頻譜分析(spectral analysis)將週期性運動分類成 10 種基本的運動模式,包含 flash, Intensify, pulse, Inflate, swing, spin, turn, shuttle, drift and thrust. 圖 2.2 為各種週期 性運動模式的範例。. 13.
(14) 圖 2.2:週期性運動之類型(出自參考文獻[16]). 14.
(15) 第三章 方法與步驟 我們視劇院照片建置自動化為一最佳化問題,藉由定義目標函數,用計算的 方法自動找出動態區域時序及空間上的位置。首先,由於一般使用者在拍攝影片 時難免會有手震的情形發生,所以必須先對影片做去除手震的工作[14]。去掉手 震造成的因素之後,接著對影片做動態分析,目的在於找出影片中的動態區域, 我們採用 Lucas-Kanade 光流法[4]計算影片中每一個像素點的運動量與運動方向 來描述一部影片。如圖 3.1 所示,序列影像中兩張連續影像,採用光流法計算後, 可得到每一個像素點的運動量及運動方向。並且利用所求得的運動量或運動方向 去搜尋一個區域,得到該區域的起始時間點與結束時間點。最後將動態區域影像 與對應的基底影像合併,完成劇院照片,並希望所求得之結果符合一般使用者或 藝術工作者的觀點。. 圖 3.1:光流法示意圖. 15.
(16) 3.1 制定動態區域選擇問題 自動選擇動態遮罩之問題,目標在於找出影片中有趣的運動方式能吸引使用 者注意力,除了得到能吸引人注意的區域之外,亦同時能得到有趣的運動區域在 時間上的位置。因此,給定一部影片 V,目標在於找到一個區塊. ,目標. 函數定義如下: 公式 3.1 依據我們對有趣不同的定義來決定函數 的形式,將在 3.2 小節中詳加介紹。 圖 3.1.1 為一影片中有趣的運動區域示意圖,我們的目的在於從一段時間為 T 的影片中,找出有趣的運動區塊 V*,即圖中紅色區塊,並能同時得到時序上的 位置。. 圖 3.1.1:從一段影片中擷取動態區域示意圖. 16.
(17) 3.2 擷取動態區域 為了自動擷取一個區能夠吸引人的注意力的區域,我們要決定怎樣的動作能 夠吸引人的注意力。在本小節中會介紹我們提出的三個方法:運動量最大區域、 全域運動方向不同區域及區域運動方向一致區域。. 3.2.1 運動量最大區域 第一個想法是,運動量越大的區域能吸引越多的注意力。如圖 3.2.1 為一部 影片中的序列影像,在影片中椅子的動作是原地旋轉,畫面左邊三個人,由左到 右的第一個人的頭有稍微轉動,第三個人的手有稍微移動。而在這三個動態區域 中,椅子的運動量是最大的,因此我們認為在觀賞這段影片時,椅子轉動的吸引 力比其他兩者還要大,所以在製作劇院照片時,選擇椅子所在區域予以保留。 為了實現這個想法,根據 Lucas-Kanade 光流法[4]之計算,可求得影像中每 一個點的運動向量值。針對這一序列的影像,我們會對每一段時間內任何大小之 區域算出其區域內每一個點的平均運動量,也就是在某段時間內,每一張影像中 的某一個固定區域裡的每一個點的運動向量值累加,即為該區塊的運動量總和, 並將該區塊的運動量總和除以該區塊的體積,以求得該區塊平均運動量。因此目 標函數的運算公式如下: 公式 3.2 其中,. 為 v 的運動量總和,. 為 v 的體積。. 17.
(18) 圖 3.2.1:運動量最大區域示意圖. 由於要搜索影片中的所有區塊,每當取出一區塊時,就必須對該區塊內每一 個點的運動向量值累加得到該區塊的運動量,如圖 3.2.2 所示,輸入大小為 M × N,時間為 T 的影片 V,對任意一個區塊計算該區塊的運動量總和,其時間複雜 度為. ,因此會利用積分影片轉換(Integral Video)來加速計算。. 圖 3.2.2:影片中需要計算的區塊示意圖. 18.
(19) 將積分影像轉換應用在本研究上,我們的做法是將運動向量影像做積分影片 轉換,得到每一張影片的積分運動向量。積分運動向量中每一個點. 紀. 錄的是原始影片 V 中寬為 x、高為 y、時間為 t,這塊區域的運動向量值總和,計 算方法如公式 3.2,圖 3.2.3 為積分影像轉換示意圖。 公式 3.3. 圖 3.2.3:積分影片轉換示意圖. 將影片的運動向量值先轉換為積分運動向量值後,要計算圖 3.2.4 中 H 區塊 的運動向量值總和時,使用公式 3.4 即可求得。因此,時間複雜度從 改善為. 。. 公式 3.4. 19.
(20) 圖 3.2.4:積分影片計算示意圖 3.2.2 運動方向不同區域 第二個方法是,在一個畫面之中,其整體的運動分向皆是往同一個方向移動 時,我們認為畫面中往其相反方向運動的區域是容易吸引人注意的,即找一塊與 整體運動方向相差最多的區域。如圖 3.2.5 所示,影片中跳舞的人皆往右移動, 只有畫面左邊的那一個人往左移動,因此我們認為往左移動的人是注意力的焦點, 應該保留在最後的劇院照片中。 實作上,將經由光流法計算出來的運動向量轉換成角度,以角度來表示影片 中每一個像素點的運動方向。我們將 0°~360°畫分成八等份,每 45°表示一個方 向,如圖 3.2.6 所示,337.5°~22.5°為方向 1,22.5°~67.5°為方向 2,依此類推 可得八個方向,並根據影片中每一個點的運動量做直方圖統計。選擇影片中任意 大小區塊的直方圖,與整體影像的直方圖做比較,使用的方法是計算區域直方圖 20.
(21) h' 與全域直方圖 h 之間的卡方距離(Chi-Square Distance)。計算過後,選擇與全 域直方圖相差最大的區域。因此目標函數的運算公式如下:. 公式 3.5. 其中. 為 V 中屬於 k 方向的像素點個數。. 圖 3.2.5:運動方向不同區域示意圖. 圖 3.2.6:利用角度表示運動方向. 21.
(22) 3.2.3 運動方向一致區域 第三個方法是,在畫面中,如果有某塊區域內的運動方向大部分皆往同一個 方向移動,則我們認為這個區域是具有吸引力的。如圖 3.2.7 所示,實際的影片 中,瀑布區域的運動方向是向下運動,畫面左半部水氣的運動方向是往各個方向 雜亂的運動。因此,我們認為應該保留瀑布區域於劇院照片之中。 在此,我們同樣利用角度表示方向來描述影片內容。而為了要比較一致性, 使用的方法是計算熵(Entropy)來衡量各個區塊的直方圖,當直方圖的分布越平均 則我們希望算出來的熵越小,反之則越大,因此最大化的目標函數的運算公式如 下: 公式 3.6. 圖 3.2.7:運動方向一致區域示意圖. 關於運動方向相反區域與運動方向一致區域,每次搜索一個區塊,即必須統 計一次直方圖,造成搜索時間延長的問題,因此使用積分直方圖轉換來加快搜 索。. 22.
(23) 3.3 加速搜索動態區域 在 3.2 小節中,介紹了怎樣的動態區域是我們認為具有吸引力的,藉由定義 不同的目標函數,根據不同的設計方法自動選擇動態區域。然而,如圖 3.2.1 所 示,一段影片中需要搜索的區塊數目為 V 中任何可能大小的綠色區塊,其空間複 雜度為. 。 因 此 , 實 作 上 採 用 分 支 界 定 演 算 法 (Branch and. Bound)[12]來加速搜索動態區域。 3.3.1 高效子視窗搜尋 一般來說要利用矩形搜索一個區域,會用四個頂點來定義一個移動視窗 (Sliding Window),但是這樣的搜索方式,無法對整個區域中任意大小的範圍作 搜索,若使用多個移動視窗則會增加搜索的速度。因此,使用基於分支界定演算 法的 Efficient Subwindows Search(ESS)[12]不僅可對一個區域內任何大小的範圍 搜索,亦可達到加速搜索的目的。 如圖 3.3.1 所示,ESS 使用四個區間(T, B, L, R)來定義一組矩形,其中小矩 形(thi, blo, lhi, rlo)為最小可能區域,大矩形(tlo, bhi, llo, rhi)為最大可能區域,並 藉由大矩形與小矩形之間的四個區間來決定一組矩形的位置。每次分支均選擇區 間最大的一段來分割(Branch),分割完後,個別計算彼此的界限(Bound)放入優 先權佇列(Priority Queue),以界限為優先權來決定下次分支的順序。而當搜索的 矩形唯一,也就是當最大可能區域與最小可能區域之四個區間為零時,即完成搜 尋。. 23.
(24) 圖 3.3.1:2-D 高效子視窗搜尋示意圖 在本論文中,我們將 ESS 延伸至三維空間,圖 3.3.2 為一示意圖,我們將時 間的維度以兩段區間(S, E)取代兩個時間點,但若是直接將 ESS 延伸至三維則 ESS 的維度將變成六維,如此一來分支的複雜度變高,反而會降低搜索的效率。 因此,做法上會拆成兩個部分,(1)先以 ESS 對二維平面搜索,(2)再以 ESS 對一 維時間搜索,如圖 3.3.3 所示,每當在二維平面上搜索到一塊區域時則對其找一 維時間中最佳的區塊。接著計算每一個區域最佳的界限,同樣以此界限當作優先 權放入優先權佇列,每次皆選擇優先權最高的區域做下一次分支,直到找到最佳 區域為止。. 24.
(25) 圖 3.3.2:3-D 高效子視窗搜尋示意圖一. 圖 3.3.3:3-D 高效子視窗搜尋示意圖二 3.3.2 界限函數 由於 ESS 基於分支界定演算法,每次分支需對分割後的區域計算界限值,而 本研究使用的方法皆需要計算上界,故本小節將會對我們提出的三個想法分別介 紹上界函數。首先,上界函數需滿足以下特性: (1) (2). , .. 其中, 為上界函數, 為目標函數。特性(1)表示, 25. 為. 的上界。特性(2)表.
(26) 示,當最大可能區塊與最小可能區塊相等時, 為最佳解。 對於運動量最大區域,我們以運動量來描述一部影片,故影片中每張影像的 每一個點所代表的意義為,該點從時間 t 到時間 t+1 的運動量,而我們會將影片 中運動量太小或沒有運動量的點標記為負。其上界值的計算方法如圖 3.3.4 所示, 紅色框為最大可能矩形. ,黃色框為最小可能矩形. ,且. ,則上界值的計算方式為,將最小可能矩形中的最佳區塊 塊)與不屬於最小可能矩形,但屬於最大可能矩形的位置中的最佳區塊. (黃色區 (綠. 色區塊)相加。因此,上界函數的運算形式如下: 公式 3.7. 圖 3.3.4:運動量最大區域之上界值計算示意圖. 對於運動方向不同區域,我們使用八個方向來表示影像的運動方向,並利用 卡方距離計算兩個直方圖之間的差異性,來決定與整體運動方向相差最大的區域。 關於上界值的計算,首先用公式 3.8 及公式 3.9 對每一個 bin 做正規化,其目的在. 26.
(27) 於使. ,以計算每一個 bin 的上界,其中. 屬於最小可能區塊,. 屬. 於最大可能區塊。. 公式 3.8. 公式 3.9. 每一個 bin 完成正規化後,則上界值的計算函數如下:. 公式 3.10. 對於運動方向一致區域,藉由熵來衡量區塊中的運動方向是否一致,利用公 式 3.6,如果直方圖的分布越平均,則值越小,分布越集中,則值越大。而其上 界值的計算利用公式 3.8 及公式 3.9 對每一個 bin 正規化,使得 如圖 3.3.5 所示,無論. 與. 。. 之間的位置為何,最大值皆出現在個別帶入. 計算後最大的情形,因此上界函數的形式如下: 公式 3.11. 27.
(28) 圖 3.3.5:. 之曲線圖. 3.4 合併基底影像與動態區域影像 經由計算自動選出動態區域時序及空間上的位置之後,在最後的步驟之中, 需要合併基底影像與動態區域影像。為了要使動態區域畫面的變化能連貫且能不 斷重複,因此,我們會將整部影片分成兩群,第一群為整部影片第一張影像到動 態區域起始時間點的前一張影像,第二群為動態區域結束時間點的後一張影像到 整部影片的最後一張影像,從這兩群影像中尋找相似度最高的兩張影像為劇院照 片中動態區域的第一張影像與最後一張影像,且將第一張影像設為基底影像。如 圖 3.4.1 所示,動態區域(紅色區塊)將一部影片分為前半段(橘色區塊)與後半段 (藍色區塊),從這兩個區塊之中尋找最相似的兩張影像,並以位於前半段的影像 為基底影像,且向前後延伸動態區域影像至兩張最相似影像的位置。接著,依序 與基底影像做合併,完成劇院照片。 28.
(29) 圖 3.4.1:合併劇院照片示意圖. 29.
(30) 第四章 實驗結果與分析 本章節將介紹本論文的實驗設計、實驗結果及對結果的分析討論。. 4.1 實驗設計 我們準備了九部影片,每部影片的長度約五到十秒。並利用網路問卷的方式 進行實驗,圖 4.1 為問卷範例。每組題目之中有三張劇院照片,分別對應我們提 出的三個方法,讓受測者從每組題目中挑選最喜歡的一張,若是都不喜歡則選擇 以上皆非,總計共有 70 人參與實驗。. 圖 4.1:實驗範例 30.
(31) 4.2 實驗結果 圖 4.4 為實驗中所有結果,共有 9 組題目及各自的統計長條圖。在長條圖中, 綠色 bar 表示自動化建置劇院照片中分數最高的選項。x 軸表示選項編號,編號 1 為運動量最大區域,編號 2 為運動方向不同區域,編號 3 為運動方向一致區域。 y 軸表示個數。. 圖 4.2:實驗結果統計長條圖. 由實驗結果可得知,自動化建置的劇院照片無論使用哪種方法,在大部分的 題組中皆獲得了較高的分數,但在題組(6)中,選項編號 4 都不喜歡的分數比例 較高,因此以下我們會針對這兩組題目分別討論。 31.
(32) 圖 4.3 為題組(6)中自動化建置的劇院照片,由圖中可以明顯看到,方法一 及方法三自動選擇動態區域時,由於沒有物件分割之技術,會把屬於同一個物體 的部分切開。方法二則選擇到影子移動的部分,但是影子的動並不明顯,根據上 述原因,使得題組(6)選擇以上皆非選項的分數較高。. 圖 4.3:實驗結果討論. 32.
(33) 第五章 結論與未來工作 5.1 結論 本研究提出了一個全自動化建置劇院照片的方法,著重於動態區域的自動選 擇,也就是選擇畫面中具有吸引力的區域。我們以運動量或運動方向來描述一部 影片,提出了三個吸引力顯著區域的篩選方法,運動量最大區域、運動方向不同 區域、運動方向一致區域。並利用 ESS 對影片搜索,以加快搜索的效能。最後, 利用網路問卷的方式,設計了九組題目,每組題目中至少有二至三張自動化製作 的劇院照片分別對應到我們提出的三種方法,讓受測者選擇題組中最喜歡的一張。 實驗的結果顯示,在為數 70 份的實驗資料中,自動化建置的劇院照片大部分符 合一般使用者的觀點。. 5.2 未來工作 雖然實驗的結果顯示,本論文提出的方法符合一般使用者的觀點,但還是有 可以改進的地方。首先,導入物件偵測的技術,可以完整保留移動物體於動態區 域內。其次,影片中的動態區域如果沒有周期性,會使得最後的劇院照片有不連 續性,或許可以利用重新排列動態區域影像來改善不連續性。最後,在本研究中 只選出一個最具吸引力的動態區域保留在最後的劇院照片之中,希望在未來的工 作中是能選擇多個動態區域保留於劇院照片之中。. 33.
(34) 參考文獻. [1]. Jamie Beck and Kevin Burg, “Cinemagraphs.” [2]. James Tompkin, Fabrizio Pece,Kartic Subr, Jan Kautz, “Towards Moment Imagery:. Automatic. Cinemagraphs.”. Conference. on. Visual. Media. Production(CVMP), 2011. [3]. Neel Joshi, Sisil Metha, Steven Drucker, Eric Stollnitz, Hugues Hoppe, Matt Uyttendaele, Michael Cohen, “Cliplets: Juxtaposing Still and Dynamic Imagery.” Microsoft Technical Report, 2012. [4]. ZhouWang, A.C. Bovik, H.R. Sheikh, and E.P. Simoncelli, “Image quality assessment: from error visibility to structural similarity.” IEEE Transactions on Image Processing, 13(4):600 –612, April 2004. [5]. Arno Schödl, Richard Szeliski, David H. Salesin, and Irfan Essa, “Video textures.” In Proceedings of the 27th annual conference on Computer graphics and interactive techniques(SIGGRAPH ’00), pages 489–498, New York, NY, USA, 2000. [6]. B. D. Lucas and T. Kanade, “An iterative image registration technique with an application to stereo vision.” In Proceedings of Imaging Understanding Workshop, pages 121—130, 1981.. 34.
(35) [7]. B.K.P.Horn. and. B.G.Schunck,. ”Determining. Optical. Flow”,. Artificial. Intelligence, Vol. 17. pp. 185-203. 1981. [8]. T. Liu, J. Sun, N. Zheng, X. Tang, and H. Shum, “Learning to Detect A Salient Object.” IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2007. [9]. Stas Goferman, Lihi Zelnik-Manor, and Ayellet Tal, “Context-Aware Saliency Detection.” IEEE Computer Vision and Pattern Recognition(CVPR) 2010. [10]. Wonjun Kim, Chanho Jung, Changick Kim, “Spatiotemporal Saliency Detection and Its Applications in Static and Dynamic Scenes.” IEEE Transactions on Circuits and Systems for Video Technology, 2011. [11]. 葉素玲、李仁豪(2005)。選擇注意力:選空間或選物體?。應用心理研究, 21,165-194。 [12]. C. H. Lampert, M. B. Blaschko, and T. Hofmann, “Beyond sliding windows: Object localization by efficient subwindow search.” In Proceedings IEEE Conference on Computer Vision and Pattern Recognition, 2008. [13]. Avery Lee, “Deshaker for VirtualDub.” [14]. E. Pogalin, A.W.M. Smeulders, A.H.C. Thean, “Visual Quasi-Periodicity.” IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR),2008 35.
(36) [15]. P. Viola and M. Jones, “Rapid object detection using a boosted cascade of simple features.” In Proceedings IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2001. [16]. Y. Ke, R. Sukthankar and M. Hebert, “Efficient Visual Event Detection Using Volumetric Features,” In Proceedings International Conference on Computer Vision, pp. 166-173, 2005.. 36.
(37)
Outline
相關文件
We solve the three-in-a-tree problem on
◦ The Statue of Liberty is a gift that France presented to America to celebrate its one hundred years of independence from the United Kingdom.. The full height of the monument is
New: Overall correct % for each dimension in Maths and presented in a bar
The evidence presented so far suggests that it is a mistake to believe that middle- aged workers are disadvantaged in the labor market: they have a lower than average unemployment
Start with a STUN header, followed by a STUN payload (which is a series of STUN attributes depending on the message type).
files Controller Controller Parser Parser.
Dynamic programming is a method that in general solves optimization prob- lems that involve making a sequence of decisions by determining, for each decision, subproblems that can
* All rights reserved, Tei-Wei Kuo, National Taiwan University, 2005..