中華大學

(1)

中華大學碩士論文

題目：MPEG-4 電影資料之內涵式摘要擷取與角色分析

系所別：資訊工程學系碩士班學號姓名：M09102004 范世鎮指導教授：劉志俊助理教授

中華民國九十三年六月

(2)

(3)

(4)

(5)

摘要

多媒體資料自動摘要的技術在網際網路與無線網路環境的應用日益普遍。因此，近年來此方面的研究十分受到重視。電影是現代人類最重要的文化資產之一。隨著數位化電影資料日漸成為人們日常生活的一部份，電影資料的內涵式分析成為目前重要的研究主題。在本文中，我們提出一種電影摘要自動合成技術以及一種角色自動分析技術。我們將樣板比對法應用到特寫鏡頭的偵測，利用鏡頭樣板來判別電影鏡頭是否為特寫鏡頭。再將特寫鏡頭依照臉部膚色特徵來作叢集分析，來找到一部電影各個主要演員的戲份。最後我們根據演員的戲份比重，由特寫鏡頭叢集中挑選代表性特寫鏡頭來合成電影摘要。

關鍵字： MPEG-4、視訊摘要(video summarization)、電影摘要(movie

summarization)、特寫鏡頭(close up shots)、電影資料庫(movie databases) 、內涵式查詢(content-based retrieval)。

(6)

致謝

本篇論文能夠如期完成，首先要感謝我的指導教授－劉志俊博士。由於劉老師總是可以充分掌握現今學術界的脈動，對於各領域的研究方向及未來趨勢都相當了解，更能走在時代潮流的最前端，使得本人的研究方向十分明確。在整個研究過程中，劉老師不斷的給予指導與鼓勵，並且能夠適時的帶領我們去紓解壓力，因為劉老師的一句名言：「快快樂樂做研究。」這句話成為我在爆肝的兩年的精神支柱，也讓我能夠如期的完成我的論文。

其次要感謝我們實驗室的學弟們，感謝雪碧（鄭煒平）學弟能夠發揮高超的雕水果技術，再感謝我板主（陳竹晟）學弟能夠開這他大台休旅車當司機，再感謝吳董（吳智偉）學弟能適時的帶來三瓶礦泉水，再感謝龍王（歐家銘）學弟跟我一起在實驗室爆肝，最後再感謝吳明家學弟總是把他的電腦讓出來讓學長紓解壓力，有了這群學弟才能讓我順利進行論文口試。

最後，僅將此論文獻與我的家人與女友慧珍，有了他們在生活上的照顧，才能讓我順利進行研究。

(7)

內文目錄

1. 序論………..………1

2. 相關研究………..3

3. MPEG-4 簡介………...5

3.1 MPEG-4 視訊技術………...5

3.2 MPEG-4 影像編碼基本原理………..………...8

4. 電影摘要的涵義與種類………10

4.1 電影海報及劇照………..10

4.2 電影預告片………..…………12

4.3 劇情簡介………..13

4.4 電影寫真集………..13

4.5 電影網頁………..13

5. 自動化電影摘要系統之整體架構……….….………..15

5.1 特寫鏡頭辨識...………...……….……….16

5.1.1 鏡頭的種類………..……..….……….16

5.1.2 使用鏡頭樣板偵測特寫鏡頭….……..………...18

5.2 演員戲份分析………...…….……….25

5.2.1 特寫鏡頭的叢集分析………..………...25

5.2.2 演員戲份的統計……….……….………30

5.3 製作電影摘要……….32

5.3.1 合成電影劇照………..32

5.3.2 合成電影海報………..32

5.3.3 合成電影預告片………..33

6. 實驗………..…………..………34

6.1 實驗資料樣本………..34

(8)

6.2 特寫鏡頭辨識實驗結果分析………..…35

6.3 演員戲份實驗結果分析………..39

7. 結論及未來工作………..…………..………41

參考文獻………..42

(9)

圖表目錄

圖一.視訊摘要發展圖………..…………... 3

圖二.MPEG-4 場景範…..……….………6

圖三.MPEG-4 基本的編碼結構導入外形編碼和動態補償………...8

圖四.MPEG-4 視訊圖面編碼範例……..………...………..9

圖五.電影海報種類………..……….……….………...….12

圖六.魔鬼終結者三預告片畫面………12

圖七、電影劇情簡介………..…13

圖八.魔戒三部曲的官方中文網頁圖………..………...14

圖九.電影摘要系統架構圖……….………...15

圖十.各類鏡頭實例……….………...17

圖十一.特寫鏡頭偵測流程圖………18

圖十二、初始鏡頭樣板合成圖………..19

圖十三、初始鏡頭樣板極色化（posterize）………..20

圖十四.初始鏡頭樣板………22

圖十五.極色化樣板……….………..………….23

圖十六、特寫鏡頭與鏡頭樣板比對範例圖………...24

圖十七、階層式叢集樹狀結構圖………...25

圖十八.樣板額頭位置起始區塊（patch）圖………..………..27

圖十九.特寫鏡頭叢集分析範例………..………..……27

圖二十.特寫鏡頭叢集分析樹狀圖………..………..……29

圖二十一.叢集分析準確率比較圖………..………..29

圖二十二.叢集分析回覆率比較圖…….………..…………..………...30

圖二十三.戲份示意圖………30

(10)

圖二十四.「哈利波特 2-消失的密室」合成劇照……….32

圖二十五.電影海報合成用的樣版……….………..……….33

圖二十六.電影合成海報實驗.………..……….33

圖二十七.電影預告片合成實驗….………..……….33

圖二十八.特寫鏡頭比重圖……….………...35

圖二十九.誤判樣本範例………..…….…...………..35

圖三十.特寫鏡頭偵測門檻值設定比較圖..………..…………36

圖三十一.特寫鏡頭偵測準確率之比較圖….….………..……36

圖三十二.特寫鏡頭偵測回覆率之比較圖………..…………..37

圖三十三.左樣板判斷正確之特寫鏡頭……….……….………..37

圖三十四.中樣板判斷正確之特寫鏡頭……….……….………..38

圖三十五.右樣板判斷正確之特寫鏡頭……….……….………..39

圖三十六.準確率比較圖……….….……..40

圖三十七.回覆率比較圖……….…..…..………..40

. 表一.電影鏡頭分類表……….………...…16

表二.角色戲份分析表………27

表三.戲份的統計排行表………..………..31

表四.鏡頭總數統計表………....33

(11)

1. 序論

由於多媒體應用與網際網路的快速蓬勃發展，使用者因此可以藉由網際網路去獲得許多的聲音、視訊、影像等多媒體資料，使得多媒體資訊變的隨手可得。多媒體資料的摘要（multimedia summarization）為目前多媒體資料庫領域的重要研究主題之一。在各種多媒體資料中，視訊資料的資料量最為龐大。因此為了讓使用者快速瞭解一個視訊物件的內容，我們需要視訊摘要（video summarization）的技術，將視訊物件的主要內容自動地擷取與呈現。而視訊資料中又以電影資料最為重要。電影是現代人類最重要的文化資產之一，隨著數位化電影資料（VCD、DVD）日漸成為人們日常生活的一部份，

因而電影資料的自動化摘要成為許多視訊/電影應用系統的重要技術。

我們可以藉著電影的創作及發表，作為一種文化的交流，一個經典的故事或小說可以藉由電影的拍攝進而視覺化及聽覺化，經由視覺化及聽覺化讓大家更能融入作者的想像空間。

一部電影在要上映之前的第一步就是為這部電影作宣傳，而最直覺宣傳的工具當然就是這部電影的海報、劇照、短片等電影摘要。這些電影摘要的設計，目的是為了讓所有使用者能對此部電影的大致內容能一目了然。尤其是電影海報，在宣傳時期可以說到隨處可見，就連是公車站牌都能看見正當宣傳期的電影海報。除此之外當然還有最動人心弦的電影預告片，可以說是一部電影最精華部分的直接呈現。從預告片中可以看到主要演員在重要場景中的演出，以及最具代表性的鏡頭（shots）。

不論是在電影海報、電影劇照或電影預告片中，都可以清楚的看到其中使用了大量的特寫鏡頭（close-up shot）。因此我們可以藉由特寫鏡頭的偵測及擷取，來自動合成電影摘要（movie summary）。我們也可將自動合成的電影摘要作為索引，用於電影資料庫內涵式查詢。如此一來使用者可在大量的電影資料中，很快的搜尋到有興趣欣賞的電影。此項技術為網際網路電影資料庫，VCD/DVD 線上租售系統，甚至行動式隨選視訊

（mobile VOD）等應用系統所必需之技術。

在本文中，我們提出一種電影摘要自動合成技術以及一種角色自動分析技術。我們

(12)

將樣板比對法應用到特寫鏡頭的偵測，利用鏡頭樣板來判別電影鏡頭是否為特寫鏡頭。

再將特寫鏡頭依照臉部膚色特徵來作叢集分析，來找到一部電影各個主要演員的戲份。

最後我們根據演員的戲份比重，由特寫鏡頭叢集中挑選代表性特寫鏡頭來合成電影摘要。

本論文的結構說明如下。在第 2 章中我們介紹視訊摘要方面的相關研究；第 3 章中我們會對 MPEG-4 作一簡單介紹；第 4 章中將介紹現行電影摘要的種類與涵義；在第 5 章中說明我們所提出的電影摘要系統的整體架構；鏡頭的種類與定義以及特寫鏡頭的偵測方法將在第 5.1 節中說明；如何利用膚色特徵將特寫鏡頭做叢集分析來進一步辨識演員戲份的技術將在第 5.2 節中說明；第 5.3 節中說明電影摘要合成方式；第 6 章說明主要的實驗結果；最後第 7 章為本文的結論。

(13)

2. 相關研究

MPEG-4 是繼 MPEG-1（VCD）與 MPEG-2（DVD）後新一代的多媒體資料壓縮標準[1][2]。由於 MPEG-4 以物件作為壓縮單位，和以往以整張影像（frame）為單位的視訊壓縮技術有所不同，十分適合進行內涵分析。MPEG-4 視訊中最重要之概念就是所謂的視訊物件平面（Video Object Plane；VOP）[1][2][3][4]。為了達到與過去視訊壓縮標準的相容性（MPEG-1、MPEG-2、H.261 以及 H.263 等），視訊物件平面仍然是以區塊導向（block-based），但也容許有任意形狀的物件，因此不但有更多的彈性，也能達到與過去標準的相容性。除此之外 MPEG4 提供對畫面上不同的物體，依頻寬傳送不同解析度的資料流（不論是空間上或是時間上）[17]，這對於像是網路傳送視訊摘要的應用非常實用。所以，未來電影資料非常可能是以 MPEG-4 格式來儲存。

在多媒體的摘要的相關研究方面，視訊摘要的應用是屬於比較成熟的部分，但是視訊摘要的做法與定義對各個專家學者之看法卻是十分分歧。以往在視訊摘要方面所曾經提出的主要的擷取方法分類如圖一所示，說明如下。

圖一、視訊摘要發展圖

以往對視訊摘要的研究中主要有兩類方法。第一類是將鏡頭中的重要物件形狀或場景取出，也就是取出關鍵框架（key frame），作為一段視訊摘要的[22][23][24][25][26]；

第二類則是將「重要的」或「有趣的」場景（scenes）取出，作為一段視訊摘要[27][28]

Video summarization

Extract Key Frame(s) Extract interesting and/or important scenes

Extract Key VOP(s) Reduce redundant scenes

(14)

[29][30][31]。兩類摘要方法說明如下。

Erol 與 Kossentini 等人提出將關鍵框架的觀念，映射到 MPEG-4 的關鍵視訊物件平面（Key VOP）[3][4]。作者提出利用 MPEG-4 以物件導向（object-based）的特性，成功地將傳統視訊中以框架導向（frame-based）裡的關鍵框架觀念映射為關鍵視訊物件平面。文中提出使用形狀相似度比對方法來取出關鍵視訊物件平面，因為只需求得形狀資料的資訊，所以能有效的減少資料處理時間。但是由於電影中的角色眾多而且電影中的劇情複雜，因此單以關鍵框架或關鍵視訊物件平面並不足以呈現電影摘要。另外亦有學者提出，以減少重複性的場景來替代擷取重要的或有趣的場景[8][9]，該文提出以減少多餘的（redundant）鏡頭，替代一般使用擷取「重要性」鏡頭的方法。雖然可以有效的減少摘要的重複性，但對於電影來說重複性的鏡頭本就不多，就無法應用此方法，因此電影摘要的製作是應以如何讓觀眾一目了然為主要目標，這才是最重要的。

而在[5]的論文中，則是提出使用人類心理學作為視訊內容的基礎，改變了以往使用框架（frame）架構的方式，將視訊摘要融入心理結構的成分。

目前對於多媒體資料做摘要的研究課題大部分還是以視訊資料為主，而對於電影資料做摘要（movie summarization）的相關研究相當地少。在[34]一文中提出一種以形狀為基礎的電影摘要方式。提出以「米字形」物件形狀特徵值來偵測並擷取特寫鏡頭，

然後將特寫鏡頭合成電影摘要。但是特寫鏡頭有很多都是在兩人對話時出現，此時的特寫鏡頭會讓人物物件靠左或靠右，如此便會影響特寫鏡頭偵測的準確度。在本文中，我們提出另一種以樣板為基礎的電影摘要自動合成技術以及一種角色自動分析技術。我們利用特寫鏡頭樣板（close-up templates）來比對電影鏡頭是否為特寫鏡頭。再將特寫鏡頭依照膚色特徵來作叢集分析，進而找出一部電影中各個主要演員的戲份，然後進一步將特寫鏡頭合成電影摘要。

(15)

3. MPEG-4 簡介

娛樂性與多樣性是多媒體的特性，這也使的它成為電腦應用不可或缺的角色，其中更以 MPEG-1 （VCD）、MPEG-2（DVD）之應用深入生活之中，成功的帶動整個多媒體市場之成長。但在這個網際網路日益盛行的市場中，以 MPEG-1 、MPEG-2 的多媒體標準，目前雖然應用廣泛，但隨著無線通訊與網際網路多媒體的日益成熟，如何在這些新應用環境下傳輸多媒體資料成為一項挑戰。MPEG-4 標準因應而生，繼 MPEG-1 及 MPEG-2 後，MPEG 組織於 1998 年十月提出 MPEG-4，並且在 1999 年年初成為正式的標準[1][2]。

MPEG-4 標準的制定主要是根據下列三大方向：

第一、具有特性要素和構成要素。特性要素裡有跟影音物件（Audio Visual Object）不同的特性要素，構成要素裡也有影音場景（Audio Visual Scene）

這個構成要素。

第二、具有場景敘述。場景敘述中所記載的是影音物件之間或場景之間的時間關係、空間關係、動作、個別變更及動態化等。

第三、 則是不受位元率的影響，對這些數據進行壓縮及編碼。

MPEG-4 的適用範圍主要有下列三大領域：

z 數位電視（Digital television）

z 互動式圖形應用程式（Interactive graphics applications）

z 互動式多媒體（Interactive multimedia）

MPEG-4 所提供的就是上述領域的數據傳送、傳遞、存取等的標準制定技術。

MPEG-4 規格 ISO/IEC 14496 的標題是「影音物件編碼（Coding of audio-visual object）」，而它主要由下列六個部分所組成：

第一、系統（System）：包含物件描述架構（Object Description Framework）、

場景描述（Scene Description）、資料同步（Synchronization of Elementary Streams）與系統解碼模組（System Decode Model）。

(16)

第二、影像（Visual）：包含視訊壓縮（Video）、靜態影像壓縮（Still Texture）、

人臉模型合成技術（Face Animation）、圖學影像合成技術（Mesh）。

第三、音訊（Audio）：包含低頻寬語音壓縮的 CELP 和 HVXC、一般音訊壓縮技術（General Audio）、合成音訊壓縮（Structure Audio）、文字語音對應（Text to Speech Interface）。

第四、合適性測試（Conformance Testing）：為 bitstream 及編碼裝置訂定相容狀況，可用來測試各個廠商與單位之 MPEG-4 時作系統的合適姓。

第五、參考軟體（Reference Software）：提供 MPEG-4 絕大部分相關參考實作軟體，在 ISO 保留原始參考軟體原始碼的著作權的條件下，各個廠商與單位可據此為發展的相容性實作軟體。

第六、 DMIF （ Delivery Mutlimedia Integration Framework ）包含 DMIF Application Interface、DMIF Network Interface、FlexMux。

3.1 MPEG-4 視訊技術

構成 MPEG-4 音訊影像場景的媒體物件中最基本的部分如下：

z 固定背景之靜止圖像（Still images）。

z 無背景而正在開口說話人物之類的視訊物件（Video objects）。

z 該正在說話人物的聲音之類的音訊物件（Audio objects）。

除了上述這類媒體物件和如圖二（MPEG-4 場景範例）中的物件之外，還定義了下面物件的編碼表現。

許多現有的技術都包含在 MPEG-4 影像技術之中。在頻寬受限的無線傳輸設備上可以使用新的低頻寬傳輸技術，例如無線影像電話。也許亦可以使用於低頻寬的監視系統上。在高頻寬的環境之下，可以傳輸具有高品質的影像，可以滿足不同的需求。最後可能在於較低的頻寬下達到 MPEG-2 的影像品質。最主要的應用是在於互動式網路影像。這部分應用已經被證實是可行的。二元和灰階形狀編碼工具可以隨心所欲的合成所

(17)

需要的影像，如此一來，以網路為基礎的展示或廣告便能夠具有豐富的互動影像。接著便可以借用一些衡量工具來瞭解使用者的使用習慣，讓使用者可以更順暢的瀏覽網頁。

圖二、MPEG-4 場景範例（資料引自[2]）

在掌上型攝影機目前已經被有使用 MPEG-4 編碼技術。因為儲存的影片可以很輕易地轉存到網路應用上，因此使用這種 MPEG-4 技術的機器也越來越普遍，也有使用 MPEG-4 編碼技術來儲存靜態畫面。另外一個應用領域是在電玩的市場上，在多人線上 3D 遊戲中可以加上實際影像。

(18)

3.2 MPEG-4 影像編碼基本原理

圖三、MPEG-4 基本的編碼結構。MPEG-4 導入外形編碼和動態補償（資料引自[2]）

圖三為 MPEG-4 基本的編碼結構導入外形編碼和動態補償，其中主要以任意視訊物件形狀編碼（Shape Coding）、位移補償（Motion Compensation）以及離散餘弦轉換畫質編碼（ DCT-based texture coding ）為主。 MPEG-4 所使用的內容導向編碼

（content-based coding）方式具有一項重要的優點，就是在某些場景之下使用正確的動態預測工具，可以大幅度的提高壓縮效率。MPEG-4 使用了許多動態預測技術來增進壓縮效率及提高物件重現之彈性，而且還能針對每一個物件利用專用工具來提高壓縮效率。例如：

z 標準之 8x8 或 16x16 像素的區塊導向（Block-based）位移預測及補償。

z 以靜態畫面為基礎之全域動態補償。可能是由一張靜態的畫面配上動態的背景。在一連串的畫面中只定義了八個變數，用來描述鏡頭的移動，而藉此重現整個畫面。

圖四為 MPEG-4 視訊圖面編碼範例，此範例展現了 MPEG-4 影像使用靜態全景畫面的概念。這裡假設網球選手可以從背景獨立出來，而背景可以事先取出進行編碼。所

(19)

以背景只需在一開始時傳送一次，當鏡頭轉換時，只要改變某些參數便可以顯現正確的畫面。接著接收器便可以將動態之前景畫面和背景畫面組合起來成為所需的畫面。

圖四、MPEG-4 視訊圖面編碼範例（資料引自[2]）

(20)

4. 電影摘要的涵義與種類

一部電影在要上映之前的第一步就是為這部電影作宣傳，而最直覺宣傳的工具當然就是這部電影的電影摘要。目前電影摘要主要有電影海報（posters）、劇照（stage photos）、電影預告片（previews）、劇情簡介（synopsises）以及電影寫真集[38]等，其中以電影海報與電影預告片為電影宣傳的主打。而隨著網際網路的普及，電影網頁也成為電影宣傳的一部分，幾乎每一部電影推出後，都會建置其自己的官方網頁，以上各種電影摘要之涵意，進一步說明如下。

4.1 電影海報及劇照

電影的宣傳方式大致分為靜態與動態兩大類，其中以電影海報為靜態宣傳的主要代表。電影海報包含了電影名稱、主要角色、演員姓名以及導演姓名等等，所以透過電影海報，使用者可以瞭解到一部電影中的主要角色，以及導演與演員群。電影的海報分類如圖四所示，圖五（a）為特寫版面海報，內容為將一部電影中的一個主要角色，以特寫方式搭配電影場景作為海報；圖五（b）為演員群版面海報，擷取電影中重要角色的鏡頭畫面，利用合成技術合成電影海報，這類電影海報是最常見的一類，

而使用的鏡頭又以特寫鏡頭占絕大多數；圖五（c）為摘要版面海報，從電影的劇照中挑選具帶表性的精采劇照，結合成為電影海報；圖五（d）為綜合版面海報，它讓設計者可以自由排版，自由度相當高，沒有侷限應用的鏡頭種類，包含電影場景也可成為海報主題。

電影海報的製作大多會依照主要演員的戲份作排版，其中主打的類型為特寫版面海報與演員群版面海報，當電影中只有一個主要角色時，電影海報大多會使用特寫版面海報；當主要角色有二個以上則大多會使用演員群版面海報。

(21)

a.特寫版面海報 b.演員群版面海報

c.摘要版面海報

(22)

d.綜合版面海報圖五、電影海報種類

4.2 電影預告片

電影動態宣傳方式中的最主要方式為電影預告片。它是將電影中最具代表性，

也最吸引人的電影鏡頭擷取出來，然後合成一段電影短片。圖六為「魔鬼終結者三」

的電影預告片撥放畫面，資料取自 ESTV 聯播網（http://estv.com.tw）。

圖六、「魔鬼終結者三」預告片畫面

(23)

4.3 劇情簡介

劇情簡介是以第三者的身分，對一部電影做文字的簡介與劇情說明。國家電影資料庫（http://www.ctfa.org.tw/）目前的電影摘要就是以劇情簡介為主。圖七為電影劇情簡介的一個簡單範例，資料取自 2003 台北金馬影展（http://www.goldenhorse.org.tw/）

圖七、電影劇情簡介

4.4 電影寫真集

電影寫真集裡有許多精采劇照都是使用特寫鏡頭。除此之外電影寫真集亦包含電影幕前幕後花絮[38]，其中包括電影的劇本、電影裡的服裝設計介紹、排演過程等等，

配合著電影的上映，進一步的促進該部電影的推廣。

4.5 電影網頁

近年來因為網際網路的應用普及，所以藉由網際網路上的網頁來當做宣傳手法也愈

(24)

見普遍。目前幾乎每一部新電影一推出，該電影的官方網頁也就會跟著出現。電影網頁其實是將上述的電影摘要放到網頁上，在網頁上秀出電影劇情簡介、電影海報、電影劇照以及電影預告片等，讓使用者下載或直接瀏覽。使用者便能藉由網際網路上的電影摘要得到該部電影的相關資訊。圖八為魔戒三部曲的官方中文網頁，資料取自魔戒中文官方網站（http://www.ha-movie.com/official/lotr3rotk/）。

圖八、魔戒三部曲的官方中文網頁圖

(25)

5. 自動化電影摘要系統之整體架構

本文所提出之電影摘要系統整體架構如圖九所示。我們假設要建立電影摘要的電影為 MPEG-4 格式，因為其中的物件已經標明，若為其他格式的電影資料，則須經過物件辨識的程序取出電影中的物件。經由鏡頭偵測模組（shot change detection）[11][35]，

以鏡頭為單位對一部電影進行切割。再將電影鏡頭做鏡頭前製處理（pre-processing），

取出關鍵視訊物件平面後[3][4]，對視訊物件平面做特寫鏡頭偵測（close-up shot detection）。自動判斷出特寫鏡頭之後，將特寫鏡頭輸出到鏡頭叢集分析器（shot cluster

圖九、電影摘要系統架構圖

analysis）做鏡頭叢集分析，進而判定演員的戲份。最後將鏡頭叢集輸出到電影摘要合成模組（movie summary synthesis）中，在電影摘要合成模組中，我們可以從演員的戲份決定各個演員的重要性，依照重要性調整其在合成電影摘要時所佔之比重。

Shot Change Detection

Shot Pre-Processing

Close-Up Shot Detection

Shot Cluster Analysis

Movie Summary Synthesis

Stage Photo Previews Posters MPEG-4 Movies

MPEG-4 Shots

Key VOP

Close-UP Shots

Clusters of Close-UP Shots

(26)

5.1 特寫鏡頭辨識

在這一節中，我們將介紹電影鏡頭的種類，以及如何使用鏡頭樣板來偵測特寫鏡頭。

5.1.1 鏡頭的種類

鏡頭意指攝影師，以單一的運作方式，透過攝影機將影像紀錄的映像範圍[32]。因此，它可以被界定為距離的運用，我們可以從表一的電影鏡頭分類[32][33][37]得知一般電影鏡頭大致分為特寫鏡頭（close-up）、近景鏡頭（close shot）、中景鏡頭（medium shot）、全景鏡頭（full shot）、大特寫鏡頭（extreme close-up）等類型。各類鏡頭的範例如圖十所示，資料取自於電影「哈利波特 2-消失的密室」。

表一、電影鏡頭分類表[32][33][37]

英文中文解釋

Close-up 特寫

經由近距離所拍攝的人或物的放大或細節描繪的鏡頭，如拍攝對象是人，則指肩部以上的拍攝範圍。

Close shot 近景

介於中景與特寫之間的鏡頭，如被攝體為人，指頭頂至胸腹的範圍。

Medium shot 中景

在視界與視覺角度方面介於特寫鏡頭與遠景鏡頭之間的一種鏡頭。以中景鏡頭來表示一個人時，最典型的視覺範圍是從

該人的膝蓋以上來拍攝。

Full shot 全景

被攝體佔滿整個螢幕的鏡頭。若被攝體是一個人，則他或她的身體會全部容納在鏡頭中。

Extreme close-up

大特寫

只一種構圖非常緊的特寫鏡頭，能將一件微小的物體，或物體和人物的某部分誇張放大，譬如一張人臉的鏡頭，只顯出

眼睛、鼻子或嘴唇部分。

(27)

a.特寫鏡頭

b.近景鏡頭 c.中景鏡頭

d.全景鏡頭 e.大特寫鏡頭圖十、各類鏡頭實例

不論是電影海報、劇照或是電影預告片，特寫鏡頭都是其主要內容來源。所以本文以特寫鏡頭作為電影摘要的內容，提出使用鏡頭樣板自動偵測並擷取特寫鏡頭的技術，

再利用特寫鏡頭進一步合成視訊摘要。

(28)

5.1.2 使用鏡頭樣板偵測特寫鏡頭

樣板比對法（template matching）就是將待辨識圖樣與樣板（template）間以某種相似性量測（similarity measure）來決定相似程度。在幾何學的觀點上來說，相似度可以視為兩個圖樣在特徵空間（feature space）中的距離，常使用的量測距離有：歐基里德距離（Euclidean distance）、餘弦距離（cosine distance）、漢明距離（Hamming distance）

等。樣板比對法對大的優點就是辨識速度快速，而其缺點為只能辨識特定圖樣，缺乏適應性。但由於特寫鏡頭在電影理論中有非常明確的定義與規範，因此我們認為經由統計已知特寫鏡頭所合成的特寫鏡頭樣板，應可用於識別出未知的特寫鏡頭。

我們所提出之特寫鏡頭樣板比對法原理說明如下：由表一中我們可以發現鏡頭的種類，是與視訊物件在鏡頭中出現的大小跟位置相關。因此我們便可以利用視訊物件在鏡頭裡的大小、形狀與位置來判斷是否為特寫鏡頭。我們預先製作一個特寫鏡頭的樣板，

由於在特寫鏡頭樣板中視訊物件的位置與大小是已知條件，因此便能利用鏡頭樣板與未知的鏡頭作比對。比對方法是將未知鏡頭與特寫鏡頭樣板重疊，再計算出未知鏡頭中的視訊物件與特寫鏡頭樣版中的視訊物件的大小與位置相似度。藉由未知鏡頭中視訊物件的大小及位置與特寫鏡頭樣板的重疊程度便能判斷未知鏡頭是否為特寫鏡頭。圖十一

圖十一、特寫鏡頭偵測流程圖

為特寫鏡頭偵測流程圖，一部電影物件先經過鏡頭偵測模組，分成鏡頭集合後再輸入到 Shot Change

Detection

Close-Up Shot Identification

Close-Up Shots Non-Close-Up

Shots Movie

Object

Set of Shots

(29)

特寫鏡頭辨識模組，最後再細分為特寫鏡頭與非特寫鏡頭。

在進行特寫鏡頭判斷之前，我們必須先製作特寫鏡頭樣板，製作方法說明如下：如圖十二所示，我們從不同類型的商業電影中，以人工方式挑選出 256 個特寫鏡頭之後，

我們啟始一個空白的樣板，然後將每個鏡頭重疊到樣板上，當樣板中每個像素發生視訊物件重疊時，則將該像素加黑（灰階值愈來愈趨近於 0），如此便能製作出初始鏡頭樣板。在初始鏡頭樣板中，像素的灰階值愈接近於 0 時，則表示該像素的位置出現特寫鏡頭中視訊物件的機率越高，反之則否。

圖十二、初始鏡頭樣板合成圖

(30)

圖十三、初始鏡頭樣板極色化（posterize）

由於我們在將特寫鏡頭與鏡頭樣板比對時，必須先定義出鏡頭樣板的得分區域，

所以我們將初始鏡頭樣板做極色化（posterize）的處理，如圖十三所示，極色化後會將樣板區分為三個區域，這三個區域代表當視訊物件出現在該區域時是否為特寫鏡頭的可能性，極色化公式如下，其中 p 為該位置的原始灰階值，p＇為極色化處理後該像素之灰階值：

⎪⎩

⎪⎨

⎧

≤

=

≤

=

≤

=

255 p for171 255,

p'

170 p 86 for , 128 p'

85 p 0 for , 0 p'

（1）

我們所提出之特寫鏡頭偵測方法流程說明如下：

1. 首先我們以人工方式挑選出各 256 x 3 = 768 個鏡頭，分別有 256 個視訊物件置中的特寫鏡頭、256 個視訊物件偏右的特寫鏡頭以及 256 個視訊物件偏左的特寫鏡頭。利用 768 個特寫鏡頭合成三種初始鏡頭樣板，如圖十四所示。

2. 將初始鏡頭樣板做極色化（posterize）的處理，使得極色化的樣板分成三個區域，

分別為全黑區域（灰階值為 0）、全白區域（灰階值為 255）以及中間地帶（灰階值為 128），如圖十五所示。

3. 對三個區域分別設定權重，也就是當物件落到該區域時的得分。經由實驗結果，

發現將全黑區域得分設為 2 ，中間地帶得分設為 1，全白區域得分設為 -6 ，可以得到較佳實驗結果。

4. 我們將以鏡頭為單位的視訊物件平面分別與我們的三個樣板做位置比對，然後再將所得分數 S 代入正規化公式得到正規化特寫率 R，代表此鏡頭為特寫鏡頭之可

(31)

能性高低。其中k^l、k^m與k^r 為系統參數，代表該樣本在左樣板、中樣板與右樣板的最高得分分數，正規化特寫率 R 計算公式如下：

左樣板：

⎩⎨

⎧

<

=

≥

=

0 S , 0 R

0 S , S/k

R _l

（2）

中樣板：

⎩⎨

⎧

<

=

≥

=

0 S , 0 R

0 S , k / R S _m

（3）

右樣板：

⎩⎨

⎧

<

=

≥

=

0 S , 0 R

0 S , S/k

R _r

（4）

5. 視訊物件平面分別在三個樣板得分中，我們取最高的正規值作為正規值的代表，

然後設定一個門檻值（Threshold），若是正規值大於門檻值則判定其為特寫鏡頭。

經由實驗的結果，我們發現將門檻值設為 0.85 可得到較佳的準確度（Precision）

跟回復率（Recall）。

我們舉例說明如下：圖十六為電影「鐵達尼號」中女主角蘿絲的一特寫鏡頭與三個樣板作樣板比對後的結果，在此範例中，樣板區域的權重設定為全黑區域得分設為 2 ，中間地帶得分設為 1，全白區域得分設為 -6，由於在此範例中為視訊物件靠右之特寫鏡頭，因此在左樣板與中樣板之得分皆為負分，正規化特寫率則為 0，而在右樣版中則有很高的得分，正規化特寫率為 0.96，因此系統會取較高正規化特寫率 0.96 為其正規化特寫率，並判定為視訊物件靠右之特寫鏡頭。

(32)

a.左樣板

b.中樣板

c.右樣板

圖十四、初始鏡頭樣板

(33)

a.左樣板

b.中樣板

c.右樣板圖十五、極色化樣板

(34)

圖十六、特寫鏡頭與鏡頭樣板比對範例圖

左樣板 S = -142516 R = 0

中樣板 S = -17203 R = 0

右樣板 S = 40781 R = 0.96

(35)

5.2 演員戲份分析

在這一章中我們將說明如何對偵測出來的特寫鏡頭作特寫鏡頭的叢集，以及演員的戲份統計。

5.2.1 特寫鏡頭的叢集分析

由前一章的結果中，我們可以由鏡頭樣板比對法自動找到整部電影裡的特寫鏡頭。

接下來我們希望能進一步對這些特寫鏡頭以演員為分類單位做叢集處理（假設每個鏡頭的演員身份皆為未知）。最終得到的結果是多個特寫鏡頭叢集，每個叢集可以視為同一個演員的特寫鏡頭叢集，因而我們可以預測一部電影中的角色是那些鏡頭，並可計算其戲份。

所謂的叢集分析（data clustering）就是把一群資料群組成資料叢集（clusters），而同一個叢集裡的資料樣本彼此都很相似，而叢及與叢集之間相似度則不高。根據演算法的架構不同，可以把資料叢集演算法分為兩大類，一為分割式（partitional）二是階層式（hierarchical）。

階層式叢集（hierarchical Clustering）演算法是借由建立樹狀結構（dendrogram）來達成叢集的目標[20]，圖十七顯示階層式演算法對資料叢集的過程，結果用樹狀圖中

圖十七、階層式叢集樹狀結構圖

(36)

不同的層級（level）紀錄下來，設定不同的相似度門檻值（similarity）便可產生不同的資料叢集。由於在電影中會出現幾位主要角色，並沒有一定的規則，所以要將特寫鏡頭分為幾個特寫鏡頭叢集並不知道。因此在階層式演算法中，我們可以設定不同的相似度

（similarity）來調整叢集分析後的叢集個數。所以階層式叢集演算法非常適合用於特寫鏡頭叢集。

一般來說階層式演算法又可分為聚合型（agglomerative）與分解型（divisive）兩種。

聚合型是從每個資料物件開始一步一步由下而上融合（buttom-up），最後全部融合成最後一個叢集；而分解型則正好相反由上而下（top-down）。

階層式演算法與分割式演算法比較起來，階層式演算法的優點是不用預先知道叢集的個數，而缺點是必須仰賴人為的觀察來決定叢集個數。但與其因為在分割性的演算法中輸入錯誤的叢集個數所造成的錯誤相比，階層式演算法的記錄過程，可免於一次又一次的嘗試，故本文採取階層式叢集演算法進行特寫鏡頭叢集分析。

在[18]論文中提出了一個在視訊影像的膚色識別方法。此方法首先將畫面切為 5x5 的區塊（patch），在將顏色由 RGB（red, green, blue）領域轉換為 HSV（hue, saturation, value）領域。一開始讓使用者指派一個起始的區塊，然後以色度跟飽和度為基礎並計算其直方圖（histogram）相似度，可以得到一個不錯的人臉識別結果。

我們將[18]論文中所提出膚色相似性計算方法運用在對演員的臉部做膚色叢集處理上。由於三種樣板比對法可以提供特寫鏡頭中演員臉部的大略位置的資訊，因此我們可以不用一開始讓使用者指派起始的區塊，而在每個樣板的額頭位置設定取 2x2 個起始區塊作為起始的區塊，如圖十八之 4 個方塊區域，如此便能有效的自動識別出特寫鏡頭的臉部部位。我們再以鏡頭的臉部部位的直方圖統計作為特徵值做叢集處理。每一個特寫鏡頭在初始化的狀態下會被視為是各自獨立的特寫鏡頭叢集。接著對每兩個特寫鏡頭叢集，我們嘗試將其合併為一個特寫鏡頭叢集。方法是當兩個特寫鏡頭叢集的直方圖相似度大於我們設定的門檻值時，我們則將這兩個叢集合併為一個特寫鏡頭叢集。最後我們就可以得到叢集分類的結果。

我們舉一範例說明之。假設某部電影有 12 個特寫鏡頭，初始化時將每個特寫鏡頭

(37)

設定為各個獨立的叢集，然後計算各個叢集之間的相似度，將相似度最相近的兩個叢集

（特寫鏡頭 5 與特寫鏡頭 11）合併為一個叢集，如此依續進行叢集合併，直到所有叢集間的相似度已經都大於所設定的相似度門檻值，我們就可以得到叢集分類的結果，如

圖十八、樣板額頭位置起始區塊（patch）圖

圖十九、特寫鏡頭叢集分析範例表二、角色戲份分析表

叢集特寫鏡頭個數戲份角色

Cluster1 4 33.34% 第一主角 Cluster2 3 25% 第二主角 Cluster3 2 16.67% 第三(四)主角 Cluster4 2 16.67% 第三(四)主角 Cluster5 1 8.3% 第五主角

(38)

圖十九所示。我們得到叢集結果後，便可以進一步計算出每一個叢集的特寫鏡頭個數，

再以所包含的特寫鏡頭個數作戲份統計，借由戲份的多寡就能做出角色的判斷如表二所示。

燈光對電影來說是「一個活的佈景，幾乎是一個演員」[39]。電影在拍攝過程中，

對每一個演員在不同的場景中可能會有不同的燈光效果，使得進行角色叢集分析時，會讓同一個角色的特寫鏡頭產生多個叢集。為了降低燈光對臉部膚色的叢集分析結果，所以我們提出了使用全面背景補償與採樣背景補償的方法對燈光效果所造成的偏差來做修正。全面背景補償是指對鏡頭中全部背景作計算，採樣背景補償是將鏡頭取井字外圍的八個區塊（正中十字上下左右四個區塊加上四個角落區塊）作計算。

全面背景補償（採樣背景補償）方法如下：

1. 計算一部電影中所有鏡頭全部（井字外圍的八各區塊）背景的色相（hue）與飽和度

（saturation）的算術平均數。

2. 輸入特寫鏡頭並計算個別特寫鏡頭中全部（井字外圍的八各區塊）背景的的色相與飽和度算術平均數。

3. 依公式（5）計算出個別特寫鏡頭與全部鏡頭背景的色相差值δ_h，其中α_h為全部鏡頭背景的色相的算術平均數，σ_h為個別特寫鏡頭的色相的算術平均數。

δ

_h

= α

_h ⁻

σ

_h （5）

4. 依公式（6）計算出個別特寫鏡頭與全部鏡頭背景的彩度差值δ_s，其中α_s為全部鏡頭背景的飽和度的算術平均數，σ_s為個別特寫鏡頭的彩度的算術平均數。

δ

_s

= α

_s ⁻

σ

_s （6）

5. 將特寫鏡頭的臉部部位的色相與飽和度扣除差值後，將直方圖統計作為特徵值做叢集處理。

圖二十為採樣背景補償方法的特寫鏡頭叢集分析樹狀圖，我們使用聚合型單一鏈結

（Agglomerative Single-Link ）演算法，其中樣本的個數為 80 個特寫鏡頭，樣本相似度使用歐基里德距離。圖二十一與圖二十二為當叢集個數是六個時的準確率與回復率的比

(39)

圖二十、特寫鏡頭叢集分析樹狀圖

較圖。從圖中可以看出全面背景補償的方法比沒有背景補償時準確率提高約 11.11％，

而採樣背景補償的的方法不但提高準確率，並提高了回復率。在準確率方面比沒有背景補償時準確率提高約 11.11％；在回復率方面比沒有背景補償時回復率提高約 6.67％，

比全面背景補償時提高約 13.33％。

55.56%

66.67% 66.67%

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

沒有背景補償全面背景補償採樣背景補償

Precision

圖二十一、叢集分析準確率比較圖

(40)

33.33%

26.67%

40.00%

0.00%

5.00%

10.00%

15.00%

20.00%

25.00%

30.00%

35.00%

40.00%

45.00%

50.00%

Recall

圖二十二、叢集分析回復率比較圖

5.2.2 演員戲份的統計

我們以一部電影中一個演員所出現的特寫鏡頭個數，佔電影中所有特寫鏡頭的百分比為該演員在電影中的戲份。我們舉一範例說明之。如圖二十三所示，假設某一部電影中共有九個特寫鏡頭，其中演員一佔有三個特寫鏡頭，則其戲份則為 3 除以 9，約為 33.33%。

圖二十三、戲份示意圖

(41)

我們統計每一個叢集的特寫鏡頭總數，並依照特寫鏡頭的數量由多到少排序，叢集一為最大的叢集，叢集二則次之，叢集三再次之。因為一個叢集代表一個演員，所以當叢集愈大則代表此演員的戲份愈重。如表三所示藉由戲份的統計，我們便可作角色的自動化分析，找出電影中的主要角色，並以主要角色的特寫鏡頭來製作電影摘要。

表三、戲份的統計排行表

排行特寫鏡頭叢集一特寫鏡頭叢集二特寫鏡頭叢集三哈利波特

代表鏡頭

戲份 45.7% 12% 6.8%

臥虎藏龍代表鏡頭

戲份 33.3% 26.7% 9.7%

駭客任務代表鏡頭

戲份 60% 27.5% 6.2%

鐵達尼號代表鏡頭

戲份 43.7% 13.3% 2.1%

神鬼戰士代表鏡頭

戲份 25.3% 5.7% 1.5%

(42)

5.3 製作電影摘要

5.3.1 合成電影劇照

由特寫鏡頭叢集所佔的特寫鏡頭總數可計算此演員叢集所佔的戲份，由戲份便可判定出主要演員的特寫鏡頭叢集。之後便可按戲份比重來挑選主要演員的特寫鏡頭進行電影劇照合成。圖二十四為取自電影「哈利波特 2-消失的密室」中的合成劇照。

圖二十四、「哈利波特 2-消失的密室」合成劇照

5.3.2 合成電影海報

在電影海報合成方面，我們先制定出電影海報的樣板，然後再依照演員的戲份在樣板上進行自動排列。圖二十五為我們所使用的樣板之一，樣板中的主角一為第一主角放置位置，我們從最大的特寫鏡頭叢集中挑出一個特寫鏡頭當第一主角，再從其他

(43)

次大的叢集中挑出特寫鏡頭當配角放置於主角二、主角三與主角四等位置。再挑選一張無角色出現的鏡頭當背景，如此便能合成電影海報如圖二十六所示。

圖二十五、電影海報合成用的樣板圖二十六、電影合成海報實驗

5.3.3 合成電影預告片

在電影預告片合成方面，我們將電影片名放在第一個場景，再依照戲份取出主要角色的特寫鏡頭場景，然後將取出的場景合成電影預告片，圖二十七為資料取自電影

「魔戒三部曲」的電影預告片合成範例。

圖二十七、電影預告片合成實驗

(44)

6. 實驗

在本節中，我們以實驗來驗證所提出之特寫鏡頭的辨識方法以及演員戲份分析方法的效能。

6.1 實驗資料樣本

我們的實驗樣本分為二大部分，第一部份為 MPEG-4 所提供的標準範例為實驗樣本，第二部分則是取自一般商業電影中的各類電影為實驗樣本，其鏡頭數與特寫鏡頭數統計如表四所示。

表四、鏡頭總數統計表

樣本類別鏡頭總數特寫鏡頭數

MPEG-4 14 2

武俠動作片 1565 170

動畫特效片 2249 405

文藝愛情片 2378 411

戰爭格鬥片 2478 356

在特寫鏡頭樣本的判斷方面，我們請三位電影視訊專家，根據電影的鏡頭定義 [31][32][36]，以人工逐一檢查的方式，來判定樣本是否為特寫鏡頭。圖二十八為特寫鏡頭在各類商業電影中所佔之比重，平均一百個鏡頭樣本中，大約有十五到十六個是特寫鏡頭樣本。

我們採用精確率（Precision Rate）和回復率（Recall Rate）來衡量實驗結果的好壞。特寫鏡頭辨識之精確率與回復率計算公式定義如下：

頭總個數系統所辨識出的特寫鏡

鏡頭個數系統辨識出的真正特寫

Rate

Precision = （7）

頭總個數人工所辨識出的特寫鏡

鏡頭個數系統辨識出的真正特寫

Rate

Recall =

^（8）

(45)

10.86% 18.01% 17.28% 14.37%

0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

武俠動作片動畫特效片文藝愛情片戰爭格鬥片電影類型

特寫鏡頭百分比

圖二十八、特寫鏡頭比重圖

圖二十九為一個近景鏡頭。由於鏡頭中只包含一個視訊物件，且因為近景鏡頭的物件大小與樣板加分區相近，所以當視訊物件位置剛好落在在加分區時，可能會將鏡頭誤判為特寫鏡頭，不過我們可以經由加分區域的加分調整，將其誤判率降低。

圖二十九、誤判樣本範例

6.2 特寫鏡頭辨識實驗結果分析

我們對各個不同的電影類型，計算其特寫鏡頭辨識的準確率以及回復率，實驗步驟如下列敘述：

步驟一、對電影物件作鏡頭偵測，將一部電影物件分割成鏡頭的集合。

(46)

步驟二、人工挑選出特寫鏡頭樣並統計特寫鏡頭總個數。

步驟三、使用特寫鏡頭辨識法自動判斷是否為特寫鏡頭，並取出判斷為特寫之鏡頭。

步驟四、利用公式（7）算出準確率以及公式（8）算出回復率。

在門檻值設定方面，由圖三十可以看出在 0.75 到 0.85 之間可以得到不錯的回復率與準確率，因此實驗中我們將門檻值設為 0.85，圖三十一為準確率之比較圖，圖三十二為回復率之比較圖，從實驗中我們計算出在一般商業電影中的平均準確率為 82.35，而平均回復率為 79.225。

Threshold 0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

0.05 0.15

0.25 0.35

0.45 0.55

0.65 0.75 0.85 0.95

Precision Recall

圖三十、特寫鏡頭偵測門檻值設定比較圖

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

MPEG-4 武俠動作片文藝愛情片戰爭格鬥片動畫特效片

Precision

圖三十一、特寫鏡頭偵測準確率之比較圖

(47)

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

MPEG-4 武俠動作片文藝愛情片戰爭格鬥片動畫特效片

Recall

圖三十二、特寫鏡頭偵測回復率之比較圖

（a）武俠動作片（b）動畫特效片

（c）文藝愛情片（d）戰爭格鬥片圖三十三、左樣板判斷正確之特寫鏡頭

(48)

（c）文藝愛情片（d）戰爭格鬥片圖三十四、中樣板判斷正確之特寫鏡頭

(49)

（c）文藝愛情片（d）戰爭格鬥片圖三十五、右樣板判斷正確之特寫鏡頭

6.3 演員戲份實驗結果分析

我們將從各個不同的電影類型中擷取出的特寫鏡頭，並藉由特寫鏡頭的叢集分析來進行演員辨識及戲份分析。由於在一部電影中並不是只有主角才會有特寫鏡頭出現，因此一部電影中的特寫鏡頭應該分為幾個特寫鏡頭叢集，亦即幾個演員角色，是一個值得深入探討的方向。我們假設一部電影中出現特寫鏡頭的角色個數可能的範圍是 2 到 7 個，並計算其各個情況中的準確率以及回復率，實驗步驟如下列敘述：

步驟一、對電影物件作鏡頭偵測，將一個電影物件分割成鏡頭的集合。

步驟二、使用特寫鏡頭樣本判斷是否為特寫鏡頭，並取出判斷為特寫之鏡頭。

步驟三、使用階層式叢集（hierarchical clustering）演算法對特寫鏡頭樣本作叢集分析。

步驟四、利用公式（7）算出準確率以及公式（8）算出回復率。

(50)

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

2 3 4 5 6 7

叢集個數

Precision

圖三十六、準確率比較圖

0.00%

5.00%

10.00%

15.00%

20.00%

25.00%

30.00%

35.00%

40.00%

45.00%

50.00%

2 3 4 5 6 7

叢集個數

Recall

圖三十七、回復率比較圖

(51)

7. 結論及未來的工作

本文提出一種以樣板比對為基礎的特寫鏡頭偵測方法，能夠有效的偵測到特寫鏡頭，並將其做叢集處理來進行主角的戲份比重計算，並進一步自動合成電影摘要。希望能藉由電影摘要的自動合成，能夠讓使用者快速瞭解到一部電影的內涵，充分發揮電影資料庫的典藏功能。

我們未來的首要工作為提昇鏡頭叢集技術的準確率，並進行大規模實驗。經由提昇叢集技術我們希望除了可以識別演員戲份外，更能進一步判別男演員與女演員，如此便能識別出男主角與女主角，使得電影摘要的合成能更適合電影真正內涵。若能進行大規模實驗，就能藉由實驗的結果修正我們的參數設定，進一步增加我們的準確率與回復率，相對的電影自動化摘要的效果和可靠性也會相對地提高。

在電影預告片的合成方面，為了能讓預告片更加的生動活潑，除了擷取特寫鏡頭的場景之外，未來希望能加入電影音效的輔助，例如穿插包含重低音的場景或是擁有環繞音效的場景。我們將對不同的電影類型（文藝、動作、科幻、恐怖、喜劇）個別處理，

找出各類型中適合的摘要類型。例如文藝片可需要主要角色的特寫鏡頭場景與含背景音樂場景搭配；而動作或科幻片則是需要主要角色的特寫鏡頭場景與包含重低音的場景或是擁有環繞音效的場景作搭配。如此一來電影自動化摘要系統就能更符合使用者的需求，電影自動化摘要系統將更具實用價值性。

多媒體內容描述介面（MPEG-7）包含了描述工具與描述定義語言（DDL）。因此我們希望未來能使用描述定義語言來制定 MPEG-4 電影摘要特徵綱要，並且遵循 MPEG-7 電影摘要特徵綱要所定義的結構來描述電影的內涵。

(52)

參考文獻

[1] ISO/IEC 14496-2:1998, “Information Technology-Generic Coding of Audio-Visual Objects.”

[2] ISO/IEC JTC1/SC29/WG11:2002, “Coding of Moving Pictures and Audio.”

[3] Berna Erol and Faouzi Kossentini, “Automatic Key Video Object Plane Selection Using the Shape Information in the MPEG-4 Compressed,” IEEE Trans. on Circuits and Systems for Video Technology, Vol.

2, No.2, pp. 129-138, 2000.

[4] Berna Erol and Faouzi Kossentini, “Video Object Summarization in The MPEG-4 Compressed Domain,”

in International Conference on Acoustics, Speech, and Signal Processing, pp. 2027-2030, 2000

[5] Tsuyoshi Moriyama and Masao Sakauchi, “Video Summarization Based on the Psychological Content in the Track Structure,” In Processing of ACM Multimedia Workshop, pp. 191-194, 2000.

[6] Microsoft, JTC1/SC29/WG11:2000, “MPEG-4 Video Encoder/Decoder..”

[7] Candemir Toklu, Shih-Ping Liou, and Madirakshi Das, “Video Abstract: A Hybrid Approach to Generate Semantically Meaningful Video Summaries,” In Processing of IEEE International Conference on Multimedia and Expo, Vol. 3, pp. 1333-1336, 2000.

[8] Yihong Gong and Xin Liu, “Generating Optimal Video Summaries,” In Processing of IEEE International Conference on Multimedia and Expo Vol. 3, pp. 1559-1562, 2000.

[9] Yihong Gong and Xin Liu, “Video Summarization with Minimal Visual Content Redundancies,” In Processing of IEEE International Conference on Multimedia and Expo, Vol. 3, pp.

362-365, 2001.

[10] Nuno Vasconcelos and Andrew Lippman, “Bayesian Modeling of Video Editing and Structure: Semantic Features for Video Summarization and Browsing,” In Processing of IEEE International Conference on Image Processing, Vol. 3, pp. 153-157, 1998.

[11] S. W. Smoliar and H. Zhang, “Content-based video indexing and retrieval,” IEEE Multimedia Magazine, pp. 62–72, 1994.

[12] Weiping Li, “Overview of Fine Granularity Scalability in MPEG-4 Video Standard,”

(53)

IEEE Transactions on Circuits and Systems for Video Technology, Vol. 11, No. 3, pp.

301-317, 2001.

[13] N. Brady, F. Bossen, N. Murphy, “Context-Based Arithmetic Encoding of 2D Shape Sequences,” in IEEE International Conference on Image Processing, pp. 29-32 1997.

[14] A. Katsaggelos, et al. “MPEG-4 and rate-distortion based shape coding techniques,”

Proceedings of the IEEE, pp. 1126-1154, 1998.

[15] J. Ostermann, “Coding of arbitrarily shaped video objects with binary and greyscale alpha maps: What can MPEG-4 do for you?” in Processing of IEEE International Symposium on Circuits and Systems. Vol. 5, pp. 273-276 1998.

[16] K. Changick and H. Jenq-Neng, “An Integrated Scheme for Object-Based Video Abstraction.” in Processing of ACM Multimedia Conf., pp. 303-311, 2000.

[17] Mei-Juan Chen, Yuan-Pin Hsieh, and Yu-Pin Wang, “Multi-Resolution Shape Coding Algorithm For MPEG-4,” IEEE Transactions on Consumer Electronics, Vol. 46, No. 3, 2000.

[18] David Saxe and Richard Foulds, “Toward Robust Skin Identification in Video Images,”

in Proceedings of the Second International Conference on Automatic Face and Gesture Recognition, pp. 379-384, 1996

[19] S. Ahmad, “A usable real-time 3d hand tracker,” in Processing of Conference Record of the Twenty-Eighth Asilomar Conference on Signals, Systems and Computers , pp.

1257-1261, 1994

[20] A. K. Jain, M. N. Murty, and P. J. Flynn, “Data clustering: a review,” ACM Computing Surveys , Vol. 31, NO. 3, 1999.

[21] JungHwan Oh and Hua K.A, ” An Efficient Technique for Summarizing Videos Using Visual Contents,” in Processing of IEEE International Conference on Multimedia and Expo, Vol. 2, pp.

1167-1170, 2000.

[22] Minerva M. Yeung and Boon-Lock Yeo, “Video visualization for compact presentation

(54)

and fast browsing of pictorial content,” IEEE Transactions on Circuits and Systems for Video Technology, Vol. 7, No. 5, October 1997

[23] D. DeMenthon,V. Kobla, and D. Doermann, “Video summarization by curve simplification,” In Proc. of ACM Int'l Conf. on Multimedia, pp. 211-218, Auguest 1998 [24] S.Uchihash, J. Foote, A. Girgensohn, and J. Boreczky. “Video manga: Generating

semantically meaningful video summaries,” In Proc. of ACM Int'l Conf. on Multimedia, pp. 383-392, Oct. 1999

[25] S.Uchihash and J. Foote, “Summarizing video using a shot importance measure and frame-packing algorithm,” In Proc. of ICASSP '99, Vol.6, pp.3041-3344, 1999

[26] Q. Hunag, Z. Lui, and A. Rosenberg, “Automated semantic structure reconstruction and representation generation for broadcast news,” In Proc. SPIE Conference on Storage and Retrieval for Image and Video database VII, Vol. 3656, pp. 50-62, 1999.

[27] M. Christel, et al. “Informedia digital video library,” Communication of the ACM Vol.

38 No. 4 pp. 57-58 1995.

[28] M. Smith and T. Kabade, “Video skimming and characterization through the combination of image and language understanding techniques,” In Proc. of Computer Vision and Pattern Recognition, pp. 775-781, 1997.

[29] M. Christel, et al. “Evolving video skims into useful multimedia abstractions,” In Proc.

of Human Factors in Computing System, CHI 98, pp. 171-178, 1998.

[30] R. Lienhart, “Abstracting home video automatically,” In Proc. ACM Multimedia 99

（Part2）, pp.37-40, 1999.

[31] Rainer Lienhart, Silvia Pfeiffer, and Wolfgang Effelsberg, “Video Abstracting,”

Communications of the ACM, Vol. 40, No. 12, pp. 55-62, 1997.

[32] Konigsberg, I, The Complete Film Dictionary,2 ed., Penguin Reference, 1997.

[33] Katz, E., The Film Encyclopedia, 4 ed., Harper Collins, 2001.

(55)

第一屆數位典藏技術研討會, 2002.

[35] 劉志俊、傅佳源、王志浩、喻仲平, “一種利用物件形狀來進行 MPEG-4 鏡頭變化偵測之技術,” 第一屆數位典藏技術研討會, 2002.

[36] 范世鎮、劉志俊, “利用特寫鏡頭偵測與主角辨識技術來自動建立電影摘要,” 第二屆數位典藏技術研討會, 2003.

[37] “電影辭典” 國家電影資料館 1997 [38] “臥虎藏龍寫真集” 東販出版社.2000.

[39] “ 電影美學”遠流出版社1990

[40] 范世鎮、劉志俊, “MPEG-4 電影資料之內涵式摘要擷取與角色分析,” 數位生活與網際網路科技研討會, 2004.

中 華 大 學

中 華 大 學 碩 士 論 文

題目：MPEG-4 電影資料之內涵式摘要擷取 與角色分析

系 所 別：資訊工程學系碩士班 學號姓名：M09102004 范世鎮 指導教授：劉志俊 助理教授

中華民國九十三年六月

摘要

致謝

內文目錄

圖表目錄

1. 序論

2. 相關研究

3. MPEG-4 簡介

3.1 MPEG-4 視訊技術

3.2 MPEG-4 影像編碼基本原理

4. 電影摘要的涵義與種類

4.1 電影海報及劇照

4.2 電影預告片

4.3 劇情簡介

4.4 電影寫真集

4.5 電影網頁

5. 自動化電影摘要系統之整體架構

5.1 特寫鏡頭辨識

5.1.1 鏡頭的種類

5.1.2 使用鏡頭樣板偵測特寫鏡頭

5.2 演員戲份分析

5.2.1 特寫鏡頭的叢集分析

δ

= α

σ

δ

= α

σ

5.2.2 演員戲份的統計

5.3 製作電影摘要

5.3.1 合成電影劇照

5.3.2 合成電影海報

5.3.3 合成電影預告片

6. 實驗

6.1 實驗資料樣本

6.2 特寫鏡頭辨識實驗結果分析

6.3 演員戲份實驗結果分析

7. 結論及未來的工作

參考文獻

中華大學

中華大學碩士論文

題目：MPEG-4 電影資料之內涵式摘要擷取與角色分析

系所別：資訊工程學系碩士班學號姓名：M09102004 范世鎮指導教授：劉志俊助理教授