略遊戲。使用者可以使用滑鼠或鍵盤，移動自己的

Cube 或攻擊對手的 Cube。此遊戲展現出 MPEG-4 多人應用的即時性與同步性。

27

拍攝電視廣告的公司都會把拍攝完成的廣告儲存在數位錄影帶(digital beta cam) 之中，但是這些錄影帶通常並沒有以良好的格式來規劃，而是一捲捲的收在片庫裡，等要用的時候才找出來。在此，我們藉由分析影片中某些特定的順序，來切割出一則一則的廣告。

經過觀察，影片中每一則廣告裡會出現的鏡頭大致如下圖所示: 首先是會只顯示色條的鏡頭(color bar shot)，緊接著會有一個鏡頭顯示這則廣告的標題，長度，版本之類的資訊(字幕鏡頭，caption shot)，再來會是倒數，接著是一個大約一秒鐘的全黑的鏡頭(black shot)，之後是這一則廣告的影片，最後會再接一個黑的鏡頭。本研究即利用這個規則將大致符合的廣告切割出來。圖 14 即為電視廣告素材的格式範例之一。

圖 14 電視廣告素材的格式範例

Linux作業系統是近年來在各個領域相當熱門的主題，它對軟體開發提供非常高的自由度，開發工具的健全及作業系統的高效能與穩定度，使它不論在即時系統應用、

多媒體開發平台、嵌入式平台至手持式行動裝置等都成為一個深具潛力的明日之星。

因此，結合Linux的平台優勢，本實驗開發之 Linux MPEG-4 互動式場景播放器在可預見的將來，可提供廣泛且強力的多媒體內容呈現，亦為邁入 Multimedia Everywhere的第一步。

本實驗室所開發之 Linux MPEG-4 互動式場景播放器具有以下特點：

1．支援 ISO 媒體檔案格式 (MP4)

可以播放符合 MPEG-4 標準的多媒體檔案、串流內容服務，意即符合 MPEG-4 BIFS 標準的多媒體場景。本實驗室已開發有 MPEG-4 Scene Editor 致力於產生 MPEG-4 的互動式場景，其產生之檔案即為 MP4 格式。透過此 MPEG-4 播放器，將可在 Linux 相容平台上播放豐富互動的多媒體內容。

2．實作 MPEG-4 BIFS 及 Scene Graph

BIFS 是 MPEG-4 用來描述場景中影音物件如何組織構成整個場景，它階層式地將物件編碼成二進位的共通格式並支援百餘種不同的物件。本實驗室開發之 Linux MPEG-4 播放器採用 BIFS 為核心場景描述語言，並依照 MPEG-4 標準實作各種不同的 BIFS 節點。

BIFS 節點可包含不同的物件，包括聲音(MP3 或 WAVE 檔)、影片、文字、3D 物件等。

3．可 Render 2D/3D 合成的景場

近來多媒體內容已不再滿足於單純 2D 的畫面，3D 的設計提供更多可能的感觀效果。而 MPEG-4 本身就支援自然與合成的多媒體物件，因此本實驗室開發之 Linux MPEG-4 播放器可以在 Linux 平台下播放 2D/3D 混合的場景，讓 Linux 平台上的媒體呈現更豐富。

4．支援 JavaScript 程式

Script 機制提供 MPEG-4 場景更多更強的互動能力。本實驗室所開發的 MPEG-4 JavaScript 引擎(見圖 15)可以製作具有互動性的 MPEG-4 多媒體場景。在此 Linux MPEG-4 播放器中我們亦加上 JavaScript 模組，讓我們可以在 Linux 上處理 script 對場景的動態改變。

此 Linux MPEG-4 播放器不僅能呈現完整的 MPEG-4 互動場景，並能根據使用者點選場景中的物件所引發的事件，正確地執行相對應的 JavaScript 程式碼。進而可以設計各式不同的多媒體互動場景，像是數位電視購物、2D/3D 遊戲、遠距教學等等…

29

在本計畫的前兩年中，我們已經完成了【智慧型頻寬調節傳輸模組】的初步架構，

本年度計畫針對其上的功能作更進一步的改良與加強。我們在速率調節（Rate shaping）

模組中加強了SDF（Selective Frame Discard）功能。

RTP 提供了傳送具有即時性資料的功能，但是它並沒有想像中的去做資源預約 ( resource reservation)或保證服務品質( QoS ) 的功能，它的運作方式就是在要送出的資料前加上 RTP 的封包標頭 ( packet header )，如圖九，利用這些標頭它可以提供許多有用的資訊，例如： payload type identification、sequence numbering、

timestamping 和 delivery monitoring，再加上 RTCP 的回饋 ( feedback ) 功能，我們就可以更清楚的了解網路狀況，以達到即時性傳送的要求。

在經由資源有限的網路傳輸影片時，最原始的方法就是不理會網路資源的限制，傳送每一個訊框(Frame)。但在網路資源不足時，封包遺失是在所難免的。然而每個訊框對於使用者觀看的影片服務品質的重要性不同，若是為了傳送重要性較低的訊框而造成重要的訊框被丟棄，不啻為一種網路資源的浪費。此外，使用者端的播放程式也可能因為訊框到達的時間太晚，來不及在該訊框的播放時間播出，而將之丟棄。這也造成網路資源的浪費。

為了改善上述問題，選擇性丟棄訊框(Selective Frame Discard)的概念被提出，簡稱為 SFD。其基本想法是由串流伺服器考量網路資源、使用者端緩衝區大小的限制、影片內容特性及使用者對服務品質的要求，選擇性地丟棄對於服務品質較不重要的訊框。

Proxy

31

相反的，對於廣告商來說，監督電視台是否有按照合約上記載的時間來播送廣告是很重要的一件事情。另一方面，在對電視新聞作內容分析的時候，廣告通常得利用手動的方式來切除，再對剩下的新聞影片來做分析。所以偵測電視新聞當中的廣告，不管是偵測出來之後要把廣告留下來還是把廣告去掉，是一項非常有意義的研究。

由於廣告拍攝手法和內容的多樣性，讓自動偵測電視節目中的廣告一直是一個困難的問題。本論文在研究了有關於廣告偵測文獻以後，加上一些製作廣告的規則以及對於廣告的觀察，提出了一個由上而下的方法來偵測電視節目當中的廣告。

因為廣告通常是影片中觀眾比較不感興趣的部分，所以導演會利用剪接等影片編輯的手法，或是在廣告中特別強調某些顏色，來讓廣告影片變得有趣，並且達到吸引觀眾和強調產品的效果。本研究利用找出影片中這些現象的出現頻率，當作是廣告出現的依據。除此之外，為了使偵測到的廣告的片段更加的精確，本系統在廣告偵測系統之中接著加入了影片場景切換的偵測(video scene boundary detection) 試著來自動的找出新聞和廣告之間準確的切換點。實驗中並顯示，本系統可以良好的把新聞中的廣告區域偵測出來。倘若使用者想要再次對電腦自動選出來的廣告區域加以調整，此系統還能夠列出其他可能的切換點來讓使用者選擇。這使得實做出來的系統變成一個非常便利的廣告切割輔助工具。圖 16 即為此新聞節目廣告偵測系統之介面。

我們分析的是從電視上錄下來的新聞節目，在研究廣告偵測及廣告拍攝相關文獻之後，

利用廣告時段影片用來吸引觀眾的手法，利用廣告的鏡頭變換(shot change)次數通常會比新聞節目多的一個特性，先大略的標出廣告的可能存在區域之後，更進一步利用廣告影片均特別強調顏色的特性，和廣告和新聞的不同點，計算出可能區域裡頭不同場景間的凝聚性(coherence)來找出更精確的廣告區域。最後可以依據不同的應用模式，來決定只留下廣告或是刪去廣告。

33

傳統的興趣區分析主要著重於兩種多媒體型式：影像 (image) 與視訊 (video)。

然而，在視訊方面的研究成果卻遠落後於影像的相關研究。這種情形肇因於忽略了許多視訊獨有的特性。第一、視訊可視為由一連串的訊框 (frame) 沿時間軸所構成，而越相近的訊框彼此間具有的相關性越高，而非互相獨立存在的影像；第二、在視訊的產生過程中，拍攝者常會使用運鏡 (camera motion) 的技巧來強調視訊中的重點或藉以引導觀眾的注意力。因此在分析視訊興趣區時，我們將考慮「應用媒體美學」 (applied media aesthetics)，也就是利用視訊拍攝時慣用而遵循的基本準則，來增加興趣區分析時的準確度與代表性。

我們將提出一個以使用者注意模型 (user attention model) 為基礎的自動視訊興趣區決定架構。在這個研究中，視訊的注意特徵值 (attentive features) 及應用媒體美學的知識都被同時考慮且利用。本研究將成為達到更高階具意義性視訊分析的一個重要基礎。

圖 17 決定視訊興趣區之系統流程

在自動決定視訊興趣區的過程中，首先我們將欲分析之原始視訊以一使用空間顏色敘述子 (spatial color descriptor) 為核心之場景變化 (shot detection) 演算法將其分為數個場景。接著在每段場景之中，我們以固定長度數量的訊框組成互不重疊之訊框切片 (frame-segment)，以每一訊框切片取代單一之訊框做為視訊興趣區分析的基本單位。接著在每一訊框切片中，我們對每一張訊框分別以使用者注意模型取出三類不同的視覺注意特徵值，包含亮度 (intensity)、顏色 (color)及運動 (motion)，並分別得到其對應之特徵值映圖 (feature map)。對於不同種類的特徵值映圖，我們分別以時間平均過濾器 (temporal mean filter) 將其過濾為唯一之已過濾特徵值映圖 (filtered feature map)。不同的已過濾特徵值映圖即用以表示在該訊框切片中其對應之某類注意特徵值的空間分布情形。另一方面，我們也對每一訊框切片找出其所屬之運鏡種纇，將不同之已過濾特徵值映圖合併為單一之顯著映圖 (saliency map) 時，此運鏡種纇資訊將用以決定每個特徵值映圖之合併參數。在得到該訊框切片之顯著映圖後，即可決定出該訊框切片之興趣區數量，同時決定出每個興趣區在訊框中之大小及位置。整部原始視訊即可以此種方式分段決定出所有的使用者興趣區。圖 17 即為本系統之流程圖示。

35

配合音樂長度自動地摘要剪輯出一段搭配音樂的影片（類似於商業電影的預告片）。本系統可配合音樂的節奏，加入適當的轉場特效，剪輯出具有專業質感的影片。也由於整個過程是全自動的，可以讓使用者免除複雜的視訊剪輯軟體學習過程。圖為本音樂導向視訊摘要系統的使用者介面。

圖 18 音樂導向摘要系統的使用者介面

中的重要片段，以及配樂裡的音樂節奏。

(2) 媒體同步結合（Media Synchronization）：利用前一部份所得到的分析資訊，我們

在文檔中 ─產學合作計畫：媒體內容工程:MPEG-4/7相關技術之研發(3/3) (頁 29-44)

略遊戲。使用者可以使用 滑鼠或鍵盤，移動自己的

Cube 或攻擊對手的 Cube。此遊戲展現出 MPEG-4 多人應用的即 時性與同步性。

27

29

Proxy

31

33

35

Cube 或攻擊對手的 Cube。此遊戲展現出 MPEG-4 多人應用的即時性與同步性。