行政院國家科學委員會補助產學合作研究計畫成果完整報告
媒體內容工程:MPEG-4/7 相關技術之研發(III)
計畫類別: 產學合作研究計畫
計畫編號: NSC 92-2622-E-002-002
執行期間: 92 年 08 月 01 日至 93 年 07 月 31 日
計畫總主持人:吳家麟 台灣大學資訊工程所教授
共同主持人:項 潔 台灣大學資訊工程所教授
子計畫主持人:陳文進 台灣大學資訊工程所教授
吳家麟 台灣大學資訊工程所教授
歐陽明 台灣大學資訊工程所教授
陳炳宇 台灣大學資訊管理所助理教授
黃肇雄 台灣大學資訊工程所教授
周承復 台灣大學資訊工程所助理教授
處理方式:完整報告內容因涉及專利、技術移轉案或其他智慧財產權,不予公
開。
執行單位:國立臺灣大學資訊工程系 通訊與多媒體實驗室
訊連科技股份有限公司
太極影科技股份有限公司
中 華 民 國 93 年 09 月 15 日
全程計畫:民國 90 年 08 月 01 日至民國 93 年 07 月 31 日
本年度計畫:民國 92 年 08 月 01 日至民國 93 年 07 月 31 日
計畫總主持人 :吳家麟 台灣大學資訊工程系教授
共同主持人 :項 潔 台灣大學資訊工程系教授
子計畫主持人 :陳文進 台灣大學資訊工程系教授
吳家麟 台灣大學資訊工程系教授
歐陽明 台灣大學資訊工程系教授
陳炳宇 台灣大學資訊管理系助理教授
黃肇雄 台灣大學資訊工程系教授
周承復 台灣大學資訊工程系助理教授
(中文摘要)
"媒體內容工程: MPEG-4/7 相關技術之研發" (Content Engineering: Research on MPEG-4/7 Multimedia Technologies) 研究計畫的目的,在於發展一個完整的媒體內容整 體架構,涵蓋媒體內容生命週期的每個階段,包括了建構(creation)、儲存(storage)、搜 尋(search)、處理(manipulation)、管理(management)、傳遞(delivery)、呈現(presentation) 以及互動(interaction)等過程,並符合 MPEG-4 及 MPEG-7 國際標準之規範。
繼 MPEG-1 與 MPEG-2 國際影音壓縮標準成功地帶動整個影音消費市場的成長後; MPEG 標準制定群於 1994 年正式展開下一個國際標準 MPEG-4 的制定,並已經在 1998 年 12 月完成此標準。在電腦(computer)、通訊(communication)、消費性電子(consumer electronic) 以及媒體內容(contents) 整合應用的趨勢之下,MPEG-4 國際標準主要著眼 於:物件導向的場景編排及編碼、真實與虛擬的複合媒體編碼、大量媒體資料的遠端控 制及傳輸、異質傳輸環境中的單一傳輸界面、以及高度的人機互動等課題,並以發展出 可與各式媒體物件進行互動的各種多媒體應用為目標。 另一方面,由於數位影音技術的快速發展,使得數位相機、DVD 放影機、MP3 隨身 聽等數位視聽設備成為消費市場的寵兒,大量的數位化媒體內容與日常生活緊密地結 合;面對這波媒體內容數位化的趨勢,亟需要一個能夠描述媒體內容的共通標準,使得 各種不同的應用系統以及媒體裝置,能夠根據描述媒體內容 metadata 所提供的資訊,正 確而有效地存取(access)、交換(exchange)以及再用(re-use)所需的媒體內容。有鑑於此, MPEG 標準制訂群於 1996 年 10 月正式展開了制定 MPEG-7 國際標準的工作,此標準又 稱為"多媒體內容描述介面" (Multimedia Content Description Interface),並已於 2001 年 9 月制訂完成。
本計畫將研發多項與媒體內容相關的技術模組,包括:MPEG-4/7 互動媒體伺服器、 MPEG-4 互動媒體場景編輯器、MPEG-4 互動媒體播放器、三維 MPEG-4 場景動畫建構 工作台、三維物件搜尋器、影音特徵值粹取工具集,內容分析與摘要模組、資訊串流模 組、傳送 MPEG-4 資料的 MPEG-2 傳輸流模組以及 MPEG-4/7 保證服務品質的媒體內 容代理伺服器等。並利用上述技術模組,開發兩項與媒體內容工程相關的應用系統: " 互動資訊媒體服務系統(Interactive Information Media Service System)" 與 "家庭媒體 中心(Home Media Center)"。
本計畫將以個人電腦(PC)為發展平台,分三年完成上述技術模組的研發以及兩項與 媒體內容相關的系統。
been completely designed in December 1998. Under the trend of the integration of computer, communication, consumer electronic, and contents, MPEG-4 targets on the following issues: authoring and encoding of object-oriented scene, encoding of natural and synthetic media, media streaming, uniform transmission interface in heterogeneous network environments, and enhanced human-machine interactions. Therefore, MPEG-4 is designed to be applicable for a wide spectrum of applications.
In addition, resulting form the great technical achievement audio-video technologies has made digital camera, DVD player, MP3 player, dominate the consumer market. To satisfy the customer needs, a tremendous amount of multimedia contents have been produced around world. In this trend, we need a standard way to describe the multimedia content which can make the access, exchange, and re-use of contents more effective and more efficient. In October 1996, MPEG committee started a new project to develop the MPEG-7 international standard, called "Multimedia Content Description Interface", which has been completed by September 2001.
In this project, a number of techniques will be developed. The techniques include: MPEG-4/7 interactive server, MPEG-4 interactive scene editor, MPEG-4 interactive player, audio/video features extraction tools, content analysis and summarization nodule, content streaming module, 3D workbench for MPEG-4 scene/animation construction, query by example 3D, MPEG-2 transport stream for MPEG-4 data and MPEG-4/7 Qos-supported proxy server and so on. Base on these techniques, two applications, "Interactive Information Media Service System" and "Home Media Center", will be developed.
The project is to be developed on PC platform. It is scheduled to be completed in three years.
本研究計畫--"媒體內容工程:MPEG-4/7相關技術之研發"將以媒體內容工程 (Content Engineering) 的相關議題為研究主軸,探討在媒體內容的生命週期中,建構、 分析、編輯、傳送以及呈現等階段所面臨的各種問題,輔以MPEG-4以及MPEG-7這 兩套國際標準為經緯,發展必要的核心技術並尋求解決方案。我們預期開發多項技術 模組,並將其整合成兩個應用系統:"互動資訊媒體服務系統(Interactive Information Media Service System)"及"家庭媒體中心(Home Media Center)"。
時至今日,"文件(document)"一詞給人們的固有印象,早已被大量的數位電子書、 影音光碟、串流視訊、虛擬實境等等現代化的"電子文件(electronic document)"所取 代。這些數位化之後的資訊,透過網路無遠弗屆地傳送到世界各地,數位化的媒體內 容具備容易修改、複製、搜尋、傳遞與儲存等特性,並擁有多樣化的呈現方式,甚至 包括雙向互動等傳統文件所欠缺的功能。身處在這樣一個資訊爆炸的時代,如何有效 地管理媒體內容?如何正確地對媒體內容做分類?如何將分類後的媒體內容傳送到 不同環境的使用者眼前?如何以符合使用者需求的方式呈現媒體內容?如何有效地 進行知識管理(knowledge management)的工程?面對這些亟需解決的議題,我們必 須針對媒體內容價值鏈的每個階段,研發必要的多媒體技術並尋求整體的解決方案, 這個解決方案我們稱之為"媒體內容工程(Content Engineering)"。 媒體內容工程是近年新興的一門學問,涵蓋的相關技術與專業領域十分廣泛,包 括了影音訊號數位化、文件電子化、視訊串流技術、內容分析、資訊檢索、多媒體資 料庫、數位浮水印、電子認證以及虛擬實境等等,並橫跨了多項與媒體內容息息相關 的媒體產業,如電視/電影工業、媒體工作者、後製作公司、有線/無線系統業者,以 及開發數位影音設備,行動裝置與影音軟體的高科技軟硬體產業;此外,媒體的收費 機制更與電子商務、網路安全等產業有著密不可分的關係。 自MPEG-1、MPEG-2標準制定之後,已成功且廣泛地應用在數位通訊及娛樂消費 市場中;而和MPEG-1/2不同的是,MPEG-4不再只是以單張畫面為單位來處理視訊資 料,而是以物件導向(object-oriented)的概念為主,將每個畫面場景視為不同媒體物件 的組合,如:音訊(audio)、視訊(video)、二維/三維圖形(2D/3D graphics)等。MPEG-4 中強調真實與虛擬複合媒體(synthetic and natural hybrid media)的合成,除了可經由混 合編碼方式達到低位元率的資料傳輸率外,並可提供更多的互動性。MPEG-4的相關 技術已經日趨成熟,進入市場的契機也逐漸明朗化。去年六月,IEEE 電路與系統學 會(Circuit and Systems Society)與MPEG-4產業聯盟(MPEG-4 Industry Forum)共同於聖 荷西(San Jose)市舉辦之第三屆"Workshop and Exhibition on MPEG-4"。參展廠商的研 發成果無論是質與量都極為可觀,此為近期內最受重視之有關 MPEG-4 技術與產業 現況的成果發表會。本計畫將累積前期產學計畫在研發MPEG-4技術上的經驗,針對 MPEG-4標準與媒體內容工程間的相關課題進行更深入的研究,相信對提升國內 MPEG-4相關技術的水平,將有最直接的貢獻。
進 行 研 究 , 這 正 是 MPEG-7較為欠缺的部分;我們將研究適當之三維模型述詞 (Descriptor)與描述結構(Description Schema),並朝進入MPEG-7 標準而努力。相信對 提昇國內MPEG-7與媒體內容分析的研究水平,有正面的助益。
"媒體內容工程:MPEG-4/7相關技術之研發"計畫中,擬實作兩項應用系統—“互 動資訊媒體服務系統(Interactive Information Media Service System)”與”家庭媒體中心 (Home Media Center)”。此兩項應用系統係整合了下列十項技術模組:
1. MPEG-4/7 互動媒體伺服器(MPEG-4/7 interactive server) 2. MPEG-4互動媒體播放器(MPEG-4 interactive player)
3. MPEG-4互動媒體場景編輯器(MPEG-4 interactive scene editor) 4. 影音特徵值粹取工具集(Audio/video feature extraction tools) 5. 內容分析與摘要模組(Content analysis and summarization module) 6. 資訊串流模組(Content streaming module)
7. 三維MPEG-4場景動畫建構工作台(3D workbench for MPEG-4 scene and animation construction)
8. 三維物件搜尋器(Query by example in 3D)
9. 傳送MPEG-4資料的MPEG-2傳輸流模組(MPEG-2 transport stream for MPEG-4 data) 10. MPEG-4/7保證服務品質的媒體內容代理伺服器(MPEG-4/7 Qos-supported proxy
server)
5 5
之媒體內容分析工具以及分項計畫三之場景建構平台,並由分項計畫二及四提供媒體 內容傳輸所需之串流技術及網路服務;而”家庭媒體中心(Home Media Center)”將以分項 計畫二及分項計畫三為主,開發 MPEG-7 相關之媒體內容分析工具以及三維物件搜尋 器,俾以提供分項計畫一在建構 MPEG-4 動畫場景與分項計畫四在發展媒體傳輸技術 時之應用。
在"互動資訊媒體服務系統(Interactive Information Media Service System)"方面,由於 電子產業與電視工業的蓬勃發展,使得數位電視(Digital TV)即將取代類比電視,成為 新一代資訊家電(Information Appliance)的要角。我們可預見在不久的將來,電視不再只 是單純地播放節目的機器,而進一步能提供多方面的資訊服務;更重要的是,它將顛 覆被動地收看系統業者所提供頻道的傳統收視習慣。在互動媒體的架構下,使用者可 以根據其需求,選擇最適合的節目觀看;或是查詢所需的資訊(例如某上市公司的即時 股價)。節目(內容)提供者,也可以透過與使用者的互動過程,建立用戶收視習慣的資 料庫,以期提供個人化(Personalization)收視的服務;或是設計各種互動式的節目,例 如互動式電視遊戲、互動式電視教學等等。 本系統將以 MPEG-4 作為互動機制的解決方案,提供完整地互動平台,包括了分項 計畫一中的【MPEG-4 互動媒體場景編輯器】、【MPEG-4/7 互動媒體伺服器】以及 【MPEG-4 互動媒體播放器】等模組;其中,【MPEG-4 互動媒體場景編輯器】將與分 項計畫三之【三維 MPEG-4 場景動畫建構工作台】整合;伺服器與播放端之間的網路 傳輸服務則由分項計畫四負責提供。另一方面,由分項計畫二所開發的【MPEG-7 媒 體內容分析技術】,則將整合至伺服器端,以提供使用者必要的資訊及更便利的服務。 下圖為互動資訊媒體服務系統與各分項計畫之間的關係圖。進一步的研究方法,請參 考分項計畫一的說明。
而在"家庭媒體中心(Home Media Center)"中,我們將提供一個多媒體內容分析管理系 統,使用者可以很方便地管理經由數位攝影機、數位相機等設備所錄製的影音資料。透 過對媒體內容的分析,可將媒體內容加以分類、摘要,並將萃取分析所得之 metadata 以 MPEG-7 所定義之敘述詞以及描述結構儲存起來。藉由這些 metadata 的協助,使用者可 以很方便地尋找特定的影像片段,或是瀏覽影片的摘要畫面。針對影音媒體內容的分析 與擷取,家庭媒體中心整合了【影音特徵值萃取工具集】、【內容分析與摘要模組】等技 術模組,可支援本計畫另一系統"互動資訊媒體服務",提供播放節目的預覽與摘要功 能;其它的應用還包括家庭影片剪輯軟體、個人數位像簿等等。此外,此系統亦可提供 分項計畫四中【保證服務品質的媒體內容代理伺服器】所需之相關技術。關於影音媒體 內容分析技術的細節,請參考分項計畫二。 除了影音媒體之外,家庭媒體中心還可對三維模型與場景進行搜尋與分類,此功能 將針對從事電腦動畫及虛擬實境人員的需求,建立三維資料庫以供查詢。由於 MPEG-7 標準對於三維物件的描述定義並不多,因此,在分項計畫三中的【三維物件搜尋器】模 組,將針對三維物件設計所需之描述詞以及描述結構,並配合該分項計畫另一模組【三 維 MPEG-4 動畫場景建構工作台】之協助,發展友善的人機互動界面以供查詢。詳細的 研究方法,請參考分項計畫三的說明。下圖為家庭媒體中心系統與各分項計畫之間的關 係圖。 7
遞技術等方面上,已經累積了相當的經驗,並有了初步的研發成果。本期產學合作計畫 中,將著重在 MPEG-4 互動機制的研究上。這裡所謂的互動,不單只是改變場景中的物 件外觀,或是控制媒體的播放行為(暫停、繼續);更進一步地,我們將研究如何發展伺 服器端可程式化(Programmatic)模組,並加強媒體播放端 BIFS(BInary Format for Scene) 方面更完整的能力。此外,鑑於以往在建構動畫以及三維場景時,缺乏適當的人機界面, 我們將在分項計畫三中,進行【三維 MPEG-4 場景動畫建構工作台】之研究。
也可扮演與 MPEG-7 技術融合的橋樑角色。 【與 MPEG-7 相關之研究方法】 本計畫的另一個研究重點,將針對 MPEG-7 標準所制訂一系列對於媒體內容之分析 與描述進行探討。有鑑於 MPEG-7 標準所制訂的描述詞(Descriptor)以及描述結構 (Description Scheme)種類相當繁多,為了避免研究的領域過於廣泛,而使整個計畫失去 焦點,本計畫將針對影像(Video)資料的分析與摘要進行研究,並將此技術整合在"家庭 媒體中心"系統中,提供使用者能快速地瀏覽影片,並藉由影片的摘要資訊來得知影片 內容,例如採用主要圖像 (Key Frame) 選取,或由連續視訊建立全景影像(Video Mosaic) 等方式。而在"互動資訊媒體服務"系統中,使用者也可藉由伺服器所提供之節目預覽功 能,選取喜愛的節目,而與伺服器端進行互動。在進行分析的過程中,我們將透過 MPEG-7 所定義的描述詞以及描述結構,替媒體內容建立其描述實體(Description)。 媒體內容的分析與摘要是個困難而充滿挑戰的議題。在分項計畫二中,我們將採取 漸進的方式,先針對 MPEG-7 標準中所定義低階層影音特徵值,推算出其敘述詞實體 值,這一部分將由【影音特徵值萃取工具集】負責完成,再由【內容分析與摘要模組】 技術分項,從結構性(structure ascept)、知覺性(concept ascept)等方面,對媒體內容進行 分析以及摘要,以期建立一符合人類知覺(human perception)、結構化的連續影像物件模 型。詳細的研究方法,請參考分項計畫二。 另一方面,除了傳統的影音媒體內容之外,三維模型、三維場景等虛擬合成(Synthetic) 的媒體,也是整個媒體內容產業中相當重要的一種素材,然而,MPEG-7 在描述三維模 型方面著墨甚少,面對越來越多與豐富的三維模型資料庫,建立適當的管理系統是必要 的。分項計畫三的【三維物件搜尋器】將針對三維模型的搜尋、分類進行研究,並將此 技術整合至"家庭媒體中心"系統中,提供使用者在資料庫中搜尋特定的三維模型。詳細 的研究方法,請參考分項計畫三的說明。 由於 MPEG-7 對媒體內容定義了詳盡的描述結構,豐富的 metadata 資訊也衍生出相 當多的應用,其中一項便是媒體代理伺服器的管理。媒體代理伺服器的主要目的,在於 縮短初始網路延遲(Network Initial Delay)、減少網路延遲差異(Network Jitter),並降低伺 服器的負擔(Load)。透過伴隨媒體內容本身的 metadata 之描述,媒體代理伺服器可以得 知該影片的檔案大小、播放時所需的頻寬、傳輸速率等等資訊,利用這些資訊,可以對 頻寬作有效的分配與使用,以期提供保證服務品質(QoS)的傳輸服務。詳細的研究方法, 請參考分項計畫四的說明。
圖 1 MPEG-4 場景編輯器 1. 全新的視覺化編輯方式:新的編輯方式大為改進之前難以使用的缺點,使得使用 者編輯場景大為容易。 2. BIFS-Audio的支援:BIFS-Audio讓MPEG-4場景在聲音方面的支援更為齊全 3. BIFS-Animation的支援:BIFS-Animation機制讓MPEG-4場景更富有豐富性 4. JavaScript支援:Script機制提供給MPEG-4場景更多互動的能力 透過上述之技術,目前 MPEG-4 場景編輯器已經能夠編輯出具備高度聲光效果與互 動性的場景。圖 2 即為利用此編輯器製作而成的 MPEG-4 互動場景。
圖 2 MPEG-4 互動場景 ¾ MPEG-4媒體內容伺服器雛形 MPEG-4 媒體內容伺服器利用串流技術傳遞影音資料流,並根據影音內容的複雜度 以及頻寬的限制,把資料切割大小一致的網路封包。單位時間內的資料量盡可能維持穩 定,在用戶端即時還原影音資料並加以呈現。 利用影音串流服務的機制,用戶端不再需要預先租借光碟或冗長的下載過程,可以 即時從網路欣賞到高品質的影音內容,影音內容即時由串流伺服器端切割成連續的封 包,透過網路傳遞到用戶端之後,由用戶端程式重組這些封包,還原成高品質的影音內 容。關於串流技術之詳細說明,請參閱分項計畫二【MPEG-4/7 媒體內容分析技術與資 訊串流模組】。 2. 11
圖 3 MPEG-7 多媒體搜尋系統
目前完成的 MPEG-7 述詞(descriptor)包括了 color layout, dominant color, motion activity, contour shape, region shape 等,並以一個初步的搜尋系統,包含魚類搜尋及商標比對來 展示其結果。
另外,在摘要模組之初步成果中,已實作連續視訊建立全景影像(Video Mosaic)及主要 影像(Key Frame)之擷取。
本計畫中,我們採用 MPEG-7 中,Multiple View 的觀念,使用正十二面體包住三 維模型,運用正十二面體的二十個頂點,作為視點,每一視點上取一張剪影,再使用 MPEG-7 中提供的 Region Shape 的方法,來作為二維剪影的比對方式。
我們的三維模型比對方式是以範例作為搜尋比對關鍵(Search by an Example)。搜尋 結果依相似程度由高至低排列。圖 4 為搜尋系統的執行畫面,圖 5 為此系統的搜尋結 果。目前資料庫有 445 個三維模型,在 CPU 為 Pentium III 800 MHz 的機器上,搜尋時 間約為 11 秒鐘。
圖 4 三維物件搜尋器之執行畫面
圖 6 Rich-media Presentation 的外觀 我們所提出的系統,是架構在以網頁為基礎(Web-Based)的平台上。如圖 6 為介紹 獅子座流星雨的簡報,其中涵蓋各類型的多媒體,包括影片、聲音、投影片、參考性文 件…等七個媒體內容。此外,一個完整頁面可任意切割為多個視窗框架(Frame)。以下圖 為例,左上角正播放著星空拍攝的影片;其下方的小圖示為參考性文件的連結;接下來 是擔任簡報講說的聲音檔,負責講解流星雨的形成過程;以及優美的背景音樂。而右上 角為說明流星雨成因的投影片;而右下角為回顧 2001 年獅子座流星雨的網頁。最下面 為簡報的主時間軸(Timeline),用來控制物件之間的同步。 15
另外,編輯好的場景,可經由 MP4 檔案格式輸出精靈(MP4 File Format Exporting Wizard)的協助,輸出成.mp4 檔案格式;此外,影音媒體檔案也可使用 MP4 Builder 將其 封裝成.mp4 格式,以便日後使用。 ¾ 互動式MPEG-4媒體播放器與伺服器 經由編輯器編輯好的互動場景,輔以場景中所定義的各種不同影音媒體物件,可 存放在MPEG-4伺服器,再透過本分項計畫所開發支援JavaScript 的MPEG-4播放器, 便可體驗互動式MPEG-4媒體的強大功能與聲光效果。
本計畫於第二年所開發的MPEG-4伺服器,係參考 MPEG-4 Standard Part 8 -- 4onIP 中所提出的資料封裝格式以及網路協定標準(RTSP/RTP),因此未來能與同樣實作此標 準的用戶端相通。此外,除了提供事先儲存的影音媒體串流之外,本伺服器也能透過 視訊擷取裝置,傳送即時的影音串流。
¾ MPEG-4伺服器端與媒體播放器端的通訊協定
基於資料特性與目的的不同,伺服器端與媒體播放器端之間的通訊協定可分成三 類:影音媒體串流、Multi User World控制訊息以及非串流資料等。圖7 為伺服器端與 媒體播放器端的通訊協定示意圖。其中傳輸第一類與第三類資料所需之通訊協定,本 計畫係採用工業界普遍使用的RTSP/RTP以及HTTP/TCP標準,並加以實作。此外,為 顯示本系統之實用性,本計畫亦整合完成了一套【衛星電視訊號擷取與播放模組】。
Media Server RTSP/RTP/RTCP (Media Streaming) Multi-User World Interactive Server MUW Protocol MUW Control Message
Cross-Platform
Windows2K WinCE
Linux
HTTP/TCP (Control/ non-Streaming data)
Media Server RTSP/RTP/RTCP (Media Streaming) Multi-User World Interactive Server MUW Protocol MUW Control Message
Cross-Platform
Windows2K WinCE
Linux
HTTP/TCP (Control/ non-Streaming data)
BIFS-Server BIFS-Server
圖7 伺服器端與媒體播放器端之間的通訊協定
將客戶端要求的多媒體資料部分暫存在離客戶端較近的代理伺服器,用來減少網路資 料的流量、縮短初始網路延遲、網路延遲差異,並藉由頻寬管理機制的允入控制,對 頻寬進行有效的分配及使用。 圖 9 為新一代代理伺服器的架構圖。假設網路多媒體應用程式的客戶端有指定代理伺服 器,則所有對原伺服器所發出的要求,將會先傳送給代理伺服器,再查詢代理伺服器所 暫存的相關資料,對原客戶端的要求做適當調正,然後才真正對原伺服器發出要求,並 回應客戶端。對於任何一個要求,代理伺服器都會分析系統現況,如果可用網路頻寬、 系統資源均滿足要求則允入,否則將拒絕要求。之後,代理伺服器將先到片頭暫存表檢 查客戶端所要求的資料是否有暫存在片頭緩衝區內,若已存在,則到媒體描述表內,取 出此媒體內容的媒體資訊及要求的服務品質,然後建立一條適當的連線,直接將片頭資 料由代理伺服器傳向客戶端,並向原伺服器要求後續的媒體資料,再將由原伺服器所接 收到的資料儲存在平滑暫存區以確保資料供給的穩定性。反之,若無法在片頭暫存表找 到客戶端所要求的資料,則代理程式直接向原伺服器要求客戶端所需要的資料,並將片 頭部分儲存在片頭緩衝區,更新片頭暫存表及媒體描述表,且在接受資料的同時,將所 接受到的資料傳送給客戶端。至於資料的暫存及取代則由暫存決策器依特定的演算法來 決定。本計畫今年已經完成的項目有媒體描述表(MD Table)與片頭暫存(Prefix Table) 這兩個主要的模組。(詳細內容請參考分項計畫四之成果報告。) 圖 9 代理伺服器的架構圖 19
圖 10 可調整性影像壓縮編碼/解碼器系統示意圖
數位照片為目前家庭內最常產出之數位內容型態。本計畫今年完成的數位照片管理 系統,為家庭媒體中心內針對數位照片管理所設計的模組,除了具備以完整之【MPEG-7 影音特徵值粹取工具集】為基礎之影像索引與查詢功能,另外還增加了如人類臉部偵測 與辨識,視覺化通訊錄,風景/人類照片分類,智慧型縮圖影像顯示等具備語意概念 (semantic meaning)的進階數位照片管理功能。圖 11 為我們所完成的具語意功能之 數位照片管理系統之使用者介面。 圖 11 數位照片管理系統之使用者介面 21
¾ 使用者注意點分析與偵測系統
另外, 我們還提出了一套可偵測影像及視訊資料中使用者的注意點的系統。藉由此 系統偵測出的注意點,影像/視訊編碼器在壓縮時可以更符合使用者的需求。此系統藉由 影像畫面中的亮度、色彩、人類膚色以及物體運動方向的分佈情形,預測出人眼於此影 像中的注意點。(以上成果之詳細內容請參考分項計畫二之成果報告)
速度以及正確率等方面皆有相當幅度之進展。 在搜尋方式方面,二維的繪圖搜尋介面增加了更多的繪圖工具,使搜尋更為簡便;以關 鍵字搜尋的技術亦被同時引進於本系統中,使用者只需輸入標的物件的名稱或相關詞 彙,便能達到快速搜尋的目的。不論由繪製二維圖形或輸入關鍵字詞,其搜尋結果皆能 以三維模型相互比對的方式做更進一步的準確搜尋。圖 12 即為由使用者繪製出之二維 圖形搜尋出之結果。 圖12 在 3D 物件搜尋器中根據使用者繪製之二維圖形進行搜尋之結果 在以三維物件相互比對的部分,由於比對過程分為六個階段、並於各個過程逐次作 淘汰的動作,另外用以描述三維物件的述詞皆以少量的資料量表示。因此,由全世界網 路上不重複的一萬多個三維模型中找出相似模型的時間由原來的一分鐘大幅減少為兩 秒鐘,而由二維圖形搜尋相似三維物件的過程也降為0.1 秒 另外,本年度在描述三維物件所使用的述詞有較去年有所調整,即Fourier descriptor, Circularity 以及Eccentricity 的加入。此三者與原有的 Zernike moment 結合後,就搜尋 的正確率有顯著的正面效益。本系統與MPEG-7 的Multiple view descriptor、Shape descriptor 以及由美國 Princeton 大學以3D spherical harmonics 所建立之搜尋系統的比 較。整體而言,本系統的搜尋正確率較此三者分別高出22%、95%、與 43%,是為目前 已發表的搜尋方式當中效果最佳者。[17]
(Tangent-plane force model)。這套系統令使用者能以更直覺而方便的方式來建立動畫場 景中的物件。使用者可以利用系統中各種不同的形狀的雕刻刀,如球形,立方體等工具, 來進行三維模型的雕刻,並在使用時感受到更加精確的碰撞力量。(以上成果之詳細內 容請參考分項計畫三之成果報告)
¾ MPEG-4 多使用者應用開發架構
隨著寬頻與無線網路基礎建設的高度發展,電腦運算速度、顯示設備與儲存媒介等 硬體技術的一日千里,人們透過各類普及運算設備(Pervasive Devices)取得多媒體資訊, 並與其他使用者之間互傳訊息、共享資訊甚至進行虛擬會議等應用已經成為趨勢。而以 往電腦輔助群組協同工作(Computer Supported Cooperative Work, CSCW)已廣泛地被運 用在遠距教學、軍事模擬以及多人連線遊戲等等不同的領域。然而這些系統多半採用侷 限於特定應用的封閉標準(例如美國陸軍的模擬系統 SIMNET);或是應用現有技術以符 合特定需求(例如以 Web 技術發展而成的聊天室),前者缺乏擴充性與互通性,後者則因 為遷就現有架構,並不適用於新興的媒體格式或網路技術。本研究提出的 MPEG-4 多使 用者應用開發架構,可以簡化開發各類不同的多使用者互動系統的過程。 本系統利用 MPEG-4 標準所定義的工具並參考其所提出的應用程式引擎(MPEG-J) 以及多人世界(Multi-User World)標準,設計出一個 MPEG-4 應用開發架構,以縮短多使 用者互動的應用程式開發時程。這個架構包括了四項核心模組,分別是:(1)MPEG-4 表 現引擎,(2)媒體存取層,(3)MPEG-4 應用程式引擎以及(4)多人應用程式伺服器。MPEG-4 表現引擎是一個跨平台的互動媒體呈現架構,配合用戶以及伺服端的媒體存取層,能滿 足多點傳輸媒體資料流的需求。而 MPEG-4 應用程式引擎提供了一組應用程式介面,外 部程式可藉此來存取並操控 MPEG-4 表現引擎。多人應用程式伺服器則提供了可程式化 的伺服端架構,配合與用戶端之間的遠端函式呼叫實現多人連線下的同步機制。 Service Providers Content Producers
MPEG-4 Authoring System
MPEG-4 Server Application Server Consumers MPEG-4 Client Single-User Application Multi-User Application Media Server Connection Handler Image Audio 3D Models Video DRM Server Virtual Studio.net@CML Media Processing/ Editing Toolkit RTP/RTCP Service HTTP/RTSP Service 3D Content Authoring System Media Database 3D Model Database Media Objects Composition Text Raw Content Added-on Content Scalable Codec QoS Control Media Streams
Interactive TV Mobile Player
Media Access Application Engine Presentation Engine Codec Bank Media Access
Client Code (Python)
CSCW Virtual Conf. Game Education
Server Code (Python) Control Streams Server Modules BIFS/RTSP Streams A/V renderer Presentation Engine Codec Bank A/V
renderer MU
Core
Client Code (JavaScript) Authorization Server
Transaction Center MU Server
Application Logic (Python) Presentaton Logic (JavaScript) MP4 Content Application code 圖 13 MPEG-4 多使用者應用開發架構 25
的擺設,或替房間增添家 具和擺飾。其他使用者所 看到的房間狀態會即時同 步改變,達成最直接的意 見交流。右方則有視訊會 議視窗讓使用者面對面的 溝通。 虛擬會議室 使用者可以建立或是加入不同的虛擬會議 室,每個會議室都可根據不同主題有著不 同的功能,例如虛擬白板、簡報系統、共 享的 3D 物件等等,使用者之間可以透過視 訊設備進行交談,也可以製作 Avatar 來代 表虛擬世界中的人物。
略遊戲。使用者可以使用 滑鼠或鍵盤,移動自己的 Cube 或攻擊對手的 Cube。此遊戲展現出 MPEG-4 多人應用的即 時性與同步性。 27
拍攝電視廣告的公司都會把拍攝完成的廣告儲存在數位錄影帶(digital beta cam) 之中,但是這些錄影帶通常並沒有以良好的格式來規劃,而是一捲捲的收在片庫裡,等 要用的時候才找出來。在此,我們藉由分析影片中某些特定的順序,來切割出一則一則 的廣告。
經過觀察,影片中每一則廣告裡會出現的鏡頭大致如下圖所示: 首先是會只顯示色 條的鏡頭(color bar shot),緊接著會有一個鏡頭顯示這則廣告的標題,長度,版本之 類的資訊(字幕鏡頭,caption shot),再來會是倒數,接著是一個大約一秒鐘的全黑的 鏡頭(black shot),之後是這一則廣告的影片,最後會再接一個黑的鏡頭。 本研究即 利用這個規則將大致符合的廣告切割出來。圖 14 即為電視廣告素材的格式範例之一。
Linux作業系統是近年來在各個領域相當熱門的主題,它對軟體開發提供非常高的 自由度,開發工具的健全及作業系統的高效能與穩定度,使它不論在即時系統應用、 多媒體開發平台、嵌入式平台至手持式行動裝置等都成為一個深具潛力的明日之星。 因此,結合Linux的平台優勢,本實驗開發之 Linux MPEG-4 互動式場景播放器在可預 見的將來,可提供廣泛且強力的多媒體內容呈現,亦為邁入 Multimedia Everywhere的 第一步。
本實驗室所開發之 Linux MPEG-4 互動式場景播放器具有以下特點: 1. 支援 ISO 媒體檔案格式 (MP4)
可以播放符合 MPEG-4 標準的多媒體檔案、串流內容服務,意即符合 MPEG-4 BIFS 標準的多媒體場景。本實驗室已開發有 MPEG-4 Scene Editor 致力於產生 MPEG-4 的互 動式場景,其產生之檔案即為 MP4 格式。透過此 MPEG-4 播放器,將可在 Linux 相容 平台上播放豐富互動的多媒體內容。
2.實作 MPEG-4 BIFS 及 Scene Graph
BIFS 是 MPEG-4 用來描述場景中影音物件如何組織構成整個場景,它階層式地將物 件編碼成二進位的共通格式並支援百餘種不同的物件。本實驗室開發之 Linux MPEG-4 播放器採用 BIFS 為核心場景描述語言,並依照 MPEG-4 標準實作各種不同的 BIFS 節點。
BIFS 節點可包含不同的物件,包括聲音(MP3 或 WAVE 檔)、影片、文字、3D 物件等。 3. 可 Render 2D/3D 合成的景場
近來多媒體內容已不再滿足於單純 2D 的畫面,3D 的設計提供更多可能的感觀效 果。而 MPEG-4 本身就支援自然與合成的多媒體物件,因此本實驗室開發之 Linux MPEG-4 播放器可以在 Linux 平台下播放 2D/3D 混合的場景,讓 Linux 平台上的媒體呈現更豐富。 4. 支援 JavaScript 程式
Script 機制提供 MPEG-4 場景更多更強的互動能力。本實驗室所開發的 MPEG-4 JavaScript 引擎(見圖 15)可以製作具有互動性的 MPEG-4 多媒體場景。在此 Linux MPEG-4 播放器中我們亦加上 JavaScript 模組,讓我們可以在 Linux 上處理 script 對場景 的動態改變。
此 Linux MPEG-4 播放器不僅能呈現完整的 MPEG-4 互動場景,並能根據使用者點 選場景中的物件所引發的事件,正確地執行相對應的 JavaScript 程式碼。進而可以設計 各式不同的多媒體互動場景,像是數位電視購物、2D/3D 遊戲、遠距教學等等…
在本計畫的前兩年中,我們已經完成了【智慧型頻寬調節傳輸模組】的初步架構, 本年度計畫針對其上的功能作更進一步的改良與加強。我們在速率調節(Rate shaping) 模組中加強了SDF(Selective Frame Discard)功能。
RTP 提 供 了 傳 送 具 有 即 時 性 資 料 的 功 能 , 但 是 它 並 沒 有 想 像 中 的 去 做 資 源 預 約 ( resource reservation)或保證服務品質( QoS ) 的功能,它的運作方式就是在要送 出的資料前加上 RTP 的封包標頭 ( packet header ),如圖九,利用這些標頭它可以提 供許多有用的資訊,例如: payload type identification、sequence numbering、 timestamping 和 delivery monitoring,再加上 RTCP 的回饋 ( feedback ) 功能,我 們就可以更清楚的了解網路狀況,以達到即時性傳送的要求。 在經由資源有限的網路傳輸影片時,最原始的方法就是不理會網路資源的限制,傳 送每一個訊框(Frame)。但在網路資源不足時,封包遺失是在所難免的。然而每個訊框對 於使用者觀看的影片服務品質的重要性不同,若是為了傳送重要性較低的訊框而造成重 要的訊框被丟棄,不啻為一種網路資源的浪費。此外,使用者端的播放程式也可能因為 訊框到達的時間太晚,來不及在該訊框的播放時間播出,而將之丟棄。這也造成網路資 源的浪費。
為了改善上述問題,選擇性丟棄訊框(Selective Frame Discard)的概念被提出,簡稱為 SFD。其基本想法是由串流伺服器考量網路資源、使用者端緩衝區大小的限制、影片內 容特性及使用者對服務品質的要求,選擇性地丟棄對於服務品質較不重要的訊框。
Proxy
相反的,對於廣告商來說,監督電視台是否有按照合約上記載的時間來播送廣告是 很重要的一件事情。另一方面,在對電視新聞作內容分析的時候,廣告通常得利用手動 的方式來切除,再對剩下的新聞影片來做分析。所以偵測電視新聞當中的廣告,不管是 偵測出來之後要把廣告留下來還是把廣告去掉,是一項非常有意義的研究。 由於廣告拍攝手法和內容的多樣性,讓自動偵測電視節目中的廣告一直是一個困難的問 題。本論文在研究了有關於廣告偵測文獻以後,加上一些製作廣告的規則以及對於廣告 的觀察,提出了一個由上而下的方法來偵測電視節目當中的廣告。 因為廣告通常是影片中觀眾比較不感興趣的部分,所以導演會利用剪接等影片編輯 的手法,或是在廣告中特別強調某些顏色,來讓廣告影片變得有趣,並且達到吸引觀眾 和強調產品的效果。本研究利用找出影片中這些現象的出現頻率,當作是廣告出現的依 據。除此之外,為了使偵測到的廣告的片段更加的精確,本系統在廣告偵測系統之中接 著加入了影片場景切換的偵測(video scene boundary detection) 試著來自動的找出新聞 和廣告之間準確的切換點。實驗中並顯示,本系統可以良好的把新聞中的廣告區域偵測 出來。倘若使用者想要再次對電腦自動選出來的廣告區域加以調整,此系統還能夠列出 其他可能的切換點來讓使用者選擇。這使得實做出來的系統變成一個非常便利的廣告切 割輔助工具。圖 16 即為此新聞節目廣告偵測系統之介面。
我們分析的是從電視上錄下來的新聞節目,在研究廣告偵測及廣告拍攝相關文獻之後, 利用廣告時段影片用來吸引觀眾的手法,利用廣告的鏡頭變換(shot change)次數通常會 比新聞節目多的一個特性,先大略的標出廣告的可能存在區域之後,更進一步利用廣告 影片均特別強調顏色的特性,和廣告和新聞的不同點,計算出可能區域裡頭不同場景間 的凝聚性(coherence)來找出更精確的廣告區域。最後可以依據不同的應用模式,來決定 只留下廣告或是刪去廣告。 33
傳統的興趣區分析主要著重於兩種多媒體型式:影像 (image) 與視訊 (video)。 然而,在視訊方面的研究成果卻遠落後於影像的相關研究。這種情形肇因於忽略了許多 視訊獨有的特性。第一、視訊可視為由一連串的訊框 (frame) 沿時間軸所構成,而越 相近的訊框彼此間具有的相關性越高,而非互相獨立存在的影像;第二、在視訊的產生 過程中,拍攝者常會使用運鏡 (camera motion) 的技巧來強調視訊中的重點或藉以引 導觀眾的注意力。因此在分析視訊興趣區時,我們將考慮「應用媒體美學」 (applied media aesthetics),也就是利用視訊拍攝時慣用而遵循的基本準則,來增加興趣區分 析時的準確度與代表性。
我們將提出一個以使用者注意模型 (user attention model) 為基礎的自動視訊興趣區 決定架構。在這個研究中,視訊的注意特徵值 (attentive features) 及應用媒體美學 的知識都被同時考慮且利用。本研究將成為達到更高階具意義性視訊分析的一個重要基 礎。
圖 17 決定視訊興趣區之系統流程
在自動決定視訊興趣區的過程中,首先我們將欲分析之原始視訊以一使用空間顏色 敘述子 (spatial color descriptor) 為核心之場景變化 (shot detection) 演算法將其分為數 個場景。接著在每段場景之中,我們以固定長度數量的訊框組成互不重疊之訊框切片 (frame-segment),以每一訊框切片取代單一之訊框做為視訊興趣區分析的基本單位。接 著在每一訊框切片中,我們對每一張訊框分別以使用者注意模型取出三類不同的視覺注 意特徵值,包含亮度 (intensity)、顏色 (color)及運動 (motion),並分別得到其對應之 特徵值映圖 (feature map)。對於不同種類的特徵值映圖,我們分別以時間平均過濾器 (temporal mean filter) 將其過濾為唯一之已過濾特徵值映圖 (filtered feature map)。不同 的已過濾特徵值映圖即用以表示在該訊框切片中其對應之某類注意特徵值的空間分布 情形。另一方面,我們也對每一訊框切片找出其所屬之運鏡種纇,將不同之已過濾特徵 值映圖合併為單一之顯著映圖 (saliency map) 時,此運鏡種纇資訊將用以決定每個特徵 值映圖之合併參數。在得到該訊框切片之顯著映圖後,即可決定出該訊框切片之興趣區 數量,同時決定出每個興趣區在訊框中之大小及位置。整部原始視訊即可以此種方式分 段決定出所有的使用者興趣區。圖 17 即為本系統之流程圖示。 35
配合音樂長度自動地摘要剪輯出一段搭配音樂的影片(類似於商業電影的預告片)。本 系統可配合音樂的節奏,加入適當的轉場特效,剪輯出具有專業質感的影片。也由於整 個過程是全自動的,可以讓使用者免除複雜的視訊剪輯軟體學習過程。圖 為本音樂導 向視訊摘要系統的使用者介面。
中的重要片段,以及配樂裡的音樂節奏。 (2) 媒體同步結合(Media Synchronization):利用前一部份所得到的分析資訊,我們 提出兩種不同的演算法,配合參數的設定,將選出影片重要片段配合音樂的節 奏加以剪輯,並加上適當的轉場特效。 (3) 媒體產出(Media Production):第二部分中所產生的僅是存在電腦記憶體中的結 構化資訊,在媒體產出的這部分,我們可以針對不同的需求,使用編輯腳本語 言(Editing Scripting Language)直接輸出成影片—全自動化的產出方式。也可 以輸出成目前市面上視訊編輯軟體的專案格式,再由這些編輯軟體進行更細部 的編輯動作—此為半自動化的產出方式。
在最後完成的開發成果中,我們使用了Microsoft DirectShow Editing Service作為全自動 化的編輯腳本語言;而使用訊連科技CyberLink PowerDirector視訊編輯軟體的專案格式 作為輸出,並使用PowerDirector作為半自動化的細部編輯軟體。本系統以及其相關的演 算法已被合作廠商訊連科技採納成為其核心技術,並將相關技術規劃為視訊剪輯商業產 品MagicDirector,以及應用於現有產品PowerDirector中的新技術MagicCut等各項實際 商業應用。 37
“Implementation of an efficient MPEG-4 2D/3D Mixed Renderer for Visual Editing and Interactive Applications," International Conference on IEEE MPEG-4 3rd Workshop & Exhibition, San Jose, CA, U.S.A., June, 2002.
[2] 林劭穎 :”一個以 MPEG-7 參考軟體為基礎的多媒體搜索系統架構(An MPEG-7 Content-Based Analysis System Architecture)” , 碩士論文。
[3] Ding-Yun Chen and Ming Ouhyoung, “A 3D Object Retrieval System Based on Multi-Resolution Reeb Graph”, Computer Graphics Workshop, Tainan, Taiwan, June 2002.
[4] 梁 菁 秀 , “Design and Implementation of Prefetching Algorithm for Rich-Media Presentation across the Network”, 碩士論文。
[5] 陳盈慧, “Design and Implementation of Synchronization Mechanism for Rich-Media Presentation across the Network”, 碩士論文。
[6] 台大資工所謝孟吉,博士論文,”MPEG-4系統的設計與實作”,民國92年6月。 [7] 台大資工所禹智鏹,碩士論文,”MPEG-4平順傳輸串流之設計與實作”,民國92年6 月。 [8] 台大資工所楊鈞傑,碩士論文,”MPEG-4多人世界系統架構之研究”,民國92年6月。 [9] 台大資工所林聖斌,碩士論文,”衛星電視訊號擷取之模組”,民國 92 年 6 月。 [10] 台大資工所何嘉強,博士論文,”以使用者為本視訊串流技術之研究” ,民國 92 年 6 月。 [11] 台大資工所郭晉豪,博士論文,”以媒體內涵為處理基礎之相關研究及其在電視新 聞節目影像上的應用與實作”,民國 92 年 6 月。 [12] 台大資工所陳賢碩,碩士論文,”MPEG-4 數位影像壓縮系統之軟體實作",民國 92 年 6 月。 [13] 台大資工所王碩文,碩士論文,”H.264/AVC 數位影像解壓縮系統之探討與實 作",民國 92 年 6 月。 [14] 台大資工所曹智富,碩士論文,”自動於數位視訊中偵測字幕”,民國 92 年 6 月。 [15] 台大資工所方子維,碩士論文,”針對新聞影音資料之有效摘要及瀏覽工具",民 國 92 年 6 月。 [16] 台大資工所郭振彬,碩士論文,"基於視覺和聽覺分析的新聞視訊分割",民國 92 年 6 月。
[17] Ding-Yun Chen, Xiao-Pei Tian, Yu-TeShen and Ming Ouhyoung, “ On Visual Similarity Based 3D Model Retrieval",Eurographics 2003, Granada, Spain, Sep 2003 [18] Wan-Chun Ma, Fu-Che Wu, Ming Ouhyoung, “ Skeleton Extraction of 3D
Objectswith Radial Basis Functions",Shape Modeling International 2003,Seoul, Korea, May 2003.
[19] Pin-Chou Liu, Fu-Che Wu, Wan-Chun Ma, Rung-Huei Liang, Ming Ouhyoung,
Master thesis, Dept. of Computer Science and Information Engineering [24] 其他參考文獻請參考總計畫書(NSC 92-2622-E-002-002)。
會、訊連科技股份有限公司、太極影音科技股份有限公司以及台灣大學資訊工程系所的 大力支持。此外,所有參與計畫的助理,研究生,以及合作伙伴的工程人員,才是本計 畫目前成果的幕後功臣。 參與本計畫之人員名單如下:國立台灣大學資訊工程學研究所吳家麟教授,陳文進 教授,歐陽明教授,黃肇雄教授,項潔教授,周承復助理教授。國立台灣大學資訊工程 學研究所博士班研究生:黃奕勤、何嘉強、童怡新、林奕成、莊玉如、林佳緯、葉正聖、 郭晉豪、謝孟吉、黃俊翔、劉柏伸、吳賦哲、何建璋、馬萬鈞、林育慈、朱威達、陳昭 宇。國立台灣大學資訊工程學研究所碩士班研究生:郭振彬、王頌文、歐俊岳、曹智富、 陳賢碩、方子維、黃振修、沈至豪、陳萱瑋、鄭文皇、葉人豪、潘廷建、梁致豪、楊鈞 傑、林聖斌、禹智鏹、林彥光、張燕君、楊書旻、殷圖駿、楊國鑫、徐明煒、蔡鈞傑、 莊光庭、蘇家樟、田曉珮、杜佩璇、呂彥宏、涂正廷、劉秉周、羅婉琪、卓聖堯、林弘 德、沈育德、張培根。研究助理:陳雅琳,賴怡嘉。 41
以 MPEG-4 為核心之多媒體群體合作應用架構
A Multimedia Collaboration Application Framework
Based on MPEG-4 Standard
隨著寬頻與無線網路基礎建設的高度發展,電腦運算速度、顯示設備與儲存 媒介等硬體技術的一日千里,人們透過各類普及運算設備(Pervasive Devices)取 得多媒體資訊,並與其他使用者之間互傳訊息、共享資訊甚至進行虛擬會議等 應 用 已 經 成 為 趨 勢 。 而 以 往 電 腦 輔 助 群 組 協 同 工 作 (Computer Supported Cooperative Work, CSCW)已廣泛地被運用在遠距教學、軍事模擬以及多人連線 遊戲等等不同的領域。然而這些系統多半採用侷限於特定應用的封閉標準(例如 美國陸軍的模擬系統 SIMNET);或是應用現有技術以符合特定需求(例如以 Web 技術發展而成的聊天室),前者缺乏擴充性與互通性,後者則因為遷就現有架 構,並不適用於新興的媒體格式或網路技術。本論文將研究開發一個具有擴充 性的多媒體群體合作應用架構。透過這個架構,可以簡化開發各類不同的多媒 體群體合作系統(Multimedia Collaboration System)的過程。
要成功地發展出一套多媒體群體合作應用架構,有幾項關鍵技術必須加以考 量。首先是互動媒體的呈現技術,由於媒體壓縮標準的蓬勃發展,輔以個人化 服務的盛行,使得具備高度互動性的複合媒體需求日益增加。其次,網路連線 遊戲、視訊會議以及遠距教學等應用的普及,多使用者環境下的同步技術變得 相當重要;最後,對多媒體系統開發者而言,可程式化的應用程式介面將加速 開發時程並減少開發成本。 基於以上幾點觀察,本論文將利用 MPEG-4 標準所定義的工具並參考其所 提出的應用程式引擎(MPEG-J)以及多人世界(Multi-User World)架構,設計出一 個多媒體群體合作應用架構。本論文設計並實作了四項核心模組,分別是: (1)MPEG-4 表現引擎,(2)媒體存取層,(3)MPEG-4 應用程式引擎以及(4)多人應 用程式伺服器。MPEG-4 表現引擎是一個跨平台的互動媒體呈現架構,配合用 戶以及伺服端的媒體存取層,能滿足多點傳輸媒體資料流的需求。而 MPEG-4 應 用 程 式 引 擎 提 供 了 一 組 應 用 程 式 介面 , 外 部 程 式 可 藉 此 來 存 取 並 操 控 MPEG-4 表現引擎。多人應用程式伺服器則提供了可程式化的伺服端架構,配 合與用戶端之間的遠端函式呼叫實現多人連線下的同步機制。 本論文所提出的這套架構,使得程式開發者能快速開發出不同類型的多媒體 群體合作系統。為了驗證本架構之適切性,我們開發了「線上室內設計」、「具 有三維共享物件之視訊會議」以及「多人連線遊戲」等多媒體群體合作系統。 由開發者的經驗可知,本架構確實降低了這些多媒體群體合作系統的開發難度 與成本。 2
MPEG-4 應用程式開發系統的設計及實作
Design and Implementation of an MPEG-4
Application Engine
研究生:楊國鑫 撰
學號:R91922072
中華民國九十三年六月
MPEG-4 系統提供了一套工具,以開發具有高互動性的媒體內容,透過在場 景中內嵌 JavaScript 的方式,可以做出許多種場景和使用者間的互動。 透過使用現有的 MPEG-4 系統的經驗,我發現到目前存在系統的一些限制, 使得要開發更進階的使用者互動和網路應用時,有許多的困難。為了克服這些限 制,本論文開發了一個 MPEG-4 整合網路應用的系統,包括了使用者端和伺服 器端的設計和實作,並藉著這套系統開發出一些 MPEG-4 的網路應用,以證實 這套系統的可行性。 4
Linux 上的 MPEG-4 互動式多媒體播放器實作
An Implementation of MPEG-4
Interactive Media Player on Linux
研究生:楊書旻 撰
學號:R91922101
中華民國九十三年六月
MPEG-4 是由 Moving Picture Expert Group 所訂定的一套 ISO/IEC 國際標 準。MPEG-4 的目標是為了整合各種自然與合成的媒體。藉由它所題供的場景 描述機制,我們能以物件導向的方式建構一個同時包含各種異質媒體的場景。因 為 MPEG-4 的複雜度很高,要實作一個 MPEG-4 的系統並不容易,以致於 MPEG-4 不常被選作多媒體系統的解決方案。 本論文中提出一套 MPEG-4 互動式多媒體播放器的實作方式。該播放器是 在 Linux 作業系統平台上實作。也因為採用了許多跨平台的程式庫,使得播放 器可以容易地移植到許多不同的平台上。播放器也能夠同時呈現各種不同的媒體 類型,包括二維及三維的幾何物體、圖片、影片以及聲音。使用者也可以透過週 邊裝置與媒體內容產生互動,動態地改變媒體呈現的內容。 6
應用內容知覺機制於音樂導向的視訊摘要系統
A Musical-driven Video Summarization System
Using Content-aware Mechanisms
在本篇論文中,我們基於一些內容知覺的機制,完成一個應用於家庭視訊影片, 音樂導向的視訊摘要系統。在論文中我們探討了許多音訊/視訊的特徵,以用來 輔助分析輸入的音訊和視訊資料,並使用這些分析後的描述資料,將輸入的音訊 和視訊資料結合成我們的音樂影片。音訊與視訊的結合是將視訊的節奏搭配音訊 的節奏而完成。 對於音訊與視訊的結合,我們也提出了四種不同的群組方式,給予使用者在影音 結合的過程中擁有較多的彈性。由於使用者對於音樂有著較直接的認同感,本系 統所產生的音樂影片顯示出較高的專業性及較佳的娛樂效果。根據我們所做的客 觀測試,所有的測試者都對於我們的系統感到驚奇並留下深刻的印象。大多數的 測試者都很高興能有這樣的應用程式來幫助他們自動地編輯他們所創作的影片。
利用使用者注意模型決定視訊之興趣區
User Attention Model in Region-of-Interest
Determination on Videos
研究生:鄭文皇 撰
學號:R91922002
隨著多媒體文件在數量上的急遽增加,人們對於如何簡明地表現該些文件的精華 變得更加熱切。其中一個重要的技術即為興趣區 (region-of-interest, ROI) 決定。 傳統的興趣區分析主要著重於兩種多媒體文件型式:影像 (image) 與視訊 (video)。然而,對於視訊方面的研究成果卻遠落後於影像的相關研究。這種情形 肇因於沒有適當地考量影像及視訊兩者間在本質上的差異,同時更忽略了視訊獨 有的部份特性。 面對如此一個具挑戰性的研究課題,我們提出了一個以使用者注意模型 (user attention model) 為基礎的自動視訊興趣區決定架構。在這個研究中,視訊 的注意特徵值 (attention features) 及應用媒體美學 (applied media aesthetics) 的 知識都被同時考慮且利用。我們將視覺注意特徵值區分為三個基本種類:亮度 (intensity) 、顏色 (color) 及運動 (motion)。參考美學的原則,這些特徵值以 一個新提出之稱為訊框切片 (Frame-segment) 的視訊分析單位為基礎,同時依據 攝影機運鏡 (camera motion) 的種類而加以整合。在實驗中,對於數種不同的視 訊資料進行了興趣區分析及使用者相關研究並證明了所提架構的有效性。我們視 本研究為達成更高階具意義性視訊分析的一個重要基礎。
電視新聞節目中的廣告偵測
TV Commercial Detection in News Videos
研究生:葉人豪 撰
學號:R91922035
由於廣告拍攝手法和內容的多樣性,讓自動偵測電視節目中的廣告一直是一個困 難的問題。本論文在研究了有關於廣告偵測文獻以後,加上一些製作廣告的規則 以及對於廣告的觀察,提出了一個由上而下的方法來偵測電視節目當中的廣告。 因為廣告通常是影片中觀眾比較不感興趣的部分,所以導演會利用剪接等 手法,或是在廣告中特別強調某些顏色,來讓廣告影片變得有趣,並且達到吸引 觀眾和強調產品的效果。本論文利用找出影片中這些現象的出現時間,當作是廣 告出現的依據。除此之外,為了使偵測到的廣告的片段更加的精確,本論文在廣 告 偵 測 系 統 之 中 接 著 加 入 了 影 片 場 景 切 換 的 偵 測 (video scene boundary detection) 試著來自動的找出新聞和廣告之間準確的切換點。實驗中並顯示, 本系統可以良好的把新聞中的廣告區域偵測出來。倘若使用者對電腦自動選出來 的廣告區域不滿意,此系統還能夠列出其他可能的切換點來讓使用者選擇。這使 得本系統變成一個便利的切廣告輔助工具。
針對形變建立可調整精細度的三維動畫模型
Constructing Scalable 3D Animated Model by
Deformation Sensitive Simplification
迄今,為了表現出比較重要的特徵或是比較細緻的結構,這個需求帶來了愈 來愈多的高解析度的三維動畫模型。然而有些時候這樣高解析度的模型是不需要 的,或者是不希望有這麼高的解析度。例如: 當我們只是在預覽一個 3D 模型動 畫要來決定是否要下載時,我們就不需要去預覽這樣高解析度的動畫模型 ; 再 舉另一個例子: 在一些互動的系統中,為了要有更好的系統執行效率,也不會去 使用到這麼高解析度的動畫模型。 雖然現在有很多有名的演算法可以去化簡 3D 模型,但是都受限於靜態的模 型上。一般來說,這些演算法是在一個固定姿勢的模型上估計化簡後所構成的誤 差來做為化簡模型的順序來簡化這個模型,如此的話,在某些比較平常的姿勢 上,可以得到一個很好的簡化模型,但是在一些特別的姿勢時,就可能破壞掉這 個模型的重要特徵。 在此論文中我們提出了一個會考量到 3D 模型的所有動作的全自動化簡演算 法,並且保留這些模型在不同的姿勢時所有的幾何上的特徵。我們也將用一些統 計方法來與其他化簡方式做一個比較。 1
改善無線串流服務 :
訊框丟棄與封包遺失原因之區分演算法
Improving Streaming Performance
over Wired and Wireless networks :
A Similarity Based Frame Discard Algorithm
and A Trend Based Loss Differentiation Algorithm
近年來串流服務已成為網路的主要應用之一,加上無線網路快速普及,在 無線網路上提供串流服務已成為一項重要的議題。然而由於無線傳輸媒介的特 性,如較低的頻寬和較高的位元錯誤率,使得在無線網路上提供串流服務比在有 線網路上,更具有挑戰性。 當我們經由一資源有限的網路傳輸串流影片時,有時候因為頻寬的不足, 導致部分的資訊遺失是不可避免的。為了提高網路頻寬的使用率,我們必須先傳 送對影片品質有較大影響的訊框(frame)。因此我們提出一以相似度為基礎的訊 框丟棄演算法(Similarity-based Frame Discard),依相似度決定各影片訊框的 重要性。
目前串流連線普遍採用 TCP Friendly Rate Control (TFRC)為其壅塞控 制機制以達到和傳統 TCP 連線公平地競爭網路資源的目的。如同 TCP,TFRC 在遇 到封包遺失時,會認為網路已經進入壅塞狀態並調降傳送速度,以免網路的負荷 量持續增加。但在無線網路上,由於較高的位元錯誤率,封包遺失可能是由無線 傳輸媒介的不穩定所造成。因此,盲目地遇到封包遺失就調降傳送速度將會造成 頻寬使用率的低落。為了解決此一問題,我們提出了以趨勢和遺失密度為基礎的 遺失原因區分演算法,利用封包傳送時間的改變趨勢和封包遺失的密集程度,判 斷封包遺失的原因是否為網路壅塞,抑或為無線媒介所造成。
計畫編號:NSC91-2622-E-002 –002
全程計畫:民國 90 年 08 月 01 日至民國 93 年 07 月 31 日
本年度計畫:民國 92 年 08 月 01 日至民國 93 年 07 月 31 日
計畫主持人 :陳文進 台灣大學資訊工程系教授
共同主持人 :吳家麟 台灣大學資訊工程系教授
歐陽明 台灣大學資訊工程系教授
黃肇雄 台灣大學資訊工程系教授
周承復 台灣大學資訊工程系助理教授
陳炳宇 台灣大學資訊管理系助理教授
在 MPEG-4 技術方面,本計畫強調『可程式化』的技術。由於目前世面上的 MPEG-4 播放架構非常沒有彈性,一項新的應用就需要重新撰寫一個新的 MPEG-4 播放器與 伺服器。換言之,播放器與伺服器往往為了一項新的應用就必須重新改寫。本計畫預 計設計一個『媒體播放端與伺服器端的 Java 解決方案』,試圖建構一個『可程式化』 的媒體播放架構,利用伺服器端以及媒體播放端可抽換的 Java 程式碼,根據媒體目的 的不同即時性的產生動態資訊媒體,去解決現階段媒體播放架構不夠一般化的問題, 如此,我們便可以很容易和其他分項計畫的需求整合。例如,MPEG-7 的整合便可以 很容易的在伺服器端利用『內崁式的 Java 程式碼』來完成。 由於 MPEG-4 目前最直接的應用與最大的商機便是『互動電視』的應用。本計畫 所發展的互動機制也正是『互動電視』最需要的核心技術。因此,將本計畫所發展的 伺服器端技術應用在互動電視上便是一個很好的驗證。但是,若是要成功的應用在互 動電視上,本實驗室前期產學合作計畫所發展的 MPEG-4 媒體播放器就必須做適度的 調整,並增強其聲光效果,這方面也將跟分項計畫三『MPEG-4/7 三維虛擬實境內容 處理技術』相互整合。
System” of the main project “Content Engineering: Research on MPEG-4/7 Multimedia Technologies”. Its principal purpose is to develop the technology of the interactivity framework between the server-side and the MPEG-4 media player-side. In the future, the industry will put their focus on the information media that is able to interact with users. How to dynamically provide users with interesting information and content will be the key technologies, which are defined by MPEG-4 and MPEG-7 standard. We try to solve some major difficulties, including the communication mechanism between the server and the player, the architecture of creating real-time interactive media content in server side, and the framework of the client side accepts the input from users and responses to users by using the client side interactivity or deliveries the event back to the server for getting the latest information media content.
MPEG-4 is a international standard of multimedia application, which can meet all kind of requirement of different application and different hardware. However, the current framework of the MPEG-4 player is inflexible, we have to rewrite an extra MPEG-4 server for one new application. Moreover, the server and the client may have to be totally rewritten to meet a new requirement. This project expects to design “the Java solution of player’s and server’s end” and try to create a programmatic framework for whole of MPEG-4 playing process. We use replaceable Java codes at the server-side and client-side to solve the problem of lacking vague generalization in MPEG-4 playing framework at present, so we can integrate with the needs of other sub-projects easily. For example, the integration of MPEG-7 can use “embedded Java component” at server-side to achieve easily.
Because the most direct application and greatest merchandise chance of MPEG-4 is apply to interactive TV; besides, interactive function developed by this project is also the core of the most needed technology. Therefore, it’s very good to put to the proof to apply the technology developed by this project at server’s end to interactive TV. But if it is really applied to interactive TV, our MPEG-4 medium player developed by the previous experiment needs to be adjusted appropriately and enhanced its abilities, such as in 2D domain, the capability for multimedia application, and execution of Java embedded codes. This part will also be integrated with the sub-project “Content Manipulation for MPEG4/7 3D Virtual Environment”.
媒體內容卻難以在各種不同的平台之間流通,無形中使得越來越多的成本浪費在無意義 的工作上。 為此,MPEG 組織定義了 MPEG-4 標準,這個國際標準定義了一個新的多媒體框架 (Framework),試圖利用這個框架去整合各式各樣豐富的媒體,讓這些媒體可以互相合作 去完成各種的多媒體的應用。MPEG-4 打破傳統以畫面為主的影片呈現方式,取而代之 的,是以物件的方式呈現一個多媒體畫面的組成。這些物件的形式包括了圖片、影片、 聲音、文字、3D 模型、2D 向量圖形等等。MPEG-4 並定義了一個方法去描述這些物件 在時間上、空間上的安排,稱為 MPEG-4 場景描述。場景描述不僅可以描述各種不同異 質媒體之間在畫面上以及時間上的呈現,更可以描述這些物件彼此之間如何的互相互動 (事件驅動機制),以及撰寫物件間彼此的邏輯關係(利用 JavaScript),而這些特性,正好 符合目前市場的發展趨勢。 另一方面「互動電視」這個名詞最近幾年經常出現在各報章雜誌。這是一個後 PC 時代的新技術,在網際網路興起、PC 市場已飽和的情形下,電視與網際網路的結合被 視為下一波的網際網路應用的主流。最主要的著眼點在於電視與一般家庭生活緊密結合 在一起,可將網際網路使用族群由原有的個人電腦使用者擴及整個的消費大眾,也就是 說希望把 10-65 歲的電視觀眾帶入網際網路的世界。 當要將網際網路應用推廣至一般電視觀眾時,要考量幾個限制因素。一、此類應用 的模式應不離使用者觀看電視的操作習慣,而所謂觀看電視時的操作習慣表示使用者手 中所握的將不會有鍵盤、滑鼠,而是至多只有電視遙控器來控制所有顯示;二、必須在 電視功能外加入符合網際網路的應用,如在電視上可收發電子郵件、進行線上聊天、或 網頁瀏覽等。三、電視與網際網路結合後必須有加乘價值的應用,所以並非只是一俱備 上網功能的電視,而應是除了兩者原有的功能外,可另提供結合後的另類應用。如電子 節目導引(EPG)、即時互動的電視節目等。 雖然互動電視在許多年前就已經出現在市場上,但經過多年的競爭,除了一些歐洲 國家之外,目前並沒有成功的案例出現,它不普及的原因是大家無法互相信服彼此的規 格,各大廠商互不相讓的結果,最後只造成互動電視一直處於喊口號的階段。
將 MPEG-4 應用在互動電視的計畫,無論從研究或是商業上的角度來看,互動電視都實 在是一個不可缺席的研究領域。
因此,本計畫將會把 MPEG-4 為主要的技術核心應用在互動電視上,並支援總計畫 中”互動資訊媒體服務系統”(Interactive Information Media Service System)之研發。 MPEG-4 原本是個龐大而且複雜的標準,讓許多組織望而卻步,但對本實驗室而言,這 卻是一個很好的機會,因為本實驗室已經在前三年的產學合作計畫【MPEG-4 複合媒體 及網路虛擬實境之研發】(NSC89-2622-E-002-013) 中累積了足夠的背景知識以及成果, 這是一個很好的機會讓本實驗室驗證 MPEG-4 互動機制之可行性。但是,一個 MPEG-4 Interactive TV 與一個 MPEG-4 Player 之間的架構仍然有許多的差異性,本分項計畫也將 試圖突破這當中的技術難題。 本分項計畫為三年計畫,其逐一的目標在: 1. 加強前期產學合作案在 MPEG-4 方面的成果,使其能夠完全展現 MPEG-4 系 統核心的主要元素,包括了聲音特效(BIFS-Audio),動畫機制(BIFS-Animation), 以及可程式化互動機制(JavaScript 引擎)。 2. 建構高彈性的 MPEG-4 媒體串流伺服器,並整合多人互動機制,完成整套完 整的 MPEG-4 解決方案。 3. 依當時電視工業現況將 MPEG-4 成果應用在互動電視的領域上,並且整合其 他分項計畫。 1-6
在 可 預 見 的 將 來 , 可 提 供 廣 泛 且 強 力 的 多 媒 體 內 容 呈 現 , 亦 為 邁 入 Multimedia Everywhere 的第一步。 2. 研究方法 在 Linux MPEG-4 互動式場景播放器的實作上,我們採用開放並跨平台之軟體函式 庫(SDL、OpenGL、FFMpeg),因此,這個實作提供了開發 MPEG-4 播放器之軟體範本, 吾人可以用低成本的方式開發出在其它平台上之 MPEG-4 播放器。 Linux MPEG-4 互動式場景播放器過程採用模組化的設計,整個播放系統包括以下 模組:
z 媒體存取模組(Media Access module)
z 場景執行模組(Scene Execution module)
z 場景合成模組(Compositor module)
z 媒體解碼器模組(Media Decoder module)