經驗融合：兼具安全性及延展性之多媒體人本計算 (I) 產學合作計畫成果報告 (總計畫)

(1)

經驗融合：兼具安全性及延展性之多媒體人本計算 (I)

產學合作計畫成果報告 (總計畫)

成果報告

計畫編號：NSC 93－2622－E－002－033

全程計畫： 93 年 08 月 01 日至 95 年 07 月 31 日

本年度計畫： 93 年 08 月 01 日至 94 年 10 月 31 日

計畫總主持人：歐陽明台灣大學資訊網路與多媒體研究所教授

子計劃主持人：陳文進台灣大學資訊工程所教授

吳家麟台灣大學資訊網路與多媒體研究所教授

歐陽明台灣大學資訊網路與多媒體研究所教授

黃肇雄台灣大學資訊工程系教授

朱浩華台灣大學資訊工程所教授

周承復台灣大學資訊工程所助理教授

陳炳宇台灣大學資訊管理所助理教授

莊永裕台灣大學資訊工程所助理教授

參與廠商：廣達電腦

太極影音科技股份有限公司

執行單位：國立台灣大學資訊網路與多媒體研究所

中華民國 95 年 1 月 2 日

(2)

一、摘要 (中文摘要）

「經驗融合: 兼具安全性及延展性之多媒體人本計算 (Experience Fusion: Secure and Scalable Human Centric Computing)」的主要研究目的，在於建立以人為本的多媒體內容虛擬生活空間，利用人們生活周遭的各種廣域普及平台 (pervasive devices)，提供更寬廣與更方便的多媒體內容使用環境。為達此一目的，此虛擬生活空間必須橫跨各種廣域普及平台並有著容易操控與顯示的介面，對於多媒體內容之使用，也必須提供分析 (analysis)、延展性 (scalability)、一致性 (synchronization)、安全性 (secure) 等服務，並符合 MPEG-4 與 MPEG-7 等國際標準之規範。

時至今日，人類生活與數位科技的關係，已經從商品導向、服務導向而走進體驗導向的時代，數位科技已經發展為一種以人為本的全新體驗。因此，體驗融入 (Experience Fusion) 及人本計算 (Human Centric Computing) 指出了未來數位媒體時代的大方向。雖然在近年來國內各界有關「知識經濟」、「智價經濟」的呼聲響徹雲霄，但是真正能實現數位內容運用的「體驗經濟」與「美學經濟」之佈建卻少有人提及。因為，數位內容被創造出來的最終目的應該是讓人們體驗新的生活或工作型態。對多媒體的各種應用而言，如何有效率地處理多媒體內容的產生、儲存、傳送、編輯、呈現，都是最後是否成功的重要關鍵。透過多媒體標準的推展與技術的研發，我們將人類的活動、思考、感受等「內容」數位化、人性化，進而到真正體驗數位內容的時代。正因為如此，多媒體應用已進一步從電腦革命、通訊革命、內容 (Content) 革命演進到體驗 (Experience) 革命。

本計畫將研發兩項主要系統，即普及生活空間 (UbiFun Space) 與隨身媒體精靈 (Ambient Media Wizard)。為支援上述兩大系統，我們將研發下列技術模組：多使用者之互動服務 (Multiuser Telecollaboration)、可攜式媒體呈現平台 (Portable Media Presentation Desktop)、進階操控與行動裝置繪圖模組 (Advanced Control and Mobile Graphics)、先進 MPEG-4 模組 (H.264 / AVC / AFX / X3D)、內容分析與調適模組 (Content Analysis and Adaptation Modules)、位置知覺模組 (Location-aware Module) 以及媒體串流 (Streaming) 等。

本計畫將以個人電腦 (PC) 與可攜式行動裝置為主要發展平台，分兩年完成上述技術模組與整合系統之研發。

(3)

(英文摘要）

Experience Fusion: Secure and Scalable Human Centric Computing

The vision of this project is to realize the principle of human centric computing in multimedia-rich ambient intelligent space, and enable so called ubiquitous media access where people can access multimedia contents anywhere, anytime, from any types of pervasive devices in the ubiquitous computing environment. In order to achieve this vision, this ambient intelligent space must run on heterogeneous device platforms, support more natural (e.g., voice, gestures) human computer interactions, and provide intelligent media services such as content analysis, scalability, synchronization, and security. In addition, it must conform to MPEG-4 and MPEG-7 international standards to ensure practical and widespread deployment.

The relationship between people and digital technologies has evolved from device-orientated computing in the past, followed by service-oriented computing nowadays, to end-user experience computing of the future. That is, digital technologies are entering a new era of human-centric computing with a strong emphasis on "getting the end user experience right", making digital technologies adapting to the users rather than users adapting to the digital technologies. This new era presents a new multimedia research direction in adapting human centric computing and experience fusion. In Taiwan, although there are many ongoing, heated discussions about the need to create "knowledge economy" and "intellectual economy", they all fall short on how to realize them through the deployment of digital content infrastructure for "experience economy" or "artistic economy". The ultimate goal of the digital media evolution should bring forth a new media experience where media can be more seamlessly integrated with our everyday lifestyle and physical working environment. For example, the upcoming digital media evolution can turn our everyday activities, thoughts, emotions, etc., into digital contents that can be archived, recalled, and shared.

We believe that there are two key factors for success in digital media evolution. The first success factor lays in technical innovations for efficient, secure content creation, storage, communication, authoring, and presentation. The second success factor is that any new enabling technologies should follow through the vigorous process of international standard development to ensure worldwide adaptation.

This project will research and develop two major systems called UbiFun Space and Ambient Media Wizard, while the following key technical components can be integrated to support them: multiuser telecollaboration, portable media presentation desktop, advanced control and mobile graphics, advanced MPEG-4 modules (H.264/AVC/AFX/X3D), content analysis and adaptation modules, location-aware modules, and media streaming. This project will use PC and mobile devices as the main development platforms. The key technical components and two systems are expected to be completed over two years.

(4)

二、研究計畫之背景及目的

時至今日，人類生活與數位科技的關係，已經從商品導向、服務導向而走進體驗導向的時代，數位科技已經發展為一種以人為本的全新體驗。因此，體驗融入(Experience Fusion)及人本計算 (Human Centric Computing) 指出了未來數位媒體時代的大方向，如同微軟公司(Microsoft)下一代作業平台 Vista 即以 Experience Computing 為其 Roadmap。其技術內容包括：資訊及網路的安全性(Secure)與傳輸上的可調整性(Scalable)。雖然在近年來國內各界有關「知識經濟」、「智價經濟」的呼聲響徹雲霄，但是真正能實現數位內容運用的「體驗經濟」與「美學經濟」之佈建卻少有人提及。但我們相信，數位內容被創造出來的最終目的應該是讓人們體驗新的生活或工作型態。對多媒體的各種應用而言，如何有效率地處理多媒體內容的產生、儲存、傳送、編輯、呈現，都是最後是否成功的重要關鍵。MPEG-1、MPEG-2 標準的制訂，成功地促成了 VCD、DVD 等多媒體應用。而 MPEG-4 強調的可調整性(Scalability)、互動性(Interactivity)以及可擴充性 (Extensibility)的特性，則使得多媒體內容變得豐富而多樣化。在 MPEG-7 與 MPEG-21 標準中，多媒體應用的運作思維已經從媒體壓縮與編輯轉往數位內容的分析、描述與智慧財產權的保護等。透過多媒體標準的推展與技術的研發，我們將人類的活動、思考、感受等「內容」數位化、人性化，進而到真正體驗數位內容的時代。正因為如此，多媒體應用已進一步從電腦革命、通訊革命、內容(Content)革命演進到體驗(Experience)革命。

在 MPEG-4 相關研究方面，為因應現今網路世界中，多人(Multi-user)互動需求的快速成長， MPEG-4 標準制訂群在 2003 年將動畫架構(AFX，Animation Framework Extension)以及多人世界 (MUW，Multi User Worlds)的部分獨立成 Part 11，以期將 MPEG-4 帶往充滿更多可能性與創意性的多人虛擬世界。因此，以 MPEG-4 來開發多人互動之虛擬世界，將是深具潛力的研究方向。然而，現存之多人互動共享系統多半採用侷限於某一特定應用的封閉標準(例如微軟的 MSN Messenger)，或是應用現有的技術以符合特定需求(例如以 Web 技術發展而成的聊天室)。平心而論，前者缺乏擴充性與互通性，後者則因為遷就現有架構，並不適用於新興的媒體格式或網路技術。因此，我們將研發一個跨平台並具有擴充性的多媒體群體合作系統架構，能將 MPEG-4 場景的互動邏輯與呈現方式分離，大量節省媒體內容應用系統的開發時間。

另一方面，從 MPEG-4 延伸至 MPEG-7 與 MPEG-21 的相關研究，我們整理出提昇未來數位體驗的三大研究方向：內容分析與調適(Content Analysis and Adaptation)、先進視訊壓縮(Advanced Video Coding)與數位權利管理(Digital Rights Management)。多媒體內容分析與應用的相關研究以往皆以內容為基礎的搜尋/瀏覽/管理(Content-based Retrieval/Browsing/Management)為主。然而，由於低階特徵值與高階語意間的落差過大，此類研究的成果常無法合乎預期。而我們所進行的內容分析與調適模組能提供自動分析、過濾、管理與摘錄媒體等功能，將有效地提昇媒體運用的生活體驗。因此，我們將參考 MPEG-7 與 MPEG-21 所制訂的內容描述機制，以內容知覺 (Content-aware)及人本運算的原則達到全域多媒體存取(Universal Multimedia Access)與數位權利管理等目的。此外，為提昇多媒體影音體驗，我們也將針對 H.264/AVC 等新穎的壓縮技術進行研究，在更低的頻寬要求下提供更高的視訊品質。

上述的理想與目標若無領先世界的電腦公司及媒體公司共同參與開發，則研究成果將很難落實。反之，若有廣達與太極的大力支持，我們深信在兩年內，必將有機會在 Experience Fusion 相關研究領域中，達到領先全球的目標。

(5)

情境體驗 - 規畫五年內未來生活

I. 沒時間觀賞運動節目？ "累死了…"，遠遠的又聽到了抱怨聲。小麟最近在趕公司的案子，時常都要忙到半夜十二點才能踏進家門。每天短暫的回家例行休閒，就是打開家裡的互動電視看看今天的中華職棒。短短的五分鐘，或許可以補償這個已經整整半年沒看現場與直播的大獅迷。 "二局打帶跑戰術中，陽東益擊出二壘飛球，因熊隊趨前守備，石志偉接個正著演出雙殺守備，獅隊屢攻不下…"。"六局上兩人出局一在壘，陳該發擊出一支中外野深遠的二壘安打，呂俊雄及潘忠韋回本壘得領先的兩分…"。"七局下，陽東益觸身球上壘，陽森及黃甘霖連續兩支二壘安打得兩分追平，但兩人出局黃甘霖在三壘，陳連宏再次中斷得分機會…"。"統一獅與 La new 熊苦戰 10 局，雙方以 2：2 平手"。看完之後便要刷牙睡覺了。小麟突然想起最近 NBA 也正在比東西區冠軍賽，於是順手按了按電視遙控器，切換到預錄選單。在節目單上選下了他想要預錄的 NBA 比賽，並且勾選了視訊摘要的功能，畢竟休閒的時間總是不夠…。（不過總有個好處是，至少視訊摘要不會有無聊的廣告！）（關鍵詞: 電視預錄，視訊內容分析、摘要） II. 立即體驗新家的美！ 小進最近買了信義計畫區的小套房。已經在內湖科技園區某公司當上小主管的他，最近就要結婚了。不過有件事他倒是挺擔心的，想在結婚當天，把這房子當作送給另一伴的秘密禮物，他已經規畫了許久，現在就只差新房子的室內設計還沒搞定。之前小進裝潢他現在租的房子，雖然室內設計公司也用了電腦程式的輔助，卻不能即時的與小進討論，使得裝潢出來的房子跟心裡所規畫的還是有點差距。不是照明的問題，就是擺設不搭調。這次他請了另外一家室內設計公司來參與設計規畫。現在小進只要跟設計師約好時間（他們甚至是用 MSN 來即時地問問對方有沒有時間討論），再利用 MPEG-4 瀏覽器連接到公司對應的網址，就可以在網路上與設計師一同規畫他的新家。瀏覽器會將他們新家的三維模型載入，設計師與小進可以即時的互動，來更改新家的室內設計，像是傢俱擺設、油漆選色、燈光設計等。利用擬真電腦繪圖的技術，使得電腦上產生的裝潢效果，幾乎保證與施工後沒有太大差異。十天後，小進滿心歡喜的看著裝潢好的房子。心想，要不是因為新科技，這任務還真不可能達成呢！（關鍵詞: 三維場景，互動，網路程式，即時擬真電腦繪圖）

(6)

III. 一定要坐在一起玩嗎？

今天放學的比較早，小明與弟弟有了多的時間可以回家玩電視遊樂器。最近他們迷上了瑪利歐世界二代（Mario World II），裡面有很多小遊戲讓兩個人可以盡情比賽。通常小明總是輸給弟弟，但他總是不服氣！今天可真的不太一樣，小明今天到目前為止可是贏的飽飽的。眼看著就快要坐捷運去補習了，又想說這個這麼好的機會可以贏老弟，小明當然不會放過。於是順手開了他的掌上電玩，將遊戲的目前狀態自動移轉過去。小明然後收收東西就出門了。在等捷運的同時，他再打開掌上電玩繼續開始。掌上電玩的螢幕雖然比較小，不過遊戲性卻完全的一致。小明這次可是心滿意足的大勝了他老弟，這還是這個月第一次呢！（關鍵詞: 攜帶運算，安全性機制，資料同步） IV. KTV@home 小復約了同學到他家裡玩，他們並且打算下午去錢櫃唱 KTV。沒想到下午台北下了一場大雨，他們去錢櫃的興致也被沖淡了。小復知道家裡的互動電視最近多了 KTV@home 的功能，沒試過的他就順手開了起來。漂亮的 KTV@home 的選歌介面馬上就吸引了他們，利用方便的搜尋功能，他們順手選了幾條熱騰騰的新歌。經過自動智財權授權的機制，小復他們馬上就開始歡唱了（付費的當然是機上盒的所有者﹕可憐的父母嘍）。在唱歌的同

(7)

時，除了 MTV 可以看以外，有時候還會有立體的卡通人物在螢幕前跟他們玩 Para Para。小復的手勢動作，藉由電視上的攝影機捕捉下來，可以用來控制銀幕中虛擬人物的動作。還會有虛擬評審來將他們的舞姿打分數呢！他們以前都完全沒想到在家唱 KTV 也是很有趣的。（關鍵詞: 數位產權管理，MP3，MPEG-4，影音串流機制，三維場景，先進互動機制） V. 不一樣的手機 小炳有隻 MPEG-4 Mobile 功能的手機。想到這星期六要帶女朋友去玩，在公車上，他隨手開了手機，點選了由旅遊網站所提供之 MPEG-4 互動服務。對於想要去的東北角海岸，他詳細瀏覽了各個景點的簡介短片，心裡計畫了從福隆到礁溪之海濱之旅。”喔，原來蜜月灣還可以玩衝浪板呀”，從短片中看到許多人在玩衝浪，也吸引起他濃濃的童興。接下來就是訂房了，網站上同時提供了住宿飯店的環場圖與 3D 導覽，讓他可以更詳盡的了解住宿飯店的內容。想想一般只能照相/錄影/撥放的次世代手機，多了 MPEG-4 的功能，還真的讓多媒體變得更豐富了。（關鍵詞: MPEG-4 Mobile，影音串流機制，安全性機制，MPEG-4 開發工具）

(8)

三、研究方法及成果 ● 研究方法 為落實前述情境體驗，必須要有下列核心技術及產品配合，我們相關的規畫如下: 兩大系統 A: UbiFun Space 普及生活空間 1. Multiuser Telecollaboration 多使用者之互動服務 2. Mobile Graphics Module 行動裝置繪圖模組

3. Portable Media Presentation Desktop 可攜式媒體呈現平台

4. Novel MPEG-4 Modules (H.264/MPEG-4 AFX/X3D) 先進 MPEG-4 模組註: UbiFun Space 為 Ubiquitous Fun Space 之縮寫。

B: Ambient Media Wizard 隨身媒體精靈

1. Content Analysis and Adaptation Modules 內容分析與調適模組 2. Location-aware Module 位置知覺模組

3. Streaming 媒體串流

4. DRM 數位權利管理 (本計畫先行規劃，後續計畫再行開發) 註: Ambient Media Wizard 含有 Ambient Computing 之含義。

茲將上述兩大系統之功能分述如下:

A: UbiFun Space 的基本架構主要是由 Novel MPEG-4 Modules – H.264/AVC 及 MPEG-4

AFX / X3D 等先進 MPEG-4 模組(子計畫二與子計畫三）所建構而成。在使用者面前呈現多媒體內容的則是 Portable Media Presentation Desktop: 可攜式媒體呈現平台( 子計畫一），而使用者對前述平台之操控則是透過 Advanced Control and Mobile Graphics: 進階操控與行動裝置繪圖，(子計畫三）來進行。當使用者透過 Ambient Media Wizard 與其他使用者共同合作、分享、互動時，則是 Multiuser Telecollaboration: 多使用者之互動服務，（子計畫一）將扮演最關鍵的角色。上述四項模組便是構成 UbiFun Space 的主要成員與核心技術之所在。

B: Ambient Media Wizard 的特色在可提供使用者 Location-aware Information: 位置知覺

模組（子計畫四）。此外，由於使用者使用的網路環境、所在的實體位置與所用之裝置均可能因時因地而有所不同， Ambient Media Wizard 為了提供使用者所需的各種內容時，便有著 content analysis、content scalability、content synchronization、content protection 等之工作要進行，這些工作便是由 Content Analysis and Adaptation Module：內容分析與調適模組（子計畫二）、Streaming：媒體串流（子計畫四）與未來將開發之 DRM：數位權利管理模組等技術模組來支援，下圖中的虛線即表示 Streaming 與 DRM 功能之內容的流向。此四項模組當然就是構成 Ambient Media Wizard 的主要成員與核心技術之所在。

(9)

Ambient Media Wizard - with Location-aware info. Human

Content Pool UbiFun Space

(novel MPEG-4 modules)

Presentation Desktop Advanced Control Conten t Analy sis & Adap tation (MP EG-7) Mu lt iu se r Te le collab ora tion : Streaming & DRM

(10)

● 研究成果

總計畫最需要做的部分是系統規劃與整合，在這部份我們規劃出兩大主題，分別為 UbiFun Space 普及生活空間與 Ambient Media Wizard 隨身媒體精靈。其中這兩大項各自包含四小項與三小項的技術與系統，成果簡介如下。雖然由各組為主力各自發展這兩大主題，我們為了能夠有效率地系統整合，一開始就共同規範使用的程式語言，各個模組的參數傳遞 (procedure and function call parameters)、同步機制、以及最重要的媒體檔案資料格式以及所附加的 metadata 格式。以下所展示的成果常跨越兩三個子計畫之間成果的互用，同時各組人員也都長時間使用共同的實驗室空間與設備，利用長時間生活在一起產生自然的合作。我們常發覺此種合作方式可減少成員之間的摩擦，同時我們藉由兩次主要大規模的對外展示來促成展示系統的穩定性，訓練參與成員的計畫展示能力，並藉以了解工業界的需求與意見。上述兩次展示分別展示給台達電(2005.3)與廣達電腦(2005.4)，各集團除了董事長(鄭崇華, 林百里)親自出席之外，還包含集團各子公司總經理及技術總監等。當時的展示過程已經整理成 DVD 光碟做為本計畫成果之附件。 1. UbiFun Space 普及生活空間 Multiuser Telecollaboration 多使用者之互動服務 【共享虛擬環境下之應用程式共用技術】

共享虛擬環境(Collaborative Virtual Environment)是一種分散式的虛擬空間。分散在世界各地的遠端使用者們可以透過網路同時進入一個虛擬空間與其他使用者或與虛擬環境中的任何物件做互動。在分項計畫一所開發完成的平台中，我們可輕易製造出 2D/3D 複合式的共享虛擬環境，讓多個遠端使用者在同一個虛擬環境中同步瀏覽多媒體文件、並操作共享虛擬空間下的多媒體物件。媒體創造者在這個架構下可以很迅速地開發出各種不同類型的多媒體群體合作應用，例如多人虛擬會議、共同編輯設計、多人線上遊戲…等。 z 在我們的系統架構下，可以很輕易的將外部的單人棋類小遊戲轉換為三維環境下的多人連線棋類遊戲。圖一、多人棋類遊戲 z 利用我們的系統，藉由嵌入投影簡報軟體以及繪圖軟體，便可以很輕易的在虛擬

(11)

會議室中提供功能強大的投影簡報功能以及共享白板。圖二、多人虛擬會議室 z 我們提供了一個家庭虛擬實境的空間，在這個空間裡可以與遠端的使用者一起玩電動遊戲機的遊戲以及同步瀏覽三維空間中的相片集。圖三、家庭多媒體娛樂中心 【多媒體應用程式快速開發系統設計及實作】 關於多使用者之互動服務，分項計畫一實作出一個多媒體應用程式快速開發系統（RAMAD system, RApid Multimedia Application Development system）。RAD 將程式開發變成循環式的過程。在開發過程中，可以作修改、測試、再修改、再測試，如此週而復始，直到達到目標。RAD 的方式不但開發流程不用重新來過，節省許多的資源，更可以開快開發的速度。我們利用 RAD 的精神來設計出一個可以快速地開發多媒體應用程式的系統。

我們選用了 Python 語言來實作這樣的系統，因為 Python 語言不但是一個 Script 語言，語法簡單、彈性大、限制較少，更具有物件導向的特性，提供有類別、繼承及模組等功能，非常適合用來做為快速開發的開發語言。圖四為分項計畫一開發出來的 RAMAD editor，它可用來產生 RAMAD Applications，即多媒體應用程式，而產生的 RAMAD Applications 也可以立刻測試及修改，如此的開發過程形成一個循環，正符合 RAD 的精神，可以加快使用者的開發速度。

(12)

MPEG4 Scene Nodes Routes Windows Event Functions MPEG4 Scene Nodes Routes Windows Event Functions 圖四、RAMAD Editor

Mobile Graphics Module 行動裝置繪圖模組

【手持式通訊設備上二維與三維繪圖引擎的調查與設計】

分項計畫三以 J2ME 為設計環境，發展在應用程式介面（Application Programming Interface， API）上與工業標準 OpenGL ES 1.0 版相容的 J2ME 3D 引擎架構。針對 J2ME 環境，提供 OpenGL ES 的後端 3D 引擎架構，而應用程式介面（Application Programming Interface，API）將與 OpenGL ES 1.0 版相容，使原本廣大的 OpenGL ES 程式設計師可以輕易的在 J2ME 環境中開發 3D 程式，而在後端的部分我們則提出以 J2ME 為設計的獨特 3D 引擎架構。圖五 顯示的利用此引擎在 emulator 上執行的結果。

(13)

在浮點數運算方面，因為手機上並沒有浮點運算的功能，原本為了模擬浮點數的運算效果，我們以兩個長整數來代替浮點數，但由 profiling 的結果發現，如此做法會造成運算量過大。有鑑於此，我們嘗試了直接以整數來代替浮點數運算的作法以換來速度上的提升。雖然這樣做的結果，必然會帶來精確度上的犧牲，但在手機小螢幕的顯示上，我們認為這種誤差是可以接受的。 Render 圖形比較: 左側為模擬浮點數運算，右側是以整數運算所得的結果。圖六、模擬浮點數運算與整數運算所得的比較藉由省去模擬浮點數運算所造成的 overhead，我們可以得到三倍以上的速度改進。加上 visibility algorithm 部分的加速，我們目前已將程式的執行效能，提升到以往的八倍左右。 【MPEG-4 多媒體應用程式之資源管理】 在分項計畫一中，我們針對 MPEG-PY 系統，設計了 MPEG-4 應用的資源管理工具，其功能包含了資源監測、視訊解碼控制、以及自動針對 CPU 使用量調整的 Resource Manager。其中，由於視訊解碼、重繪畫面的程序時常消耗大量的計算資源，因此 Resource Manager 以控制視訊的解碼與重繪的模式來調整 CPU 使用率。並且綜合三種不同的調整策略(使用 adaptive frame rate, 根據優先權調整 Rendering Frame Rate, 根據優先權暫停視訊播放)，以三階段演算法控制視訊播放模式來達到降低 CPU 使用率的目的。此外，使用此資源管理工具，我們即可將資源控制實作成 MPEG-PY 應用的模組，重複的使用在不同的 MPEG-P 多

(14)

媒體應用之上，達到資源模組重複利用、降低設計時間的優點。舉例而言，圖七顯示根據優先權暫停視訊播放的 CPU 使用率變化。 CPU Usage 0 5 10 15 20 25 30 35 40 45 50 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 Time CP U U sa ge CPU Usage 圖七、根據優先權暫停視訊播放的 CPU 使用率變化

Portable Media Presentation Desktop 可攜式媒體呈現平台

【隨身影片剪輯系統】 分項計畫一發展出一個隨身影片剪輯系統(mProducer)，針對三個階段數位內容的拍攝、儲存、及編輯進行處理。mProducer 的目標是實現在隨身裝置上的”point-of-capture”儲存和編輯。Point-of-capture 的意思是指在利用隨身裝置拍攝了個人經驗後，能夠儘快地加以剪輯並儲存。讓使用者得以及時地將編輯過後的數位內容發佈出去。為了讓一般人都能夠在他們的隨身裝置上做及時性的影像剪輯， mProducer 以將以下幾個因素考慮進去：量身打造的編輯介面、有限的儲存空間、與有限的運算能力。圖八顯示 mProducer 在 PDAs 上的使 用者介面。 圖八、mProducer 在 PDAs 上的使用者介面

(15)

Novel MPEG-4 Modules (H.264/MPEG-4 AFX/X3D) 先進 MPEG-4 模組

【X3D】

分項計畫三發展一個簡單但功能齊全的 X3D 瀏覽器甚至編輯器，讓不管是程式設計師或一般使用者在接觸 X3D 這個領域時，能夠覺得親切而容易上手。

在實作部分，我們把 CyberX3D Inc.這家公司所釋放出的免費 source code 當做一個 Parser，完成 Parser 之後的工作便由我們將整個場景給 Render 出來。目標是讓我們的 Browser 能夠符合 X3D ISO 的標準。在成果部分，我們也與 Bitmanagement 所開發的結果做比較。Bitmanagement 公司所發展的瀏覽器是目前支援度最高，Render 出來的效果也是最好的一個。Bitmanagement 的成果是需要付費的商業應用，本產學案成果則為自行開發，可移轉給合作廠商，加入產品後行銷世界。以下是我們開發的瀏覽器(第一年成果)和 Bitmanagement 公司所設計的瀏覽器之間的測試比較，可以明顯看到，雖然我們的瀏覽器尚需第二年發展，但已有其基本的雛形。可以明顯看出，我們已改善光源的效果，使 3D 模型不再是平面的視覺效果。此部份我們的成果進度超前。圖九為 X3D 的展示成果與比較。

(16)

與 Bitmanagement 的 Browser 之間的比較 (II)。其中上列的(a)(b)(c)(d)為我們的成果， (e)(f)(g)(h)為 Bitmanagement Inc.的呈現結果

我們的系統成果(除了 Shape 和 Geometry 元件的其他效果) 圖九、X3D 瀏覽器

另外，在完成了簡單的瀏覽器之後，為了使 X3D 的場景或模型有更豐富的呈現效果，所以我們使用了目前最熱門的 GPU 技術來做進一步的 Rendering，其中我們所使用的 GPU 程式語言是 GLSL（OpenGL Shading Language），可以很方便的和原本的 OpenGL 做結合的工作，以下是一些 Shading 的結果。

(17)

(8.e) (8.f) (8.g) (8.h) 圖十、使用 GLSL 所產生的龍的模型，其中

(a) Original Model, (b) Vertex Shader, (c) Fragment Shader, (d) Toon, (e) Gooch, (f) PolkaDot3D, (g) Brick, (h) fire 【H.264/AVC 解碼呈現】 在分項計畫二中，我們實做出一個有效率解 H.264/AVC 壓縮的解碼引擎，我們研究其各個模組間的特性，並利用指令集間的平行處理演算法及現有平台所提供的 VLIW 機器架構用來達到降低所需指令個數的目的，我們實做的部分包括運動區塊補償，空間獨立預測，反轉換及反量化，熵函數以及迴圈內除區塊，實做結果與參考軟體比較後均正確無誤。除了實做外，我們分別對各模組做了一基本的加速動作並為未來再加速奠立基礎。為了顯示我們的實做成果，我們分別使用兩則五秒的 CIF 影像當作測試的基礎並由下表看出加速前後的差別。表一、各個工具模組時間佔用表，以加速前後之比較，測試串流包括 5 秒鐘 650 Kbps 低頻寬及 5 秒鐘 2M bps 高頻寬之視訊

2. Ambient Media Wizard 隨身媒體精靈

Content Analysis and Adaptation Modules 內容分析與調適模組

【藉由音樂情緒與視訊節奏偵測電影中具強烈情感之事件】

在分項計畫二中，我們發展一個利用音樂情緒(music mood)和影片節奏(video tempo)來對電影分析的系統，呈現“內容分析與調適模組＂的初步成果。在音樂情緒分析部份，我們發展三個模組(module)：對話/音樂辨別(speech/music discriminator)模組，音樂追蹤(music tracking)模組和音樂情緒偵測(music mood detection)模組。在影片節奏分析部份則是利用鏡頭長度(shot length)和動作密度(motion activity)為偵測的依據。

(18)

z 情緒事件分析(emotional event detection)─偵測出電影裡最讓人印象深刻或情緒反應強烈的場景。

z 原聲帶視覺化(Original Sound Tracks (OST) visualization)─將情緒反應強烈的場景配合電影原聲帶做出新型態的影片展示。圖十一顯示幾張由電影“鐵達尼＂中自動偵測到情緒事件的數張截圖： (a) (b) 圖十一、從電影鐵達尼號的情緒事件中截取的數張截圖：(a)排名第一的事件，(b)排名第二的事件上述的結果中我們可以看出，主觀測試的給分並不差，情緒事件偵測可以將不少具強烈情緒的事件截取出來，而原聲帶視覺化則可以讓人回憶電影的內容。未來我們將繼續將其他情緒偵測模組，諸如語音情緒偵測(mood detection of speech)模組和表情偵測(mood detection based on facial expression)模組加進我們的系統中，以構成一個更完美的電影情緒偵測系統。【以使用者注意模型為基礎之多媒體文件調適】

在分項計畫二中，我們發展一個以使用者注意模型(user attention model)為基礎並搭配相關影像分割(segmentation)與填補(inpainting)等先進技術之多媒體文件調適系統，其中包含重點物件萃取 (important object extraction) 與內容重整與調適 (content recomposition and adaptation)模組。我們在這部份對本技術提出兩種可能的應用：第一種是異質環境之視訊傳播(video communication in heterogeneous environment)。第二種是智慧型文件轉換(smart

(19)

transcoding)。

影響多媒體文件調適成果的首要因素在於重點物件的萃取，因此我們在實驗中先進行使用者分析(user study)來檢驗其有效性。我們邀請了二十位參加者對由各影片中所萃取出之重點物件是否”具代表性”或”吸引其注意與興趣”給定一主觀意見，包括滿意(Good)、可接受 (Acceptable)及失敗(Failed)。所選定之測試影片分為兩大類，第一類(Data Set I)主要包含電視節目、電影及廣告片段，而第二類(Data Set II)則包含各類運動影片。我們將所獲得的統計結果列於下圖。

圖十二、重點物件萃取之使用者分析統計結果

圖十三以實例顯示以使用者注意模型為基礎與基於純粹空間解析度轉換之實驗結果。

(20)

(b) 圖十三、多媒體文件調適結果之實例比較。 (a)為本系統之成果，而(b)為傳統純粹空間解析度轉換之結果。(訊框時序為由左到右接著從上而下。) Location-aware Module 位置知覺模組 【位置知覺模組】在分項計畫四中的位置知覺模組，我們將改進原先必須由用戶要求的位置測量轉換成自動對用戶週期性更新資訊的即時反應機制。因為考量到系統提供這些資訊的準確性，所以我們增加了一個可以記錄每名用戶移動模式的檔案，如此一來，我們將可以對用戶提供及時的服務並增加用戶的滿意度。我們系統的運作為每秒鐘更新地點資訊，並且位置知覺的錯誤距離會在約略幾十公分以內。圖十四顯示即時追蹤及預測用戶移動路線示意圖。更新地點資訊的頻率取決於不同種類的服務。目前我們的系統提供的服務包括「同伴追蹤」，「安全系統」，和「導引系統」。圖十四、即時追蹤及預測用戶移動路線示意圖

(21)

藉著位置知覺技術，我們的系統可以提供與導遊一樣的服務。當用戶進入一個有特定主題的展覽房間時，伺服器會自動地以電子郵件的方式傳送與此主題相關的資訊給用戶。例如，當遊客接近博物館中的藝術作品，伺服器將立即傳送影像、導引資訊以及此作品的介紹給遊客。如此一來，我們將可以用電子設備代替職員，並且當訪客到達任一個地點時，能更加自由地獲得有用的資訊。圖十五、路線導覽圖【室內定位系統】足跡定位系統完全藉由安裝在日本木屐上的感測器來計算該使用者的位置。使用者只需要穿上特製的木屐，且不需要額外的設定與校正，便可進行定位。足跡定位系統運作的基本概念可由圖十六說明。當使用者在沙灘上由位置 A 走到位置 B，會在地上留下足跡。故欲追蹤該使用者的位置，系統只需要不斷的量測出每一步足跡間的位移向量，並以出發點為基準點，將每一步的位移向量加起來，便可得到使用者現在的位置。

(22)

v_di 起始參考點 v_di 現在位置位移向量位移向量 Σ 每一步的位移向量 vvdidi 起始參考點 v_di v_di 現在位置位移向量位移向量 Σ 每一步的位移向量圖十六、足跡追蹤法：將每一步的位移向量相加便可得到使用者現在的位置 Streaming 媒體串流 【差異性服務模組】分項計畫四中完成的串流系統最主要有兩個部份。第一個部分是基於相似框架的捨棄模組，可以根據串流的速率作動態調整。另一個是服務控制模組，是做差異化服務的控制。圖十七顯示我們發展的串流伺服器，圖十八、十九顯示不同服務等級的視訊效果。圖十七、串流伺服器

(23)

圖十八、串流客戶端(較低等級) 圖十九、串流客戶端(較高等級) 圖二十表示在我們所提的架構下，不同服務等級的網路流量差異。它相對應於較高等級的用戶比起較低等級的用戶有較好的品質。圖二十、不同服務等級流量的速率【多源傳輸模組】分項計畫四中，我們發表一個系統設計以更好的利用網路資源，並建議多來源串流系統的概念，其可以讓使用者由網路中多個來源得到一個串流物件(streaming object)。為了最大化網路生產力，我們提供了 MCMCF-基礎的演算法以做服務選擇。MCMCF-基礎的演算法以下列步驟達到最佳化成果：a)選擇適合要求的伺服器(server)，b)以選擇伺服器來分散負載， c)避免不同使用者同時要求的物件串流間有自我阻塞。在模擬評估中，我們將我們的系統與貪婪-基礎和最小成本基礎的系統比較，結果證明在不同的網路模型中，不同的連結接收力和丟失率之下，我們的系統大幅勝過另兩個系統。如圖二十所示，我們由頻寬受到限制的網路上來取得影片串流，而我們可以明顯的看到沒有使用多來源系統的影片遭受到遺失訊框之苦及比使用多來源系統的影片更低的品質。

(24)

(25)

四、結論與討論

在各分項技術與兩項系統的開發過程中，參與本計畫的研究人員已充分掌握到如何發展以人為本的多媒體內容虛擬生活空間。在【普及生活空間】(UbiFun Space)中，我們發展一個多人互動的呈現平台，結合呈現 (presentation)、合作 (collaboration) 、應用程式開發 (application development)與資源管理(resource management)等功能。此外，在影片與三維物件的呈現方面，我們結合 H.264 與 X3D 兩項先進 MPEG-4 模組，使系統的功能更加完整。而行動繪圖引擎的開發更將普及生活的概念拓展到行動裝置上。在【隨身媒體精靈】 (Ambient Media Wizard)中，我們主要結合了內容分析與調適、位置感知與串流等技術。由位置感知模組偵測出位置資訊後，串流伺服器依照使用者端的頻寬與資源需求/限制提供由內容分析與調適模組處理過的影音資料，由此完成“隨身＂與“媒體精靈＂的應用功能。本計畫涵蓋的技術包含系統、三維繪圖、網路通訊、位置感知、串流技術、資料壓縮、訊號處理、內容分析等。除了整合性的系統之外，各個單項的模組亦可協助業界在未來相關應用產品的研發上快速取得領先地位。另外，許多議題在學術界仍是亟待開發的先進技術，如行動繪圖函式庫與進階的內容分析。面臨學術研究上的挑戰，本計畫除了對業界有所幫助外，在學術上也預期將會有不少的突破與論文發表。五、專利申請與專利調查部份子計畫相關成果已申請專利，並對相關專利進行調查。專利申請與專利調查部份請參閱子計畫一、二與子計畫三。

(26)

六、相關論文完成

[1] 台大資工所莊玉如，博士論文，以矩陣為基礎之離散餘弦轉換分割與合併方法及其在多媒體處理上之應用，民國 94 年 6 月。

[2] 台大資工所林佳緯，博士論文，可逆變異長度編碼之特徵分析及其建構演算法，民國 94 年 6 月。

[3] 台大資工所吳賦哲，博士論文，DOMAIN CONNECTED GRAPH: THE ESSENTIAL SKELETON OF A 3D SHAPE FOR ANIMATION，民國 94 年 6 月。

[4] 台大資工所何建璋，博士論文，Cubical Marching Squares: On Adaptively Preserving Consistent Topology and Sharp Features for Realtime Isosurfacing，民國 94 年 6 月。 [5] 台大資工所葉正聖，博士論文，3D Protein Retrieval Based on Pocket Modeling and

Matching，民國 94 年 6 月。 [6] 台大資工所王盛禾，碩士論文，整合前處理機制與具感知能力去方塊效應濾波器之 H.264/AVC 壓縮效能提升方法，民國 94 年 6 月。 [7] 台大資工所李佳盈，碩士論文，以全域移動補償為基礎之視訊編碼方式及其在提高視訊解析度上之應用，民國 94 年 6 月。 [8] 台大資工所楊雅婷，碩士論文，以動態畫面省略及可靠移動向量提升框速轉換視訊之畫質，民國 94 年 6 月。 [9] 台大資工所黃義欽，碩士論文，基於可調式邊界偵測的塗色演算法及其應用，民國 94 年 6 月。 [10] 台大資工所陳宇皓，碩士論文，藉由音樂情緒與視訊節奏偵測電影中具強烈情感之事件，民國 94 年 6 月。 [11] 台大資工所柯憲儒，碩士論文，多媒體應用程式快速開發系統的設計與實作，民國 94 年 6 月。 [12] 台大資工所劉又誠，碩士論文，MPEG-4 多媒體應用程式 CPU 使用量管理工具之設計與實作，民國 94 年 6 月。 [13] 台大資工所陳洸諺，碩士論文，共享虛擬環境下之應用程式共用技術，民國 94 年 6 月。 [14] 台大資工所謝名凱，碩士論文，三維骨幹間的動作轉移及串接，民國 94 年 6 月。 [15] 台大資工所趙崧翔，碩士論文，編輯雙向材質函式之表面幾何與反射性質，民國 94 年 6 月。 [16] 台大資工所黃建賓，碩士論文，三維動態模型之動作轉移與型變，民國 94 年 6 月。 [17] 台大資工所蘇孟昌，碩士論文，以滑鼠速寫為基礎的三維動作編輯界面，民國 94 年 6 月。 [18] 台大資工所倪英豪，碩士論文，802.11 無線區域網路室內定位系統之符合成本效益的無線網路基地台佈署策略整合前處理機制與具感知能力去方塊效應濾波器之 H.264/AVC 壓縮效能，民國 94 年 6 月。 [19] 台大資工所陳昭源，碩士論文，核心無狀態網路以可擴展的路徑中繼方法支援品質保證服務之架構，民國 94 年 6 月。

[20] W.-T. Chu, W.-H. Cheng, and J.-L. Wu, "Semantic Context Detection Using Audio Event Fusion," accepted by EURASIP Journal on Applied Signal Processing, 2005.

(27)

[21] W.-T. Chu, W.-H. Cheng, J. Y.-J. Hsu, and J.-L. Wu, "Towards Semantic Indexing and Retrieval Using Hierarchical Audio Models," to appear in the ACM Multimedia Systems Journal, 2005.

[22] W.-H. Cheng, W.-T. Chu, and J.-L. Wu, "A Visual Attention based Region-of-Interest Determination Framework for Video Sequences," IEICE Transactions on Information and Systems Journal, vol. E-88D, no. 7, pp. 1578-1586, 2005.

[23] W.-T. Chu, W.-H. Cheng, S.-F. He, C.-W. Wang, and J.-L. Wu, "A Unified Framework Using Spatial Color Descriptor and Motion-based Post Refinement for Shot Boundary Detection," GESTS International Transaction on Computer Science and Engineering, vol. 2, no. 1, pp. 133-143. 2005.

[24] W.-T. Chu and J.-L. Wu, "Integration of Rule-based and Model-based Methods for Baseball Event Detection," Proceedings of IEEE International Conference on Multimedia & Expo, 2005.

[25] C.-H. Liang, W.-T. Chu, J.-H. Kuo, J.-L. Wu, and Wen-Huang Cheng, "Baseball Event Detection Using Game-Specific Feature Sets and Rules," Proceedings of IEEE International Symposium on Circuits and Systems, pp. 3829-3832, 2005.

[26] W.-H. Cheng, W.-T. Chu, J.-H. Kuo, and J.-L. Wu, "Automatic Video Region-of-Interest Determination Based on User Attention Model," Proceedings of IEEE International Symposium on Circuits and Systems, pp. 3219-3222, 2005.

[27] W.-T. Chu, W.-H. Cheng, and J.-L. Wu, "Generative and Discriminative Modeling toward Semantic Context Detection in Audio Tracks," Proceedings of the 11th International Multimedia Modelling Conference, pp. 38-45, 2005.

[28] Yi-Chin Huang, Tu-Chin Yin, Kou-Shin Yang, Yan-Jun Chang, Meng-Jyi Shieh, Wen-Chin Chen, “Design and Implementation of an Efficient MPEG-4 Interactive Terminal on Embedded Devices,＂ TP3-4, (CD-ROM) Proc. of IEEE 2004 International Conference on Multimedia and Expo (ICME04), Taipei, Taiwan, June, 2004.

[29] Yi-Chin Huang, Meng-Jyi Shieh, Chien-Feng Huang, Ching-Che Kao, Shu-Min Yang, Wen-Chin Chen, “A Visual MPEG-4 Scene Editor,＂ PD1, (CD-ROM) Proc. of IEEE 2004 International Conference on Multimedia and Expo (ICME04), Taipei, Taiwan, June, 2004.

[30] C.F. Chou, K.T. Chaung, “CoLaNet: A Cross-Layer Design of Energy-Efficient Wireless Sensor Networks”, to appear in IEEE International Conference on Sensor Networks, Canada, Aug. 2005.

[31] C.-F. Chou, C. -J. Lin, and C.-C. Tsai. “Traffic-aware Resource Management Schemes in Heterogeneous Wireless Cellular Networks” To appear in the proceedings of IEEE International Conference on Wireless Networks, Communications, and Mobile Computing (WirelessCom 2005) to be held 13-16 June 2005 in Maui, Hawaii, USA.

[32] C. -J. Lin, Y.-H. Ni, H.-P. Suen, and C.-F. Chou “Cooperative Popularity-Aware MPEG-4/MPEG-7 Streaming Proxy System” To appear in the proceedings of the 10th IEEE International Symposium on Consumer Electronics (ISCE 2005) to be held 14-16 June 2005 in Macau.

(28)

[33] W.-C. Xiao, , and P.-L. Chou, T.L. Hsu and C.-F. Chou “Enhancing the Performance of Multi-Source Streaming System Using the MCMCF-Based Algorithm” To appear in the proceedings of the 10th IEEE International Symposium on Consumer Electronics (ISCE 2005) to be held 14-16 June 2005 in Macau.

[34] J.-Y. Chen, M.-W. Hsu and C.-F. Chou, “An Implementation of End-to-End Controlled Streaming System Using Similarity-based Frame Discarding Approach on DiffServ” To appear in the proceedings of the 10th IEEE International Symposium on Consumer Electronics (ISCE 2005) to be held 14-16 June 2005 in Macau.

[35] C.-F. Chou, J.-J. Su, and C.-Y Chen. “Straight Line Routing Algorithm for Wireless Sensor Networks.” To appear in the proceedings of the 10th IEEE Symposium on Computers and Communications (ISCC 2005) to be held 27-30 June 2005 in Cartagena, Murcia, Spain. [36] N. Weston, C.-L. Yang, and C.-F. Chou, “LBR: A Level-Based Routing Protocol for Large,

Energy Constrained Sensor Networks”, in IEEE EEE05 Wokrshop: Mobility, Agents and Mobile Services, March 2005.

[37] C. J. Lin, C.-F. Chou, “Design of Hybrid Wireless LAN”, 12th IEEE International Symposium on Modeling, Analysis and Simulation of Computer and Telecommunication Systems. Amsterdam, Netherlands, Oct. 2004.

[38] Chien-Chang Ho, Fu-Che Wu, Bing-Yu Chen, Yung-Yu Chuang, and Ming Ouhyoung, “Cubical Marching Squares: Adaptive Feature Preserving Surface Extraction from Volume Data,” to appear in Computer Graphics Forum, volume 24, number 3, 2005.

[39] Jeng-Sheng Yeh, Ding-Yun Chen, Bing-Yu Chen and Ming Ouhyoung, “A Web-based Three-dimensional Protein Retrieval System by Matching Visual Similarity Full Text,” Bioinformatics vol. 21, pp. 3056-3057, 2005.

[40] Chien-Chang Ho, Fu-Che Wu, Bing-Yu Chen, Yung-Yu Chuang, and Ming Ouhyoung, “Cubical Marching Squares: Adaptive Feature Preserving Surface Extraction from Volume Data,” to appear in EUROGRAPHICS, 2005.

[41] Wan-Chun Ma, Sung-Hsiang Chao, Yu-Ting Tseng, Yung-Yu Chuang, Chun-Fa Chang, Bing-Yu Chen, and Ming Ouhyoung, “Level-of-Detail Representation of Bi-directional Texture Functions for Real-Time Rendering,” ACM SIGGRAPH 2005 Symposium on Interactive 3D Graphics and Games, Washington DC, USA, Apr. 2005.

[42] Cheng-Han Tu and Bing-Yu Chen, “jGL ES - J2ME-based OpenGL ES 3D library on Mobile Devices”, IEEE Transactions on Consumer Electronics, 2006.

[43] Cheng-Han Tu and Bing-Yu Chen, “An architecture for J2ME-based OpenGL ES 3D Library”,

Proceedings of International Conference on Computer-Aided-Design and Computer Graphics,

2005.

[44] Chien-Chang Ho, Cheng-Han Tu and Ming Ouhyoung, “Detail Sculpting using Cubical Marching Squares”, Proceedings of ACM International Conference on Artificial Reality and

Telexistence, 2005.

[45] Cheng-Han Tu and Bing-Yu Chen, “jGL ES - J2ME-based OpenGL ES 3D library on Mobile Devices”, Proceedings of IEEE International Conference on Consumer Electronics, 2006. [46] Y.-H. Chen, J.-H. Kuo, W.-T. Chu, and J.-L. Wu, “Movie Emotional Event Detection Based

(29)

on Music Mood and Video Tempo,” Proceedings of IEEE International Conference on

Consumer Electronics, 2006.

[47] Chon-in Wu, Chao-ming (James) Teng, Yi-chao Chen, Tung-yun Lin, Hao-hua Chu, Jane Yun-jen Hsu, Point-of-Capture Archiving and Editing of Personal Experiences from a Mobile Device, to appear in ACM Personal and Ubiquitous Computing (ACM PUC), Special Issue on Memory and Sharing of Experiences, 2005.

[48] In-Kuan Cheong, Yi-Chin Huang, Yi-Shin Tung, Wen-Chin Chen, Department of Computer Science and Information Engineering, National Taiwan University, Taiwan, An Efficient Encryption Scheme for MPEG Video, The International Conference on Consumer Electronics 2005

[49] Tu-Chun Yin, Yi-Chin Huang, Wen-Chin Chen, Department of Computer Science and Information Engineering, National Taiwan University, Taiwan, Error-Resilient MPEG-4 Video Communication over Error-Prone Wireless Networks, The International Conference on Consumer Electronics 2005

[50] Chao-ming Teng, Chon-in Wu, Yi-chao Chen, Hao-hua Chu, Yung-jen Hsu, Design and Evaluation of mProducer: a Mobile Authoring Tool for Personal Experience Computing, Proceedings of the 3rd International conference on Mobile and Ubiquitous Multimedia (ACM MUM'2004), College Park, Maryland, October, 2004, pages 141-148.

[51] Shun-yuan Yeh, Keng-hao Chang, Chon-in Wu, Okuda Kenji, Hao-hua Chu, GETA Sandals: Walk Away with Localization, to appear in the Demo Session of the Seventh International Conference on Ubiquitous Computing (ACM UbiComp 2005), Tokyo, Japan, September 11, 2005.

[52] Kenji Okuda, Shun-yuan Yeh, Chon-in Wu, Keng-hao Chang, Hao-hua Chu, The GETA Sandals: A Footprint Location Tracking System, Workshop on Location- and Context-Awareness (LoCa 2005), in Cooperation with Pervasive 2005 , (also published as Lecture Notes in Computer Science 3479, Location- and Context-Awareness), Munich, Germany, May 2005, pages 120-131.

[53] Yi-chao Chen, Ji-rung Chiang, Hao-hua Chu, Polly Huang, Arvin Wen Tsui, Sensor-Assisted Wi-Fi Indoor Location System for Adapting to Environmental Dynamics, to appear in Proceedings of ACM/IEEE International Symposium on Modeling, Analysis and Simulation of Wireless and Mobile Systems (ACM MSWIM 2005), Montreal, Quebec, October 2005.

(30)

誌謝本計畫之第一期得以順利進行，首先要感謝行政院國家科學委員會、廣達電腦股份有限公司、太極影音科技股份有限公司、台灣大學資訊工程系所以及資訊網路與多媒體研究所的大力支持。此外，所有參與計畫的助理，研究生，以及合作伙伴的工程人員，才是本計畫目前成果的幕後功臣。參與本計畫之人員名單如下：國立台灣大學資訊網路與多媒體研究所歐陽明教授，吳家麟教授。國立台灣大學資訊工程學研究所陳文進教授，黃肇雄教授，朱浩華副教授，周承復助理教授，莊永裕助理教授。國立台灣大學資訊管理研究所陳炳宇助理教授。國立台灣大學博士後研究員：童怡新、黃奕勤、郭晉豪、黃俊翔。國立台灣大學資訊工程學研究所以及資訊網路與多媒體研究所博士班研究生：莊玉如、林佳緯、葉正聖、劉柏伸、吳賦哲、何建璋、馬萬鈞、林育慈、朱威達、陳昭宇、王頌文、鄭文皇、林靜茹、涂正翰、沈育德。國立台灣大學資訊工程學研究所以及資訊網路與多媒體研究所碩士班研究生：陳洸諺、柯憲儒、林孟輝、陳克強、劉又誠、王盛禾、李佳盈、黃義欽、陳宇皓、楊雅婷、劉錦昕、謝名凱、黃建賓、鄭魁元、蘇孟昌、趙崧翔、吳宗益、徐采琳、孫憲平、陳昭源、倪英豪、周伯霖、卓奕霖、郭俊偉、江志偉、林國聖、傅明翔、廖翊甯、葉崇智、汪家偉、陳駿丞、張嘉豪、謝俊瑋、林聖凱、巫奇豪、林念賢、喻至瑋、涂介儒、張硯拓、黃鈞澤、張聖平、鄭鎧尹、王亮凱、陳柏青、蕭淳澤、沈允中、李沛倫、邱立榕、陳宏典、林宗毅、徐士璿、蕭偉成、江文惠、紀緯傑、蔡碩展、李佳蓉、王柏鈞、唐士軒。研究助理：賴怡嘉、陳怡君。

(31)

行政院國家科學委員會補助產學合作研究計畫成果完整報告

分項計畫一：多媒體群體合作架構之研究(I)

Multimedia Collaboration Architecture (I) 成果報告

計畫類別：產學合作研究計畫

計畫編號：

NSC 93－2622－E－002－033

全程計畫：民國

93 年 08 月 01 日至民國 95 年 07 月 31 日

本年度計畫：民國

93 年 08 月 01 日至民國 94 年 10 月 31 日

計畫主持人：陳文進台灣大學資訊工程系教授

共同主持人：朱浩華台灣大學資訊工程系副教授

協同主持人：歐陽明台灣大學資訊網路與多媒體研究所教授

吳家麟台灣大學資訊網路與多媒體研究所教授

黃肇雄台灣大學資訊工程系教授

周承復台灣大學資訊工程系助理教授

陳炳宇台灣大學資訊管理系助理教授

莊永裕台灣大學資訊工程系助理教授

參與廠商：廣達電腦

太極影音科技股份有限公司

執行單位：國立台灣大學資訊網路與多媒體研究所

中華民國 95 年 1 月 2 日

(32)

一、

摘要

本子計畫為「多媒體群體合作架構之研究」，用以支援總計畫「經驗融合: 兼具安全性及延展性之多媒體人本計算」中所提出的普及生活空間（UbiFun Space）與隨身媒體精靈（Ambient Media Wizard）兩項核心系統。隨著寬頻網路與無線網路基礎建設的高度發展，電腦運算速度、顯示設備與儲存媒介等硬體技術的一日千里，人們可以透過各類普及運算設備(Pervasive Devices)取得多媒體資訊，並與其他使用者之間互傳訊息、共享資訊甚至進行虛擬會議等應用之趨勢已蔚然成形。本分項計畫將研究如何開發一個具有擴充性的多媒體群體合作架構。透過這個架構，可以簡化開發各類不同的多媒體群體合作系統(Multimedia Collaboration System)的過程。

要成功地發展出一套多媒體群體合作架構，有幾項重要的關鍵技術必須加以研發。首先，由於新興多媒體壓縮標準的蓬勃發展，再加上個人化互動服務的日漸普及，因此，互動性複合媒體的呈現技術必須加以研發；其次，網路連線遊戲、視訊會議與遠距教學等系統的需求日增，多使用者之間的同步技術變得相當重要；最後，對多媒體程式開發者而言，可程式化之應用程式介面將加速開發時程並減少開發成本。基於以上幾點觀察，本分項計畫預計開發三項核心技術模組，分別是：(1)【MPEG-4 表現引擎】(MPEG-4 Presentation Engine)，(2)【可擴充之應用程式引擎】(Extensible Application Engine)與(3)【多人世界應用伺服器】(Multiuser Application Server)。

【MPEG-4 表現引擎】將著重於設計一個跨平台的 MPEG-4 媒體呈現架構，以因應使用者可能以各種不同終端設備連線的需求。【可擴充之應用程式引擎】將開發出完整的API，藉此得以外部程式來操控表現引擎。而【多人世界應用伺服器】則提供了可程式化的伺服端架構，以及與用戶端的遠端函式呼叫機制，配合媒體伺服器提供之 MPEG-4 內容，程式開發者便能快速開發出跨平台且多樣化的多媒體群體合作系統。關鍵字：MPEG-4、多人世界、表現引擎

(33)

The project “Multimedia Collaboration Architecture (MuCA)” is a sub-project of the project “Experience Fusion: Secure and Scalable Human Centric Computing”. It provides several key technical building blocks for two core systems in the main project: “UbiFun Space” and “Ambient Media Wizard”. Given the rapid deployment of the broadband network and the wireless network infrastructure and drastic improvement in computational power of CPUs, storage media, display devices, and other hardware technologies, people can jointly and collaboratively access, share and create multimedia contents anytime, anywhere, through a variety of pervasive devices such as cell phones, PDAs, and PCs. For examples, they can send messages, share multimedia clips, or participate in multi-user virtual meeting through a variety of collaborative applications. The goal of this project is to design and develop an extensible multimedia collaboration framework with a core set of common multimedia and collaboration functionalities, so that it can greatly simplify the amount of developers’ efforts in building Multimedia Collaboration Systems.

To design and develop our multimedia collaboration framework, we have identified the following three core technologies that are of critical importance in MCA. (1) The improvement of coding standards and prevalence of personalized interactive services have created the need for a new class of interactive rich-media presentation technology. (2) Given the high demand for internet games and distance learning, an efficient synchronization technology is crucial in achieving consistency in multi-user environment. (3) For the multimedia application developers, a set of programmable application interface and library are needed to reduce their application development time and cost. Based on three core technologies, we will design and develop three corresponding modules called 【MPEG-4 Presentation Engine】, 【Extensible Application Engine】 and 【Multiuser Application Server】 in our multimedia collaboration framework.

【MPEG-4 Presentation Engine】 is based on the design of cross-platform MPEG-4 media presentation architecture, enabling media presentation on heterogeneous terminal devices with different screen sizes and input methods. 【Extensible Application Engine】 exposes a set of APIs for the applications to customize the behavior of the underlying presentation engine. 【Multiuser Application Server】 provides a programmable server architecture and remote function call mechanisms for clients. These three modules provide core functionalities in our MuCA platform and allow application developers to efficiently develop various cross-platform Multimedia Collaboration Systems.

(34)

二、

計畫緣由與目的

隨著網際網路的蓬勃發展、網路寬頻技術的進步、以及個人電腦計算能力的大幅提升，資訊提供者的角色，已經由傳統的大眾傳播媒體（報紙、電視），推廣至一般大眾。資訊的數量，也呈倍數般地成長，豐富而多樣性的電子文件與數位媒體內容，將能達到傳統文件所無法企及的境界。資訊的全面數位化，再加上通訊與電腦科技的推波助瀾，使得比爾‧蓋茲在「擁抱未來」一書中所提到的「資訊高速公路」已然成形。繼結合3C 產業的「網路時代」之後，緊接而來的將是整合 4C 產業(Communication 、 Computer、Consumer Electronics、Content)的「媒體內容時代」，其特色是以個人為主體導向，並將改變整個世界的運作模式，網路服務將消除地域、疆界和藩籬觀念，而走向個人化、多樣化的資訊服務。預料在未來十年內，科技運用、國際競爭與IT 產業基礎結構的劇烈變動，將使我們邁向一個以網路服務與媒體內容為導向的新世紀。至此，人類的歷史正式進入了「數位時代」（Digital Age）。數位時代的到來，對我們的影響層面絕非只有生活上的便利而已，因為一般社會、經濟與政治體系的演進都是以遞增的方式逐步改變，但是，科技卻是以幾何級數、甚至是跳躍的方式在變動。科技的進步，在剛開始的時候只會影響到科技的層面，對於生活的影響並非十分巨大，但是一旦到達臨界點或產生殺手級的應用(killer application)之後，即使全然不相關的體系也會發生巨大的改變，這正是歷史學家孔恩(Thomas Kuhn) 於一九六二年首度提出的「典範移轉」(Paradigm shift)觀念。我們如今身處數位時代之中，隨著文化，建設，經濟發展的狀況，大家數位化的程度略有不同。但不管怎樣，未來最驚人的改變已經不會是數位的技術，而是發生在其他領域上，它將影響我們的生活形態，或是改變人們管理生活的方式。首先，人與人的溝通與互動方式將有突破性的改變。在不久的未來，由「想法」結合的虛擬社群，其凝聚力將不下於由可見力量所建設的社區。以往統治者的地位靠土地來維持。等到將來網路的管理者的地位比土地擁有者更大時，過去為了領土的廝殺，將完全失去意義。界線是畫在網路空間中，而不是沙地上。今天已然可以看到，許多數位空間創造的文化，比有形的地理界線，更能凝聚人與人的關係。其次，數位世界下的產業，將朝兩極化發展。一方面，掌握絕大部分資源的超級大財團、包羅萬象的即時資訊服務業龍頭、無可抵擋的傳播媒體巨頭等等，將跨越地域的藩籬而主導市場；另一方面，極度個人化的產業，例如個人新聞台，私人工作室等等，也將並行不悖地存在。而個人的日常生活也將產生變化。未來的商店必須能應付每個人作息的時間。大家過日子的方式將會愈來愈不同調，不隨別人的行動起舞。所以任何一家商店若無法二十四小時營業，就註定無法競爭。因應而生的是各式各樣的個人化服務，舉凡隨選視訊、個人化節目預錄、在觀賞節目時選擇自己喜愛的視角等等。在未來，大家在同一時段一

(35)

起盯著八點檔連續劇的生活形態終將過去。最後，由於數位媒體技術的進步，未來所有的資訊都將以數位的形式儲存，數位化的媒體內容具備容易修改、複製、搜尋、傳遞與儲存等特性，並擁有多樣化的呈現方式，甚至具備了雙向互動的功能。因此，數位媒體相關的各項議題，包括了智慧財產權的保護、媒體內容分類與管理、媒體的製作與出版等等，都將在許多不同的領域（例如法律界、出版界等等）造成革命性的影響。綜觀上述對未來數位時代願景的觀察，再加上寬頻網路與無線網路基礎建設的日趨完備，輔以電腦運算速度、顯示設備與儲存媒介等硬體技術一日千里，可以預見在未來的生活中，人們可以透過各類普及運算設備(Pervasive Device)取得個人化的多媒體資訊，並與其他使用者互傳訊息、共享資訊，並進行虛擬會議、遠距學習等等共同合作作業(Collaborative Work)，因此，讓人們能跨越實體網路與地域的限制而能毫無阻礙的溝通，將是未來數位生活中，一項相當重要的體驗科技(Experience Technology)。

而以往電腦輔助群組協同工作(Computer Supported Cooperative Work, CSCW)廣泛地被運用在遠距教學、軍事模擬、多媒體視訊會議、多人連線遊戲等等不同的領域。然而，這些系統多半採用侷限於某一特定應用的封閉標準(例如美國陸軍的模擬系統 SIMNET)；或是應用現有的技術以符合特定需求(例如以 Web 技術發展而成的聊天室)。然而，前者缺乏擴充性與互通性，後者則因為遷就現有架構，並不適用於新興的媒體格式或網路技術。因此，需要一個具有擴充性的多媒體群體合作架構。透過這個架構，可以簡化開發各類不同的多媒體群體合作系統(Multimedia Collaboration System)的過程。

在現今多媒體群體合作系統中，有幾項關鍵性的技術，茲分述如下： 多媒體壓縮標準與內容描述語言 近年來，鑒於多媒體壓縮技術之高度發展，多媒體內容的描述語言與儲存格式也不斷地推陳出新，再加上個人化互動服務的日漸普及，我們可預期，兼具高品質、可調整性以及高度互動性的媒體內容將如雨後春筍般的出現。因此，如何正確而有效率地呈現這種具備高度互動性的複合媒體，將成為下一代多媒體軟硬體研發的核心技術。多媒體壓縮標準包括了H.264, MPEG-4 AVC, Windows WMV 9.0 等高畫質的視訊標準，以及 AAC, DVD Audio 等高音質的音訊標準；而內容描述語言則從早期的 DHTML、SMIL、 SVG、VRML 到現在最新標準的 X3D 等等，這些技術將顛覆傳統以畫面為主(Frame-based) 的媒體播放模式。為此 MPEG 組織制定了 MPEG-4 標準，這個國際標準定義了一個完整的多媒體架構，並試圖利用這個架構去整合各式各樣豐富的媒體，讓這些媒體可以互相合作去完成各種的多媒體應用。MPEG-4 打破傳統以畫面為主的呈現方式，取而代之的，是以物件導向的方式，組成所欲呈現的多媒體內容，這些物件包括了圖片、影片、聲音、文字、3D 模型、2D 向量圖形等等。MPEG-4 定義了如何描述這些物件在時間上與空間上關係的方法，稱為MPEG-4 場景描述(Scene Description)。此外，MPEG-4 場景描述還可以定義物件彼此之間的互動以及邏輯關係，使得MPEG-4 場景能具備高度的互

(36)

動性。 多人連線同步技術 由於寬頻網路之基礎建設已經日趨完備，網路連線遊戲、遠距教學及醫療系統、行動多媒體聊天室這類的多人連線系統，即將成為今後電子消費性產品的主流；此外，次世代的遊戲主機，包括了微軟的XBOX 以及 SONY 的 PS2 都已開始發行多人連線類型之電玩遊戲，因此多使用者之間的同步技術變得相當重要。多人同步技術的基本原理十分直覺且簡單：當某個使用者對共享環境進行更動之後，多人同步技術必須負責將更新後的共享資料傳送給每一位使用者。然而，雖然原則很簡單，但是不同的多人系統所牽涉到的共享技術卻大不相同。因此，如何設計一個具有彈性的多人共享機制，是一件充滿挑戰性的課題。 多媒體程式開發平台 對多媒體程式開發者而言，往往得先花費很多時間與精力在研究如何使用硬體層所提供的多媒體函式庫，或是撰寫媒體解碼模組等核心模組。在開發程式主體時，邏輯層 (Logic Layer)又無法與表現層(Presentation Layer)的程式碼分開撰寫，因而提高開發過程的困難度。此外，開發過程中通常也缺乏便於使用的除錯工具。一個最好的例子就是3D 遊戲開發過程，為了避免重複撰寫 3D 場景的繪圖引擎以及相關之動畫與行為模組，遊戲公司通常會自行開發一個遊戲引擎(Game Engine)，將底層繪圖與音效等多媒體運算的工作模組化，並開發出高階的命令稿語言(Script Language)以供開發人員使用。這種模式雖然縮短了遊戲研發人員的開發時程，然而一般的程式撰寫人員並無法使用這類私有的專業開發工具，因此，如何將盛行於視覺化程式設計之 RAD (Rapid Application Development)概念移植到多媒體領域，甚至發展成為分散式多媒體程式設計架構，以加速多使用者多媒體系統之開發時程，是一個極具挑戰性且深具潛力的課題。

(37)

三、

研究方法、技術成果與實驗成果

本章節分為五個部分，詳細說明針對本分項計畫的核心模組所做出的具體成果及其研究方法。第一部分「共享虛擬環境下之應用程式共用技術」隸屬於「多人世界應用伺服器」，第二部分「多媒體應用程式快速開發系統設計及實作」及第三部分「MPEG-4 多媒體應用程式之資源管理」隸屬於「可擴充之應用程式引擎」，第四部分「隨身影片剪輯系統」呼應於子計畫一計畫書所提的Virtual Studio .NET 架構，在 content producer 的階段中扮演內容擷取與編輯的角色，第五部分「室內定位系統」為本分項計劃與子計劃四之整合成果。 第一部分 - 【共享虛擬環境下之應用程式共用技術】 1. 前言與研究目的 在電腦發展初期，大部分電腦軟體系統是為了協助人類更快速處理日常的例行公事，例如文書處理、資料庫查詢…等。隨著網際網路的蓬勃發展、網路寬頻技術的進步，可以預期電腦亦會在人類的通訊及群體互動上提供許多方便的工具。共享虛擬環境 (Collaborative Virtual Environment)便是一種結合網路及多媒體技術所發展出來的一個研究領域。

共享虛擬環境(Collaborative Virtual Environment)是一種分散式的虛擬空間。分散在世界各地的遠端使用者們可以透過網路同時進入一個虛擬空間與其他使用者或與虛擬環境中的任何物件做互動。共享虛擬環境可以被視為一種最強大的群體合作使用者介面，使用者在這個環境中可以用最直覺的方式來通訊及存取網路上的資訊。共享虛擬環境將會在網際網路的世界中將扮演一個舉足輕重的角色。

本實驗室先前所開發的 MPEG-4 多媒體群體合作架構 (MPEG-4 Multimedia Collaboration Framework)提供了一個具備高度擴充性的多媒體內容呈現平台。在這平台上可以將不同的多媒體材料視為物件整合在同一個場景裡，平台底層並且提供一個可靠的多人共享機制，使多使用者之間能得到同步的媒體內容。在此平台下可輕易的創造出 2D/3D 複合式的共享虛擬環境，讓多個遠端使用者在同一個虛擬環境中同步瀏覽多媒體文件、並操作共享虛擬空間下的多媒體物件。媒體創造者在這個架構下可以很迅速地開發出各種不同類型的多媒體群體合作應用，例如多人虛擬會議、共同編輯設計、多人線上遊戲…等。共享虛擬環境最吸引使用者的地方即在於它所提供的高度互動性，一個完整的共享虛擬環境通常由許多互動性元件組成，例如多人虛擬會議室裡常見的共享白板以及投影簡報(見圖<一>)。

(38)

圖<一>

要在多人虛擬環境下提供這樣子的互動性物件常需要撰寫開發環境所提供的底稿語言(script language) (以本實驗室的“MPEG-4 多媒體群體合作架構＂為例，可選擇使用 java-script 或 python 語言)，讓虛擬環境中的物件能隨著使用者的動作或是環境中的刺激以產生對應的動作。然而，在這樣子的環境下將邏輯賦予給多媒體物件與我們平常所熟悉開發視窗程式所能使用的資源大不相同，在開發視窗程式環境下很輕易便能達到的功能，在共享虛擬環境裡可能需要耗費多好幾倍的時間與精力才能達到。為了要讓開發多人虛擬環境下的互動性元件更為容易、更為直覺，我們提出了一種想法--在多人虛擬環境中共用一個單人視窗應用程式，提供另一種更便捷的途徑來創造互動性元件。在多人虛擬環境中共用單人視窗應用程式有以下幾個好處：(1)開發者可以用他們熟悉的程式語言來開發互動性元件，如C/C++、Java…等，而不用學習多人虛擬環境下所提供的底稿語言 (2)許許多多現存視窗程式的介面及邏輯都可以被重複使用以建立多人虛擬環境下的互動性物件 (3)可以製造出傳統多人虛擬環境中所無法達到的視覺效果。 2. 研究方法與技術成果 我們針對在微軟視窗作業系統(Microsoft Windows)的環境下設計並實作了一套整合性的系統以實現我們的想法。這個系統整合了三項不同領域的技術 : MPEG-4 多人世界 (MPEG-4 multi-user world)、應用程式共享(application sharing)、應用程式重導(application redirection)。我們以實驗室之前開發的 MPEG-4 多媒體群體合作架構為基礎，並新增一些新的模組將視窗程式共享技術整合進來。我們利用應用程式共享以及應用程式重導這兩項關鍵技術來實作我們的系統，在這樣的機制下完全不需要對被共享的單人視窗程式做任何的修改，提供了一種最方便的方式建構多人世界下的互動性元件。基本上我們的系統採用了一個集權式客戶伺服架構 (centralized client-server architecture)(見圖<二>)。

經驗融合：兼具安全性及延展性之多媒體人本計算 (I) 產學合作計畫成果報告 (總計畫)