• 沒有找到結果。

智慧型多媒體資訊處理系統的研究(II)

N/A
N/A
Protected

Academic year: 2021

Share "智慧型多媒體資訊處理系統的研究(II)"

Copied!
5
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫成果報告

智慧型多媒體資訊處理系統的研究(二)

The Study of

Intelligent Multimedia Infor mation Pr ocessing System(II)

計畫編號:NSC 89-2213-E-009-094

執行期限:88 年 8 月 1 日至 89 年 7 月 31 日

主持人:傅心家 交通大學資訊工程系

一、中文摘要 隨著電腦速度的提昇以及網路的 普及,如何在浩翰的網路多媒體資訊中快速 及正確找尋想要的多媒體資訊,已是一個非 常重要的課題。目前已有的影像搜尋系統均 著重於如何有效的在已知資料庫中搜尋靜 態影像,其比對之特徵均以整個影像為基 礎。而對於環球網際網路(WWW)上的動態 影像的搜尋目前少有成熟的研究出現。本計 畫提出了一個以人工智慧及類神經網路為 基礎的智慧型多媒體資訊處理系統

(Intelligent Multimedia Information Processing Systems, IMIPS)。

這個系統包括了(一) 網際網路視訊收 集器,(二)視訊切割及關鍵影像擷取器,(三) 影像分類及檢索器三部分。除了利用傳統的 網際網路通訊影像處理及辨認等技術外,特 別的是,我們為影像分類及檢索器提出了一 個”EM base Multi-Instance Learning”演 算法,使得搜尋工具不但可以有效的將搜尋 到的影像分類,並可以將使用者個人搜尋喜 好,以學習的方式來調適(Adaptive),達到 個人理想的搜尋工具。 目前實做完成的系統我們在網際網路 搜尋到三千多個視訊檔。而在分類檢索方 面,我們做了五種分類(animal、human、 sky、star、fire)其平均正確率達到 69%。 關鍵詞:智慧型多媒體資訊處理系統、類神 經網路、動態影像搜尋引擎 Abstr act

Retrieving multimedia information efficiently among the world wide web becomes more and more demand. Many images search engines have been developed, so far their retrieved image were based on the image database constructed by themselves, and the developed of video system are seldom to be announced. In this project, We intend to design an intelligent multimedia information processing system (IMIPS) based on neural networks.

The system include three modules: (1) world wide web video collector, (2) video segmentation and key frame selector, (3) image classifier and retriever. We propose an ”EM base Multi-Instance Learning” algorithm to classify the images efficiently and adapt the search engine to a special user style.

The experimental results show that the correct rate for image retrieval can reach 69% for five classes problem.

Keywor ds: IMIPS, neural networks, video

search engine 二、緣由與目的 網際網路資料及數位圖書館上之資訊 查詢,目前多以文字搜尋的方式在進行 [2][3]。然近年多媒體資料在網際網路上普 遍置,對這類型資料(包括影像(Images)、

(2)

音訊(Audio)、視訊(Video)等)查詢需求也 日益迫切[4]。目前這方面現有之查詢工具 [1]也漸有所見。 在網路上看到的若干搜尋工具[1]所用 的方法概言之是在影像、音訊、視訊檔中附 加一段簡短的介紹文字及若干關鍵字(key words),而在搜尋時使用者仍需將所需搜尋 的標的以關鍵字描述,而搜尋器將使用者之 關鍵字與之比對[5],再將相符的網址及簡 短文字及小圖(ICON)列出供使用者參考。這 類工具確能提供相當程度的方便以及實用 價值。但是我們知道,一張影像有時候很難 用文字來描述,何況用關鍵字。因此有時候 這些搜尋到的結果常常很難令使用者滿 意。有鑑於此,本研究希望能讓使用者以圖 像來描述他/她個人的搜尋概念,在網際網 路上搜尋所需視訊資料。為此,我們將前述 的原理及技術,實作在一部以 Pentium II 及 Windows NT 為核心的伺服器(Server)上 建立了一套以網站的型態供使用者利用的 智慧型多媒體資訊處理系統(Intelligent Multimedia Information Processing Systems, IMIPS),使用者可利用常用如 Netscape 或 IE 等瀏覽器(Browser)進入本站,來搜尋 他/她們想要找的多媒體資訊。 IMIPS 包括了(一) 網際網路視訊收集 器,(二)視訊切割及關鍵影像擷取器,(三) 影像分類及檢索器三部分。我們除了利用傳 統的網際網路通訊影像處理及辨認等技術 外,並利用人工智慧及神經網路技術來研製 一快速及智慧型搜尋工具。特別的是,我們 為了影像分類及檢索器設計了一個”EM based Multi-Instance Learning”演算法, 使得我們的搜尋工具不但可以有效的將搜 尋到的影像分類,並可以將使用者個人搜尋 喜好,以學習的方式來調適(Adaptive),達 到個人理想的搜尋工具。 三、結果與討論 本年度我們完成了以網際網路為搜尋 資料庫的智慧型多媒體資訊處理系統[5]。 茲就此系統的組織架構及工作原理詳述如 下。 (一) 網際網路視訊收集器 網際網路視訊收集器(Internet Robot)最 重要的部份就是如何搜尋資料及如何管理 資料,在這裡將介紹我們的漫游器是如何找 尋資料,以及如何利用伺服器中的資料庫有 效管理所需要的資訊。本系統的視訊收集器 主要分成二個部份:漫游器(spider)及維護 器(Maintainer)。Spider 的主要工作是負 責尋找網路上還未拜訪過的網頁,而 Maintainer 則是負責監督已拜訪過的網 頁,若拜訪過的某個網頁內容有變動,則對 該網頁重新進行分析,以確保資料庫中的資 料能即時更新。我們在 Spider 的設計中加 入了參照記數器(Reference counter)來記 錄網頁被參考的次數。使用參照記數器可以 優先拜訪比較大的站或很多人常看的網 頁,參照記數器愈大,代表該網頁被很多其 他不同網頁所參考,不但容易連得上,也有 較豐富的內容及額外資訊。在網頁的維護方 面,我們給每一個網頁不同的更新週期。我 們在每次更新時,加入統計更新次數的動 作。在定期修改過幾次後,可以知道哪些網 站更新次數很頻繁,哪些不常更動。依據這 項統計資料,便可對不同的更新頻率,排以 不同的更新週期。 (二)視訊切割及關鍵影像擷取器 在本研究中,我們提出了一個以偵測『突然 的場景切換』(abrupt scene change) 及『特 別的編輯效果』 (例如影片中的淡入/淡 出…)來抽取關鍵片段(keyframes)的演算

(3)

法,作為視訊摘要的技術。場景的切換方式 可分為兩種:第一種稱為直接的場景切換 (Direct Scene Change),這種場景切換在 一般的視訊資料中最常發生。另一種則為淡 入/淡出 (fade in/out)型的場景切換,這 種場景切換技術多應用在 KTV 等影片編輯 效果上。我們所提出的偵測場景切換的演算 法主要是針對在 MPEG 位元串中的 DCT DC 係 數與移動向量作一個統計的處理。我們先由 一些 I-、P-、B-frames 得到候選的場景切 換點,最後再由 I-frame 決定真正的場景切 換的位置。 (三)影像特徵擷取及分類器 在影像分類與檢索的範疇中,很多是使用顏 色統計圖(color histogram)的方法[7]。 顏色統計圖是計算整張圖的顏色分佈,所以 圖中某顏色出現的位置與方向並不會影響 該張圖的顏色分佈,但是就因為沒有空間的 關係,所以在識別上有不足之處。目前有很 多的影像搜尋系統就是用整張圖或是使用 者所點選區域的顏色分佈與紋理(Texture) 來當檢索的依據,如 QBIC[8]、NETRA[9]。 也有人把空間的關係加入特徵中,如在[10] 中的方法,先建立許多模版,例如下雪的山 會被訓練成「藍色色塊下面有白色色塊,再 下面有棕色的色塊」。 上述的方法都必須在一張影像之中,精確地 標示出使用者所想要的部分,除了造成使用 上的不便,也容易因為標示錯誤而得到錯誤 的結果。因此在[11]中採用了以多事例學習 (Multiple-Instance Learning)為主要架 構,並以互異密度(Diverse Density)作 為學習的指標,用斜率陡降法(Gradient Decent method)來最大化互異密度的方法 來作影像分類與檢索。這個方法的優點在於 使用者可不用精確地標示出使用者於影像 中所想要的部分,使用者只要標示出那些影 像是要的,那些是不要的,則系統會根據使 用者的選擇學習找出使用者所要的影像。 在本研究中,我們提出了以 EM 為基礎的多 事 例 學 習 演 算 法 (EM base Multiple-Instance Learning Algorithm)來作為訓練 系統影像分類與檢索的演算法。 四、計畫成果自評 本系統實作了一個架構於網際網路上 的視訊搜尋系統。本系統包含了三個子系 統:網際網路漫遊器、視訊切割及關鍵影像 擷取器和影像特徵擷取及分類器。 在網際網路漫遊器部分,我們設計出了 一個智慧型網際網路視訊收集器。此網際網 路漫遊器可自動學習及尋找網際網路上受 歡迎的網頁,並可根據網頁更新的頻率,給 予資料庫中不同網頁不同的更新週期。在視 訊切割及關鍵影像擷取器部分,我們針對直 接的場景切換與淡入/淡出型的場景切換, 設計出不同的視訊切割演算法。在影像特徵 擷取及分類器部分,我們設計了一個以 EM 為基礎的多事例學習演算法來作為影像特 徵擷取及分類。在本系統中預先建立了五個 樣板類別,分別為 Human、Star、Sky,Animal 跟 Fire。我們的實驗結果如下表所示。由 結果可看出,本系統確能有效的將使用者心 中的視訊從網際網路中找到。在使用者介面 方面,由於本系統是架構於網際網路上的視 訊搜尋系統,因此使用者可直接用網頁瀏覽 器(如 Internet Explorer 或 Netscape)操 作本系統。除此之外,使用者可利用使用者 介面與系統互動,訓練本系統學習使用者所 欲尋找的類別,進而使得系統所搜尋的視訊 結果更符合使用者心目中的要求。由實驗結 果可知本系統確能有效的從網際網路中尋 找到使用者心中的視訊。

(4)
(5)

Total Number of retrieved frames

Correctness 10 20 30 40 50 Hit rate

[1]

Huma

n

10 20 30 39 48 96% Star 10 15 18 22 23 46% Sky 7 13 19 26 29 58% Animal 10 20 30 35 40 80% T em p la te n a m e

Fir e 9 13 n/a n/a n/a 65%

Hit rate 92% 81% 81% 72% 70%

五、參考文獻

[1] AltaVista, Available http://www.altavista.com.

[2] Wu, S. and U. Manber, "Fast Text Searching Allowing Errors,"

Communications of ACM, Vol. 35, Oct., pp.

83-91, 1992.

[3] Manber U. and S. Wu, "Glimpse: A Tool for Search Through Entire File Systems," USENIX 94 Winter Conference,

Jan., 1994.

[4] 曾元顯。「多媒體資訊檢索技術之探 討」。21世紀資訊科學與技術國際學術研 討會。台北市:世界新聞傳播學院圖書資 訊學系,民85年11月7∼9日,頁281-298。 [5] Natalie Oakes Sturr, "WAIS: an Internet Tool for Full-text Indexing," Computers in Libraries June, pp. 52-54, 1995

[6] Martijn Koster, "World Wide Web Robots, Wanderers, and Spiders,"

http://www.webcrawler.com/mak/projects/r obots/robots.html.

[7] Rangachar Kasturi, Susan H. Strayer, “An Evaluation of Color Histogram Based Methods in Video Indexing,”Research Progress Report CSE-96-053, October,

1995.

[8] M. Flickner, and et al., ”Query by image and video content: The QBIC System,”

IEEE Computer, 28:23-32, 1995.

[9] W.Y.Ma,NETRA: A Toolbox for Navigating Large Image Databases, Ph.D.

Dissertation, Dept. of Electrical and Computer Engineering, University of California at Santa Barbara, June 1997.

[10] J. Smith and S. Chang,

“VisualSEEK: a fully automated content-based image query system,” In Proc. ACM International Conference on Multimedia,

Morgan Kaufmann, 1996.

[11] O. Maron and A. LakshmiRatan, “Multiple-Instance Learning for Natural Scene Classification,”Machine Learning: Proceedings of the 15th International Conference, 1998.

參考文獻

相關文件

各系所正取生請於民國 104 年 12 月 30 日(星期三)前於本校招生資訊網 http://www.cyut.edu.tw/~recruit

圖4 1 整合資訊系統風險 圖4.1 整合資訊系統風險..

 不過以上所提的內容幾乎都會被現在的智慧型手機取 代,因此我們覺得這些功能能夠運用在一個沒有網路

近期全球各地皆藉由停止上班上課以遏制新冠肺炎疫情的傳播,正是需要遠端視訊或會 議軟體的時刻,然而視訊會議工具 Zoom

近期全球各地皆藉由停止上班上課以遏制新冠肺炎疫情的傳播,正是需要遠端視訊或會 議軟體的時刻,然而視訊會議工具 Zoom

 培養具有檔案學基礎知識與文化知識,掌握現代資訊技術的基 本技能,能在檔案館、國家機關和企事業單位的檔案機構、資

• 學生聽講中可隨時填寫提問單發問,填妥後傳送予課程助教;一 學期繳交提問單0-2次者仍得基本分數B,達

電機工程學系暨研究所( EE ) 光電工程學研究所(GIPO) 電信工程學研究所(GICE) 電子工程學研究所(GIEE) 資訊工程學系暨研究所(CS IE )