智慧型網際網路新聞視訊查閱系統的研發(II)

(1)

行政院國家科學委員會專題研究計畫成果報告

智慧型網際網路新聞視訊查閱系統的研發

The study of the Intelligent Web-Based News Video Search System

計畫編號：NSC 89-WFA0-6-000-36

執行期限：89 年 8 月 1 日至 91 年 7 月 31 日

主持人：傅心家交通大學資訊工程學系

一、中文摘要本計劃擬建立一個架構於網際網路上，以台灣電視新聞為資料的智慧型網際網路查閱系統。根據使用者不同的需求，本系統將提供新聞日錄式、電視新聞內容索引、新聞摘要式等數種不同的查詢方式。期能使得使用者除了能夠以目錄式查詢方式查閱當天的電視新聞外，還能用電視新聞內容索引查閱其所關心之新聞事件。若使用者沒有太多時間觀看整個新聞，則可利用本系統所提供的多層次新聞摘要查詢方式查詢所想看的新聞。目前本計劃已建立一新聞網站： http://nn.csie.nctu.edu.tw/Project1-1/intruduction.htm. 關鍵詞：智慧型網際網路新聞視訊查閱系統、新聞目錄查詢、新聞索引查詢、階層式新聞摘要 Abstract

In this project, we want to build a Taiwan-news based search engine called “The Intelligent Web-Based News Video Search System”. Based on the different desire of the users, the proposed system provides the different search methods such as the news-table-based, the news-index-based, and the hierarchical news-summary-based search methods. Users can browse some day’s news using the news-table-based search method and search the interesting events or objects using the news-index-based search method. If users did not have much time to see the entire news video, they can select a news summary from the roughness to the fineness based on his interested using the hierarchical news-summary-based search method.

Keywords: Intelligent Web services, Web technologies, multimedia processing, hierarchical news contents

二、緣由與目的隨著網際網路的蓬勃發展，各式各樣的媒體如文字、聲音、圖片、影像、動畫、影片等等均可由網際網路上取得。在眾多的影片中以新聞影片最令大多數人感到興趣。目前已有計多的新聞媒體如國外的 CNN，國內的台視、中視、華視等，都有將他們當天的電視新聞影片放在網際網路上供有興趣的人收看。他們的做法是將當天的新聞以人工的方式，根據新聞內容分段，於是使用者可以根據其放在網站上每一段新聞的標題，選擇感興趣的新聞片段觀看。將新聞影片放在網際網路上不但打破了收看的時間限制，也使得使用者可以自由挑選並收看感興趣的新聞事件。但由於這些網站對於新聞影片的處理僅止於當天的新聞，所以若想要再深入的查詢某一新聞發生的前因後果或某一相關事件發生的情形，仍然無法從上述網站上瀏覽。目前分析影片的方式不外乎是先將影片切成許多小場景[1][2]，然後再從這些小景中抽取代表性的畫面做分析。由於影片包含的資訊中動作佔了絕大多數，因此缺乏對影片中動作的分析將會忽略了影片中大部分的資訊。由於影片內容的種類非常繁雜，要能找出符合所有種類的分析方法是非常困難的工作。因此在做影片分析時均會先定義所處理的影片的種類，如運動類、動物類、新聞類影片等等。其中又以選擇新聞類影片為資料來源者為最多。原因不外乎是新聞資料來源較多，且新聞影

(2)

的相關研宄中，大部分著重於如何切割新聞影片[3][4][5][7]及如何安排新聞片段讓使用者瀏覽[8][9]。而著重於查詢功能的研究則僅止於代表性畫面的分析[6]。能夠整合影像、動作、聲音、及文字的新聞查詢系統則還未出現。因此，本計劃擬建立一個架構於網際網路上，以台灣新聞為資料的智慧型網際網路新聞視訊查閱系統 (The Intelligent Web-Based News Video Search System)。根據使用者不同的需求，本系統將提供目錄式、新聞影片內容索引、新聞概要式等數種不同的查詢方式。期能使得使用者除了能夠以目錄式查詢方式查閱當天的新聞外，還能用新聞影片內容索引來查閱其所關心的新聞事件。若使用者沒有太多時間觀看整個新聞，則可利用本系統所提供的多層次新聞概要查詢方式查詢所想要看的新聞。三、本計劃執行成果在本計劃中，我們完成了智慧型網際網路新聞視訊查閱系統 (The Intelligent Web-Based News Video Search System) [11]。此系統能自動將網站上的新聞文章與視訊作一個整合，讓瀏覽本系統的使用者能很容易的找到想要的新聞。茲將本系統分成兩個部分來說明：資料庫的建立與資料庫的查詢。首先我們將電視新聞經由影像視訊擷取卡存成 ASF、MPEG、PPM 等三種不同格式的新聞資料。接著系統將存成 MPEG 與 PPM 格式的新聞資料做分析，然後切出主播與新聞的片段以及有代表性的新聞畫面。當分析好的新聞片段存在資料庫後，使用者即可透過本系統查詢與瀏覽新聞，並可將存成 ASF 格式的新聞透過播放器播放出來。在資料庫的建立方面，我們首先透過影像以及聲音的整合將一個時段的新聞切割出一段段的新聞片段。首先我們用下面的流程將主播的鏡頭擷取出來，有了主播鏡頭後，我們就可將新聞視訊切割成一段段的報導段落。我們整個結合視訊與聲音的判斷主播鏡頭的流程如下： store the news video in Mpeg format store the news sound in WAV format

use video content based anchor person extraction approach on mpeg files if the resulting confidence on the video approach is high apply speraker identification on the wav file

Write into database

Yes

Ca

b

le

input

use the audio based speaker identification result

No use the video

based result 我們先將 MPEG 格式中的視訊與聲音分離出來，然後再分別對視訊及聲音做分析。最後再將兩個分析的結果整合起來。對於新聞視訊方面，我們將新聞畫面分成主播鏡頭與報導鏡頭兩部分。其分段方法流程如下換鏡點偵測動態鏡頭排除鏡頭相似度分析新聞單元分割 IBBPBBPBBPBBPBBP IBBPBBPBBPBBPBBP IBBPBBPBBPBBPBBP IBBPBBPBBPBBPBBP IBBPBBPBBPBBPBBP IBBPBBPBBPBBPBBP MPEG視訊 Scene#3_Scene#3 Scene#3 Scene#3_s₁ 鏡頭 Scene#3_Scene#3 Scene#3 Scene#3 c1 靜態鏡頭 Scene#3_Scene#3 Scene#3 Scene#3 a1 主播鏡頭 Scene#3_Scene#3 Scene#3 Scene#3 #1 報導段落 OUTPUT INPUT 首先我們透過 MPEG 格式中移動區塊 (Motion Block)的參考方向偵測出視訊的換鏡點，然後再將主播鏡頭決定出來。由於主播鏡頭大都不是高動態的鏡頭，因此我們先將動態鏡頭排除。接著利用相似度鏡頭分析找出屬於主播的鏡頭[12][13]。為了增加切割主播鏡頭的準確度，我們利用了 MPEG 格式中的聲音部分，分析其主播聲音的特性進而找出主播的鏡頭。我們判斷主播聲音的流程如下

(3)

TV News in Wav File Format

Segment the wav raw data into short speech

utterances

Transfer each speech utterance into corresponding mel-cepstral coefficients each anchor person's speech model represented by mean vectors and covariance matrices apply distance function on each speech utterance Recognize as nobody in speaker models If the distance is above a

threshold

Identify this speech utterance as the anchor person with

minimum distance If the distance is below a threshold

首先我們先建立主播聲音辨識器，我們根據所提供的主播聲音訓練出代表此主播聲音的高斯混合模組 (Gaussian Mixture Model) 來當作辨識器。當辨識主播聲音時，我們先將帶辨識的聲音 wave 檔切成適當的大小，並對每一段取 melcepstral coefficients 當作此段的特徵。對於每一個事先訓練好的主播聲音辨識器，我們將待辨識的聲音特徵當作輸入。在計算過相似度後，我們即可知道待辨識的聲音是否為主播及屬於哪個主播[14][15]。在完成主播鏡頭的擷取與新聞片段的切割後，系統接著就自動的對每一段新聞片段產生文字說明。我們自動產生文字說明的流程如下： Caption Detection Caption Extraction OCR News Story Text Create Pseudo-Document Video News Story Segmentation Info. Indexing Video Story by Text data

首先我們利用存成 PPM 圖檔格式的新聞資料，對其中的每一個畫面(frame)做文字的偵測(Caption Detection)，然後對每一個偵測出含有文字的畫面做文字的擷取 (Caption Extraction)。然後再對於每一擷取出的文字圖檔做文字辨識(OCR)。由之前所得的新聞片段資訊，我們可以為每個新聞片段建立 Pseudo Document。接著再利用文字辨識所得的結果到網路上搜尋相關的新聞文章當做每一段新聞片段的文字說明 [16][17][18]。當新聞資料庫建立後，使用者即可透過網路查詢及瀏覽感興趣的新聞。智慧型網際網路新聞視訊查閱系統的介面如下圖所示：首先使用者輸入想要看的電視台及年月日，再點選「Browse」。此時新聞內容畫頁將會出現，左側為新聞標題，右側各畫面是每則新聞的一張代表畫面。使用者可以大略知道當天的新聞。若使用者對其中一則新聞有興趣，可點選左側的新聞標題，此時該新聞的視訊與詳細內容畫頁的主要關鍵畫面將出現於右側。除此之外，使用者也可在關鍵字查詢欄位上輸入想檢索的鍵字詞（如新聞人、地、物名等等），隨後相關的新聞畫面即出現。四、計劃成果自評在本計劃中，我們完成了智慧型網際網路新聞視訊查閱系統 (The Intelligent Web-Based News Video Search System)。此系統能自動將網站上的新聞文章與視訊作

(4)

易的找到想要的新聞。在完成本計劃後我們擁有了切割主播及新聞片段的技術 [12][13]，主播聲音的辨識技術[14][15] ，影像畫面上文字的切割及辨識的技術以及對每段新聞自動做註解的技術 [16][17] [18]。五、參考文獻

[1] H. Zhang, A. Kankanhalli, and S. Smoliar, “Automatic Partitioning of Full-motion Video,” A Guided Tour of Multimedia System and Applications, IEEE Computer Society Press, 1995.

[2] J. S. Boreczky and L. A. Rowe, “Comparison

of video shot boundary detection techniques,” Proceedings of SPEI Conf. On Storage and Retrieval for Still Image and Video Databases IV, SPIE Vol. 2670, pp. 170-179, San Jose, Feb. 1996.

[3] A. Hauptmann and M. Wibrock, “Story

Segmentation and Detection of Commercials in Broadcast News Video,” Proc. Of Advances in Digital Libraries Conference, Santa Barbara, April 1998.

[4] J. Nam and A. H. Tewfik, “Combined Audio

and Visual Streams Analysis for Video Sequence Segmentation,” Proceedings of ICASSP’97, Vol. 4, pp. 26665-2668, 1997.

[5] M. A. Hearst, “Multi-Paragraph

Segmentation of Expository Text,” The 32nd

Annual Meeting of the Association For Computational Linguistics, New Mexico, June 1994.

[6] M. G. Brown, J. Foote, G.J.F. Jones, K.S. Jones and S.J. Young, “Automatic Content-Based Retrieval of Broadcast News,” Proceedings of ACM Multimedia Conference, San Francisco, 1995.

[7] M. Yeung and B. –L. Yeo, “Time-Constrained Clustering for Segmentation of Video Into Story Units,” Proceedings of International Conference on Pattern Recognition, Vienna, Austria, August 1996.

[8] M. Yeung, B. –L. Yeo and B. Liu,

“Extracting Story Units From Long Programs For Video Browsing and Navigation,” Proceedings of international Conference on Multimedia Computing and Systems, June 1996.

[9] Y. Rui, T.S. Hung and S. Mehrotrta,

“Constructing Table-of-content For Video,” ACM Journal of Multimedia System, 1998.

[10] Shih-Che Lin, Yeong-Yuh Xu, Hsin-Chia Fu,

and H. T. Pa, “An Internet News Video Browsing System,” Proceedings of the 2000 International Computer Symposium, pp.262-268.

[11] ”The Intelligent Web-Based News Video Search System”, http:// 140.113.216.56/ NewsQuery/ main.asp. [12] 江志釧,新聞影片視訊場景切割及摘要之研究, 交通大學資訊工程研究所,民國八十九年六月. [13] 林家弘,應用 MPEG 視訊分析於電視新聞分段之研究,交通大學資訊工程研究所,民國九十年七月. [14] 富博超,以語者辨識為基礎的主播認定之研究, 交通大學資訊工程研究所,民國九十年七月. [15] 鄭士賢,高斯混合模型的學習與其在語者辨別上的應用,交通大學資訊工程研究所,民國九十一年七月. [16] 曾羽鴻,新聞視訊內容搜尋系統,交通大學資訊工程研究所,民國八十九年六月. [17] 鍾文豪,電視新聞內容分類與索引之研究,交通大學資訊工程研究所,民國九十年七月. [18] 方策民,電視新聞文稿之研究,交通大學資訊工程研究所,民國九十一年七月.

(5)

智慧型網際網路新聞視訊查閱系統的研發(II)

行政院國家科學委員會專題研究計畫成果報告