新聞故事切割

第三章主播影像偵測與新聞故事切割

3.3 新聞故事切割

≤

≤ 。

3.3 新聞故事切割

在一小時 3600 張的新聞影像中，知道那幾張影像有主播後，我們就能做新聞故事切割，方法很簡單，就是要找出主播出現的時間序列，演算法如下：

1. 在有主播出現的影像中，找出時間上連續的主播影像序列。

2. 假設外景的時間不可能少於兩秒，所以合併間隔在兩秒(兩張影像)內的主播影像序列，使其成為一個更長的主播影像序列。

3. 假設主播播報新聞的時間不可能少於三秒，所以刪除長度在三秒(三張影像) 內的主播影像序列。

4. 有了主播出現的時間序列後，每則新聞故事的時間就是該則主播出現的時間到下一個主播開始出現的時間，如圖 3-11。

圖 3-11 新聞故事架構

主播播報外景採訪主播播報外景採訪 . . . 主播播報

新聞故事

第 4 章實驗結果

在這章中對於第三章所提的主播影像偵測方法與新聞故事切割方法，加以實作，並設計實驗來評估此方法的效能。對於實驗的平台，在硬體方面使用了以 Intel Pentium-4 2.4Ghz 的時脈速率的中央處理器的個人電腦，搭配有 1Gigabytes 主記憶體，並接有電視影像擷取卡，作業系統為 Microsoft Windows XP 專業版。

4.1 主播影像偵測實驗與結果分析

本論文所提的主播影像偵測方法的第一步是偵測與追蹤每張影像的人臉，

可是不能保證使用追蹤的人臉偵測方式是否能達到預期的加速效果且效能不會降低。所以 4.1.1 節的實驗會去比較有無人臉追蹤的人臉偵測效能；新聞主播影像偵測方法的最後是對衣服顏色做分群，分群好後最大的那一群為主播，可是不知道要用那種分群法較好，所以 4.1.2 節的實驗會去比較 4 個不同分群法的分群效果。資料來源為東森、中天、民視、華視、三立五家電視新聞台，各一個小時的新聞影像，取得的方式是用電視擷取卡以每秒一張的速率擷取整點新聞的影像，每次 3600 張影像，用於主播影像偵測。

4.1.1 人臉偵測實驗與結果分析

本小節的實驗要比較有無人臉追蹤的人臉偵測效能，評量的標準有兩個，第一個是人臉偵測的效能，第二個是主播的人臉在人臉偵測的過程是否被誤失，

結果如表 4-1，4-2，4-3，4-4，4-5。

表 4-1 是沒有用人臉追蹤的人臉偵測結果，第一欄是電視台名稱，第二欄是在 3600 張影像中真正的人臉數，第三欄是程式偵測到的人臉數，第四欄是正確偵測到的人臉數，第五欄是正確率，第六欄是召回率；表 4-2 是沒有用人臉追蹤的主播人臉誤失結果，第一欄是電視台名稱，第二欄是主播的人臉數，第三欄是主播的人臉在人臉偵測的過程中有多少被誤失，第四欄是誤失率；表 4-3 是有用人臉追蹤的人臉偵測結果，各欄位的意義同表 4-1；表 4-4 是有用人臉追蹤的主播人臉誤失結果，各欄位的意義同表 4-2；表 4-5 是將平均的結果並列。

表 4-1 人臉偵測結果(沒有用人臉追蹤) 電視台真正的

人臉數

程式偵測到的人臉數

正確偵測到

的人臉數正確率召回率東森 1051 1308 756 58% 72%

中天 1122 1397 724 52% 65%

民視 1251 1563 871 56% 70%

華視 774 997 539 54% 70%

三立 946 1258 679 54% 72%

平均 55% 70%

表 4-2 主播的人臉在人臉偵測的過程中的誤失率(沒有用人臉追蹤)

表 4-5 有無人臉追蹤的人臉偵測效能比較

人臉偵測正確率人臉偵測召回率主播人臉的誤失率

沒用人臉追蹤 55% 70% 6%

有用人臉追蹤 58% 73% 5%

從表 4-1 與 4-2 來看，雖然人臉偵測的效能不好，不過主播人臉在人臉偵測的過程中被誤失的比率很小，所以可以繼續進行接下來的取衣服顏色及分群處理；從表 4-5 來看沒用人臉追蹤的人臉偵測效果與有用人臉追蹤的效果差不多，

而且主播人臉在人臉偵測的過程中誤失率也差不多，不過有用人臉追蹤的人臉偵測速度約比沒用人臉追蹤的速度快上 30%，所以的確可使用人臉追蹤來加速人臉偵測。

4.1.2 分群實驗與結果分析

本小節的實驗要比較循序式分群法、階層式凝聚分群法（使用平均鏈結）、階層式凝聚分群法（使用完全鏈結）、階層式凝聚分群法（使用單鏈結）這四種分群法對衣服特徵的分群效果。由於分群好後程式會指出那些影像有主播，然後再跟正確答案做比對，計算正確率與召回率，藉由這兩個指標來比較四個分群法的效能。

圖 4-1 是東森 1 小時衣服資料的實驗結果，當中的 (a)、（b）、(c)、(d) 小圖分別是循序式分群法、階層式凝聚分群法（使用平均鏈結）、階層式凝聚分群法（使用完全鏈結）、階層式凝聚分群法（使用單鏈結）這四種分群法的結果。

每個小圖中的橫座標是門檻值，縱座標是比率，圖中的的兩條線分別代表正確率與召回率，箭頭所指代表正確率加召回率最高的地方。圖 4-2、圖 4-3、圖 4-4、

圖 4-5 分別代表中天、民視、華視、三立 1 小時衣服資料的實驗結果。

(a) (b)

圖 4-3 民視 1 小時衣服資料的分群實驗結果

(a) (b)

表 4-6 是把結果並列，第一欄是電視台名稱，第二、三、四、五欄分別是 4

在一秒以內算正確，因為本論文是以每秒一張的速率擷取新聞影像。例如有一個

表 4-8 主播段偵測的實驗結果(考慮各種評量標準) 同時考慮主播段的

起始與結束時間

只考慮主播段的起始時間誤差標準

正確率召回率正確率召回率 1 秒 93.5% 95.7% 94.5% 96.6%

2 秒 94.3% 96.4% 94.5% 96.6%

3 秒 94.3% 96.4% 94.5% 96.6%

4 秒 94.3% 96.4% 95.1% 97.3%

5 秒 94.3% 96.4% 95.1% 97.3%

4.3 新聞故事切割系統應用實驗

本節將論文中所提的新聞故事切割系統整合至本實驗室已有的一套新聞系統中，並以兩個星期的東森晚間新聞資料來做驗證，時間是 2007 年 6 月中到 6 月底。表 4-9 是主播影像偵測實驗結果，第一欄是日期，第二欄是真正的主播影像張數，第三欄是程式偵測到的主播影像張數，第四欄是正確偵測到的主播影像張數，第五欄是正確率，第六欄是召回率。表 4-10 是偵測主播段的實驗結果，

第一欄是日期，其他欄位的意義與表 4-7 相對應的欄位相同。表 4-11 與表 4-8 相對應的欄位意義相同，唯一不同的地方只有實驗資料。

表 4-9 東森新聞主播影像偵測實驗結果日期真正的主播

影像張數

程式偵測到的主播影像張數

正確偵測到的

主播影像張數正確率召回率 20070629 651 839 644 77% 99%

20070628 667 837 659 79% 99%

20070627 656 724 629 87% 95%

20070625 612 810 606 75% 99%

20070624 582 678 571 84% 98%

20070623 593 612 585 95% 98%

20070622 558 791 554 70% 99%

20070621 531 565 524 92% 98%

20070620 611 773 605 78% 99%

20070619 620 783 609 78% 98%

20070618 606 742 600 81% 99%

20070617 662 799 658 82% 99%

20070616 505 512 488 95% 97%

20070615 681 772 665 86% 97%

平均 83% 98%

表 4-10 東森新聞主播段偵測實驗結果

第 5 章

結論與未來展望

5.1 結論

本文提出了以人臉偵測為基礎的偵測新聞主播方法來進行新聞故事切割，由於使用的是視訊上的特徵所以不會像【2】一樣會受到背景音樂的干擾；且因為只偵測影像中的人臉區域所以不會像【1】一般容易受到複雜背景的干擾。此外本方法是透過主播影像出現最頻繁的假設來偵測主播報導新聞的時間，所以不需要針對每個主播調整模型。

我們利用本方法實作了一個能自動切割東森新聞的系統，實作出的系統證實了本方法確實的切割出了可接受的新聞段落。

5.2 未來展望

在本論文的研究與實驗和應用中，發現有數個主題是我們可以繼續改進的重點，在此說明如下：

1. 本論文是以每秒一張的速率抽取影像，所以判斷主播出現時間的最小單位是

秒，不過影像檔每秒有 29.97 張，若能以跟影像播放相同的速率抽取影像來偵測主播的話，就能提高判斷主播出現時間的精確度。

2. 本論文實作的人臉偵測與人臉追蹤所花的時間比一般論文所寫的時間多，可能的原因是在人臉偵測的過程中多了影像分段這個步驟；還有在 3.1.2 節所提的人臉追蹤在搜尋區域中要比對完所有的位置，從中選擇一個最好的位置，

這個步驟也是會花許多時間，若能在不失精確度的情形下減少時間的花費，

則 1.中所提的建議就能實現。

3. 本論文只取衣服顏色當成每個人的特徵，這步驟的風險在於萬一有其他人穿的衣服顏色與主播所穿的衣服顏色相同，則此人也會被認為是主播，若能找到其他更有分別性的特徵則可以大大提升主播段辨識的正確率。

參考文獻

【1】 Xinbo Gao and Xiaoou Tang, “Unsupervised Video-Shot Segmentation and Model-Free Anchorperson Detection for News Video Story Parsing ,＂ IEEE Trans. Circuits and System for Video Technology, pp.756-776,Sep. 2002

【2】鄭士賢, “Model-based learning for Gaussian Mixture Model and its application on Speaker Identification,＂國立交通大學,資訊工程研究所碩士論文, 民國九十一年

【3】 Ming-Hsuan Yang, David J. Kriegman and Narendra Ahuja, “Detecting Faces in Images: A Survey,＂ IEEE Tran. Pattern Analysis and Machine Intelligence, vol. 24, Issue 1, pp. 34-58,Jan. 2002

【4】 C. Kotropoulos and I. Pitas, “Rule-Based Face Detection in Frontal Views,＂ Proc. Int＇l Conf. Acoustics, Speech and Signal Processing, vol. 4, pp. 2537-2540, 1997

【5】 H.P. Graf, T. Chen, E. Petajan and E. Cosatto, “Locating Faces and Facial Parts,＂ Proc. First Int＇l. Workshop Automatic Face and Gesture Recognition, pp. 41-46, 1995

【6】 T.S. Jebara and A. Pentland, “Parameterized Structure from Motion for 3D Adaptive Feedback Tracking of Faces,＂ Proc. IEEE Conf.

Computer Vision and Pattern Recognition, pp. 144-150. 1997

【7】 H. Wang and S.-F. of Chang, “A Highly Efficient System for Automatic Face Region Detection in MPEG Video,＂ IEEE Trans.

Circuits and System for Video Technology, vol. 7, no. 4, pp. 615-628, 1997

【8】 D. Saxe and R. Foulds, “Toward Robust Skin Identification in Video Images,＂ Proc. Second Int＇l Conf. Automatic Face and Gesture Recognition, pp. 379-384, 1996

【9】 Y. Dai and Y. Nakano, “Extraction for Facial Images from Complex

Background Using Color Information and SGLD Matrices,＂ Proc.IEEE Conf. Computer Vision & Image Processing, vol. 1, pp. 137-141 Oct 1994

【10】 M.-H. Yang and N.Ahuja, “Detecting Human Faces in Color Images,＂ Proc. IEEE int＇l Conf. Image Processing, vol. 1, pp.

127-130, 1998

【11】 D. Chai and K.N. Ngan, “Locating Facial Region of a Head-and-Shoulders Color Images,＂ Proc. Third Int＇l Conf.

Automatic Face and Gesture Recognition, pp. 124-129, 1998

【12】 J.L. Crowley and J.M. Bedrune, “Integration and Control of Reactive Visual Processes,＂ Proc. Third European Conf. Computer Vision, Vol. 2, pp. 47-58, 1994

【13】 I. Cai, A. Goshtasby and C. Yu, “Detecting Human Faces in Color Images,＂ Proc. 1998 Int＇l Workshop Multi-Media Database Management Systems, pp. 124-131, 1998

【14】陳鍛生和劉政凱, “膚色檢測技術綜述,＂計算機學報, Chinese Journal of Computers, 02 期, 2006

【15】 Michael J.Jones and James M.Rehg, “Statistical Color Models with Application to Skin Detection,＂ IEEE Computer Society

Conference, Computer Vision and Pattern Recognition, vol. 1, pp, 23-25. June, 1999

【16】 Tze-Yin Chow, Kin-Man Lam and Kwok-Wai Wong, “Efficient color face detection algorithm under different lighting conditions,＂

Journal of Electronic Imaging, vol 15, pp. Jan, 2006

【17】 Dorin Comaniciu and Peter Meer, “Mean Shift: A Robust Approach Toward Feature Space Analysis,＂ IEEE Trans Pattern Analysis and Machine Intelligence, vol. 24, Issue. 5, pp, 603-619. May, 2002

【18】 D. Chetverikov and A. Lerch, “Multiresolution Face Detection,＂

Theoretical Foundations of Computer Vision, vol. 69, pp. 131-140,

1993

【19】 C.-C. Han, H.-Y.M. Liao, K.-C. Yu and L.-H. Chen, “Fast Face Detection via Morphology-Based Pre-Processing,＂ Proc. Ninth Int＇l Conf. Image Analysis and Processing, pp. 469-476, 1998

【20】 T. Sakai, M. Nagao and S. Fujibayashi, “Line Extraction and Pattern Detection in a Photograph,＂ Pattern Recognition, vol.

1, pp. 233-248, 1969

【21】 P. Sinha, “Object Recognition via Image Invariants: A Case Study,＂ Investigation Ophthalmology and Visual Science, vol.

35, no. 4, pp. 1735-1740, 1994

【22】 J. Miao, B. Yin, K. Wang, L. Shen and X. Chen, “A Hierarchical Multiscale and Multiangle System for Human Face Detection in Complex Background Using Gravity-Center Template,＂ Pattern Recognition, vol. 32, no. 7, pp. 1237-1248, 1999

【23】 M. Turk and A. Pentland, “Eigenfaces for Recognition,＂

J.Cognitive Neuroscience, vol. 141, pp. 245-250, 1991

【24】 H. Rowley, S. Baluja and T. Kanade, “Neural Network-Based Face Detection,＂IEEE Trans. Pattern Analysis and Machine

Intelligence, vol. 20, no.1, pp. 23-38, Jan. 1998

【25】 E. Osuna, R. Freund and F. Girosi, “Training Support Vector Machines: An Application to Face Detection,＂ Proc. IEEE Conf.

Computer Vision and Pattern Recognition, pp. 130-136, 1997

【26】 K-K. Sung and T. Poggio, “Example-Based Learning for View-Based

在文檔中非監督式主播影像偵測於新聞故事分段之研究 (頁 37-0)

第三章 主播影像偵測與新聞故事切割

3.3 新聞故事切割

3.3 新聞故事切割

第 4 章 實驗結果

4.1 主播影像偵測實驗與結果分析

4.3 新聞故事切割系統應用實驗

第 5 章

結論與未來展望

5.1 結論

5.2 未來展望

參考文獻

第三章主播影像偵測與新聞故事切割

第 4 章實驗結果