• 沒有找到結果。

4.1 結論

在本論文中,我們使用了基於 CCGMM 相異度量測方法來做語者及環 境狀況轉換之偵測,並且與基於 BIC 之相異度量測方法比較其轉換點辨認 率,其結果分列如下:

1. 本論文提出之相異度量測方法對於標註層之轉換點偵測可以得到令人 滿意的結果,其 MDR 為 19.6%,FAR 為 14.6%,而 F1-measure 高達 0.828,相較於傳統的基於 BIC 之相異度量測方法有著更好的辨識率。

2. 因為我們利用 GMM 來描述聲音片段之統計特性,而共用 mixture component 來大幅減少其計算量,因此在不增加太多的計算量下,基 於 CCGMM 之相異度量測有顯著的效能增加。

3. 對於語者轉換偵測而言,利用本論文所提出的相異度量測方法可以單 純地利用 threshold-based decision rule 來決定出語者之轉換點。

4. 在 我 們 觀 察 D i′( )曲 線 且 對 照 實 際 的 聲 音 波 形 後 , 發 現 因 為 基 於 CCGMM 之相異度量測方法對於聲音特性變化有著相當好的鑑別度,

幾乎在真實轉換點附近D i′( )都有峰值,只是由於電視新聞語料之特 性,使得常有不可預期之 FA 發生。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

4.2 未來展望

對於語者及環境轉換之偵測而言,其最終目標不外乎切割出有著相同 主題的聲音片段,以達到資料檢索之目的,因此有著令人滿意之標註層及 語者層之轉換點辨識率便是我們的首要目標,而我們提出的相異度量測方 法可以為其解決方案之一;然而下一步的目標便是如何利用已偵測出來之 轉換點來合併及歸類成主題式的聲音片段。

對於故事層之轉換點偵測而言,如同我們在第一章所提到的,已經有 許多人投入了相當程度的努力,例如利用影像處理、語音辨識、Dynamic Programming 等技術來對於影像或聲音之內容分類,已經獲得了不錯的結 果;然而這些技術都牽涉到了許多不同的層次,而且在不同的地方新聞播 報的次序也不盡相同,因此前述之故事轉換偵測方法有著地域性的限制,

所以如何找到簡單且通用的偵測方法便是我們未來努力的目標。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

參考文獻

【1】Hauptmann, A.G., and Witbrock, M.J., “Story Segmentation and Detection of Commercials in Broadcast News Video,” ADL-98 Advances in Digital Libraries, Santa Barbara, CA, April 22-24, 1998.

【2】Hsin-Min Wang, Shi-Sian Cheng and Yong-Cheng Chen, “The SoVideo Mandarin Chinese News Retrieval System”, Int. Journal of Speech Technology, Vol. 7, pp189-202, 2004

【3】陳俊良, “中文廣播新聞語音辨識之研究",國立交通大學碩士論 文,民國九十三年六月。

【4】Lie Lu, Hao Jiang, and HongJiang Zhang, “A robust audio classification and segmentation method,” Tech. Rep., Microsoft Research, 2001.

【5】M. Siegler, U. Jain, B. Ray and R. Stern, “Automatic segmentation, classification and clustering of broadcast news audio”, Proceedings of the Speech Recognition Workshop, pp 97-99, 1997.

【6】TingYao Wu, Lei Lu, Ke Chen, and HongJiang Zhang, “UBM-based Real-time Speaker Segmentation For Broadcasting News,” Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2003, Vol. II, pp. 193-196, Hong Kong, April 4-10, 2003

【7】Joseph P. Campbell, “Speaker recognition: A tutorial,” Proc. IEEE, vol. 85, pp. 1436-1462, Sept 1997.

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

【 9 】Winston Hsu, Shih-Fu Chang, Chih-Wei Huang, Lyndon Kennedy, Ching-Yung Lin, and Giridharan Iyengar, “Discovery and Fusion of Salient Multi-modal Features towards News Story Segmentation,”

TRECVID 2003 Workshop.

【10】Trischler, A. & Gopinath, R.A., “Improved Speaker Segmentation and Segments Clustering Using the Bayesian Information Criterion”

Proceedings of EuroSpeech99, pp679-682.

【11】Douglas A. Reynolds, “Robust text-independent speaker identification using gaussian mixture speaker models,” IEEE Transactions on speech and audio processing, 3(1), Jan. 1995.

【12】T. Kemp, M. Schmidt, M. Westphal, A. Waibel, “Strategies for automatic segmentation of audio data,” Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

【13】C. J. van Rijsbergen, Information Retrieval, London, Butterworth, 1979.

【14】J. T. Tou, R. C. Gonzalez, Pattern Recognition Principles, R. Kalaba, Ed.

Reading, MA: Addison-Wesley, 1974.

相關文件