國 立 交 通 大 學
資訊科學與工程研究所
碩士論文
電視新聞語音檢索之研究
The Study of Spoken Document Retrieval on TV news
研究生 : 蔡富評
指導教授: 傅心家 教授
電視新聞語音檢索之研究
The Study of Spoken Document Retrieval on TV news
研 究 生:蔡富評 Student:Fu-Ping Tsai
指導教授:傅心家 教授 Advisor:Prof. Hsin-Chia Fu
國 立 交 通 大 學
資 訊 科 學 與 工 程 研 究 所
碩 士 論 文
A Thesis Submitted to Institute of Computer Science and Engineering College of Electrical Engineering and Computer Science
National Chiao Tung University in partial Fulfillment of the Requirements
for the Degree of Master
in
Computer and Information Science July 2006
Hsinchu, Taiwan, Republic of China
電視新聞語音檢索之研究
研究生:蔡富評 指導教授: 傅心家 教授 國立交通大學資訊科學與工程研究所摘要
語音資訊檢索主要是研究如何對大量的多媒體資訊(如廣播新聞),利用語音 辨識技術,以自動的方式對於其內含的語音資訊建立起全文索引與檢索的機制。 本篇論文主旨在針對台灣廣播新聞,在建立語音檢索的機制之前,需要針對電視 新聞節目建立起自動新聞分析的系統,以偵測出新聞節目中主播的位置並切割新 聞故事的問題作探討研究。近來許多新聞節目中主播音段常有明顯的背景音樂, 為了正確的偵測出沒有背景音樂的主播音段,論文中提出結合 BIC 語者分段與分 群以及語者識別的技術來偵測新聞中沒有背景音樂的主播音段。我們以台灣有線 東森新聞台的新聞節目進行主播偵測的實驗,驗證所提的方法能正確偵測出沒有 背景音樂的主播音段,論文最後更進一歩實作語音音節辨識並且成功建立起以音 節為索引特徵之電視新聞語音檢索系統。The Study of Spoken Document Retrieval on TV news
Student: Fu-Ping Tsai Advisor: Prof. Hsin-Chia Fu
Institute of Computer Science and Engineering National Chiao Tung University
Abstract
This thesis mainly describes broadcast news retrieval system for Mandarin Chinese. First, we need to construct automatically news analysis system to detect anchor segments in news program. Recently, we observed some anchor segments that have background music in many news programs. In order to correctly detect anchor segments without background music, we propose a method based on technologies such as BIC-Segmentation, BIC-Clustering and GMM-based speaker identification for TV news anchor detection. The experiment corpus is collected from daily news on ETT news program and the experiment result is good. Moreover, we integrate the proposed method and implement syllable-level indexing feature news spoken document retrieval system on TV news successfully.
誌謝
謝謝傅老師在我研究所兩年的生涯給予我的指導和照顧,並幫助我的論文找 到研究方向,並學習到做研究方法與態度,才得以完成此篇論文。同時,感謝實 驗室博士後研究以及博士班學長,永煜、柏伸、政龍、岳宏、士賢,還有學弟玉 善,平常在生活上及學業上的建議與指教,還有感謝兩位同學建榮、政邦,兩年 來同甘共苦,一起修課、玩樂、做研究,互相加油打氣。特別感謝士賢學長在論 文上的極大幫助,讓我認識語音方面的知識也幫助我解決困難並修改論文,讓論 文更為完美。感謝大學同學以及朋友在生活上的鼓勵。最後,感謝爸爸、媽媽、 妹妹一直在背後支持我,給我無憂無慮的生活,讓我可以專注在學業上,才得以 順利完成學業。目錄
摘要...i Abstract...ii 誌謝...iii 目錄...iv 表目錄...vi 圖目錄...vii 第一章 前言...1 1.1 研究動機...1 1.2 研究目標...2 1.3 研究方向...2 1.4 章節介紹...3 第二章 BIC 在語者分段及語者分群與語者識別之相關研究...4 2.1 模型選擇與貝氏資訊法則...4 2.2 BIC 語者分段與分群...5 2.2.1 BIC 語者分段...5 2.2.2 BIC 音段分群...6 2.3 以高斯混合模型為基礎的語者識別...7 第三章 在主播有背景音樂的新聞環境下- 作新聞主播的偵測與新聞故事的切割...11 3.1 非監督式的新聞故事切割...12 3.2 以語者識別為基礎的電視新聞主播偵測...14 3.2.1 新聞語者的分類與訓練新聞語者的高斯混合模型...14 3.2.2 應用語者識別於新聞語料的分類與新聞主播的偵測...18第四章 實驗結果...20 4.1 實驗環境及資料來源...20 4.2 實驗方式...20 4.3 實驗數據與結果...23 第五章 系統應用:電視新聞語音檢索系統...27 5.1 語音辨識與語者調適之實作...27 5.2 電視新聞語音檢索之實作...30 5.3 整合:電視新聞語音檢索系統之架構...33 5.4 語音檢索效能評估...34 第六章 結論及未來展望...36 6.1 結論...36 6.2 未來展望...36 參考文獻...38
表目錄
表 4-1: 以 GMM 語者識別來偵測新聞純主播的四個時段五天的實驗結果...23 表 4-2: 比較固定高斯元件個數的方式來訓練語者 GMM 與以 “BIC 為基礎自我學習成長的方法"來訓練語者 GMM, 以比較兩種方式的優劣...25 表 5-1: 以 TCC300 中 260 人所訓練的 HMM(稱為原始 HMM), 並以 TCC300 的測試語料測試其音節辨識率...28 表 5-2: 以 TCC300 中 260 人所訓練的 HMM,並以電視新聞主播 的語音當測試語料測試其音節辨識率...29 表 5-3: 進行語者調適後的模型之音節辨識率...29 表 5-4: 以調適後的模型來辨認含有背景音樂的主播音段的正確率...30 表 5-5: 以音節串S1S2KS10為例,抽取六類音節索引項...31圖目錄
圖 2-1: 語者模型訓練流程圖...7 圖 2-2: 語者識別的步驟...8 圖 3.1: 電視新聞節目的結構...12 圖 3.2: 電視新聞的多個語者交換點偵測...13 圖 3.3: GMM 新聞語者識別器...19 圖 4.1: 訓練新聞語者 GMM 流程...21 圖 4.2: 以 GMM 語者識別來偵測純主播實驗流程...22 圖 5.1: 自動新聞分析系統架構(前處理)...33 圖 5.2: 電視新聞語音檢索(sever)架構...34第 1 章
前言
1.1 研究動機
隨著電腦科學日漸發達與網際網路的興盛,電腦早已融入每個人的生活當 中,隨著電腦網路越來越普及,網路上各式各樣的資源,如:文字文件、影像、 視訊、音訊等資源,其中文字文件的搜尋引擎到目前為止已有不錯的成果 (如:http://www.google.com),幫助使用者在約數億的網頁中找到想要的資源, 因此資訊檢索無疑是漫遊多媒體資訊時代的引擎,這種自動索引及檢索各種資訊 的技術能協助人們在大量的多媒體資料庫中尋找想要的資訊。 由於語音辨識的研究已有數十年的歷史,用來做語音辨識最著名的聲學模型 即是隱藏式馬可夫模型(Hidden Markov Model, HMM),語音辨識率也已經有不錯 的成果,因此近年陸續有不少研究是以此連續語音辨識技術為基礎對大量的音訊 資源作索引與語音文件資訊檢索的相關技術,以期能以此技術為基礎發展出一套 便捷的語音資訊檢索系統。1.2 研究目標
本論文將針對台灣有線電視台的晚間新聞時段進行語音資訊檢索的相關問 題進行研究,由於我們觀察到絕大部分的晚間新聞在主播播報新聞的同時,都會 加上明顯的背景音樂(只有少數主播音段沒有背景音樂),有背景音樂的新聞主播 片段將會影響到對於主播音段進行音節辨識的音節正確率,進而影響後端欲實作 的以音節為基礎之電視新聞語音檢索系統的正確率,為了克服上述問題,研究希 望設計了一套自動新聞分析系統,能偵測出沒有背景音樂的新聞主播音段,並確 認其在新聞節目中的位置,更進一步只針對沒有背景音樂的主播音段進行音節辨 認,以作為後端實作新聞語音檢索的對象。1.3 研究方向
首先,我們觀察到電視新聞語料不外乎就是主播音段(audio segment)、主 播含背景音樂音段、外景男性音段、外景女性音段、廣告男性音段、廣告女性音 段,這六大類語料所組成,論文中將利用以高斯混合模型(Gaussian Mixture Models)為基礎的語者識別(Speaker Identification)技術 【1】,配合適當的將 新聞語料分類與收集,來達成將沒有背景音樂的主播語料與含有背景音樂的主播 語料分離。 由於幾乎所有有關語者識別相關研究皆是採用高斯混合模型來代表語者的 語音特性分布,且已經有不錯的成果,但是之前的那些作法對於以 EM 演算法來 訓練語者的高斯混合模型時,該使用多少高斯元件(Gaussian Components)來代 表訓練語料的特徵分布,到目前為止並未有理論上的方法去事先估計,都是以實 驗的方式來決定高斯混合模型中高斯元件的個數,因此本論文將利用貝氏資訊法 則(Bayesian Information Criterion, BIC) 【2】,以自我成長學習的方式來訓 練語者的高斯混合模型 【3】,以自動決定並找出最適合代表該訓練語料的高斯 混合元件個數。依上述方法訓練新聞中六大類語者的高斯混合模型,再以具有最大機率的準則將每個新聞音段作分類,以期更準確的將沒有背景音樂的主播音段 與含有背景音樂的主播音段分離。
1.4 章節介紹
在以下章節中,第二章首先介紹模型選擇與貝氏資訊法則(BIC)以及 BIC 如 何應用於語者分段與語者音段分群的技術,緊接者介紹以高斯混合模型為基礎的 語者識別技術;第三章則是本論文提出如何在主播音段有背景音樂的新聞環境 下,找出純主播音段(沒有背景音樂的主播音段)並切割新聞故事;第四章是以第 三章所提出的新聞沒有背景音樂的主偵測的方法的實驗結果,以驗證其可行性與 效能;第五章是整合一些語音方面的相關技術,包括:以第三章所提之電視新聞主 播偵測及新聞故事切割、沒有背景音樂的主播音段的音節辨識並實作電視新聞語 音檢所系統;第六章則是結論及對未來的展望。第 2 章
BIC 在語者分段及語者分群與語者識別
之相關研究
2.1 模型選擇與貝氏資訊法則(BIC)
貝氏資訊法則(Bayesian Information Criterion,BIC)是一種模型選擇的法則,最 先由 G.Schwarz 【2】所提出,所謂模型選擇指的是給定一資料集 和一個機率模型候選集 } ,..., , {x1 x2 xN X = M ={M1,M2,...,Mk},我們要從模型候 選集中選擇最適合的機率模型來表示 X 的資料分佈,則 BIC 定義為: ) 1 . 2 ( log 2 1 ) | ( log ) (M P X M d N BIC i = i − i 其中 為資料X 對模型 的最大相似度(maximum likelihood),N 為資料 總數, 是模型 的參數個數,參數個數越多,表示模型複雜度越高,因此方 程式(2.1)的第二項為對模型複雜度的懲罰(penalty),期望能得到一個較簡單且又 能精確的機率模型來估計資料的分佈情況,因此對於較複雜的模型施以較高的懲 罰,以避免選擇到一個過於複雜的模型。 ) | (X Mi P Mi i d Mi 因此,當計算出來的 BIC 值(式(2.1))越大,就代表此組資料 X 的分佈越適 合以此模型來表示,所以 BIC 法則告訴我們要選擇具有 BIC 值最大的模型。
2.2 BIC 語者分段與分群
近年來對於語者分段與分群 【13】的相關技術大概可歸為三大類:
(1) 以模型為基礎(GMM-based)【5】: 這種方式需要依靠事先訓練好的模型來區 分 出不同的語者,但實際上並不可能取得各種的語者模型。
(2) 以距離為基礎(Metric-based)【6】: 利用滑動視窗(sliding window),每 次計算相鄰視窗間的距離,距離的量測方式可採用 KL2,但需要由訓練資料 與經驗來決定門檻值(threshold),最後選擇在門檻值之上的最高點,因此對 於實際測試資料上,效果並不穩定。 (3) 以模型選擇為基礎(Model-Selection-based): 由 Chen 於 1998 年提出【4】, 有別於傳統的語者分段方式,他利用貝氏資訊法則(BIC)的模型選擇理論來檢 驗音段中是否有語者交換點(change point),其優點是不需要事先知道各種 語者的模型也無需訓練語者的模型。 若將模型選擇的問題應用到語者分段與分群上,則從多個模型的選擇簡化成 兩個模型的選擇,分別介紹如下:
2.2.1 BIC 語者分段
給定 代表維度為 d 的特徵向量(MFCC),假設此音段最多 只有一個語者交換點,則可對每一個 做偵測,偵測其是否為語者交換點,Chen 用模型選擇的方法來檢定,下面兩個模型候選以偵測 是否為交換點: } ,..., , {x1 x2 xN X = b x b x 0 M : 假設此音段沒有語者交換點,x1,x2,...,xN ~ N(µ,∑),為一高斯分配 1 M : 假設xb為語者交換點,x1,x2,...,xb ~N(µ1,∑1)為一高斯分配; ) , ( ~ ,..., , 2 2 2 1 ∑ + x x N µ xb N 為另一高斯分配 然後以 BIC 來做選擇,定義ΔBIC 為:) 2 . 2 ( log )) 1 ( 2 1 ( 2 1 |) | log ) ( | | log | | log ( 2 1 ) ( ) ( 2 1 0 1 N d d d b N b N M BIC M BIC BICb + + − ∑ − − ∑ − ∑ = − = ∆ λ 根據BIC法則告訴我們,若∆BICb>0,則我們應該選擇 的假設,且若b為語者交 換點,必有∆BIC 1 M b>0,所以最後選擇具有最大ΔBIC值且大於零的點為語者交換 點,否則此音段沒有語者交換點。
2.2.2 BIC 音段分群
通常於一段音訊中相同語者經常會出現數次(如:在新聞節目中,新聞主播的 音段會出現多次且分散在不連續的時間中),當適當的將音訊分段之後,我們希 望可以自動的將相同語者的音段集合起來。 假設S = {S1,S2,…,Sk}是音段的集合,Chen用階層式的分群法來對音段集合S 作分群,一開始每一音段自成為一群(或一個節點),每次考慮最近的(常以ΔBIC 或KL2 距離來衡量兩音段的距離)兩音段Si和Sj,接著考慮兩種候選模型: ) , ( ~ ,..., , , ,..., , : 1 2 1 2 0 x x x x x x N µ ∑ M i i ni j j nj j i ,此兩段為一高斯分配 ) , ( ~ ,..., , ); , ( ~ ,..., , : 2 1 2 1 1 j j j n j j i i i n i i N x x x N x x x M j i ∑ ∑ µ µ ,每一音段分別為一高斯分配 根據 BIC,計算其ΔBIC 如下式: ) 3 . 2 )( log( )) 1 ( 2 1 ( 2 1 |) | log | | log | | log ) (( 2 1 ) ( ) ( 1 0 j i j j i i j i n n n d d d n n n M BIC M BIC BIC + + + − ∑ − ∑ − ∑ + = − = ∆ λ 根據BIC法則,若∆BIC<0,則合併此兩個節點(即Si,Sj為同一語者的音段),並更 新合併後節點的距離,若∆BIC不小於零,則此兩音段屬於不同語者,則分群完 成。2.3 以高斯混合模型為基礎的語者識別
所謂語者識別(Speaker Identification)是從一群已知的語者中識別出與一個未 知輸入的聲音最相似的語者,如圖 2-1 表示模型訓練的步驟,首先將 N 位語者的 訓練語料經由特徵參數的擷取(Feature extraction)後得到特徵參數向量,再經由語 者模型訓練的方法來訓練每位語者的模型,可代表每位語者的語音特性,語者模 型訓練的方法主要有向量量化(Vector Quantization-VQ)、徑向基底函數(Radial basis function-RBF)和高斯混合模型(Gaussian Mixture Models-GMM)等方法。語者模型1 圖 2-1 語者模型訓練流程圖 將 N 位語者語音資料訓練成 N 個語者模型之後,接著進行語者識別的步驟, 如圖 2-2 所示,同樣將一測試語料經過特徵參數擷取之後得到特徵向量,接著將 語音的特徵向量丟進分類器(classifier)中進行分類,然後從已訓練好的語者模型 中找出與輸入最相近的語者身份,即為識別出的語者。 抽取特徵參數 (Feature extraction) 語者模型訓練 (Speaker model 語者模型2 訓練語料 特徵向量
.
.
語者模型 N圖 2-2 語者識別的步驟
此 外 , 根 據 訓 練 與 測 試 語 句 可 將 語 者 識 別 分 為 文 本 相 關 的 語 者 識 別 (Text-dependent Speaker Identification)和文本獨立的語者識別(Text-independent Speaker Identification),前者的訓練和測試語料必須是特定的文字內容,而後者 可以接受不受限制的文字發音,在測試時也不要求測試者所唸的文字內容。本論 文主要探討文本獨立的語者識別,而前人的研究中以高斯混合模型為基礎的文本 獨立的語者識別已有不錯的成果【1】,以下將簡單介紹以高斯混合模型為基礎的 語者識別技術: 高斯混合模型(GMM)
高斯混合模型的機率密度函數(probability density function)如下: ) 4 . 2 ( ) ( ) | ( 1
∑
= = M i i ib x w x p λ 其中第 i 個高斯元件(Gaussian component)的高斯函數為 ) 5 . 2 ( )} ( ) ( 5 . 0 exp{ | | ) 2 ( 1 ) ( 1 2 / 1 2 / i i T i i D i x x x b µ µ π ∑ − − ∑ − = − z x 為 D 維資料點 z M 為高斯元件個數 z µi和 分別為第 i 個高斯元件的平均向量(mean vector)與共變異數矩陣 (covariance matrix) i ∑z wi為高斯元件(component)的權重(weight),且 1 1 =
∑
= M i i w z λ ={wi,µi,∑i}i=1,...,M 為高斯混合模型的參數集 對於語者識別而言,每一位語者以一高斯混合模型來表示其語音特徵的分布情 形。 訓練語者的高斯混合模型 所謂訓練語者的高斯混合模型即是去估計 GMM 的參數集λ以符合訓練語 料,最常用的方法是最大概似估計(maximum-likelihood estimation, ML),給定訓 練語料並抽取特徵參數向量集X ={x1,x2,...,xN},ML 就是要去估計 GMM 的參數, 使得 X 的 likelihood 有最大值。然而目前尚無法用分析 的 方 式 直 接 求 得∏
= = N i i x p X p 1 ) | ( ) | ( λ λ ) | (X λ p 的 最 大 值 。 一 個 最 常 用 的 方 法 為 EM(expectation-maximization)演算法 【14】。給定模型的參數初始值,以迭代 的方式去調整 GMM 的參數,保證每次調整過後的新參數 滿足 p(X| )≧p(X| λ),接著以新參數當作新模型的初始值進行下一次的迭代,直到收斂至事先指 定的門檻值(threshold)為止,EM 演算法對 GMM 的參數調整方式如下。 _ λ λ_ 對於第 i 個高斯元件而言: ) 6 . 2 ( ) ( ) ( ) , | ( 1∑
= = M k k k t t i i t x b w x b w x i p λ Mixture Weights: ) 7 . 2 ( ) , | ( 1 1 _∑
= = N t t i p i x N p λ Mean vector: ) 8 . 2 ( ) , | ( ) , | ( 1 1 _∑
∑
= = = N t t N t t t i x i p x x i p λ λ µCovariance matrix (diagonal): ) 9 . 2 ( ) , | ( ) , | ( _ 2 1 1 2 _ i N t t N t t t i x i p x x i p µ λ λ − = ∑
∑
∑
= = 語者識別 若我們有 S 個語者,其對應的高斯混合模型為λ1,λ2,...,λS,對於輸入測試的 語料特徵向量集 X,要從 S 中找出一位與 X 最相似的語者(即那一位語者的 GMM 最適合來描述 X),一般以具有最大事後(posteriori)機率的準則來決定: ) 10 . 2 ( ) ( ) | ( ) ( max arg ) | Pr( max arg 1 1 X p X p p X S k k S k k S k λ λ λ ≤ ≤ ≤ ≤ ∧ = = 假設每一個語者的事前(p(λk))機率都相同,且對於每一位語者 亦相同, 因此式子(2.10)可簡化為 ),於實際運算時通常會取對數,故: ) (X p | ( max arg 1 k S p X k S λ ≤ ≤ ∧ =∑
= ≤ ≤ ≤ ≤ ∧ = = N t t k S k k S k x p X p S 1 1 1 ) 11 . 2 ( ) | ( log max arg ) | ( log max arg λ λ第 3 章
在主播有背景音樂的新聞環境下作新聞
主播的偵測與新聞故事的切割
本章敘述在有些主播有背景音樂的電視新聞節目的環境下,說明如何將每天 錄製的新聞做分析,以達成自動切割新聞故事(圖 3.1 為電視新聞結構示意圖), 於本章 3.1 節首先介紹前人【3】非監督式的自動切割新聞的作法,但是若新聞 節目當中,有某些新聞主播片段有無法預測的背景音樂,則之前的方法將會受到 有背景音樂的主播片段影響以致無法正確切割出新聞故事,因此本論文 3.2 節將 針對此點提出一個監督式的解決方式,以語者識別為基礎將新聞語料做分類,以 偵測出沒有背景音樂的主播新聞故事,因為我們將於後端實作主播音節辨識與新 聞主播語音檢索系統(將在第五章介紹),而若主播音段有背景音樂會大大降低主 播音節辨識的正確率與語音檢索的效能,故我們捨棄有背景音樂的主播新聞故 事。圖 3.1 電視新聞節目的結構
3.1 非監督式的電視新聞故事切割
本節說明論文【3】所提之電視新聞主播偵測方法,一般來說,電視新聞的 結構如同圖 3.1,而且新聞主播的音段數目通常是新聞節目中最多的,所以根據 以上的特性可以偵測出新聞節目中的主播,進而做新聞故事的切割,作法主要分 為二個步驟: 步驟一: 以 BIC 作新聞語者分段。 步驟二: 由步驟一所分割出來的新聞音段作 BIC 音段分群,並根據新聞節目中主 播音段為最多的原則,認為段數最多最大群的為新聞主播的音段群。 最後將主播音段群內的音段以時間前後做排序,因此每段主播的開始時間到下一 段主播的開始時間之間即為一段新聞故事,如此即完成新聞故事的切割。 其中步驟一、二的演算法如下: 以 BIC 作新聞語者分段(步驟一) 新聞節目屬於多個語者交換點的偵測,圖 3.2 說明了它的作法,以 10 秒為 一音窗(audio window),用 BIC 偵測音窗內是否有語者交換點,若此音窗無語者 交換點則以重疊 5 秒的方式偵測下一個音窗,一旦偵測到交換點,則從此交換點 重新開始再取下一個音窗繼續偵測,如此重複直到找完整段新聞為止。圖 3.2:電視新聞的多個語者交換點偵測 以 BIC 作新聞音段的分群(步驟二) 當偵測出新聞音段中所有的語者交換點之後,即可將此音段分割成多個沒有 語者交換點的音段,這些音段當中新聞主播音段會出現多次且散落在新聞節目當 中,所以在做完語者分段之後可做分群,將相同語者的音段集合起來,假設 是新聞音段的集合,以階層式的分群法來對 S 作分群,演算法 如下: } ,..., , {S1 S2 Sn S = 1. 初始每一群節點Ci只包含一個新聞音段Si 2. 計算任兩節點的距離(以ΔBIC 為距離衡量,方程式 2.3) 3. 選擇最近的兩節點(ΔBIC 最小) 若ΔBIC < 0 則合併此兩節點並回到演算法步驟 2 否則(即ΔBIC>=0) 分群完成 4. 最後選擇最大群(段數最多)為新聞主播音段群
非純粹只有主播的聲音,通常會伴隨有明顯的背景音樂,造成沒有背景音樂的主 播音段與含有背景音樂的主播音段的語音特性明顯不同,破壞了上述方法中最大 群為新聞主播群的假設,故若以上述非監督式的電視新聞主播偵測方法偵測將無 法正確切割新聞故事;再者,若要繼續針對新聞主播音段進行語音的音節辨認, 具有背景音樂的主播音段勢必會大大降低音節辨認的正確率,因此本論文下一節 將以監督式的方式針對固定時段的新聞以語者識別為基礎來做電視新聞主播音 段(不具背景音樂的主播音段)的偵測,以利進一歩實作電視新聞語音檢索系統 (在第五章介紹)。
3.2 以語者識別為基礎的電視新聞主播偵測
在第二章中介紹了如何用高斯混合模型來做語者識別,在本節中,我們要介 紹在新聞主播有背景音樂的環境下以 GMM 為基礎的語者識別方法來電視新聞語 料的分類,以擷取新聞中沒有背景音樂的主播音段並切割新聞故事。3.2.1 新聞語者的分類與訓練新聞語者的高斯混合模型
在電視新聞節目中,除了新聞主播之外,還有外景記者和外景中不特定人士 的語料和廣告語料等,對於語者的高斯混合模型而言,我們將新聞語料細分為六 大類—沒有背景音樂的主播語料、含有背景音樂的主播語料、外景男記者包含外 景不特定的男性語料、外景女記者包含外景不特定的女性語料、廣告中男性語 料、廣告中女性語料,接著以 GMM 為基礎的語者識別方法來做新聞語料的分類, 為這六大類新聞語者的語料訓練其 GMM,首先需要收集六大類語者的新聞訓練語 料,收集方式如下:1. 沒有背景音樂的主播語料: 收集事先選定的時段的新聞主播的語料約四分 鐘,不具任何背景音樂。 2. 含有背景音樂的主播語料: 收集該時段的新聞主播含有背景音樂的語料約四 分鐘,此四分鐘的語料須盡量包含新聞中出現過在主播音段的背景音樂。 3. 外景男性聲音語料: 收集外景新聞的語料約四分鐘,其中包括外景男記者的 聲音,與外景之中非記者的男性聲音,且大部分語料需伴隨著明顯的外在環 境的吵雜聲。 4. 外景女性聲音語料: 收集外景新聞的語料約四分鐘,其中包括外景女記者的 聲音,與外景之中非記者的女性聲音,且大不分語料需伴隨著明顯的外在環 境的吵雜聲。 5. 廣告中男性語料: 收集了約四分鐘廣告中男性的語料,其中絕大部分語料有 各種不同的背景音樂或聲音特效。 6. 廣告中女性語料: 收集了約四分鐘廣告中女性的語料,其中絕大部分語料有 各種不同的背景音樂或聲音特效。 當收集完新聞語者的訓練語料之後,接著進行訓練六類新聞語者的 GMM,然而若 純粹以傳統的 EM(Expectation-Maximization)演算法的方式來學習新聞語者的 高斯混合模型會有下列幾項缺點: 1. EM 演算法必須事先設定好六類新聞語者 GMM 的高斯元件個數(components), 也必須先給定模型參數集的初始值,因此容易發生預測過多或過少高斯元件 的情形,造成過度表示或不足以表示語者的語音特徵分佈。 2. 模型參數集的初始值對 EM 演算法的結果有決定性的影響,初始值給的不好, 可能使得 EM 演算法最終只求得局部最大值(local maximum)。 3. 高斯元件的共變異數矩陣(covariance matrix)可能是奇異的(singular),因
因此本論文避免共變異數矩陣的奇異發生,採用對角共變異數矩陣,且對於 如何決定新聞語者的高斯混合模型的高斯元件,採用論文【3】所提的 “以 BIC 為基礎的自我成長學習法"來學習新聞語者的高斯混合模型,可自動決定六大類 新聞訓練語料的高斯元件個數,演算法介紹如下: 為方便描述演算法,先定義一些名詞與符號: z X ={x1,x2,...,xN}:欲訓練新聞語者的資料集。 z GMMk:有 K 個高斯元件的高斯混合模型, 其模型參數集以θi ={wi,µi,∑i}i=1,...,K表示。 z :表示資料集 D 在候選模型 之下的 BIC 值,BIC 值若越 大表示此組資料越適合以此模型來表示。 ) , (GMM D BIC i GMMi z 當候選模型只有兩個時,定義了 ΔBIC 為 ) , ( ) , ( ) ( 2 1 21 D BIC GMM D BIC GMM D BIC = − ∆ ,若ΔBIC 大過某個 值(growing-confidence,信心度),根據 BIC 法則,選擇 作為 D 的機 率模型是比選擇 來的適合的。 2 GMM 1 GMM 以 “BIC 為基礎自我成長學習法"訓練新聞語者的高斯混合模型步驟如下: 1. 演算法從一個高斯元件開始成長,初始化,以 來代表訓練資料 X 的機 率 模 型 , 令 1 GMM K 為 目 前 高 斯 元 件 的 個 數 , 其 高 斯 混 合 模 型 的 參 數 集 為 K i wi, i, i} 1,..., { ∑ = = µ θ ,此時 K =1。 2. 分群(clustering): 對每筆訓練語料 ,xi p(θk |xi)表示 由第 k 個高斯元件 產生的機率,計算其和每個高斯元件產生的機率,找出具有機率最大的高斯 混合元件 t,並將 標記為第 t 群(每一個高斯元件表示一群),故可將所有 i x i x
訓練資料分成 K 群(K 表示成長到目前為止高斯元件的個數),令每一群的資 料集為Di i=1,2,...,K 。
3. 長出一個高斯元件(grows one component): 由步驟 2 將資料 X 分成 K 群,而 對於每一群,以 BIC 來做選擇,看其是用一個高斯元件 來表示比較好? 還是用兩個高斯元件 來表示比較好?接下來先以 EM 演算法來計算資料 集 分別在候選模型 和 下的最大相似度(likelihood)以求得 每 一 群 的 Δ BIC 值 為 1 GMM 2 GMM i D GMM1 GMM2 K i D BIC21( i) =1,..., ∆ , 從 BIC 的 觀 點 來 看 , 選 擇 最大且大於 growing-confidence 的群來長出一個高斯元件,即以 取代原本對應的高斯元件,因此: ) ( 21 Di BIC ∆ 2 GMM
令 max∆BIC =maxi{∆BIC21(Di)}(i.e.,找出最大的ΔBIC 值) j=argmaxi{∆BIC21(Di)}(i.e.,找出哪一群擁有最大ΔBIC 值) 且 為以 EM 演算法計算資料θ_ Dj在GMM2下的所得到的模型估計參數 若 maxΔBIC > growing-confidence 則表示第 j 個高斯元件以兩個高斯元件來表示比較好, , , } , , { \ µ θ θ θ_ θ θ = wj j ∑j = ∪ ,K = K +1(長出一個高斯元件) 否則若 maxΔBIC < growing-confidence,表示每一群都認為其用一個高斯元 件來表示比較好,因此訓練語者的 GMM 完成,演算法結束。 4. Global EM: 對新聞語者的訓練資料 X 實行 EM 演算法,高斯元件個數為步驟 3 成長過後的 K ,模型參數集採用步驟 3 長出一個高斯元件後的θ 為 EM 演算 法的初始值,以 EM 訓練完成後回到步驟 2。
3.2.2 應用語者識別於新聞語料的分類與新聞主播的偵測
依上一節所述我們可將電視新聞語料分成六大類並且分別訓練六類新聞語 者的高斯混合模型(GMM),六類語者分別為沒有背景音樂的主播、主播含有背景 音樂、外景男記者、外景女記者、廣告男音、廣告女音且其對應的 GMM 參數集分 別為θ1,θ2,θ3,θ4,θ5,θ6,則我們可將 3.1 節介紹的非監督式的電視新聞故事切割 方法修改為三個步驟: 1. 以 BIC 做新聞語者的分段,可得到多個沒有語者交換點的新聞音段,假設 為分段後的新聞音段的集合。 } ,..., , {S1 S2 SN S = 2. 將新聞音段集合 S 中的每一新聞音段分別丟入 GMM 語者識別器做新聞語者的 分類,因此可將新聞語料分成六類,以圖 3.3 來表示 GMM 新聞語者識別器。 3. 將被分類到新聞中沒有背景音樂的主播群內的所有新聞音段作 BIC 語者音段 分群,因為以 GMM 為基礎的語者識別的正確率不可能達到百分之百完全正 確,但只會有極少部分非真正沒有背景音樂的主播語料被分類到新聞中沒有 背景音樂的主播群中,因此我們利用 BIC 語者音段分群,藉此將極少部分的 非新聞純主播語料再分離開來,此時再分完群之後,我們就可認定最大群即 為真正的新聞中沒有背景音樂的主播音段群,完成新聞主播(不具背景音樂) 偵測。 最後將主播音段群內的音段以時間前後做排序,因此每段主播的開始時間到下一 段主播的開始時間之間當作一段新聞故事,如此即完成新聞故事的切割。特徵參數抽取 X 新聞音段 新聞語者1 θ1 新聞語者2 θ2 新聞語者6 θ6 識別出語者身分
Max
…∑
ilogP(xi |θ1)∑
ilogP(xi |θ6)∑
ilogP(xi |θ2) 圖 3.3 GMM 新聞語者識別器第 4 章
驗結果
在這章中對於第三章所提之在有些主播音段有背景音樂的新聞環境下,作電.1 實驗環境及資料來源
以 Intel Pentium-4 2.4Ghz 的時脈速 主播音段部份都有明顯的背.2 實驗方式
兩部份:訓練電視新聞語者的高斯混合模型及計算以第三實
視新聞純主播(沒有背景音樂的主播片段)偵測的方法,加以實作,並設計實驗以 評估此方法的效能。4
對於實驗的平台,在硬體方面使用了 率中央處理器的個人電腦,搭配有 1Gigabytes 主記憶體,並接有電視影像擷取 卡,作業系統為 Microsoft Windows XP 專業版。 實驗對象為有線電視東森新聞台,且選擇大部分 景音樂,只有少部分主播音段為沒有背景音樂的主播語音的新聞時段,並以電視 影像擷取卡將電視新聞直接錄成影像檔(.asf)和音訊檔(.wav) ,音訊取樣頻率 (sample rate)為 44.1k,每個 sample 16bits 大小,且實驗中的語音參數抽取 為 mfcc,維度皆為 24 維,用於電視新聞主播偵測。4
本論文實驗流程分
偵測沒有背景音樂的主播音段的正確率,分別敘述如下: 1. 訓練六大類新聞語者的高斯混合模型: 分別收集這六類語料以作為訓練新 2. 算以語者識別為基礎的新聞沒有背景音樂的主播音段偵測的正確率: 主 如第三章所提,將新聞語料分成六大類, 聞語者的高斯混合模型,分別為:沒有背景音樂的主播音段、主播含有背景音 樂、外景男音、外景女音、廣告男音、廣告女音,實驗中將收集四個時段的 新聞來評估此方法的可行性,即有四個沒有背景音樂的主播語者的 GMM,和 其對應的含有背景音樂的四個 GMM,再加上外景兩個 GMM 和廣告的兩個 GMM, 分別以 “BIC 為基礎的自我學習成長的方法"來學習語者的 GMM,訓練語料 的長度約為三到四分鐘,流程如圖 4.1,分別得到四個沒有背景音樂的主播 (四位主播分別為盧秀芳、王佳婉、趙心屏、馬千惠)的 GMM 其高斯元件個數 分別為 68、81、78、84,其對應的含有背景音樂的的四個 GMM 其高斯元件個 數分別為 72、86、83、61,而外景男音與外景女音 GMM 的高斯元件個數分別 為 133、121,廣告男音與廣告女音 GMM 的高斯元件個數分別為 112、139。 以BIC為基礎的自我學習成長 訓練新聞語者的GMM 收集訓 練語料 新聞語者的GMM 圖 4.1: 訓練新聞語者 GMM 流程 計 在完成訓練新聞語者的高斯混合模型之後,我們將分別測試這四個時段的 播新聞語料,每次測試為一個主播的新聞時段,長度為一個小時,實驗流程 如圖 4.2:首先錄製一個小時的新聞,接著以 BIC 語者分段將新聞分成多段沒 有語者交換點的新聞語者音段,再將每一段的新聞音段分別丟入 GMM 新聞語
新聞音段有那些屬於純主播音段(沒有背景音樂的音段),接著把 GMM 語者識 別的結果被分類到純主播類的作比較,分別計算 precision 及 recall,來評 估其優劣,其中 precision 代表程式所找到的純主播群中的音段個數(分 母),當中有幾個和人工標出的純主播音段相符(分子);recall 代表人工標 出的所有純主播音段中(分母),被程式找到純主播音段的個數(分子)。 錄製新聞節目 將一小時新聞作 BIC 語 者分段 將每一新聞音段分別 丟入 GMM 語者識別器做 分類 人工標記出哪些為新聞純 主播音段 計算純主播偵測結果 precision 和 recall 圖 4.2: 以 GMM 語者識別來偵測純主播實驗流程
4.3 實驗數據與結果
在本節中將列出以 GMM 語者識別為基礎的新聞沒有背景音樂的主播偵測的實 驗結果,以驗 證我們所提出的在有些主播音段有背景音樂的電視新聞的環境下,仍然能偵測出 純主播的音段(沒有背景音樂的音段) ,以確認其在新聞節目中的位置。 實驗一: 如上節所述,我們選擇四個不同時段的四個主播為實驗對象,每次實驗為完 整一各小時的新聞節目,每一主播時段分別用五天(即每天一個小時,共五天) 的新聞作為測試語料,表 4-1 分別列出 precision 和 recall 的實驗結果。 表 4-1 以 GMM 語者識別來偵測新聞純主播的四個時段五天的實驗結果 GMM68-盧秀芳 Precision Recall 1 17/17(100%) 17/18(94%) 2 8/8(100%) 8/9(89%) 3 16/16(100%) 16/18(89%) 4 4/4(100%) 4/7(58%) 5 7/8(88%) 7/7(100%) 平均 97.6 86 GMM81-王佳婉 Precision Recall 1 7/7(100%) 7/8(88%) 2 13/13(100%) 13/15(87%) 3 3/4(75%) 3/3(100%) 4 4/4(100%) 4/5(80%) 5 10/10(100%) 10/12(83%) 平均 95 87.6GMM78-趙心屏 Precision Recall 1 17/17(100%) 17/19(89%) 2 17/18(94%) 17/20(85%) 3 16/16(100%) 16/19(84%) 4 12/12(100%) 12/12(100%) 5 15/15(100%) 15/17(88%) 平均 98.8 89.2 GMM84-馬千惠 Precision Recall 1 19/20(95%) 19/19(100%) 2 25/27(93%) 25/27(93%) 3 20/20(100%) 20/22(91%) 4 19/19(100%) 19/19(100%) 5 16/16(100%) 16/18(89%) 平均 97.6 94.6 實驗一討論: 由實驗數據我們可以發現,precision 大都非常的高,表示純主播 GMM 接受 條件越嚴格,較不容易有錯誤出現(所謂錯誤是說非純主播音段被認為是純主播 音段的情況),但相對的 recall 就較低,即比較可能出現比較多的漏失(純主播 音段被分類到其他語者),整體來說,新聞純主播群仍然包含了絕大部分測試新 聞節目中的新聞純主播語料,因此以語者識別為基礎的新聞純主播偵測確實可以 切割出新聞節目中沒有背景音樂的新聞故事,更以利於後端實作語音音節辨識與 新聞主播語音檢索系統。
實驗二: 實驗二選擇新聞時段為盧秀芳主播為實驗對象,將新聞六大類語料分別以固 定 16、32、64、96 個高斯元件的方式以 EM 演算法訓練新聞六大類語者的高斯混 合模型,並分別與原本以 “BIC 為基礎的自我學習成長的方法"來訓練新聞六 大類語者的方式做比較(由實驗一盧秀芳其高斯元件為 GMM68),同樣選擇五天五 個小時的新聞語料做測試,表 4-2 分別列出其純主播的 precision 與 recall 的 結果。 表 4-2: 比較固定高斯元件個數的方式來訓練語者 GMM 與以 “BIC 為基礎 自我學習成長的方法"來訓練語者 GMM,以比較兩種方式的優劣 GMM16 Precision Recall GMM96 Precision Recall 1 12/12 12/13 1 13/13 13/13 2 9/12 9/10 2 10/11 10/10 3 15/19 15/15 3 15/15 15/15 4 9/10 9/9 4 9/9 9/9 5 9/10 9/9 5 9/10 9/9 平均 86.8 96.4 平均 96.2 100%
GMM 32 Precision Recall GMM68 Precision Recall 1 13/14 13/13 1 10/10 10/13 2 10/10 10/10 2 7/7 7/10 3 15/15 15/15 3 13/13 13/15 4 9/12 9/9 4 8/8 8/9 5 8/9 8/9 5 7/7 7/9 平均 91 97.8 平均 100% 80.2 GMM 64 Precision Recall 1 12/13 12/13 2 9/10 9/10 3 15/15 15/15 4 7/7 7/9 5 8/9 8/9 平均 94.2 89.8
實驗二討論:
由實驗二結果顯示以自動決定高斯元件個數的方式比其他以固定元件方式 訓練的高斯元件方式,其結果雖然 precision 比其他高,但整體效果似乎沒有明 顯差距,其可能原因:1. 測試資料不夠多,2. 實驗列表只列出純主播類的 precision 與 recall,或許其他類其結果會明顯比以固定元件訓練方式來的好。
第 5 章
系統應用:電視新聞語音檢索系統
在本章中將介紹應用本論文所提之電視新聞純主播偵測方法偵測出沒有背 景音樂的新聞主播音段,進一歩針對主播音段加以實作語音音節辨識,成為新聞 主播語音檢索文件,最後實作出電視新聞語音檢索系統。因此本章第一節先介紹 語音音節辨識與語者調適的實作方法,接著第二節介紹以音節(syllables)為索 引特徵(indexing terms)的資訊檢索模型(information retrieval model)的實 作方式,最後第三節為整個新聞語音檢索系統的架構以及末節的檢索效能評估。5.1 語音辨識與語者調適之實作
目前在語音辨識的部份較為普遍而辨識效果較好之語音辨識核心大多使用 隱藏式馬可夫模型(Hidden Markov Model, HMM) 【7】【8】,因此本論文在語音 辨識與語者調適實作方面,使用了劍橋大學工程系(Cambridge University Engineering Department)所發展的 Hidden Markov Model Toolkit(HTK)第 3.2.1 版的發展工具來建立我們系統所需的語音音節辨識的功能 【9】。
在 語 音 特 徵 參 數 方 面 使 用 了 12 維 的 梅 爾 倒 頻 譜 參 數 (Mel-Frequency Cepstral Coefficients, MFCC),加上對數能量參數,共 13 維參數,再計算此
13 維參數其一階差量和二階差量共計 39 維的語音特徵參數,而在訓練語料方 面,使用了 TCC300 國語語音資料庫 【10】,TCC300 為國立台灣大學,國立交通 大學,國立成功大學各自之語音資料庫所集合而成,屬於麥克風朗讀語音,共三 百人的語音資料,當中兩百六十個語者當作訓練語料,四十個語者為測試語料, 以 HTK TOOL 訓練出語者無關(speaker independent)的隱藏式馬可夫模型(聲母 與韻母共一百五十一個中文語音基本單位的 HMM),用來做音節辨識。 辨識過程分為兩階段(使用 HTK recognizer),對於連續語音,先辨識出整 段音節結果與各音節在此段語音中出現的時間,再以此時間資訊,對特徵參數依 各音節作分段(utterance segment),分成各單音節的特徵參數,進入第二階段 的辨識,對各單音節作辨識,輸出機率值前五大的候選音節結果(成為 syllable lattice),本論文將每一主播音段經過此兩階段的音節辨識所得到的 syllable lattice 當作欲被檢索的新聞主播語音文件,表 5-1 列出 TCC300 測試語料的音 節正確率(Correct)與精確率(Accuracy),公式說明如下: % 100 % 100 × − = × = N I H Accuracy N H Correct 其中 N 為測試語料文稿中所有音節的數量,H 為辨識結果中正確的音節數量,I 為插入型錯誤的數量(Insertion error)。 表 5-1: 以 TCC300 中 260 人所訓練的 HMM(稱為原始 HMM), 並以 TCC300 的測試語料測試其音節辨識率 原始 HMM Correct(%) Accuracy(%) TCC300 測試語料 40 人 74.45 69.3 若拿電視新聞當中的主播語料(沒有背景音樂)當作測試語料,其結果如表 5-2:
表 5-2: 以 TCC300 中 260 人所訓練的 HMM,並以電視新聞主播 的語音當測試語料測試其音節辨識率 原始 HMM Correct(%) Accuracy(%) 電視新聞純主播語料(10 分) 6.17 2.79 由表 5-2 觀察得知,因為訓練語料和測試語料間聲學特性的不匹配,使得正確率 都會較低落,因此,根本無法用於辨識新聞主播的語音,更進一步影響語音檢索。 在新聞訓練語料難以大量取得的情況下,非得要以 TCC300 語音資料庫訓練 而來的 HMM 作為我們辨識新聞主播的模型時,為了提升辨識率,讓我們得以用來 辨 識 新 聞 主 播 語 料 , 我 們 利 用 目 前 極 為 有 效 的 兩 種 語 者 調 適 (Speaker Adaptation)技術,分別為最大事後機率估測法 (Maximum a Posteriori, MAP) 和最大相似度線性迴歸法 (Maximum Likelihood Linear Regression, MLLR) , 調適的目的即是希望藉由改變原本語者不特定(speaker indenpendent)的聲學 模型參數,使模型所代表的語音特性能和測試語料的語者能匹配,成為該語者的 語者特定(speaker dependent)模型,藉此提高辨識率。 因此我們收集了約四十分鐘的新聞純主播語料(東森晚間新聞主播盧秀 芳) ,作為 HMM 的調適語料,以上述調適技術調適原始由 TCC300 所訓練的語者 不特定模型,使其成為語者特定模型(盧秀芳) ,再另外收集盧秀芳的語料作測 試,測試結果如表 5-3。 表 5-3: 進行語者調適後的模型之音節辨識率 語者調適後的 HMM Correct(%) Accuracy(%) 主播盧秀芳測試語料(10 分) 64.3 59.5 由上述實驗得知音節辨識率已有大幅度的提升,因此我們的系統將以此調適後的
模型來辨識新聞純主播音段,進一歩供後端實作新聞語音文件檢索之用。另外我 們拿有背景音樂的主播音段以調適過後的模型來辨識,其音節辨識率如表 5-4: 表 5-4: 以調適後的模型來辨認含有背景音樂的主播音段的正確率 語者調適後的 HMM Correct(%) Accuracy(%) 主播盧秀芳(含有背景音樂) 測試語料(10 分) 47.1 38.1 由此實驗可知道即使以調適後的模型來辨識有背景音樂的主播片段,其辨識率依 然不理想,因此才會只針對沒有背景音樂的主播音段作音節辨識。
5.2 電視新聞語音檢索之實作
我們的語音檢索系統採用 Chen et al.(2002) 【11】和 【15】所提的以音 節為基礎的索引特徵(syllable-based indexing feature)與常被廣泛使用的向 量空間檢索模型(Vector space retrieval model),證明以音節為索引特徵用於 中文語音檢索上,其效能比以字(character)與詞(word)都還要來的更好。音節索引特徵(syllable-level indexing terms)
檢索系統是對每一個新聞主播語音文件(上節說明每一主播音段經過語音辨 識 後 可 得 到 syllable lattice) 各 自 抽 出 重 疊 音 節 N 連 索 引 (overlapping syllable N-grams,N=1~3) 與 間 隔 N 音 節 的 重 疊 音 節 對 索 引 (overlapping syllables pairs separated by N,N=1~3),對於重疊音節 N 連索引主要能擷取 到文件中詞組的資訊,而間隔 N 音節的重疊音節對索引能處理中文上一些用語的 彈性(如:交通大學=交大)、以及語音辨識的錯誤(如插入型錯誤) ,表 5-5 舉例
說明此六種型態的音節索引。 表 5-5: 以音節串S1S2KS10為例,抽取六類音節索引項 重疊音節 N 連索引 例子 N=1 (S1)(S2)…(S10) N=2 (S1,S2)(S2,S3)…(S9,S10) N=3 (S1,S2,S3)(S2,S3,S4)…(S8,S9,S10) 間隔 N 音節的重疊音節對索引 例子 N=1 (S1,S3)(S2,S4)…(S8,S10) N=2 (S1,S4)(S2,S5)…(S7,S10) N=3 (S1,S5)(S2,S6)…(S6,S10) 資訊檢索模型 向量空間模型是目前最被廣泛用於資訊檢索的模型,向量空間模型將每一篇 新聞主播檢索文件視為空間中的一個向量,向量的每一個維度代表某一型態的索 引 項 ( 如 ( , )) 在 文 件 中 的 統 計 資 訊 , 對 於 每 一 篇 新 聞 主 播 檢 索 文 件 (document d)建立上述六類的索引項的特徵向量,可表示成: 1 S S2 d→ =(w1,w 2, ,w , ,w ) j=1,2,...,6 (5.1) j jM jt j j j K K → j d 代表文件的 j-th 型態的索引特徵向量。 jt w 代表索引項 t 在文件 d 中的分數。 j M 代表 j-th 型態的索引特徵項的總數。 其中索引項 t 的分數wjt為:
[1 ln ( )] ln( / ) (5.2) 1 t n i t jt c i N N w t ⋅ + =
∑
= t n 代表索引項 t 在文件 d 中出現的次數,若nt為零則wjt等於零。 ) (i ct 代表索引項 t 在文件 d 中出現的 i-th 的聲學信心度量測,對於字(character) 和詞(word)為基礎的索引項,ct(i)設為 1。 ] ) ( ln 1 [ 1∑
= + nt i t i c 為索引項 t 的頻率(Term Frequency, TF) 。 ) /ln(N Nt 為反文件頻率(Inverse Document Frequency, IDF) ,N 為所有文件總 數(對我們系統來說,N 即為我們收集新聞主播的語音文件總數) , 是所有文 件中有出現索引項 t 的文件數目,當索引項 t 出現在越多文件當中(即 越大 IDF 就越小),代表它越不重要。 t N t N
對於每一新聞主播音段經過音節辨識每一段音節(utterance segment O)輸 出其聲學辨識機率(acoustic recognition scores)前五大的候選音節,成為 syllable lattice,由 utterance segment O,定義候選音節 s 其聲學信心度量 測 c(s)為: )]) | ( log ) | ( [log exp( 1 2 ) ( * s O p s O p s c − × + = α (5.3) 其中 與 分別代表 Top-1 音節 與候選音節 的聲學辨識 機率, 範圍為 0~1,於方程式 5.2 中的聲學信心度量測 為索引項 t 中每 一音節的聲學信心度量測 的平均。 ) | ( log * s O p logp(O|s) s* s ) (s c ct(i) ) (s c 對於查詢句子(Query)也依照上述方式表示成六個向量( ,j=1~6),而 j-th 型態的索引特徵其查詢 與文件 的相關程度以餘弦值來評估: → j q → j q → j d || || || || / ) ( ) , (→j →j = →j• →j →j ⋅ →j j q d q d q d R (5.4)
最後查詢與文件整體相關性(overall relevance measure)為所有類型的相關程 度的權重和(weighted sum): ) , ( ) , (→ → =
∑
→ →j j j j jR q d w d q R j=1,2,…,6 (5.5)其中每一類索引特徵的權重需要以經驗來決定。
5.3 整合:電視新聞語音檢索系統之架構
本論文新聞語音檢索系統主要分成兩大部分:自動新聞分析系統與新聞語音 檢索系統。前者其系統平台為 AMD XP 2000+的中央處理器,撘配有 1Gigabytes 的主記憶體,作業系統為 Microsoft Windows 2000 Service Pack4,其架構圖 如圖 5.1,主要為新聞前處理:新聞錄影、純主播偵測與新聞切割、純主播音段 音節辨識、抽取六類索引特徵,並且將相關資料寫回 Sever(第二部份檢索系統)。 新聞錄影 新聞主播音段(無 背景音樂)偵測 無背景音樂主播 音段音節辨認 新聞主播語音文 件索引特徵抽取 相關資料寫回 Sever 圖 5.1: 自動新聞分析系統架構(前處理)
後者為網頁式的電視新聞檢索伺服器(sever) ,系統平台為 Inter Pentium4 3.0Ghz 的中央處理器,搭配有 1Gibabytes 主記憶體,作業系統為 Microsoft Windows 2000 Sever 版,其架構如圖 5.2,其流程及說明如下:使用者透過網頁 輸入欲查詢的中文字串並送回網頁伺服器,透過網頁伺服器會呼叫檢索系統程 式,將中文字串轉成音節並抽取六大類型的索引特徵向量,接著計算查詢與資料 庫 內 的 每 一 則 新 聞 語 音 文 件 之 間 的 相 關 程 度 , 將 相 關 性 由 高 至 低 排 序 (ranking) ,並將檢索結果傳回給使用者,使用者可透過點選來觀看查詢結果的 新聞片段。
5.4 語音檢索效能評估
檢索評估方法是考慮前 k 篇排序較大的檢索文件,以平均精確度(mean average precision, mAP)來評估,公式如下:IR System Sever News Video Web Sever News document indexing feature file Client Web Brower Video Stream Query(中文) 圖 5.2: 電視新聞語音檢索(sever)架構圖
∑
∑
= = = L l N s ls l k l r s N L mAP 1 1 , ) 1 ( 1 (5.6) L 為查詢輸入個數 l N 為在前 k 篇檢索出的新聞主播文件中,與查詢(query)有關的新聞主播文件數 s l r, 為在前 k 篇檢索出的新聞主播文件中,與查詢有關的第 s 篇主播文件,從檢 索排序過後數來的位置 我們目前收集了約五百段的新聞故事,而測試查詢字串共有 11 句:陳總統、 趙建銘、李泰安、李雙全、二二六零、馬英九、罷免案、立委邱毅、世界盃足球 賽、畢利斯颱風、上班上課,分別取 k=3,5,10,則檢索平均精確度為(mAP) 0.98、 0.96、0.9。第 6 章
結論及未來展望
6.1 結論
本論文針對前人所提的非監督式新聞主播音段偵測方法【3】作一改進,在 主播音段有背景音樂的情況下,由於沒有背景音樂的主播音段與有背景音樂的主 播音段其語音特徵分布已明顯不同,作 BIC 音段分群時純主播音段與有背景音樂 的主播音段會被分類至不同群,而背景音樂的主播音段並非會分到同一類,因為 其他外場或廣告的背景音樂可能與把主播有背景音樂的主播音段其聲音特徵分 佈反而較相似,也因此前人假設最後分群後的最大群必為主播音段群已不成立, 因此我們改以監督式的語者識別方式將新聞語者適當的分類以擷取新聞純主播 音段,於實驗中也確時能有效的找出新聞中沒有背景音樂的主播音段。 而本論文也成功地將偵測新聞純主播的方法應用於新聞語音檢索系統之 中,建立起能對新聞主播語音文件搜尋的功能,讓使用者輕易的查詢到想看的重 點新聞。6.2 未來展望
在本論文的研究與實驗和應用中,發現有數個主題是我們還可以繼續改進的 重點,在此說明如下:1. 由於一段語音當中,若存在有背景音樂勢必會影響到語音辨識的正確率,若 能事先以訊號處理的技術將背景音樂的影響降低甚至消除,將會使新聞主播 的偵測更加容易與準確。 2. 在語音辨識方面,由於在訓練隱藏式馬可夫模型以及語者調適時,都需要大 規模甚至是需要設計過的語料資料,而本論文所用的語音資料庫本身與新聞 語料並不符合,希望可以收集更大量有系統的新聞語料,訓練出更一般化語 者不特定語音模型,再者可以再結合語言模型(Language model),進一步將 音節辨識出中文字(character),將可提供更多資訊可用於資訊檢索。 3. 在語音資訊檢索方面,除了音節索引特徵更可結合字(character)與詞(word) 的資訊,將可提供更多資訊以提升檢索效能。
參考文獻
【1】 D.A.Reynolds, and R.C.Rose, “Robust Text-idependent Speaker Identification Using Gaussian Mixture Speaker Models," IEEE Trans. SAP, pp.72-83,Jan.1995
【2】 G.Schwarz, “Estimation the Dimension of a Model," The Annals of Statistics, Vol.6 pp.461-464,1978
【3】 鄭士賢, “Model-based learning for Gaussian Mixture Model and its application on Speaker Identification," 國立交通大學, 資訊工程 研究所 碩士論文, 民國九十一年
【4】 S.Chen, P.Gopalakrishnan, “Speaker Environment and Channel Change Detection and Clustering via The Bayesian Information Criterion," Proc. Broadcast News Trans.Under Workshop, pp. 127-132,Feb. 1998
【5】 R.Bakis, et al., “Transcription of Broadcast News Shows with the IBM large Vocabulary Speech Recognition system," Proc. Of the Speech Recog. Workshop, pp. 67-72, 1997
【6】 M.Siegler, et al., “Automatic Segmentation Classification and Clustering of Broadcast News Audio," Proc. Speech Recog. Workshop, pp. 97-99,1997
【7】 X.Huang,A.Acero,and H.W.Hon, “Spoken Language Processing-A Guide to Theory, Algorithm, and System Development," Carnegie Mellon University 2001
【8】 Introduction of Hidden Markov Models
“http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html"
【9】 S.Young, et al, “The HTK Book 3.2.1," Cambridge University Engineering Department 2001
【10】 中華民國計算機語言學會,TCC-300 國語語音資料庫, http:// rocling.iis.sinica.edu.tw/ROCLING
【11】 Chen.B., Wang, H.M.,and Lee,L.S.(2002) “Discriminating capabilities of syllable-based features and approaches of utilizing them for voice retrieval of speech information in Mandarin Chinese,"IEEE Transactions on Speech and Audio Processing, pp. 303-314
【12】 B.L. Chen, H.M. Wang,and L.S. Lee “A Discriminative HMM/N-Gram-Based Retrieval Approach for Mandarin Spoken Documents,"ACM Transactions on Asian Language Information Processing, Vol. 3,No. 2,June 2004, Pages 128-145
【13】 Bowen Zhou,and John H.L. Hansen, “Unsupervised Audio Stream Segmentation and Clustering via the Bayesian Information
Criterion," ICSLP2000 Inter. Conference on Spoken Language Processing,
【14】 Jeff. Bilmes, “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models,"Technical Report ICSI-TR-97-021, International Computer Science Institute, University of Berkeley,1998
【15】 Hsin-min Wang,Shi-sian Cheng,and Yong-cheng Chen, “The SoVideo Mandarin Chinese Broadcast News Retrieval System," IJST-2002