• 沒有找到結果。

第一章 緒論

1.3 章節簡介

本論文總共分為四章,摘要如下:

1. 在第一章中我們簡介了語音切割傳統上的作法,以及國內外 相關研究所用之方法。

2. 在第二章中我們詳細地描述了 CCGMM 的由來,以及推導出 其相異度量測(divergence measure)之公式;此外我們也對一些 問題之解決方法,以及相異度測量公式之修正做了詳盡的說 明。

3. 在第三章中我們先簡介實驗的語料庫--公共電視新聞語料 (Public Television Service News Database)之基本統計特性及其 標註內容(transcription)的方式,之後我們對我們提出的相異度 量測方法作效能上的分析。

4. 在第四章中我們總結我們提出的距離量測公式之優劣,並且 點出未來之展望。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

第二章 基本及相關應用原理

2.1 廣播新聞語料轉換點偵測之緣起

對於廣播電視新聞之切割而言,通常一個非監督式(unsupervised)語者 及環境狀況之轉換點偵測為第一個階段,然後再基於第一階段所得到的候 選轉換點來達成語者或故事切割與追蹤(tracking)。但是就語者與環境狀況 之轉換點偵測而言,要達成令人滿意的結果是相當困難的,因為在電視新 聞語料中包含了許多不同的聲音來源,如不同的語者、不同的說話方式、

背景人聲及非語音的聲音等,在在都使得語者及環境狀況之轉換點偵測變 得十分困難;此外,不同語者的錄音環境,如棚內主播、外場記者及外場 受訪者等,也會增加其轉換點偵測之困難度。

常被用來解決此問題的方法有三種,如第一章所提到的,而最常使用 的方法就是描述出候選轉換點左右兩個聲音片段之聲學上的統計特性,進 而利用某種相異度量測(divergence measure)得到此兩個聲音片段之相異度 (divergence) 。 例 如 Kullback Leibler(KL) distance 、 symmetric Kullback Leibler(KL2) distance 【 5】、 divergence shape distance【 6】及 Bayesian Information Criterion(BIC)【2,8,10】等相異度量測方法。這些相異度量測 方法都有著下列假設:在 2~3 秒聲音片段中的特徵向量(feature vector)之 機率分佈為一高斯分佈;直覺上,此假設似乎不是非常合理,但是更精準 的特徵向量模型,如混合高斯模型(Gaussian Mixture Model,GMM),會造 成估計模型參數及相異度量測時計算複雜度的增加。

在本論文中,我們提出有著相同 mixture component 的 GMM--我們稱

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

之為 Common Component GMM(CCGMM)--來描述聲音片段之統計特性,

進而利用 CCGMM 之參數來做相異度量測,以達成對於電視新聞語料語者 與環境狀況轉換之偵測。我們使用混合高斯模型來精確地描述聲音片段之 統計特性,而利用相同的 mixture component 來降低在參數估計及相異度量 測時的計算複雜度。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

2.2 混合高斯模型之定義

混合高斯模型(Gaussian Mixture Model,GMM)是由不同權重的高斯混 合機率密度函數所組成之機率密度函數,其形式如下列所示: 數, 為其相對應之混合權重(mixture weight),且混合權重有 之限制。每個混合機率密度為 維的高斯函數,有著下列之形式: 矩陣(covariance matrix)。

Ck

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

圖 二-1 4 個 mixture component 之 GMM 範例

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

2.3 混合高斯模型之描述

為什麼在本論文中我們要用 GMM 來描述某一個群組(class)的特性 呢?最主要的動機為 GMM 描述任意的機率分佈可以有相當不錯的結果;

而在本論文中,某個聲音片段中特徵向量之分佈可視為隨機分佈,因此必 須找到一個可以完整描述其分佈之模型,再找出某一種可以測量兩個特徵 向量分佈之相異度,使相異度測量可以更精確,所以我們使用 GMM 描述 聲音片段之特徵向量的動機因此產生。

圖 二-2 說明了 GMM 對於某一聲音片段中特徵向量之分佈的能力

【11】;圖 二-2(a)為某一聲音片段中某一維倒頻譜參數(cepstral coefficient) 的 pdf,圖 二-2(b)則是用 unimodal Gaussian model 來描述此聲音片段,圖 二-2(c)為使用 10 個 mixture component 的 GMM 之 pdf,圖 二-2(d)則為利 用 10 個 codeword 之 VQ 所做的結果;從圖中我們可以明顯地看出 GMM 對於任意分佈的機率密度函數皆可以描述得很不錯,而這也是為什麼我們 要使用 GMM 來描述某一個聲音片段的統計特性。

我們藉由 GMM 之混合權重、平均向量及共變異矩陣來代表每個聲音 片段的特性,概括來說,平均向量可以代表聲音片段在特徵空間(feature space)的絕對位置,共變異矩陣描述了此聲音片段中特徵向量的分散程 度,而混合權重可視為描述此聲音片段細節的參數,也正因上列三個參數 造就了 GMM 的優點:描述任意聲音片段其特徵向量分佈的能力。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

圖 二-2 GMM 與 VQ 對於特徵向量的描述能力之比較

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

法是最大似然機率估計法(Maximum Likelihood Estimation, MLE)。使用最 大似然機率估計法其目的在於:對於一群給定的訓練語料,找到使得 GMM 的似然函數(likelihood function)最大的一組模型參數Λ;也就是說,對於一 個有T組獨立之訓練特徵向量X = x x

{

1, 2,…xT

}

,其 GMM 的似然機率函數 著名的 Baum-Welch 演算法。在每一次重複的步驟中,下列的更新公式可 以保證我們 GMM 模型參數的似然機率值單調遞增(monotonic increase):

首先我們定義第 群的事後機率(a posteriori prob.)如下: i

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

其中 分別為 mixture component、音框(frame)及維度的指標(index)。

在本論文中,似然機率值之相對變化小於 0.1%或者疊代的次數超過 50 次,我們便認為 EM 演算法已經收斂。

, , k t d

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

components,亦即本論文提出的基於 CCGMM 之相異度量測,接下來我們 推導其相異度量測如下:

right right k k

k

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

訓 練 出 來 之 CCGMM 之 平 均 向 量 和 共 變 異 矩 陣 所 組 成 的 mixture component。

我們可以把這種方式想像成一種將特徵向量從較高維度的倒頻譜空 間 (cepstral space)轉換到某一較低維度之混合權重空間 (mixture-weight space),每一個 mixture component 我們可視為在此空間之基底(basis),而 此空間轉換的過程便是對特徵向量做基底展開。在本篇論文中我們稱之為 特徵向量轉換(feature transformation),如圖 二-3 所示,其中 代表某一聲 音片段之特徵向量的集合,經過特徵向量轉換後,我們可以用一組混合權 重向量來代表此聲音片段之特性;然而由於空間已由倒頻譜空間轉換到了 混合權重空間,因此我們必須找到適用於混合權重空間之距離量測公式。

X

圖 二-3 特徵向量轉換之示意圖

首先我們把(2.9)式代入(2.8)式中,可得

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

GMM 之平均向量與共變異矩陣所組成的 mixture component 當作每個聲音 片段的基底,也就是本論文提出之 CCGMM,接下來再利用(2.5)式估計出 相鄰聲音片段的混合權重,亦即wright k, ,k = …1, ,Mwleft k, ,k= …1, ,M ,最後 藉由(2.13)式計算出相鄰聲音片段之相異度。顯然地,當我們要估計出聲音 片段的混合權重時,也就是當我們要做特徵向量轉換時,我們可以假設在 EM 演算法的每次疊代中,平均向量和共變異矩陣為定值,單純地只更新

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

2.6 利用信號相異度做轉換點偵測之系統架構

2.6.1 快速 CCGMM 權重參數之抽取

在本論文中我們以 3 秒的分析音框(analytic window)中特徵向量之分 佈來代表轉換點左右的聲音片段特性,而這似乎不合理且缺乏彈性,因為 我們不能保證 3 秒是否足以代表整個聲音片段之特性,所以可變的分析音 框長度是必需的。然而在本實驗中混合權重之更新公式,亦即(2.5)式,是 最耗費計算量的步驟,因此我們希望在整個實驗過程中,加大或縮小分析 音框長度時不要再重新估計混合權重向量。基於此理由,我們先以 50 frame 長的分析音框估計權重向量,得到混合權重序列(mixture weights series),

,之後再以(2.15)式組合成任意長度 而此步驟在本論文中我們稱之為混合權重近似(weight approximation)。

圖 二-4 為(2.15)式之示意圖;在圖 二-4 中,我們先估計出以分析

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

圖 二-4 相異度量測之示意圖

2.6.2 相異度量測之加權

此外,若我們只用(2.13)式所計算出來的相異度做 decision,發現不能 用簡單的 decision rule 來找出候選轉換點,這是 metric-based segmentation 的缺點之一;如同 Microsoft Research Asia 在【6】中為了過濾出準確且數 目合理的候選轉換點,所提出的 decision rules 便相當的複雜。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

異度序列便會出現峰值,因此我們可以藉助匹配率波器的概念來加強相異 度序列(divergence series)中峰值的大小,增加候選轉換點和非轉換點間振 幅 的 差 距 , 也 就 是 說 對 原 本 的 相 異 度 序 列 與 三 角 波 做 迴 旋 積 分 (convolution);因此經過此步驟後的相異度序列,D i′( ),可用(2.16)式表示:

( ) 1 ( )

i W

j i W

i j

D i D j

W

+ α

= −

⎛ ⎛ − ⎞ ⎞

′ =

⎜⎜⎝ −⎜⎝ ⎟⎠ ⎟⎟⎠ (2.16) 其中 α 為 1 時,表示D i( )與一個三角波做迴旋積分,而 W 為此三角波的 寬度;在本實驗中為了考慮在(2.13)式中自然對數之比值也會反應出聲音 片段間的相異度,因此我們把 α 設為 2。

外場受訪者 外場記者

‧‧

圖 二-5 相異度序列之範例

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

接下來我們以圖例來說明D i′( )與D i( )之差異;圖 二-6(b)為原始的聲 音波形,其中包含了廣告、純音樂及主播聲音片段,並且標註了背景環境 狀況,如圖 二-6(a)所示;而圖 二-6(c)呈現了相對應時間之D i′( )與D i( ); 我們可以很明顯地看出轉換點都落在D i′( )的峰值,而且在非轉換點時,

( )

D i′ 始終相對較低,這也隱含了我們在做 decision 時,可以使用簡單的 threshold-based decision rules。

圖 二-6 D i( )與D i′( )之比較

音樂 音 主播

音樂 廣告

(a)

(b)

( ) D i

(c)

( ) D i

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

∀ ∈Ss 為 屬 於 靜 音 的 mixture component , 則 經 過 忽 略 靜 音 mixture component 後的權重向量變成了下列結果:

[

2.6.4 使用 Global covariance matrix

最後,假設每個 mixture component 有各自之共變異矩陣,因而可能 會發生如圖 二-7(a)之情境,這會使得在RX kk, = …1, ,M 中不再可以近似為 單一高斯分佈,所以為了使得(2.12)式之假設更為合理,我們假設在

, 1, ,

RX kk = … M 中有相同的共變異矩陣,如圖 二-7(b)所示,亦即每個 mixture component 有相同的共變異矩陣;如此,我們在(2.13)式做相異度 量測時,以 discrete convergence 相似之誤差量會變為較小。因此我們在估 計 CCGMM 之模型參數時,共變異矩陣之更新公式如下所示:

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

2.6.5 系統架構簡述

接下來我們簡述一下整個實驗的流程如圖 二-8 所示;首先我們先拿 一天的節目(i.e.一小時)來訓練出 GMM 之模型參數Λ,其中當我們更新模 型參數時,每個 mixture component 共用同一個共變異矩陣,也就是利用 (2.18) 式 之 更 新 公 式 , 然 後 保 留 其 平 均 向 量 及 共 變 異 矩 陣 , 段之相異度;在此處要注意的是我們已經移除了靜音的 mixture component。

( ), 1, ,

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

圖 二-8 基本系統架構圖

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

True change

point Candidate

change point

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

第三章 實驗結果及討論

3.1 PTSND 電視新聞語料庫之簡介

2001 年八月,王新民教授所率領的團隊開始了一個語料收集的計畫,

其目的為分三年收集220 小時的中文電視新聞語料,名為公共電視新聞語 料庫(Public Television Service News Database, PTSND)【2】;其錄音的參數 為44.1kHz 的取樣率,16-bit 的解析度,而每段節目長約 60 分鐘,由數位 錄音機(DAT recorder)直接由公視新聞的主控台所錄製而成,且每個 DAT 都經由人為處理成 16kHz 16-bit 單聲道的 WAV 檔。此電視新聞語料庫都 已經以SGML(Standard General Makeup Language)的語法標註了語音內容

其目的為分三年收集220 小時的中文電視新聞語料,名為公共電視新聞語 料庫(Public Television Service News Database, PTSND)【2】;其錄音的參數 為44.1kHz 的取樣率,16-bit 的解析度,而每段節目長約 60 分鐘,由數位 錄音機(DAT recorder)直接由公視新聞的主控台所錄製而成,且每個 DAT 都經由人為處理成 16kHz 16-bit 單聲道的 WAV 檔。此電視新聞語料庫都 已經以SGML(Standard General Makeup Language)的語法標註了語音內容

相關文件