混合高斯模型之描述

第二章基本及其相關應用原理

2.3 混合高斯模型之描述

為什麼在本論文中我們要用 GMM 來描述某一個群組(class)的特性呢？最主要的動機為 GMM 描述任意的機率分佈可以有相當不錯的結果；

而在本論文中，某個聲音片段中特徵向量之分佈可視為隨機分佈，因此必須找到一個可以完整描述其分佈之模型，再找出某一種可以測量兩個特徵向量分佈之相異度，使相異度測量可以更精確，所以我們使用 GMM 描述聲音片段之特徵向量的動機因此產生。

圖二-2 說明了 GMM 對於某一聲音片段中特徵向量之分佈的能力

【11】；圖二-2(a)為某一聲音片段中某一維倒頻譜參數(cepstral coefficient) 的 pdf，圖二-2(b)則是用 unimodal Gaussian model 來描述此聲音片段，圖二-2(c)為使用 10 個 mixture component 的 GMM 之 pdf，圖二-2(d)則為利用 10 個 codeword 之 VQ 所做的結果；從圖中我們可以明顯地看出 GMM 對於任意分佈的機率密度函數皆可以描述得很不錯，而這也是為什麼我們要使用 GMM 來描述某一個聲音片段的統計特性。

我們藉由 GMM 之混合權重、平均向量及共變異矩陣來代表每個聲音片段的特性，概括來說，平均向量可以代表聲音片段在特徵空間(feature space)的絕對位置，共變異矩陣描述了此聲音片段中特徵向量的分散程度，而混合權重可視為描述此聲音片段細節的參數，也正因上列三個參數造就了 GMM 的優點：描述任意聲音片段其特徵向量分佈的能力。

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

圖二-2 GMM 與 VQ 對於特徵向量的描述能力之比較

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

法是最大似然機率估計法(Maximum Likelihood Estimation, MLE)。使用最大似然機率估計法其目的在於：對於一群給定的訓練語料，找到使得 GMM 的似然函數(likelihood function)最大的一組模型參數Λ；也就是說，對於一個有T組獨立之訓練特徵向量X = x x

{

1, 2,…x_T

}

，其 GMM 的似然機率函數著名的 Baum-Welch 演算法。在每一次重複的步驟中，下列的更新公式可以保證我們 GMM 模型參數的似然機率值單調遞增(monotonic increase)：

首先我們定義第群的事後機率(a posteriori prob.)如下： i

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

其中分別為 mixture component、音框(frame)及維度的指標(index)。

在本論文中，似然機率值之相對變化小於 0.1%或者疊代的次數超過 50 次，我們便認為 EM 演算法已經收斂。

, , k t d

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

components，亦即本論文提出的基於 CCGMM 之相異度量測，接下來我們推導其相異度量測如下：

right right k k

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

訓練出來之 CCGMM 之平均向量和共變異矩陣所組成的 mixture component。

我們可以把這種方式想像成一種將特徵向量從較高維度的倒頻譜空間 (cepstral space)轉換到某一較低維度之混合權重空間 (mixture-weight space)，每一個 mixture component 我們可視為在此空間之基底(basis)，而此空間轉換的過程便是對特徵向量做基底展開。在本篇論文中我們稱之為特徵向量轉換(feature transformation)，如圖二-3 所示，其中代表某一聲音片段之特徵向量的集合，經過特徵向量轉換後，我們可以用一組混合權重向量來代表此聲音片段之特性；然而由於空間已由倒頻譜空間轉換到了混合權重空間，因此我們必須找到適用於混合權重空間之距離量測公式。

圖二-3 特徵向量轉換之示意圖

首先我們把(2.9)式代入(2.8)式中，可得

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

GMM 之平均向量與共變異矩陣所組成的 mixture component 當作每個聲音片段的基底，也就是本論文提出之 CCGMM，接下來再利用(2.5)式估計出相鄰聲音片段的混合權重，亦即w_{right k}_, ,k = …1, ,M與w_{left k}_, ,k= …1, ,M ，最後藉由(2.13)式計算出相鄰聲音片段之相異度。顯然地，當我們要估計出聲音片段的混合權重時，也就是當我們要做特徵向量轉換時，我們可以假設在 EM 演算法的每次疊代中，平均向量和共變異矩陣為定值，單純地只更新

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

2.6 利用信號相異度做轉換點偵測之系統架構

2.6.1 快速 CCGMM 權重參數之抽取

在本論文中我們以 3 秒的分析音框(analytic window)中特徵向量之分佈來代表轉換點左右的聲音片段特性，而這似乎不合理且缺乏彈性，因為我們不能保證 3 秒是否足以代表整個聲音片段之特性，所以可變的分析音框長度是必需的。然而在本實驗中混合權重之更新公式，亦即(2.5)式，是最耗費計算量的步驟，因此我們希望在整個實驗過程中，加大或縮小分析音框長度時不要再重新估計混合權重向量。基於此理由，我們先以 50 frame 長的分析音框估計權重向量，得到混合權重序列(mixture weights series)，

，之後再以(2.15)式組合成任意長度而此步驟在本論文中我們稱之為混合權重近似(weight approximation)。

圖二-4 為(2.15)式之示意圖；在圖二-4 中，我們先估計出以分析

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

圖二-4 相異度量測之示意圖

2.6.2 相異度量測之加權

此外，若我們只用(2.13)式所計算出來的相異度做 decision，發現不能用簡單的 decision rule 來找出候選轉換點，這是 metric-based segmentation 的缺點之一；如同 Microsoft Research Asia 在【6】中為了過濾出準確且數目合理的候選轉換點，所提出的 decision rules 便相當的複雜。

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

異度序列便會出現峰值，因此我們可以藉助匹配率波器的概念來加強相異度序列(divergence series)中峰值的大小，增加候選轉換點和非轉換點間振幅的差距，也就是說對原本的相異度序列與三角波做迴旋積分 (convolution)；因此經過此步驟後的相異度序列，D i′( )，可用(2.16)式表示：

( ) 1 ( )

i W

j i W

i j

D i D j

+ α

= −

⎛ ⎛ − ⎞ ⎞

′ =

∑

⎜⎜⎝ −⎜⎝ ⎟⎠ ⎟⎟⎠ (2.16) 其中 α 為 1 時，表示D i( )與一個三角波做迴旋積分，而 W 為此三角波的 寬度；在本實驗中為了考慮在(2.13)式中自然對數之比值也會反應出聲音片段間的相異度，因此我們把 α 設為 2。

外場受訪者外場記者

‧‧

‧

圖二-5 相異度序列之範例

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

接下來我們以圖例來說明D i′( )與D i( )之差異；圖二-6(b)為原始的聲音波形，其中包含了廣告、純音樂及主播聲音片段，並且標註了背景環境狀況，如圖二-6(a)所示；而圖二-6(c)呈現了相對應時間之D i′( )與D i( )；我們可以很明顯地看出轉換點都落在D i′( )的峰值，而且在非轉換點時，

( )

D i′ 始終相對較低，這也隱含了我們在做 decision 時，可以使用簡單的 threshold-based decision rules。

圖二-6 D i( )與D i′( )之比較

音樂音主播

樂

音樂廣告

(a)

(b)

( ) D i′

(c)

( ) D i

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

∀ ∈Ss 為屬於靜音的 mixture component ，則經過忽略靜音 mixture component 後的權重向量變成了下列結果：

[

2.6.4 使用 Global covariance matrix

最後，假設每個 mixture component 有各自之共變異矩陣，因而可能會發生如圖二-7(a)之情境，這會使得在RX k_k, = …1, ,M 中不再可以近似為單一高斯分佈，所以為了使得(2.12)式之假設更為合理，我們假設在

, 1, ,

RX kk = … M 中有相同的共變異矩陣，如圖二-7(b)所示，亦即每個 mixture component 有相同的共變異矩陣；如此，我們在(2.13)式做相異度量測時，以 discrete convergence 相似之誤差量會變為較小。因此我們在估計 CCGMM 之模型參數時，共變異矩陣之更新公式如下所示：

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

2.6.5 系統架構簡述

接下來我們簡述一下整個實驗的流程如圖二-8 所示；首先我們先拿一天的節目(i.e.一小時)來訓練出 GMM 之模型參數Λ，其中當我們更新模型參數時，每個 mixture component 共用同一個共變異矩陣，也就是利用 (2.18) 式之更新公式，然後保留其平均向量及共變異矩陣，段之相異度；在此處要注意的是我們已經移除了靜音的 mixture component。

( ), 1, ,

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

圖二-8 基本系統架構圖

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

True change

point Candidate

change point

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

第三章實驗結果及討論

3.1 PTSND 電視新聞語料庫之簡介

2001 年八月，王新民教授所率領的團隊開始了一個語料收集的計畫，

其目的為分三年收集220 小時的中文電視新聞語料，名為公共電視新聞語料庫(Public Television Service News Database, PTSND)【2】；其錄音的參數為44.1kHz 的取樣率，16-bit 的解析度，而每段節目長約 60 分鐘，由數位錄音機(DAT recorder)直接由公視新聞的主控台所錄製而成，且每個 DAT 都經由人為處理成 16kHz 16-bit 單聲道的 WAV 檔。此電視新聞語料庫都已經以SGML(Standard General Makeup Language)的語法標註了語音內容 (transcription)、背景環境(background condition)、語者轉換之邊界(speaker turn boundaries)、故事邊界(story boundaries)等標籤，而這些標籤都包含了時間戳記，圖三-1 為其內容標註之例子。

PTSND 若以語者來區分段落的話，可歸類成下列四種：棚內主播 (studio anchor)、氣象主播(weather anchor)、外場記者(field reporter)、外場受訪者(interviewee)及 no speaker，而前三種段落都以人工標註內容；此外，

no speaker 的聲音段落，例如廣告、純音樂以及主播段落中的氣象主播等，

都只標註整個段落之起迄時間戳記*，並沒有標註內容。

在圖三-1 之聲音波形下的內容標註分四層，由上到下依序為聲學背景層(acoustic background layer)、故事層(story layer)、語者層(speaker turn layer)及標註層(orthographic transcription layer)；

*在PTSND 中，只有幾天的節目之氣象主播段落有詳細的標註內容，其它都只標註整段氣象之起迄時間。

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

其中要注意的是最上層（聲學背景層）是與其它三層獨立的，也就是說聲學背景層的起迄時間並不一定要與其它三層有關，這是源起於在外場訪問的新聞中，常會有不可預期的背景聲，如汽車聲、人聲、機器聲等，因此在標註此現象時，自然是獨立於其它三層之外。

圖三-1 PTSND 內容標註之範例

接下來我們簡述一下 PTSND 語料庫的一些統計特性，如表三-1 所示；首先若我們以語者類別**來區分的話，因為外場記者及受訪者有相似的背景聲音，所以我們把兩者合併為一類，而氣象主播因為其背景大多為

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

示我們要處理的聲音串流有相當大的比例可能有背景聲。

若我們以聲音訊號的狀況來對PTSND 分類，可分為純語音、有背景聲***的語音、純背景聲、廣告、氣象播報及靜音，若我們把純背景聲與有參雜背景聲的語音歸成一類的話，其比例佔了 61.4 ％

（34.5+8.9+10.0+8.0），這也暗示著我們要偵測的轉換點大都在有背景之聲音片段中，這是電視語料切割的困難處之一。

表三-1 PTSND 基本統計特性

Speaker types Percentage

(in time) Signal condition Percentage (in time) Studio anchor 15.1 % Speech only 36.0 % Weather anchor 10.1 % Speech with

background 34.5 % Background only 8.9 %

Advertisement 10.0 % Weather report 8.0 %

Field reporter

and interviewee 74.8 %

Silence 2.6 %

附註：此表是以PTSND 第一年中 4 個小時的新聞所統計出來

***背景聲包括背景人聲、音樂、機器聲等，而有背景聲的片段並不包括氣象播報及廣告。

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

3.2 效能評估參數之定義

首先我們先定義兩個實驗中會發生的兩種典型的錯誤—FA(False Alarm)及 MD(Miss Detection)，如下：

1. 在候選轉換點的左右各 1.5 秒間若沒有真實轉換點出現的話，我們便稱此候選轉換點為FA。

2. 在真實轉換點的左右各 1.5 秒間沒有候選轉換點的出現的話，此真實轉換點我們稱之為MD。

依照上面的定義，我們可定義出 FAR(False Alarm Rate)及 MDR(Miss Detection Rate)這兩種效能評估參數，如下：

# of FA

FAR= total # of candidate change points (3.1)

# of MD

MDR= total # of true change points (3.2)

此外，我們依照(3.1)及(3.2)兩式分別定義了 PRC(Precision Rate)=1-FAR 及 RCL(Recall Rate)=1-MDR 兩項參數。

接下來我們來看一下常見的FA 與 MD 發生的情況，如圖三-2 所示；

在圖中我們可以看到大部分的真實轉換點都是成對出現，這是因為在內容

在文檔中對於公共電視新聞語料之語者與環境轉換偵測 (頁 19-0)

第二章 基本及其相關應用原理

2.3 混合高斯模型之描述

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

{

}

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

中華民國九十三年六月

2.6 利用信號相異度做轉換點偵測之系統架構

2.6.1 快速 CCGMM 權重參數之抽取

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

2.6.2 相異度量測之加權

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

中華民國九十三年六月

∑

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

中華民國九十三年六月

[

第二章基本及其相關應用原理

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

第三章實驗結果及討論

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士