• 沒有找到結果。

第二章 基本及其相關應用原理

2.3 混合高斯模型之描述

為什麼在本論文中我們要用 GMM 來描述某一個群組(class)的特性 呢?最主要的動機為 GMM 描述任意的機率分佈可以有相當不錯的結果;

而在本論文中,某個聲音片段中特徵向量之分佈可視為隨機分佈,因此必 須找到一個可以完整描述其分佈之模型,再找出某一種可以測量兩個特徵 向量分佈之相異度,使相異度測量可以更精確,所以我們使用 GMM 描述 聲音片段之特徵向量的動機因此產生。

圖 二-2 說明了 GMM 對於某一聲音片段中特徵向量之分佈的能力

【11】;圖 二-2(a)為某一聲音片段中某一維倒頻譜參數(cepstral coefficient) 的 pdf,圖 二-2(b)則是用 unimodal Gaussian model 來描述此聲音片段,圖 二-2(c)為使用 10 個 mixture component 的 GMM 之 pdf,圖 二-2(d)則為利 用 10 個 codeword 之 VQ 所做的結果;從圖中我們可以明顯地看出 GMM 對於任意分佈的機率密度函數皆可以描述得很不錯,而這也是為什麼我們 要使用 GMM 來描述某一個聲音片段的統計特性。

我們藉由 GMM 之混合權重、平均向量及共變異矩陣來代表每個聲音 片段的特性,概括來說,平均向量可以代表聲音片段在特徵空間(feature space)的絕對位置,共變異矩陣描述了此聲音片段中特徵向量的分散程 度,而混合權重可視為描述此聲音片段細節的參數,也正因上列三個參數 造就了 GMM 的優點:描述任意聲音片段其特徵向量分佈的能力。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

圖 二-2 GMM 與 VQ 對於特徵向量的描述能力之比較

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

法是最大似然機率估計法(Maximum Likelihood Estimation, MLE)。使用最 大似然機率估計法其目的在於:對於一群給定的訓練語料,找到使得 GMM 的似然函數(likelihood function)最大的一組模型參數Λ;也就是說,對於一 個有T組獨立之訓練特徵向量X = x x

{

1, 2,…xT

}

,其 GMM 的似然機率函數 著名的 Baum-Welch 演算法。在每一次重複的步驟中,下列的更新公式可 以保證我們 GMM 模型參數的似然機率值單調遞增(monotonic increase):

首先我們定義第 群的事後機率(a posteriori prob.)如下: i

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

其中 分別為 mixture component、音框(frame)及維度的指標(index)。

在本論文中,似然機率值之相對變化小於 0.1%或者疊代的次數超過 50 次,我們便認為 EM 演算法已經收斂。

, , k t d

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

components,亦即本論文提出的基於 CCGMM 之相異度量測,接下來我們 推導其相異度量測如下:

right right k k

k

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

訓 練 出 來 之 CCGMM 之 平 均 向 量 和 共 變 異 矩 陣 所 組 成 的 mixture component。

我們可以把這種方式想像成一種將特徵向量從較高維度的倒頻譜空 間 (cepstral space)轉換到某一較低維度之混合權重空間 (mixture-weight space),每一個 mixture component 我們可視為在此空間之基底(basis),而 此空間轉換的過程便是對特徵向量做基底展開。在本篇論文中我們稱之為 特徵向量轉換(feature transformation),如圖 二-3 所示,其中 代表某一聲 音片段之特徵向量的集合,經過特徵向量轉換後,我們可以用一組混合權 重向量來代表此聲音片段之特性;然而由於空間已由倒頻譜空間轉換到了 混合權重空間,因此我們必須找到適用於混合權重空間之距離量測公式。

X

圖 二-3 特徵向量轉換之示意圖

首先我們把(2.9)式代入(2.8)式中,可得

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

GMM 之平均向量與共變異矩陣所組成的 mixture component 當作每個聲音 片段的基底,也就是本論文提出之 CCGMM,接下來再利用(2.5)式估計出 相鄰聲音片段的混合權重,亦即wright k, ,k = …1, ,Mwleft k, ,k= …1, ,M ,最後 藉由(2.13)式計算出相鄰聲音片段之相異度。顯然地,當我們要估計出聲音 片段的混合權重時,也就是當我們要做特徵向量轉換時,我們可以假設在 EM 演算法的每次疊代中,平均向量和共變異矩陣為定值,單純地只更新

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

2.6 利用信號相異度做轉換點偵測之系統架構

2.6.1 快速 CCGMM 權重參數之抽取

在本論文中我們以 3 秒的分析音框(analytic window)中特徵向量之分 佈來代表轉換點左右的聲音片段特性,而這似乎不合理且缺乏彈性,因為 我們不能保證 3 秒是否足以代表整個聲音片段之特性,所以可變的分析音 框長度是必需的。然而在本實驗中混合權重之更新公式,亦即(2.5)式,是 最耗費計算量的步驟,因此我們希望在整個實驗過程中,加大或縮小分析 音框長度時不要再重新估計混合權重向量。基於此理由,我們先以 50 frame 長的分析音框估計權重向量,得到混合權重序列(mixture weights series),

,之後再以(2.15)式組合成任意長度 而此步驟在本論文中我們稱之為混合權重近似(weight approximation)。

圖 二-4 為(2.15)式之示意圖;在圖 二-4 中,我們先估計出以分析

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

圖 二-4 相異度量測之示意圖

2.6.2 相異度量測之加權

此外,若我們只用(2.13)式所計算出來的相異度做 decision,發現不能 用簡單的 decision rule 來找出候選轉換點,這是 metric-based segmentation 的缺點之一;如同 Microsoft Research Asia 在【6】中為了過濾出準確且數 目合理的候選轉換點,所提出的 decision rules 便相當的複雜。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

異度序列便會出現峰值,因此我們可以藉助匹配率波器的概念來加強相異 度序列(divergence series)中峰值的大小,增加候選轉換點和非轉換點間振 幅 的 差 距 , 也 就 是 說 對 原 本 的 相 異 度 序 列 與 三 角 波 做 迴 旋 積 分 (convolution);因此經過此步驟後的相異度序列,D i′( ),可用(2.16)式表示:

( ) 1 ( )

i W

j i W

i j

D i D j

W

+ α

= −

⎛ ⎛ − ⎞ ⎞

′ =

⎜⎜⎝ −⎜⎝ ⎟⎠ ⎟⎟⎠ (2.16) 其中 α 為 1 時,表示D i( )與一個三角波做迴旋積分,而 W 為此三角波的 寬度;在本實驗中為了考慮在(2.13)式中自然對數之比值也會反應出聲音 片段間的相異度,因此我們把 α 設為 2。

外場受訪者 外場記者

‧‧

圖 二-5 相異度序列之範例

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

接下來我們以圖例來說明D i′( )與D i( )之差異;圖 二-6(b)為原始的聲 音波形,其中包含了廣告、純音樂及主播聲音片段,並且標註了背景環境 狀況,如圖 二-6(a)所示;而圖 二-6(c)呈現了相對應時間之D i′( )與D i( ); 我們可以很明顯地看出轉換點都落在D i′( )的峰值,而且在非轉換點時,

( )

D i′ 始終相對較低,這也隱含了我們在做 decision 時,可以使用簡單的 threshold-based decision rules。

圖 二-6 D i( )與D i′( )之比較

音樂 音 主播

音樂 廣告

(a)

(b)

( ) D i

(c)

( ) D i

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

∀ ∈Ss 為 屬 於 靜 音 的 mixture component , 則 經 過 忽 略 靜 音 mixture component 後的權重向量變成了下列結果:

[

2.6.4 使用 Global covariance matrix

最後,假設每個 mixture component 有各自之共變異矩陣,因而可能 會發生如圖 二-7(a)之情境,這會使得在RX kk, = …1, ,M 中不再可以近似為 單一高斯分佈,所以為了使得(2.12)式之假設更為合理,我們假設在

, 1, ,

RX kk = … M 中有相同的共變異矩陣,如圖 二-7(b)所示,亦即每個 mixture component 有相同的共變異矩陣;如此,我們在(2.13)式做相異度 量測時,以 discrete convergence 相似之誤差量會變為較小。因此我們在估 計 CCGMM 之模型參數時,共變異矩陣之更新公式如下所示:

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

2.6.5 系統架構簡述

接下來我們簡述一下整個實驗的流程如圖 二-8 所示;首先我們先拿 一天的節目(i.e.一小時)來訓練出 GMM 之模型參數Λ,其中當我們更新模 型參數時,每個 mixture component 共用同一個共變異矩陣,也就是利用 (2.18) 式 之 更 新 公 式 , 然 後 保 留 其 平 均 向 量 及 共 變 異 矩 陣 , 段之相異度;在此處要注意的是我們已經移除了靜音的 mixture component。

( ), 1, ,

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

圖 二-8 基本系統架構圖

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

True change

point Candidate

change point

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

第三章 實驗結果及討論

3.1 PTSND 電視新聞語料庫之簡介

2001 年八月,王新民教授所率領的團隊開始了一個語料收集的計畫,

其目的為分三年收集220 小時的中文電視新聞語料,名為公共電視新聞語 料庫(Public Television Service News Database, PTSND)【2】;其錄音的參數 為44.1kHz 的取樣率,16-bit 的解析度,而每段節目長約 60 分鐘,由數位 錄音機(DAT recorder)直接由公視新聞的主控台所錄製而成,且每個 DAT 都經由人為處理成 16kHz 16-bit 單聲道的 WAV 檔。此電視新聞語料庫都 已經以SGML(Standard General Makeup Language)的語法標註了語音內容 (transcription)、背景環境(background condition)、語者轉換之邊界(speaker turn boundaries)、故事邊界(story boundaries)等標籤,而這些標籤都包含了 時間戳記,圖 三-1 為其內容標註之例子。

PTSND 若以語者來區分段落的話,可歸類成下列四種:棚內主播 (studio anchor)、氣象主播(weather anchor)、外場記者(field reporter)、外場 受訪者(interviewee)及 no speaker,而前三種段落都以人工標註內容;此外,

no speaker 的聲音段落,例如廣告、純音樂以及主播段落中的氣象主播等,

都只標註整個段落之起迄時間戳記*,並沒有標註內容。

在圖 三-1 之聲音波形下的內容標註分四層,由上到下依序為聲學背 景層(acoustic background layer)、故事層(story layer)、語者層(speaker turn layer)及標註層(orthographic transcription layer);

*PTSND 中,只有幾天的節目之氣象主播段落有詳細的標註內容,其它都只標註整段氣象之起迄時間。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

其中要注意的是最上層(聲學背景層)是與其它三層獨立的,也就是說聲 學背景層的起迄時間並不一定要與其它三層有關,這是源起於在外場訪問 的新聞中,常會有不可預期的背景聲,如汽車聲、人聲、機器聲等,因此 在標註此現象時,自然是獨立於其它三層之外。

圖 三-1 PTSND 內容標註之範例

接下來我們簡述一下 PTSND 語料庫的一些統計特性,如表 三-1 所 示;首先若我們以語者類別**來區分的話,因為外場記者及受訪者有相似 的背景聲音,所以我們把兩者合併為一類,而氣象主播因為其背景大多為

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

示我們要處理的聲音串流有相當大的比例可能有背景聲。

若我們以聲音訊號的狀況來對PTSND 分類,可分為純語音、有背景 聲***的語音、純背景聲、廣告、氣象播報及靜音,若我們把純背景聲與 有 參 雜 背 景 聲 的 語 音 歸 成 一 類 的 話 , 其 比 例 佔 了 61.4 %

(34.5+8.9+10.0+8.0),這也暗示著我們要偵測的轉換點大都在有背景之聲 音片段中,這是電視語料切割的困難處之一。

表 三-1 PTSND 基本統計特性

Speaker types Percentage

(in time) Signal condition Percentage (in time) Studio anchor 15.1 % Speech only 36.0 % Weather anchor 10.1 % Speech with

background 34.5 % Background only 8.9 %

Advertisement 10.0 % Weather report 8.0 %

Field reporter

and interviewee 74.8 %

Silence 2.6 %

附註:此表是以PTSND 第一年中 4 個小時的新聞所統計出來

***背景聲包括背景人聲、音樂、機器聲等,而有背景聲的片段並不包括氣象播報及廣告。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

3.2 效能評估參數之定義

首先我們先定義兩個實驗中會發生的兩種典型的錯誤—FA(False Alarm)及 MD(Miss Detection),如下:

1. 在候選轉換點的左右各 1.5 秒間若沒有真實轉換點出現的話,我 們便稱此候選轉換點為FA。

2. 在真實轉換點的左右各 1.5 秒間沒有候選轉換點的出現的話,此 真實轉換點我們稱之為MD。

依照上面的定義,我們可定義出 FAR(False Alarm Rate)及 MDR(Miss Detection Rate)這兩種效能評估參數,如下:

# of FA

FAR= total # of candidate change points (3.1)

# of MD

MDR= total # of true change points (3.2)

此外,我們依照(3.1)及(3.2)兩式分別定義了 PRC(Precision Rate)=1-FAR 及 RCL(Recall Rate)=1-MDR 兩項參數。

接下來我們來看一下常見的FA 與 MD 發生的情況,如圖 三-2 所示;

在圖中我們可以看到大部分的真實轉換點都是成對出現,這是因為在內容

在圖中我們可以看到大部分的真實轉換點都是成對出現,這是因為在內容

相關文件