相異度量測之加權

第二章基本及其相關應用原理

2.6 利用信號相異度做轉換點偵測之系統架構

2.6.2 相異度量測之加權

此外，若我們只用(2.13)式所計算出來的相異度做 decision，發現不能用簡單的 decision rule 來找出候選轉換點，這是 metric-based segmentation 的缺點之一；如同 Microsoft Research Asia 在【6】中為了過濾出準確且數目合理的候選轉換點，所提出的 decision rules 便相當的複雜。

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

異度序列便會出現峰值，因此我們可以藉助匹配率波器的概念來加強相異度序列(divergence series)中峰值的大小，增加候選轉換點和非轉換點間振幅的差距，也就是說對原本的相異度序列與三角波做迴旋積分 (convolution)；因此經過此步驟後的相異度序列，D i′( )，可用(2.16)式表示：

( ) 1 ( )

i W

j i W

i j

D i D j

+ α

= −

⎛ ⎛ − ⎞ ⎞

′ =

∑

⎜⎜⎝ −⎜⎝ ⎟⎠ ⎟⎟⎠ (2.16) 其中 α 為 1 時，表示D i( )與一個三角波做迴旋積分，而 W 為此三角波的 寬度；在本實驗中為了考慮在(2.13)式中自然對數之比值也會反應出聲音片段間的相異度，因此我們把 α 設為 2。

外場受訪者外場記者

‧‧

‧

圖二-5 相異度序列之範例

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

接下來我們以圖例來說明D i′( )與D i( )之差異；圖二-6(b)為原始的聲音波形，其中包含了廣告、純音樂及主播聲音片段，並且標註了背景環境狀況，如圖二-6(a)所示；而圖二-6(c)呈現了相對應時間之D i′( )與D i( )；我們可以很明顯地看出轉換點都落在D i′( )的峰值，而且在非轉換點時，

( )

D i′ 始終相對較低，這也隱含了我們在做 decision 時，可以使用簡單的 threshold-based decision rules。

圖二-6 D i( )與D i′( )之比較

音樂音主播

樂

音樂廣告

(a)

(b)

( ) D i′

(c)

( ) D i

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

∀ ∈Ss 為屬於靜音的 mixture component ，則經過忽略靜音 mixture component 後的權重向量變成了下列結果：

[

2.6.4 使用 Global covariance matrix

最後，假設每個 mixture component 有各自之共變異矩陣，因而可能會發生如圖二-7(a)之情境，這會使得在RX k_k, = …1, ,M 中不再可以近似為單一高斯分佈，所以為了使得(2.12)式之假設更為合理，我們假設在

, 1, ,

RX kk = … M 中有相同的共變異矩陣，如圖二-7(b)所示，亦即每個 mixture component 有相同的共變異矩陣；如此，我們在(2.13)式做相異度量測時，以 discrete convergence 相似之誤差量會變為較小。因此我們在估計 CCGMM 之模型參數時，共變異矩陣之更新公式如下所示：

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

2.6.5 系統架構簡述

接下來我們簡述一下整個實驗的流程如圖二-8 所示；首先我們先拿一天的節目(i.e.一小時)來訓練出 GMM 之模型參數Λ，其中當我們更新模型參數時，每個 mixture component 共用同一個共變異矩陣，也就是利用 (2.18) 式之更新公式，然後保留其平均向量及共變異矩陣，段之相異度；在此處要注意的是我們已經移除了靜音的 mixture component。

( ), 1, ,

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

圖二-8 基本系統架構圖

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

True change

point Candidate

change point

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

第三章實驗結果及討論

3.1 PTSND 電視新聞語料庫之簡介

2001 年八月，王新民教授所率領的團隊開始了一個語料收集的計畫，

其目的為分三年收集220 小時的中文電視新聞語料，名為公共電視新聞語料庫(Public Television Service News Database, PTSND)【2】；其錄音的參數為44.1kHz 的取樣率，16-bit 的解析度，而每段節目長約 60 分鐘，由數位錄音機(DAT recorder)直接由公視新聞的主控台所錄製而成，且每個 DAT 都經由人為處理成 16kHz 16-bit 單聲道的 WAV 檔。此電視新聞語料庫都已經以SGML(Standard General Makeup Language)的語法標註了語音內容 (transcription)、背景環境(background condition)、語者轉換之邊界(speaker turn boundaries)、故事邊界(story boundaries)等標籤，而這些標籤都包含了時間戳記，圖三-1 為其內容標註之例子。

PTSND 若以語者來區分段落的話，可歸類成下列四種：棚內主播 (studio anchor)、氣象主播(weather anchor)、外場記者(field reporter)、外場受訪者(interviewee)及 no speaker，而前三種段落都以人工標註內容；此外，

no speaker 的聲音段落，例如廣告、純音樂以及主播段落中的氣象主播等，

都只標註整個段落之起迄時間戳記*，並沒有標註內容。

在圖三-1 之聲音波形下的內容標註分四層，由上到下依序為聲學背景層(acoustic background layer)、故事層(story layer)、語者層(speaker turn layer)及標註層(orthographic transcription layer)；

*在PTSND 中，只有幾天的節目之氣象主播段落有詳細的標註內容，其它都只標註整段氣象之起迄時間。

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

其中要注意的是最上層（聲學背景層）是與其它三層獨立的，也就是說聲學背景層的起迄時間並不一定要與其它三層有關，這是源起於在外場訪問的新聞中，常會有不可預期的背景聲，如汽車聲、人聲、機器聲等，因此在標註此現象時，自然是獨立於其它三層之外。

圖三-1 PTSND 內容標註之範例

接下來我們簡述一下 PTSND 語料庫的一些統計特性，如表三-1 所示；首先若我們以語者類別**來區分的話，因為外場記者及受訪者有相似的背景聲音，所以我們把兩者合併為一類，而氣象主播因為其背景大多為

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

示我們要處理的聲音串流有相當大的比例可能有背景聲。

若我們以聲音訊號的狀況來對PTSND 分類，可分為純語音、有背景聲***的語音、純背景聲、廣告、氣象播報及靜音，若我們把純背景聲與有參雜背景聲的語音歸成一類的話，其比例佔了 61.4 ％

（34.5+8.9+10.0+8.0），這也暗示著我們要偵測的轉換點大都在有背景之聲音片段中，這是電視語料切割的困難處之一。

表三-1 PTSND 基本統計特性

Speaker types Percentage

(in time) Signal condition Percentage (in time) Studio anchor 15.1 % Speech only 36.0 % Weather anchor 10.1 % Speech with

background 34.5 % Background only 8.9 %

Advertisement 10.0 % Weather report 8.0 %

Field reporter

and interviewee 74.8 %

Silence 2.6 %

附註：此表是以PTSND 第一年中 4 個小時的新聞所統計出來

***背景聲包括背景人聲、音樂、機器聲等，而有背景聲的片段並不包括氣象播報及廣告。

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

3.2 效能評估參數之定義

首先我們先定義兩個實驗中會發生的兩種典型的錯誤—FA(False Alarm)及 MD(Miss Detection)，如下：

1. 在候選轉換點的左右各 1.5 秒間若沒有真實轉換點出現的話，我們便稱此候選轉換點為FA。

2. 在真實轉換點的左右各 1.5 秒間沒有候選轉換點的出現的話，此真實轉換點我們稱之為MD。

依照上面的定義，我們可定義出 FAR(False Alarm Rate)及 MDR(Miss Detection Rate)這兩種效能評估參數，如下：

# of FA

FAR= total # of candidate change points (3.1)

# of MD

MDR= total # of true change points (3.2)

此外，我們依照(3.1)及(3.2)兩式分別定義了 PRC(Precision Rate)=1-FAR 及 RCL(Recall Rate)=1-MDR 兩項參數。

接下來我們來看一下常見的FA 與 MD 發生的情況，如圖三-2 所示；

在圖中我們可以看到大部分的真實轉換點都是成對出現，這是因為在內容標註的過程中，語者間的轉換常伴隨著短停頓(short pause)，然而標註員在標註時也真實反應此現象，因此單獨出現的真實轉換點相對少見。然而此

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

圖三-2 FA 與 MD 之範例

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

Operator Characteristic plot)，因而我們可以藉此來比較出出演算法間的優劣；有時我們希望能有單一參數來評估切割演算法的效能，因此有人便提此評估參數有著decreasing marginal effectiveness 的特性，我們以圖三-3 之例來說明如下：

從(3.4)式我們可以得到下列結論：區間[RCL,RCL+ε]對於 F-measure 的影響超過區間[PRC,PRC-ε]，然而區間[RCL+ε,RCL+2ε]比前兩者之影響力更小。因此對於 RCL 而言，其 marginal effectiveness 是 decreasing；同理，

在RCL 大於 PRC 的情況下，PRC 亦然。因此對於 RCL 與 PRC 之和為定值的條件下，(RCL,PRC)越接近中線有較佳的 F-measure。對於 PRC 與 RCL 相等的情況而言，F-measure 與 RCL 及 PRC 相等，因此(RCL,PRC)越接近

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

圖三-3 F-measure 之特性說明

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

3.3 實驗參數設定及其結果

在我們的實驗中，所有的聲音訊號皆先通過 1-0.97z^-1的預強調濾波器，再對聲音訊號音框化成30 ms大小的片段，其中音框與音框間的重複區間為20 ms，之後我們從每個音框中求取出 12 維的梅爾刻度倒頻譜參數 (MFCC)當作一個特徵向量。接下來我們選取了一個小時的節目來訓練出 有 256 個mixture component的混合高斯模型，對四個小時的測試語料取此 256 個mixture component做為CCGMM之mixture component，然後每隔 0.5 秒對於此時間點左右相鄰之分析音框做相異度量測，以期找出候選轉換點。

在我們實驗的過程中，發現到在節目中的廣告只有標註整個段落的時間戳記，而沒有對每一個廣告段落做標記的動作；此外，氣象播報只有少數天數的節目有標註內容，其它則只有標註整段氣象的起迄時間。為了改正此缺失，我們以人工對於廣告及氣象播報做了初步的分段，標註出每個小段落的起迄時間，以期得到更正確的真實轉換點。經由初步的人為統計真實轉換點之特性，如表三-2 所示，我們發現在第二欄中最常發生之情況有兩種，一是棚內主播與外場記者或者外場記者與受訪者間的轉換，這種情況對我們來說是容易偵測的；另一為背景聲突然消失或出現，這種情況就不易處理。在第三欄中也可分為兩種情況，背景聲及語者皆不相同之轉換為其一，這相對來說較易處理，然而對於有著相同背景聲之情況下，

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

表三-2 真實轉換點之特性統計

Types of true change point[註] Percentage (in numbers) Speech ↔ Speech 20.1%

Speech ↔ Speech+bg 33.9%

Speech+bg ↔ Speech+bg 31.1%

Speech ↔ Music 4.6%

Speech+bg ↔ Music 9.3%

Music ↔ Music 1.0%

[註]

1. X↔Y 表示此轉換點為 X 轉換至 Y 或者是 Y 轉換到 X。

2. Speech 表示純語音片段， Music 表示純音樂之片段，Speech+bg 表示有背景聲之語音片段，

然而背景聲包括音樂、人聲、機器聲及其它等噪音。

3. 廣告片段則屬於Speech+bg。

4. 氣象播報在有前景語音時屬於Speech+bg，在純背景音樂片段時則屬於 Music。

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

3.3.1 不同α值對於系統效能之影響

首先我們評估在(2.16)式中，α=1 與 α=2 對於轉換點之辨識率的影響，

如圖三-4 所示；在圖中我們可以瞭解雖然對於相異度序列做三角波的迴旋積分之結果已經相當不錯了，但是若我們設定α 為 2 的話，可以得到小幅度的效能改善，而這也證明了自然對數裡的比值會對D i′( )造成些微的影響，因此我們在接下來的所有實驗中，都使用α 為 2 之D i′( )。

圖三-4 在(2.16)式中不同 α 值對於系統效能之影響

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

中華民國九十三年六月

陣時使用(2.18)式，其結果如圖三-5 所示。

圖三-5 mixture components 共用共變異矩陣之效能改進

3.3.3 不同 mixture 數對於系統效能之影響

直觀而言，對於CCGMM 之 mixture component 數目越多的話，描述聲音片段中的特徵向量分佈之精確度越高，然而 mixture 數越高會使得估計參數時之計算複雜度越高，因此如何選擇mixture component 的數目便需要trade off。我們接下來便評估其影響如圖三-6所示；從圖中我們觀察到隨著 mixture 數為 64、128 與 256 時，F-measure 正比於 mixture 數，分別為 0.813、0.820 及 0.828，但是其數值都在令人滿意的範圍內，這隱含著我們可以只用較少的mixture 數便可以得到不錯的結果。

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如博士

圖三-6 不同mixture 數之影響

3.3.4 混合權重近似對於系統效能之影響

再來我們評估混合權重近似對於切割效能的影響，如圖三-7 所示。

在圖三-7 之(a)(b)(c)分別為 256、128 及 64 個 mixture component 的 CCGMM 有無做混合權重近似之 ROC 圖，其中此圖為針對標註層所做的轉換點偵測之結果。從圖三-7(a)中我們可以明顯地看出，對於 CCGMM 的 mixture component 數目為 256 時，混合權重近似使得 F-measure 由 0.828 下降至 0.820，並沒有造成系統效能明顯地減低；然而在3.3.3 節中我們發現mixture

在文檔中對於公共電視新聞語料之語者與環境轉換偵測 (頁 28-0)

第二章 基本及其相關應用原理

2.6 利用信號相異度做轉換點偵測之系統架構

2.6.2 相異度量測之加權

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

中華民國九十三年六月

∑

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

中華民國九十三年六月

[

2.6.4 使用 Global covariance matrix

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

2.6.5 系統架構簡述

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

中華民國九十三年六月

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

中華民國九十三年六月

第三章 實驗結果及討論

3.1 PTSND 電視新聞語料庫之簡介

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

中華民國九十三年六月

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

指導教授：王逸如 博士

3.2 效能評估參數之定義

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生：黃祺翰

第二章基本及其相關應用原理

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

第三章實驗結果及討論

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士

國立交通大學

電信工程學系碩士班碩士論文

對於公共電視新聞語料之語者與環境轉換偵測

指導教授：王逸如博士