第二章 基本及其相關應用原理
2.6 利用信號相異度做轉換點偵測之系統架構
2.6.2 相異度量測之加權
此外,若我們只用(2.13)式所計算出來的相異度做 decision,發現不能 用簡單的 decision rule 來找出候選轉換點,這是 metric-based segmentation 的缺點之一;如同 Microsoft Research Asia 在【6】中為了過濾出準確且數 目合理的候選轉換點,所提出的 decision rules 便相當的複雜。
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
異度序列便會出現峰值,因此我們可以藉助匹配率波器的概念來加強相異 度序列(divergence series)中峰值的大小,增加候選轉換點和非轉換點間振 幅 的 差 距 , 也 就 是 說 對 原 本 的 相 異 度 序 列 與 三 角 波 做 迴 旋 積 分 (convolution);因此經過此步驟後的相異度序列,D i′( ),可用(2.16)式表示:
( ) 1 ( )
i W
j i W
i j
D i D j
W
+ α
= −
⎛ ⎛ − ⎞ ⎞
′ =
∑
⎜⎜⎝ −⎜⎝ ⎟⎠ ⎟⎟⎠ (2.16) 其中 α 為 1 時,表示D i( )與一個三角波做迴旋積分,而 W 為此三角波的 寬度;在本實驗中為了考慮在(2.13)式中自然對數之比值也會反應出聲音 片段間的相異度,因此我們把 α 設為 2。外場受訪者 外場記者
‧‧
‧
圖 二-5 相異度序列之範例
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
接下來我們以圖例來說明D i′( )與D i( )之差異;圖 二-6(b)為原始的聲 音波形,其中包含了廣告、純音樂及主播聲音片段,並且標註了背景環境 狀況,如圖 二-6(a)所示;而圖 二-6(c)呈現了相對應時間之D i′( )與D i( ); 我們可以很明顯地看出轉換點都落在D i′( )的峰值,而且在非轉換點時,
( )
D i′ 始終相對較低,這也隱含了我們在做 decision 時,可以使用簡單的 threshold-based decision rules。
圖 二-6 D i( )與D i′( )之比較
音樂 音 主播
樂
音樂 廣告
(a)
(b)
( ) D i′
(c)
( ) D i
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
∀ ∈Ss 為 屬 於 靜 音 的 mixture component , 則 經 過 忽 略 靜 音 mixture component 後的權重向量變成了下列結果:
[
2.6.4 使用 Global covariance matrix
最後,假設每個 mixture component 有各自之共變異矩陣,因而可能 會發生如圖 二-7(a)之情境,這會使得在RX kk, = …1, ,M 中不再可以近似為 單一高斯分佈,所以為了使得(2.12)式之假設更為合理,我們假設在
, 1, ,
RX kk = … M 中有相同的共變異矩陣,如圖 二-7(b)所示,亦即每個 mixture component 有相同的共變異矩陣;如此,我們在(2.13)式做相異度 量測時,以 discrete convergence 相似之誤差量會變為較小。因此我們在估 計 CCGMM 之模型參數時,共變異矩陣之更新公式如下所示:
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
2.6.5 系統架構簡述
接下來我們簡述一下整個實驗的流程如圖 二-8 所示;首先我們先拿 一天的節目(i.e.一小時)來訓練出 GMM 之模型參數Λ,其中當我們更新模 型參數時,每個 mixture component 共用同一個共變異矩陣,也就是利用 (2.18) 式 之 更 新 公 式 , 然 後 保 留 其 平 均 向 量 及 共 變 異 矩 陣 , 段之相異度;在此處要注意的是我們已經移除了靜音的 mixture component。
( ), 1, ,
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
圖 二-8 基本系統架構圖
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
True change
point Candidate
change point
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
第三章 實驗結果及討論
3.1 PTSND 電視新聞語料庫之簡介
2001 年八月,王新民教授所率領的團隊開始了一個語料收集的計畫,
其目的為分三年收集220 小時的中文電視新聞語料,名為公共電視新聞語 料庫(Public Television Service News Database, PTSND)【2】;其錄音的參數 為44.1kHz 的取樣率,16-bit 的解析度,而每段節目長約 60 分鐘,由數位 錄音機(DAT recorder)直接由公視新聞的主控台所錄製而成,且每個 DAT 都經由人為處理成 16kHz 16-bit 單聲道的 WAV 檔。此電視新聞語料庫都 已經以SGML(Standard General Makeup Language)的語法標註了語音內容 (transcription)、背景環境(background condition)、語者轉換之邊界(speaker turn boundaries)、故事邊界(story boundaries)等標籤,而這些標籤都包含了 時間戳記,圖 三-1 為其內容標註之例子。
PTSND 若以語者來區分段落的話,可歸類成下列四種:棚內主播 (studio anchor)、氣象主播(weather anchor)、外場記者(field reporter)、外場 受訪者(interviewee)及 no speaker,而前三種段落都以人工標註內容;此外,
no speaker 的聲音段落,例如廣告、純音樂以及主播段落中的氣象主播等,
都只標註整個段落之起迄時間戳記*,並沒有標註內容。
在圖 三-1 之聲音波形下的內容標註分四層,由上到下依序為聲學背 景層(acoustic background layer)、故事層(story layer)、語者層(speaker turn layer)及標註層(orthographic transcription layer);
*在PTSND 中,只有幾天的節目之氣象主播段落有詳細的標註內容,其它都只標註整段氣象之起迄時間。
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
其中要注意的是最上層(聲學背景層)是與其它三層獨立的,也就是說聲 學背景層的起迄時間並不一定要與其它三層有關,這是源起於在外場訪問 的新聞中,常會有不可預期的背景聲,如汽車聲、人聲、機器聲等,因此 在標註此現象時,自然是獨立於其它三層之外。
圖 三-1 PTSND 內容標註之範例
接下來我們簡述一下 PTSND 語料庫的一些統計特性,如表 三-1 所 示;首先若我們以語者類別**來區分的話,因為外場記者及受訪者有相似 的背景聲音,所以我們把兩者合併為一類,而氣象主播因為其背景大多為
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
示我們要處理的聲音串流有相當大的比例可能有背景聲。
若我們以聲音訊號的狀況來對PTSND 分類,可分為純語音、有背景 聲***的語音、純背景聲、廣告、氣象播報及靜音,若我們把純背景聲與 有 參 雜 背 景 聲 的 語 音 歸 成 一 類 的 話 , 其 比 例 佔 了 61.4 %
(34.5+8.9+10.0+8.0),這也暗示著我們要偵測的轉換點大都在有背景之聲 音片段中,這是電視語料切割的困難處之一。
表 三-1 PTSND 基本統計特性
Speaker types Percentage
(in time) Signal condition Percentage (in time) Studio anchor 15.1 % Speech only 36.0 % Weather anchor 10.1 % Speech with
background 34.5 % Background only 8.9 %
Advertisement 10.0 % Weather report 8.0 %
Field reporter
and interviewee 74.8 %
Silence 2.6 %
附註:此表是以PTSND 第一年中 4 個小時的新聞所統計出來
***背景聲包括背景人聲、音樂、機器聲等,而有背景聲的片段並不包括氣象播報及廣告。
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
3.2 效能評估參數之定義
首先我們先定義兩個實驗中會發生的兩種典型的錯誤—FA(False Alarm)及 MD(Miss Detection),如下:
1. 在候選轉換點的左右各 1.5 秒間若沒有真實轉換點出現的話,我 們便稱此候選轉換點為FA。
2. 在真實轉換點的左右各 1.5 秒間沒有候選轉換點的出現的話,此 真實轉換點我們稱之為MD。
依照上面的定義,我們可定義出 FAR(False Alarm Rate)及 MDR(Miss Detection Rate)這兩種效能評估參數,如下:
# of FA
FAR= total # of candidate change points (3.1)
# of MD
MDR= total # of true change points (3.2)
此外,我們依照(3.1)及(3.2)兩式分別定義了 PRC(Precision Rate)=1-FAR 及 RCL(Recall Rate)=1-MDR 兩項參數。
接下來我們來看一下常見的FA 與 MD 發生的情況,如圖 三-2 所示;
在圖中我們可以看到大部分的真實轉換點都是成對出現,這是因為在內容 標註的過程中,語者間的轉換常伴隨著短停頓(short pause),然而標註員在 標註時也真實反應此現象,因此單獨出現的真實轉換點相對少見。然而此
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
MD
MD
FA
圖 三-2 FA 與 MD 之範例
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
Operator Characteristic plot),因而我們可以藉此來比較出出演算法間的優 劣;有時我們希望能有單一參數來評估切割演算法的效能,因此有人便提 此評估參數有著decreasing marginal effectiveness 的特性,我們以圖 三-3 之例來說明如下:從(3.4)式我們可以得到下列結論:區間[RCL,RCL+ε]對於 F-measure 的影響 超過區間[PRC,PRC-ε],然而區間[RCL+ε,RCL+2ε]比前兩者之影響力更 小。因此對於 RCL 而言,其 marginal effectiveness 是 decreasing;同理,
在RCL 大於 PRC 的情況下,PRC 亦然。因此對於 RCL 與 PRC 之和為定 值的條件下,(RCL,PRC)越接近中線有較佳的 F-measure。對於 PRC 與 RCL 相等的情況而言,F-measure 與 RCL 及 PRC 相等,因此(RCL,PRC)越接近
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
圖 三-3 F-measure 之特性說明
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
3.3 實驗參數設定及其結果
在我們的實驗中,所有的聲音訊號皆先通過 1-0.97z-1的預強調濾波 器,再對聲音訊號音框化成30 ms大小的片段,其中音框與音框間的重複 區間為20 ms,之後我們從每個音框中求取出 12 維的梅爾刻度倒頻譜參數 (MFCC)當作一個特徵向量。接下來我們選取了一個小時的節目來訓練出 有 256 個mixture component的混合高斯模型,對四個小時的測試語料取此 256 個mixture component做為CCGMM之mixture component,然後每隔 0.5 秒對於此時間點左右相鄰之分析音框做相異度量測,以期找出候選轉換 點。
在我們實驗的過程中,發現到在節目中的廣告只有標註整個段落的時 間戳記,而沒有對每一個廣告段落做標記的動作;此外,氣象播報只有少 數天數的節目有標註內容,其它則只有標註整段氣象的起迄時間。為了改 正此缺失,我們以人工對於廣告及氣象播報做了初步的分段,標註出每個 小段落的起迄時間,以期得到更正確的真實轉換點。經由初步的人為統計 真實轉換點之特性,如表 三-2 所示,我們發現在第二欄中最常發生之情 況有兩種,一是棚內主播與外場記者或者外場記者與受訪者間的轉換,這 種情況對我們來說是容易偵測的;另一為背景聲突然消失或出現,這種情 況就不易處理。在第三欄中也可分為兩種情況,背景聲及語者皆不相同之 轉換為其一,這相對來說較易處理,然而對於有著相同背景聲之情況下,
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
表 三-2 真實轉換點之特性統計
Types of true change point[註] Percentage (in numbers) Speech ↔ Speech 20.1%
Speech ↔ Speech+bg 33.9%
Speech+bg ↔ Speech+bg 31.1%
Speech ↔ Music 4.6%
Speech+bg ↔ Music 9.3%
Music ↔ Music 1.0%
[註]
1. X↔Y 表示此轉換點為 X 轉換至 Y 或者是 Y 轉換到 X。
2. Speech 表示純語音片段, Music 表示純音樂之片段,Speech+bg 表示有背景聲之語音片段,
然而背景聲包括音樂、人聲、機器聲及其它等噪音。
3. 廣告片段則屬於Speech+bg。
4. 氣象播報在有前景語音時屬於Speech+bg,在純背景音樂片段時則屬於 Music。
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
3.3.1 不同α值對於系統效能之影響
首先我們評估在(2.16)式中,α=1 與 α=2 對於轉換點之辨識率的影響,
如圖 三-4 所示;在圖中我們可以瞭解雖然對於相異度序列做三角波的迴 旋積分之結果已經相當不錯了,但是若我們設定α 為 2 的話,可以得到小 幅度的效能改善,而這也證明了自然對數裡的比值會對D i′( )造成些微的影 響,因此我們在接下來的所有實驗中,都使用α 為 2 之D i′( )。
圖 三-4 在(2.16)式中不同 α 值對於系統效能之影響
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
陣時使用(2.18)式,其結果如圖 三-5 所示。
圖 三-5 mixture components 共用共變異矩陣之效能改進
3.3.3 不同 mixture 數對於系統效能之影響
直觀而言,對於CCGMM 之 mixture component 數目越多的話,描述 聲音片段中的特徵向量分佈之精確度越高,然而 mixture 數越高會使得估 計參數時之計算複雜度越高,因此如何選擇mixture component 的數目便需 要trade off。我們接下來便評估其影響如圖 三-6所示;從圖中我們觀察到 隨著 mixture 數為 64、128 與 256 時,F-measure 正比於 mixture 數,分別 為 0.813、0.820 及 0.828,但是其數值都在令人滿意的範圍內,這隱含著 我們可以只用較少的mixture 數便可以得到不錯的結果。
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
圖 三-6 不同mixture 數之影響
3.3.4 混合權重近似對於系統效能之影響
再來我們評估混合權重近似對於切割效能的影響,如圖 三-7 所示。
在圖 三-7 之(a)(b)(c)分別為 256、128 及 64 個 mixture component 的 CCGMM 有無做混合權重近似之 ROC 圖,其中此圖為針對標註層所做的轉換點偵 測之結果。從圖 三-7(a)中我們可以明顯地看出,對於 CCGMM 的 mixture component 數目為 256 時,混合權重近似使得 F-measure 由 0.828 下降至 0.820,並沒有造成系統效能明顯地減低;然而在3.3.3 節中我們發現mixture