第三章 實驗結果及討論
3.3 實驗參數設定及其結果
3.3.1 不同α值對於系統效能之影響
首先我們評估在(2.16)式中,α=1 與 α=2 對於轉換點之辨識率的影響,
如圖 三-4 所示;在圖中我們可以瞭解雖然對於相異度序列做三角波的迴 旋積分之結果已經相當不錯了,但是若我們設定α 為 2 的話,可以得到小 幅度的效能改善,而這也證明了自然對數裡的比值會對D i′( )造成些微的影 響,因此我們在接下來的所有實驗中,都使用α 為 2 之D i′( )。
圖 三-4 在(2.16)式中不同 α 值對於系統效能之影響
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
陣時使用(2.18)式,其結果如圖 三-5 所示。
圖 三-5 mixture components 共用共變異矩陣之效能改進
3.3.3 不同 mixture 數對於系統效能之影響
直觀而言,對於CCGMM 之 mixture component 數目越多的話,描述 聲音片段中的特徵向量分佈之精確度越高,然而 mixture 數越高會使得估 計參數時之計算複雜度越高,因此如何選擇mixture component 的數目便需 要trade off。我們接下來便評估其影響如圖 三-6所示;從圖中我們觀察到 隨著 mixture 數為 64、128 與 256 時,F-measure 正比於 mixture 數,分別 為 0.813、0.820 及 0.828,但是其數值都在令人滿意的範圍內,這隱含著 我們可以只用較少的mixture 數便可以得到不錯的結果。
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
圖 三-6 不同mixture 數之影響
3.3.4 混合權重近似對於系統效能之影響
再來我們評估混合權重近似對於切割效能的影響,如圖 三-7 所示。
在圖 三-7 之(a)(b)(c)分別為 256、128 及 64 個 mixture component 的 CCGMM 有無做混合權重近似之 ROC 圖,其中此圖為針對標註層所做的轉換點偵 測之結果。從圖 三-7(a)中我們可以明顯地看出,對於 CCGMM 的 mixture component 數目為 256 時,混合權重近似使得 F-measure 由 0.828 下降至 0.820,並沒有造成系統效能明顯地減低;然而在3.3.3 節中我們發現mixture
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
在本論文中,我們先以256-mixture CCGMM 求出所有的 50-frame 權 重向量,再利用(2.15)式近似出 300-frame 權重向量,之後便可以輕易地計 算出相對應之相異度序列。
(a)
圖 三-7 不同 mixture 數對於混合權重近似之影響 (b) (c)
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
3.3.5 移除與靜音相關之 mixture component
在 2.6 節中我們提到了相鄰片段間的靜音不平衡會導致相異度序列
D i( )的升高,造成一些不必要的 FA 產生。我們嘗試解決此現象,因此當 在 計 算 相 異 度 時 , 利 用(2.17) 式來 忽 略 與 靜 音 有 相 關 性 的 mixture component,其結果如圖 三-8 所示。從圖 三-8 中我們可以看出移除靜音 之mixture component 對於轉換點的辨識率並沒有明顯的改進,這可以分為 兩方面解釋:一是靜音不平衡的現象出現頻率雖然不算小,但是常發生在 語者轉換之邊界,因此其影響並無想像中大;另一為我們無法明確地指出 屬 於 靜 音 的 mixture component 為 何 , 因 此 移 除 屬 於 靜 音 的 mixture component 之影響不明顯,然而在本論文中我們移除了 9 個與靜音有相關 性之mixture component。
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
3.3.6 標註層與加上聲學背景之標註層之比較
最後來我們分別對於標註層與標註層加上聲學背景層做轉換點偵 測,其結果如圖 三-9 所示;從圖 三-9 中我們可以看出,若考慮背景聲的 情況下,MDR 會上升約 4~5 個百分點,這是相當顯而易見的,因為通常 背景聲音的時間戳記都與標註層的時間戳記一致,只有少數的情況下背景 聲音會突然地消失或加入,而在這種情況下聲音訊號的訊噪比(SNR)大部 分都會相對較低,聲音的轉換不明顯,自然而然地造成了MD 的產生。
圖 三-9 聲學背景層對於 ROC 圖之影響
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
3.3.7 候選轉換點之錯誤分析
為了瞭解在本實驗中FA 發生的主要原因,因此我們對於測試語料之 4 個小時的結果,以人工的方式小心地檢查所有發生 FA 的時間點是否真 有人耳可察覺到的轉換點,並對其做歸類在表 三-3。檢查後我們發現,所 有發生 FA 的時間點都有明顯的聲學特性之轉換,而且我們發現語料中之 廣告片段有著下列問題:
1. 廣告中的音樂特性變化太快,例如常有某一種樂器突然加入,
造成FA 的產生。
2. 在廣告中前景的語音並不是持續出現,這也是造成 FA 產生之原 因。
因為在整個PTSND 新聞語料中,廣告出現了近10%的時間,而在所有發 生的 FA 中,存在於廣告片段的比率近 24%,也就是說在廣告中發生 FA 之可能性相較於其它聲音片段高,影響程度不可不謂重大。此外,除了廣 告對於FAR 的影響外,每天節目中的氣象播報也有一定程度的影響,因為 當氣象主播在播報各地氣象時,背景音樂聲相當明顯,因此我們的相異度 量測公式便會反映出音樂的變化,造成不必要的 FA;幸運的是氣象播報 的背景音樂相對於廣告之背景音樂柔和,變化也沒有那麼大且頻繁,因此 對於FAR 的影響比較輕微。
此外,從表 三-3 中可知,FA 最有可能發生在有背景聲(包括音樂、
人聲及其它),這是由於電視新聞語料不可避免地有外場的採訪,就PTSND
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
表 三-3 FA 之統計特性
Types of speech conditions Percentage of all false alarms Pure speech 9 %
Speech with music/others 40 % weather reports 5 %
advertisements 24 %
Pure music 22 %
至於對於MD 而言,最常發生之情況有下列三種型態:
Type Ⅰ:在發生 MD 附近左右 5 秒間,沒有候選轉換點的出現。
Type Ⅱ:成對或成群的真實轉換點沒有全部被候選轉換點對應到,或 者單獨出現但是左右5 秒間有候選轉換點。
Type Ⅲ:MD 發生在有相同背景音樂的語音片段。
我們把上述情況整理如表 三-4所示;對於Type Ⅱ的 MD 而言,我們已經 偵測出其聲音片段之變化,只是由於標註方法之緣故以致於候選轉換點無 法完全對應至真實轉換點;然而對於Type Ⅲ的 MD 來說,由於其發生在 有著相同背景音樂之聲音片段,而且通常SNR 值都較低,因此很困難來偵 測出真實轉換點。
表 三-4 MD 之統計特性
Types of MD Percentage
Type Ⅰ 54.1%
Type Ⅱ 27.2%
Type Ⅲ 18.7%
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
3.4 利用合併的方式實現語者轉換偵測
一旦偵測出標註層之候選轉換點,許多人都是利用合併(merging)的方 式來決定出語者轉換點,接下來我們採用合併的方式來決定出語者轉換 點,並且與基於臨界值之語者轉換偵測之結果做比較。
首先我們列出合併的規則如下:
1. 對於所有的標註層之候選轉換點依照其時間順序依序測試是否可 以合併。
2. 若在第 i 個候選轉換點左右兩個聲音片段的相異度大於某個臨界 值TH2 的話,此兩個聲音片段片段即可以合併成一個。
3. 一旦某個候選轉換點左右兩個聲音片段可以合併的話,其它的聲 音片段便不可以與此兩個聲音片段合併。
4. 執行上述兩個步驟直到沒有相鄰的兩個聲音片段可以再合併。
為了更明白地解釋我們的作法,我們以圖 三-10 來說明我們整個合併 的過程。首先我們使用 3.3 節所切割出來的結果,得到了標註層之候選轉 換點(i.e.圖 三-10 中 peak picking 的輸出),之後我們依照時間順序選擇某 一候選轉換點之左右聲音片段(從現在之候選轉換點至下一個及前一個候 選轉換點)做相異度量測,以 TH2 來決定此兩段聲音是否可以合併,直到 所有的候選轉換點皆不可以再合併了。
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
圖 三-10 加入合併過程之系統流程圖
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
以圖 三-10為例,在第一階段(1st phase)的合併過程中,依序測試每 個候選轉換點是否可以合併,也就是測試 是否大於 TH2,
圖中的第1、2、5 個候選轉換點皆不可合併,而第 3 個候選轉換點可以合 併,因此在第二回合中第一階段中的[t2,t3]、[t3,t4]這個兩個聲音片段便合 併為一個聲音片段,然而因為第一階段中[t3,t4]的聲音片段已經合併了,
所以在第4 個候選轉換點時便不做合併的測試。
([ , ],[ ,i 1 i i i ]) D t− t t t+1
圖 三-11 標註層的候選轉換點合併之示意圖
從圖 三-10中我們可以看到混合權重近似的好處,因為在合併的過程 中,相鄰兩個分析音框的長度不再固定為3 秒,而是依照標註層之相鄰候 選轉換點之時間長度,這使得在合併的每階段中我們使用混合權重近似,
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
在圖 三-12 中,我們比較兩種不同方法做語者轉換偵測,一是單純利 用threshold-based decision rule 來決定候選轉換點,如圖2-6所示;另一為 如圖 三-10 中使用合併方法來合併出語者片段。從圖 三-12 我們可以看出 兩者的最佳操作點之效能差不多,這也隱含了當我們要做語者轉換偵測 時,只要單純地加大臨界值便可以決定出不錯的候選轉換點,而不需要傳 統語者轉換偵測所常用的合併步驟。
圖 三-12 語者轉換之 ROC 圖
上圖之結果乍看之下有點令人疑惑,因為合併步驟中的相異度量測我 們分析音框的長度不再是固定3 秒,是以相鄰候選轉換點間的聲音片段來 做相異度量測,因此應該可以得到較佳的辨認率,但是結果卻並非如此,
主要可以由下列之觀點來解釋:
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
假設兩組待量測之資料X = x x
{
1, ,...,2 xn}
及Y = y y{
1, ,...,2 yn}
,根據相異 度量測之特性【14】{ } { }
(
1 2 1 2)
1
, ,..., , , ,..., 1 ( , )
where the equality holds , are i.i.d.
n
n n
i
i i
D D
n =
≤
∑
x x x y y y x yi i
x y
(3.5)
我們可以發現使用較多的特徵向量來描述一個聲音片段來求取其聲音的 轉換點並不會得到任何的好處,但是其效能也不會變差很多。
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
也就是說當 deltaBIC 值為正時,此聲音片段之特徵向量的分佈傾向於兩個 不同的高斯分佈,亦即在此聲音片段有聲音轉換的發生;反之,若 deltaBIC 值為負值,此聲音片段便傾向於不存在轉換點。因此我們把(3.7)式之假設 與(3.6)式之定義代入(3.8)式中,我們可以得到下列結果【8】【10】:
log log log
2 2 2
( 1)
log( )
2 2
L R
L R
N N
deltaBIC N
D D D N
= Σ − Σ − λ⎛ + ⎞
− ⎜⎝ + ⎟⎠×
Σ
(3.9)
其中D為特徵向量之維度;藉由 deltaBIC 曲線,如圖 三-13 所示,我們可 以瞭解聲音串流是否可能存在轉換點,進而達成轉換點偵測之目的;在本 論文中我們設定penalty weight λ為2.5。
deltaBIC(i)
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
中華民國九十三年六月
最後我們列出候選轉換點之detection rule 如下:
BIC( ) BIC( ), 1 ~ 5 BIC( ) 0
delta i delta i j j delta i
> ± =
> (3.10) 在加入上式之detection rule 後,便可以計算出其 MDR 及 FAR 在標註層之 轉換點偵測分別為24.3%與18.5%。
國 立 交 通 大 學
電信工程學系碩士班 碩士論文
對於公共電視新聞語料之語者與環境轉換 偵測
Speaker and environment change detection in PTSND broadcasting news
研究生:黃祺翰
指導教授:王逸如 博士
3.6 與基於 BIC 相異度量測之轉換點偵測的結
果比較
在【2】中,中研院王新民教授建構了一套 broadcast news retrieval system,SoVideo,其中他們利用 deltaBIC 相異度量測方法,來實現故事轉 換、語者轉換和標註層轉換的聲音切割;因為我們與王新民教授之實驗結 果與我們之實驗都是針對 PTSND 作聲音轉換切割,所以我們可以拿其結 果來作為我們新提出的相異度量測方法之對照組,其結果摘要如表 三-5;
此外我們也利用前一節所提出的方法,對於 PTSND 電視新聞語料庫做了
此外我們也利用前一節所提出的方法,對於 PTSND 電視新聞語料庫做了