• 沒有找到結果。

移除與靜音相關之 mixture component

第三章 實驗結果及討論

3.3 實驗參數設定及其結果

3.3.5 移除與靜音相關之 mixture component

在 2.6 節中我們提到了相鄰片段間的靜音不平衡會導致相異度序列

D i( )的升高,造成一些不必要的 FA 產生。我們嘗試解決此現象,因此當 在 計 算 相 異 度 時 , 利 用(2.17) 式來 忽 略 與 靜 音 有 相 關 性 的 mixture component,其結果如圖 三-8 所示。從圖 三-8 中我們可以看出移除靜音 之mixture component 對於轉換點的辨識率並沒有明顯的改進,這可以分為 兩方面解釋:一是靜音不平衡的現象出現頻率雖然不算小,但是常發生在 語者轉換之邊界,因此其影響並無想像中大;另一為我們無法明確地指出 屬 於 靜 音 的 mixture component 為 何 , 因 此 移 除 屬 於 靜 音 的 mixture component 之影響不明顯,然而在本論文中我們移除了 9 個與靜音有相關 性之mixture component。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

3.3.6 標註層與加上聲學背景之標註層之比較

最後來我們分別對於標註層與標註層加上聲學背景層做轉換點偵 測,其結果如圖 三-9 所示;從圖 三-9 中我們可以看出,若考慮背景聲的 情況下,MDR 會上升約 4~5 個百分點,這是相當顯而易見的,因為通常 背景聲音的時間戳記都與標註層的時間戳記一致,只有少數的情況下背景 聲音會突然地消失或加入,而在這種情況下聲音訊號的訊噪比(SNR)大部 分都會相對較低,聲音的轉換不明顯,自然而然地造成了MD 的產生。

圖 三-9 聲學背景層對於 ROC 圖之影響

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

3.3.7 候選轉換點之錯誤分析

為了瞭解在本實驗中FA 發生的主要原因,因此我們對於測試語料之 4 個小時的結果,以人工的方式小心地檢查所有發生 FA 的時間點是否真 有人耳可察覺到的轉換點,並對其做歸類在表 三-3。檢查後我們發現,所 有發生 FA 的時間點都有明顯的聲學特性之轉換,而且我們發現語料中之 廣告片段有著下列問題:

1. 廣告中的音樂特性變化太快,例如常有某一種樂器突然加入,

造成FA 的產生。

2. 在廣告中前景的語音並不是持續出現,這也是造成 FA 產生之原 因。

因為在整個PTSND 新聞語料中,廣告出現了近10%的時間,而在所有發 生的 FA 中,存在於廣告片段的比率近 24%,也就是說在廣告中發生 FA 之可能性相較於其它聲音片段高,影響程度不可不謂重大。此外,除了廣 告對於FAR 的影響外,每天節目中的氣象播報也有一定程度的影響,因為 當氣象主播在播報各地氣象時,背景音樂聲相當明顯,因此我們的相異度 量測公式便會反映出音樂的變化,造成不必要的 FA;幸運的是氣象播報 的背景音樂相對於廣告之背景音樂柔和,變化也沒有那麼大且頻繁,因此 對於FAR 的影響比較輕微。

此外,從表 三-3 中可知,FA 最有可能發生在有背景聲(包括音樂、

人聲及其它),這是由於電視新聞語料不可避免地有外場的採訪,就PTSND

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

表 三-3 FA 之統計特性

Types of speech conditions Percentage of all false alarms Pure speech 9 %

Speech with music/others 40 % weather reports 5 %

advertisements 24 %

Pure music 22 %

至於對於MD 而言,最常發生之情況有下列三種型態:

Type Ⅰ:在發生 MD 附近左右 5 秒間,沒有候選轉換點的出現。

Type Ⅱ:成對或成群的真實轉換點沒有全部被候選轉換點對應到,或 者單獨出現但是左右5 秒間有候選轉換點。

Type Ⅲ:MD 發生在有相同背景音樂的語音片段。

我們把上述情況整理如表 三-4所示;對於Type Ⅱ的 MD 而言,我們已經 偵測出其聲音片段之變化,只是由於標註方法之緣故以致於候選轉換點無 法完全對應至真實轉換點;然而對於Type Ⅲ的 MD 來說,由於其發生在 有著相同背景音樂之聲音片段,而且通常SNR 值都較低,因此很困難來偵 測出真實轉換點。

表 三-4 MD 之統計特性

Types of MD Percentage

Type Ⅰ 54.1%

Type Ⅱ 27.2%

Type Ⅲ 18.7%

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

3.4 利用合併的方式實現語者轉換偵測

一旦偵測出標註層之候選轉換點,許多人都是利用合併(merging)的方 式來決定出語者轉換點,接下來我們採用合併的方式來決定出語者轉換 點,並且與基於臨界值之語者轉換偵測之結果做比較。

首先我們列出合併的規則如下:

1. 對於所有的標註層之候選轉換點依照其時間順序依序測試是否可 以合併。

2. 若在第 i 個候選轉換點左右兩個聲音片段的相異度大於某個臨界 值TH2 的話,此兩個聲音片段片段即可以合併成一個。

3. 一旦某個候選轉換點左右兩個聲音片段可以合併的話,其它的聲 音片段便不可以與此兩個聲音片段合併。

4. 執行上述兩個步驟直到沒有相鄰的兩個聲音片段可以再合併。

為了更明白地解釋我們的作法,我們以圖 三-10 來說明我們整個合併 的過程。首先我們使用 3.3 節所切割出來的結果,得到了標註層之候選轉 換點(i.e.圖 三-10 中 peak picking 的輸出),之後我們依照時間順序選擇某 一候選轉換點之左右聲音片段(從現在之候選轉換點至下一個及前一個候 選轉換點)做相異度量測,以 TH2 來決定此兩段聲音是否可以合併,直到 所有的候選轉換點皆不可以再合併了。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

圖 三-10 加入合併過程之系統流程圖

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

以圖 三-10為例,在第一階段(1st phase)的合併過程中,依序測試每 個候選轉換點是否可以合併,也就是測試 是否大於 TH2,

圖中的第1、2、5 個候選轉換點皆不可合併,而第 3 個候選轉換點可以合 併,因此在第二回合中第一階段中的[t2,t3]、[t3,t4]這個兩個聲音片段便合 併為一個聲音片段,然而因為第一階段中[t3,t4]的聲音片段已經合併了,

所以在第4 個候選轉換點時便不做合併的測試。

([ , ],[ ,i 1 i i i ]) D t t t t+1

圖 三-11 標註層的候選轉換點合併之示意圖

從圖 三-10中我們可以看到混合權重近似的好處,因為在合併的過程 中,相鄰兩個分析音框的長度不再固定為3 秒,而是依照標註層之相鄰候 選轉換點之時間長度,這使得在合併的每階段中我們使用混合權重近似,

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

在圖 三-12 中,我們比較兩種不同方法做語者轉換偵測,一是單純利 用threshold-based decision rule 來決定候選轉換點,如圖2-6所示;另一為 如圖 三-10 中使用合併方法來合併出語者片段。從圖 三-12 我們可以看出 兩者的最佳操作點之效能差不多,這也隱含了當我們要做語者轉換偵測 時,只要單純地加大臨界值便可以決定出不錯的候選轉換點,而不需要傳 統語者轉換偵測所常用的合併步驟。

圖 三-12 語者轉換之 ROC 圖

上圖之結果乍看之下有點令人疑惑,因為合併步驟中的相異度量測我 們分析音框的長度不再是固定3 秒,是以相鄰候選轉換點間的聲音片段來 做相異度量測,因此應該可以得到較佳的辨認率,但是結果卻並非如此,

主要可以由下列之觀點來解釋:

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

假設兩組待量測之資料X = x x

{

1, ,...,2 xn

}

Y = y y

{

1, ,...,2 yn

}

,根據相異 度量測之特性【14】

{ } { }

(

1 2 1 2

)

1

, ,..., , , ,..., 1 ( , )

where the equality holds , are i.i.d.

n

n n

i

i i

D D

n =

x x x y y y x yi i

x y

(3.5)

我們可以發現使用較多的特徵向量來描述一個聲音片段來求取其聲音的 轉換點並不會得到任何的好處,但是其效能也不會變差很多。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

也就是說當 deltaBIC 值為正時,此聲音片段之特徵向量的分佈傾向於兩個 不同的高斯分佈,亦即在此聲音片段有聲音轉換的發生;反之,若 deltaBIC 值為負值,此聲音片段便傾向於不存在轉換點。因此我們把(3.7)式之假設 與(3.6)式之定義代入(3.8)式中,我們可以得到下列結果【8】【10】:

log log log

2 2 2

( 1)

log( )

2 2

L R

L R

N N

deltaBIC N

D D D N

= Σ − Σ − λ⎛ + ⎞

− ⎜⎝ + ⎟⎠×

Σ

(3.9)

其中D為特徵向量之維度;藉由 deltaBIC 曲線,如圖 三-13 所示,我們可 以瞭解聲音串流是否可能存在轉換點,進而達成轉換點偵測之目的;在本 論文中我們設定penalty weight λ為2.5。

deltaBIC(i)

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

最後我們列出候選轉換點之detection rule 如下:

BIC( ) BIC( ), 1 ~ 5 BIC( ) 0

delta i delta i j j delta i

> ± =

> (3.10) 在加入上式之detection rule 後,便可以計算出其 MDR 及 FAR 在標註層之 轉換點偵測分別為24.3%與18.5%。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

3.6 與基於 BIC 相異度量測之轉換點偵測的結

果比較

在【2】中,中研院王新民教授建構了一套 broadcast news retrieval system,SoVideo,其中他們利用 deltaBIC 相異度量測方法,來實現故事轉 換、語者轉換和標註層轉換的聲音切割;因為我們與王新民教授之實驗結 果與我們之實驗都是針對 PTSND 作聲音轉換切割,所以我們可以拿其結 果來作為我們新提出的相異度量測方法之對照組,其結果摘要如表 三-5;

此外我們也利用前一節所提出的方法,對於 PTSND 電視新聞語料庫做了 相同的轉換點偵測,其結果也表列於表 三-5 中。

在表 三-5 中,第一欄為本論文提出之基於 CCGMM 相異度量測的結 果,第二欄為中研院王新民教授使用 deltaBIC 相異度量測方法對於同一電 視新聞語料庫所做出的結果【2】,第三欄為我們使用前一節所提到之 deltaBIC 相異度量測之結果,其中第二、三欄的差別在於因為我們對於廣 告及氣象片段之起迄時間標註做了些修正,因此為了公平起見我們重新評 估基於BIC 相異度量測之辨識率;我們可以看出無論是標註層抑或語者轉 換層的切割結果,我們提出的方法都相對較好,對於標註層轉換偵測,在 大約相同的FAR 下【2】中的 MDR 之結果有了近 30%的錯誤下降率,想 當然爾F-measure 也都比【2】之結果高;比較第一、三欄,本論文提出的 方法不管是FAR 及 MDR 在最佳操作點,其平均錯誤下降率分別約為12%

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

表 三-5 與 deltaBIC 相異度量測之比較 Method

Test condition

CCGMM-based

F-measure 0.822 0.783 0.785 MDR 24.1 % 32.30 % 29.3%

FAR 14.6 % 14.49 % 17.1%

Both transcription -level and background

F-measure 0.804 0.756 0.763 MDR 17.9 % 22.33 % X

FAR 26.0 % 40.17 % X Speaker turn level

F-measure 0.778 0.676 X

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

第四章 結論與未來展望

4.1 結論

在本論文中,我們使用了基於 CCGMM 相異度量測方法來做語者及環 境狀況轉換之偵測,並且與基於 BIC 之相異度量測方法比較其轉換點辨認 率,其結果分列如下:

1. 本論文提出之相異度量測方法對於標註層之轉換點偵測可以得到令人 滿意的結果,其 MDR 為 19.6%,FAR 為 14.6%,而 F1-measure 高達 0.828,相較於傳統的基於 BIC 之相異度量測方法有著更好的辨識率。

2. 因為我們利用 GMM 來描述聲音片段之統計特性,而共用 mixture component 來大幅減少其計算量,因此在不增加太多的計算量下,基 於 CCGMM 之相異度量測有顯著的效能增加。

3. 對於語者轉換偵測而言,利用本論文所提出的相異度量測方法可以單

3. 對於語者轉換偵測而言,利用本論文所提出的相異度量測方法可以單

相關文件