• 沒有找到結果。

利用合併的方式實現語者轉換偵測

第三章 實驗結果及討論

3.4 利用合併的方式實現語者轉換偵測

一旦偵測出標註層之候選轉換點,許多人都是利用合併(merging)的方 式來決定出語者轉換點,接下來我們採用合併的方式來決定出語者轉換 點,並且與基於臨界值之語者轉換偵測之結果做比較。

首先我們列出合併的規則如下:

1. 對於所有的標註層之候選轉換點依照其時間順序依序測試是否可 以合併。

2. 若在第 i 個候選轉換點左右兩個聲音片段的相異度大於某個臨界 值TH2 的話,此兩個聲音片段片段即可以合併成一個。

3. 一旦某個候選轉換點左右兩個聲音片段可以合併的話,其它的聲 音片段便不可以與此兩個聲音片段合併。

4. 執行上述兩個步驟直到沒有相鄰的兩個聲音片段可以再合併。

為了更明白地解釋我們的作法,我們以圖 三-10 來說明我們整個合併 的過程。首先我們使用 3.3 節所切割出來的結果,得到了標註層之候選轉 換點(i.e.圖 三-10 中 peak picking 的輸出),之後我們依照時間順序選擇某 一候選轉換點之左右聲音片段(從現在之候選轉換點至下一個及前一個候 選轉換點)做相異度量測,以 TH2 來決定此兩段聲音是否可以合併,直到 所有的候選轉換點皆不可以再合併了。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

圖 三-10 加入合併過程之系統流程圖

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

以圖 三-10為例,在第一階段(1st phase)的合併過程中,依序測試每 個候選轉換點是否可以合併,也就是測試 是否大於 TH2,

圖中的第1、2、5 個候選轉換點皆不可合併,而第 3 個候選轉換點可以合 併,因此在第二回合中第一階段中的[t2,t3]、[t3,t4]這個兩個聲音片段便合 併為一個聲音片段,然而因為第一階段中[t3,t4]的聲音片段已經合併了,

所以在第4 個候選轉換點時便不做合併的測試。

([ , ],[ ,i 1 i i i ]) D t t t t+1

圖 三-11 標註層的候選轉換點合併之示意圖

從圖 三-10中我們可以看到混合權重近似的好處,因為在合併的過程 中,相鄰兩個分析音框的長度不再固定為3 秒,而是依照標註層之相鄰候 選轉換點之時間長度,這使得在合併的每階段中我們使用混合權重近似,

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

在圖 三-12 中,我們比較兩種不同方法做語者轉換偵測,一是單純利 用threshold-based decision rule 來決定候選轉換點,如圖2-6所示;另一為 如圖 三-10 中使用合併方法來合併出語者片段。從圖 三-12 我們可以看出 兩者的最佳操作點之效能差不多,這也隱含了當我們要做語者轉換偵測 時,只要單純地加大臨界值便可以決定出不錯的候選轉換點,而不需要傳 統語者轉換偵測所常用的合併步驟。

圖 三-12 語者轉換之 ROC 圖

上圖之結果乍看之下有點令人疑惑,因為合併步驟中的相異度量測我 們分析音框的長度不再是固定3 秒,是以相鄰候選轉換點間的聲音片段來 做相異度量測,因此應該可以得到較佳的辨認率,但是結果卻並非如此,

主要可以由下列之觀點來解釋:

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

假設兩組待量測之資料X = x x

{

1, ,...,2 xn

}

Y = y y

{

1, ,...,2 yn

}

,根據相異 度量測之特性【14】

{ } { }

(

1 2 1 2

)

1

, ,..., , , ,..., 1 ( , )

where the equality holds , are i.i.d.

n

n n

i

i i

D D

n =

x x x y y y x yi i

x y

(3.5)

我們可以發現使用較多的特徵向量來描述一個聲音片段來求取其聲音的 轉換點並不會得到任何的好處,但是其效能也不會變差很多。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

也就是說當 deltaBIC 值為正時,此聲音片段之特徵向量的分佈傾向於兩個 不同的高斯分佈,亦即在此聲音片段有聲音轉換的發生;反之,若 deltaBIC 值為負值,此聲音片段便傾向於不存在轉換點。因此我們把(3.7)式之假設 與(3.6)式之定義代入(3.8)式中,我們可以得到下列結果【8】【10】:

log log log

2 2 2

( 1)

log( )

2 2

L R

L R

N N

deltaBIC N

D D D N

= Σ − Σ − λ⎛ + ⎞

− ⎜⎝ + ⎟⎠×

Σ

(3.9)

其中D為特徵向量之維度;藉由 deltaBIC 曲線,如圖 三-13 所示,我們可 以瞭解聲音串流是否可能存在轉換點,進而達成轉換點偵測之目的;在本 論文中我們設定penalty weight λ為2.5。

deltaBIC(i)

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

最後我們列出候選轉換點之detection rule 如下:

BIC( ) BIC( ), 1 ~ 5 BIC( ) 0

delta i delta i j j delta i

> ± =

> (3.10) 在加入上式之detection rule 後,便可以計算出其 MDR 及 FAR 在標註層之 轉換點偵測分別為24.3%與18.5%。

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

3.6 與基於 BIC 相異度量測之轉換點偵測的結

果比較

在【2】中,中研院王新民教授建構了一套 broadcast news retrieval system,SoVideo,其中他們利用 deltaBIC 相異度量測方法,來實現故事轉 換、語者轉換和標註層轉換的聲音切割;因為我們與王新民教授之實驗結 果與我們之實驗都是針對 PTSND 作聲音轉換切割,所以我們可以拿其結 果來作為我們新提出的相異度量測方法之對照組,其結果摘要如表 三-5;

此外我們也利用前一節所提出的方法,對於 PTSND 電視新聞語料庫做了 相同的轉換點偵測,其結果也表列於表 三-5 中。

在表 三-5 中,第一欄為本論文提出之基於 CCGMM 相異度量測的結 果,第二欄為中研院王新民教授使用 deltaBIC 相異度量測方法對於同一電 視新聞語料庫所做出的結果【2】,第三欄為我們使用前一節所提到之 deltaBIC 相異度量測之結果,其中第二、三欄的差別在於因為我們對於廣 告及氣象片段之起迄時間標註做了些修正,因此為了公平起見我們重新評 估基於BIC 相異度量測之辨識率;我們可以看出無論是標註層抑或語者轉 換層的切割結果,我們提出的方法都相對較好,對於標註層轉換偵測,在 大約相同的FAR 下【2】中的 MDR 之結果有了近 30%的錯誤下降率,想 當然爾F-measure 也都比【2】之結果高;比較第一、三欄,本論文提出的 方法不管是FAR 及 MDR 在最佳操作點,其平均錯誤下降率分別約為12%

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

中華民國九十三年六月

表 三-5 與 deltaBIC 相異度量測之比較 Method

Test condition

CCGMM-based

F-measure 0.822 0.783 0.785 MDR 24.1 % 32.30 % 29.3%

FAR 14.6 % 14.49 % 17.1%

Both transcription -level and background

F-measure 0.804 0.756 0.763 MDR 17.9 % 22.33 % X

FAR 26.0 % 40.17 % X Speaker turn level

F-measure 0.778 0.676 X

國 立 交 通 大 學

電信工程學系碩士班 碩士論文

對於公共電視新聞語料之語者與環境轉換 偵測

Speaker and environment change detection in PTSND broadcasting news

研究生:黃祺翰

指導教授:王逸如 博士

相關文件