• 沒有找到結果。

1. 緒論

1.4. 語者確認文獻回顧

„ 傳統的語者確認方法(Conventional Speaker Verification)

Parameters of Speaker Verification

UBM Client

Imposter

System Cohort

Parameters

圖表 1 語者確認上之參數蒐集分類

Client: 當事人,語者確認時被假設的對象

UBM: universal background model or world model,對照模型;所有非當事人的語 料所構成的聯合模型

Imposter: 偽裝者,在 UBM 的集合中,偽裝成 client 時容易通過受測的個體所成 的集合

Cohort: 同隊集合,假定語料庫中所有的 client model 都已經完成。此時想要檢測

其中的某ㄧ個client 時,以該 client 為基準,以統計方法度量尋找 imposter 中的 所有模型參數值,以參數值最接近者,分項組合出最近似受測client 的模型,作 為對照模型。或者也可以選擇在UBM 集合中,所得到的測試分數前 Top N 所對 應的imposters 作為選擇組成 cohort set 的標準。

System parameters:常用的系統參數

錯誤率:主要包含兩個部份,錯誤發報(false alarm,FA)和失誤(false rejection,FR)。

門檻值(threshold):用來判定輸入與料是否隸屬於假設中的當事人(client)的標準 值。常用的兩種門檻值:

EER(equal error rate):使得 false alarm 等於 false rejection 的門檻值。

HER(half error rate):新的門檻值選取是根據前次的錯誤率一半的效用來決定。

HER=1/2(FA+FR)。

Detection Cost Function (DCF)Î偵測成本函數,用來反映整個語者確認系統的好 壞程度。

( | ) ( |

FR client FA imposter )

DCF = CPP FR client + CPP FA imposter

following the NIST recommendation

根據語料內容,一般將語音轉化成MFCC(Mel scale frequency cestral coefficient ) 特徵參數,經過向量量化(vector quantization)以及分群(clustering)演算。最後再使 用混合高斯模型GMM (Gaussian mixture model),建立語者(client)的模型以及背 景(UBM, universal background model)。以下假設有 M 位 speaker 欲進行 speaker verification。則實際上的執行步驟如下:

使用EM(Expectation maximization)演算法,對每一位 client 求算 GMM 參數Î所 以每一位client 的 PDF(probability distribution function)都可以使用混合高斯進行 展開。

ˆ ( )ˆ

( ) : of client : mixture weight

: vector

: covariance matrix

: j-th input frame of feature vector :mixture index

Σ

針對當事人以外的所有受測試語者訓練背景模型 universal background

model(UBM)參數。通常最簡單的方式是將這些非當事人的 client model 進行平 均。

( ratio ) ( ) ( | ) ˆ

( | ) ˆ (client)

:

⇒ =

Ω Ω

p x s likelihood LR x

p x

decide s if LR x

„ 相似度分數標準化(Likelihood Score Normalization)

上一節所描述的是單一frame 作為輸入的過程,但實際上這樣的決策風險過高,

Sequence Decision

is feature vector(MFCC)

( ) log(P ( ˆ )) log(P ( )) decide client

decide imposter ( ( )) log ,

式子(1.9)是一般在進行speaker verification的判別式子,但是一般因為語者確 認在應用上的區別,我們會將(1.8)進行所謂的score normalization藉以獲得更好的

辨識結果。一般語者確認常用的score normalization分別有T norm和Z norm兩種R.

Auckenthaler et. all.[1], C. Barras and J.-L. Gauvain[2]:

„ 針對偽裝者模型之分數標準化(Score

Normalization of Imposters of UBM or Cohort Set)

最基本的分數計算可以使用UBM 標準化分數,統計輸入的測試語料在當事 人和偽裝者兩個不同集合的平均分數差距。另外cohort 的分數計算方式也相當近 似,只是cohort set 通常會選取和當事人(client)比較近似的偽裝者(imposter),

其餘剩下的imposters 會被捨去,所以 cohort set 通常是 UBM set 之部分集合。

compensating coefficient for independent assumption

γ : :補償係數

這種T norm的好處是它可以離線單獨先進行運算出平均數和標準差。另外一 種T norm的寫法是針對輸入的測試訊號進行score normalization 由Mariethoz, J.and Bengio, S. [3]所發表,假設

X

是某ㄧ句測試語料,如果對所有個別的偽

i: index of imposter s:client

of frame

M-1: number of imposter ˆ

[ , , ]

:

j n

X x x x x

j index

=

1

( ) llr M

X

圖表 2 T norm 之構成概念

T norm 的精神是測試語料對於 client 和 imposter 兩個模型所可能產生的分數 進行歸一化的處理。

Z norm(Zero norm):

如果總共有 L 句已知來自於 imposter 的測試語料。

1 2

1

[ X X , , X k , X L ], k = L )

針對偽裝者(imposter)集合所得出的決策分 數

S X s ( k , ˆ

可以視為常態分佈,然後進行歸一化處理即為Z norm。

Client ( ) ( , ) ˆ S T i X s

1

( ) llr X

T norm

2

( )

llr X

1

( )

(normalization)。然後再使用歸一化之後的分數來進行語者確認上的判定工作。

(

Client

1 2

相關文件