語者確認文獻回顧

1. 緒論

1.4. 語者確認文獻回顧

傳統的語者確認方法(Conventional Speaker Verification)

Parameters of Speaker Verification

UBM Client

Imposter

System Cohort

Parameters

圖表 1 語者確認上之參數蒐集分類

Client: 當事人，語者確認時被假設的對象

UBM: universal background model or world model，對照模型；所有非當事人的語料所構成的聯合模型

Imposter: 偽裝者，在 UBM 的集合中，偽裝成 client 時容易通過受測的個體所成的集合

Cohort: 同隊集合，假定語料庫中所有的 client model 都已經完成。此時想要檢測

其中的某ㄧ個client 時，以該 client 為基準，以統計方法度量尋找 imposter 中的所有模型參數值，以參數值最接近者，分項組合出最近似受測client 的模型，作為對照模型。或者也可以選擇在UBM 集合中，所得到的測試分數前 Top N 所對應的imposters 作為選擇組成 cohort set 的標準。

System parameters:常用的系統參數

錯誤率：主要包含兩個部份，錯誤發報(false alarm,FA)和失誤(false rejection,FR)。

門檻值(threshold)：用來判定輸入與料是否隸屬於假設中的當事人(client)的標準值。常用的兩種門檻值：

EER(equal error rate):使得 false alarm 等於 false rejection 的門檻值。

HER(half error rate)：新的門檻值選取是根據前次的錯誤率一半的效用來決定。

HER=1/2(FA+FR)。

Detection Cost Function (DCF)Î偵測成本函數，用來反映整個語者確認系統的好壞程度。

( | ) ( |

FR client FA imposter )

DCF = C ⋅ P ⋅ P FR client + C ⋅ P ⋅ P FA imposter

following the NIST recommendation

根據語料內容，一般將語音轉化成MFCC(Mel scale frequency cestral coefficient ) 特徵參數，經過向量量化(vector quantization)以及分群(clustering)演算。最後再使用混合高斯模型GMM (Gaussian mixture model)，建立語者(client)的模型以及背景(UBM, universal background model)。以下假設有 M 位 speaker 欲進行 speaker verification。則實際上的執行步驟如下：

使用EM(Expectation maximization)演算法，對每一位 client 求算 GMM 參數Î所以每一位client 的 PDF(probability distribution function)都可以使用混合高斯進行展開。

ˆ ( )ˆ

( ) : of client : mixture weight

，

: vector

: covariance matrix

: j-th input frame of feature vector :mixture index

Σ

針對當事人以外的所有受測試語者訓練背景模型 universal background

model(UBM)參數。通常最簡單的方式是將這些非當事人的 client model 進行平均。

( ^ratio ) ^{( )} ^{( | )} ^ˆ

( | ) ˆ (client)

:

⇒ =

Ω Ω

p x s likelihood LR x

p x

decide s if LR x

相似度分數標準化(Likelihood Score Normalization)

上一節所描述的是單一frame 作為輸入的過程，但實際上這樣的決策風險過高，

Sequence Decision

is feature vector(MFCC)

( ) log(P ( ˆ )) log(P ( )) decide client

decide imposter ( ( )) log ,

式子(1.9)是一般在進行speaker verification的判別式子，但是一般因為語者確認在應用上的區別，我們會將(1.8)進行所謂的score normalization藉以獲得更好的

辨識結果。一般語者確認常用的score normalization分別有T norm和Z norm兩種R.

Auckenthaler et. all.[¹], C. Barras and J.-L. Gauvain[²]：

針對偽裝者模型之分數標準化（Score

Normalization of Imposters of UBM or Cohort Set）

最基本的分數計算可以使用UBM 標準化分數，統計輸入的測試語料在當事人和偽裝者兩個不同集合的平均分數差距。另外cohort 的分數計算方式也相當近似，只是cohort set 通常會選取和當事人（client）比較近似的偽裝者(imposter)，

其餘剩下的imposters 會被捨去，所以 cohort set 通常是 UBM set 之部分集合。

compensating coefficient for independent assumption

γ : ：補償係數

這種T norm的好處是它可以離線單獨先進行運算出平均數和標準差。另外一種T norm的寫法是針對輸入的測試訊號進行score normalization 由Mariethoz, J.and Bengio, S. [³]所發表，假設

X

是某ㄧ句測試語料，如果對所有個別的偽

i: index of imposter s:client

of frame

M-1: number of imposter ˆ

[ , , ]

:

j n

X x x x x

j index

=

( ) llr M

₋

X

圖表 2 T norm 之構成概念

T norm 的精神是測試語料對於 client 和 imposter 兩個模型所可能產生的分數進行歸一化的處理。

Z norm(Zero norm):

如果總共有 L 句已知來自於 imposter 的測試語料。

1 2

1 [ X X , , X _k , X _L ], k = L )

針對偽裝者(imposter)集合所得出的決策分數

S X s ( _k , ˆ

可以視為常態分佈，然後進行歸一化處理即為Z norm。

Client ( ) ( , ) ˆ S T i X s

( ) llr X

T norm

( )

llr X

( )

(normalization)。然後再使用歸一化之後的分數來進行語者確認上的判定工作。

(

Client

1 2

在文檔中稀少性的輸入資訊下所造成的分佈不匹配問題在語者確認上的可靠度分析 (頁 14-21)