1. 緒論
1.4. 語者確認文獻回顧
傳統的語者確認方法(Conventional Speaker Verification)
Parameters of Speaker Verification
UBM Client
Imposter
System Cohort
Parameters
圖表 1 語者確認上之參數蒐集分類
Client: 當事人,語者確認時被假設的對象
UBM: universal background model or world model,對照模型;所有非當事人的語 料所構成的聯合模型
Imposter: 偽裝者,在 UBM 的集合中,偽裝成 client 時容易通過受測的個體所成 的集合
Cohort: 同隊集合,假定語料庫中所有的 client model 都已經完成。此時想要檢測
其中的某ㄧ個client 時,以該 client 為基準,以統計方法度量尋找 imposter 中的 所有模型參數值,以參數值最接近者,分項組合出最近似受測client 的模型,作 為對照模型。或者也可以選擇在UBM 集合中,所得到的測試分數前 Top N 所對 應的imposters 作為選擇組成 cohort set 的標準。
System parameters:常用的系統參數
錯誤率:主要包含兩個部份,錯誤發報(false alarm,FA)和失誤(false rejection,FR)。
門檻值(threshold):用來判定輸入與料是否隸屬於假設中的當事人(client)的標準 值。常用的兩種門檻值:
EER(equal error rate):使得 false alarm 等於 false rejection 的門檻值。
HER(half error rate):新的門檻值選取是根據前次的錯誤率一半的效用來決定。
HER=1/2(FA+FR)。
Detection Cost Function (DCF)Î偵測成本函數,用來反映整個語者確認系統的好 壞程度。
( | ) ( |
FR client FA imposter )
DCF = C ⋅ P ⋅ P FR client + C ⋅ P ⋅ P FA imposter
following the NIST recommendation
根據語料內容,一般將語音轉化成MFCC(Mel scale frequency cestral coefficient ) 特徵參數,經過向量量化(vector quantization)以及分群(clustering)演算。最後再使 用混合高斯模型GMM (Gaussian mixture model),建立語者(client)的模型以及背 景(UBM, universal background model)。以下假設有 M 位 speaker 欲進行 speaker verification。則實際上的執行步驟如下:
使用EM(Expectation maximization)演算法,對每一位 client 求算 GMM 參數Î所 以每一位client 的 PDF(probability distribution function)都可以使用混合高斯進行 展開。
ˆ ( )ˆ
( ) : of client : mixture weight
,
: vector
: covariance matrix
: j-th input frame of feature vector :mixture index
Σ
針對當事人以外的所有受測試語者訓練背景模型 universal background
model(UBM)參數。通常最簡單的方式是將這些非當事人的 client model 進行平 均。
( ratio ) ( ) ( | ) ˆ
( | ) ˆ (client)
:
⇒ =
Ω Ω
p x s likelihood LR x
p x
decide s if LR x
相似度分數標準化(Likelihood Score Normalization)
上一節所描述的是單一frame 作為輸入的過程,但實際上這樣的決策風險過高,
Sequence Decision
is feature vector(MFCC)
( ) log(P ( ˆ )) log(P ( )) decide client
decide imposter ( ( )) log ,
式子(1.9)是一般在進行speaker verification的判別式子,但是一般因為語者確 認在應用上的區別,我們會將(1.8)進行所謂的score normalization藉以獲得更好的
辨識結果。一般語者確認常用的score normalization分別有T norm和Z norm兩種R.
Auckenthaler et. all.[1], C. Barras and J.-L. Gauvain[2]:
針對偽裝者模型之分數標準化(Score
Normalization of Imposters of UBM or Cohort Set)
最基本的分數計算可以使用UBM 標準化分數,統計輸入的測試語料在當事 人和偽裝者兩個不同集合的平均分數差距。另外cohort 的分數計算方式也相當近 似,只是cohort set 通常會選取和當事人(client)比較近似的偽裝者(imposter),
其餘剩下的imposters 會被捨去,所以 cohort set 通常是 UBM set 之部分集合。
compensating coefficient for independent assumption
γ : :補償係數
這種T norm的好處是它可以離線單獨先進行運算出平均數和標準差。另外一 種T norm的寫法是針對輸入的測試訊號進行score normalization 由Mariethoz, J.and Bengio, S. [3]所發表,假設
X
是某ㄧ句測試語料,如果對所有個別的偽i: index of imposter s:client
of frame
M-1: number of imposter ˆ
[ , , ]
:
j n
X x x x x
j index
=
1
( ) llr M
−X
圖表 2 T norm 之構成概念
T norm 的精神是測試語料對於 client 和 imposter 兩個模型所可能產生的分數 進行歸一化的處理。
Z norm(Zero norm):
如果總共有 L 句已知來自於 imposter 的測試語料。1 2
1
[ X X , , X k , X L ], k = L )
針對偽裝者(imposter)集合所得出的決策分 數
S X s ( k , ˆ
可以視為常態分佈,然後進行歸一化處理即為Z norm。Client ( ) ( , ) ˆ S T i X s
1
( ) llr X
T norm
2
( )
llr X
1
( )
(normalization)。然後再使用歸一化之後的分數來進行語者確認上的判定工作。