稀少性的輸入資訊下所造成的分佈不匹配問題在語者確認上的可靠度分析

(1)

國立交通大學

電機資訊學院電信學程

碩士論文

題目：稀少性的輸入資訊下所造成的分佈不匹配問題在語者確

認上之可靠度分析

Reliability Analysis Focusing on Sparse Input Data Caused

Distribution Mismatch Problems for Speaker Verification

學生姓名：羅文輝

指導教授：陳信宏博士

(2)

題目：稀少性的輸入資訊下所造成的分佈不匹配問題在語者確認上之

可靠度分析

Reliability Analysis Focusing on Sparse Input Data Caused Distribution

Mismatch Problems for Speaker Verification

研究生：羅文輝

Student：Wen-Hui Lo

指導教授：陳信宏

Advisor：Dr. Sin-Horng Chen

國立交通大學

電機資訊學院電信學程

碩士論文

A Thesis

Submitted to Degree Program of Electrical Engineering and Computer Science

College of Electrical Engineering and Computer Science

National Chiao Tung University

in Partial Fulfillment of the Requirements

for the Degree of

Master of Science

in

Communication Engineering

June 2006

Hsinchu, Taiwan, Republic of China

(3)

稀少性的輸入資訊下所造成的分佈不匹配問題在語者確認上之可靠度分析

研究生：羅文輝

指導教授

：陳信宏教授

國立交通大學電機資訊學院電信學程﹙研究所﹚碩士班

摘

要

在語音辨識的領域上，往往需要使用少量的資料來對模型進行校估藉以使得模型更為強健 (robust)。在語者確認的問題上，時常也需要面對資料量很少的情形之下從事語者模型的訓練或測試的問題。

本研究首先提出稀少性資料(sparse data)的輸入情況下，語者確認(speaker verification) 的問題在混合高斯 GMM (Gaussian mixture model)模型上的度量分數分佈情形會產生和原先假設之間有落差的現象。本研究稱此種現象為「分佈不匹配(distribution mismatch)的問題」。針對此分佈不匹配的問題，本研究首先提出使用截尾分佈機率密度函數(truncated probability distribution function)的概念來近似。最後以此為基礎，使用次序統計(order statistic)量的概念，推導得出一個以圖(graph)為基礎的聯合分佈機率模型；可以同時以機率的形式描述完整機率密度函數和截尾分佈機率密度函數。本研究建立一個以輸入資料，資料之最小值，資料之分佈範圍大小，資料分佈範圍下的累積機率（覆蓋率）及資料長度五個隨機變數的聯合分佈機率密度函數。配合 Gaussian quadrature 積分的取樣概念，得出最少取樣點下最精準的估計公式。最終的目的是希望以較優勢的資訊量補償在傳統的統計推估上，因為資料量稀少所造成的估計標準誤增加的問題。

最後，本研究以語者語句所獲得之相對於 UBM(universal background model)模型規一化平均分數對 EER(equal error rate)進行假設檢定(hypothesis test)；由實驗的結果得知，假設檢定可以有效的減少語者確認時，因為抽樣誤差所造成的誤判。

本研究的另外的主要成果在於確立稀少性的輸入資訊下，如果要出現原先我們所假設的分

佈狀況的可能性將是一個機率的隨機行為；本研究所得出的結論：「當輸入的樣本數量小於 20

的時候，輸入樣本的覆蓋範圍和原來的假設 PDF 之間會互相匹配一致」的假設必須使用機率事件來描述才能完全掌握整體隨機變數的特性，而本研究完成了這個機率事件的描述公式。

(4)

Reliability Analysis Focusing on Sparse Input Data Caused Distribution

Mismatch Problems for Speaker Verification

student：

Wen-Hui Lo

Advisors： Dr. Sin-Horng Chen

Degree Program of Electrical Engineering Computer Science

National Chiao Tung University

ABSTRACT

It is a frequent facing problem for sparse data input to make a robust

model testing with speech recognition. This phenomenon also

encountered in the field of speaker verification with small data enrollment

to do training or testing.

A new approach to sparse data input caused problems named

“distribution mismatch(DM)” was addressed. The core of DM which was

on account of the coverage of the probability distribution function(PDF)

of the input data which are applied to GMM(Gaussian mixture model)

score calculation is not full mapping to the original PDF assumption.

There maybe be some differences between the original assumption PDF

to the new one generated by sparse data input and we suggested to using

the truncated probability distribution function for modeling this situation.

The most important addition to be made to what we have said about

DM is that we have derived a new joint PDF based on graph theory with

order statistic and the new formula would act as the truncated PDF or the

original PDF measured by this joint PDF.

We have succeeded establishing the joint PDF which is compose of five

random variables, including the input data, the minimum order of input

(5)

data, the range of input data, the coverage of input data and the sample

size of input data to estimate with Gaussian quadrature integration.

In the end of experiment, we take a hypothesis test to the equal error

rate(EER) of the average score per frame of per sentence announced by

the speaker normalized to the universal background model(UBM) and the

same score announced by imposter normalize to the UBM model.

There are good evidences to show that hypothesis test could decrease

the error probability for speaker verification. The other finding finished

by this study is that we discover a special fact caused by sparse data

input.

We usually regard the input random variable submitted to a certain

probability distribution function but it is probabilistic to agree with this

assumption when the input sample size is less than 20. Finally, we have

derived the joint probability distribution function about it.

(6)

致謝

感謝口試委員王教授小川和王教授逸如悉心與耐心的指正。也感謝指導教授陳教授信宏的敦敦教誨。我到語音實驗室的時光已經四年，這四年的時間算是無中生有，慢慢累積起對一種完全陌生領域的了解。感謝眾家學弟在資料前處理的協助。感謝葉人鳳和曹志欣兩位先進帶領我入門。也感謝俊良和阿樹把 HTK 研習心得傳授給我。更感謝那位正在從軍報國的 lubo，主動把它的實驗結果都留存給我ㄧ份。因為這些人，使我能夠踩在巨人的肩膀上縮短學習的歷程。寫完了這本碩士論文之後，對古人的思緒與堅持彷彿有了更深一層的體認。陸遊-「山窮水盡疑無路，柳暗花明又一村」，蘇軾-「不識廬山真面目，只緣身在此山中」。事物的外表總是虛幻充滿未知，有時候，如果靜下心來細細品味，其實虛幻也可以慢慢建立起認知的基礎。感謝父親和母親，能夠支持他們的孩子進修第二個碩士學位。如果我能夠有任何一絲的成就，都要感謝父母親日常生活的照顧，還有我那身處在遠方的妻子小蓉，亦感謝她的包容與體諒。羅文輝 July 31, 2006

(7)

目錄

1. 緒論...11 1.1. 研究緣起...11 1.2. 研究動機...11 1.3. 研究方法...11 1.4. 語者確認文獻回顧...13

　傳統的語者確認方法(Conventional Speaker Verification)...13

　決策準則...16

　相似度分數標準化(Likelihood Score Normalization) ...16

　針對偽裝者模型之分數標準化（Score Normalization of Imposters of UBM or Cohort Set）...17

2. 可靠度相關文獻回顧...20 2.1. 以雜訊為影響基礎之可靠度分析...21 2.2. 使用統計觀點來看待語者確認中之分數標準化過程...22 　 Hard Decision ...24 　 Soft Decision...25 2.3. 工業產品之壽命分析(Lifetime Analysis) ...28 2.4. 醫學上之臨床統計應用(Survival Analysis)...30 3. 截尾分佈之介紹...32 4. 截尾分佈之推導...36

4.1. 左截尾常態分佈之最大概度估計(Maximum Likelihood Estimators for Left Truncated Normal Distribution) ...36

4.2. 右截尾常態分佈之最大概度估計(Maximum Likelihood Estimators for Right Truncated Normal Distribution)...41

4.3. 雙截尾常態分佈之最大概度估計(Maximum Likelihood Estimation for Doubly Truncated Normal Distribution)...44

　機率密度函數...45

　最大概度函數...45

5. 模式建立...48

5.1. 模型定義...48

5.2. 覆蓋率之實例解釋...48

5.3. 聯合機率分佈函數(Joint Probability Distribution Function)

p x x

( ,

₁

_:

_n

, ,

r c n

|

)

之模型假設與推導...51

　模式目的...52

(8)

5.4. 覆蓋率之機率密度函數Î

p c n

( | )

之計算...57 5.5. 使用均等分佈U[0,1]下的全距分佈公式作為覆蓋率的機率密度函數 59

ˆr

5.6. 條件機率

p r c n

( | , )

之推導...61 　條件機率計算剖析...63 5.7. 使用聯合機率的角度來思考全距(range)公式...68 　步驟A...70 　解釋

δ

( (

g x

_1:_n

))

的物理意義...73 　建立端點，減少電腦運算時間...80 　留下合乎限制式的根...81 　執行上一節的步驟C...83 5.8. 條件機率

p x

(

_1:_n

| , )

r n

...86 5.9. 組合切片，進行區間估計...90 5.10. 再一次使用gaussian quadrature...91 　 Gauss-Legendre Integration...92 　首先計算出切片的位置...94 6. 實驗設計...98 6.1. 稀少資料的隨機分佈現象...99 6.2. 實驗環境設定...100 6.3. 將自我判讀及偽裝者測試所得之相對分數視為隨機分佈處理...105 6.4. 問題的分析...107 6.5. 實驗Case 1：基本組態實驗性能測試...112

6.6. 實驗Case 2Î將稀少性樣本視為 truncated probability distribution 處理 115 6.7. 使用Hypothesis Test 輔助判別 ...118

　檢定已知的imposter 是否為 client? right-tailed test...118

　檢定已知的client 是否為 imposter? left-tailed test...119

使用Hypothesis Test 輔助之結果 ...119

6.8. 實驗Case 3...120

計算方式：以權重方式相加：...120

7. 結論與未來展望...123

(9)

表目錄

表格 1 以觀察期間進行 AIDS 之研究，單位（年）...31 表格 2 組合法(ensemble)求算條件機率之步驟...68 表格 3 組合法(ensemble)求算條件機率之步驟...70 表格 4 標準常態分佈下，p(r|c=0.95,n=15)之最小 x 左端點求解 ...71 表格 5 組合法(ensemble)求算條件機率之步驟...77 表格 6 使用 Hermite polynomials 求解與直接疊代法之求解比較...81 表格 7 組合法(ensemble)求算條件機率之步驟...83 表格 8 切片組合之影響路徑...91 表格 9 Gauss-Legendre 積分結果分析 ...93 表格 10 覆蓋率>0.85，n=15 時的最佳切片位置 ...95

表格 11Client 對自己的模型 force alignment 的結果...103

表格 12 自我判別分數統計...104

表格 13 基本實驗之結果...114

表格 14 偽裝者對受測者之成功次數統計分佈...114

表格 15 使用假設檢定輔助判別的結果分析...119

(10)

圖目錄

圖表 1 語者確認上之參數蒐集分類...13

圖表 2 T norm 之構成概念...19

圖表 3 Z norm 之架構...20

圖表 4 相似度比值視為相關樣本之抽樣行為...24

圖表 5 difference between normal and student-t distribution...26

圖表 6 Hypothesis test (P value test) ...27

圖表 7 Pareto 的機率密度函數圖形 ...29

圖表 8 設限資料(censored data)機率密度函數和原機率密度函數之間的關係...33

圖表 9 standard normal and its censored CDF ...34

圖表 10 standard normal and its censored PDF...34

圖表 11 左截尾長態分佈之圖示...36

圖表 12 雙截尾常態分佈之最大概度母體平均數推估一...46

圖表 13 雙截尾常態分佈之最大概度母體平均數推估二...47

圖表 14 相同全距之下所得到之不同覆蓋率結果ㄧ...48

圖表 15 相同全距之下所得到之不同覆蓋率結果二...49

圖表 16 Standard normal distribution and its minimum order and maximum order distribution ...49

圖表 17 圖模式(graph model)下的變數關係...51 圖表 18 標準常態分佈和其截尾分佈因為覆蓋率所產生之落差(一） 53 圖表 19 標準常態分佈和其截尾分佈因為覆蓋率所產生之落差(二)....53 圖表 20 覆蓋率的物理意義...57 圖表 21 不同的樣本數量下的覆蓋率(coverage) 機率分布 ...60 圖表 22 覆蓋率公式之測試結果...61

圖表 23 Standard normal distribution and its minimum order and maximum order distribution ...63

圖表 24 x^2+x(y-1)之機率密度函數 ...64 圖表 25 p(x|y)之所有條件機率 p(x|Y=y)圖形 ...64 圖表 26 特殊情形 p(x|y=1.12)之 PDF 圖形 ...65 圖表 27 先固定觀察值之條件機率密度函數求算...66 圖表 28 組合式條件機率之想法...67 圖表 29 覆蓋率對於推估樣本的影響...69 圖表 30 dirac delta 之定義...74 圖表 31 UnitStep(x^2-1)之微分輸出結果 ...74 圖表 32 複合式合成函數在 UnitStep(.)上之結果...75

(11)

圖表 33 常態分佈之累積機率函數使用 Hermite Polynomials 展開 ...79

圖表 34 p(r|c,n)之 PDF,n=15...84

圖表 35 p(r|c,n)之 PDF 單根與多根之比較...85

圖表 36 p(r|c,n)單根與多根之比較...85

圖表 37 Xmin dependent on r and n...87

圖表 38 Gaussian quadrature 積分取樣數量測試一...88 圖表 39 Gaussian quadrature 積分取樣測試二...88 圖表 40 p(r|c,n)之 PDF,n=15...90 圖表 41 n=10, PDF of coverage ...91 圖表 42 Gauss-Legendre 取樣積分的結果 ...93 圖表 43 模型之參數變化...99 圖表 44 以句子為觀察單位，則每位語者的資料量是稀少的...100 圖表 45 語者確認上之參數蒐集分類...101 圖表 46 使用 CDF 來描述與處理語者確認之臨界值選取...105 圖表 47 使用 10 句話的語料進行 EER 策定之結果 ...106 圖表 48 問題分析示意圖...107 圖表 49 稀少性輸入資料所引發的誤差增加問題...108

圖表 50 EER 往左方移動，會導致 false alarm 增加 ...108

圖表 51 EER 往右方移動，會導致決策時的 false rejection 增加 ...109

圖表 52 標準常態分佈下的最大和最小次序統計量分佈...109

圖表 53 64mixtures，speaker verification...113

圖表 54 16mixtures, speaker verification...113

圖表 55 truncated probability distribution function ML test...117

圖表 56 將潛在的高斯成份進行權重值相加...121

(12)

1. 緒論

1.1. 研究緣起

語音辨識(speech recognition)是目前在自動化辨識領域之中最為成熟的一門技術，並且已經進入商品化的階段。在目前的研究項目之中，稀少性資料(sparse data) 的訓練方法是一個熱門的研究領域。我們總是希望以很少的資料得出很好的辨識結果。但是資料量一但減少，很多統計假設都會產生估計偏差，如何減少這些偏差就成為稀少性資料輸入的熱門研究對象。

1.2. 研究動機

在進行語音辨識的起始階段，通常都要進行人機之間的模式校估階段，藉此來使得辨識的精確度更為提高。通常在這個階段，我們希望利用最少的資料得到最迅速又正確的結果。這個動作通常我們稱之為語者調適 (speaker adaptation)。語者調適的前提是我們有足夠的語料訓練基本的辨識模型，然後利用少量的資料得出其他不存在語者的訓練模型。如果資料量真的很稀少，到了某一個臨界值 (threshold)以下時，是否我們原來對於資料的假設依然正確呢？

1.3. 研究方法

本研究之主要目的在於分析稀少性小樣本的抽樣特性。一般而言，當我們的抽樣數量變的稀少時，往往會和我們原來的假設有所偏離。本研究稱這種現象為 Distribution Mismatch(DM)，當 DM 現象開始發生時，如果我們能夠使用數學工具將這種效應清楚地描述出來，則模型與資料之間的一致性將會更好，對於促進辨識結果會更有幫助。

(13)

DM 可能發生的另外一個情形，就是遮蔽性的輸入資料。假設我們在實驗室的錄音行為，有時候為了去除背景的低頻雜音，我們會選擇開始錄音的前一分鐘左右的訊號為背景成分，然後再將錄音訊號減去背景訊號得出真正乾淨的人體發音訊號成分。如果我們使用遮蔽資料的分析方式，直接將低頻部份截除是否仍然可以保持相同辨識率？另外可能產生的疑問？究竟可以截取多少的資料予以忽略呢？另外可能附帶產生的疑問？如果我們本身擁有完整的資料，卻故意將資料予以設限(censored data)，只取其中一部分的資料來進行實驗觀察，在這種設限資料(censored data)的推估下，所可能產稱的最佳利益是為何種？又如何予以應用呢？

(14)

1.4. 語者確認文獻回顧

傳統的語者確認方法(Conventional Speaker

Verification)

Parameters of Speaker Verification

UBM

Client

Imposter

System

Cohort

Parameters

圖表 1 語者確認上之參數蒐集分類 Client: 當事人，語者確認時被假設的對象

UBM: universal background model or world model，對照模型；所有非當事人的語料所構成的聯合模型

Imposter: 偽裝者，在 UBM 的集合中，偽裝成 client 時容易通過受測的個體所成的集合

(15)

其中的某ㄧ個client 時，以該 client 為基準，以統計方法度量尋找 imposter 中的所有模型參數值，以參數值最接近者，分項組合出最近似受測client 的模型，作為對照模型。或者也可以選擇在UBM 集合中，所得到的測試分數前 Top N 所對應的imposters 作為選擇組成 cohort set 的標準。

System parameters:常用的系統參數

錯誤率：主要包含兩個部份，錯誤發報(false alarm,FA)和失誤(false rejection,FR)。門檻值(threshold)：用來判定輸入與料是否隸屬於假設中的當事人(client)的標準值。常用的兩種門檻值：

EER(equal error rate):使得 false alarm 等於 false rejection 的門檻值。

HER(half error rate)：新的門檻值選取是根據前次的錯誤率一半的效用來決定。 HER=1/2(FA+FR)。

Detection Cost Function (DCF)Î偵測成本函數，用來反映整個語者確認系統的好壞程度。

(

|

)

(

|

FR client FA imposter

)

DCF

=

C

⋅

P

⋅

P FR client

+

C

⋅

P

⋅

P FA imposter

(1.1) 常用的典型值： imposter

0.01 and P

0.99

10

1

client FR FA

P

C

=

following the NIST recommendation

根據語料內容，一般將語音轉化成MFCC(Mel scale frequency cestral coefficient ) 特徵參數，經過向量量化(vector quantization)以及分群(clustering)演算。最後再使用混合高斯模型GMM (Gaussian mixture model)，建立語者(client)的模型以及背景(UBM, universal background model)。以下假設有 M 位 speaker 欲進行 speaker verification。則實際上的執行步驟如下：

使用EM(Expectation maximization)演算法，對每一位 client 求算 GMM 參數Î所以每一位client 的 PDF(probability distribution function)都可以使用混合高斯進行展開。 ˆ ˆ ( ) ( ) ( ) ˆ

ˆ

P(

_j

| )

P (

_s _j

)

_ks

( ;

_j _ks

,

ˆ k

x s

⇒

x

=

∑

c

⋅

N x u

Σ

_ks

)

(1.2)

(16)

ˆ ˆ ( )

( ) :

of client

: mixture weight

，

s j s k

P x

PDF

c

每位當事人的機率密度函數

在client上，每個混合高斯成分的權重值

ˆ ( ) ˆ ( )

:

vector

: covariance matrix

:

j-th input frame of feature vector

:mixture index

Σ

，

s k s k j

u

mean

x the

k

client上的混合高斯成份平均向量

client上的混合高斯成份協方差矩陣

第j幅輸入MFCC向量

混合高斯成分計數編號

針對當事人以外的所有受測試語者訓練背景模型 universal background

model(UBM)參數。通常最簡單的方式是將這些非當事人的 client model 進行平均。

1

( ) ( ) ( ) , , ,

(

| )

P (

)

log(

i

( ;

i

,

_, j j i m j i m i m i i m

P x

x

c

N x u

M

Ω Ω Ω

Ω ⇒

=

⋅

Σ

−

∑

i

))

Ω (1.3) ( ) i,m

P ( ) :

c

:

i=1,2 M-1,

Ω Ω_i j

x

背景模型之機率密度函數

第i位偽裝者的第m個混合高斯成分權重值

偽裝者集合中的語者編號

( ) , ( ) , Ω Ω

Σ

i i i m i m j

u

x

第i位偽裝者的第m個混合高斯成分平均向量

第i位偽裝者的第m個混合高斯成分協方差矩陣

第j幅輸入MFCC向量

:

計算概度比值並且進行判斷

1

ˆ ( )ˆ ( )ˆ ( ) ˆ ( ) ( ) ( ) , , , ,

P (

)

(

)

log(

) log(

( ;

,

))

P (

)

log(

i

( ;

i

,

i

)) log

s j s s j k j k j _k s j i m i m i m i i m

x

llr x

c

N x u

x

c

N x u

M

Ω Ω Ω Ω Ω <

⇒

=

⋅

−

⋅

Σ

−

∑

ˆs k

Σ

>

Λ

(1.4)

(17)

(

ratio

)

( )

( | )

ˆ

( | )

ˆ

(client)

:

⇒

=

Ω

p x s

likelihood

LR x

p x

s

x

偽裝者模型

輸入MFCC特徵向量

相似度比

:當事人

模型

:

(1.5)

決策準則

x

ˆ

,

( )

,

decide

s

if LR x

decide

> Λ

∈

⎧

⎨< Λ

⎩

∈ Ω

(1.6)

Λ：自行選定的門檻值

以上(1.2)到(1.6)就是典型的語者確認過程。

相似度分數標準化(Likelihood Score

Normalization)

上一節所描述的是單一frame 作為輸入的過程，但實際上這樣的決策風險過高，並不實用。所以實用上通常是取多個frame 的輸入分數進行平均。首先將GMM 的輸出分數取對數 log(.)運算。GMM 的輸出取 log(.)運算之後將會形成高斯分佈 j

llr(x ) log(

(

_j

)

Define

⇒

=

LR x

(1.7) 多重輸入n frame 下之決策分數為

：

1 2

1

1 Sequence Decision

is feature vector(MFCC)

ˆ

( )

log(P (

))

log(P (

))

[ ,

],

s j j j j j n j

llr X

x

n

X

x x

x

Ω

⇒

=

−

=

∑

(1.8) (1.9)

decide client

decide imposter

( ( )) log ,

if llr X

>

Λ

⎧

⎨

_<

_Λ

⎩

式子(1.9)是一般在進行speaker verification的判別式子，但是一般因為語者確認在應用上的區別，我們會將(1.8)進行所謂的score normalization藉以獲得更好的

(18)

辨識結果。一般語者確認常用的score normalization分別有T norm和Z norm兩種R. Auckenthaler et. all.[1], C. Barras and J.-L. Gauvain[2]：

針對偽裝者模型之分數標準化（Score

Normalization of Imposters of UBM or Cohort

Set）

最基本的分數計算可以使用UBM 標準化分數，統計輸入的測試語料在當事

人和偽裝者兩個不同集合的平均分數差距。另外cohort 的分數計算方式也相當近似，只是cohort set 通常會選取和當事人（client）比較近似的偽裝者(imposter)，其餘剩下的imposters 會被捨去，所以 cohort set 通常是 UBM set 之部分集合。

ˆ

( , )

log(

(

| ))

log(

(

| ))

imposter s j j j j

S

X s

p x s

p

x

n

γ

Ω

=

∑

−

∑

Ω

(1.10)

compensating coefficient for independent assumption

:

γ

：補償係數

ˆ

( , )

imposter

S

X s

：決策分數

γ

稱為補償係數，用來補償因為假設client 和 imposter 兩個集合是完全獨立的兩個集合所產生的誤差。

T norm(Test norm)

:只針對 client 部分的分數進行歸一化的處理。如果將每次的輸入序列訊號

X

在client model 上的平均分數 (Î

log(

_s_ˆ

(

_j

| ))

ˆ

j

p x s

n

γ

_∑

) 視為是一個隨機變數

s X

ˆ ( )

_c ˆ ( ) _ ˆ ( )

ˆ ( )

ˆ

( , )

c c c s T norm s X

s X

u

S

X s

σ

X

−

=

(1.11) ˆ ( )_c s X

u

：

X

對所有的imposter 成員 model 所得出的分數平均值 ˆ ( )_c s X

σ

：

X

對所有的imposter 成員 model 所得出的分數標準差

(19)

這種T norm的好處是它可以離線單獨先進行運算出平均數和標準差。另外一種T norm的寫法是針對輸入的測試訊號進行score normalization 由Mariethoz, J.and Bengio, S. [3_{]所發表，假設}

_X

_{是某ㄧ句測試語料，如果對所有個別的偽} 裝者模型都進行分數計算，然後取得分數歸一化的結果，稱為T norm。 (1.12) ˆ ˆ ˆ ( ) ( ) ( ) ( ) ( ) ( ) , , , ( ) log( s ( ; s , s )) log( i ( ; i , )) i j k j k k i m j i m i k i m llr x ⇒

∑

c ⋅N x u Σ −

∑

c Ω ⋅N x u Ω Σ _, i m Ω 總共有M-1 位 imposter 模型， 1

1

( )ˆ ( )ˆ ( )ˆ ( ) ( ) ( ) , , , ,

( )

log(

( ;

,

)) log(

i

( ;

i

,

i n s s s j j k k k i m i m i m j k i m

llr X

c

N x u

c

N x u

n

Ω Ω Ω =

⇒

⎧

⎫

⎪

_⋅

_Σ

₋

_⋅

_Σ

⎪

⎨

⎬

⎪

⎩

⎭

∑

n

))

i :length of

X

(1.13) ˆ ( , ) _ ( ) ˆ ( , )

ˆ

( , )

ˆ

( , )

i T T norm i T X s

llr X s

u

S

X s

σ

X s

−

=

(1.14) 1 1 1 2 1

1

1 ˆ

( , )

( )

ˆ

( , )

(

( )

( , ))

M T i i M T i i

u X s

llr X

M

T

X s

llr X

u

M

σ

− = − =

=

−

=

−

∑

X s

0 1

i: index of imposter

s:client

of frame

M-1: number of imposter

ˆ

[

, ,

]

:

j n

X

x x

x

j index

=

(20)

1

( )

M

llr

₋

X

圖表 2 T norm 之構成概念

T norm 的精神是測試語料對於 client 和 imposter 兩個模型所可能產生的分數進行歸一化的處理。

Z norm(Zero norm):

如果總共有 L 句已知來自於 imposter 的測試語料。

1 2

1 [

X X

,

X

_k

,

X

_L

],

k

=

L

)

針對偽裝者(imposter)集合所得出的決策分數

S X s

(

_k

,

ˆ

可以視為常態分佈，然後進行歸一化處理即為Z norm。

Client

( )

( , )

ˆ

T i

S

X s

1

( )

llr X

T norm

2

( )

llr X

(21)

1

(

)

M L

llr

₋

X

圖表 3 Z norm 之架構 ˆ ( , ) ( ) ˆ ( , )

ˆ

(

, )

ˆ

(

, )

Z Z i k S X s Z i k S X s

llr X s

u

S

X s

σ

−

=

(1.15)

1 2

1 relation of and M is independent

,

, ,

,

, ,

,

k i

X

∈ Ω

k

=

L i

=

M

−

L

{

}

1 2 1

1

ˆ ( , ) ˆ ˆ ( , ) ( , )

ˆ

(

, )

ˆ

(

, )

Z Z Z L S X s i k k L S X s i k S X s k

u

llr X s

L

llr X s

u

L

σ

= =

=

−

∑

(1.15)代表將(1.9)序列輸入訊號

X

的分數進行歸一化 (normalization)。然後再使用歸一化之後的分數來進行語者確認上的判定工作。

(

llr X )

2. 可靠度相關文獻回顧

在語者確認的問題上，以資料量多寡為依據進行可靠度分析評估的文獻目前尚付之闕如；在語音的研究問題上，大部分的可靠度分析問題都是以雜訊或是環境的影響作為研究分析對象。

Client

1 2

( )

(

, )

ˆ

,

Z i

k

S

X

s

k

=

L

1

(

1

)

llr X

Z norm

2

(

2

)

llr X

(22)

2.1. 以雜訊為影響基礎之可靠度分析

一般現存之文獻在評量可靠度的問題時多以雜訊作為影響變因或者整合環境和辨認器之間的交互行為探討。如Ganchev. et al.[4]，針對時變環境下的雜訊提出MMSE(Minimum mean square error)的criteria加強語音訊號

MFCC(Mel-Frequency Cepstral Coefficients)的方法，得出近似乾淨(clean)的語音訊號。Richiardi et all.[5]針對較惡劣的環境下語者確認的問題，提出一套信賴度及可靠度分析的方法，Jonas Richiardi比較大的突破點，是其所建立的評估方法可以適應當GMM的輸出分數不再假設為常態分佈時依然有效。Chaudhari. et. al. [6

]針對影像及語音雙重資料輸入的情況下，互動式的影音雙重語者辨認器。Chaudhari. 根據所接收的訊號，和原來的訊號成分互相比較之後，建立評分等級，作為處理訊號時的可靠度依據。

M. Arcienega, A. Drygajlo[7] 進行融合pitch 與spectral envelope features兩項特徵參數的語者確認問題。研究中將受到雜訊影響的資料予以捨去，然後使用 Bayesian network的圖論模型輔助求解GMM參數，結果顯示可以有效的提升語者確認模型在雜訊影響下的可靠度。Leung et al. [8] 等人則是研究語者自身的特性對模型可靠度的影響，語者本身受到先天性語言學習與發音的影響，即使未來面對熟析的語言發音時，仍然會受到先天性語言學習所遺留的發音習慣所影響，因此提出以連接音 (articulatory)為基礎，建構一套條件式發音模型(conditional pronunciation modeling)的語者確認機制，結果也能提升語者確認問題在不同語言之間適用的可靠度。可靠度分析的問題實際和語音上的(confidence measure)問題相似，當我們的語者確認模型要適用到新的環境或者是語者結構產生新的改變，測試語料產生大幅度的變動時，這時候會想要評估原來所訓練的語者確認模型可以正確工作的可靠度有多少？如果可靠度不足時，可以重新訓練語者確認模型或者進行模型調適

(23)

(adaptation)，藉此獲得更好的工作模型。

E. Mengusoglu [9]將一般confidence measure使用在word 或phoneme上的事後 (posterior)與事前(prior)機率比較的概念。轉移到語者確認的問題上進行研究。有別於以往的作法，E. Mengusoglu 將GMM的參數規劃為兩個state。分別是word 或syllable等級的silence和speech以及phoneme等級的voice和unvoice各兩個state。以normalization score（如T norm或Z norm）的相關係數(correlation coefficient)進行inverse Fisher轉換，然後度量系統模型的可靠度，決定是否要對模型進行調適。

E. Mengusoglu 在語音上比較大的突破，在於將原本應用在 text-dependent 的 confidence measure 工具發展到 text-independent 的語者確認問題上進行應用。

2.2. 使用統計觀點來看待語者確認中之分數標準化

過程

本研究的主要觀點在於評估稀少資料輸入情況下對於語者確認模型強健程度的影響。研究的假設前提認為訓練模型具有強健性。但是當測試環境和訓練環境產生不匹配的問題時，這時候使用該模型的可靠度剩下多少？本研究首先著眼於GMM 輸出值取對數之後的分佈行為。如果我們將 GMM 的輸出值取對數之後的結果視為一個隨機變數，一般在處理上都視為常態分佈。一般在處理這類的問題時常會使用T norm 或者是 Z norm 這兩種 score normalization 技術，由於前一章已經對 T norm 或者是 Z norm 進行過介紹。此處便不再贅述。有鑒於T norm 或者是 Z norm 基本上還是在處理大樣本的問題，使用上並無法符合本研究小樣本的要求。所以本研究在此處自行提出小樣本的 score normalization 方法。對 GMM 取對數運算的輸出分數進行判別的工作，實際上可以視為是檢定兩個常態分佈隨機變數的平均值差異現象，我們可以直接將 GMM 的輸出判別過程整理如下：

(24)

(2.1) ˆ ˆ ˆ ( ) ( ) ( ) ˆ ( ) ( ) ( ) , , ,

(

)

( ;

,

)

(

)

i

( ;

i

,

i s s s s j k j k k k j i m j i m i m i m

p x

c

x u

p

_Ω

x

c

Ω

x u

Ω

=

Ν

Σ

=

Ν

Σ

∑

,Ωi

)

按：

p

_Ω

(

x

_j 模型也可以直接將所有的speaker 語料輸入，使用 GMM 訓練得出。

1

1 ˆ

ˆ

( )

(

)

(

)

(

)

,

(

) log(

( ;

,

))

log(

i

( ;

i

,

))

s

j

k

j

k

j

i m

i

i m

llr x

c

x u

c

x u

M

Ω

=

Ν

Σ

−

Ν

−

∑

_Σ

i (2.2) 1

,

2

,

n

{

j

},

1 X

=

⎡

_⎣

x x

x

⎤

_⎦

=

x

j

=

n

: 1 1 1 1 1 1

Approximate student t distribution

ˆ ˆ ˆ ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) log( ( )) {log( ( ; , )) log( i ( ; i , i ))} n j j n s s s j j k k k i m i m i m j k i i m llr X LR x n c x u c x u n M = Ω Ω Ω = = ⎧ ⎫ ⎪ ⎪ ⇒ ⎨ Ν Σ − ₋ Ν Σ ⎬ ⎪ ⎪ ⎩ ⎭ ⇒

∑

(2.3) 依據統計學的理論，對兩個相關樣本集合的抽樣分佈平均值度量，可以使用 student t 分佈進行等效轉換。所以(2.3)將會近似於自由度為 n-1 的 t 分佈。

2

2 Student-t Distribution of sample size n

1

2

1

1 1 1

2

1 (

)

( )

(

)

( (

))(

)

(

)

n

_n

n

f t

t

n

π

Γ

=

−

Γ

−

+

−

(2.4)

function

n:sample size of random variable of score normalization

:Gamma

(25)

ˆ

(

_j

| )

p x s

圖表 4 相似度比值視為相關樣本之抽樣行為語者確認在當事人和偽裝者兩個集合上所得的分數是建構在同一串輸入序列

X

上，所以這兩個集合上的分數比較，可視為相關樣本下的兩個樣本的平均值差異度量，顏月珠，「商用統計學」[10]。 1 1 1 1

1

ˆ ( ) ( ) ( ) ( ) ( ) ( ) , , , ,

( )

log(

( ;

,

))

( )

log(

( ;

,

))

(

)

i i n s s s j k k k j k M n j i m i m i m i j i m

s X

c

x u

n

X

c

x u

n M

= − Ω Ω Ω = =

=

Ν

Σ

Ω

=

Ν

Σ

−

∑

∑ ∑

∑

i

X

(2.5) 在(2.5)的前假設下，決策分數

llr

可以視為兩個常態分佈的平均值進行相減所得出的隨機變數。

( )

llr X

=

s X

− Ω

X

(2.6) 1

,

2

,

n

{

j

},

1 X

=

⎡

_⎣

x x

x

⎤

_⎦

=

x

j

=

n

: input testing sequence of feature vector

Hard Decision

傳統的語者確認方法會將所得到的分數和事先我們自己所選定好的門檻值

(

_j

| )

p x

Ω

1 2

[ ,

,

_j

,

_n

]

X

=

x x

x

(26)

來進行比較，如果分數大於門檻值(threshold)，則輸出結果確認是假設中的當事人(client)，反之，則判定為偽裝者(imposter)。至目前為止，門檻值(threshold)的選取方式多半只有兩種ÎEER 或 HER，使用 deterministic 的選取方式來決策。

1 2

1

1 Sequence Decision

is single frame of feature vector,j=1,2 n

ˆ

( )

log(P (

))

log(P (

))

[ ,

],

s j j j j j n j

llr X

x

n

X

x x

x

Ω

⇒

=

−

=

∑

(2.7) (2.8)

decide client

decide imposter

( ( )) log ,

if llr X

>

Λ

⎧

⎨

_<

_Λ

⎩

: threshold

Λ

Soft Decision

因為我們所研究的目標是稀少資料的小樣本情形，所以此處針對小樣本的情況引入新的criteria。給予兩個常態分佈的母體，如果抽樣的順序是成對抽取 (pairwise sampling)的模式，同時在兩個母群體中對相同的隨機變數

x

_j進行 log likelihood 之計算)，此時可以視為相關的小樣本處理。

(

_k

)

(

_k

)

(

llr X

=

s X

− Ω

X

_{k (2.9)}

)

k

: k-th input frame sequence

1

( )

( ),

1 mean :

( )

j j j n j j

Let

D

S x

x

j

n

D

sample

D

S x

x

n

=

− Ω

=

⇒

=

∑

− Ω

(2.10) n 2 j j=1 2

(D -D)

variance

( )

n-1

sample

⇒

s D

=

∑

(2.11) 應用樣本的平均數和變異數，可以得出近似的t 分佈。

( )

( ) /

D u D

t

s D

n

−

=

(2.12)

(27)

T 分佈的參數僅和自由度（degree of freedom）有關，df=n-1。 -4 -2 0 2 4 0 0.1 0.2 0.3 0.4 value pr ob (. ) n=5 ;t-dist=>dash -4 -2 0 2 4 0 0.1 0.2 0.3 0.4 value pr ob (. ) n=15 ;t-dist=>dash -4 -2 0 2 4 0 0.1 0.2 0.3 0.4 value pr ob (. ) n=35 ;t-dist=>dash -4 -2 0 2 4 0 0.1 0.2 0.3 0.4 value pr ob (. ) n=100 ;t-dist=>dash

圖表 5 difference between normal and student-t distribution

¾ 使用假設檢定的方式計算出

false alarm

和

false rejection

在統計理論上，兩個相關樣本的平均值差可以使用(2.12)的 t distribution 來近似。對(2.12)的 t distribution 定義式進行比對，可以寫出原來的 likelihood ratio test 轉換到t distribution 上的 Hypothesis test 的對應寫法。

¾

Condition

Î輸入序列長度為

n

¾ 檢定是否為

client? Right-tailed test

0 1 0 (1 , 1)

: ( ) log( )

( ) log( )

( ) /

n

D

decision x

if t

t

reject

s D

n

α 0

µ

− −

Η

≤

Λ

Η

>

Λ

−

Λ

=

>

⇒

Η

(2.13)

(28)

¾ 檢定是否為

imposter? Left-tailed test

0 1 0 (1 , 1)

: ( ) log( )

( ) log( )

( ) /

n

D

decision x

if t

t

reject

s D

n

α 0

µ

− −

Η

≥

Λ

Η

<

Λ

−

Λ

=

< −

⇒

Η

(2.14)

:

risk

(level of significance)

α

P value Hypothesis test

圖表 6 Hypothesis test (P value test)

如果training 的結果已經到達 optimization，Hypothesis test 的 p value 將會到達minimum。P value 值越小表示相對風險(risk)就會越小，也就是說，這時候的 GMM 參數訓練的結果，其相對於其它的值是風險最小的。

本研究之所以稱第二種假設檢定的方法為soft decision，主要的觀點在於 level of significanceÎα，是我們可以自由挑選的一個參數。一般統計上在進行假設檢定時α的典型值是0.1 或 0.05。

小結：T norm 和 Z norm 實際上是上述 t student distribution 的變形處理，然而在語者確認上的應用卻可以增強模型的強健程度(robustness)。本研究在此處想要建立稀少資料量(sparse data)之下的語者確認(speaker verification)模型穩定度 (reliability)分析。

(29)

一、因為取樣數量之減少所造成的分佈不匹配(distribution mismatch)問題之下的語者確認實驗結果。將原來的機率密度函數進行遮罩處理的研究結果在以往的研究結果中曾經有相當不錯的成果。最主要的研究方向是和時間有關的應用。例如工業工程上面用來進行生產線之產品良率估計實驗設計。在大量生產的產品線上，有時候因為產品的數量太多或者是產品的價錢昂貴，不可能讓研究者等到所有的產品都損壞之後才去推估全部產品的平均生命週期(lifetime)，這時候就必須假設產品的生命週期是服從某種分佈，然後研究者將這個分佈的左端或右端進行遮罩(mask)處理，但是估計時仍然以整個未受遮罩處理的樣本空間為對象做分析。應用這種概念可以使用少量的時間快速得到整體的實驗結果。工業上在此方面的應用稱為產品生命週期分析(lifetime analysis)。

2.3. 工業產品之壽命分析(Lifetime Analysis)

在大量生產的生產線上，如果想要對所有的產品進行壽命測試得出結果。通常是費時而且不合乎成本原則的考慮，因為我們無法預知所有的產品其測試時間需要多久。在以成本為前提的考量之下，通常我們將只會蒐集部分產品進行測試，其所節省下來的時間就是我們所獲得的效益。最典型的問題可以想像一般我們購買電腦時的燒機測試，通常我們只進行了數十個小時的開機測試，如果電腦仍然能夠正確無誤的工作時，可以推論這台電腦系統在未來的時間裡頭將可以穩定的工作。工業上一般將產品的特性施以測試，將所有產品的性能是否到達所要求的品質測試過程視為是一種可靠度(reliability)的測試。在規劃這種可靠度的實驗時，總是希望能夠以最少的時間得到最佳的實驗結果。而以設限資料(censored data) 的方式來蒐集實驗數據取代做完所有實驗即可達成此種目的。

(30)

H.I. Hamdy[11]使用Pareto distribution來描述產品的生命週期。下列是Hamdy 所舉出的實例，主要的用途是觀測15 種新興行業從起始到結束的營運時間。 -5 0 5 10 15 20 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 random variable x Pr (x ) Pareto PDF. a= 1 ,b= 1 a= 1 ,b= 2 a= 1 ,b= 3 圖表 7 Pareto 的機率密度函數圖形 1

( )

a b

_a a

,

p x

x b

x

+

⋅

=

≥

(2.15)

( ) 1

,

a

b

D x

x b

x

⎛ ⎞

= − ⎜ ⎟

⎝ ⎠

≥

(2.16) P(x): PDF of Pareto distribution D(x): CDF of Pareto distribution

假設公司營運的時間長度符合Pareto distribution，假定

x

_:in,i=1..k 代表結束營運的k 家新興行業。n 為全部起始投入的營運企業總數。

假設這些新興企業的存活時間（以年為單位）可以使用Pareto distribution 來描述。則剩下的(n-k)家新興企業的可能存活時間便是我們想要快速知道的結果。 Hamdy 以樣本數 n=15 個新興行業運作時間為實驗資料，每個新興行業的運作時

(31)

間至少為一年。根據(2.15)Î 1

( )

a b

_a a

,

p x

x b

x

+

⋅

=

≥

(2.17)

則可以知道b=1，a 在 Pareto distribution 中稱為 shape parameter.

Hamdy 只觀察前 10 個新興行業停止運作的時間，求出 shape parameter a=4.23。緊接著，使用次序統計量求出

Ε

{

n

_{10 15}_:

}

=1.28(年)，表示如果每次只觀

察到第10 種新興行業停業，就停止實驗觀察的總共使用時間平均值。另外再求

出 =2.11(年)。Hamdy 做出結論，如果採用設限資料(censored data)(例如本例中共有15 種新興行業需要調查，但是觀察實驗只進行到第 10 個就停止) 進行分析，可能所使用的時間比相同樣本大小的完整資料觀察實驗還要少。在本例中 10 10:

{

n

Ε

}

10 15:

1 28

10 10:

2 11

{

n

}

.

{

n

}

.

Ε

=

< Ε

=

總共節省了大約39%的寶貴時間。

2.4. 醫學上之臨床統計應用(Survival Analysis)

另外一個應用方向是醫學統計，醫學統計上針對不同病人不同時間之內所獲得之臨床資料往往無法進行相互之間的比較。例如後天免疫性症候群(AIDS)的患者，既無法斷定其何時開始感染病菌，也很難推估出這名患者未來還可以存活的時間有多久；這時候就必須使用從前病人所留下的部份臨床資料來進行統計資料的全面性推估。醫學統計上的這種特殊統計分析稱為倖存分析(survival analysis)。 Lagakos et al.[12 ]曾經對 258 名成人和 37 名兒童進行AIDS的病症觀察研究。研究觀察期間自 1978 年的 4 月 1 日至 1986 年的 6 月 30 日。在這期間凡是經過確認已經藉由血液途徑感染病毒，並且在觀察中止時間前產生AIDS病徵者皆列入觀察對象。其餘已經確認遭到病毒感染，但是於觀察時間結束前尚未產生AIDS病徵者已以剔除。期觀察紀錄形式如下（僅為部分資料）：

(32)

表格 1 以觀察期間進行 AIDS 之研究，單位（年） Infection time

(感染期)1

Adult induction time (誘導期)2 Children induction time 0.00 5 0.25 6.75 0.75 5,5,7.25 1.00 4.25,5.75,6.25,6.5 5.5 1.25 4,4.25,4.75,5.75 1.50 2.75,3.75,5,5.5,6.5 2.25 1.75 2.75,3,5.25,5.25 2.00 2.25,3,4,4.5,4.75.5,5.25, 5.25,5.5,5.5,6 2.25 3,5.5 3 2.50 2.25,2.25,2.25,2.25,2.5, 2.75,3,3.25,3.25,4,4,4 醫學上常使用這種部分時間的觀察資料來進行母體特徵的推估。以本例而言，在觀察時間區間之內沒有 AIDS 病徵者的樣本將被剔除。這樣子才能節省實驗的研究時間。在母體行為推論上，雖然有部分的抽樣樣本被刪除，但推估整體母體的行為時，還是必須包含這些已經被剔除的樣本範圍。 1_{傳染期(infection time)：病原侵入至宿主體內的時間} 2_{誘導期(induction time)}_：_{病原侵入至宿主產生臨床症狀或徵候的期間.}

(33)

3. 截尾分佈之介紹

本研究中的語者確認模型與時間尚無關係，固本研究以資料量的出現與否?

作為遮罩資料的處理前提。本研究將遮罩資料視為是原來的PDF 函數進行部份

截取(truncation)的結果。本研究將這種原 PDF 經過截取之後新形成的 PDF 函數稱為truncated probability distribution function (TPDF). TPDF 的分類上大概有三種形式，以下以常態分佈(normal distribution)為例進行介紹：常態分佈函數 2 2

1

2 σ

πσ

_σ

−

=

(

)

−

( ; , )

_i

exp(

x

i

u

),

_i

f x u

∞ <

x

< ∞

(3.1)

random variable of index i

:mean

:standard deviation

σ

:

i

x

u

一、單一左端點截取常態分佈(Singly left truncated normal distribution at )

=

i L

x

1 σ

σ

=

−

( ; , )

( ; , ,

)

(

)

(

)

i Tr i L i L L

f x u

f

x u

x

UnitStep x

x

F x

(3.2)

unitstep function

σ

−∞

=

∫

(

)

( ; , )

(.) :

L x L i i

F x

f x u

dx

UnitStep

二、單一右端點截取常態分佈(Singly right truncated normal distribution at

i R

x

=

x

)

1 σ

σ

=

( ; , )

−

( ; , ,

)

(

))

(

)

i Tr i R i

−

R R

f x u

f

x u

x

UnitStep x

x

F x

(3.3)

(34)

三、雙截尾常態分佈(Doubly truncated normal distribution at

x

=

x

_L

,

x

=

x

_R)

σ

=

×

−

,

( ; , )

( ; , ,

)

(

)

(

)

(

)

(

i Tr i L R R L i L i R

f x u

f

x u

x x

F x

UnitStep x

x

UnitStep x

x ))

(3.4) 和截尾分佈相關聯的應用方式稱為資料設限(data censoring)，例如因為實驗的因素得到許多飽和裝況下的訊號成分，這時候可以考慮將高百分位數 (percentile)的訊號成分移除之後進行樣本參數推估的方法。 (一)、左端設限資料(left censored data)的機率密度函數

-4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 random variable x Pr (x )

standard normal vs. left truncated PDF.

STD normal censored area

圖表 8 設限資料(censored data)機率密度函數和原機率密度函數之間的關係單一左端點設限常態分佈(Singly left censored normal distribution at

x

_i

=

x

_L)

這種狀況下樣本有兩種情形。一是

x

_i落在

(

−∞

,

x

_L

⎤⎦

的區間內，但資料必須使用設限點(censoring point，在本例之中

x

_L=-1)來取代。另一個情況是

(35)

>

i L

x

，這時候將是正常的常態分佈情形。以下我們將這種情形使用數學的方程式描寫出來。 1 ( ; ) ( ; )

( ; , ,

)

( (

)

(

))

L

( ; , )

L Ce i L g x x g x x L L i

f

x u

x

F x UnitStep x x

f x u

σ

−

=

−

(3.5)

1 0, otherwise

,

(

)

( ;

)

(

)

L L L L

if x

x

UnitStep x x

g x x

Boolean x

x

≥

⎧

−

_{= ⎨}

⎩

=

>

σ

−∞

=

∫

(

_L

)

xL

( ; , )

_i _i

F x

f x u

dx

−4 −3 −2 −1 1 2 3 4 0.2 0.4 0.6 0.8 1 STD Normal Censored CDF ,XL= −1.

圖表 9 standard normal and its censored CDF

−4 −2 2 4 0.1 0.2 0.3 0.4 STD Normal Censored PDF , XL= −1. discrete probability

圖表 10 standard normal and its censored PDF

式子(3.5)是機率密度函數的表示式，因為在左端點的位置有一個離散的機率密度函數起始值，所以累積機率密度函數應為

( ; , ,

)

( ; , ,

)

(

; , ,

)

Ce i L Ce i L Ce L L

F

x u

σ

x

∞

f

x u

σ

x

f

x u

x

−∞

=

∫

+

σ

(3.6)

(36)

是一個連續機率加上另外一個離散的點機率所形成的累積機率密度函數。結果如圖表 9 所示。

(二)、單一右端點設限常態分佈(Singly right censored normal distribution at )

=

i R

x

參考式子(3.5)，可以得出單一右端點設限常態分佈的機率密度函數 1

1 σ

= −

σ

−

( ; , ,

) (

(

))

j

( ; , )

Ce i R R i

f

x u

x

F x

f x u

j (3.7)

σ

−∞

=

∫

(

_R

)

xR

( ; , )

_i _i

F x

f x u

dx

(37)

4. 截尾分佈之推導

4.1. 左截尾常態分佈之最大概度估計(Maximum

Likelihood Estimators for Left Truncated

Normal Distribution)

-4 -3 -2 -1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 random variable x Pr (x )

standard normal vs. left truncated PDF.

STD normal truncated area truncated PDF

稀少性的輸入資訊下所造成的分佈不匹配問題在語者確認上的可靠度分析

國立交通大學

電機資訊學院 電信學程

碩士論文

題目：稀少性的輸入資訊下所造成的分佈不匹配問題在語者確

認上之可靠度分析

Reliability Analysis Focusing on Sparse Input Data Caused

Distribution Mismatch Problems for Speaker Verification

學生姓名：羅文輝

指導教授：陳信宏 博士

題目：稀少性的輸入資訊下所造成的分佈不匹配問題在語者確認上之

可靠度分析

Reliability Analysis Focusing on Sparse Input Data Caused Distribution

Mismatch Problems for Speaker Verification

研 究 生：羅文輝

Student：Wen-Hui Lo

指導教授：陳信宏

Advisor：Dr. Sin-Horng Chen

國 立 交 通 大 學

電機資訊學院 電信學程

碩 士 論 文

A Thesis

Submitted to Degree Program of Electrical Engineering and Computer Science

College of Electrical Engineering and Computer Science

National Chiao Tung University

in Partial Fulfillment of the Requirements

for the Degree of

Master of Science

in

Communication Engineering

June 2006

Hsinchu, Taiwan, Republic of China

稀少性的輸入資訊下所造成的分佈不匹配問題在語者確認上之可靠度分析

研究生：羅文輝

指導教授

國立交通大學電機資訊學院 電信學程﹙研究所﹚碩士班

摘

要

Reliability Analysis Focusing on Sparse Input Data Caused Distribution

Mismatch Problems for Speaker Verification

student：

Advisors： Dr. Sin-Horng Chen

Degree Program of Electrical Engineering Computer Science

National Chiao Tung University

ABSTRACT

It is a frequent facing problem for sparse data input to make a robust

model testing with speech recognition. This phenomenon also

encountered in the field of speaker verification with small data enrollment

to do training or testing.

A new approach to sparse data input caused problems named

“distribution mismatch(DM)” was addressed. The core of DM which was

on account of the coverage of the probability distribution function(PDF)

of the input data which are applied to GMM(Gaussian mixture model)

score calculation is not full mapping to the original PDF assumption.

There maybe be some differences between the original assumption PDF

to the new one generated by sparse data input and we suggested to using

the truncated probability distribution function for modeling this situation.

The most important addition to be made to what we have said about

DM is that we have derived a new joint PDF based on graph theory with

order statistic and the new formula would act as the truncated PDF or the

original PDF measured by this joint PDF.

We have succeeded establishing the joint PDF which is compose of five

random variables, including the input data, the minimum order of input

data, the range of input data, the coverage of input data and the sample

size of input data to estimate with Gaussian quadrature integration.

In the end of experiment, we take a hypothesis test to the equal error

rate(EER) of the average score per frame of per sentence announced by

the speaker normalized to the universal background model(UBM) and the

same score announced by imposter normalize to the UBM model.

There are good evidences to show that hypothesis test could decrease

the error probability for speaker verification. The other finding finished

by this study is that we discover a special fact caused by sparse data

input.

We usually regard the input random variable submitted to a certain

probability distribution function but it is probabilistic to agree with this

assumption when the input sample size is less than 20. Finally, we have

derived the joint probability distribution function about it.

致 謝

目錄

p x x

電機資訊學院電信學程

指導教授：陳信宏博士

研究生：羅文輝

國立交通大學

電機資訊學院電信學程

碩士論文

國立交通大學電機資訊學院電信學程﹙研究所﹚碩士班

致謝

₁

_:

_n

傳統的語者確認方法(Conventional Speaker