• 沒有找到結果。

第一章 緒論

1.2 文獻探討

1.2.1 文本獨立語者辨識

文本獨立(text independent)語者辨識的技術有三個主要的分類【1】,第一 類也是最早的技術為使用長期統計(long term statistic)的語音參數,例如頻譜 或是音調等做為辨識依據。其概念在於將除了語者相關的聲學因子,其他像是不 同音節等所造成的聲學差異藉由平均的方式消除掉,只留下代表語者平均聲道

(vocal tract)形狀的長期頻譜平均值等語者相關的聲學參數。然而其壞處在於 需要相當長的註冊語料去產生穩定的長期統計模型,且丟棄了許多聲學上有用的 語者資訊。

第二類技術為將註冊語料分為幾個語音單元,並由這些單元的語音參數來為 每位語者訓練各自的語者模型,而在辨識時藉由比較測試語料中每群語音單元的 與每個語者模型中相對應語音單元的相似度,來分辨測試語料屬於哪一個語者。

此技術又可以再細分為兩種不同的切割語音單元的方式,分別為顯式分段

(explicit segmentation)與隱式分段(implicit segmentation)。顯式分段為在註冊 或辨識前,就先做語音辨識並以辨識結果切割出每個語音單元,但在【1】裡提 到先做語音辨識不僅增加計算量,且對於語者辨識的幫助不大,因此在文本獨立 的語者辨識範圍裡,比較常用的是隱式分段的方法。隱式分段是在訓練或辨識前 用非監督式分類法(unsupervised clustering)做語音單元切割,而每個分類是沒 有標籤的,所以並不需要依標籤個別訓練模型。而隱式分段下又有幾種形式,像 是分類樣板形式的向量量化編碼(vector quantization, VQ),就是將每個語音單 元所得的語音參數做分群,並用記錄每群頻譜樣版的碼本(codebook)來代表語 者,也就是每位語者的語音參數用其碼本去量化會有最小的量化誤差,並以此條 件來做語者辨識。向量量化雖然在有限詞彙裡的語者辨識效果不錯,但因其本質 較難以去代表每群內在真實情況裡的變異,所以在較大詞彙、噪音環境或是有通 道效應的文本獨立語者辨識裡,我們通常使用機率模型去提供一較佳聲學模型,

3

例如高斯混和模型(Gaussian mixture model, GMM)或是隱藏式馬可夫模型

(hidden Markov model, HMM)就常應用於文本獨立或文本相關的語者辨識。

第三類技術為使用鑑別式類神經網路(discriminative neural network),其特 點在於並非為每位註冊語者訓練各自的語者模型,而是找出分辨出所有註冊語者 最佳決策方程式。而其好處在於相對於為每位語者各自訓練模型,可以使用較少 的參數,但卻達到差不多辨識率。但其缺點在於,每當加入新的註冊語者,則整 個辨識模型都要重新訓練產生。

而在本篇論文裡我們選用屬於第二類中隱式分段的高斯混和模型來當作我 們的語者模型,因為在【1】裡面有提到,高斯混和模型是大家非常熟悉的且簡 單的模型,所以在計算上相當的方便。另一方面高斯混和模型可以簡單的用來模 擬任何機率分布,且即使原本的機率分布因資料量較小而不平滑,也可以透過用 高斯混和模型模擬的方式使其平滑。此外,許多語者相關的聲學特性,以及真實 地反映人類口腔等不同的特性,可以用高斯混和模型簡單的去代表。

因為是即時系統,所以不可能有大量的訓練語料,但很多語音基礎的特性因 為訓練語料的稀少,而無法全部涵蓋,使得我們的語者模型無法正確的代表出語 者相關與語者共通不同的特性,且少量語料可能對模型造成過適(over fitting)

的現象,這些缺點都會對辨識率造成很大的影響。為了解決此一問題,在【2】

裡面提到了,在系統建立前,用相對大量的訓練語料先行訓練一個通用背景模型

(universal background model, UBM),此模型涵蓋了大部分語者共同的聲學特 性,而在系統要註冊語者時,再用最大事後機率法則(maximum a posteriori probability, MAP)調適通用背景模型成為每位語者各自的高斯混和模型,如此語 者模型不但包含語者本身的聲學特性也包含語者間共通的聲學特性。

1.2.2 文本相關語者辨識

文本相關(text dependent)語者辨識因為其準確性與針對性,是目前在商業 化應用上最被廣泛使用的語者辨識技術。在【3】裡面提到,傳統的文本相關語

4

者辨識技術可以分為兩類。第一類為動態時軸校準(dynamic time warping, DTW),最典型的方法是由 Furui 在 1981 年提出的頻譜樣版比對(spectral template matching approach),用一序列的特徵參數向量去做為每位語者的樣板,並在測 試時藉由比對測試語料的特徵參數向量序列與每位註冊語者特徵參數向量序列 樣版的距離,決定辨識的結果;第二類為隱藏式馬可夫模型,在【3】、【4】裡都 提到本質上隱藏式馬可夫模型不是直接使用特徵參數向量序列做為樣板,而是對 語言中基本的音節或音素訓練成包含多個由高斯混和模型組成的狀態,且狀態之 間有方向性及轉移機率的一序列語音模型,所以較不易受到說話快慢等因素的影 響,比起動態時軸校準更能有效率的去代表文字相關的聲學模型。

1.2.3 語者識別與驗證

語者辨識系統主要可分為兩個基礎功能,分別為語者識別及語者驗證【3】。

語者識別就是在一個已知的註冊語者模型集合內,找出測試語料最有可能來自的 那位語者,所以又稱為封閉集合(closed set)辨識。而語者驗證則為確認使用者 是否為其所宣稱之語者,而冒名頂替的使用者(impostor)有可能是我們已知集 合的其它語者,或是來自於已知集合之外,所以又稱為開放集合(open set)辨 識。而其實兩個功能也可以看成同一個問題,也就是每當有使用者辨識時,系統 除了已知註冊語者之外還多了一個非已知註冊語者的選項。

而在【5】、【7】裡都提到任何的驗證問題,皆可視為統計假設檢定(statistical hypothesis testing)。統計假設一般有兩種形式,其一為虛無假設(null hypothesis)

是我們欲證明其為錯的假設,以H 表示;另一為對立假設(alternative hypothesis)0 是虛無假設的反面,以H 表示。而我們必須找出足夠的證據否定1 H ,否則就接0H 為真。而在【7】裡也提到不管是在語者辨識或是語音辨識,我們都必須要0 做離群值偵測(outlier rejection),對語者辨識而言就是驗證是否為冒名頂替的使 用者。一般辨識系統通常分成兩個階段,第一階段先將測試資料做模式分類

(pattern classification),第二階段再做離群值檢測。所以套用到語者辨識系統

5

裡,則首先找出與測試語料最相似的已註冊語者模型,接著驗證其是否真的為這 個語者(屬於這個分群,H )0 ,亦或是冒名頂替的使用者(離群值,H )1

此外【7】裡提到在我們得知H 、0 H 的機率分布的前提下,根據奈曼-皮爾1 生引理(Neyman - Pearson lemma),最佳解為使用概似比檢測(likelihood ratio test, LRT)。概似比檢測的意義在於,比較兩種模型何者較適合詮釋我們的統計資料,

應用在語者辨識上,則是比較此語者的模型與非此語者的模型何者與我們的測試 語料較相近。因此其決策原則(decision rule)就是

0 作特徵(receiver operating characteristic, ROC)曲線,並依此訂定信心指數。在【9】

裡面稱此方法為通用模型正規化(World model normalization, WMN),其主要的 精神在於冒名頂替的使用者語料對於目標語者模型(target speaker model)與通 用背景模型的分數差距,應該是小於目標語者的語料對於目標語者模型與通用背 景模型的分數差距。而使用通用背景模型的好處,在於只需訓練一個通用背景模 型,即可代表所有或某一特定集合目標語者的對比假設模型,且另一方面此通用 模型還可以用於調適語者模型的辨識系統裡。

第二種方法則是使用一非目標語者的語者模型集合去代表H ,而這集合一1 般可稱為同儕集合(cohort set)、概似比集合(likelihood ratio sets)或背景語者

6

(background speakers)【2】。同儕集合又可分為兩類,第一類為封閉同儕集合

(closed cohort set),假設我們現在有 20 位已註冊語者,則每一個語者模型其封 閉同儕集合則為其他 19 個語者模型,也就是對於目標語者而言,其他 19 位已註 冊語者為冒名頂替的使用者;第二類為開放同儕集合(open cohort set),如果我 們現在有 20 位已註冊位語者,則每個語者模型其開放同儕集合皆不與這 20 個已 註冊語者模型重疊,也就是對於目標語者而言,所有非註冊語者為冒名頂替的使 用者。應用到語者辨識系統上,則為系統所面對的兩類問題,第一類為已註冊語 者使用時,其辨識結果的正確性;第二類為非註冊語者使用時,系統是否可偵測 出其為冒名頂替的使用者。

兩種方法的比較上,因為目標語者與冒名頂替的使用者對於一包含完整語音 特性的通用背景模型所得之分數差異較小,因此用同儕集合來估計H 模型,或1 許能估計得較細微,而有較好的分辨效果。而在【10】裡面也提到,較有參考價 值的同儕集合是那些與我們的目標語者模型較靠近的模型,因其帶有較大的資訊 量,較能做為我們檢測的依據。在【11】裡面則提到,同儕集合人數數量在 10 個人以下,等錯率(equal error rate,EER)是小於通用背景模型,而在 15 個人 以後則高於通用背景模型。因人數太多反而造成混淆,語者模型之間的關係變得 複雜,所以反而不如用通用背景模型來得好。在【6】裡面也提到,同儕集合大 小的選法,是根據最大概似法則來選擇,假設我們希望用一大小為 M 的同儕集合 來估計H 模型,則找出在同儕集合中最接近目標語者的 M 個模型做為同儕集1 合。而同儕集合的大小對於開放同儕集合的影響較封閉同儕集合顯著,封閉同儕

兩種方法的比較上,因為目標語者與冒名頂替的使用者對於一包含完整語音 特性的通用背景模型所得之分數差異較小,因此用同儕集合來估計H 模型,或1 許能估計得較細微,而有較好的分辨效果。而在【10】裡面也提到,較有參考價 值的同儕集合是那些與我們的目標語者模型較靠近的模型,因其帶有較大的資訊 量,較能做為我們檢測的依據。在【11】裡面則提到,同儕集合人數數量在 10 個人以下,等錯率(equal error rate,EER)是小於通用背景模型,而在 15 個人 以後則高於通用背景模型。因人數太多反而造成混淆,語者模型之間的關係變得 複雜,所以反而不如用通用背景模型來得好。在【6】裡面也提到,同儕集合大 小的選法,是根據最大概似法則來選擇,假設我們希望用一大小為 M 的同儕集合 來估計H 模型,則找出在同儕集合中最接近目標語者的 M 個模型做為同儕集1 合。而同儕集合的大小對於開放同儕集合的影響較封閉同儕集合顯著,封閉同儕

相關文件