使用 MSE 原則之轉換參數求取

第二章語者通道效應偏移量分析

2.1 語者偏移量除去法

2.1.1 使用 MSE 原則之轉換參數求取

基本的想法是欲使轉換過後的特徵向量

y (i.e.

y

_t =

A x + b )和

_k _t _k

t t

µ

s m (第 m 個 model 的第 s 個 state)在頻譜上的距離最為相近，並且以語者 k 為單位，在最小化模型平均變異數向量的原則(Mean Square Error criterion)下求出矩陣及向量，同時對這一位語者所有語句中的特徵向量做轉換得到轉換後的特徵參

1 1 1

1 1

1

Likelihood )，如式(2.11)所示：

k, k 經由式(2.12) 利用 viterbi algorithm【5】得到最好的狀態序列(state sequence)資訊

t 異矩陣(covariance matrix))可以預估更準確的轉移矩陣 以及 b。接下來我們將詳 細推導求取轉移參數的過程。在此，我們先假設共變異矩陣為對角矩陣

1( )

2.2 特徵參數轉換後之效能評估

variance of mean

mean of variance

s m s m 的回歸回歸倒頻係數(△△MFCC)，第 38 維則是能量回歸回歸係數(△△energy)，

總共 38 維。

F-ratio。圖 2.1、2.2 中，十字曲線為原始特正參數每一個維度的 F-ratio 值變化趨勢，圓形曲線為使用 MSE criterion 並轉移特徵向量後之 F-ratio，星形曲線則是使用 ML criterion 的 F-ratio 變化趨勢。可以觀察出 F-ratio 在兩種轉換準則下的提升程度；使用 ML criterion 的 F-ratio 幾乎所有的特徵向量維度都大於使用 MSE criterion 的 F-ratio，更明顯大於沒有經過轉換之特徵參數的 F-ratio。如此特性可以解釋，在有更多正確參數參與估算轉移參數及b的情況下，語者效應更可以適當的被消除，聲學模型本身也因此更為緊密。

A

圖 2.1：原始特徵參數與經過轉移參數後的特徵參數之 F-ratio 聲母部分比較圖

圖 2.2：原始特徵參數與經過轉移參數後的特徵參數之 F-ratio 韻母部分比較圖

另外可以觀察語者/通道偏移量是否去除的方法就是繪出數個 HMM state 第

一維及第二維的機率統計分佈，觀察移除語者/通道效應後的分

佈，是否較移除前緊密。圖 2.3 與圖 2.4 分別為聲母第二個狀態(ㄚ、ㄧ、ㄨ、ㄝ、

, ,

( ;_t _{s m}, _{s m}) N x µ σ

ㄛ)與韻母第三個狀態模型的 31~37 類(分別為ㄨㄣ、ㄨㄤ、ㄨㄥ、ㄩㄝ、ㄩㄢ、

ㄩㄣ)機率分佈，其中較大的實線橢圓形分佈為原始的特徵參數的模型狀態統計分佈，較小的虛線橢圓分佈為特徵參數轉換後(ML criterion)的模型狀態統計分佈，菱形、正方形、圓形等幾何形狀代表著某個聲學模型在二維頻譜空間中的平均值。箭頭的方向則是從原始特徵參數的平均值指向轉移後的特徵參數平均值。

由圖中觀察得知，相對於原始的特徵參數的模型統計分佈，特徵參數轉移後的統計分佈確實變得更緊密，因此模型參數修正得更加精確，但是模型的平均值則會有些許的移動。

圖 2.3 特徵參數轉換 v.s. 原始特徵參數的特徵參數分布 (ㄚ、ㄧ、ㄨ、ㄝ、ㄛ)

圖 2.4 特徵參數轉換 v.s. 原始特徵參數的特徵參數分布 (ㄨㄣ、ㄨㄤ、ㄨㄥ、ㄩㄝ、ㄩㄢ、ㄩㄣ)

章節 2.2 以前主要介紹在兩種不同原則下，如何對每一位語者求得矩陣及向量的方法，並且透過

A

y

Ax b 之轉換函式得到轉換後的特徵參數並觀察其

+ F-ratio 值。然而我們之所以可以得到如此精確的模型是因為訓練語料有正確切割位置的資訊，有了切割資訊才可以精確的得到每位語者的轉移矩陣及偏移向量進而消除語者/通道效應。接下來則要詳細介紹利用參數轉換之整個語者調適系統流程；詳細說明訓練聲學模型步驟及如何得到每一位測試語者些許的語音及其正確切割資訊來轉換測試語料並進行辨認。

2.3 語者偏移量移除之語者調適系統

2.3.1 模型的訓練

語者效應補償由特徵參數轉移法取代原本的 SBR(Signal Bias Remove) 【6】

【7】法，以原始的特徵參數及切割資訊求取轉移參數矩陣 A 及向量 b，之後得

到訓練語料的轉移特徵參數、建立初始模型並對其進行訓練後產生更精準的聲學模型，系統模型參數訓練流程如圖 2.5 所示：

圖 2.5 以轉換後之特徵參數訓練聲學模型流程圖

2.3.2 語者調適--從調適語料中求取轉移參數

由於調適方法為監督式調適法，所以可以用原始的語者不特定模型對調適語料加以切割得到切割資訊，然後以調適語料的原始的特徵參數及此切割資訊求取轉移參數矩陣 A 及向量 b 做為接下來此位語者辨識語料的轉移參數。求得測試語者轉移參數矩陣 A 及向量 b 之流程如圖 2.6 所示

圖 2.6 從調適語料求得轉移參數流程圖

2.3.3 辨認流程

使用語者調適時所得到之矩陣 A 及向量 b 用來求取測試語料轉移後的特徵參數，最後再使用轉換後的特徵參數所訓練之 HMM 模型進行維特比搜尋(Viterbi search) 【8】，進而得到連續單音節辨認結果，辨認之流程如圖 2.7 所示

圖 2.7 移除語者偏移量測試流程圖

第三章實驗背景與實驗結果及分析

3.1 語音資料庫

3.1.1 訓練語料 (train data)

本論文使用的語音資料是由「中華民國計算語言學會」（ROC Computational Linguistic Society）所提供的「台灣之國語語音資料庫」(Mandarin speech database Across Taiwan,簡稱 MAT)，是透過電話網路經由個人電腦錄製，以 8KHz 的取樣頻率及 16 位元的取樣位元數來進行語音的收集，再經處理而成。實驗中取 MAT 語料庫中的十分之九作為訓練語料。經過整理，參與訓練語料的人數為男生 2057 人，女生 2263 人，共 4320 人。總共訓練音節男生為 244463 個，女生為 263683 個，共 508146 個。

3.1.2 辨認語料 (test data)

以語者為單位,扣除調適語料後的十分之一 MAT 4500 為辨認語料。其中 MAT2000 的測試人數為 222 人，MAT2500 測試人數為 250 人，總共測試語者有 472 人。MAT4500 測試語料詳細的分類及統計如表 3.1：

MAT2000 測試語料分類

內容備註

第一部分 short spontaneous answers to questions (沒有使用)

第二部分 numbers (沒有使用)

第三部分 isolated Mandarin syllables (沒有使用) 第四部分國語 2-4 字詞

第五部分國語平衡長句 (平均每句話有 14 個音節)

MAT2500 測試語料分類

內容備註

第六部分國語數字串第七部分國語專有名詞第八部分國語 2-4 字詞

第九部分國語平衡長句 (平均每句話有 13 個

音節) 表 3.1 MAT4500 測試語料詳細的分類及統計

3.1.3 調適語料

從十分之一 MAT 4500 測試語料中，以語者為單位，取出國語平衡長句(參考表 3.1 ；MAT2000 為第五部分、MAT2500 為第九部分)為調適語料，句數從一句開始增加。如果調適語料不夠時，則整個語者的語料皆不作辨認。可做調適語料之句子的平均音節數為 14 個，平均時間為 4 秒。

3.2 語音訊號的特徵參數擷取

每一個音框(frame)的聲學特性經過數學的運算可以用一組特徵向量來表示，表 3.2 詳細敘述參數擷取的詳細情形

取樣頻率 8K 快速傅利葉(FFT)轉換點數 256 音框長度(frame size) 30ms

音框平移 10ms

濾波器(filter bank)與濾波器個數 30 個梅爾刻度三角濾波器表 3.2 本論文實驗所使用之特徵參數擷取

3.3 ^{聲學模型架構}

本論文所用的聲學模型皆為連續密度隱藏式馬可夫模型( continues density HMM)，每一個中文音節可分成聲母與韻母兩部分；聲母模型為右相關模型(right dependent)或稱為 final-dependent，共有 100 個，由三個狀態(state)組成，韻母模型總數為 40 個是由五個狀態組成。每個模型的高斯混合數（mixture）以 50 個音框取ㄧ個混合數，最大混合數不超過 32 個。除此之外還有一個靜音模型只由一個狀態組成，靜音模型的混合數取 64 個。

3.4 辨認率之計算

對連續音而言，由於辨認結果所得的音節總數，未必等於正確的音節總數，

因此辨認的結果除了「替代型」(Substitution)錯誤以外，還包含「插入型」(Insertion) 以及「刪除型」(Deletion) 錯誤。在此對於替代型、插入型、刪除型錯誤的認定方式，是以得到最佳辨認率為原則，其具體做法是利用動態規劃法，將正確音節字串與辨認結果做一對應，進行錯誤類型的認定，找出一條可得最佳辨認率的路徑，再以下式計算辨認率：

辨認率 = (正確音節數 - (Sub + Ins + Del)) / 正確音節數 (3.1)

3.5 基本系統之測試比較

首先定義基本系統(baseline system)為沒有利用經過轉換的特徵參數所訓練出來的聲學模型來對所有的測試語者進行辨認，訓練語料為十分之九 MAT4500 語料，測試語料為十分之一 MAT4500 語料。辨認結果可以當作語者調適系統時的一個參考。如果沒有考慮 CMN(Cepstral Mean Normalization)時，基本辨識系統辨識率為 58.59%；有考慮 CMN 的狀況時，基本辨識系統辨識率為 61.96%，兩者相差大約 3 個百分點。詳細資訊如表 3.3 所示

Ins. Del. Sub. Total test syllable

Syllable correct rate Baseline

no CMN

2.69% 1.43% 34.58% 56691 58.59%

Baseline with CMN

維的特徵參數後再求取 12 維的回歸倒頻係數(△MFCC)、12 維的回歸回歸倒頻係數(△△MFCC)、1 維的能量回歸頻譜係數(△energy)與 1 維的能量回歸回歸係數(△△energy)。詳細參數求取流程如圖 3.1 所示：

圖 3.1 特徵參數處理流程

我們在此先定義辨識率上限(Upper bond)，做法是以正確的測試語料 HMM 切割位置為輸入，求取測試語料特徵參數轉移函數矩陣及向量b，再用此組轉

圖 3.2 辨識率 v.s. 調適語料的句數

調適語料從一句到八句增加，由於大部分測試語者的國語平衡常句部分都不超過九句，所以我們不做調適語料九句以後的測試。由表格中可以看出，在調適語料不參語辨認且不足調適語料的句數時整個語者不參語辨認的情形下總共測試音節隨著調適語句的增加而減少。進一步可以觀察出，當調適語料很少的時候調適效果非常的差，在調適語料增加到約 15 秒(約 60 個音節)時達到沒有使用 CMN 之基本系統的辨識水準並且在調適語料增加到 22 秒(大約 90 個音節)時才能達到使用 CMN 之基本系統的辨識水準。到有八句調適語料(約 37 秒)時，可以比使用 CMN 基本辨識系統高出快兩個百分點並且離辨識率上限只差一個百分點。

MAT4500 十分之一測試語料是經過品質挑選的語料，如果長句太少的語者表示此語者有太多語句是被標示為不能使用的句子，造成原因可能是因為此語者錄音時的狀況及環境太差的緣故。為了避免上述調適結果是因為隨著調適語料需求越多而使得錄音狀況不好的語者越不能參與辨識進而造成辨識率隨著調適語料增多而變高的現象，我們現在挑出調適語料足夠八句的 153 位語者來做相同語

者調適實驗，結果如表 3.5 所示 correct rate

1 153 2616 254 13791 25455 34.55%

最大化模型平均機率原則(ML criterion)也就是利用章節 2.1.2 敘述特徵向量轉換函數之求取方，目的是希望藉由更多正確的參數估計轉換函數，可以使得每

Utterance of adaptation data (句) MSE criterion 的方法在辨識率上限(upper bond)表現的好約 2~3 個百分點，但是在語者調適的系統上，似乎是因為需要預估的參數變多而使得調適語料有不足的現象產生，表現反而沒有比 MSE criterion 求取轉移後參數的方法來的優秀，但

兩者之間的辨識率差別也從一句調適語料的相差 20 個百分點到八句調適語料時

在文檔中使用特徵參數轉換之語音辨認與語者調適研究 (頁 17-0)

第二章 語者通道效應偏移量分析