聲道長度正規化

第五章調適系統與聲道長度正規化

5.4 聲道長度正規化

語音，再來對 TCC-300 聲學模型作辨識則會有較好的辨識率，下圖所示為 frequency warping 的轉換圖：

圖5.5 Frequency Warping示意圖與方塊圖

由圖5.5右圖所示，是frequency warping位於整個辨識系統的位置，可參考第四章中抽取語音參數的過程。圖 5.4 左圖描述的是 frequency warping 的示意圖，

frequency warping 是把老人語料的頻率採用 piecewise warping 的方式轉換到與 TCC-300 acoustic model較相似，圖中的虛線即為沒有改變頻率的warping factor(亦即為α =1)，而

α

_max與

α

_min分別為降低與調高老人語料頻率的warping factor；在使用 VTLN 時，需要去設定預定轉換的頻率範圍 lower and upper boundary frequency(

f

_L ~

f

_U)，我們參考國外研究的範圍

[16]

，並由實驗去找最佳的

f

_L ~

f

_U，而這裡採取的

f

_L為100Hz、

f

_U為6000Hz。

在進行VTLN前，必須先把每一位老人語者語料對TCC-300 acoustic model的最佳

α

值求出來，首先將老人訓練語料對TCC-300模型作forced alignment，進而統計各個

α

值的likelihood值，再依合理的

α

值範圍(0.8~1.2)去找尋各個語者likelihood值最高的

α

值，這個likelihood值並不包含silence與short pause的分數，圖5.5為男、女語者

α

值與人數的統計。

Fourier Transform

Filter Bank Integration Warping Factor

Frequency Warping

0 2 4 6 8 10

0.9 0.92 0.94 0.95 0.96 0.99 1.01 1.02 1.04 1.05 1.06 1.08 1.1 1.12 1.14 1.18 warping factor

# of speaker

male female

圖5.6 男、女語者

α

值與人數的統計

上圖中

α

值準確度為0.01，顯而易見地女性語者

α

值都落於0.95以下(與 TCC-300模型相比其聲音頻率較高需要降低其頻率)，男性語者多半落在

α

值1以上 (聲音較低沉需要調高其頻率)；一般的VTLN實驗時，圖5.6應當呈現男性語者為一個類似平均

α

值大於1一些的高斯分佈，女性語者為一個類似平均

α

值小於1一些的高斯分佈，而我們這裡並沒有如此趨勢，有兩種可能：1.語者數不足以產生這種高斯分佈，2.如同第三章對老人語音特性的分析，老人語音的頻率變化呈現極難預估的變動，在此仍希望待語料量充足後再來分析。

『

『實驗實驗實驗實驗九九九九』』』』語者做過語者做過語者做過語者做過VTLN後對後對後對後對TCC-300 acoustic model作辨識作辨識作辨識作辨識

接下來將把求得的

α

值對每一位語者的測試語料重新做參數抽取，並對 TCC-300 acoustic model作辨識，以下為其結果：

表5.5 語者VTLN對TCC-300 acoustic model作辨識

%Del %Sub %Ins %Corr %Acc 實驗三 4.41 56.57 6.91 39.02 32.12 本實驗 4.18 55.04 7.13 40.77 33.64

由上表可知，在做過VTLN後辨識率提升約略1.5個百分比，這是對於整體的辨識率，而我們對於每一位語者的

α

值、likelihood的變化以及辨識率的增量之間相關性更感興趣，以下將把這三者的關係顯示於下圖之中：

圖5.7 warping factor與likelihood increment的關係

圖中likelihood increment%定義如下式：

(likelihood when is best) - (likelihood when = 1) likelihood increment% = %

likelihood when = 1

α α

(5.6) 黑點代表相同warping factor語者其likelihood increment的平均值，而黑點上具有的直條代表著其likelihood increment一倍標準差的範圍。合理來說，上圖中的平均值分佈應當呈現以α = 為底點的倒1 V字形，也就是α = 時1 likelihood increment = 0，而當

α

值離1越來越遠時，其likelihood increment也將跟著上升，其代表的意義為當

α

值離1 越來越遠時，語者的頻率被warping得較多，與原先的頻率相差愈多。在圖5.7中，

也稍微呈現著以α = 為底點的倒1 V字形，相信只要語者再增加後會有更明顯的形狀。

以下將比較warping factor與(Acc% increment)%的關係，而(Acc% increment)%定義如下式：

(Acc% by TCC-300 model with VTLN) - (Acc% by TCC-300 model without VTLN)

(Acc% increment)% = %

Acc% by TCC-300 model without VTLN

(5.7) 合理來說，Acc% increment與likelihood increment應為正相關的關係，但儘管如此，由國外相關的研究顯示

[16]

，最高的likelihood值求出的

α

值不一定能保證Acc%

increment會是正的，也就是說，不保證每一位語者在做了VTLN後會提升辨識率，

其中黑色方形代表男性語者、白色三角形代表女性語者，我們也希望下圖會呈現以 α = 為底點的倒1 V字形，可惜的是成效並沒有那麼明顯，假若忽略負的Acc%

increment，這個圖形將會較接近我們的預期。

-50 0 50 100 150

0.88 0.92 0.96 1 1.04 1.08 1.12 1.16 1.2 warping factor

(Acc% increment)%

圖5.8 warping factor與(Acc% increment)%的關係

這裡顯示了VTLN對每一位語者的資訊，接下來將把VTLN與MLLR一起進行老人語音語料的調適。

『

『實驗十實驗十實驗十實驗十』』』』加入加入加入加入VTLN後的後的後的後的MLLR調適調適調適調適

以下先採用VTLN對老人調適與測試語料(亦即為實驗五的語料)做frequency warping得動作，再進行MLLR的調適過程，並以此觀察VTLN與MLLR是否有相輔相成的效果。以下為加入VTLN後的MLLR調適的結果：

表5.6 加入VTLN後的MLLR調適 Regression

Classes %Del %Sub %Ins %Corr %Acc 32 5.08 47.1 2.65 47.83 45.18 64 5.12 45.64 2.51 49.24 46.73 128 4.96 43.98 2.51 51.06 48.55 256 5.38 40.91 2.23 53.71 51.47

這次實驗的辨識率Acc%可以和(實驗五)以MLLR對老人語料做調適後的辨識率

42.93 44.54 46.57 48.88

45.18 46.73 48.55

51.47

tested by TCC-300

VTLN then tested by TCC-300 adaptation used MLLR

adaptation used VTLN + MLLR

圖5.9 加入VTLN後對辨識與調適的效能增量 VTLN時，

α

值與其對應之likelihood值的變動，詳見附錄四)，以此也可預期重複

現接近1的高斯分布，由這兩次VTLN的動作可以比較

α

值的平均值與標準差的變化，下表統計了男、女語者

α

值對新(VTLN+MLLR調適過後所產生)、舊(TCC-300) 聲學模型產生的變化：

表5.7 二次VTLN過程中warping factor之統計性質

男性語者女性語者

平均值標準差平均值標準差對TCC-300聲學模型求

α

值 1.0482 0.0589 0.9239 0.0230

對VTLN+MLLR調適過後

所產生的聲學模型求

α

值 1.0382 0.0485 0.9222 0.0213

上表可看出女性語者的

α

值沒有因新的聲學模型產生多少改變，但是男性語者在經過一次VTLN+MLLR的調適之後，老人男性語料與新聲學模型的聲音頻率高低較TCC-300聲學模型來得更相似，也就是說

α

值更接近1，而且

α

值的標準差較先前更集中了。並且觀察

α

值與其對應之likelihood值的變動，如圖5.10所示：

圖5.10 新聲學模型的warping factor與likelihood increment的關係

對照圖5.7的Y軸，可清楚發現經VTLN新聲學模型的likelihood increment較第一次做VTLN時增加了約三倍，對於被調適過聲學模型，上圖之呈現較符合男、女語者聲道長度正規化，而不是針對老人語音聲道長度的改變。

0 1 2 3 4 5 6 7

0.9 0.92 0.94 0.95 0.96 0.99 1 1.01 1.02 1.04 1.05 1.06 1.08 1.1 1.12 1.14 warping factor

likelihood increment%

『

『實驗十一實驗十一實驗十一實驗十一』』』』重複重複重複重複VTLN+MLLR調適調適調適調適

重新對第一次VTLN+MLLR調適所產生的新聲學模型求出其

α

值(2^nd warping factor)，並以此

α

值對調適語料、測試語料做frequency warping，而抽取出warping 過後的語音特徵參數，最後再進行一次MLLR對新聲學模型進行調適，當中的過程

The factor that gives the highest likelihood is selected as the only one warping factor per speaker

2^nd warping factor list

Adaptation Data

Test Data

2^nd warping factor list

Feature Extraction

MLLR adaptation used New Acoustic Model

Recognizer Acc

The factor that gives the highest likelihood is selected as the only one warping factor per speaker

1^st warping factor list

Adaptation Data

Test Data

1^st warping factor list

Feature Extraction

MLLR adaptation used TCC-300 Acoustic Model

New

有七位語者改變了

α

值，這代表著在進行第一、第二次VTLN時，並不會有太大的改變，預計辨識率的提升也有限，而老人語料經由二次VTLN+MLLR調適之後，可以得到以下的辨識結果：

表5.8 二次VTLN+MLLR調適之辨識結果比較

classes %Del %Sub %Ins %Corr %Acc 1^st VTLN+MLLR

adaptation 256 5.38 40.91 2.23 53.71 51.47 2^nd VTLN+MLLR

adaptation 256 5.18 41.65 2.17 53.17 51.00

這次的結果顯示出了對VTLN+MLLR做iteration的動作不會有進一步地好處，這是由於第一次VTLN+MLLR所產生的新聲學模型是把TCC-300模型作轉換的動作，

使得模型中有332個mixture在此過程中會遺失，也代表著老人語料庫仍不夠大，足以去實行有效的2^nd VTLN+MLLR調適。這個結果顯示了對相同的老人語料只能做一次MLLR及VTLN。

在文檔中老人中文語音辨識之初步研究 (頁 41-50)

第五章 調適系統與聲道長度正規化

5.4 聲道長度正規化

α

α

f

f

[16]

f

f

f

f

α

α

α

α

α

α

α

α

α

α

α

α

α

α

α

[16]

α

α

α

α

α

α

α

α

α

α

α

α

α

第五章調適系統與聲道長度正規化