• 沒有找到結果。

聲道長度正規化

第五章 調適系統與聲道長度正規化

5.4 聲道長度正規化

語音,再來對 TCC-300 聲學模型作辨識則會有較好的辨識率,下圖所示為 frequency warping 的轉換圖:

圖5.5 Frequency Warping示意圖與方塊圖

由圖5.5右圖所示,是frequency warping位於整個辨識系統的位置,可參考第 四章中抽取語音參數的過程。圖 5.4 左圖描述的是 frequency warping 的示意圖,

frequency warping 是把老人語料的頻率採用 piecewise warping 的方式轉換到與 TCC-300 acoustic model較相似,圖中的虛線即為沒有改變頻率的warping factor(亦 即為α =1),而

α

max

α

min分別為降低與調高老人語料頻率的warping factor;在使用 VTLN 時 , 需 要 去 設 定 預 定 轉 換 的 頻 率 範 圍 lower and upper boundary frequency(

f

L ~

f

U),我們參考國外研究的範圍

[16]

,並由實驗去找最佳的

f

L ~

f

U, 而這裡採取的

f

L為100Hz、

f

U為6000Hz。

在進行VTLN前,必須先把每一位老人語者語料對TCC-300 acoustic model的最 佳

α

值求出來,首先將老人訓練語料對TCC-300模型作forced alignment,進而統計 各個

α

值的likelihood值,再依合理的

α

值範圍(0.8~1.2)去找尋各個語者likelihood值 最高的

α

值,這個likelihood值並不包含silence與short pause的分數,圖5.5為男、女 語者

α

值與人數的統計。

Fourier Transform

Filter Bank Integration Warping Factor

Frequency Warping

0 2 4 6 8 10

0.9 0.92 0.94 0.95 0.96 0.99 1.01 1.02 1.04 1.05 1.06 1.08 1.1 1.12 1.14 1.18 warping factor

# of speaker

male female

圖5.6 男、女語者

α

值與人數的統計

上 圖 中

α

值 準 確 度 為0.01, 顯 而 易 見 地 女 性 語 者

α

值 都 落 於0.95以 下(與 TCC-300模型相比其聲音頻率較高需要降低其頻率),男性語者多半落在

α

值1以上 (聲音較低沉需要調高其頻率);一般的VTLN實驗時,圖5.6應當呈現男性語者為一 個類似平均

α

值大於1一些的高斯分佈,女性語者為一個類似平均

α

值小於1一些的 高斯分佈,而我們這裡並沒有如此趨勢,有兩種可能:1.語者數不足以產生這種高 斯分佈,2.如同第三章對老人語音特性的分析,老人語音的頻率變化呈現極難預估 的變動,在此仍希望待語料量充足後再來分析。

『實驗實驗實驗實驗九九九九』』』』語者做過語者做過語者做過語者做過VTLN後對後對後對後對TCC-300 acoustic model作辨識作辨識作辨識作辨識

接 下 來 將 把 求 得 的

α

值 對 每 一 位 語 者 的 測 試 語 料 重 新 做 參 數 抽 取 , 並 對 TCC-300 acoustic model作辨識,以下為其結果:

表5.5 語者VTLN對TCC-300 acoustic model作辨識

%Del %Sub %Ins %Corr %Acc 實驗三 4.41 56.57 6.91 39.02 32.12 本實驗 4.18 55.04 7.13 40.77 33.64

由上表可知,在做過VTLN後辨識率提升約略1.5個百分比,這是對於整體的辨 識率,而我們對於每一位語者的

α

值、likelihood的變化以及辨識率的增量之間相關 性更感興趣,以下將把這三者的關係顯示於下圖之中:

圖5.7 warping factor與likelihood increment的關係

圖5.7 warping factor與likelihood increment的關係

圖中likelihood increment%定義如下式:

(likelihood when is best) - (likelihood when = 1) likelihood increment% = %

likelihood when = 1

α α

α

(5.6) 黑點代表相同warping factor語者其likelihood increment的平均值,而黑點上具有的直 條代表著其likelihood increment一倍標準差的範圍。合理來說,上圖中的平均值分佈 應當呈現以α = 為底點的倒1 V字形,也就是α = 時1 likelihood increment = 0,而當

α

值離1越來越遠時,其likelihood increment也將跟著上升,其代表的意義為當

α

值離1 越來越遠時,語者的頻率被warping得較多,與原先的頻率相差愈多。在圖5.7中,

也稍微呈現著以α = 為底點的倒1 V字形,相信只要語者再增加後會有更明顯的形 狀。

以下將比較warping factor與(Acc% increment)%的關係,而(Acc% increment)%定 義如下式:

(Acc% by TCC-300 model with VTLN) - (Acc% by TCC-300 model without VTLN)

(Acc% increment)% = %

Acc% by TCC-300 model without VTLN

(5.7) 合理來說,Acc% increment與likelihood increment應為正相關的關係,但儘管如 此,由國外相關的研究顯示

[16]

,最高的likelihood值求出的

α

值不一定能保證Acc%

increment會是正的,也就是說,不保證每一位語者在做了VTLN後會提升辨識率,

0

其中黑色方形代表男性語者、白色三角形代表女性語者,我們也希望下圖會呈現以 α = 為底點的倒1 V字形,可惜的是成效並沒有那麼明顯,假若忽略負的Acc%

increment,這個圖形將會較接近我們的預期。

-50 0 50 100 150

0.88 0.92 0.96 1 1.04 1.08 1.12 1.16 1.2 warping factor

(Acc% increment)%

圖5.8 warping factor與(Acc% increment)%的關係

這裡顯示了VTLN對每一位語者的資訊,接下來將把VTLN與MLLR一起進行老 人語音語料的調適。

『實驗十實驗十實驗十實驗十』』』』加入加入加入加入VTLN後的後的後的後的MLLR調適調適調適調適

以下先採用VTLN對老人調適與測試語料(亦即為實驗五的語料)做frequency warping得動作,再進行MLLR的調適過程,並以此觀察VTLN與MLLR是否有相輔相 成的效果。以下為加入VTLN後的MLLR調適的結果:

表5.6 加入VTLN後的MLLR調適 Regression

Classes %Del %Sub %Ins %Corr %Acc 32 5.08 47.1 2.65 47.83 45.18 64 5.12 45.64 2.51 49.24 46.73 128 4.96 43.98 2.51 51.06 48.55 256 5.38 40.91 2.23 53.71 51.47

這次實驗的辨識率Acc%可以和(實驗五)以MLLR對老人語料做調適後的辨識率

42.93 44.54 46.57 48.88

45.18 46.73 48.55

51.47

tested by TCC-300

VTLN then tested by TCC-300 adaptation used MLLR

adaptation used VTLN + MLLR

圖5.9 加入VTLN後對辨識與調適的效能增量 VTLN時,

α

值與其對應之likelihood值的變動,詳見附錄四),以此也可預期重複

現接近1的高斯分布,由這兩次VTLN的動作可以比較

α

值的平均值與標準差的變 化,下表統計了男、女語者

α

值對新(VTLN+MLLR調適過後所產生)、舊(TCC-300) 聲學模型產生的變化:

表5.7 二次VTLN過程中warping factor之統計性質

男性語者 女性語者

平均值 標準差 平均值 標準差 對TCC-300聲學模型求

α

值 1.0482 0.0589 0.9239 0.0230

對VTLN+MLLR調適過後

所產生的聲學模型求

α

1.0382 0.0485 0.9222 0.0213

上表可看出女性語者的

α

值沒有因新的聲學模型產生多少改變,但是男性語者 在經過一次VTLN+MLLR的調適之後,老人男性語料與新聲學模型的聲音頻率高低 較TCC-300聲學模型來得更相似,也就是說

α

值更接近1,而且

α

值的標準差較先前 更集中了。並且觀察

α

值與其對應之likelihood值的變動,如圖5.10所示:

圖5.10 新聲學模型的warping factor與likelihood increment的關係

對照圖5.7的Y軸,可清楚發現經VTLN新聲學模型的likelihood increment較第一 次做VTLN時增加了約三倍,對於被調適過聲學模型,上圖之呈現較符合男、女語 者聲道長度正規化,而不是針對老人語音聲道長度的改變。

0 1 2 3 4 5 6 7

0.9 0.92 0.94 0.95 0.96 0.99 1 1.01 1.02 1.04 1.05 1.06 1.08 1.1 1.12 1.14 warping factor

likelihood increment%

『實驗十一實驗十一實驗十一實驗十一』』』』重複重複重複重複VTLN+MLLR調適調適調適調適

重新對第一次VTLN+MLLR調適所產生的新聲學模型求出其

α

值(2nd warping factor),並以此

α

值對調適語料、測試語料做frequency warping,而抽取出warping 過後的語音特徵參數,最後再進行一次MLLR對新聲學模型進行調適,當中的過程

The factor that gives the highest likelihood is selected as the only one warping factor per speaker

2nd warping factor list

Adaptation Data

Test Data

2nd warping factor list

Feature Extraction

Feature Extraction

MLLR adaptation used New Acoustic Model

Recognizer Acc

The factor that gives the highest likelihood is selected as the only one warping factor per speaker

1st warping factor list

Adaptation Data

Test Data

1st warping factor list

Feature Extraction

Feature Extraction

MLLR adaptation used TCC-300 Acoustic Model

New

有七位語者改變了

α

值,這代表著在進行第一、第二次VTLN時,並不會有太大的 改變,預計辨識率的提升也有限,而老人語料經由二次VTLN+MLLR調適之後,可 以得到以下的辨識結果:

表5.8 二次VTLN+MLLR調適之辨識結果比較

classes %Del %Sub %Ins %Corr %Acc 1st VTLN+MLLR

adaptation 256 5.38 40.91 2.23 53.71 51.47 2nd VTLN+MLLR

adaptation 256 5.18 41.65 2.17 53.17 51.00

這次的結果顯示出了對VTLN+MLLR做iteration的動作不會有進一步地好處,這 是由於第一次VTLN+MLLR所產生的新聲學模型是把TCC-300模型作轉換的動作,

使得模型中有332個mixture在此過程中會遺失,也代表著老人語料庫仍不夠大,足 以去實行有效的2nd VTLN+MLLR調適。這個結果顯示了對相同的老人語料只能做一 次MLLR及VTLN。

相關文件