• 沒有找到結果。

第四章 實驗與結果討論

4.3 語音特徵參數的影響

{ }

∑ ∑

=

= 1 0

I 2 I

2

10 ( )

) ( log

1 M 10

m

m m m

m

dB

N n

n S

SNR M

(4.1)

其中

{ } I

代表語音訊號中含有語音的音框所成的集合,M 代表所有語音音框的總

數,而 和 分別為第 個音框的語音和雜訊的能量。這種計算方式只

考慮含有語音的音框去計算訊雜比,因此能夠較準確地合成出符合設定訊雜比的 含雜訊語音。

)

2(

n

S

m

N

m2(

n

)

m

4.3 語音特徵參數的影響

調整濾波器的頻率響應,而隨時間變化的特性能夠表現在語音特徵中的差量參數 中,因為差量參數就是抓取鄰近音框參數間差異的資訊。爲了驗證語音頻譜隨時 間變化與差量參數的相關性,以及對語音辨識的影響,我們分別使用 13 維的語 音特徵參數(12 MFCC+1 維對數能量)、26 維的語音特徵參數(13 維語音特徵參數 以及其一階差量參數)以及 39 維的語音特徵參數(13 維語音特徵參數以及其一階 與二階差量參數)進行語音辨識,並比較本論文提出的方法與其他語音強化法在 辨識準確率的差異。

實驗中除了使用強化型MMSE語音強化法之外,還會與其他 2 種方法比較,

分別是固定減去一倍雜訊的語音刪減法以及MMSE估計法,實驗結果的表格中亦 會列出不做語音強化就進行辨識的結果。表格中方法的名稱代號分別是NNR、

SS、MMSE和EMMSE,其簡述如表 4-3 所列。爲了讓各個方法都能在公平的基 準上進行比較,所以我們一致採用Martin[6]提出的雜訊估計法。此方法是屬子頻 帶的估計方式,它利用前 1.5 秒的最小值作為雜訊估計的基礎值,再乘上一個倍 率進行調整。

表 4-3: 實驗採用的語音強化方法代號及描述

方法代號 方法描述

NNR 未經過語音強化處理 SS 固定減去一倍的雜訊估計

MMSE 依照 SNR 值調整濾波器頻率響應

EMMSE 以 MMSE 為基礎,再依據訊號區域的變動特性進行調整 此實驗使用的語音模型為乾淨語音訓練(CST)模型,並以 SetA 中四種雜訊合 成的含雜訊語音作為測試語音。表 4-4、表 4-5 及表 4-6 分別為使用 13 維、26 維和 39 維語音參數的辨識結果。表中所列之 H-SNR 與 L-SNR 是所有的雜訊種 類,分別針對訊雜比是 20dB~15dB 以及訊雜比是 10dB~-5dB 情況下,取辨識結

果平均後的數據。

表 4-4: CST 模型,測試語音為 SetA,使用 13 維語音參數的結果

辨識準確率 NNR SS MMSE EMMSE H-SNR 68.88 74.73 74.59 73.24 L-SNR 28.82 43.19 42.70 43.65 Improvement to

NNR at L-SNR 0 14.37 13.88 14.83

表 4-5: CST 模型,測試語音為 SetA,使用 26 維語音參數的結果

辨識準確率 NNR SS MMSE EMMSE H-SNR 87.34 85.51 86.16 86.03 L-SNR 34.37 47.28 48.40 50.74 Improvement to

NNR at L-SNR 0 12.91 14.03 16.37

表 4-6: CST 模型,測試語音為 SetA,使用 39 維語音參數的結果

辨識準確率 NNR SS MMSE EMMSE H-SNR 89.42 85.87 87.21 86.54 L-SNR 30.32 39.76 43.47 46.84 Improvement to

NNR at L-SNR 0 9.44 13.15 16.52

由表 4-4 和表 4-5 相比,不論是在高訊雜比或是在低訊雜比的情況下,使用 26 維的語音參數,相較於 13 維的語音參數,都能提升辨識率,因此差量參數能 在雜訊環境下,提供抵抗雜訊的能力。但是由表 4-5 和表 4-6 相比,使用 39 維 的語音參數相較於使用 26 維的語音參數,在高訊雜比時,能夠有較好的辨識率,

但在低訊雜比時,辨識率反而變差了。這是因為在低訊雜比時,雜訊的干擾是很 嚴重的,因此會對 39 維中的二階差量參數造成更多失真,導致辨識率反而下降。

識率,都會比直接拿含雜訊語音進行辨識還差一點。因為在此情況下,雜訊值相 對於語音是很小的,所以很容易錯估雜訊值,反倒使得強化後對語音產生更多的 失真,而使辨識率更差。

在低訊雜比的情況下,使用 13 維的語音參數,經過 SS、MMSE 和 EMMSE 強化後,相對於 NNR 在辨識率上的提升都是差不多的(約 14.37%),也就代表了 EMMSE 針對單一個頻率槽隨時間變動的調整方式並不會對前 13 維的語音特徵 參數造成太多的影響;但是在使用 26 維的語音參數下,由於差量參數已經具備 了部分抵抗雜訊的能力,使得 26 維的 NNR 相比於 13 維的 NNR 已有大幅提升。

所以就辨識率的提升而言,MMSE 估計法在使用 26 維語音參數與 13 維語音參 數下,辨識率的提升幾乎是差不多的(13.87%與 14.02%)。而 SS 在使用 26 維語 音參數下,辨識率的提升甚至比使用 13 維語音參數時少了 1.5%,但是 EMMSE 在使用 26 維語音參數下,卻仍有將近 1.5%的提升。這個情形在使用 39 維的語 音參數下更為明顯,SS、MMSE 和 EMMSE 相對於 NNR 的提升分別為 9.44%、

13.14%和 16.52%。由此可知,經由 EMMSE 語音強化法強化後的語音訊號,確 實能夠加強差量參數受雜訊干擾的能力。這是因為 MMSE 語音強化法利用了語 音及雜訊隨時間變動的資訊去調整濾波器的頻率響應,而差量參數是抽取相鄰音 框間語音特徵的差異,亦代表了語音訊號隨時間變化的資訊。在使用 26 維的語 音特徵參數下,EMMSE 的辨識率與使用 39 維時差不多,在低訊雜比時甚至比 39 維高,因此在接下來的實驗中,我們使用的是 26 維的語音特徵參數,包含 12 維的 MFCC 和 1 維的對數能量,以及這 13 維的一階差量參數。

相關文件