語音特徵參數的影響

第四章實驗與結果討論

4.3 語音特徵參數的影響

{ }

∑ ∑

∑

−

∈

= ¹ ∈ 0

I 2 I

10 ( )

) ( log

1 ^M 10

m m m

N n

n S

SNR M

(4.1)

其中

{ } I

代表語音訊號中含有語音的音框所成的集合，M 代表所有語音音框的總

數，而和分別為第個音框的語音和雜訊的能量。這種計算方式只

考慮含有語音的音框去計算訊雜比，因此能夠較準確地合成出符合設定訊雜比的含雜訊語音。

)

n

S

N

_m²(

n

)

m

4.3 語音特徵參數的影響

調整濾波器的頻率響應，而隨時間變化的特性能夠表現在語音特徵中的差量參數中，因為差量參數就是抓取鄰近音框參數間差異的資訊。爲了驗證語音頻譜隨時間變化與差量參數的相關性，以及對語音辨識的影響，我們分別使用 13 維的語音特徵參數(12 MFCC+1 維對數能量)、26 維的語音特徵參數(13 維語音特徵參數以及其一階差量參數)以及 39 維的語音特徵參數(13 維語音特徵參數以及其一階與二階差量參數)進行語音辨識，並比較本論文提出的方法與其他語音強化法在辨識準確率的差異。

實驗中除了使用強化型MMSE語音強化法之外，還會與其他 2 種方法比較，

分別是固定減去一倍雜訊的語音刪減法以及MMSE估計法，實驗結果的表格中亦會列出不做語音強化就進行辨識的結果。表格中方法的名稱代號分別是NNR、

SS、MMSE和EMMSE，其簡述如表 4-3 所列。爲了讓各個方法都能在公平的基準上進行比較，所以我們一致採用Martin[6]提出的雜訊估計法。此方法是屬子頻帶的估計方式，它利用前 1.5 秒的最小值作為雜訊估計的基礎值，再乘上一個倍率進行調整。

表 4-3: 實驗採用的語音強化方法代號及描述

方法代號方法描述

NNR 未經過語音強化處理 SS 固定減去一倍的雜訊估計

MMSE 依照 SNR 值調整濾波器頻率響應

EMMSE 以 MMSE 為基礎，再依據訊號區域的變動特性進行調整此實驗使用的語音模型為乾淨語音訓練(CST)模型，並以 SetA 中四種雜訊合成的含雜訊語音作為測試語音。表 4-4、表 4-5 及表 4-6 分別為使用 13 維、26 維和 39 維語音參數的辨識結果。表中所列之 H-SNR 與 L-SNR 是所有的雜訊種類，分別針對訊雜比是 20dB~15dB 以及訊雜比是 10dB~-5dB 情況下，取辨識結

果平均後的數據。

表 4-4: CST 模型，測試語音為 SetA，使用 13 維語音參數的結果

辨識準確率 NNR SS MMSE EMMSE H-SNR 68.88 74.73 74.59 73.24 L-SNR 28.82 43.19 42.70 43.65 Improvement to

NNR at L-SNR 0 14.37 13.88 14.83

表 4-5: CST 模型，測試語音為 SetA，使用 26 維語音參數的結果

辨識準確率 NNR SS MMSE EMMSE H-SNR 87.34 85.51 86.16 86.03 L-SNR 34.37 47.28 48.40 50.74 Improvement to

NNR at L-SNR 0 12.91 14.03 16.37

表 4-6: CST 模型，測試語音為 SetA，使用 39 維語音參數的結果

辨識準確率 NNR SS MMSE EMMSE H-SNR 89.42 85.87 87.21 86.54 L-SNR 30.32 39.76 43.47 46.84 Improvement to

NNR at L-SNR 0 9.44 13.15 16.52

由表 4-4 和表 4-5 相比，不論是在高訊雜比或是在低訊雜比的情況下，使用 26 維的語音參數，相較於 13 維的語音參數，都能提升辨識率，因此差量參數能在雜訊環境下，提供抵抗雜訊的能力。但是由表 4-5 和表 4-6 相比，使用 39 維的語音參數相較於使用 26 維的語音參數，在高訊雜比時，能夠有較好的辨識率，

但在低訊雜比時，辨識率反而變差了。這是因為在低訊雜比時，雜訊的干擾是很嚴重的，因此會對 39 維中的二階差量參數造成更多失真，導致辨識率反而下降。

識率，都會比直接拿含雜訊語音進行辨識還差一點。因為在此情況下，雜訊值相對於語音是很小的，所以很容易錯估雜訊值，反倒使得強化後對語音產生更多的失真，而使辨識率更差。

在低訊雜比的情況下，使用 13 維的語音參數，經過 SS、MMSE 和 EMMSE 強化後，相對於 NNR 在辨識率上的提升都是差不多的(約 14.37%)，也就代表了 EMMSE 針對單一個頻率槽隨時間變動的調整方式並不會對前 13 維的語音特徵參數造成太多的影響；但是在使用 26 維的語音參數下，由於差量參數已經具備了部分抵抗雜訊的能力，使得 26 維的 NNR 相比於 13 維的 NNR 已有大幅提升。

所以就辨識率的提升而言，MMSE 估計法在使用 26 維語音參數與 13 維語音參數下，辨識率的提升幾乎是差不多的(13.87%與 14.02%)。而 SS 在使用 26 維語音參數下，辨識率的提升甚至比使用 13 維語音參數時少了 1.5%，但是 EMMSE 在使用 26 維語音參數下，卻仍有將近 1.5%的提升。這個情形在使用 39 維的語音參數下更為明顯，SS、MMSE 和 EMMSE 相對於 NNR 的提升分別為 9.44%、

13.14%和 16.52%。由此可知，經由 EMMSE 語音強化法強化後的語音訊號，確實能夠加強差量參數受雜訊干擾的能力。這是因為 MMSE 語音強化法利用了語音及雜訊隨時間變動的資訊去調整濾波器的頻率響應，而差量參數是抽取相鄰音框間語音特徵的差異，亦代表了語音訊號隨時間變化的資訊。在使用 26 維的語音特徵參數下，EMMSE 的辨識率與使用 39 維時差不多，在低訊雜比時甚至比 39 維高，因此在接下來的實驗中，我們使用的是 26 維的語音特徵參數，包含 12 維的 MFCC 和 1 維的對數能量，以及這 13 維的一階差量參數。

在文檔中語音強化技術在相加性雜訊環境下的語音辨識之研究 (頁 40-43)

第四章 實驗與結果討論

4.3 語音特徵參數的影響

∑ ∑

∑

N n

n S

SNR M

{ } I

n

S

N

n

m

4.3 語音特徵參數的影響

第四章實驗與結果討論