結合空間濾波與 POST - FILTERING 測試結果 - 實驗結果與分析 - 結合適應性波束形成與後濾波進行語音強化

第四章實驗結果與分析

4.2 結合空間濾波與 POST - FILTERING 測試結果

為了進一步強化語音，在此結合了單聲道強化語音的方法做空間濾波的後處理。以下將分別用長時間語音活動偵測(long-term voice activity

detection, LTVAD)與最小控制之遞迴平均法(minima controlled recursive averaging, MCRA)做噪音估測，並主要針對頻譜刪減(spectral subtraction, SS)與對數頻譜幅值(log-spectral amplitude, LSA)的結果做比較。以下分別用高速公路雜訊與音樂雜訊作測試。

測試一：高速公路雜訊

測試雜訊為高速公路錄製雜訊，經由空間濾波器處理後(如圖4-4)，分別以不同雜訊估測方法搭配不同增益函數(gain function)測試語音純化效果。

1. LTVAD+SS

圖 4-7 為空間濾波器後再經由後處理的結果，其中雜訊以長時間語音活動偵測做雜訊估測，並以頻譜刪減做增益函數。訊號的 SNR = 21.57 dB，

與空間濾波的結果(圖 4-4)做比較，增加了 6.66 dB。

圖 4-8 為處理後訊號的頻譜分布圖，可看出背景部份白訊號的成分已被消去，然而大部分的聲紋都被完整保留下來。

圖 4-7：高速公路雜訊空間濾波後再經過後處理，LTAD+SS

圖 4-8：頻譜分布圖。高速公路雜訊，LTVAD+SS

2. LTVAD+LSA

圖 4-9 為空間濾波器後再經由後處理的結果，其中雜訊以長時間語音活動偵測做雜訊估測，並以對數頻譜幅值做增益函數。訊號的 SNR = 33.13 dB，與空間濾波的結果(圖 4-4)做比較，增加了 18.22 dB。

圖 4-10 為處理後訊號的頻譜分布圖，可看到非語音的部份幾乎都被消去，但這也包含了一些聲音中氣音的部份，然而大部分的聲紋仍被保留下來。

圖 4-9：高速公路雜訊空間濾波後再經過後處理，LTAD+LSA

圖 4-10：頻譜分布圖。高速公路雜訊，LTVAD+LSA

3. MCRA+SS

圖 4-11 為空間濾波器後再經由後處理的結果，其中雜訊以最小控制之

遞迴平均法做雜訊估測，並以頻譜刪減做增益函數。訊號的 SNR = 19.74

dB，與空間濾波的結果(圖 4-4)做比較，增加了 4.83 dB。

圖 4-12 為處理後訊號的頻譜分布圖，與 LTVAD+SS 的結果做比較(圖 4-8)，可發現在部分聲紋能量較強的頻帶之後沒有語音成分的音框，有明 顯的壓抑，而其他部分則較不顯著。

圖 4-11：高速公路雜訊空間濾波後再經過後處理，MCRA+SS

圖 4-12：頻譜分布圖。高速公路雜訊，MCRA+SS

4. MCRA+LSA

圖 4-13 為空間濾波器後再經由後處理的結果，其中雜訊以最小控制之

遞迴平均法做雜訊估測，並以對數頻譜幅值做增益函數。訊號的 SNR =

33.93 dB，與空間濾波的結果(圖 4-4)做比較，增加了 19.02 dB。

圖 4-14 為處理後訊號的頻譜分布圖，可看到非語音的部份幾乎都被消 去，與用 LTVAD+LSA 的結果相比(圖 4-10)，效果差不多。

圖 4-13：高速公路雜訊空間濾波後再經過後處理，MCRA+LSA

圖 4-14：頻譜分布圖。高速公路雜訊，MCRA+LSA

高速公路雜訊測試總結：

由表 4-1 可看出，高速公路雜訊類似白訊號(white noise)，沒有顯著的 方向性，利用 Dahl’s Beamformer 後，語音品質即有顯著的提升。純化聲源方向後，再利用單通道語音強化方法做後處理。由於這些方法在估測噪音時，是利用語音能量大小或是能量差來做判斷，對於這種穩態的雜訊可以做到很好的估測，使得後端通過增益函數能有不錯的效果。至於對數頻譜幅值(LSA)部分，幾乎是將雜訊消除，但一些語音資訊中的氣音容易被消去，造成的失真也較大。

SNR(dB)

SNR improved from Beamformer

output(dB)

Original Speech 3.85 -

Dahl’s Beamformer 14.91 -

LTVAD+SS 21.57 6.66

LTVAD+LSA 33.13 18.22

MCRA+SS 19.74 4.83

MCRA+LSA 33.93 19.02 表 4-1：高速公路雜訊，訊噪比(SNR)比較表

測試二：音樂雜訊

測試雜訊為播放音樂(孫燕姿-奔)，經由空間濾波器處理後(如圖4-6)，

分別以不同雜訊估測方法搭配不同增益函數(gain function)測試語音純化效果。

1. LTVAD+SS

圖 4-15 為空間濾波器後再經由後處理的結果，其中雜訊以長時間語音活動偵測做雜訊估測，並以頻譜刪減做增益函數。訊號的 SNR = 15.66 dB，

與空間濾波的結果(圖 4-6)做比較，增加了 2.38 dB。

圖 4-16 為處理後訊號的頻譜分布圖，背景雜訊部份被些微的壓抑，效 果沒有很明顯。

圖 4-15：音樂雜訊空間濾波後再經過後處理，LTVAD+SS

圖 4-16：頻譜分布圖。音樂雜訊，LTVAD+SS

2. LTVAD+LSA

圖 4-17 為空間濾波器後再經由後處理的結果，其中雜訊以長時間語音活動偵測做雜訊估測，並以對數頻譜幅值做增益函數。訊號的 SNR = 19.44 dB，與空間濾波的結果(圖 4-6)做比較，增加了 6.16 dB。

圖 4-18 為處理後訊號的頻譜分布圖，由於音樂中夾雜人聲，在判定有語音的音框中仍包含唱歌者的聲紋特徵；而判定沒有語音的音框中，由於空間濾波器已先對聲源方向作純化，因此只剩下一些聲紋特徵較明顯的部份。

圖 4-17：音樂雜訊空間濾波後再經過後處理，LTVAD+LSA

圖 4-18：頻譜分布圖。音樂雜訊，LTVAD+LSA 3. MCRA+SS

圖 4-19 為空間濾波器後再經由後處理的結果，其中雜訊以長最小控制

之遞迴平均法做雜訊估測，並以頻譜刪減做增益函數。訊號的 SNR = 16.14

dB，與空間濾波的結果(圖 4-6)做比較，增加了 2.86 dB。

圖 4-20 為處理後訊號的頻譜分布圖，由圖中可見背景的顏色變深，頻譜圖看起來較清晰，表示背景偏白訊號的成分被消除。至於聲紋特徵明顯的部份幾乎沒有被壓抑，包含音樂中的人聲。與 LTVAD+SS 的結果比較，

較能將訊號中白訊號的成分消除。

圖 4-19：音樂雜訊空間濾波後再經過後處理，MCRA+SS

圖 4-20：頻譜分布圖。音樂雜訊，MCRA+SS 4. MCRA+LSA

圖 4-21 為空間濾波器後再經由後處理的結果，其中雜訊以最小控制之

遞迴平均法做雜訊估測，並以對數頻譜幅值做增益函數。訊號的 SNR =

19.87 dB，與空間濾波的結果(圖 4-6)做比較，增加了 6.59 dB。

圖 4-22 為處理後訊號的頻譜分布圖，由圖可看出聲紋特徵較明顯的部 份都被保留下來，效果比 LTVAD+LSA 要好一點。

圖 4-21：音樂雜訊空間濾波後再經過後處理，MCRA+LSA

圖 4-22：頻譜分布圖。音樂雜訊，MCRA+LSA

音樂雜訊測試總結：

由於音樂中夾雜人聲，且為非穩態雜訊，因此語音純化的效果會比高 速公路雜訊的情況差。在頻譜刪減(SS)下改善有限，以對數頻譜幅值(LSA) 較有顯著的效果。

其中值得注意的是，若只做單聲道強化語音的方法(如 SS 或 LSA)，會因為背景音樂的人聲部分未被壓抑，使得大部分音樂中人聲的聲紋被保留，純化效果大大下降。這也是為什麼要結合空間濾波的原因及優勢。

SNR(dB)

SNR improved from Beamformer

output(dB)

Original Speech 8.61 -

Dahl’s Beamformer 13.28 -

LTVAD+SS 15.66 2.38

LTVAD+LSA 19.44 6.16

MCRA+SS 16.14 2.86

MCRA+LSA 19.87 6.59 表 4-2：音樂雜訊，訊噪比(SNR)比較表

在文檔中結合適應性波束形成與後濾波進行語音強化 (頁 43-54)

結合空間濾波與 POST - FILTERING 測試結果

第四章 實驗結果與分析

4.2 結合空間濾波與 POST - FILTERING 測試結果

第四章實驗結果與分析