實驗結果與分析 - 實驗設計與結果分析

四. 實驗設計與結果分析

4.2 實驗結果與分析

表 6 高斯白雜訊汙染之語音在不同β值所對應的 PESQ 分數

β 0 dB 5 dB 10 dB 15 dB

2.1 1.96 2.33 2.63 2.84

2.5 1.98 2.34 2.66 2.86

2.9 1.99 2.36 2.65 2.86

3.3 1.99 2.37 2.68 2.87

3.7 1.97 2.37 2.67 2.86

表 7 嘈雜人聲汙染之語音在不同β值所對應的 PESQ 分數

β 0 dB 5 dB 10 dB 15 dB

2.1 1.91 2.3 2.58 2.82

2.5 1.94 2.29 2.59 2.83

noisy speech with white 10 dB

Time (s)

noisy speech with babble 10 dB

Time (s)

表 8 高斯白雜訊與嘈雜人聲背景下的命中率比較

background noise white noise with 10 dB babble noise with 10 dB

1&0 average hit rate 0.81 0.78

1 average hit rate 0.64 0.58

接下來我們利用 PESQ 來評估四種要比較的系統性能，其結果如下：

表 9 在高斯白雜訊的背景下各系統的 PESQ 平均分數

SNR 0 dB 5 dB 10 dB 15 dB

noisy speech 1.58 1.85 2.16 2.5

Wiener filter 1.91 2.27 2.56 2.76

Joint spectro-temporal

Wiener filter

2.26 2.57 2.84 3.08

proposed

method 1.98 2.28 2.52 2.69

Proposed method combined with

Wiener filter

1.99 2.36 2.65 2.86

由表 9 我們可看出 joint spectro-temporal Wiener filter 效能最好，本篇論文所提出的方法結合 Wiener 濾波器其次，而 Wiener 濾波器與本篇論文提出的時域封包調變消噪方法的性能相比之下，在訊雜比較優的情況下，Wiener 濾波器的性能略優，然後當訊雜比較差時，本篇論文的方法則比較好。

詳細的平均 PESQ 分數與不同語句間的 PESQ 標準差繪於下圖 26：

40 Wiener filter

1.95 2.3 2.65 2.98

proposed

method 1.77 2.13 2.43 2.63

Proposed method combined with

Wiener filter

1.95 2.29 2.6 2.84

average PESQ score

Noisex-92 white noise

noisy Wiener filter Joint ST proposed proposed+Wiener

從表 10 我們可發現 joint spectro-temporal Wiener filter 所增加的效能幅度不比在高斯白雜訊的情況，這是由於此方法壓抑了高 rate 與高 scale 的部分，但嘈雜人聲事實上也有分佈於低 rate 與低 scale 跟語音重疊的地方，因為此雜訊特性跟語音相近，所以導致此方法的效能有限，也讓本篇論文提出的方法結合 Wiener 濾波器的性能與 joint spectro-temporal Wiener filter 的性能更為相近。

詳細的平均 PESQ 分數與不同語句間的 PESQ 標準差繪於下圖 27：

接著我們用 Itakura-Saito distance (IS dist.) 來比較本篇所提的方法、本篇所提的方法與 Wiener 濾波器結合以及傳統的 Wiener 濾波器方法這三種系統之間的性

average PESQ score

Noisex-92 babble noise

noisy Wiener filter joint ST proposed proposed+Wiener

能，此評估系統主要是在計算語音失真的程度，其平均 IS dist.結果如下表 11 所示：

表 11 在高斯白雜訊的背景下各系統的平均 IS dist.

SNR 0 dB 5 dB 10 dB 15 dB

noisy speech 6.04 5.25 4.41 3.63

Wiener filter 3.96 3.15 2.48 1.92

proposed method

3.42 3.01 3.17 3.38

proposed method combined with

Wiener filter

3.39 2.61 2.08 1.6

由表 11 我們可看出，我們所提出之系統結合 Wiener 濾波器的效能最優，

而 energy 與 AM 兩層遮蔽消噪則是在訊雜比越差的情況下效能反而越好，正是因為前面有提到的因為語音的主要分佈頻帶與雜訊主要分佈的頻帶一樣，會使得臨界值 Ƞ1與 Ƞ2過高，壓抑的值也會過大，導致不少的語音失真，但隨著訊雜比越差，臨界值 Ƞ1與 Ƞ2所增加的幅度反而不多，遮蔽的部分相較於訊雜比高的環境還要少，因此失真也較少，但剩餘雜訊也因此較多，IS dist.是主要量測語音失真程度的系統，因此在訊雜比較差的環境時 IS dist.結果較好，然後 PESQ 除了量測語音失真亦有考慮剩餘雜訊的問題，因此像這樣因為遮蔽少失真少但剩餘雜訊卻較多的情況也會導致 PESQ 分數不高。

詳細的平均 IS dist.與不同語句間的 IS dist.標準差繪於下圖 28：

圖 28 高斯白雜訊在不同 SNR 之輸入語音於不同系統處理後的 IS dist.平均與標準差

從圖 28 發現，本篇論文所提出之 energy 與 AM 兩層遮蔽 (proposed)去掉少數幾句 IS dist.特別大的輸入語音之後其標準差值仍略大，主要原因是由於 IS dist.

是計算時域上訊號之間的線性估測係數的距離，因此對於幾乎沒有語音分佈的高頻帶上因為遮蔽所造成的失真也考慮在內，使得部分輸入語音經系統處理後，其 IS dist.計算所得的結果相差較多。

15 dB 10 dB 5 dB 0 dB

1 2 3 4 5 6 7 8 9

SNR

Average IS dist.

NOISEX-92 white noise

noisy Wiener filter proposed proposed+Wiener

下面是背景雜訊為嘈雜人聲時各個系統輸出的平均 IS dist.結果表示：

表 12 在嘈雜人聲的背景下各系統的平均 IS dist.

SNR 0 dB 5 dB 10 dB 15 dB

noisy speech 4.26 3.56 2.91 2.36

Wiener filter 3.46 2.71 2.15 1.73

proposed method

4.04 4.02 4.05 4.3

Proposed method combined with

Wiener filter

2.94 2.31 1.75 1.35

表 12 裡，本篇論文所提出的 energy 與 AM 遮蔽結合 Wiener 濾波器的方法為最佳，而只有 energy 與 AM 遮蔽的系統在四種訊雜比的情況下皆為最差，這是由於第二層的 AM 遮蔽無法準確分辨出語音以及非語音部分，因為嘈雜人聲在 AM 的形狀跟語音相當類似，所以只能由 energy 遮蔽作分辨，而 energy 遮蔽在語音失真與剩餘雜訊的選擇上難以達到一個較好的折衷，導致在嘈雜人聲的環境下，若要去除背景雜訊，勢必會造成可察覺的語音失真，因此本篇論文所提出之時域封包消噪法，要消除跟語音有類似特性的背景雜訊上其效能並不理想。

詳細的平均 IS dist.與不同語句間的 IS dist.標準差繪於下圖 29：

圖 29 嘈雜人聲在不同 SNR 之輸入語音於不同系統處理後的 IS dist.平均與標準差

從圖 29 我們可發現在去掉少數幾句 IS dist.特別大之輸入語音後，proposed 的方法在嘈雜人聲的環境下跟在高斯白雜訊的環境下一樣都是標準差值偏大，主要原因正是 IS dist.對於較無語音分佈的高頻帶所作的遮蔽造成的失真程度也計算在內，而作在嘈雜人聲環境下的 proposed 方法因為只能根據第一層的 energy 遮蔽來消除雜訊，因此其性能比起作在高斯白雜訊的情況還要來的更差，但若與 Wiener 濾波器結合後，可顯著改善傳統 Wiener 濾波器的性能。

15 dB 10 dB 5 dB 0 dB

1 2 3 4 5 6 7 8 9

SNR

Average IS dist.

NOISEX-92 babble noise

noisy Wiener filter proposed proposed+Wiener

下表 13 為實驗中比較過的四種系統計算時所耗的總時間：

表 13 各系統計算所需時間，輸入之語句長度為 2.5 秒左右 System cost time (s)

Wiener filter 4.26

joint spectro-temporal

Wiener filter

28.06

proposed method

22.28 Proposed method

combined with Wiener filter

24.07

雖然跟 Wiener 濾波器相比，energy 與 AM 兩層遮蔽的方法仍比較慢，但比起 joint spectro-temporal Wiener，其計算速度略快，這是由於後者有進入四維分析處理，計算複雜度較高，且需要完整的語音資訊才能開始計算，這將會導致語音處理上的延遲，因此無法達成即時性的計算，而 energy 與 AM 遮蔽則只有在二維部分作分析處理，且計算過程亦能符合即時性的需求，用來運算的硬體規格為：Intel(R) Core (TM) i7-2600 CPU @ 3.40 GHz，至於用來計算 joint spectro-temporal Wiener 的硬體規格則為：Intel(R) Core (TM)2 Quad CPU Q 9400 @ 2.66 GHz。

下表 14 是 Wiener 濾波器、本篇論文所提出的方法以及此方法與 Wiener 結合的系統單一音框內所使用的乘法運算子次數之比較：

表 14 各系統之乘法運算子數目比較

System Number of multiplies

Wiener filter 3547

proposed method 29376 Proposed method combined

with Wiener filter 32923

在文檔中時域封包上的雜訊消除 (頁 47-58)