不同雜訊種類下的實驗結果分析

如上圖，將雜訊來源換成另一個非使用者之語音輸入，並測試聲源分離的效果是否會因而降低。

下頁圖 4-6 為此實驗之實際聲音檔案波形圖，圖 4-6 中左上圖為要留下的使用者語音，右上圖則是要抑制的語音 2，圖中可以看出，TFR 及 Dahl 兩種方法皆欲將右上的語音 2 抑制而留下左上的語音 1，但 TFR 的效果較為明顯，再觀察接下來的表 4-4，在干擾源為較單純的語音 2 下，TFR 的 NR 效果又比干擾源為背景音樂更加明顯，達到約 17dB，皆比 Dahl 好了約 8dB 以上。

語音2

語音1 約20cm

USB

約30度

約20cm 約30度

圖 4-5 以人聲為雜訊來源實驗環境示意圖

實驗 noise input TFR TFR Dahl Dahl

編號 energy SNR NR SNR NR SNR

1 -3.9798 17.1904 -3.8278 9.5149 -6.3004 2

-18dB

1.0201 17.191 -3.361 8.4397 -5.8099

3 -3.9797 17.19 -3.828 9.517 -6.2992

4 1.0202 17.1893 -3.3619 8.4402 -5.8094 5

-23dB

6.0201 17.1901 -3.0447 7.8476 -5.2886 6 -3.9796 17.1855 -3.8295 9.5159 -6.2987 7 1.0202 17.1872 -3.3624 8.4387 -5.8105 8

-28dB

6.0201 17.1868 -3.0457 7.8484 -5.2875 TFR

Dahl

圖 4-6 干擾源為人聲之純化結果比較圖

表 4-4 干擾源為人聲之實驗結果

4.2.2 雜訊來源為單一頻率的噪音

雜訊來源為單一頻率的噪音雜訊來源為單一頻率的噪音雜訊來源為單一頻率的噪音

將干擾源換成單一頻率的雜訊，測試本系統之聲源分離效果是否會因而降低。在選擇頻率時，首先先觀察語音資料之頻譜圖，觀察語音訊號主要是由哪些頻率組成的：

圖 4-8 為語音訊號的頻譜圖以及局部放大圖，圖中可以看出，語音訊 a 號在 300、500、700 等頻率都有一條聲紋，大於 1500 左右的頻率就沒有明顯的聲紋出現。於是我們選擇 300、500 這兩個和語音資料重疊的頻率，

以及 2200 這個和語音資料不同的頻率來做干擾源，測試系統對這幾種干擾源的抑制能力。下頁表 4-5 是干擾源為 300Hz 及 500Hz 的單頻聲音之實驗結果：

圖 4-7 語音訊號之波型圖、頻譜圖及頻譜圖之局部放大圖

實驗 noise input TFR TFR Dahl Dahl

編號 frequency SNR NR SNR NR SNR

1 -8.8678 17.4477 -4.3897 17.001 -5.1809 2 -3.8679 17.4394 -3.723 16.2011 -4.7243 3

300Hz

1.132 17.4353 -3.3007 15.3527 -4.3892 4 -8.6766 15.0818 -4.9736 15.579 -5.678 5 -3.6767 14.8133 -4.4089 14.4926 -5.2184 6

500Hz

1.3232 14.6594 -4.0404 13.4481 -4.8934

上表 4-5 即為分別以 300Hz、500Hz 之單頻訊號為雜訊之實驗結果數據，由表中可以發現，無論是 TFR 或 Dahl 哪種方法，用 NR 或 SNR 來測量效能，對 500Hz 的雜訊源的抑制效果都比對 300Hz 的雜訊之抑制效果稍差。推測應是因為語音訊號應該落在 500Hz 附近，再對照圖 4-7，500Hz 附近的語音聲紋的確比 300Hz 附近的聲紋明顯。下圖 4-8 為表 4-5 中實驗 1 的實驗波型圖。

純化後(TFR)

原語音訊號受雜訊干擾

純化後(Dahl)

表 4-5 干擾源分別為 300Hz、500Hz 之單頻訊號的實驗結果

圖 4-8 以 300Hz 之單頻訊號為雜訊源之純化結果比較圖

在圖 4-7 中我們發現在頻率超過 1500Hz 之後，語音訊號就沒有明顯的聲紋了，所以我們取一個和語音訊號沒有重疊的頻率的單頻訊號來當干擾源，測試聲源分離的效果，表 4-7 為使用 2200Hz 之單頻訊號作為干擾源的實驗結果：

實驗 noise input TFR TFR Dahl Dahl

編號 frequency SNR NR SNR NR SNR

7 -8.9297 23.7141 -4.63 30.1413 -4.614

8 -3.9298 23.634 -4.3514 29.1045 -4.4015 9

2200Hz

1.0701 23.5915 -4.1962 27.6524 -4.3234

由表 4-6 及圖 4-9 中皆可以明顯發現，當干擾源為語音訊號並未包含的 2200Hz 之單頻訊號時，聲源分離的效果比干擾源為語音訊號包含的 300Hz、500Hz 好很多，約可以增加 5dB 以上的 NR 值。甚至在以 2200Hz 之單頻訊號做為干擾源時，出現了首次 Dahl 的效能在 NR 及 SNR 都比 TFR 來的優秀的情形，這表示在干擾源為單純訊號，且頻域和語音訊號較無重疊的時候，Dahl 的效能會明顯變好；換句話說，就是 TFR 即使在干擾源為複雜的背景音樂，頻域和欲留下的語音訊號有重疊，或是輸入之 SNR 較大等等情況，效能都不會有太明顯的降低，仍然可以抑制雜訊達 13dB 以上的 NR 值。代表此方法確實可以在各種情況之下，有效的達到抑制雜訊，並做到聲源分離的目標。

表 4-6 干擾源為單一頻率 2200Hz 時的實驗結果

受雜訊干擾

純化後(Dahl) 純化後(TFR)

原語音訊號

圖 4-9 干擾源為單一頻率 2200Hz 時的純化結果比較圖

4.3 結結結結論論論論與未來展望與未來展望與未來展望與未來展望

本論文已實作完成利用轉移函數比值的方法實現雙聲道麥克風之聲源分離系統。經實驗證實，本系統在不同雜訊種類、不同 SNR、不同頻率下，

都可以有效的抑制雜訊達 10dB 以上，強化語者語音資訊，提升語音品質。

本系統仍有許多可以再發展的空間，目前電腦端演算法的實現是先收集一段資料後將其寫入檔案，再經過讀取檔案算出轉移函數比值，最後做語音純化的動作。系統可以經過程式上的修改加強，並配合真人語音活動偵測(VAD, Voice Activity Detection)，做到即時性的聲源分離及語音純化，

希望能藉由此平台建立一個具有即時聲源分離功能的麥克風模組，應用在網路即時通訊之回音消除，吵雜環境之語音純化等方面。

參考文獻參考文獻參考文獻參考文獻

[1] David Burshtein, Signal Enhancement Using Beamforming and Nonstationarity with Applications to Speech,2001.

[2] 黃啟揚, 以雙核心平台實現即時影音追蹤與語音純化系統, 交大碩士論文,2008.

[3] 康創閔, 應用於個人電腦環境之即時語音純化系統設計, 交大碩士論文,2004.

[4] 楊佳興, 使用麥克風陣列實現即時語音純化與真人語音活動偵測系統, 交大碩士論文,2005.

[5] Microchip, PIC18F4550 Data Sheet.

[6] 劉維瀚, 具多重限制之最小平方法空間濾波器設計, 交大碩士論文,2002.

[7] 葉順智, 具備 USB 介面之雙聲道全數位式音頻放大器設計, 交大碩士論文,2004.

在文檔中以轉移函數比值之方法實現雙聲道麥克風聲源分離系統 (頁 40-47)

雜訊來源為單一頻率的噪音 雜訊來源為單一頻率的噪音 雜訊來源為單一頻率的噪音

參考文獻 參考文獻 參考文獻 參考文獻

雜訊來源為單一頻率的噪音雜訊來源為單一頻率的噪音雜訊來源為單一頻率的噪音

參考文獻參考文獻參考文獻參考文獻