研究成果與未來展望

第二章雜訊能量估測器(Noise Power estimator)

本雜訊估測能量器的架構來自於 Kim 和 Jeong 等人的雜訊能量估測器[5]，

並對其做一些修改，分為三個部分，目標聲源阻斷器(Target Blocker)、固定式方向補償器(Fixed Directivity Compensator)和適應性方向補償器(Adaptive Directivity Compensator)，如圖 2-1 所示：

圖 2-1：雜訊能量估測器架構圖

假設目標聲源位於麥克風陣列的中間正前方，如下圖表示：

圖 2-2：環境示意圖

在雙麥克風的場合，將 Target Blocker 定義為將兩麥克風收的頻譜訊號相減，經

2.1 固定式方向補償器(Fixed Directivity Compensator)[5]

假設一雙麥克風裝置，在遠場假設下，聲音的波形近似於平面波，如果聲音來源方向並非正前方，此音波到達兩麥克風的所耗時間會不同，我們可由聲音的來源方向計算出此音波到達兩麥克風的時間差（IDT, Interaural Time Difference）。

圖 2-3：到達時間差示意圖

其中 C 代表聲速，d 代表兩顆麥克風間距，f_s為取樣頻率，經過 Fourier Transform

其中N_FFT 為作 FFT(Fast Fourier Transform)時所使用的點數，在時域上的延遲經過 Fourier Transform 之後成為頻域上相位差，利用 2-3 式計算前述 Target Blocker 在各頻帶所造成的各方向增益函數如下：

也造成不同的增益，尤其在低頻的部分被壓抑較多，高頻的部分，也會隨麥克風

2.2 適應性方向補償器(Adaptive Directivity Compensator)

再上一章節固定式方向補償器的部分，我們利用ITD計算Target blocker在各頻

最後得到的雜訊能量估測結果如下：

2.3.1 Wiener filter求參數

此為使用反矩陣的解法，可以得到在所選取的範圍內最小均方差(MMSE)的

對：

此時的α(Forgetting Factor)可以取較大的值或是直接設為 1，因為取 M-1 個音框

態雜訊時就比較沒有辦法估計的完整。

29) -(2

)

, ˆ( ) , ˆ ( ) ,

( ^*

2 t k N t k N t k

N 



由 2-9 式同樣方法可得語音純化的輸出Sˆ。實驗結果將在第四章呈現，並進行比較與討論。

第三章語音活動偵測(VAD, Voice activity detection)

VAD 在語音訊號處理上有很重要的幫助，例如在語音辨識中，將輸入語料經過 VAD 切割之後再進行辨識，可以提升辨識率，在作語音純化處理時，也可以將不屬於語音的雜訊刪除。VAD 有許多不同的做法，在單麥克風裝置上，較常見使用的判斷特徵包含能量、過零率、亂度或長時間語音資訊(long-term speech information)等，而在多麥克風裝置上，則多了空間資訊可供判斷，可以根據估計訊號來源方向(DOA, direction of arrival)來推測該訊號是否由目標聲源所發出。本文所使用特徵為接下來章節所介紹的 TJR。

3.1 Target to Jammer Ratio (TJR)

圖 3-1：Generalized Sidelobe Canceller 架構示意圖。

原始 TJR 是定義是於 GSC 的架構下[7]，圖 3-1 為 GSC 的架構簡圖，主要分為三個部分，Fixed Beamformer、Blocking Matrix 和 Adaptive Noise Canceller，

Fixed Beamformer 為對目標聲源方向的 Delay-and-Sum Beamformer，輸出y_FB包含了各種雜訊和增強後的目標聲源，Blocking Matrix 則是將目標聲源去除，只留下雜訊部份y_BW，Adaptive Noise Canceller 以將輸出y的能量最小化為目的調整權重，將y_BW結合成估計的雜訊y_NC，輸出y y_FBy_NC。

而 TJR 為代表目標聲源的 GSC 輸出y，與代表雜訊的 Adaptive Noise Canceller 輸出y_NC之能量比值，代表意義類似於能量的訊噪比(Signal-to-noise ratio, SNR)，

表示如下式：

在雙麥克風裝置，且目標聲源在正前方的場合，Target Blocker 部分即為第二章中所提到的：

Fixed Beamformer 則使用對正前方的 Delay-and-Sum Beamformer：

將 TJR 定義如此簡化最大的好處在於容易計算其理論增益，進而設定正確的門檻值(threshold)，如果訊號經過 Adaptive Noise Canceller 之後，其在頻譜上各角度的增益會變得比較複雜，正負角度的增益會有些不對稱，各頻帶之間也差異很大，如果包含 Adaptive Noise Canceller 一起計算理論增益以設定門檻值，則容易使誤差累積，VAD 判斷錯誤導致參數更新錯誤，進而錯誤設定門檻值，又造成 VAD 判斷錯誤，如果不使用理論增益，則需平均、Hang over 機制等長時間的資訊，需要付出輸出時間延遲的代價。簡化 TJR，也可以將門檻值 Offline 計算，節省許多運算時間。

圖 3-2：Adaptive Noise Canceller 輸出理論增益，八顆麥克風 GSC。

由理論上來估計 TJR 在各頻帶與各角度所造成的增益函數：

圖 3-3：TJR 之方向增益圖形，左圖為立體圖，右圖為等高線圖，d=0.03m。

由圖3-3，可以看出TJR的增益圖型在目標方向是非常尖銳的，因此它對於目標聲源角度偵測有不錯的效果，但是在較低頻部分各角度都有較高的增益，表示在極低頻部分增益的鑑別度較低，作VAD的時候低頻分辨率會下降。如果當加大兩麥克風間距時，低頻的增益鑑別度會比較好，但是在高頻的部分會產生空間上的混疊(Aliasing)失真，由圖3-4，即使不是來自於目標聲源方位的高頻訊號也會有很大的增益，如果以TJR資訊作VAD時即會在此處發生錯誤，因此須避免用較大麥克風間距的裝置來判斷。根據頻率=聲速/波長，如果以聲速340公尺/秒來計算，本文所使用的取樣頻率為8000Hz，想要完全不造成高頻混疊失真的話，麥克風間距需在0.0425公尺以下，但是實際進行實驗時，覺得在兩倍左右，大約0.08公尺以內都在可以接受的偏差範圍。如果為多顆麥克風裝置，可以讓不同間距的麥克風對，分別負責判斷不同的頻帶，較寬間距的麥克風對判斷較低頻，較窄間距的判斷較高頻以互補優缺點。

圖 3-4：TJR 之方向增益圖形(寬間距)，麥克風間距為 0.09 公尺(左)與 0.18 公尺(右)，上圖為立體圖，

下圖為等高線圖。

因為TJR在各頻率都有不同增益，所以門檻值須在各頻率分開設定，分別定為増益函數於各頻率的平均，如下式表示：

9) -(3

1 ₂

-2







  

 ^D ^k ^d

D_TJR( ) _TJR( , )

圖 3-5 為門檻值的表示圖，一般來說，為低頻較高、高頻較低的遞減曲線，右圖為麥克風間距較大，發生空間上混疊失真實的情況，在某些頻帶增益較高，導致 VAD 判斷錯誤，因此間距較大的裝置只建議採用較低頻的判斷結果。

圖 3-5：各頻率門檻值，麥克風間距 0.03 公尺(左)與 0.18 公尺(右)。

而 VAD 的判斷方式如下：

10) -(3 otherwises

, 0

k) TJR(t, if





 

 ( )

) ,

( D k

k t

VAD ^TJR

理論上的判斷結果為圖 3-6 所示，以左圖 3 公分間距來說，判定為目標聲源的角度大約為正負 20 度之間，高頻的部分會稍微小一些，而在極低頻的部分則會快速擴大到正負 35 度左右，因此在低頻的判斷較容易發生錯誤，而右圖為麥克風間隔較大的情況，高頻混疊失真的部分須捨棄，相較小間隔來說，低頻的容許角度更窄更精確，極低頻的擴大情況也相較好一些。

圖 3-6，VAD 判斷圖，0.03 公尺(左)與 0.18 公尺(右)。

在多顆麥克風的場合，不同間隔的麥克風對，分別對應不同頻帶，避免高頻預設一最小值(spectral floor) ，表示如下：

12)

之後可再適當的加上指數移動平均(Exponential Moving Average, EMA)與Hang over機制，這一部分本論文沒有使用到，就不在此詳細介紹。

第四章實驗結果與分析

4.1 實驗環境

本章將前面章節的演算法進行實驗，使用的錄音裝置為線性八顆麥克風陣列，各麥克風間距為 3 公分，圖 4-1 為聲源位置示意圖，為了比較在各種噪音下演算法的效果，將各聲源分別單獨錄音，之後再用後製混和，認定 Target Source 為欲純化之目標聲源，位於正前方 0°，而 Interference 為干擾聲源，來自於 45°

或-45°，Interference 有兩個方位是為了模擬同時兩不同方向的不同干擾聲源環境，而 F16 noise 屬於穩態雜訊，背對麥克風裝置對牆壁播放，為了模擬沒有明顯方向性之雜訊。

圖 4-1：各聲源方位示意圖。

模擬環境有四種情況，所包含之語料列於表 4-1，Case 1 為基本表現演算法估測雜訊的效果，Target Source 固定為一男性的人聲，此時雜訊為沒有明顯特性的 Babble noise，Case 2 表現當干擾聲源為不穩態雜訊時的效果，Woman 1 為干擾聲源，是一女性的人聲，Case 3 表現當有兩不同的干擾聲源，分別來自不同之方向時，演算法估測雜訊的效果，Woman 2 為另一女性的人聲，Case 4 加入沒有方向性的雜訊來評估效果。

環境 Target Source Interference 1 Interference 2 F16 noise Case 1 Man Babble

Case 2 Man Woman 1

Case 3 Man Woman 1 Woman 2

Case 4 Man Woman 1 Woman 2 F16

表 4-1：測試用模擬環境

圖 4-2：目標聲源 Man，上圖為時域訊號，下圖為頻域訊號。

圖 4-3：雜訊 Babble，上圖為時域訊號，下圖為頻域訊號。

圖 4-4：雜訊 F16，上圖為時域訊號，下圖為頻域訊號。

圖 4-5：干擾聲源 Woman 1，上圖為時域訊號，下圖為頻域訊號。

圖 4-6：干擾聲源 Woman 2，上圖為時域訊號，下圖為頻域訊號。

為了比較演算法的各種結果表現，本文採用兩種客觀性的評估標準，其一為

另一評估的標準為 PESQ (Perceptual Evaluation of Speech Quality, 知覺語音評價)，此標準為國際電信聯盟遠端通訊標準化組(ITU-T)所建議客觀評量 mean opinion scores (MOS)的方式，用以測量原始聲音和接受到的聲音之間的失真程度，此標準的 MOS 得分在 1.0(糟)到 4.5(無失真)之間，很嚴重失真時也可能會小於 1.0，大約 3.8 代表付費電話可以接受的範圍，更詳細的計算方式，可以參考維基百科中 PESQ 的條目:http://en.wikipedia.org/wiki/PESQ，或是 ITU-T 的建議 P.862：http://www.itu.int/rec/T-REC-P.862/en。

Wiener filter求參數

TJRNE(Wiener)

Case Input GSC

2 4 6 8

3.2080 8.5099 11.8589 14.5168 14.6715 15.0265

1 6.3432 12.6914 17.3251 20.1416 20.2180 20.3987

3.8982 10.2566 15.7224 17.3756 17.4926 17.6575

2 7.0627 14.2143 20.5872 22.2795 22.6164 22.4679

3.1853 5.2738 11.8162 11.0976 11.6834 11.7267

3 6.2416 8.7897 14.1998 15.7502 16.5656 16.6257

3.5545 5.3510 8.1535 10.1629 11.2930 12.6609

4 6.9525 8.9989 13.4261 15.1512 16.8727 18.1140

0 5 10 15 20 25

1 2 3 4

Case

SNR(dB)

Input GSC

TJRNE 2ch.

TJRNE 8ch.

0 5 10 15 20 25

1 2 3 4

Case

SNR(dB)

TJRNE 2ch.

TJRNE 4ch.

TJRNE 6ch.

TJRNE 8ch.

表 4-2：不同雜訊環境下 SNR (Wiener filter)，中圖為純化效果比較，下圖為多麥克風效果比較。

TJRNE(Wiener) Case Input GSC

2 4 6 8

2.2768 2.9853 2.7282 2.6720 2.5786 2.5353

1 2.5852 3.1626 2.8763 2.8661 2.7609 2.7051

2.3088 2.8176 2.8155 2.8367 2.7869 2.7526

2 2.5925 2.8351 2.9876 2.9843 2.9430 2.9293

2.2262 2.5615 2.6790 2.6810 2.6484 2.6415

3 2.5080 2.7739 2.8812 2.8530 2.8224 2.8001

2.2407 2.5568 2.5250 2.5228 2.5175 2.4842

4 2.5621 2.8033 2.7401 2.7558 2.7387 2.7083

2 2.2 2.4 2.6 2.8 3 3.2 3.4

1 2 3 4

Case

PESQ

Input GSC

TJRNE 2ch.

TJRNE 8ch.

2 2.2 2.4 2.6 2.8 3 3.2

1 2 3 4

Case

PESQ

TJRNE 2ch.

TJRNE 4ch.

TJRNE 6ch.

TJRNE 8ch.

表 4-3：不同雜訊環境下 PESQ (Wiener filter) ，中圖為純化效果比較，下圖為多麥克風效果比較。

圖 4-7：Case 1 處理結果(Wiener filter)，(a)目標聲源，(b)麥克風收到的訊號，(c)GSC 純化結果，(d)

本文提出之演算法純化結果。

圖 4-8：Case 2 處理結果(Wiener filter)，(a)目標聲源，(b)麥克風收到的訊號，(c)GSC 純化結果，(d)

本文提出之演算法純化結果。

圖 4-9：Case 3 處理結果(Wiener filter)，(a)目標聲源，(b)麥克風收到的訊號，(c)GSC 純化結果，(d)

本文提出之演算法純化結果。

圖 4-10：Case 4 處理結果(Wiener filter)，(a)目標聲源，(b)麥克風收到的訊號，(c)GSC 純化結果，(d)

本文提出之演算法純化結果。

Wiener filter 小結

Case 1 中，雜訊為來自單一方向的穩態雜訊，較容易估計雜訊的特性以進行純化，將本文提出之方法與 GSC 演算法作比較，在此環境中雖然本演算法 SNR 上升較多，但是 GSC 的結果語音品質較好。Case 2 中，干擾為來自單一方向的不穩態雜訊，因為雜訊不斷的在變動，如果想要將雜訊精確的消去，Nullformer 的參數必須隨時進行更新。Case 3 中，加入了另一方向的干擾雜訊，如此容易造成雜訊的來源方向不固定，Nullformer 的參數更新將更為困難，Case 4 中加入了沒有明顯方向性的雜訊，因為也包含和目標聲源相同方位，此為單純使用空間特性很難處理的雜訊。

在使用 Wiener filter 進行整合時，麥克風個數的上升對於 SNR 的提升有正相

在文檔中使用目標與干擾比之語音活動偵測建構雜訊能量估測器 (頁 11-47)

第二章 雜訊能量估測器(Noise Power estimator)

2.1 固定式方向補償器(Fixed Directivity Compensator)[5]

2.2 適應性方向補償器(Adaptive Directivity Compensator)



第三章 語音活動偵測(VAD, Voice activity detection)

3.1 Target to Jammer Ratio (TJR)



第四章 實驗結果與分析

4.1 實驗環境

第二章雜訊能量估測器(Noise Power estimator)

第三章語音活動偵測(VAD, Voice activity detection)

第四章實驗結果與分析