第二章 雜訊能量估測器(Noise Power estimator)
本雜訊估測能量器的架構來自於 Kim 和 Jeong 等人的雜訊能量估測器[5],
並對其做一些修改,分為三個部分,目標聲源阻斷器(Target Blocker)、固定式方 向補償器(Fixed Directivity Compensator)和適應性方向補償器(Adaptive Directivity Compensator),如圖 2-1 所示:
圖 2-1:雜訊能量估測器架構圖
假設目標聲源位於麥克風陣列的中間正前方,如下圖表示:
圖 2-2:環境示意圖
在雙麥克風的場合,將 Target Blocker 定義為將兩麥克風收的頻譜訊號相減,經
2.1 固定式方向補償器(Fixed Directivity Compensator)[5]
假設一雙麥克風裝置,在遠場假設下,聲音的波形近似於平面波,如果聲音來源 方向並非正前方,此音波到達兩麥克風的所耗時間會不同,我們可由聲音的來源 方向計算出此音波到達兩麥克風的時間差(IDT, Interaural Time Difference)。
圖 2-3:到達時間差示意圖
其中 C 代表聲速,d 代表兩顆麥克風間距,fs為取樣頻率,經過 Fourier Transform
其中NFFT 為作 FFT(Fast Fourier Transform)時所使用的點數,在時域上的延遲經過 Fourier Transform 之後成為頻域上相位差,利用 2-3 式計算前述 Target Blocker 在 各頻帶所造成的各方向增益函數如下:
也造成不同的增益,尤其在低頻的部分被壓抑較多,高頻的部分,也會隨麥克風
2.2 適應性方向補償器(Adaptive Directivity Compensator)
再上一章節固定式方向補償器的部分,我們利用ITD計算Target blocker在各頻
最後得到的雜訊能量估測結果如下:
2.3.1 Wiener filter求參數
此為使用反矩陣的解法,可以得到在所選取的範圍內最小均方差(MMSE)的
對:
此時的α(Forgetting Factor)可以取較大的值或是直接設為 1,因為取 M-1 個音框
態雜訊時就比較沒有辦法估計的完整。
29) -(2
)
, ˆ( ) , ˆ ( ) ,
( *
2 t k N t k N t k
N
由 2-9 式同樣方法可得語音純化的輸出Sˆ。實驗結果將在第四章呈現,並進行比 較與討論。
第三章 語音活動偵測(VAD, Voice activity detection)
VAD 在語音訊號處理上有很重要的幫助,例如在語音辨識中,將輸入語料經 過 VAD 切割之後再進行辨識,可以提升辨識率,在作語音純化處理時,也可以 將不屬於語音的雜訊刪除。VAD 有許多不同的做法,在單麥克風裝置上,較常見 使用的判斷特徵包含能量、過零率、亂度或長時間語音資訊(long-term speech information)等,而在多麥克風裝置上,則多了空間資訊可供判斷,可以根據估計 訊號來源方向(DOA, direction of arrival)來推測該訊號是否由目標聲源所發出。本 文所使用特徵為接下來章節所介紹的 TJR。
3.1 Target to Jammer Ratio (TJR)
圖 3-1:Generalized Sidelobe Canceller 架構示意圖。
原始 TJR 是定義是於 GSC 的架構下[7],圖 3-1 為 GSC 的架構簡圖,主要分 為三個部分,Fixed Beamformer、Blocking Matrix 和 Adaptive Noise Canceller,
Fixed Beamformer 為對目標聲源方向的 Delay-and-Sum Beamformer,輸出yFB包含 了各種雜訊和增強後的目標聲源,Blocking Matrix 則是將目標聲源去除,只留下 雜訊部份yBW,Adaptive Noise Canceller 以將輸出y的能量最小化為目的調整權 重,將yBW結合成估計的雜訊yNC,輸出y yFByNC。
而 TJR 為代表目標聲源的 GSC 輸出y,與代表雜訊的 Adaptive Noise Canceller 輸出yNC之能量比值,代表意義類似於能量的訊噪比(Signal-to-noise ratio, SNR),
表示如下式:
在雙麥克風裝置,且目標聲源在正前方的場合,Target Blocker 部分即為第二章中 所提到的:
Fixed Beamformer 則使用對正前方的 Delay-and-Sum Beamformer:
6)
將 TJR 定義如此簡化最大的好處在於容易計算其理論增益,進而設定正確的 門檻值(threshold),如果訊號經過 Adaptive Noise Canceller 之後,其在頻譜上各角 度的增益會變得比較複雜,正負角度的增益會有些不對稱,各頻帶之間也差異很 大,如果包含 Adaptive Noise Canceller 一起計算理論增益以設定門檻值,則容易 使誤差累積,VAD 判斷錯誤導致參數更新錯誤,進而錯誤設定門檻值,又造成 VAD 判斷錯誤,如果不使用理論增益,則需平均、Hang over 機制等長時間的資 訊,需要付出輸出時間延遲的代價。簡化 TJR,也可以將門檻值 Offline 計算,節 省許多運算時間。
圖 3-2:Adaptive Noise Canceller 輸出理論增益,八顆麥克風 GSC。
由理論上來估計 TJR 在各頻帶與各角度所造成的增益函數:
圖 3-3:TJR 之方向增益圖形,左圖為立體圖,右圖為等高線圖,d=0.03m。
由圖3-3,可以看出TJR的增益圖型在目標方向是非常尖銳的,因此它對於目標聲 源角度偵測有不錯的效果,但是在較低頻部分各角度都有較高的增益,表示在極 低頻部分增益的鑑別度較低,作VAD的時候低頻分辨率會下降。如果當加大兩麥 克風間距時,低頻的增益鑑別度會比較好,但是在高頻的部分會產生空間上的混 疊(Aliasing)失真,由圖3-4,即使不是來自於目標聲源方位的高頻訊號也會有很大 的增益,如果以TJR資訊作VAD時即會在此處發生錯誤,因此須避免用較大麥克 風間距的裝置來判斷。根據頻率=聲速/波長,如果以聲速340公尺/秒來計算,本 文所使用的取樣頻率為8000Hz,想要完全不造成高頻混疊失真的話,麥克風間距 需在0.0425公尺以下,但是實際進行實驗時,覺得在兩倍左右,大約0.08公尺以 內都在可以接受的偏差範圍。如果為多顆麥克風裝置,可以讓不同間距的麥克風 對,分別負責判斷不同的頻帶,較寬間距的麥克風對判斷較低頻,較窄間距的判 斷較高頻以互補優缺點。
圖 3-4:TJR 之方向增益圖形(寬間距),麥克風間距為 0.09 公尺(左)與 0.18 公尺(右),上圖為立體圖,
下圖為等高線圖。
因為TJR在各頻率都有不同增益,所以門檻值須在各頻率分開設定,分別定 為増益函數於各頻率的平均,如下式表示:
9) -(3
1 2
-2
D k d
k
DTJR( ) TJR( , )
圖 3-5 為門檻值的表示圖,一般來說,為低頻較高、高頻較低的遞減曲線,右圖 為麥克風間距較大,發生空間上混疊失真實的情況,在某些頻帶增益較高,導致 VAD 判斷錯誤,因此間距較大的裝置只建議採用較低頻的判斷結果。
圖 3-5:各頻率門檻值,麥克風間距 0.03 公尺(左)與 0.18 公尺(右)。
而 VAD 的判斷方式如下:
10) -(3 otherwises
, 0
k) TJR(t, if
1,
( )
) ,
( D k
k t
VAD TJR
理論上的判斷結果為圖 3-6 所示,以左圖 3 公分間距來說,判定為目標聲源的角 度大約為正負 20 度之間,高頻的部分會稍微小一些,而在極低頻的部分則會快 速擴大到正負 35 度左右,因此在低頻的判斷較容易發生錯誤,而右圖為麥克風 間隔較大的情況,高頻混疊失真的部分須捨棄,相較小間隔來說,低頻的容許角 度更窄更精確,極低頻的擴大情況也相較好一些。
圖 3-6,VAD 判斷圖,0.03 公尺(左)與 0.18 公尺(右)。
在多顆麥克風的場合,不同間隔的麥克風對,分別對應不同頻帶,避免高頻 預設一最小值(spectral floor) ,表示如下:
12)
之後可再適當的加上指數移動平均(Exponential Moving Average, EMA)與Hang over機制,這一部分本論文沒有使用到,就不在此詳細介紹。
第四章 實驗結果與分析
4.1 實驗環境
本章將前面章節的演算法進行實驗,使用的錄音裝置為線性八顆麥克風陣 列,各麥克風間距為 3 公分,圖 4-1 為聲源位置示意圖,為了比較在各種噪音下 演算法的效果,將各聲源分別單獨錄音,之後再用後製混和,認定 Target Source 為欲純化之目標聲源,位於正前方 0°,而 Interference 為干擾聲源,來自於 45°
或-45°,Interference 有兩個方位是為了模擬同時兩不同方向的不同干擾聲源環 境,而 F16 noise 屬於穩態雜訊,背對麥克風裝置對牆壁播放,為了模擬沒有明 顯方向性之雜訊。
圖 4-1:各聲源方位示意圖。
模擬環境有四種情況,所包含之語料列於表 4-1,Case 1 為基本表現演算法 估測雜訊的效果,Target Source 固定為一男性的人聲,此時雜訊為沒有明顯特性 的 Babble noise,Case 2 表現當干擾聲源為不穩態雜訊時的效果,Woman 1 為干 擾聲源,是一女性的人聲,Case 3 表現當有兩不同的干擾聲源,分別來自不同之 方向時,演算法估測雜訊的效果,Woman 2 為另一女性的人聲,Case 4 加入沒有 方向性的雜訊來評估效果。
環境 Target Source Interference 1 Interference 2 F16 noise Case 1 Man Babble
Case 2 Man Woman 1
Case 3 Man Woman 1 Woman 2
Case 4 Man Woman 1 Woman 2 F16
表 4-1:測試用模擬環境
圖 4-2:目標聲源 Man,上圖為時域訊號,下圖為頻域訊號。
圖 4-3:雜訊 Babble,上圖為時域訊號,下圖為頻域訊號。
圖 4-4:雜訊 F16,上圖為時域訊號,下圖為頻域訊號。
圖 4-5:干擾聲源 Woman 1,上圖為時域訊號,下圖為頻域訊號。
圖 4-6:干擾聲源 Woman 2,上圖為時域訊號,下圖為頻域訊號。
為了比較演算法的各種結果表現,本文採用兩種客觀性的評估標準,其一為
另一評估的標準為 PESQ (Perceptual Evaluation of Speech Quality, 知覺語音評 價),此標準為國際電信聯盟遠端通訊標準化組(ITU-T)所建議客觀評量 mean opinion scores (MOS)的方式,用以測量原始聲音和接受到的聲音之間的失真程 度,此標準的 MOS 得分在 1.0(糟)到 4.5(無失真)之間,很嚴重失真時也可能會小 於 1.0,大約 3.8 代表付費電話可以接受的範圍,更詳細的計算方式,可以參考維 基百科中 PESQ 的條目:http://en.wikipedia.org/wiki/PESQ,或是 ITU-T 的建議 P.862:http://www.itu.int/rec/T-REC-P.862/en。
Wiener filter求參數
TJRNE(Wiener)
Case Input GSC
2 4 6 8
3.2080 8.5099 11.8589 14.5168 14.6715 15.0265
1 6.3432 12.6914 17.3251 20.1416 20.2180 20.3987
3.8982 10.2566 15.7224 17.3756 17.4926 17.6575
2 7.0627 14.2143 20.5872 22.2795 22.6164 22.4679
3.1853 5.2738 11.8162 11.0976 11.6834 11.7267
3 6.2416 8.7897 14.1998 15.7502 16.5656 16.6257
3.5545 5.3510 8.1535 10.1629 11.2930 12.6609
4 6.9525 8.9989 13.4261 15.1512 16.8727 18.1140
0 5 10 15 20 25
1 2 3 4
Case
SNR(dB)
Input GSC
TJRNE 2ch.
TJRNE 8ch.
0 5 10 15 20 25
1 2 3 4
Case
SNR(dB)
TJRNE 2ch.
TJRNE 4ch.
TJRNE 6ch.
TJRNE 8ch.
表 4-2:不同雜訊環境下 SNR (Wiener filter),中圖為純化效果比較,下圖為多麥克風效果比較。
TJRNE(Wiener) Case Input GSC
2 4 6 8
2.2768 2.9853 2.7282 2.6720 2.5786 2.5353
1 2.5852 3.1626 2.8763 2.8661 2.7609 2.7051
2.3088 2.8176 2.8155 2.8367 2.7869 2.7526
2 2.5925 2.8351 2.9876 2.9843 2.9430 2.9293
2.2262 2.5615 2.6790 2.6810 2.6484 2.6415
3 2.5080 2.7739 2.8812 2.8530 2.8224 2.8001
2.2407 2.5568 2.5250 2.5228 2.5175 2.4842
4 2.5621 2.8033 2.7401 2.7558 2.7387 2.7083
2 2.2 2.4 2.6 2.8 3 3.2 3.4
1 2 3 4
Case
PESQ
Input GSC
TJRNE 2ch.
TJRNE 8ch.
2 2.2 2.4 2.6 2.8 3 3.2
1 2 3 4
Case
PESQ
TJRNE 2ch.
TJRNE 4ch.
TJRNE 6ch.
TJRNE 8ch.
表 4-3:不同雜訊環境下 PESQ (Wiener filter) ,中圖為純化效果比較,下圖為多麥克風效果比較。
圖 4-7:Case 1 處理結果(Wiener filter),(a)目標聲源,(b)麥克風收到的訊號,(c)GSC 純化結果,(d)
本文提出之演算法純化結果。
圖 4-8:Case 2 處理結果(Wiener filter),(a)目標聲源,(b)麥克風收到的訊號,(c)GSC 純化結果,(d)
本文提出之演算法純化結果。
圖 4-9:Case 3 處理結果(Wiener filter),(a)目標聲源,(b)麥克風收到的訊號,(c)GSC 純化結果,(d)
本文提出之演算法純化結果。
圖 4-10:Case 4 處理結果(Wiener filter),(a)目標聲源,(b)麥克風收到的訊號,(c)GSC 純化結果,(d)
本文提出之演算法純化結果。
Wiener filter 小結
Case 1 中,雜訊為來自單一方向的穩態雜訊,較容易估計雜訊的特性以進行 純化,將本文提出之方法與 GSC 演算法作比較,在此環境中雖然本演算法 SNR 上升較多,但是 GSC 的結果語音品質較好。Case 2 中,干擾為來自單一方向的 不穩態雜訊,因為雜訊不斷的在變動,如果想要將雜訊精確的消去,Nullformer 的參數必須隨時進行更新。Case 3 中,加入了另一方向的干擾雜訊,如此容易造 成雜訊的來源方向不固定,Nullformer 的參數更新將更為困難,Case 4 中加入了 沒有明顯方向性的雜訊,因為也包含和目標聲源相同方位,此為單純使用空間特 性很難處理的雜訊。
在使用 Wiener filter 進行整合時,麥克風個數的上升對於 SNR 的提升有正相
在使用 Wiener filter 進行整合時,麥克風個數的上升對於 SNR 的提升有正相