4.1 暫態噪音活動偵測實驗結果與分析
4.1.3 干擾聲源為語音
在這小節分析中,我們針對干擾聲源為語音的情況來進行對於 SS 和 AS 處理過後的訊號對於提升 TNAD 效能的比較,以及找出 detection rate 為 100%時,false alarm rate 最低時的參數。
Probability of detection, P D Probability of flase alarm, PFA
0
圖 4.18 和圖 4.19 為在不同的參數 α 下,AS 處理後的訊號經過 TNAD 的結果。因為是從時域上縮減振幅,可以在保留暫態噪音的成分下,將 whiten 後的語音訊號振幅較小的部分完全消除,所以對於降低 false alarm rate 有一定的效果。在維持 detection rate 為 100% 的情況下,高 TSR 時,
Probability of detection, P D Probability of flase alarm, PFA
0 0.5 1 1.5 2 2.5 3
由以上實驗結果得知,隨著 TSR 下降要維持 detection rate 為 100%, Probability of flase alarm, P FA
PFA of TNAD , PD = 100% ( interference : speech )
Whiten
Whiten + SS ( β = 2 ) Whiten + AS ( α = 1.5 )
4.2 暫態噪音聲源方位估 暫態噪音聲源方位估 暫態噪音聲源方位估 暫態噪音聲源方位估測實驗結果與分析 測實驗結果與分析 測實驗結果與分析 測實驗結果與分析
暫態噪音聲源方位估測可以分為兩部分:第一部分是 TNAD 得到的暫 態噪音活動偵測結果,第二部分是利用偵測結果針對存在暫態噪音的音框 做聲源方位估測。
在本實驗中,為了找出適合偵測暫態噪音的 DOA 演算法,先單獨測 試第二部分的結果,利用環境存在不同種類干擾聲源測試 SBF DOA 與 MUSIC DOA 對於暫態噪音聲源方位估測的效果,討論優缺點找出適合的 DOA 演算法。最後測試本論文提出的方法對於不同干擾聲源的穩健程度。
實驗測試音檔共有 8 組,為陣列中 8 顆麥克風接收到的訊號,每組包 含 50 次聲源方向為 90 度不同振幅大小的暫態噪音,音檔長度為 2750 個 音框,每次 DOA 處理一個音框,音框長度為 256,每次 TNAD 處理一個 block,block 長度為 5 個音框,資料中總共有 550 個 block,存在 50 個包 含暫態噪音的 block。
圖 4.21 包含 50 次不同震幅大小暫態噪音的實驗音檔
有三種 TSR 平均為 0 的不同干擾聲源,分別是無方向性的 F16 noise、
無方向性的 Babble noise 以及聲源角度為 180° 的語音。語音在不同時間 TSR 的變化程度較大,如圖 4.22。
0 0.5 1 1.5 2 2.5 3 3.5
x 105 -2
0 2
x 104
sample
amplitude
圖 4.22 干擾聲源為聲源角度 180° 的語音時 TSR 的變化情形
將暫態噪音音檔和相同長度的干擾聲源音檔混音成以下三種音檔:
測試音檔 1 : 聲源角度為90°的暫態噪音(擊掌) + 無方向性的非暫態穩態噪音(F16) 測試音檔 2 : 聲源角度為90°的暫態噪音(擊掌) +
無方向性的非暫態非穩態噪音(Babble) 測試音檔 3 : 聲源角度為90°的暫態噪音(擊掌) +
聲源角度為180°的語音
在這節所有的實驗中,TNAD 的門檻值固定在 0.45,核心參數 固 定為 10â,隨機行走階數 1 固定為 25。為了讓演算法在 real-time 上實現,
我們選擇 block 長度為 5 以減少運算量。
首先測試 SBF DOA 與 MUSIC DOA 對於暫態噪音聲源方位估測的效 果:從測試音檔中選出 50 個包含暫態噪音的音框,只固定對這 50 個音框 進行聲源估測。
0 500 1000 1500 2000 2500
-20 -10 0 10 20
TSR diagram of speech, average TSR = 0
frame
TSR(dB)
當干擾聲源為 F16 noise 和 Babble noise 這兩種無方向性的非暫態噪音
RMSE of DOA estimation for transient noise
SBF DOA
RMSE of DOA estimation for transient noise
SBF DOA MUSIC DOA
在干擾聲源為聲源角度 180° 的語音時,SBF DOA 和 MUSIC DOA 已經無法在不同的 TSR 下,於範圍為 ±5 度的標準內估測出正確的位置。
因此在干擾聲源為有方向性語音的情況下,我們用偵測到正確位置的機率 來當估測角度方法效能的標準。當估測角度為正確角度±5 度的範圍內時,
判定為正確位置。
表 4.3 是 SBF DOA 和 MUSIC DOA 在干擾聲源為角度 180° 的語音 時,對選定的 50 個音框進行聲源估測的 RMSE。我們可以看到在干擾聲 源是有方向性語音的情況下, SBF DOA 可以比 MUSIC DOA 估測暫態噪 音聲源方位更為準確,並且在 TSR 為 2 dB 以上可以有 100% 的 detection rate。因為 MUSIC DOA 會估算音框內相關程度較高訊號的聲源位置,而 SBF DOA 是估算音框內能量最強的訊號的位置。因此音框內同時存在語音 以及暫態噪音的時候,MUSIC DOA 會傾向於估測語音聲源的位置。
TSR(dB) SBF DOA MUSIC DOA
10 100 % 100 %
8 100 % 100 %
6 100 % 100 %
4 100 % 98 %
2 100 % 96 %
0 98 % 88 %
-2 94 % 84 %
-4 90 % 78 %
-6 82 % 74 %
-8 78 % 68 %
-10 64 % 60 %
表 4.3 干擾聲源為有方向性的語音時估測聲源方位的 Detection rate
從 4.1 暫態噪音活動偵測的實驗結果與分析以及以上實驗中,我們可 以找到一套適合偵測暫態噪音以及估測暫態噪音聲源位置的演算法:
1. 在各種不同大小的干擾聲源下,不論干擾聲源的種類為何,時域 振幅刪減法不需要訓練資料(training data)就能夠直接壓抑非暫態 噪音的成分,可以有效的降低 false alarm rate,以提升暫態噪音活 動偵測的準確率。
2. 對於估測暫態噪音聲源位置,在干擾聲源為非暫態噪音時,MUSIC DOA 對於聲源估測的精準度比起 SBF DOA 要來的正確,但是這 兩套演算法都可以在容許的範圍內估測正確的位置。而干擾聲源 為語音時,SBF DOA 的穩定性較高。因此在目標聲源為暫態噪音 時,SBF DOA 是最適合作為聲源估測的演算法,計算量低就可以 達到偵測正確位置的效果,很適合在 Real-time 的情況下應用。
最後我們測試本論文的演算法對於不同干擾聲源時,追蹤暫態聲源方 位的效能,在這部分實驗指標參數定義如下:
TN source location Other case Decided as
TN source location
True Positive False Positive
Decided as other case False Negative True Negative 表 4.4 暫態聲源方位追蹤實驗指標參數定義表
Detection rate:True Posirtive / (True Positive + False Negative) 在暫態噪音聲源位置下,被判斷為暫態噪音位置的機率。
False alarm rate:False Positive / (False Positive + True Negative) 在不是暫態噪音聲源位置下,誤判為暫態噪音位置的機率。
表 4.5 和表 4.6 為暫態噪音聲源方位估測的結果。在干擾聲源為非暫態 噪音時,因為 SBF DOA 在估測暫態噪音聲源位置幾乎不受影響,因此效 能主要是由 TNAD 的結果決定。在干擾聲源為語音時,當 TSR 下降時,
TNAD 和 SBF DOA 的 false alarm rate 都會上升。
TSR(dB) Stationary noise Non-stationary
noise Speech
TSR(dB) Stationary noise Non-stationary
noise Speech
第五章 第五章
第五章 第五章 結論 結論 結論 結論
5.1 研究成果 研究成果 研究成果 研究成果
本論文提出了一套偵測暫態噪音並追蹤暫態噪音聲源方位的演算法並 由大量的樣本實驗證明它的效能。麥克風陣列接收的訊號經過 whiten 以及 時域振幅刪減法處理之後,可以非常有效的抑制穩態與非穩態的非暫態噪 音的訊號,而對於語音也有一定的抑制效果,使得此方法在環境不理想時 也有相當良好的辨識率。暫態噪音活動偵測的結果在經過 SBF DOA 估測 聲源方位後,對於干擾聲源為非暫態噪音的 TSR 為 -4 dB 以上,以及對於 語音的 TSR 為 6 dB 以上時,暫態噪音聲源方位估測可以達到 100%
detection rate 以及為 0 的 false positive rate 的表現。因此在環境存在干擾聲 源時,本方法仍然可以準確的偵測暫態噪音,並估測正確的聲源方向,在 裝置有遠距喚醒的需求時,可以取代關鍵字做為另一種喚醒機制。
5.2 未來展望 未來展望 未來展望 未來展望
對於加強暫態噪音偵測準確度或許可以嘗試以下的方法:
1. 利用陣列信號處理的方法再加大暫態噪音與一般聲音的差異 2. 隨著接收訊號大小適應性的選取適合的核心參數
3. 在語音開始或是音位(phoneme)轉換的時候,在暫態噪音活動偵測中容 易被辨識為暫態噪音,開發能夠辨別這兩者之間差異的演算法。
加入時域振幅刪減法改良後的暫態噪音活動偵測演算法對抗語音干擾 有一定的效果,因此也可以準確的偵測暫態噪音在一串語音中的位置及成 分,可以應用於一般常用的語音強化演算法上。
Reference
[1] S.F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. Acoust., Speech, Signal Process., vol.27, pp.
113-120, Apr. 1979.
[2] R. Talmon, I. Cohen, and S. Gannot, “Speech enhancement in transient noise environment using diffusion filtering,” Proc. 35th IEEE Internat. Conf.
Acoust. Speech and Signal Process. (ICASSP-2010), Dallas, Texas, pp. 4782–
4785, Mar. 2010.
[3] Wen-Jun Zeng and Xi-Lin Li, “High-Resolution Multiple Wideband and Nonstationary Source Localization With Unknown Number of Sources,” IEEE Trans. Signal Process., vol. 58, no. 6, pp. 3125–3136, 2010.
[4] Eric A. Lehmann, ”Particle Filtering Methods for Acoustic Source Localisation and Tracking”, Ph.D. thesis, Australian National University (ANU), Canberra, Australia, July 2004.
[5] J.M. Valin, F.Michaud, and J. Rouat, “Robust localization and tracking of simultaneous moving sound sources using beamforming and particle filtering.,”
Robotics and Autonomous Systems Journal (Elsevier), vol. 55, no. 3, pp. 216 – 228, 2007.
[6] J.-S. Hu, M.-T. Lee, and T.-C. Wang, “Wake-Up-Word Detection for Robots Using Spatial Eigenspace Consistency and Resonant Curve Similarity,”
Robotics and Automation, 2011. ICRA ’11. IEEE International Conference on, pp. 3901–3906, 2011.
[7] B. Scholkopf, A. Smola, and K. Muller, “Nonlinear component analysis as a kernel eigenvalue problem,” Neural Comput., vol. 10, pp. 1299–1319, 1996.
[8] M. Belkin and P. Niyogi, “Laplacian eigenmaps for dimensionality reduction and data representation,” Neural Comput., vol. 15, pp. 1373–1396, 2003.
[9] D. L. Donoho and C. Grimes, “Hessian eigenmaps: New locally linear embedding techniques for high-dimensional data,” PNAS, vol. 100, pp.
5591–5596, 2003.
[10] J.B. Tenenbaum, V. de Silva and J. C. Langford. A Global Geometric Framework for Nonlinear Dimensionality Reduction. Science, volume 290, pages2319-2323, 2000
[11] S. Roweis and L. Saul. Nonlinear Dimensionality Reduction by Locally Linear embedding. Science,volume 290, pages 2323–2326, 2000
[12] H.-T. Chen, H.-W. Chang, and T.-L. Liu. Local Discriminant Embedding and Its Variants. In Proc. Int’l Conf. on Computer Vision and Pattern Recognition, volume 2, pages 846-853, 2005.
[13] R. Coifman and S. Lafon, “Diffusion maps,” Appl. Comput. Harmon.Anal., vol. 21, pp. 5–30, Jul. 2006}
[14] B. Nadler, S. Lafon, R. Coifman, and I. G. Kevrekidis, “Diffusion maps,spectral clustering and reaction coordinates of dynamical systems,”
Appl.Comput. Harmon. Anal., pp. 113–127, 2006.
[15] A. Singer, Y. Shkolnisky, and B. Nadler, “Diffusion interpretation of nonlocal neighborhood filters for signal denoising,” SIAM Journal ImagingSciences, vol. 2, no. 1, pp. 118–139, 2009.
[16] R. Talmon, I. Cohen, and S. Gannot, “Transient noise reduction using nonlocal diffusion filters,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 6, pp. 1584–1599, Aug. 2011.
[17] R. Talmon, I. Cohen, S. Gannot, and R. R. Coifman, “Supervised Graph-Based Processing for SequentialTransient Interference Suppression,”
IEEE Trans. Audio, Speech, Lang. Process., vol.20, no. 9, pp. 2528–2538, Aug.
2011.
[18] R.O. Schmidt, “Multiple Emitter Location and Signal Parameter Estimation”, IEEE Trans. Antennas and Propag., vol. AP-34, no. 3, pp.276-280,March 1986.
[19] J. L. Flanagan, J. D. Johnston, R. Zahn, and G. W.
Elko, ”Computer-steered microphone arrays for sound transduction in large rooms,” J. Acoust. Soc. Am., vol. 78 Issue 5 pp. 1508-1518, July 1985.