暫態噪音聲源方位估測

eigenvector , ψ 1

X: 285

線性麥克風陣列中所有麥克風都是面對聲源，因此不同麥克風接收的振幅差異不同影響較輕微。但是不論麥克風的結構為何，我們都無法預知哪顆麥克風可以接收到最完整的暫態噪音，所以必須統計所有麥克風經過 TNAD 得到的結果。在圖 3.13 中，暫態噪音活動偵測的結果是在第 47、

138、227、285、373 音框存在暫態噪音，因此我可以只針對這 5 個音框做聲源方位估測。

圖 3.14 MUSIC DOA spectrum

圖 3.15 SBF DOA spectrum

圖 3.13 和圖 3.14 是兩種不同聲源方位估測演算法對於一段包含 5 組聲源方向為 -90 度的暫態噪音，以及聲源方向為 90 度的語音的資料估測的結果。我們可以看到存在暫態噪音的音框內所估測到的聲源方位就是暫態噪音的聲源方位。因為暫態噪音在極短的時間內的能量相較於其它種類聲源要大，在一般的情況下，存在暫態噪音的音框內的主要訊號成分就是暫態噪音，所以對於選定的音框做聲源估測就可以得到我們要的結果。

第四章第四章

第四章第四章實驗結果與分析實驗結果與分析實驗結果與分析實驗結果與分析

本章節將介紹本論文的方法對於 TNAD 效能提升程度的實驗結果，以及利用 TNAD 所得到的結果，進行暫態噪音聲源方位估測。

本論文利用具有八顆麥克風的環型數位麥克風陣列作為訊號接收平台，

圖 4.1 為錄音環境的實際照片，暫態噪音是由受試者在麥克風陣列平台的不同方位擊掌產生，並於麥克風陣列平台的不同方位(0 度、90 度、180 度、

270 度)距離 1M 的位置錄音，如圖 4.2。

圖 4.1 環形數位麥克風陣列平台

圖 4.2 環形麥克風陣列平台的平面圖

實驗錄音與訊號處理的規格如表 4.1。

shift size 128 sample

Block size 5 frame

Block overlap size 0

表 4.1 平台錄音與訊號處理的詳細數據

實驗使用兩種不同性質無方向性的非暫態噪音以及特定方向的語音做為干擾聲源，測試 TNAD 以及暫態噪音聲源方位估測的穩健度：第一種非暫態噪音是穩態(stationary)的 F16 noise；第二種非暫態噪音是非穩態 (non-stationary)的，這裡使用 Babble noise。這兩種非噪音的錄製方法：利用喇叭播放並將喇叭放置於錄音環境中的對稱四個角落，用以製造 Diffusion Noise。語音的錄製是使用人工嘴在陣列不同方位(0 度、90 度、

180 度、270 度)距離 1M 進行語音的播放。

4.1 暫態噪音活動偵測暫態噪音活動偵測暫態噪音活動偵測暫態噪音活動偵測實驗結果與分析實驗結果與分析實驗結果與分析實驗結果與分析

在本實驗中，利用環境存在不同種類干擾聲源測試暫態噪音活動偵測 (TNAD)演算法效能，並比較使用 whiten 後的訊號經過頻譜刪減法(SS)或時域振幅刪減法(AS)處理過後對於提升準確度的表現。

暫態噪音與干擾聲源的比值為 TSR(Transient-to-signal ratio)：

{ }

在實驗中使用 TSR 表示暫態噪音訊號相對於干擾聲源大小的標準，在

TSR diagram of speech, average TSR = 0

frame

TSR(dB)

將暫態噪音音檔和相同長度的干擾聲源音檔混音成以下三種音檔：

測試音檔 1 : 暫態噪音(擊掌) + 非暫態穩態噪音(F16) 測試音檔 2 : 暫態噪音(擊掌) + 非暫態非穩態噪音(Babble) 測試音檔 3 : 暫態噪音(擊掌) + 語音

在所有的實驗中 TNAD 的門檻值固定在 0.45，核心參數固定為 10^â，隨機行走階數 1 固定為 25。選擇 block 長度為 5 以減少運算量。

對於 TNAD 偵測暫態噪音的準確率，使用以下實驗指標參數：

Transient noise Other case Decided as

Transient noise

True Positive False Positive

Decided as other case False Negative True Negative 表 4.2 暫態噪音活動偵測實驗指標參數定義表

Detection rate：True Positive / (True Positive + False Negative)

在給定存在暫態噪音的 block 下，被判斷為存在暫態噪音的機率。

False alarm rate：False Positive / (False Positive + True Negative) 在不存在暫態噪音的 block 下，誤判為存在暫態噪音的機率。

圖 4.5 為只使用 whiten 處理後的訊號，經過 TNAD 後，在 detection rate Probability of flase alarm, P FA

PFA of TNAD , P

D = 100% (Whiten signal)

Clap + F16 Clap + Babble Clap + Woman

4.1.1 干擾聲源為穩態噪音干擾聲源為穩態噪音干擾聲源為穩態噪音 干擾聲源為穩態噪音

在這小節分析中，我們針對干擾聲源為非暫態穩態噪音(F16)的情況來進行對於 SS 和 AS 處理過後的訊號對於提升 TNAD 效能的比較，以及找出 detection rate 為 100%時，false alarm rate 最低時的參數。

圖 4.6 和圖 4.7 為在不同的參數 β 下，SS 處理後的訊號經過 TNAD 的

Whiten + SS , TSR of stationary noise = 10

Probability of detection, P D Probability of flase alarm, P_FA

圖 4.8 和圖 4.9 為在不同的參數 α 下，AS 處理後的訊號經過 TNAD

Whiten + AS , TSR of stationary noise = 10

Probability of detection, P D Probability of flase alarm, P_FA

0 0.5 1 1.5 2 2.5 3

由以上實驗結果得知，隨著 TSR 下降要維持 detection rate 為 100%， Probability of flase alarm, P FA

P_FA of TNAD , P_D = 100% ( interference : stationary noise )

Whiten

Whiten + SS ( β = 4 ) Whiten + AS ( α = 1.5 )

4.1.2 干擾聲源為非穩態噪音干擾聲源為非穩態噪音干擾聲源為非穩態噪音 干擾聲源為非穩態噪音

在這小節分析中，我們針對干擾聲源為非暫態非穩態噪音(Babble)的情況來進行對於 SS 和 AS 處理過後的訊號對於提升 TNAD 效能的比較，以及找出 detection rate 為 100%時，false alarm rate 最低時的參數。

圖 4.11 和圖 4.12 為在不同的參數 β 下，SS 處理後的訊號經過 TNAD 的結果。在維持 detection rate 為 100%的情況下，SS 對於非穩態噪音干擾壓抑的效果和對於穩態噪音的結果差不多。在高 TSR 時，調大 β 值可以

Whiten + SS , TSR of non-stationary noise = 10

Probability of detection, P D Probability of flase alarm, P_FA

0 5 10 15 20 25 30

Whiten + SS , TSR of non-stationary noise = - 10

圖 4.13 和圖 4.14 為在不同的參數 α 下，AS 處理後的訊號經過 TNAD

Whiten + AS , TSR of non-stationary noise = 10

Probability of detection, P D Probability of flase alarm, P_FA

0 0.5 1 1.5 2 2.5 3

Whiten + AS , TSR of non-stationary noise = - 10

由以上實驗結果得知，隨著 TSR 下降要維持 detection rate 為 100%， Probability of flase alarm, P FA

P_FA of TNAD , P_D = 100% ( interference : non-stationary noise )

Whiten

Whiten + SS ( β = 4 ) Whiten + AS ( α = 1.5)

4.1.3 干擾聲源為語音干擾聲源為語音干擾聲源為語音 干擾聲源為語音

在這小節分析中，我們針對干擾聲源為語音的情況來進行對於 SS 和 AS 處理過後的訊號對於提升 TNAD 效能的比較，以及找出 detection rate 為 100%時，false alarm rate 最低時的參數。

Probability of detection, P D Probability of flase alarm, P_FA

圖 4.18 和圖 4.19 為在不同的參數 α 下，AS 處理後的訊號經過 TNAD 的結果。因為是從時域上縮減振幅，可以在保留暫態噪音的成分下，將 whiten 後的語音訊號振幅較小的部分完全消除，所以對於降低 false alarm rate 有一定的效果。在維持 detection rate 為 100% 的情況下，高 TSR 時，

Probability of detection, P D Probability of flase alarm, P_FA

0 0.5 1 1.5 2 2.5 3

由以上實驗結果得知，隨著 TSR 下降要維持 detection rate 為 100%， Probability of flase alarm, P FA

P_FA of TNAD , P_D = 100% ( interference : speech )

Whiten

Whiten + SS ( β = 2 ) Whiten + AS ( α = 1.5 )

4.2 暫態噪音聲源方位估暫態噪音聲源方位估暫態噪音聲源方位估暫態噪音聲源方位估測實驗結果與分析測實驗結果與分析測實驗結果與分析測實驗結果與分析

暫態噪音聲源方位估測可以分為兩部分：第一部分是 TNAD 得到的暫態噪音活動偵測結果，第二部分是利用偵測結果針對存在暫態噪音的音框做聲源方位估測。

在本實驗中，為了找出適合偵測暫態噪音的 DOA 演算法，先單獨測試第二部分的結果，利用環境存在不同種類干擾聲源測試 SBF DOA 與 MUSIC DOA 對於暫態噪音聲源方位估測的效果，討論優缺點找出適合的 DOA 演算法。最後測試本論文提出的方法對於不同干擾聲源的穩健程度。

實驗測試音檔共有 8 組，為陣列中 8 顆麥克風接收到的訊號，每組包含 50 次聲源方向為 90 度不同振幅大小的暫態噪音，音檔長度為 2750 個音框，每次 DOA 處理一個音框，音框長度為 256，每次 TNAD 處理一個 block，block 長度為 5 個音框，資料中總共有 550 個 block，存在 50 個包含暫態噪音的 block。

圖 4.21 包含 50 次不同震幅大小暫態噪音的實驗音檔

有三種 TSR 平均為 0 的不同干擾聲源，分別是無方向性的 F16 noise、

無方向性的 Babble noise 以及聲源角度為 180^° 的語音。語音在不同時間 TSR 的變化程度較大，如圖 4.22。

0 0.5 1 1.5 2 2.5 3 3.5

x 10⁵ -2

0 2

x 10⁴

sample

amplitude

圖 4.22 干擾聲源為聲源角度 180^° 的語音時 TSR 的變化情形

將暫態噪音音檔和相同長度的干擾聲源音檔混音成以下三種音檔：

測試音檔 1 : 聲源角度為90^°的暫態噪音(擊掌) + 無方向性的非暫態穩態噪音(F16) 測試音檔 2 : 聲源角度為90^°的暫態噪音(擊掌) +

無方向性的非暫態非穩態噪音(Babble) 測試音檔 3 : 聲源角度為90^°的暫態噪音(擊掌) +

聲源角度為180^°的語音

在這節所有的實驗中，TNAD 的門檻值固定在 0.45，核心參數固定為 10^â，隨機行走階數 1 固定為 25。為了讓演算法在 real-time 上實現，

我們選擇 block 長度為 5 以減少運算量。

首先測試 SBF DOA 與 MUSIC DOA 對於暫態噪音聲源方位估測的效果：從測試音檔中選出 50 個包含暫態噪音的音框，只固定對這 50 個音框進行聲源估測。

0 500 1000 1500 2000 2500

-20 -10 0 10 20

TSR diagram of speech, average TSR = 0

frame

TSR(dB)

當干擾聲源為 F16 noise 和 Babble noise 這兩種無方向性的非暫態噪音

RMSE of DOA estimation for transient noise

SBF DOA

RMSE of DOA estimation for transient noise

SBF DOA MUSIC DOA

在干擾聲源為聲源角度 180^° 的語音時，SBF DOA 和 MUSIC DOA 已經無法在不同的 TSR 下，於範圍為 ±5 度的標準內估測出正確的位置。

因此在干擾聲源為有方向性語音的情況下，我們用偵測到正確位置的機率來當估測角度方法效能的標準。當估測角度為正確角度±5 度的範圍內時，

判定為正確位置。

表 4.3 是 SBF DOA 和 MUSIC DOA 在干擾聲源為角度 180^° 的語音時，對選定的 50 個音框進行聲源估測的 RMSE。我們可以看到在干擾聲源是有方向性語音的情況下， SBF DOA 可以比 MUSIC DOA 估測暫態噪音聲源方位更為準確，並且在 TSR 為 2 dB 以上可以有 100% 的 detection rate。因為 MUSIC DOA 會估算音框內相關程度較高訊號的聲源位置，而 SBF DOA 是估算音框內能量最強的訊號的位置。因此音框內同時存在語音以及暫態噪音的時候，MUSIC DOA 會傾向於估測語音聲源的位置。

TSR(dB) SBF DOA MUSIC DOA

10 100 % 100 %

8 100 % 100 %

6 100 % 100 %

4 100 % 98 %

2 100 % 96 %

0 98 % 88 %

-2 94 % 84 %

-4 90 % 78 %

-6 82 % 74 %

-8 78 % 68 %

-10 64 % 60 %

表 4.3 干擾聲源為有方向性的語音時估測聲源方位的 Detection rate

從 4.1 暫態噪音活動偵測的實驗結果與分析以及以上實驗中，我們可以找到一套適合偵測暫態噪音以及估測暫態噪音聲源位置的演算法：

1. 在各種不同大小的干擾聲源下，不論干擾聲源的種類為何，時域振幅刪減法不需要訓練資料(training data)就能夠直接壓抑非暫態噪音的成分，可以有效的降低 false alarm rate，以提升暫態噪音活動偵測的準確率。

2. 對於估測暫態噪音聲源位置，在干擾聲源為非暫態噪音時，MUSIC DOA 對於聲源估測的精準度比起 SBF DOA 要來的正確，但是這兩套演算法都可以在容許的範圍內估測正確的位置。而干擾聲源為語音時，SBF DOA 的穩定性較高。因此在目標聲源為暫態噪音時，SBF DOA 是最適合作為聲源估測的演算法，計算量低就可以達到偵測正確位置的效果，很適合在 Real-time 的情況下應用。

最後我們測試本論文的演算法對於不同干擾聲源時，追蹤暫態聲源方

在文檔中暫態噪音聲源方位追蹤 (頁 40-0)

第四章 第四章

第四章 第四章 實驗結果與分析 實驗結果與分析 實驗結果與分析 實驗結果與分析

4.1 暫態噪音活動偵測 暫態噪音活動偵測 暫態噪音活動偵測 暫態噪音活動偵測實驗結果與分析 實驗結果與分析 實驗結果與分析 實驗結果與分析

{ }

4.2 暫態噪音聲源方位估 暫態噪音聲源方位估 暫態噪音聲源方位估 暫態噪音聲源方位估測實驗結果與分析 測實驗結果與分析 測實驗結果與分析 測實驗結果與分析

第四章第四章

第四章第四章實驗結果與分析實驗結果與分析實驗結果與分析實驗結果與分析

4.1 暫態噪音活動偵測暫態噪音活動偵測暫態噪音活動偵測暫態噪音活動偵測實驗結果與分析實驗結果與分析實驗結果與分析實驗結果與分析

4.2 暫態噪音聲源方位估暫態噪音聲源方位估暫態噪音聲源方位估暫態噪音聲源方位估測實驗結果與分析測實驗結果與分析測實驗結果與分析測實驗結果與分析