陣列拓樸向量校正結果

第四章實驗結果與分析

4.1 陣列拓樸向量校正結果

使用 3.2 章的方法，利用環形麥克風陣列平台錄音實際在無響室中進行測試，並利用提出方法可以求得一校正過之陣列拓樸向量。若是將陣列拓樸向量當作波束形成器的話，可以畫出類似 beam pattern 的 AMV pattern：

圖 4.3 陣列拓樸向量對 0 度角之 beampattern (左為理論的陣列拓樸向量，右為校正的陣列拓樸向量)

圖 4.4 陣列拓樸向量對 0 度角在 500 Hz(上)與 1500Hz(下)時之 Beampattern

38 Disturbance Diffused White Noise 2

表 4.2 單聲源 MUSIC Spectrum 擺置設定

(a)使用理論的陣列拓樸向量的結果

(b)利用九個實測角度做 LS 解校正的陣列拓樸向量的結果

(c)使用本論文提出方法利用九個實測角度做校正的陣列拓樸向量的結果

圖 4.5 單聲源 MUSIC Spectrum 分布情形

利用陣列訊號處理估算聲源到達角度的各種演算法，如本論文使用的 MUSIC Spectrum，在計算 Wide-Band 的寬頻能量分部時，低頻的部分很容易受到 spectrum coherence 的影響，導致聲源方位資訊模糊；而高頻的部分，又會因 space spectrum aliasing 的關係，導致能量分散在非訊號來源的角度上，

產生角度估計錯誤。

如圖 4.5(a)所呈現，這些不利的效應在使用理論陣列拓樸向量時對估測準確度有很大的影響，而當採用利用九個實測角度做 LS 解校正的陣列拓樸向量後，

如圖4.5(b)，不利效應對估測準確性的影響有稍微降低，可是在高低頻的方向特徵還是顯得模糊。而在利用本論文提出方法用九個實測角度校正陣列拓樸向量後，如圖 4.5(c)，不利的效應對估測準確性的影響明顯大幅降低，甚至在極低頻與極高頻時，MUSIC Spectrum 都還能保有相當明確的角度方向特徵。

測試二：多聲源的 MUSIC Tracking 結果

再來觀察校正對於多聲源的 MUSIC Tracking 結果影響。在無響室中用環狀陣列錄製 4 組不同的 source 訊號，各自對準 0°，90°，180°， 270°的方向，並將此 4 組訊號一需求合成，形成一個多聲源此起彼落的會議情境，如表 4.3。

將此人聲混雜的訊號通過本論文提出的系統，可以求得圖 4.6 (a)、4.7 (a) 之 MUSIC Spectrum Tracking (每一 Block 都有各角度的寬頻平均能量 )，縱軸為角度(0~360 度)，橫軸為處理到的 Data Blocks。利用此 MUSIC 的能量分布紀錄，再透過特徵向量與機率決策的篩選，可以得到圖 4.6 (b)、 4.7 (b)之 Tracking Results。

聲源方位聲源類型

Source 1 0° Female Voice 1 Source 2 90° Female Voice 2 Source 3 180° Male Voice 1 Source 4 270° Male Voice 2

表 4.3 多聲源 MUSIC Tracking 擺置設定

(a) Spectrum 結果

(b) Tracking 結果

圖 4.6 多聲源 MUSIC Tracking 使用理論陣列拓樸向量

(a) Spectrum 結果

(b)Tracking 結果

圖 4.7 多聲源 MUSIC Tracking 使用校正過之陣列拓樸向量

直接以肉眼觀察看來，圖 4.6 (a)與 4.7 (a)各自得到的 MUSIC Spectrum Tracking 透露的角度訊息並不會有太大差異，可是由於使用理論陣列拓樸向量算出來的 MUSIC Spectrum 在寬頻計算時低頻的 spectrum coherence 與高頻的 space spectrum aliasing 影響，能量分布無法集中於聲源的角度上，而分散在各個角度。雖然肉眼可以明顯判斷，不過當使用機率決策來獲得追蹤資訊時，

如圖 4.6 (b)所見，即會造成多處聲源方向誤判或是缺漏的情形。反觀使用校正過之陣列拓樸向量的圖 4.7 (a)，能量分布的極大值都比較明顯集中在單一幾個方向上，在機率決策來獲得追蹤資訊時，如圖 4.7 (b)所見，能得到較為完整連續的角度追蹤值。

測試三：噪音情況的多聲源追蹤準確率與穩健度效能評估

圖 4.8 聲源原始訊號顯示於 Adobe Audition

為了評估追蹤值的準確性，我們做了對各個聲源估算其準確率 (Accuracy Rate)與誤報率(False Alarm Rate)的檢定。首先，如圖 4.8，先用人耳與 Adobe Audition 資料顯示的結果，挑選出人耳聽來有包含連續人聲的 sample 點，再換算出這些 Sample 點所在的 Data block，將這些 blocks 視為 True blocks，而其餘沒有人聲的 blocks 皆為 False blocks。

而對於用系統方法追蹤出來結果判定為有聲源的 blocks，將其視為

Positive blocks，而沒有追蹤到聲源的 Blocks 則視為 Negative blocks。比較人工篩選的結果與系統估算的結果，可以將所有的 Blocks 分為四類：人工篩選通過，系統也偵測到的稱為 True Positive blocks；人工篩選通過，系統卻沒有偵測到的稱為 False Negative Blocks; 人工篩選不通過，系統也偵測為沒有的稱為 True Negative blocks；人工篩選不通過，系統卻偵測到的稱為 False Positive。用這四類 blocks 的數量於是可以定義準確率(Accuracy Rate)為所有判定中，成功判定為是或是成功判定為否的機率：

True Positive blocks + True Negative blocks

AR Total blocks (4.1.2) 擇中，使用 Babble noise 與 Car interior noise。其中，Babble noise 為一種非穩態(non-stationary)的噪音，而 Car interior noise 則可視為一種穩態(stationary) 的噪音。

Babble noise, narrow frequency-band selected tracking (500Hz~1500Hz):

SNR (dB)

Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 94.78 % 86.75 % 0 % 1.2 % -1 dB 95.98 % 88.35 % 0 % 0.8 % -2 dB 92.77 % 84.74 % 3.21 % 5.22 % -5 dB 91.57 % 72.69 % 2.01 % 14.46 % -8 dB 83.94 % 59.84 % 0 % 15.66 % -12 dB 69.48 % 52.61 % 2.41 % 15.66 %

(a) Using traditional AMV

SNR (dB)

Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 96.79 % 89.96 % 3.61 % 0.8 % -1 dB 96.39 % 87.15 % 2.01 % 5.22 % -2 dB 95.58 % 81.12 % 2.01 % 16.47 % -5 dB 93.57 % 75.1 % 0 % 25.66 % -8 dB 87.55 % 70.68 % 0 % 31.73 % -12 dB 66.67 % 63.45 % 0 % 24.5 %

(b) Using calibrated AMV

表 4.5 Babble noise 情況下較窄頻帶追蹤的 Accuracy Rate 與 False Alarm Rate

Babble noise, wide frequency-band selected tracking (250Hz~3750Hz):

SNR (dB)

Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 90.76 % 81.93 % 0 % 0.78 % -1 dB 89.96 % 83.94 % 0 % 0.78 % -2 dB 89.16 % 86.35 % 1.61 % 0.8 % -5 dB 79.52 % 65.46 % 10.04 % 16.87 % -8 dB 61.85 % 47.39 % 13.35 % 20.08 % -12 dB 65.46 % 48.59 % 14.06 % 21.69 %

(a) Using traditional AMV

SNR (dB)

Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 97.59 % 95.58 % 1.2 % 1.2 % -1 dB 91.16 % 92.77 % 8.03 % 4.82 % -2 dB 92.37 % 89.96 % 6.43 % 8.43 % -5 dB 91.16 % 81.53 % 7.23 % 17.27 % -8 dB 92.77 % 69.88 % 1.61 % 25.7 % -12 dB 77.11 % 64.26 % 0.8 % 30.92 %

(b) Using calibrated AMV

表 4.6 Babble noise 情況下較寬頻帶追蹤的 Accuracy Rate 與 False Alarm Rate

Car noise, narrow frequency-band selected tracking (500Hz~1500Hz):

SNR (dB)

Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 94.78 % 86.75 % 0 % 0.8 % -1 dB 95.98 % 88.35 % 0 % 0.8 % -2 dB 95.58 % 88.76 % 0.8 % 0.8 % -5 dB 93.98 % 87.55 % 1.61 % 0.4 % -8 dB 86.35 % 82.73 % 7.63 % 0 % -12 dB 83.13 % 65.06 % 0 % 4.02 %

(a) Using traditional AMV

SNR (dB)

Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 96.79 % 88.76 % 0 % 0 % -1 dB 94.78 % 86.75 % 2.41 % 4.02 % -2 dB 92.37 % 87.95 % 2.41 % 4.02 % -5 dB 93.98 % 85.94 % 2.81 % 2.41 % -8 dB 91.16 % 84.74 % 4.82 % 1.61 % -12 dB 90.36 % 73.49 % 0.8 % 0 %

(b) Using calibrated AMV

表 4.7 Car noise 情況下較窄頻帶追蹤的 Accuracy Rate 與 False Alarm Rate

Car noise, wide frequency-band selected tracking (250Hz~3750Hz):

SNR (dB)

Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 91.57 % 81.93 % 0 % 0.78 % -1 dB 91.97 % 82.33 % 0 % 0.78 % -2 dB 91.16 % 82.33 % 0 % 0.78 % -5 dB 90.36 % 81.12 % 1.61 % 1.61 % -8 dB 77.11 % 71.49 % 12.73 % 0 % -12 dB 61.45 % 57.03 % 14.46 % 0 %

(a) Using traditional AMV

SNR (dB)

Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 97.59 % 95.58 % 1.2 % 1.2 % -1 dB 96.79 % 91.97 % 5.45 % 4.82 % -2 dB 94.38 % 86.75 % 3.21 % 8.43 % -5 dB 93.98 % 90.76 % 10.91 % 12.4 % -8 dB 92.77 % 91.16 % 14.55 % 10.85 % -12 dB 93.98 % 83.53 % 1.61 % 2.81 %

(b) Using calibrated AMV

表 4.8 Car noise 情況下較寬頻帶追蹤的 Accuracy Rate 與 False Alarm Rate

噪音情況下的兩個聲源追蹤結果總結：

在檢定追蹤效果的時候，準確率當然是越高越好，不過若能提高準確率，

在此系統架構的應用底下是可以容忍增加些許誤報率的。在使用 non-stationary 的 babble noise 當作干擾，做較窄頻帶的估測時(表 4.5)，會發現陣列拓樸向量的校正與否對於追蹤結果並沒有太多提升，甚至在一些情形下由於 babble noise 本身擁有的人聲屬性，校正過的陣列拓樸向量反而會在 MUSIC Spectrum 上放大某些特定方位的能量造成誤報，進而使追蹤準確度下降。整體來說單純就較窄頻帶的估測，兩種陣列拓樸向量的效能十分相近。

圖 4.9 乾淨聲源訊號的頻譜圖

圖 4.10 聲源訊號加入 Babble noise 的頻譜圖

從圖 4.9 與 4.10 中我們可以發現，當聲源訊號中加入 babble noise 時，觀察人聲的主力頻帶(500Hz~1500Hz)幾乎被 babble noise 給蒙蔽了，只使用這一頻帶的資訊來估測聲源效果十分有限，勢必要利用目標聲源在高頻帶與低頻帶保有的明顯特徵來做估測。

而當使用較寬頻帶的 MUSIC Spectrum 來做追蹤估測時 (表 4.6)，由於目標聲源擁有比 babble noise 較完整明顯的頻帶資訊，在做較寬頻帶估測時使用校正過的陣列拓樸向量能在訊噪比極低的情況下，依然保有一定程度的準確率。

反觀使用理論陣列拓樸向量估測較寬頻帶資訊時，由於高低頻的特徵混亂，

反而降低了其準確率。

校正過的陣列拓樸向量提升準確率的效果在使用stationary 的 car noise 當作干擾時又更為明顯了。這兩種不同的 noise 干擾，測試的效果都是一樣的：在較窄頻帶估測時，校正過的陣列拓樸向量能維持與理論陣列拓樸向量差不多甚至更好的效果；而在做較寬頻帶估測時，校正過的陣列拓樸向量更能在訊噪比極不樂觀的條件下，如表 4.8(b)，擁有相當程度的準確率。於是可以發現陣列拓樸向量的校正對於提升追蹤結果的準確率與穩健度都是十分有效的。

在文檔中具陣列拓樸向量校正之多重訊號分類演算法於多聲源切音與分離 (頁 48-62)

第四章 實驗結果與分析

4.1 陣列拓樸向量校正結果

第四章實驗結果與分析