第四章 實驗結果與分析
4.1 陣列拓樸向量校正結果
使用 3.2 章的方法,利用環形麥 克風陣列平台錄 音實際在無響室 中進行測 試,並利 用提出 方法可 以求得 一校正 過之陣 列拓樸 向量 。若是 將陣列 拓樸向 量當作波束形成器的話,可以畫出類似 beam pattern 的 AMV pattern:
圖 4.3 陣列拓樸向量對 0 度角之 beampattern (左為理論的陣列拓樸向量,右為校正的陣列拓樸向量)
圖 4.4 陣列拓樸向量對 0 度角在 500 Hz(上)與 1500Hz(下)時之 Beampattern
38 Disturbance Diffused White Noise 2
表 4.2 單聲源 MUSIC Spectrum 擺置設定
39
(a)使用理論的陣列拓樸向量的結果
(b)利用九個實測角度做 LS 解校正的陣列拓樸向量的結果
(c)使用本論文提出方法利用九個實測角度做校正的陣列拓樸向量的結果
圖 4.5 單聲源 MUSIC Spectrum 分布情形
40
利用陣列訊號處理估算聲源到達角度的各種演算法,如本論文使用的 MUSIC Spectrum,在計算 Wide-Band 的寬頻能量 分部時,低頻的 部分很容易 受到 spectrum coherence 的影響,導致聲源方位資訊模 糊;而高頻的部分,又 會因 space spectrum aliasing 的關係,導致能量分 散在非訊號來源 的角度上,
產生角度估計錯誤。
如圖 4.5(a)所呈 現,這些不利的效應在使用理論 陣列拓樸向量時 對估測準 確度有很大的影響,而當 採用利用九個實測角度做 LS 解校正的陣列拓樸向量後,
如圖4.5(b),不利效應對 估測準確性的影響 有稍微降低,可是在高低 頻的方向 特徵還是顯得模糊。而在利用本論文提出方法用九個實測角度校正陣列拓樸向量 後,如圖 4.5(c),不利的 效應對估測準確性 的影響明顯大幅 降低,甚至在極低 頻與極高頻時,MUSIC Spectrum 都還能保有相當明確的角 度方向特徵。
測 試 二 : 多聲源的 MUSIC Tracking 結 果
再來觀察校正對於多聲 源的 MUSIC Tracking 結 果影響。在無響 室中用環 狀陣列錄製 4 組不同的 source 訊號,各自 對準 0°,90°,180°, 270°的方向 , 並將此 4 組訊號一需求合成,形成一個 多聲源此起彼落 的會議情境,如表 4.3。
將此人聲混雜的訊號通 過本論文提出的 系統,可以求得圖 4.6 (a)、4.7 (a) 之 MUSIC Spectrum Tracking (每一 Block 都有各角度 的寬頻平均能量 ),縱軸 為角度(0~360 度),橫軸為處理到的 Data Blocks。利用此 MUSIC 的 能量分布 紀 錄 , 再 透過 特 徵 向量 與 機 率決 策 的 篩選 , 可 以得 到 圖 4.6 (b)、 4.7 (b)之 Tracking Results。
聲源方位 聲源類型
Source 1 0° Female Voice 1 Source 2 90° Female Voice 2 Source 3 180° Male Voice 1 Source 4 270° Male Voice 2
表 4.3 多聲源 MUSIC Tracking 擺置 設定
41
(a) Spectrum 結果
(b) Tracking 結果
圖 4.6 多聲源 MUSIC Tracking 使用 理論陣列拓樸向 量
42
(a) Spectrum 結果
(b)Tracking 結果
圖 4.7 多聲源 MUSIC Tracking 使用 校正過之陣列拓 樸向量
43
直接以肉眼觀察看來,圖 4.6 (a)與 4.7 (a)各自得到的 MUSIC Spectrum Tracking 透露的角度 訊息並不會有太 大差異,可是由於使用理論陣列 拓樸向量 算出來的 MUSIC Spectrum 在寬頻計算時低頻的 spectrum coherence 與高頻的 space spectrum aliasing 影響,能 量分布無法集中 於聲源的角度上,而 分散在各 個角度。雖然肉眼可以明顯判斷,不過當使用機率決策來獲得追蹤資訊時,
如圖 4.6 (b)所見,即會造成多處聲源方向誤判或是缺漏的情形。反觀使 用校 正過之陣列拓樸向量的圖 4.7 (a),能量分布的極大值都比較明顯集中在單一 幾個方向上,在機率決策來獲得追蹤資訊時,如圖 4.7 (b)所見,能得到較為 完整連續的角度追蹤值。
測 試 三 : 噪音情況的多 聲源追蹤準確 率與穩健度效能 評估
圖 4.8 聲源原始訊號顯示於 Adobe Audition
為了評估追蹤值的準確 性,我們做 了對各個聲源估 算其準確率 (Accuracy Rate)與誤報率(False Alarm Rate)的檢定。首先,如圖 4.8,先用人耳與 Adobe Audition 資料顯示的結果 ,挑選出人耳聽來 有包含連續人聲的 sample 點,再 換算出這些 Sample 點所在的 Data block,將這些 blocks 視為 True blocks,而 其餘沒有人聲的 blocks 皆為 False blocks。
44
而對於用系統方法追蹤出來結果判定為有聲源的 blocks,將 其視為
Positive blocks,而沒有追蹤到聲源的 Blocks 則視為 Negative blocks。比較人 工篩選的結果與系統估算的結果,可以將所有的 Blocks 分為四類:人 工篩選 通過,系統也偵測到的稱為 True Positive blocks;人工篩選通過,系統卻沒有 偵測到的稱為 False Negative Blocks; 人工篩選不通過,系統也偵測為沒有的 稱為 True Negative blocks;人工篩選不通過,系統卻偵測到的稱為 False Positive。用這四類 blocks 的數量於是可以 定義準確率(Accuracy Rate)為所有 判定中,成功判定為是或是成功判定為否的機率:
True Positive blocks + True Negative blocks
AR Total blocks (4.1.2) 擇中,使用 Babble noise 與 Car interior noise。其中,Babble noise 為一種非穩 態(non-stationary)的 噪音,而 Car interior noise 則可視為一種穩態(stationary) 的噪音。
45
Babble noise, narrow frequency-band selected tracking (500Hz~1500Hz):
SNR (dB)
Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 94.78 % 86.75 % 0 % 1.2 % -1 dB 95.98 % 88.35 % 0 % 0.8 % -2 dB 92.77 % 84.74 % 3.21 % 5.22 % -5 dB 91.57 % 72.69 % 2.01 % 14.46 % -8 dB 83.94 % 59.84 % 0 % 15.66 % -12 dB 69.48 % 52.61 % 2.41 % 15.66 %
(a) Using traditional AMV
SNR (dB)
Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 96.79 % 89.96 % 3.61 % 0.8 % -1 dB 96.39 % 87.15 % 2.01 % 5.22 % -2 dB 95.58 % 81.12 % 2.01 % 16.47 % -5 dB 93.57 % 75.1 % 0 % 25.66 % -8 dB 87.55 % 70.68 % 0 % 31.73 % -12 dB 66.67 % 63.45 % 0 % 24.5 %
(b) Using calibrated AMV
表 4.5 Babble noise 情況下較窄頻帶追蹤的 Accuracy Rate 與 False Alarm Rate
46
Babble noise, wide frequency-band selected tracking (250Hz~3750Hz):
SNR (dB)
Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 90.76 % 81.93 % 0 % 0.78 % -1 dB 89.96 % 83.94 % 0 % 0.78 % -2 dB 89.16 % 86.35 % 1.61 % 0.8 % -5 dB 79.52 % 65.46 % 10.04 % 16.87 % -8 dB 61.85 % 47.39 % 13.35 % 20.08 % -12 dB 65.46 % 48.59 % 14.06 % 21.69 %
(a) Using traditional AMV
SNR (dB)
Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 97.59 % 95.58 % 1.2 % 1.2 % -1 dB 91.16 % 92.77 % 8.03 % 4.82 % -2 dB 92.37 % 89.96 % 6.43 % 8.43 % -5 dB 91.16 % 81.53 % 7.23 % 17.27 % -8 dB 92.77 % 69.88 % 1.61 % 25.7 % -12 dB 77.11 % 64.26 % 0.8 % 30.92 %
(b) Using calibrated AMV
表 4.6 Babble noise 情況下較寬頻帶追蹤的 Accuracy Rate 與 False Alarm Rate
47
Car noise, narrow frequency-band selected tracking (500Hz~1500Hz):
SNR (dB)
Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 94.78 % 86.75 % 0 % 0.8 % -1 dB 95.98 % 88.35 % 0 % 0.8 % -2 dB 95.58 % 88.76 % 0.8 % 0.8 % -5 dB 93.98 % 87.55 % 1.61 % 0.4 % -8 dB 86.35 % 82.73 % 7.63 % 0 % -12 dB 83.13 % 65.06 % 0 % 4.02 %
(a) Using traditional AMV
SNR (dB)
Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 96.79 % 88.76 % 0 % 0 % -1 dB 94.78 % 86.75 % 2.41 % 4.02 % -2 dB 92.37 % 87.95 % 2.41 % 4.02 % -5 dB 93.98 % 85.94 % 2.81 % 2.41 % -8 dB 91.16 % 84.74 % 4.82 % 1.61 % -12 dB 90.36 % 73.49 % 0.8 % 0 %
(b) Using calibrated AMV
表 4.7 Car noise 情況下較窄頻帶追蹤的 Accuracy Rate 與 False Alarm Rate
48
Car noise, wide frequency-band selected tracking (250Hz~3750Hz):
SNR (dB)
Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 91.57 % 81.93 % 0 % 0.78 % -1 dB 91.97 % 82.33 % 0 % 0.78 % -2 dB 91.16 % 82.33 % 0 % 0.78 % -5 dB 90.36 % 81.12 % 1.61 % 1.61 % -8 dB 77.11 % 71.49 % 12.73 % 0 % -12 dB 61.45 % 57.03 % 14.46 % 0 %
(a) Using traditional AMV
SNR (dB)
Accuracy rate False Alarm Rate Source 1 Source 2 Source 1 Source 2 0 dB 97.59 % 95.58 % 1.2 % 1.2 % -1 dB 96.79 % 91.97 % 5.45 % 4.82 % -2 dB 94.38 % 86.75 % 3.21 % 8.43 % -5 dB 93.98 % 90.76 % 10.91 % 12.4 % -8 dB 92.77 % 91.16 % 14.55 % 10.85 % -12 dB 93.98 % 83.53 % 1.61 % 2.81 %
(b) Using calibrated AMV
表 4.8 Car noise 情況下較寬頻帶追蹤的 Accuracy Rate 與 False Alarm Rate
49
噪 音 情 況 下的兩個聲源 追蹤結果總結 :
在檢定追蹤效果的時候,準確率當 然是越高越好,不過若能提高 準確率,
在 此 系 統 架 構 的 應 用 底 下 是 可 以 容 忍 增 加 些 許 誤 報 率 的 。 在 使 用 non-stationary 的 babble noise 當作干擾,做較窄頻帶的 估測時(表 4.5),會發現 陣列拓樸 向量的 校正與 否對於 追蹤結 果並沒 有太多 提升 ,甚至 在一些 情形下 由 於 babble noise 本 身 擁 有 的 人 聲 屬 性 , 校 正過 的 陣 列 拓 樸 向量 反 而 會 在 MUSIC Spectrum 上放大某些特 定方位的能量造 成誤報,進而使追蹤 準確度下 降。整體來說單純就較窄頻帶的估測,兩種陣列拓樸向量的效能十分相近。
圖 4.9 乾淨聲源訊號的頻譜圖
圖 4.10 聲源訊號加入 Babble noise 的頻譜圖
50
從圖 4.9 與 4.10 中我們可 以發現,當聲源訊號中加入 babble noise 時,觀 察人聲的主力頻帶(500Hz~1500Hz)幾乎被 babble noise 給蒙蔽 了,只使用這一 頻帶的資 訊來估 測聲源 效果十 分有限 ,勢必 要利用 目標 聲源在 高頻帶 與低頻 帶保有的明顯特徵來做估測。
而當使用較寬頻帶的 MUSIC Spectrum 來做追蹤估測時 (表 4.6),由於目標 聲源擁有比 babble noise 較完整明顯的 頻帶資訊,在 做較寬頻帶估測 時使用校 正過的陣列拓樸向量能 在訊噪比極低的 情況下,依然保有 一定程度的準確率。
反觀使用 理論陣 列拓樸 向量估 測較寬 頻帶資 訊時, 由於 高低頻 的特徵 混亂,
反而降低了其準確率。
校正過的陣列拓樸向量提升準確率的效果在使用stationary 的 car noise 當作 干擾時又更為明顯了。這兩種不同的 noise 干擾,測試的 效果都是一樣的:在 較窄頻帶估測時,校正過的陣列拓樸向量能維持與理論陣列拓樸向量差不多 甚至更好的效果;而在做較寬頻帶估測時,校正過的陣列拓樸向量更能在訊 噪比極不樂觀的條件下,如表 4.8(b),擁有相當程 度的準確率。於是 可以發現 陣列拓樸向量的校正對於提升追蹤結果的準確率與穩健度都是十分有效的。
51