第四章 實驗結果與分析
4.2 多聲源語音分 離效果
接著將使用已經求得的 追蹤資訊,經過波束形成器來 輸出結果,並測試本 論文系統架構聲源分離的效果。實驗語料與配置如表 4.9 與圖 4.11 所示。
聲源方位 聲源類型
Source 1 0° Female Voice 1 Source 2 90° Female Voice 2
Source 1 0° Female Voice 1 Source 2 90° Female Voice 2 Source 3 180° Male Voice 1 Source 4 270° Male Voice 2
表 4.9 多聲源追蹤準確率與穩健度效能評估擺置設定(二聲源與四聲源)
圖 4.11 多聲源語料人聲分佈圖(二聲源與四聲源)
由於系統輸入為一混音 的八聲道訊號,經過波束 形成器輸出為兩 個聲源的 訊號,這樣的情形要計算各自聲源 結果的 SNR 時,將需要把其它聲 源當作干 擾(Noise),而使用傳統的 SNR 算法並無 法有效取得這些 人聲能量當作干 擾 (Noise)。
為了評估波束形成器對此各聲源的訊噪比 SNR (Signal-to-noise-ratio),在 此定義一特別適用於此多聲源情況下的 SNR 算法。
52
的訊噪比增益 SNRI(Signal-to-noise-ratio improvement):
1 output1 input1
53
測 試 一 : 使用 LS 解 的 二聲 源分離結果
Input SNR (dB) Output SNR (dB) SNR Improvement (dB) Speaker 01 -11.0899 -0.1282 10.9617
Speaker 02 -6.2749 9.9726 16.2475 表 4.10 使用理論陣列拓樸向量計算 LS 解二聲源分離結果
Input SNR (dB) Output SNR (dB) SNR Improvement (dB) Speaker 01 -11.0899 2.0907 13.1806
Speaker 02 -6.2749 10.6737 16.9486 表 4.11 使用校正過之陣列拓樸向量計算 LS 解二聲源分離結果
圖 4.12 使用 Sum beamformer 的合成結果(未分離狀 態)
圖 4.13 使用 LS 解 beamformer 的聲源一分離 結果
54
55
測 試 三 : 使用 LCMV 事 後 解 的 聲 源 分離結果
Input SNR (dB) Output SNR (dB) SNR Improvement (dB) Speaker 01 -11.0899 -2.8458 8.2441
Speaker 02 -6.2749 17.9087 24.1836 表 4.14 使用理論陣列拓樸向量計算 LCMV 解聲 源分離結果
Input SNR (dB) Output SNR (dB) SNR Improvement (dB) Speaker 01 -11.0899 6.5628 17.6527
Speaker 02 -6.2749 19.1444 25.4193 表 4.15 使用校正過之陣列拓樸向量計算 LCMV 解聲源 分離結果
圖 4.15 使用 LCMV 解 beamformer 的聲 源一分離結果
圖 4.16 使用 LCMV 解 beamformer 的聲 源二分離結果
56
從三個測試中都可以發現,使用校正過之陣列拓樸向量在進行波束形成最佳解 運算時,效果確實會有明顯的提升,輸出的聲源分離結果由人耳來做聽感評估也明 顯有所提高。測試一的二聲源分離提升效果或許不明顯,可是到了測試二的四聲源 分離時,由於空間干擾加重,角度探測的精密需求度也隨之提高,數據中可以明顯 看出使用校正過之陣列拓樸向量的優勢。
測試二做了不同 Diagonal Loading 值的觀察,不同的聲源在不同角度中的空間 特性都不盡相同,而不同的 Diagonal Loading 所建立的波束形成器權重範圍與形狀 也會有差異,實驗結果發現,不同聲源 Diagonal Loading 的最佳值雖然大致分布在 0.01~1 的區間,可是當角度估測出現誤差,再與不適當的 Diagonal Loading 建立的 波束形成器進行搭配時,就會在 Diagonal Loading 沒有選擇到最佳值時產生不佳的 分離結果。同樣情形在使用校 正過之陣列拓樸 向量時,因為角度估測準確度提升,
波束形成器的權重範圍與形狀也較符合實際空間特性,再調整 Diagonal Loading 就 沒有出現太大幅度的效果減退。
測試三是拿 LCMV 的事後解來做測試。由於 LCMV 有將輸入訊號的空間資訊 拿來當做最佳化時的考量,其排除干擾的效果是比 LS 解還要強的,可是如果在聲 源分離的過程有角度上的誤差,很容易會將目標聲源也給抵消掉,表 4.14 的聲源一 結果就是如此。而當聲源分離結果是使用校正過之陣列拓樸向量時,這樣子的情形 就不會發生,如表 4.15
。
如果使用情境是經過限制的(例如固定聲源方向、數量的事後會議紀錄),選擇 LCMV 事後解將能輸出較高品質的語音記錄;若是使用情境的變數很多(例如不固定 聲源方位、數量、或需要即時語音處理的系統),那選擇 LS 解將能保有較高的語音 紀錄穩健度。
57