多聲源語音分離效果

第四章實驗結果與分析

4.2 多聲源語音分離效果

接著將使用已經求得的追蹤資訊，經過波束形成器來輸出結果，並測試本論文系統架構聲源分離的效果。實驗語料與配置如表 4.9 與圖 4.11 所示。

聲源方位聲源類型

Source 1 0° Female Voice 1 Source 2 90° Female Voice 2

Source 1 0° Female Voice 1 Source 2 90° Female Voice 2 Source 3 180° Male Voice 1 Source 4 270° Male Voice 2

表 4.9 多聲源追蹤準確率與穩健度效能評估擺置設定(二聲源與四聲源)

圖 4.11 多聲源語料人聲分佈圖(二聲源與四聲源)

由於系統輸入為一混音的八聲道訊號，經過波束形成器輸出為兩個聲源的訊號，這樣的情形要計算各自聲源結果的 SNR 時，將需要把其它聲源當作干擾(Noise)，而使用傳統的 SNR 算法並無法有效取得這些人聲能量當作干擾 (Noise)。

為了評估波束形成器對此各聲源的訊噪比 SNR (Signal-to-noise-ratio)，在此定義一特別適用於此多聲源情況下的 SNR 算法。

的訊噪比增益 SNRI(Signal-to-noise-ratio improvement)：

1 output1 input1

測試一：使用 LS 解的二聲源分離結果

Input SNR (dB) Output SNR (dB) SNR Improvement (dB) Speaker 01 -11.0899 -0.1282 10.9617

Speaker 02 -6.2749 9.9726 16.2475 表 4.10 使用理論陣列拓樸向量計算 LS 解二聲源分離結果

Input SNR (dB) Output SNR (dB) SNR Improvement (dB) Speaker 01 -11.0899 2.0907 13.1806

Speaker 02 -6.2749 10.6737 16.9486 表 4.11 使用校正過之陣列拓樸向量計算 LS 解二聲源分離結果

圖 4.12 使用 Sum beamformer 的合成結果(未分離狀態)

圖 4.13 使用 LS 解 beamformer 的聲源一分離結果

測試三：使用 LCMV 事後解的聲源分離結果

Input SNR (dB) Output SNR (dB) SNR Improvement (dB) Speaker 01 -11.0899 -2.8458 8.2441

Speaker 02 -6.2749 17.9087 24.1836 表 4.14 使用理論陣列拓樸向量計算 LCMV 解聲源分離結果

Input SNR (dB) Output SNR (dB) SNR Improvement (dB) Speaker 01 -11.0899 6.5628 17.6527

Speaker 02 -6.2749 19.1444 25.4193 表 4.15 使用校正過之陣列拓樸向量計算 LCMV 解聲源分離結果

圖 4.15 使用 LCMV 解 beamformer 的聲源一分離結果

圖 4.16 使用 LCMV 解 beamformer 的聲源二分離結果

從三個測試中都可以發現，使用校正過之陣列拓樸向量在進行波束形成最佳解運算時，效果確實會有明顯的提升，輸出的聲源分離結果由人耳來做聽感評估也明顯有所提高。測試一的二聲源分離提升效果或許不明顯，可是到了測試二的四聲源分離時，由於空間干擾加重，角度探測的精密需求度也隨之提高，數據中可以明顯看出使用校正過之陣列拓樸向量的優勢。

測試二做了不同 Diagonal Loading 值的觀察，不同的聲源在不同角度中的空間特性都不盡相同，而不同的 Diagonal Loading 所建立的波束形成器權重範圍與形狀也會有差異，實驗結果發現，不同聲源 Diagonal Loading 的最佳值雖然大致分布在 0.01~1 的區間，可是當角度估測出現誤差，再與不適當的 Diagonal Loading 建立的波束形成器進行搭配時，就會在 Diagonal Loading 沒有選擇到最佳值時產生不佳的分離結果。同樣情形在使用校正過之陣列拓樸向量時，因為角度估測準確度提升，

波束形成器的權重範圍與形狀也較符合實際空間特性，再調整 Diagonal Loading 就沒有出現太大幅度的效果減退。

測試三是拿 LCMV 的事後解來做測試。由於 LCMV 有將輸入訊號的空間資訊拿來當做最佳化時的考量，其排除干擾的效果是比 LS 解還要強的，可是如果在聲源分離的過程有角度上的誤差，很容易會將目標聲源也給抵消掉，表 4.14 的聲源一結果就是如此。而當聲源分離結果是使用校正過之陣列拓樸向量時，這樣子的情形就不會發生，如表 4.15

。

如果使用情境是經過限制的(例如固定聲源方向、數量的事後會議紀錄)，選擇 LCMV 事後解將能輸出較高品質的語音記錄；若是使用情境的變數很多(例如不固定聲源方位、數量、或需要即時語音處理的系統)，那選擇 LS 解將能保有較高的語音紀錄穩健度。

在文檔中具陣列拓樸向量校正之多重訊號分類演算法於多聲源切音與分離 (頁 62-68)

多聲源語音分 離效果

第四章 實驗結果與分析

4.2 多聲源語音分 離效果

第四章實驗結果與分析

4.2 多聲源語音分離效果