模擬結果模擬結果模擬結果模擬結果

4.2.1 模擬一模擬一模擬一模擬一：：：最小角度差：最小角度差最小角度差 最小角度差

從表 4-1 可以看出，角度差最小的組合為( 84.5 , 78.9 )以及( 78.9 , 73.2 )，因此我們就對三種模型在這兩種情況下作測試，得到以下的結果：

表 4-5 DOA-NPCM 以及 NPCM 參數設定

( 84.5 , 78.9 )測試結果測試結果測試結果測試結果：：：：

( 78.9 , 73.2 )測試結果測試結果測試結果測試結果：：：：

從表 4-6 到 4-13 可以看出，除了 NPCM 本身只能估計出聲源數目之外，其他

第二個部分中，也就是當有 2 個聲源存在時，我們做了 45 組的角度組合測試，

結果如下表：

模型高斯拉普拉斯廣義高斯 NPCM DOA-NPCM 正確率正確率

正確率正確率 53 % 39 % 61 % 88 % 73 %

第三個測試是 3 個聲源存在時，一共有 120 組角度組合，結果如下表：

模型高斯拉普拉斯廣義高斯 NPCM DOA-NPCM 正確率正確率

正確率正確率 28 % 32 % 53 % 71 % 61 %

最後一個測試，是 4 個聲源存在時，一共有 210 組角度組合，結果如下表：

模型高斯拉普拉斯廣義高斯 NPCM DOA-NPCM 正確率

正確率

正確率正確率 9 % 20 % 24 % 40 % 32 %

表 4-15 各種方法估計結果，N_S=2

圖 4-13 左圖是 DOA=73.2 度的統計圖，較為集中右圖是 DOA=15.5 度的統計圖，較為發散

表 4-16 各種方法估計結果，N_S=3

表 4-17 各種方法估計結果，N_S=4

從前面 4 個部分的模擬中可看出，隨著聲源數增加，估計的正確率越來越差，

Gaussian 73 53 28 9

Laplace 80 39 32 20

generalized Gaussian 77 61 53 24

NPCM 100 88 71 40

DOA-NPCM 90 73 61 32

1 2 3 4

圖 4-14 整體正確率趨勢圖

4.2.3 模擬模擬模擬模擬三三三三：：：2 個：個個個聲聲聲聲源源源源

我們一共測試了 4 種角度組合，分別為(84.5, 78.9)、(73.2, 47.6)、(67.3, 29.9) 以及(84.5, 15.5)，此 4 個角度組合分別有不同的角度差距，角度差從小到大都有，

分別為 5.6、25.6、37.4 和 69.0 度。每個組合會有 4 次不同句話的測試，最後的結果為 4 次測試的平均。除了比較二元遮蔽與權重遮蔽的方法，我們也與 NPCM 與 DOA-NPCM 分離的結果作比較。

因為 ITD 的資訊在 4000Hz 以上會變得混亂，因此我們只針對 4000Hz 以下的部分作處理，下圖為其中一次測試(73.2, 47.6)的聲源聲譜圖、混合訊號聲譜圖以及分離後語音的聲譜圖：

圖 4-15 左圖是聲源 1 的聲譜圖右圖是聲源 2 的聲譜圖

圖 4-16 左圖是混合訊號 1 的聲譜圖右圖是混合訊號 2 的聲譜圖

圖 4-17 左圖是用二元分離法分離後的聲源 1 聲譜圖右圖是用二元分離法分離後的聲源 2 聲譜圖

圖 4-18 左圖是用權重分離法分離後的聲源 1 聲譜圖右圖是用權重分離法分離後的聲源 2 聲譜圖

圖 4-19 左圖是用 NPCM 分離後的聲源 1 聲譜圖

右圖是用 NPCM 分離後的聲源 2 聲譜圖

( 84.5 , 78.9 ) ( 73.2 , 47.6 )

則該位置的 T-F unit 將不屬於任一聲源，也就是被丟棄的意思，因此這兩種方法遮蔽中存在的 0 個數會大於二元分離法遮蔽中的 0 個數，導致失真程度比二元法嚴重。

分離結果除了 NPCM 之外，其他方法並沒有表現出聲源相距越遠分離效果越好的趨勢，其原因是當 DOA 角度越小時，聲譜圖上的 DOA 會越不穩定（如圖 4-13），每個 unit 的 DOA 越不會落在前面介紹的 DOA 與強度比例的曲線上，導致分離結果不會因相距越遠而越好。但是 NPCM 只有利用強度資訊，不受前述的影響，所以其呈現的趨勢與相距越遠而分離效果越好的期望一致。以下的圖是以上 4 種角度組合，2 聲源強度比例與 DOA 的散點圖，可以作個簡單說明：

圖 4-21 左圖是(84.5, 78.9)的實際聲源能量比例與 DOA 散點圖右圖是(73.2, 47.6)的實際聲源能量比例與 DOA 散點圖

圖 4-22 左圖是(67.3, 29.9)的實際聲源能量比例與 DOA 散點圖右圖是(84.5, 15.5)的實際聲源能量比例與 DOA 散點圖

4.2.4 模擬模擬模擬模擬四四四四：：：3 個：個個個 & 4 個聲源個聲源個聲源個聲源

在 3 個聲源的測試中，我們令 3 個聲源分別位於( 84.5 , 73.2 , 61.2 )，每個方法都會作 4 次不同句話的測試，顯示的結果是 4 次的平均。結果如下：

分離方法分離方法

分離方法分離方法二元權重 NPCM DOA-NPCM

SAR 6.22 7.99 3.51 5.52

SDR 5.90 6.41 3.35 5.38

SIR 22.82 13.50 19.74 27.88

在 4 個聲源的測試中，我們令 4 個聲源分別位於( 78.9 , 67.3 , 54.7 , 39.6 )，每個方法都會作 4 次不同句話的測試，顯示的結果是 4 次的平均。結果如下：

分離方法分離方法

分離方法分離方法二元權重 NPCM DOA-NPCM

SAR 4.50 6.14 2.5 2.61

SDR 4.03 4.21 2.32 2.35

SIR 18.05 10.64 18.92 21.3

在欠定的情況下，因為聲源變多了，單一 unit 內通常不再只有一個聲源的成分，因此 NPCM 和 DOA-NPCM 造成的失真就更嚴重了；而權重分離法還能根據 DOA 的位置，應用(式 3-29)的關係式分配 unit 的能量給不同聲源，所以會有較高的 SDR。但是隨著聲源變多，四種分離法整體的表現還是越來越差的。

表 4-19 各種分離法的分離結果，N_S=3

表 4-20 各種分離法的分離結果，NS=4

第五章第五章第五章

第五章結論結論結論與未來展望結論與未來展望與未來展望與未來展望

本論文探討混合模型估測聲源數以及聲源方位的成效，主要是針對不同時間延遲與強度衰減的混合訊號來作測試。論文中實驗了三種不同的混合模型以及兩種 NPCM 的方法，將訊號轉到頻域後，再對每個 T-F unit 的 DOA 作統計。分別是常見的高斯混合模型和拉普拉斯混合模型，還有自由度更高的廣義高斯混合模型，加上原本的 NPCM 還有 DOA-NPCM。除了聲源數、聲源方位的估測，我們在得到前述的兩個資訊後，探討四種遮蔽分離法來分離混合訊號，分別是二元分離法、權重分離法、NPCM 以及 DOA-NPCM。

比較各種方法的結果，在空間解析度上，五個方法的表現是平分秋色，最小可分辨的角度差約為 5.5 度。在聲源數目的正確率上，雖然 NPCM 的效能是最佳的，但它無法同時提供聲源的方向。而 DOA-NPCM 和廣義高斯混合模型雖然在聲源數目的正確率表現是次佳的，但除了聲源數目外，它們還能同時獲得聲源的方向。而 NPCM、DOA-NPCM 和廣義高斯模型在聲源數為 3 時，都達到五成以上的正確率，推斷其可處理的空間最大聲源數為 3。

而在分離法的比較上，在任何的角度組合以及聲源數的情形之下，權重分離法在 SDR 的分數一直都是最高的，表示用權重的方式可以保留較多原本語音的成分，但是其他方法對於原本語音造成的破壞就較嚴重。

遮蔽分離法是在雜訊消除與語音失真程度間作取捨，當消去越多雜訊的同時，也會對原本的語音造成破壞。在此研究中，我們利用相位差資訊估計聲源數以及分離語音，但成效上會受到其本身在 DOA 太小時的限制，未來我們將結合聲音的強度資訊來進行方向估計和音源分離的研究。畢竟，從感知的觀點來看，

人們也是同時使用雙耳時間差和能量差，來有效地在各種環境下進行聲源定位。

在文檔中使用廣義高斯模型於未知聲源數之訊號分離 (頁 38-50)

模擬結果 模擬結果 模擬結果 模擬結果

第五章 第五章 第五章

第五章 結論 結論 結論與未來展望 結論 與未來展望 與未來展望 與未來展望

第五章第五章第五章

第五章結論結論結論與未來展望結論與未來展望與未來展望與未來展望