• 沒有找到結果。

模擬結果 模擬結果 模擬結果 模擬結果

4.2.1 模擬一模擬一模擬一模擬一:::最小角度差:最小角度差最小角度差 最小角度差

從表 4-1 可以看出,角度差最小的組合為( 84.5 , 78.9 )以及( 78.9 , 73.2 ),因 此我們就對三種模型在這兩種情況下作測試,得到以下的結果:

表 4-5 DOA-NPCM 以及 NPCM 參數設定

( 84.5 , 78.9 )測試結果測試結果測試結果測試結果::

( 78.9 , 73.2 )測試結果測試結果測試結果測試結果::

從表 4-6 到 4-13 可以看出,除了 NPCM 本身只能估計出聲源數目之外,其他

第二個部分中,也就是當有 2 個聲源存在時,我們做了 45 組的角度組合測試,

結果如下表:

模型 高斯 拉普拉斯 廣義高斯 NPCM DOA-NPCM 正確率正確率

正確率正確率 53 % 39 % 61 % 88 % 73 %

第三個測試是 3 個聲源存在時,一共有 120 組角度組合,結果如下表:

模型 高斯 拉普拉斯 廣義高斯 NPCM DOA-NPCM 正確率正確率

正確率正確率 28 % 32 % 53 % 71 % 61 %

最後一個測試,是 4 個聲源存在時,一共有 210 組角度組合,結果如下表:

模型 高斯 拉普拉斯 廣義高斯 NPCM DOA-NPCM 正確率

正確率

正確率正確率 9 % 20 % 24 % 40 % 32 %

表 4-15 各種方法估計結果,NS=2

圖 4-13 左圖是 DOA=73.2 度的統計圖,較為集中 右圖是 DOA=15.5 度的統計圖,較為發散

表 4-16 各種方法估計結果,NS=3

表 4-17 各種方法估計結果,NS=4

從前面 4 個部分的模擬中可看出,隨著聲源數增加,估計的正確率越來越差,

Gaussian 73 53 28 9

Laplace 80 39 32 20

generalized Gaussian 77 61 53 24

NPCM 100 88 71 40

DOA-NPCM 90 73 61 32

1 2 3 4

圖 4-14 整體正確率趨勢圖

4.2.3 模擬模擬模擬模擬三三三三:::2 個: 個個個聲聲聲聲源源源

我們一共測試了 4 種角度組合,分別為(84.5, 78.9)、(73.2, 47.6)、(67.3, 29.9) 以及(84.5, 15.5),此 4 個角度組合分別有不同的角度差距,角度差從小到大都有,

分別為 5.6、25.6、37.4 和 69.0 度。每個組合會有 4 次不同句話的測試,最後的 結果為 4 次測試的平均。除了比較二元遮蔽與權重遮蔽的方法,我們也與 NPCM 與 DOA-NPCM 分離的結果作比較。

因為 ITD 的資訊在 4000Hz 以上會變得混亂,因此我們只針對 4000Hz 以下的 部分作處理,下圖為其中一次測試(73.2, 47.6)的聲源聲譜圖、混合訊號聲譜圖以 及分離後語音的聲譜圖:

圖 4-15 左圖是聲源 1 的聲譜圖 右圖是聲源 2 的聲譜圖

圖 4-16 左圖是混合訊號 1 的聲譜圖 右圖是混合訊號 2 的聲譜圖

圖 4-17 左圖是用二元分離法分離後的聲源 1 聲譜圖 右圖是用二元分離法分離後的聲源 2 聲譜圖

圖 4-18 左圖是用權重分離法分離後的聲源 1 聲譜圖 右圖是用權重分離法分離後的聲源 2 聲譜圖

圖 4-19 左圖是用 NPCM 分離後的聲源 1 聲譜圖

右圖是用 NPCM 分離後的聲源 2 聲譜圖

( 84.5 , 78.9 ) ( 73.2 , 47.6 )

則該位置的 T-F unit 將不屬於任一聲源,也就是被丟棄的意思,因此這兩種方法 遮蔽中存在的 0 個數會大於二元分離法遮蔽中的 0 個數,導致失真程度比二元法 嚴重。

分離結果除了 NPCM 之外,其他方法並沒有表現出聲源相距越遠分離效果越 好的趨勢,其原因是當 DOA 角度越小時,聲譜圖上的 DOA 會越不穩定(如圖 4-13),每個 unit 的 DOA 越不會落在前面介紹的 DOA 與強度比例的曲線上,導 致分離結果不會因相距越遠而越好。但是 NPCM 只有利用強度資訊,不受前述的 影響,所以其呈現的趨勢與相距越遠而分離效果越好的期望一致。以下的圖是以 上 4 種角度組合,2 聲源強度比例與 DOA 的散點圖,可以作個簡單說明:

圖 4-21 左圖是(84.5, 78.9)的實際聲源能量比例與 DOA 散點圖 右圖是(73.2, 47.6)的實際聲源能量比例與 DOA 散點圖

圖 4-22 左圖是(67.3, 29.9)的實際聲源能量比例與 DOA 散點圖 右圖是(84.5, 15.5)的實際聲源能量比例與 DOA 散點圖

4.2.4 模擬模擬模擬模擬四四四四:::3 個: 個個個 & 4 個聲源個聲源個聲源個聲源

在 3 個聲源的測試中,我們令 3 個聲源分別位於( 84.5 , 73.2 , 61.2 ),每個方 法都會作 4 次不同句話的測試,顯示的結果是 4 次的平均。結果如下:

分離方法分離方法

分離方法分離方法 二元 權重 NPCM DOA-NPCM

SAR 6.22 7.99 3.51 5.52

SDR 5.90 6.41 3.35 5.38

SIR 22.82 13.50 19.74 27.88

在 4 個聲源的測試中,我們令 4 個聲源分別位於( 78.9 , 67.3 , 54.7 , 39.6 ),每 個方法都會作 4 次不同句話的測試,顯示的結果是 4 次的平均。結果如下:

分離方法 分離方法

分離方法分離方法 二元 權重 NPCM DOA-NPCM

SAR 4.50 6.14 2.5 2.61

SDR 4.03 4.21 2.32 2.35

SIR 18.05 10.64 18.92 21.3

在欠定的情況下,因為聲源變多了,單一 unit 內通常不再只有一個聲源的成 分,因此 NPCM 和 DOA-NPCM 造成的失真就更嚴重了;而權重分離法還能根據 DOA 的位置,應用(式 3-29)的關係式分配 unit 的能量給不同聲源,所以會有較高 的 SDR。但是隨著聲源變多,四種分離法整體的表現還是越來越差的。

表 4-19 各種分離法的分離結果,NS=3

表 4-20 各種分離法的分離結果,NS=4

第五章 第五章 第五章

第五章 結論 結論 結論與未來展望 結論 與未來展望 與未來展望 與未來展望

本論文探討混合模型估測聲源數以及聲源方位的成效,主要是針對不同時間 延遲與強度衰減的混合訊號來作測試。論文中實驗了三種不同的混合模型以及兩 種 NPCM 的方法,將訊號轉到頻域後,再對每個 T-F unit 的 DOA 作統計。分別 是常見的高斯混合模型和拉普拉斯混合模型,還有自由度更高的廣義高斯混合模 型,加上原本的 NPCM 還有 DOA-NPCM。除了聲源數、聲源方位的估測,我們 在得到前述的兩個資訊後,探討四種遮蔽分離法來分離混合訊號,分別是二元分 離法、權重分離法、NPCM 以及 DOA-NPCM。

比較各種方法的結果,在空間解析度上,五個方法的表現是平分秋色,最小 可分辨的角度差約為 5.5 度。在聲源數目的正確率上,雖然 NPCM 的效能是最佳 的,但它無法同時提供聲源的方向。而 DOA-NPCM 和廣義高斯混合模型雖然在 聲源數目的正確率表現是次佳的,但除了聲源數目外,它們還能同時獲得聲源的 方向。而 NPCM、DOA-NPCM 和廣義高斯模型在聲源數為 3 時,都達到五成以 上的正確率,推斷其可處理的空間最大聲源數為 3。

而在分離法的比較上,在任何的角度組合以及聲源數的情形之下,權重分離 法在 SDR 的分數一直都是最高的,表示用權重的方式可以保留較多原本語音的 成分,但是其他方法對於原本語音造成的破壞就較嚴重。

遮蔽分離法是在雜訊消除與語音失真程度間作取捨,當消去越多雜訊的同 時,也會對原本的語音造成破壞。在此研究中,我們利用相位差資訊估計聲源數 以及分離語音,但成效上會受到其本身在 DOA 太小時的限制,未來我們將結合 聲音的強度資訊來進行方向估計和音源分離的研究。畢竟,從感知的觀點來看,

人們也是同時使用雙耳時間差和能量差,來有效地在各種環境下進行聲源定位。

相關文件