而接收到的左右聲道經 spectrogram 並在 Window Disjoint Orthogonal ( WDO 聲音 獨佔 )假設下,可寫成下兩式
我們先建立 interaural spectrogram,其中(3.1)式為在實際場景下的觀察(沒有 WDO 假設),而(3.2)式為 signal model 所建立的模型推導結果。
8 Interaural Spectrogram:
X ( f , t ) = ( , )
9
10
為圖.11。
ϕ =2πf
c ∙ d (10 ∙ − 1)
…(7)
圖. 10 ILD 與 IPD 理論曲線(500Hz)
圖. 11 [−π, π]區間下 ILD 與 IPD 理論曲線(500Hz)
而從實際單聲源所截取出的 ILD 及 IPD 資料做相關係數的觀察看到(圖.12),ILD 及
IPD 間的相關係數在 200~1000 頻段上成線強烈的正相關性,可以和圖.13 做比對,隨 著 ILD 增長 IPD 亦增長;1000~3000 頻段為負相關,這是由於 phase ambiguous 發生所 導致(發生一次),可於圖.14 中看到在 ILD 大於 10dB 的地方發生相位反轉;3000~7500 頻段為較低相關的頻段這是因為高頻段 e 成長曲線成長速度過大導致 phase ambiguous 的現象多次發生,使得相關係數變低,可於圖.15 中看到。
相關係數: r , =E{(α − α) (ϕ − ϕ)}
σ σ
…(8)
11
圖. 12 ILD 與 IPD 相關係數圖
圖. 13 單聲源下 ILD 與 IPD 資料分布比對圖(500Hz)
圖. 14 單聲源下 ILD 與 IPD 資料分布比對圖(1500Hz)
圖. 15 單聲源下 ILD 與 IPD 資料分布比對圖(5000Hz)
12
13
的下降是由於高頻段的聲音資料會有空白地方(能量低於-100dB),於圖.19 中可以看到。
但總歸來說 L、R 間的關聯性相當大,而不是 MESSL-SP 中所說獨立的。
圖. 17 左右聲道相關係數圖
圖. 18 單聲源 L、R 資料分布(500Hz)
圖. 19 單聲源 L、R 資料分布(7500Hz)
在此我們也得知左右聲道平面的L、R之間也是有相當大關連性的非獨立關係。
1.7 2.4 機率模型
在討論完資料間彼此的關連性後,我們得知在聲道差及左右聲道內部都應該非獨
14
15
圖. 20 實際聲道差平面資料統計圖(500Hz)
圖. 21 實際聲道差平面資料分布圖(500Hz)
1.7.2 2.4.2 左右聲道平面機率模型
由於此平面的資料是新的技術,所以我們對於模型的建立是由對在實際資料 而來。左右聲道強度資料統計圖(圖.22)中看到的是成一直線很窄的山脈,看不出可 分性;實際上雙聲源所擷取左右聲道強度資料分布圖(圖. 23),圖中顯示左右聲道 平面的資料分布是由兩條 ILD 不同的直線像左右散開的分布情況(詳細說明於 3.2.4)。
[註]左右聲道平面並非像聲道差平面有著較久的研究歷史,但基於嘗試我們還是採 用二維結合高斯模型模擬之。
16
圖. 22 實際左右聲道平面資料統計圖(500Hz)
圖. 23 實際左右聲道平面資料分布圖(500Hz)
每個聲源的左右聲道以二維高斯分布模擬,標示如下:
(L, R), ~ N μ ,( f ), Σ ,( f ) 高斯機率分布:
≜ P , , …(11) μ ,:平均值
Σ ,:共變數矩正
--- GMM:
P , L( f , t ), R( f , t ) Θ = ∑ ψ ∙ P , , …(12) ψ :GMM 權重
17 楚的看到雙聲道語音分離的兩個困難,第一個是在聲道差平面 IPD 的 phase ambiguous 問題;第二個是左右聲道平面的難分性問題。
18
在實際的資料上我們看 L、R 與 ILD、IPD 間的相關係數。
(1) ILD 與 L、R 相關係數部分:
看到 ILD 與 L 的相關係數圖(圖.25)可以看到,跟理論上雷同 ILD 與 L 成正向關;
ILD 與 R 的相關係數圖(圖.26)可以看到,跟理論上雷同 ILD 與 −R 成正向關,這些敘 述在 4kHz 以上的高頻段較明顯。
圖. 25 ILD 與左聲道(L)相關係數圖
圖. 26 ILD 與右聲道(R)相關係數圖
(2) IPD 與 L 及 R 相關係數部分:
在 IPD 與 L 相關係數圖(圖.27)中,我們看到 IPD 和 L 之間的相關性在 0~7500Hz 都是小於 0.2 的,雖然在 7500~8000 頻段有升高,但依然小於 0.5,且高頻的資料空白 處較多較不可信;至於 IPD 與 R 的方面也差不多,此處就不多說明。總之 IPD 與 L 及 R 的關係是獨立的,若我繼續以非獨立假設套用於此,可能會有問題出現,但基於嘗 試的階段我們硬做。(當然結果是不好的)
19
圖. 27 IPD 與左聲道(L)相關係數圖
圖. 28 IPD 與右聲道(R)相關係數對頻率做圖
3. 非獨立結合演算法架構
從圖.29 中可以看到,我用全部類型的資料在四維的 EM 中解 MLE 問題。
圖. 29 非獨立結合演算法流程圖
20
21
獨立結合(預分群)演算法架構:
圖 .31 圖中 與 前面 不同 的地 方為 L 、 R 資 料會 先經 過 ” 預先 分 群 ” 產出 兩 群 (L, R) 及(L, R) 在進入 EM 做機率模型的估計,而這個預分群器的指標值是不斷的再做 更新的。
圖. 31 獨立結合(預分群)流程圖
演算法中會運用到的核心式子,標於下方塊
P , , , , , = ψ ∙ P , (α, ϕ|i, Θ) ∙ P , | , L, R i, Θ
(L, R) = L, R L − R − μ , < L − R − μ , , for j ≠ i}
獨立結合(預分群)演算法:
(1)EM 解 MLE 所需 likelihood 的式子:
………(15.1) (2)預分群機制:
………(15.2) (3)Mask:
同(14.1)、(14.2)式
22
1.9 2.6 結合高斯模型參數估計
在我們利用聲倒差語左右聲道等資料加上 WDO 假設的情況下要做分離的時候,
這個就是一個典型的資料分類問題,且在我們機率模型中,變成
maximum likelihood estimates (MLE)的問題,在此我們引進 EM algorithm 來群找這組 Θ。
在 M-step 中我們用以目前給定的Θ 以及 E-step 算 Maximum log-likelihood 式子,
以更新參數群Θ ,再回到 E-step,成一個迴圈。
23
24
25
1.10 2.7 分離訊號回授
在現今的演算法中,截取出 ILD、ITD、IPD 等資料後,套用 GMM 模型並以 EM 演 算法來解 ML 的問題是一貫的作風,但在使用 EM 的過程中都是不斷的訓練之後得出 一組最佳參數群 Θ 後,算出權重係數 z ,在分離出個別的聲源;由於回圈的連貫性,
如果我們找出更正確的參數群 Θ 那麼我們有更正確的權重系數 z 用以分離訊號,因 此,我打破 EM 演算法中訓練資料不變的概念,將每次回圈後預先分離出 S , (也就是 L 、R )並取代 EM 演算法中所需要 L、R ,尋求更正確的參數群 Θ (架構圖在圖.7),
Feed Back 的概念可以分成三小塊做,分別為 FB -ILD (Feed Back ILD)、FB-IPD(Feed Back IPD)、FB-SP(Feed Back Source prior 即 L、R)三種,在下頁列出演算法架構後於 4.5 節中 模擬,模擬結果為 FB-ILD 使整體成效上升 1dB 不等;FB-IPD 則些許上升 0.2dB;FB-LR 部分反而是讓整體成效下降。
Feed Back 演算架構:
圖.32 圖中可以看到,由 Mask 輸出端拉了一條回授到 M-step 中取代原本的混合 資料試圖幫助估計正確的參數群。而回授的方式是以開關的方式可選擇的。
圖. 32 引進回授概念的 MESSL-SP 流程圖
擷取公式在聲道差平面將(4.1)、(4.2)式以(26.1)及(26.2)式取代;左右聲道平面將 (5.1)、(5.2)以(27.1)及(27.2)式取代,資料取代公式如下標於下方塊中。
26
α ( f , t ) = 20 ∙ log L R
ϕ ( f , t ) = angle L R
L = S , , R = S , , 各別聲源回授取代公式:
(1) 聲道差 Feed Back:
… (26.1)
…(26.2) (2)左右聲道 Feed Back:
…(27.1)
…(27.2)
27