資料模型與演算法建立 - 以聲道差與回授作語音分離之研究

而接收到的左右聲道經 spectrogram 並在 Window Disjoint Orthogonal ( WDO 聲音獨佔 )假設下，可寫成下兩式

我們先建立 interaural spectrogram，其中(3.1)式為在實際場景下的觀察(沒有 WDO 假設)，而(3.2)式為 signal model 所建立的模型推導結果。

8 Interaural Spectrogram：

X ( f , t ) = ^{( , )}

為圖.11。

ϕ =2πf

c ∙ d (10 ^∙ − 1)

…(7)

圖. 10 ILD 與 IPD 理論曲線(500Hz)

圖. 11 [−π, π]區間下 ILD 與 IPD 理論曲線(500Hz)

而從實際單聲源所截取出的 ILD 及 IPD 資料做相關係數的觀察看到(圖.12)，ILD 及

IPD 間的相關係數在 200~1000 頻段上成線強烈的正相關性，可以和圖.13 做比對，隨著 ILD 增長 IPD 亦增長；1000~3000 頻段為負相關，這是由於 phase ambiguous 發生所導致(發生一次)，可於圖.14 中看到在 ILD 大於 10dB 的地方發生相位反轉；3000~7500 頻段為較低相關的頻段這是因為高頻段 e 成長曲線成長速度過大導致 phase ambiguous 的現象多次發生，使得相關係數變低，可於圖.15 中看到。

相關係數： r _, =E{(α − α) (ϕ − ϕ)}

σ σ

…(8)

圖. 12 ILD 與 IPD 相關係數圖

圖. 13 單聲源下 ILD 與 IPD 資料分布比對圖(500Hz)

圖. 14 單聲源下 ILD 與 IPD 資料分布比對圖(1500Hz)

圖. 15 單聲源下 ILD 與 IPD 資料分布比對圖(5000Hz)

的下降是由於高頻段的聲音資料會有空白地方(能量低於-100dB)，於圖.19 中可以看到。

但總歸來說 L、R 間的關聯性相當大，而不是 MESSL-SP 中所說獨立的。

圖. 17 左右聲道相關係數圖

圖. 18 單聲源 L、R 資料分布(500Hz)

圖. 19 單聲源 L、R 資料分布(7500Hz)

在此我們也得知左右聲道平面的L、R之間也是有相當大關連性的非獨立關係。

1.7 2.4 機率模型

在討論完資料間彼此的關連性後，我們得知在聲道差及左右聲道內部都應該非獨

圖. 20 實際聲道差平面資料統計圖(500Hz)

圖. 21 實際聲道差平面資料分布圖(500Hz)

1.7.2 2.4.2 左右聲道平面機率模型

由於此平面的資料是新的技術，所以我們對於模型的建立是由對在實際資料而來。左右聲道強度資料統計圖(圖.22)中看到的是成一直線很窄的山脈，看不出可分性；實際上雙聲源所擷取左右聲道強度資料分布圖(圖. 23)，圖中顯示左右聲道平面的資料分布是由兩條 ILD 不同的直線像左右散開的分布情況(詳細說明於 3.2.4)。

[註]左右聲道平面並非像聲道差平面有著較久的研究歷史，但基於嘗試我們還是採用二維結合高斯模型模擬之。

圖. 22 實際左右聲道平面資料統計圖(500Hz)

圖. 23 實際左右聲道平面資料分布圖(500Hz)

每個聲源的左右聲道以二維高斯分布模擬，標示如下：

(L, R)_, ~ N μ _,( f ), Σ _,( f ) 高斯機率分布：

≜ P _{, ,} …(11) μ _,：平均值

Σ _,：共變數矩正

--- GMM：

P _, L( f , t ), R( f , t ) Θ = ∑ ψ ∙ P _{, ,} …(12) ψ ：GMM 權重

17 楚的看到雙聲道語音分離的兩個困難，第一個是在聲道差平面 IPD 的 phase ambiguous 問題；第二個是左右聲道平面的難分性問題。

在實際的資料上我們看 L、R 與 ILD、IPD 間的相關係數。

(1) ILD 與 L、R 相關係數部分：

看到 ILD 與 L 的相關係數圖(圖.25)可以看到，跟理論上雷同 ILD 與 L 成正向關；

ILD 與 R 的相關係數圖(圖.26)可以看到，跟理論上雷同 ILD 與 −R 成正向關，這些敘述在 4kHz 以上的高頻段較明顯。

圖. 25 ILD 與左聲道(L)相關係數圖

圖. 26 ILD 與右聲道(R)相關係數圖

(2) IPD 與 L 及 R 相關係數部分：

在 IPD 與 L 相關係數圖(圖.27)中，我們看到 IPD 和 L 之間的相關性在 0~7500Hz 都是小於 0.2 的，雖然在 7500~8000 頻段有升高，但依然小於 0.5，且高頻的資料空白處較多較不可信；至於 IPD 與 R 的方面也差不多，此處就不多說明。總之 IPD 與 L 及 R 的關係是獨立的，若我繼續以非獨立假設套用於此，可能會有問題出現，但基於嘗試的階段我們硬做。(當然結果是不好的)

圖. 27 IPD 與左聲道(L)相關係數圖

圖. 28 IPD 與右聲道(R)相關係數對頻率做圖

3. 非獨立結合演算法架構

從圖.29 中可以看到，我用全部類型的資料在四維的 EM 中解 MLE 問題。

圖. 29 非獨立結合演算法流程圖

獨立結合(預分群)演算法架構：

圖 .31 圖中與前面不同的地方為 L 、 R 資料會先經過 ” 預先分群 ” 產出兩群 (L, R) 及(L, R) 在進入 EM 做機率模型的估計，而這個預分群器的指標值是不斷的再做更新的。

圖. 31 獨立結合(預分群)流程圖

演算法中會運用到的核心式子，標於下方塊

P _{, , , ,} _, = ψ ∙ P _, (α, ϕ|i, Θ) ∙ P _{, |} _, L, R i, Θ

(L, R) = L, R L − R − μ _, < L − R − μ _, , for j ≠ i}

獨立結合(預分群)演算法：

(1)EM 解 MLE 所需 likelihood 的式子：

………(15.1) (2)預分群機制：

………(15.2) (3)Mask：

同(14.1)、(14.2)式

1.9 2.6 結合高斯模型參數估計

在我們利用聲倒差語左右聲道等資料加上 WDO 假設的情況下要做分離的時候，

這個就是一個典型的資料分類問題，且在我們機率模型中，變成

maximum likelihood estimates (MLE)的問題，在此我們引進 EM algorithm 來群找這組 Θ。

在 M-step 中我們用以目前給定的Θ 以及 E-step 算 Maximum log-likelihood 式子，

以更新參數群Θ ，再回到 E-step，成一個迴圈。

1.10 2.7 分離訊號回授

在現今的演算法中，截取出 ILD、ITD、IPD 等資料後，套用 GMM 模型並以 EM 演算法來解 ML 的問題是一貫的作風，但在使用 EM 的過程中都是不斷的訓練之後得出一組最佳參數群 Θ 後，算出權重係數 z ，在分離出個別的聲源；由於回圈的連貫性，

如果我們找出更正確的參數群 Θ 那麼我們有更正確的權重系數 z 用以分離訊號，因此，我打破 EM 演算法中訓練資料不變的概念，將每次回圈後預先分離出 S _, (也就是 L 、R )並取代 EM 演算法中所需要 L、R ，尋求更正確的參數群 Θ (架構圖在圖.7)，

Feed Back 的概念可以分成三小塊做，分別為 FB -ILD (Feed Back ILD)、FB-IPD(Feed Back IPD)、FB-SP(Feed Back Source prior 即 L、R)三種，在下頁列出演算法架構後於 4.5 節中模擬，模擬結果為 FB-ILD 使整體成效上升 1dB 不等；FB-IPD 則些許上升 0.2dB；FB-LR 部分反而是讓整體成效下降。

Feed Back 演算架構：

圖.32 圖中可以看到，由 Mask 輸出端拉了一條回授到 M-step 中取代原本的混合資料試圖幫助估計正確的參數群。而回授的方式是以開關的方式可選擇的。

圖. 32 引進回授概念的 MESSL-SP 流程圖

擷取公式在聲道差平面將(4.1)、(4.2)式以(26.1)及(26.2)式取代；左右聲道平面將 (5.1)、(5.2)以(27.1)及(27.2)式取代，資料取代公式如下標於下方塊中。

α ( f , t ) = 20 ∙ log L R

ϕ ( f , t ) = angle L R

L = S _{, ,} R = S _{, ,} 各別聲源回授取代公式：

(1) 聲道差 Feed Back：

… (26.1)

…(26.2) (2)左右聲道 Feed Back：

…(27.1)

…(27.2)

在文檔中以聲道差與回授作語音分離之研究 (頁 15-35)