簡介 - 以聲道差與回授作語音分離之研究

第一章簡介

1.1 1.1 研究背景

語音分離技術可以運用在助聽器、機器人音訊處理、語音辨識…等方面。在語音分離技術中，起始採用多麥克風接收分離系統[10],[11]，他們是藉由矩陣運算的方式來分離語音( 但只能分離出與麥克風同數目的聲源 )，由於麥克風數目的限制，近十年來的研究改以雙聲道語音分離如下圖.1 所示，目的是由雙耳接收的訊號 l、r 分出原聲音s 及s 。其截取雙聲道間的資料，也就是 interaural level differences (ILD)、interaural time differences ( ITD) 及 interaural phase differences (IPD)，利用它們與各聲源間的關係，

做到語音分離的效果是常見的手法，這種手法在過去的幾年中已有不少人提出，但依然存在著問題，我們先探討過去幾年的研究。

圖. 1 雙聲道語音分離概念圖

DUET(degenerate unmixing estimation technique)[1]便是這類研究的起始者，它採用 Spectrogram 的方式截取每個 T-F frame 中的 ILD 及 ITD，並放下聲音獨佔假設 WDO(Window Disjoint orthogonal)，接著用 2D-histrogram 的統計，發現不同於每個聲源都有相應的一個頂點(如下圖圖.2 所示)，接著他用 ML rule 概念畫分(ILD,ITD)平面區塊，做到二分法的分離。DUET 依然有 2 個缺點，第一個是對於 ITD 截取技術的不純熟 (phase ambiguity 未完全解決)，使得它的系統在分離 1500Hz 以上的聲源時成效下降取多；第二個是二分法過於太硬的不合理處。

圖. 2 2D-histrogram of (ILD,ITD) , 左圖單一聲源；右圖六組聲源

對於 DUET 的不完美處，新的研究，改用新的 ILD、ITD、IPD 截取技術和改用機率分法取代二分法的概念，引進結合高斯模型(GMM)，的想法出現，例如：[2]~[7]篇論文所研討的，但基於各方法對 GMM 模型的假設方式不同，下段落用架構圖及表格的方式說明他們之間差別。

1.2 1.2 雙聲道語音分離演算法比較

雙聲道語音分離技術的架構圖可分為前半部與後半部兩部分，前半部(圖.3)是資料劫取的部分大致整理為下列幾個方塊所組成，首先進入的 s1,s2 聲源經過他們各自的 channel 後混合以雙聲道接收 l(t)、r(t)，接著盡到 Spectrogram 中找出相應的 T – F domain ，再以 cue estimate 截取出 ILD、IPD、ITD 等資料，這是一套固定的先處理動作。

圖. 3 前半部雙聲道語音分離架構圖

至於後半部(圖.4)，就是個各類研究的演算法核心部分，大致可以區分為兩塊 (1) Mask：利用 decision rule 將聲音資料分開，做到語音分離的最後步驟。

(2) 演算法：找出最佳的 decision rule ，以及建立 Decision rule 所需要的模型。

所有演算法的想法出發點都是由 Mask 所決定，例如原始的[1]DUET 中採用二分法 ML rule，因此只需由資料做統計，而不需要資料模型的架構，反之[2]~[7]中採用機率 Mask，需要機率模型的架構。

圖. 4 後半部雙聲道語音分離概念圖

MESSL-SP Probability Mask

不相關 (S.I)

p ∙ p ∙ p ∙ p Mean

Variance Zi

MESSL-EV Probability Mask Head-Relation-Transform-function (HRTF)資料庫之中”方位角”與 ILD 及 ITD 間的關係，將

ILD 、與 ITD 經由查表的方式轉成兩組 azimuth 及 azimuth 後共同決定出一組 azimuth(降維)，再建立機率一維 GMM 模型。

圖. 6 HRTF 分法流程圖

MESSL[5]：如圖.7，使用機率 Mask，模型方面建立兩個一維 GMM 並以獨立的假設結合在一起。如圖先以 ILD 預先分離後，在分別建立了 ILD 及 IPD 一維的機率模型，

並以"獨立"的方式將它結合。

圖. 7 MESSL 演算法流成圖

MESSL-SP[6]：如圖.8，是基於 MESSL 的方法上，除了 ILD 及 IPD 還加上語音辨識的概念建立左右聲道強度模型，並共同達到分離(一樣採獨立方式)。 (所給定的 source

prior 採用 Speaker-independent 的方式訓練)

圖. 8 MESSL-SP 演算法流程圖

而是有相當大相關的非獨立關係，但若有 phase ambiguous 發生時，可以區別為高相關頻段(低頻)以及低相關頻段(高頻段)，但經由模擬測試，發現全頻段上採用一

性。

(3) 獨立結合(預分群)方式結合聲道差與左右聲道兩平面：

假設兩平面獨立，避免左右聲道難分性的問題牽連聲道差平面，當然這不是完全否定兩平面間的關聯性，其中以聲道差平面資訊幫助左右聲道平面的機率正確估計，連結兩平面，此方法稱 “獨立結合(預分群)，在成效模擬實，它確實解決難分性問題，且比 MESSL 演算法(近年地位較大的演算法)好上 2~3dB。

(4) 加入分離訊號回授機制：

對原本 EM 演算法做改善，將每次輪迴分離好的資料回授取代原本混合資料以求更精準的參數估計。

(5) 實測：

最後我們用錄音筆做實際的測試，測試結果證實我們所提出的演算法比上述別人的演算法都來的好。

論文章節簡述如下：在第二章中，大致可分為兩部分，第一部分為雙聲道語音分

離前半部的細部說明，第二部分為我們所提出的演算法(詳細介紹可於第二章開頭中看到)。在第三章是電腦模擬的部分，其中包括了以往演算法的成效比較、我提出演算法的成效比較、實測部分。最後第四章為本論文的結論。

而接收到的左右聲道經 spectrogram 並在 Window Disjoint Orthogonal ( WDO 聲音獨佔 )假設下，可寫成下兩式

我們先建立 interaural spectrogram，其中(3.1)式為在實際場景下的觀察(沒有 WDO 假設)，而(3.2)式為 signal model 所建立的模型推導結果。

在文檔中以聲道差與回授作語音分離之研究 (頁 9-15)

簡介

第一章 簡介

1.1 1.1 研究背景

1.2 1.2 雙聲道語音分離演算法比較

第一章簡介