• 沒有找到結果。

第一章 簡介

1.1 1.1 研究背景

語音分離技術可以運用在助聽器、機器人音訊處理、語音辨識…等方面。在語音分 離技術中,起始採用多麥克風接收分離系統[10],[11],他們是藉由矩陣運算的方式來分 離語音( 但只能分離出與麥克風同數目的聲源 ),由於麥克風數目的限制,近十年來 的研究改以雙聲道語音分離如下圖.1 所示,目的是由雙耳接收的訊號 l、r 分出原聲 音s 及s 。其截取雙聲道間的資料,也就是 interaural level differences (ILD)、interaural time differences ( ITD) 及 interaural phase differences (IPD),利用它們與各聲源間的關係,

做到語音分離的效果是常見的手法,這種手法在過去的幾年中已有不少人提出,但依 然存在著問題,我們先探討過去幾年的研究。

圖. 1 雙聲道語音分離概念圖

DUET(degenerate unmixing estimation technique)[1]便是這類研究的起始者,它採用 Spectrogram 的方式截取每個 T-F frame 中的 ILD 及 ITD,並放下聲音獨佔假設 WDO(Window Disjoint orthogonal),接著用 2D-histrogram 的統計,發現不同於每個聲 源都有相應的一個頂點(如下圖圖.2 所示),接著他用 ML rule 概念畫分(ILD,ITD)平面區 塊,做到二分法的分離。DUET 依然有 2 個缺點,第一個是對於 ITD 截取技術的不純熟 (phase ambiguity 未完全解決),使得它的系統在分離 1500Hz 以上的聲源時成效下降取 多;第二個是二分法過於太硬的不合理處。

圖. 2 2D-histrogram of (ILD,ITD) , 左圖單一聲源;右圖六組聲源

2

對於 DUET 的不完美處,新的研究,改用新的 ILD、ITD、IPD 截取技術和改用機率 分法取代二分法的概念,引進結合高斯模型(GMM),的想法出現,例如:[2]~[7]篇論 文所研討的,但基於各方法對 GMM 模型的假設方式不同,下段落用架構圖及表格的 方式說明他們之間差別。

1.2 1.2 雙聲道語音分離演算法比較

雙聲道語音分離技術的架構圖可分為前半部與後半部兩部分,前半部(圖.3)是資料 劫取的部分大致整理為下列幾個方塊所組成,首先進入的 s1,s2 聲源經過他們各自的 channel 後混合以雙聲道接收 l(t)、r(t),接著盡到 Spectrogram 中找出相應的 T – F domain ,再以 cue estimate 截取出 ILD、IPD、ITD 等資料,這是一套固定的先處理動 作。

圖. 3 前半部雙聲道語音分離架構圖

至於後半部(圖.4),就是個各類研究的演算法核心部分,大致可以區分為兩塊 (1) Mask:利用 decision rule 將聲音資料分開,做到語音分離的最後步驟。

(2) 演算法:找出最佳的 decision rule ,以及建立 Decision rule 所需要的模型。

所有演算法的想法出發點都是由 Mask 所決定,例如原始的[1]DUET 中採用二分法 ML rule,因此只需由資料做統計,而不需要資料模型的架構,反之[2]~[7]中採用機率 Mask,需要機率模型的架構。

圖. 4 後半部雙聲道語音分離概念圖

3

MESSL-SP Probability Mask

不相關 (S.I)

p ∙ p ∙ p ∙ p Mean

Variance Zi

MESSL-EV Probability Mask Head-Relation-Transform-function (HRTF)資料庫之中”方位角”與 ILD 及 ITD 間的關係,將

4

ILD 、 與 ITD 經 由查 表的 方 式轉 成兩 組 azimuth 及 azimuth 後 共 同決 定 出一 組 azimuth(降維),再建立機率一維 GMM 模型。

圖. 6 HRTF 分法流程圖

MESSL[5]:如圖.7,使用機率 Mask,模型方面建立兩個一維 GMM 並以獨立的假 設結合在一起。如圖先以 ILD 預先分離後,在分別建立了 ILD 及 IPD 一維的機率模型,

並以"獨立"的方式將它結合。

圖. 7 MESSL 演算法流成圖

MESSL-SP[6]:如圖.8,是基於 MESSL 的方法上,除了 ILD 及 IPD 還加上語音辨識 的概念建立左右聲道強度模型,並共同達到分離(一樣採獨立方式)。 (所給定的 source

5

prior 採用 Speaker-independent 的方式訓練)

圖. 8 MESSL-SP 演算法流程圖

而是有相當大相關的非獨立關係,但若有 phase ambiguous 發生時,可以區別為高 相關頻段(低頻)以及低相關頻段(高頻段),但經由模擬測試,發現全頻段上採用一

6

性。

(3) 獨立結合(預分群)方式結合聲道差與左右聲道兩平面:

假設兩平面獨立,避免左右聲道難分性的問題牽連聲道差平面,當然這不是 完全否定兩平面間的關聯性,其中以聲道差平面資訊幫助左右聲道平面的機率正 確估計,連結兩平面,此方法稱 “獨立結合(預分群),在成效模擬實,它確實解決 難分性問題,且比 MESSL 演算法(近年地位較大的演算法)好上 2~3dB。

(4) 加入分離訊號回授機制:

對原本 EM 演算法做改善,將每次輪迴分離好的資料回授取代原本混合資料以 求更精準的參數估計。

(5) 實測:

最後我們用錄音筆做實際的測試,測試結果證實我們所提出的演算法比上述 別人的演算法都來的好。

論文章節簡述如下:在第二章中,大致可分為兩部分,第一部分為雙聲道語音分

離前半部的細部說明,第二部分為我們所提出的演算法(詳細介紹可於第二章開頭中看 到)。在第三章是電腦模擬的部分,其中包括了以往演算法的成效比較、我提出演算法 的成效比較、實測部分。最後第四章為本論文的結論。

7

而接收到的左右聲道經 spectrogram 並在 Window Disjoint Orthogonal ( WDO 聲音 獨佔 )假設下,可寫成下兩式

我們先建立 interaural spectrogram,其中(3.1)式為在實際場景下的觀察(沒有 WDO 假設),而(3.2)式為 signal model 所建立的模型推導結果。

相關文件