國 立 交 通 大 學
電機與控制工程研究所
碩 士 論 文
使用適應波束形成與增益衰減後濾波器
之殘響消除方法
Dereverberation of Sound Signal Using Adaptive
Beamforming and Gain Suppression Post-filtering
研 究 生: 楊 宗 翰
使用適應波束形成與增益衰減後濾波器之殘響消除方法
Dereverberation of Sound Signal Using Adaptive
Beamforming and Gain Suppression Post-filtering
研 究 生:楊 宗 翰
Student
:Zong-Han Yang
指導教授:胡 竹 生 博士 Advisor:Jwu-Sheng Hu
國 立 交 通 大 學
電機與控制工程研究所
碩 士 論 文
A Thesis
Submitted to Institute of Electrical and Control Engineering
College of Electrical Engineering
National Chiao Tung University
in partial Fulfillment of the Requirements
for the Degree of Master
in
Electrical and Control Engineering
September 2012
Hsinchu, Taiwan, Republic of China
使用適應波束形成與增益衰減後濾波器
之殘響消除方法
研究生:楊 宗 翰
指導教授:胡 竹 生 博士
國立交通大學電機與控制工程研究所碩士班
摘
摘
摘
摘 要
要
要
要
本論文提出一套依照使用者需求調整訊號衰減率(Signal Decay Rate)來抑
制聲音迴響的方法。本方法利用麥克風陣列接收到的訊號中有空間資訊的特
性,首先將此空間資訊經由波束形成的方法,先濾除非目標訊號方向的迴響,
接著依照訊號衰減的特性來估測訊號的衰減率,並對聲音的迴響能量做估算。
結合能量衰減估測與麥克風陣列得到的空間資訊,本論文提出一套調整增益
函式的後置濾波器。本方法不需要知道在實際應用中難以觀察的聲音脈衝響
Dereverberation of Sound Signal Using Adaptive
Beamforming and Gain Suppression
Post-filtering
Student: Zong-Han Yang
Advisor: Prof. Jwu-Sheng Hu
Institute of Electrical and Control Engineering
ABSTRACT
This thesis proposes a method of de-reverberation by adjusting signal decay rate. The method utilizes spatial information in the received signals of microphone array. First, by beamforming operation, the direct-path and reverberation of non-target signals are filtered. Then, we estimate the signal decay rate (the energy of reverberation) according to the characteristic of signal decay. By combining estimation of energy decay and the spatial information from the microphone array, a method to adjust the gain function during post-filtering is proposed. The proposed algorithm does not need to know the information of acoustic impulse response which is often difficult to obtain in real practice. Experimental results show the effectiveness of the proposed method.
誌
誌
誌
誌
謝
謝
謝
謝
兩年的碩士生活,在不知不覺中很快的就飛逝而去了,我的碩士生涯也即 將畫下句點。在這兩年中,我學習到很多,無論是研究或是處事的態度。首 先要感謝的是我的指導教授,除了在我的研究中指導我之外,還會告訴我們 研究應該有的態度。除此之外,另外要感謝的就是我的奶奶、爸爸、媽媽、 哥哥、姐姐,他們總是會鼓勵我,並讓我沒有後顧之憂的學習。 而對於實驗室的大家,感謝幫助我最多的唐哥,祝你也能早日畢業。也感 謝知道很多美食資訊的阿吉,還有很強壯的 JUDO,以及很會做甜點的阿法。 另外感謝耕博,唐哥以外幫我最多的就是你了。什麼運動都很威的男哥,幫
我投履歷的沛錡學長,在 CIC 教我很多東西的育成,APPLE 迷 MACACA,很幽
默的昀軒,很有趣的湘筑,希望各位學長姐都能達到自己的理想。 此外,很 A 的洨建,常常會一起喇賽,中文很好的丹尼爾,還有既是同學 又是室友的鳴哥,有你們這些同學真的很棒。還有碩一的室友智凱,大家一 起出去玩,真的很開心,碩二的室友小莫、彥樺,總是會大家一起喝酒、一 起出去吃大餐,一起聊天。你們都是很棒的室友,讓我可以在任何情況下回 寢室,心情都能變得很好。還要感謝美食一姐小紅豆,常常陪我出去吃好料 的。感謝納豆,常常可以一起宅一起混。感謝喇叭,可以一起打球又可以揪 吃飯的,超讚。還有畢業前常常陪我去買東西的阿花。在這兩年的碩士生活
目 錄
摘
摘
摘
摘 要
要
要 ... I
要
ABSTRACT ... II
誌
誌
誌
誌
謝
謝
謝 ... III
謝
目
目
目
目
錄
錄
錄 ... IV
錄
表
表
表
表
列
列
列
列 ... VI
圖
圖
圖
圖
列
列
列
列 ... VII
第一章
第一章
第一章
第一章
緒論
緒論
緒論
緒論 ... 1
1.1 研究動機... 1 1.2 研究目標... 2 1.3 文獻回顧... 3 1.4 論文貢獻... 4 1.5 論文架構... 5第二章
第二章
第二章
第二章
背景技術介紹
背景技術介紹
背景技術介紹
背景技術介紹 ... 6
2.1 陣列訊號處理 ... 6 2.2 封閉空間的迴響與迴響時間 ... 8 2.2.1 封閉空間的迴響 ... 8 2.2.2 迴響時間 ... 10 2.3 DAHL 演算法 ... 11 2.4 後混響譜方差 ... 14第三章
第三章
第三章
第三章
論文方法
論文方法
論文方法
論文方法 ... 22
3.1 系統架構說明 ... 22 3.2 波束形成的比較與選擇 ... 23 3.3 利用可變訊號衰減率消除迴響 ... 30第四章
第四章
第四章
第四章
實驗結果與分析
實驗結果與分析
實驗結果與分析
實驗結果與分析 ... 39
4.1 實驗環境介紹 ... 39 4.2 系統消除迴響效果 ... 41第五章
第五章
第五章
第五章
結論
結論
結論
結論 ... 50
5.1 研究成果... 50 5.2 未來展望... 50REFERENCE ... 51
表
表
表
表
列
列
列
列
表 3-1:知覺語音評價分數表---27 表 3-2:訊號殘響比對照表---38 表 3-3:對數譜失真對照表---38 表 4-1:波束形成輸出結果比較表---43 表 4-2:系統輸出結果比較表---44
圖
圖
圖
圖
列
列
列
列
圖 2-1:均勻線性陣列架構圖---8 圖 2-2:聲源直接到達路徑與反射路徑---9 圖 2-3:聲音脈衝響應概要圖---10 圖 2-4:Dahl 演算法訊號擷取圖---12 圖 2-5:Dahl 演算法架構圖---14 圖 3-1:系統架構---22 圖 3-2:波束形成之訊號殘響比---25 圖 3-3:波束形成之對數譜失真---26 圖 3-4: =100, =0.001 卡曼濾波器頻譜圖---29 圖 3-5: =100, =10 卡曼濾波器頻譜圖---29 圖 3-6: =100, =1000 卡曼濾波器頻譜圖---29 圖 3-7:訊號衰減圖---30 圖 3-8:能量衰減曲線---31 圖 3-9:最小平方法逼近曲線---32 圖 3-10:後置濾波器之訊號殘響比---33 圖 3-11:後置濾波器之對數失真比---33 圖 3-12:後置濾波器之訊號殘響比---34 圖 3-13:後置濾波器之對數失真比---34 圖 3-14:純化訊號之訊號殘響比---36 圖 3-15:純化訊號之對數譜失真---36 圖 3-16:兩階段輸出之訊號殘響比---37 圖 3-17:兩階段輸出之對數譜失真---37 圖 4-1:線性麥克風陣列平台---40 圖 4-2:無響室聲源與麥克風陣列關係---40 圖 4-3:室內空間聲源與麥克風陣列關係---41
圖 4-7:卡曼濾波器之波束方向圖---43 圖 4-8:輸入訊號---45 圖 4-9:Dahl 演算法波束形成輸出---45 圖 4-10:時間延遲相加波束輸出---45 圖 4-11:TF-GSC 波束形成輸出---46 圖 4-12:輸入訊號時頻圖---46 圖 4-13:Dahl 演算法波束形成時頻圖---46 圖 4-14:時間延遲相加波束時頻圖---47 圖 4-15:TF-GSC 波束形成時頻圖---47 圖 4-16:Dahl 演算法全系統輸出---48 圖 4-17:時間延遲相加波束全系統輸出---48 圖 4-18:TF-GSC 全系統輸出---48 圖 4-19:Dahl 演算法全系統時頻圖---49 圖 4-20:時間延遲相加波束全系統時頻圖---49 圖 4-21:TF-GSC 全系統時頻圖---49
第一章
第一章
第一章
第一章
緒論
緒論
緒論
緒論
1.1
1.1
1.1
1.1 研究動機
研究動機
研究動機
研究動機
隨著科技的發展,手提電話已經成為人們的生活必需品了,為了因應各種 場合的需求,手提電話也發展出不同的接聽方式,例如:耳機或藍芽接聽、手 持聽筒以及免持聽筒。其中免持聽筒除了使用者的聲音,還會把一些環境中 的噪音也一起接收,即使是在安靜的室內,也會因為聲音的反彈造成的迴響 而使語音有失真的現象,所以希望能藉由收到的聲音,來抑制空間中的迴響, 使語音訊號的品質上升。 在目前的應用中,除了上述的手提電話免持聽筒模式,助聽器也是其中一 項重要的應用,若能藉由抑制空間中的迴響,使助聽器的使用者能聽到更清 楚的聲音,以利於與別人的交談與互動。 若希望能抑制訊號源以外方向的聲音,使用空間濾波器是一個不錯的方式。 由於在一般的使用環境下,聲音的迴響會從四面八方反射過來,但是主要聲 源的方向只有一個,因此可利用空間濾波器(Spatial Filter)先做初步的抑制。
利用估測聲音訊號的能量,通常只能就估計的能量來當做基準,若能量估 計的非常不準確的話,會使後面一連串處理的效果大打折扣。因此若能有一 個可以調整參數的機制加入估測能量的過程中,就能依現有的情況來做調整, 使最後得到的訊號,更能符合不同使用者的各種需求。 在本論文中,利用 Dahl 演算法的方法先找出一組權重(Weight),讓收到的 訊號使用這組權重來達到波束形成(Beamformer),也就是空間濾波的功能。由 於對於消除迴響來說,迴響時間(Reverberation Time,RT60)是一個很重要的指 標參數,所以我們先藉由訊號衰減的情況來計算迴響時間以及訊號的衰減率
(Delay Rate) 。 接 下 來 利 用 已 估 測 的 訊 號 衰 減 率 來 估 計 後 段 迴 響 能 量 (Late Reverberation Energy),再依照不同頻帶(Frequency bin)的能量比來產生出增益
函式(Gain Function),經過空間濾波器的訊號再以不同頻帶的增益函式去抑制 迴響,可以使處理過後的訊號的迴響明顯改善。此外,由於估測出不同的訊 號衰減率,會使估計後段迴響能量的不同,造成消除迴響以及失真的狀況不 同。本論文提供一個方法,可以依使用者的需求,藉由調整不同的訊號衰減 率達到不同的消除迴響以及失真的權衡。
1.2
1.2
1.2
1.2 研究目標
研究目標
研究目標
研究目標
在此將本論文的目標分為: 1. 探討適應性空間濾波器之演算法。
2. 探討估測訊號衰減速度之演算法。 3. 探討與比較不同訊號衰減速度與消除迴響的相關性。
1.3
1.3
1.3
1.3 文獻回顧
文獻回顧
文獻回顧
文獻回顧
一般的情況下,錄製各種不同情況下的迴響聲音,是很不方便的,例 如不同的迴響聲音通常是隨著房間大小以及裡面的擺設、材質來決定的,所
以 J.B. Allen 和 D.A. Berkley 研究了一套理論[1],利用這套理論就可以輕易
的模擬出各種不同大小、材質的房間內迴響的情況,讓聲音迴響的研究者們,
能更輕易的取得需要的聲音資料。
消除迴響的方法可以分為很多種類,一般將消除迴響分成兩大類,第一類
為需要估計聲音脈衝響應以消除回響(Reverberation cancellation)為目的,第二
類為不用估計聲音脈衝響應以抑制回響(Reverberation suppression)為目的。
消除迴響有不少的方法,例如 Marc Delcroix 等人使用 Linear-predictive
Multi-input Equaliztion(LIME)的 Blind deconvolution 方法[2-5],利用聲音濾波
器模型(Sound filter model)的原理,來還原目標聲源。例如 J.D.Polack 發展出
可以套用到 回響情 況的一組模 型[6],利用估測出的迴響時間(Reverberation
在一起,例如 K. Furuya 等人[11]將經過 Blind deconvolution 的訊號再接著利
用 postfilter 再做一次處理。另外 Lin.X 等人[12]從極點(pole)和零點(zero)的角
度來做消除迴響,除此之外,由於聲音的迴響是來自四面八方的,所以也有 人使用空間濾波器來消除迴響,例如 K.Kumatani 等人[13]就利用此一特性, 使用空間濾波器來消除迴響。 即使在消除迴響的研究領域中,已經有了一段很長時間的發展了,但是要 能完全不失真的把聲音的迴響部分消除掉,依然是一件非常困難且有挑戰性 的事情,若要達到此一目標,還是非常需要所有相關研究的研究者的努力。
1.4
1.4
1.4
1.4
論文貢獻
論文貢獻
論文貢獻
論文貢獻
本研究的創新部分為相較於一般消除迴響的方法,增加了可以基於使用者 的不同使用情況之下,可以調整訊號衰減率,來達到不同的目的需求。以往 消除迴響的方法,主要都是以固定的形式來消除迴響,通常都無法調整輸出 的結果,可能會導致無法有一個較通用的方法。 本研究首先使用麥克風陣列接收訊號,利用其空間資訊經由 Dahl 演算法 的波束形成技術,先消除聲源以外方向的迴響,再接著使用可調整增益衰減 後濾波器對訊號聲源方向的迴響作壓抑的動作,如此不但能提高訊號殘響比, 也可以依照不同的使用需求,調整對應的參數,讓此方法能更為通用。
1.5
1.5
1.5
1.5
論文架構
論文架構
論文架構
論文架構
本論文包含了三個主要的部分,分別為麥克風陣列技術、封閉空間迴響的 介紹、論文提出的演算法與方法的實驗與分析。以下描述各章節的內容: 第二章 第二章 第二章 第二章::::技術背景介紹技術背景介紹技術背景介紹 技術背景介紹 麥克風陣列技術、聲音迴響與迴響時間、Dahl 演算法以及後混響譜方差 的介紹。 第三章 第三章 第三章 第三章::::論文方法論文方法論文方法 論文方法 介紹本論文的架構與演算法。利用改變訊號衰減率來估算迴響部分的能 量,並依照能量的比例壓抑迴響。 第四章 第四章 第四章 第四章::::實驗的結果與分析實驗的結果與分析實驗的結果與分析 實驗的結果與分析 分析實驗結果,測試論文方法的效果。 第五章 第五章 第五章 第五章::::結論結論結論 結論 對論文方法與測試結果進行評估與總結。
第二章
第二章
第二章
第二章
技術背景介紹
技術背景介紹
技術背景介紹
技術背景介紹
2.1
2.1
2.1
2.1 陣列訊號處理
陣列訊號處理
陣列訊號處理
陣列訊號處理
在一般的訊號處理中,多半著重於如何利用訊號的時域或頻域的特徵,來 對訊號進行處理。而陣列訊號處理的技術,就是除了在原先的訊號即擁有的 時域或頻域資訊中,還能同時多得到空間資訊,使得訊號處理的資訊更為豐 富。 陣列訊號處理,顧名思義便可知,是利用排列成線性或是環狀等特定形狀 的多個感測器來接收訊號,並進行處理的技術。由於在空間中任一點聲源發 出訊號後,經過在空間中的傳遞,不同感測器接收到時會產生許多差異,如 接收能量不同或接收時間的延遲。利用不同感測器接收到同一聲源訊號時所 產生的差異,進行處理與分析,藉此來獲得空間的資訊。 在陣列訊號處理中,依使用目的與研究方向的不同,大致可將研究領域分 為兩大類:第一類著重在估測訊號的數量或是方位,此類稱為到達角估測
(Direction of arrival estimation)。第二類為利用訊號的空間資訊,對不同方向
的訊號做出不同的增益,以達到空間濾波的效果,藉此來分離不同方向的訊
然而,在陣列訊號處理的理論中,都是基於兩個假設,使得理論更為精簡:
第一個假設是窄頻訊號(Narrow Band Signal),而第二個假設為遠場平面波
(Far Field Plane Wave)。
假設陣列感測器的位置如圖 2-1 所示,s(t)為原始訊號,n(t)為雜訊,則 M 個感測器輸出可表示成向量形式:
( )
( )
( )
( )
( )
( )
( )
1 1 1 z t M z r jw c z r jw M M c z t s t e n t z t n t s t e ⋅ ⋅ = = + ⋮ ⋮ ⋮( )
( )
( )
( ) ( )
1 1 s t (t) M jk z r jk z r M e n t s t n t e ⋅ ⋅ = + = + n ⋮ ⋮ a r (2.1.1)其中,a(r)稱為 array manifold vector,代表訊號聲源到各個感測器間的時間關
係,可表示成:
( )
( 1) 1 T jkdsin jk M dsin e θ e − θ = ⋯ a θ (2.1.2)圖 2-1 均勻線性陣列架構圖
2.2
2.2
2.2
2.2 封閉空間的迴響
封閉空間的迴響
封閉空間的迴響
封閉空間的迴響與迴響時間
與迴響時間
與迴響時間
與迴響時間
2
22
2.
..
.2
22
2.
..
.1
11
1
封閉空間的迴響
封閉空間的迴響
封閉空間的迴響
封閉空間的迴響
迴響是本論文的主題,並能用直觀的反射來描述。目標訊號產生聲波,此 聲波會被房間內的牆壁反射,被麥克風接收。圖 2-2 是一個包含直接接收部分 (Direct Path)和一次反射部分(Reflection)的例子。由於不同的路徑長度以及被 牆壁吸收的聲音能量,導致聲波到達麥克風位置時,會有不同的振幅與相位。 接收訊號中,聲音訊號的延遲和衰減的情形即稱為迴響。
圖 2-2 聲源直接到達路徑與反射路徑
迴響是目標訊號與麥克風之間許多的傳播路徑產生的,接收訊號一般包含
直接接收部 分和反 射部分。反 射部分 又分成緊接 在直接 接收後面的 早迴響
(Early Reflection),以及早反射之後的晚反射(Late Reflection),如圖 2-3 所示。
以下為詳細的定義 : 直接接收聲音(Direct Sound) : 最先接收到的聲波,此聲波沒經過任何反 射即稱為直接接收聲音。此聲音會由於聲速和距離造成延遲。 早迴響(Early Reverberation) : 接收到的時間比直接接收聲音略晚一點,且 有經過反射而接收到的聲音即稱為早迴響。通常早迴響指在直接接收聲音之 後 80-100 毫秒(ms)之內接收到的聲音。早迴響會造成頻率的失真,但是能提 高語音品質。 後迴響(Late Reverberation) : 在早迴響之後接收到的聲音都稱為後迴響。
圖 2-3 聲音脈衝響應概要圖
2
22
2.
..
.2
22
2.
..
.2
22
2
迴響時間
迴響時間
迴響時間
迴響時間
迴響時間(Reverberation Time, RT60)在研究迴響的領域中,是一個非常重 要的參數。迴響時間的定義是聲音在空間中下降 60 分貝(dB)所需要的時間。 會選定 60 分貝的原因是,因為聲音下降了 60 分貝之後,人耳幾乎聽不到聲 音。本論文中,估測迴響時間的方法,主要是根據 M.R.Schroeder 的方法來估 算迴響時間。
此理論是根據能量下降曲線(Energy Decay Curve, EDC)下降 60 分貝來定
義迴響時間,能量下降曲線可以藉由觀察房間脈衝響應的積分得到,表示成 下式
( )
2( )
EDC t t h τ τd ∞ =∫
(2.2.1)h(t)為房間的脈衝響應。上式的積分通常稱為 Schroeder 積分,用來計算經過 時間 t 之後剩餘的脈衝響應能量。迴響時間的計算方法如下: 60 60 s RT qf = (2.2.2) q 為能量下降曲線的斜率, 為取樣頻率。
2.3
2.3
2.3
2.3
Dahl 演算法
演算法
演算法
演算法
一般而言,濾波器的係數都是固定的,並不會隨著環境的變化做適當的調 整。若能根據輸入的訊號,使用訊號處理的方式來讓濾波器自動調整適合當 下環境的係數,即為適應性濾波器。同理,能自動調整係數的空間濾波器即 為適應性空間濾波器。 本章節將介紹的適應性空間濾波器,稱為 Dahl 演算法[14]。依照適應性 訊號處理的觀念,必須先得到希望達到的聲音訊號的特性,而 Dahl 演算法的 訊號擷取圖如圖 2-5 所示
圖 2-4 Dahl 演算法訊號擷取圖 Dahl 演算法的訊號擷取圖要分成兩個部分來操作,首先利用 M 個麥克風 的麥克風陣列,在安靜的環境下錄製希望達到的目標訊號,就是目標聲源方 向的訊號。接下來是錄製希望消除的固定干擾聲源,亦是希望空間濾波器能 夠濾掉的訊號。例如,如果環境中有人的說話聲以及喇叭播放的音樂聲,則 由上述的兩個部分的操作方法來說,就是先使用麥克風陣列在安靜的環境之 下錄製一段人講話的聲音,接下來一樣是在安靜的環境之下錄製一段喇叭播
放的音樂聲,如此,就完成 Dahl 演算法預錄的部分。 而 Dahl 演算法的架構圖如圖 2-6 所示,此架構可分為上下兩個部分,上 面的部分是將麥克風陣列收到的訊號乘上一組空間濾波器的係數來當做輸出 的訊號。下面的部分主要的功能是用來更新空間濾波器的係數,更新空間濾 波器係數的方法,就是把麥克風即時收到的訊號與預錄的目標聲源以及固定 干擾聲源相加,把此一相加的結果當成是 LMS 演算法的輸入,再利用 LMS 演算法來調整空間濾波器的係數,經過調整的係數會不斷的變動,一直到收 斂至某一範圍,如此一來,適應性空間濾波器的輸出訊號就會與目標訊號的 誤差達到最小,也就是指空間濾波器在目標訊號方向的增益最大,在固定干 擾聲源方向的增益會被降低,如此就能達到濾除固定干擾聲源的效果。 在 Dahl 演算法中,上半部分的空間濾波器的訊號處理與下半部分的空間 濾波器的係數調適不可同時進行,若在空間濾波器處理訊號的過程中,干擾 聲源移動導致方向改變,則必須重新啟動下半部分的空間濾波器係數調適的 功能,來調整出一組適合當下情況的係數。
圖 2-5 Dahl 演算法架構圖
2.4
2.4
2.4
2.4
後混響譜方差
後混響譜方差
後混響譜方差
後混響譜方差(
((
(Late Reverberant Spectral Variance
Late Reverberant Spectral Variance
Late Reverberant Spectral Variance,
Late Reverberant Spectral Variance
,
,
,
LRSV)
LRSV)
LRSV)
LRSV)
估計
估計
估計
估計
本章節將介紹利用J.D.Polack 的迴響統計模型來估計迴響部分的能量。 以下將詳細介紹迴響統計模型的內容: 迴響訊號的結果,是聲音訊號 s(t)和因果非時變的聲音脈衝響應(Acoustic
Impulse Response, AIR)迴旋積分(convolution)的產物,將聲音脈衝響應函式表
示成 h(t),可得
( )
( ) (
)
z t t s θ h t θ θd −∞ =∫
− (2.4.1) 因為我們的目標是抑制後迴響,所以聲音脈衝響應可以分成兩部分ℎ ( )和 ℎ ( ),因此可寫成( )
( )
( )
,, , 0 0 e l l l h t for t T h t h t for t T otherwise ≤ ≤ = ≥ (2.4.2) 的選擇,是要使得ℎ ( )包含了直接路徑(Direct path)和一些的早反射(Early reflection),通常的選擇範圍在 40-80 毫秒(ms)之間。 由(2.4.1)和(2.4.2)式可寫成( )
( ) (
)
( ) (
)
z t t t e l s θ h t θ θd s θ h t θ θd −∞ −∞ =∫
− +∫
− (2.4.3) 此理論的主要目的就是要估測 LRSV ( , )。( )
2 , { ( , ) } l z l k E Z l kl λ =其中 ( , )是 ( )的短時間傅立葉轉換(Discrete Short Time Fourier Transform,
STFT)。
因為在實際的房間中,聲音的行為非常複雜,以致於很難模擬,所以通常都
會使用統計房間聲學(Statistical Room Acoustics, SRA)來模擬。統計房間聲學
通常利用聲源與麥克風之間的距離、房間體積和迴響時間等來描述聲源到麥 克風之間的轉移函數。 以下為此模型的三個假設: 1. 房間的大小要遠大於波長。 2. 平均的共振頻率間隔要小於頻寬的三分之一。假設一個房間的體積是 V 立方公尺,迴響時間是 秒,這些情況下的頻率要大於 Schroeder 頻率:
3. 聲源、麥克風與牆壁的距離,至少要大於半波長。
Polack 利用非穩態隨機程序來描述聲音脈衝響應(Acoustic Impulse Response, AIR)。
( )
( )
, , 0 0 t for t b t e h t otherwise δ − ≥ = (2.4.5) b(t)是平均為零的高斯穩態白噪音訊號,而平均阻尼常數(damping constant) 則 是關係著迴響時間,2.4.6 式為平均阻尼常數與迴響時間的關係式: 60 3log (10)e RT δ = (2.4.6)此段落將介紹廣義的迴響統計模型(Generalized Statistical Reverberation
Model)。
Polack 的統計模型在直達混響聲能比(Direct to Reverberation Ratio, DRR)
小於 0 分貝(dB)時對於後混響譜方差的估測式很有幫助的。但是在直達混響聲 能比大於 0 分貝(dB)的時候,會造成後混響譜方差過估測(Overestimate)的現 象,這將會導致消除迴響後的訊號嚴重的失真。與 Polack 的統計模型相同, 將聲音脈衝響應 h(t)拆解成ℎ ( )和ℎ ( )兩部分:
( )
( )
( )
,, , 0 h ? 0 d r r r h t for T t h t for t T otherwise ≤ = ≥ (2.4.7) 的選擇,是要使得ℎ ( )包含直接路徑(Direct path),ℎ ( )包含直接路徑之後 的所有反射。稍後會根據時頻(Time-frequency)轉換的音框率(Frame rate)定義 。為了能在統計模型中模擬出能量與直接路徑的關係,提出了以下的模型:( )
( )
, , 0 0 t r d d for t T b t e h otherwise t δ − ≤ ≤ = (2.4.8) ( ) 是平均為零的高斯穩態白噪音訊號,而平均阻尼常數(dampingconstant) 則是關係著迴響時間。在迴響成分(Reverberant component) ℎ ( )部 分,則用以下模型來描述:
( )
( )
, , 0 t r r r for t T b t e h otherwise t δ − ≥ = (2.4.9) ( )是平均為零的高斯穩態白噪音訊號,而平均阻尼常數(damping constant) 則是關係著迴響時間。 在統計房間聲學的情況下,直接路徑部分與反射路徑部分的聲音脈衝響應是 不相關的(Uncorrelate),基於這個原因,更進一步假設 ( )與 ( )是不相關的,( ) (
)
{
}
E t t τ 0 d r b b + = 。 h(t)的能量包絡線(Energy envelope)可以表示成( )
{
}
,, 2 2 2 2 2 , 0 0 t d r t h r r e for t T E h e for t T otherwise t δ δ σ σ − − ≤ < = ≥ (2.4.10) 與 分別是 ( )與 ( )的變異數(Variance)。以下將詳細介紹後混響譜方差(Late Reverberant Spectral Variance, LRSV)的估
測。 麥克風收到的訊號,可以表示成
( )
( ) (
)
z t t s θ h t θ θd −∞ =∫
−(
,)
{( )
( )} zz z r t t+ =τ E z t z t+τ (2.4.12) 在固定 h 的條件下,可得(
)
{
( )
( )
}
(
)
(
)
( )
( )
{
}
(
)
(
)
' ' ' ' ' ' , ; r r r r t t zz s d d t T t T t T t T s r r r t t h E s s h t h t d d E s s h t h t d d τ τ τ τ θ θ θ τ θ θ θ θ θ θ τ θ θ θ + − − + − − + −∞ −∞ + = − + − + − + −∫ ∫
∫ ∫
(2.4.13) 根據 2.4.8、2.4.9、2.4.10 三式,可得(
)
(
)
{
}
( ' ) ' 2 2 ' ( ) t h d d d E h t−θ h t+ −τ θ =σ e−δ eδ θ θ τ+ − δ θ θ τ− +(
)
(
)
{
}
( ' ) ' 2 2 ' ( ) t h r r r E h t−θ h t+ −τ θ =σ e−δ eδ θ θ τ+ − δ θ θ τ− + 因為隨機程序 h 和 s 之間沒有實質關係,所以可以假設兩者為統計上獨立。 { ( ) ( + !)} = 0等同於 {ℎ ( )ℎ ( + !)} = 0。則空間上的平均自相關函 式為(
,)
{ ( , ; }(
t, t τ)
(
t, t τ)
d d r r zz h zz z z z z r t t+ =τ E r t t+τ h =r + +r + (2.4.14) 其中(
)
2 2( ) (
)
2 t, t τ { } d d r t t z z d t T r σ e−δ E s θ s θ τ e δθdθ − + =∫
+ (2.4.15) 與(
)
{
( ) (
)
}
( ) (
)
{
}
( ) (
)
{
}
2 2 2 2 2 2 2 2 2 2 2 t, t τ r r r r r r t T t z z r t T t r t T t T t r r e E s s e d e E s s e d e E s s e d δ δθ δ δθ δ δθ σ θ θ τ θ σ θ θ τ θ σ θ θ τ θ − − −∞ − − − − − −∞ + = + = + + +∫
∫
∫
(2.4.16) 根據 2.4.14 式,第一項與直接路徑的訊號相關,作用時間在t − 到 t 之間。第二項則與迴響訊號相關,是重疊遮蔽的主要原因。首先考慮在時間t − 的 自相關函式
(
,)
(
,)
(
,)
d d r r zz r r z z r r z z r r r t−T t− + =T τ r t T t− − + +T τ r t T t T− − +τ (2.4.17) 其中(
)
2 2 ( )( ) (
)
2 2 , { } r r d d r t T t T z z r r d t T r t T t T τ σ e δ E s θ s θ τ e δθdθ − − − − − − + =∫
+ (2.4.18) 與(
)
2 2 ( ) 2( ) (
)
2 , { } r r r r t T t T z z r r r r t T t T τ σ e δ E s θ s θ τ e δθdθ − − − −∞ − − + =∫
+ (2.4.19) 根據 2.4.16 式,'( ((t, t + τ)項可表示為(
)
(
)
(
)
2 2 t, t τ , , r r r d d r r r T z z z z r r T z z r r r e r t T t T e r t T t T δ δ κ τ τ − − + = − − + + − − + (2.4.20) 2 2 κ / r d σ σ = ,這邊因為假設 ≥ ,所以κ ≤ 1。依照 2.4.17 式,2.4.20 可以 重新寫成(
)
(
) (
)
(
)
2 2 t, t τ 1 , ? , r r r r r r T z z z z r r T zz r r r e r t T t T e r t T t T δ δ κ τ κ τ − − + = − − − + + − − + (2.4.21) 後迴響成分則可以利用觀察下式得到(
)
2 ( )(
)
t, t τ l r , l l r r T T z z z z l r l r r + =e−δ − r t T− +T t T− + +T τ (2.4.22)若利用短時間內的譜密度(Power Spectral Density, PSD)的觀點觀察,2.4.22 以
在此定義 = ,R 為短時傅立葉轉換(Short Time Fourier Transfer, STFT)的 音框率(Frame rate),從短時傅立葉轉換的觀點,2.4.23 式可寫成
( )
2 , ( 1, ) l s l r R T f z l k e z l Nl k δ λ λ − − = − + (2.4.25)( )
2(
) (
)
2(
)
, s 1 1, s 1, r r R R f f z l k e z l k e zz l k δ δ λ = − −κ λ − +κ − λ − (2.4.26) 若能得到 . ( , )、/̂和 1這些參數,就能利用 2.4.25 以及 2.4.26 二式計算出 後混響譜方差。 . ( , )與 1在前面已經介紹過了,接下來的部分為介紹直達混響聲能比(Direct to Reverberation Ratio, DRR)κ的定義:
2 2 2 2 1 κ r r T r r T d d E e E e δ δ σ σ − − − = = (2.4.27) 其中
( )
( )
2 0 2 r r T d r T h t dt E E = ∞h t dt∫
∫
(2.4.28) 在實際環境應用下,聲音脈衝響應都不是事前可先知道的訊息,所以我們只 能靠盲估計(Blind estimate)來得到直達混響聲能比。 在很多實際的情況中,麥克風跟訊號源的距離是會變動的。直達混響聲能 比是依據在麥克風與訊號源之間的距離改變的,所以估測直達混響聲能比是 要能根據不同的距離而改變的。當κ太大的時候,λˆ ( , )z l k 會大於 Z l k( , )2,會 導致過估測的產生,所以應該要讓κ值降低。在無噪音的環境中,迴響部分的能量在有語音訊號的時候會小於接收訊號的能量,在無語音訊號的情況下 會大致等於接收訊號的能量。所以 κ 至少需滿足 2 ( , ) ˆz( , ) 0 Z l k −λ l k ≥ 。 當語音訊號被偵測到且滿足 2 ( , ) ˆz( , ) 0 Z l k −λ l k < 時,κ值會降低。當 2 ( , ) ˆz( , ) 0 Z l k −λ l k > 時,κ值則緩慢上升。若 Z l k( , )2−λˆz
( )
l k, =0 ,就假設κ值 式正確的,下式為κ更新的機制( )
( )
( )
( )
1 2 0 2 1 2 0 , , , 1 ( 1 ˆ ) ˆ ˆ ˆ , K z k k K k l k l speech present l Z l k otherwise l λ κ µ κ κ − = − = + − + = ∑
∑
(2.4.29) 23為步長(Step size),範圍在 1 到 0 之間。在/̂更新時,也將範圍限制在 1 到 0 之間。第三章
第三章
第三章
第三章
論文方法
論文方法
論文方法
論文方法
一般利用迴響時間估測後迴響譜方差來抑制迴響的理論,都是使用一些方 法估測迴響時間,所以通常只要估測出迴響時間之後,其消除迴響的效果就 大致上固定了。本論文提出的方法,即是能依照使用者的需求來改變迴響時 間的方法,如此可以適合在不同需求下的應用。
3.1
3.1
3.1
3.1 系統架構說明
系統架構說明
系統架構說明
系統架構說明
圖 3-1 系統架構 系統架構演算法說明: 1. 將麥克風陣列接收的聲音訊號,乘上一組事先訓練(Training)好波束形成的 權重(Weight)當作第一階段的輸出。
2. 使用第一階段的輸出與事先調整好的訊號衰減率,估測出後迴響譜方差。 3. 利用後迴響譜方差運算出的增益函式,壓抑第一階段輸出訊號的迴響,當 作最後的輸出訊號。 在本論文的系統架構中,主要分成兩個部分。第一個部分為波束形成,這個 部分主要是利用波束形成可以壓抑方向聲源以外訊號的特性,來濾除聲源方 向以外的迴響,此部分我們選擇了需要先預錄的 Dahl 演算法,詳細的內容以 及步驟將會在後面的章節介紹。第二個部分是利用估測後迴響能量的方式, 來得到後置濾波器,以用來消除迴響。這個部分我們在估測訊號衰減率的步 驟中,加入了變數 δ 來讓使用者可以依照各自不同的條件,來選擇適合的 δ 來達到較好的消除迴響效果。在估測訊號衰減率的部分加入可供調整的變數, 可以讓本方法更適合在各種情況下消除迴響,且能得到較好消除迴響的效 果。
3.2
3.2
3.2
3.2 波束形成
波束形成
波束形成
波束形成的
的
的
的比較與
比較與
比較與
比較與選擇
選擇
選擇
選擇
波束形成的方法有很多種,以下將列舉較常見的波束形成方法比較。 以下將列舉比較的方法:
3. Dahl 演算法[14]
4. 參考訊號之卡曼濾波器(Reference Signal Kalman filter)[17-18]
首先介紹評斷標準:訊號殘響比(Signal to Reverberation Ratio, SRR)與對
數譜失真(Log Spectral Distortion, LSD)。
訊號殘響比,第 l 個音框的瞬時部分訊號殘響比表示式為
( )
( )
( )
( )
(
)
[ ]
1 2 10 1 2 10 log lR N d n lR seg lR N d d n lR z n SRR l dB z n z n + − = + − = = − ∑
∑
(3.2.1)N 為音框的長度,R 為音框率(Frame rate), (4)為直達訊號(Direct Signal), ̂ (4)為純化後的訊號。 對數譜失真可表示為
( )
{
( )
}
{
( )
}
[ ]
1 1 2 0 ˆ 2 , , ? K p p d d k LSD l Z l k Z l k dB K − = = − ∑
L L (3.2.2)( )
(
)
10 {X(l, k)}≜max{20 log X l k, , }δ L (3.2.3)( )
(
)
{
}
, 10 δ 20 log , 50 l k max X l k = − (3.2.4) 3.2.2 式中的 p 通常會選擇 1、2 或是∞,Z l kd( , )與Z l kˆ ( , )d 分別為z nd( )與z nˆ ( )d 經 過短時間傅立葉轉換後的結果。3.2.3 式的目的是為了將對數譜失真限制在 50 分貝的範圍內。圖 3-3 波束形成之對數譜失真
其中,由於參考訊號之卡曼濾波器有參數 與 需要調整,在此訂定知覺
語音評價(Perceptual Evaluation of Speech Quality, PESQ)[19-20]為基準來調整
與 兩個參數。知覺語音評價的分數 5 分為最高,表示與音品質極佳,分 數越低表示與音品質越差,如表 3-1 所示。主要是選定參考訊號之卡曼濾波器 的知覺語音評價與 Dahl 演算法的知覺語音評價最接近的一組 與 。選擇知 覺語音評價當作比較基準的原因,是聲音的迴響對知覺語音評價的影響不大, 而知覺語音評價對於迴響以外的失真較為敏感[7]。而在 Dahl 演算法 TF-GSC 的部分,則是錄製一段足夠長的參考訊號,使這兩種方法可以讓其權重訓練 至收斂為止。
Listening-Quality Scale:
Quality of the speech/connection Score
Excellent 5 Good 4 Fair 3 Poor 2 Bad 1 表 3-1 知覺語音評價分數表 此段落將詳細介紹上述波束形成的比較。根據圖 3-2 可以清楚的發現,在 經過第一階段的波束形成器之後,訊號殘響比由大至小順序為:參考訊號之 卡曼濾波器、Dahl 演算法、時間延遲相加波束,最小為 TF-GSC。根據圖 3-3, 也可以發現對數譜失真由大至小順序為:參考訊號之卡曼濾波器、時間延遲 相加波束、TF-GSC,最小則是 Dahl 演算法。 經由圖 3-2、圖 3-3 的觀察,能得知除了 Dahl 演算法知外,其餘波束形成 表現出訊號殘響比越大,對數譜失真也會越大。以下就需要事先訓練權重的 TF-GSC、Dahl 演算法以及參考訊號之卡曼濾波器分別介紹影響評比標準結果 的原因: 1. TF-GSC: TF-GSC 訓練權重的部分,主要是訓練出麥克風陣列中麥克風的相對關係, 所以是以其中一顆麥克風收到的訊號為參考訊號,藉此得到其他麥克風收
除迴響的效果不彰,導致其訊號殘響比結果是最差的,在對數譜失真部分, 由於上述的原因,可推論造成對數譜失真的主要原因為迴響。 2. Dahl 演算法: 由章節 2.3 敘述的訓練方法,首先固定麥克風陣列與訊號聲源的架構,例 如麥克風與訊號聲源之間的距離、麥克風之間的距離等。以此固定架構在 無響室錄製一段語音訊號,作為麥克風訊號接收的直接路徑的部分,接下 來在聽得出迴響效果的室內環境,錄製一段與無響室中一樣的語音訊號, 作為麥克風接收到的輸入訊號使用。接著根據 Dahl 演算法中適應性空間 濾波器係數調整的部分訓練出一組權重,接著將輸入訊號與此權重相乘, 即可得到第一階段的輸出。而由於訓練的過程中,把迴響部分當成是雜訊, 而無響室錄製的訊號當成是目標訊號,所以能消除較多迴響部分的訊號, 且造成比較少的失真。 3. 參考訊號之卡曼濾波器: 在參考訊號之卡曼濾波器調整 與 兩個參數的過程中,可以發現 越大, 則訊號的低頻部分會消除越多,由於一般麥克風陣列接收到的訊號都是低 頻部分的能量較強,所以如果低頻部分消除過多,會使語音訊號嚴重失真, 如圖 3-4、圖 3-5 以及圖 3-6 所示。由圖 3-4、圖 3-5 與圖 3-6 可知, 越 大,雖然可以消除較多的迴響,但是也會因為消除過多的低頻訊號導致嚴 重的失真。
圖 3-4 =100, =0.001 卡曼濾波器頻譜圖
根據上述的原因,加上考慮到在波束形成之後,會使用後置濾波器,依照 迴響訊號的能量比再壓抑迴響一次,為了避免最後輸出的語音失真太嚴重, 所以選擇訊號殘響比第二大,而對數譜失真最小的 Dahl 演算法。
3.3
3.3
3.3
3.3 利用可改變的訊號衰減率消除迴響
利用可改變的訊號衰減率消除迴響
利用可改變的訊號衰減率消除迴響
利用可改變的訊號衰減率消除迴響
首先介紹如何估測訊號衰減率,此部分需要在空間中播放聲音,使聲音充 滿整個空間,接著關掉聲源,而訊號的衰減率,可以由關掉聲源之後的訊號 能量衰減曲線觀察得到。訊號的衰減狀況如圖 3-7 所示。 圖 3-7 訊號衰減圖 完成上述的訊號衰減預錄之後,可利用 2.2.1 式計算出訊號能量衰減的情 況,並能得到如圖 3-8 的能量衰減曲線。
圖 3-8 能量衰減曲線 由圖 3-8 可觀察中間部分的衰減率幾乎等於定值,因此利用最小平方法 (Least Square, LS)逼近能量衰減曲線,最小平方法定義如下:
( )
(
)
2 , ( ) ( ) J p q =min EDC n − p+δqn (3.3.1) P 為逼近線的位移,q 為逼近線的斜率,δ 為可調整的變數,調整方式稍後會 介紹,能量衰減曲線與逼近線如圖 3-9 所示。圖 3-9 最小平方法逼近曲線圖 得到衰減斜率 q 之後,可利用 2.2.2 式計算出迴響時間。將估算的迴響時間代 入 2.4.25 式與 2.4.26 式,可求得後混響譜方差,再依照下式即可計算出一組 後置濾波器。
( )
, zd z G l k λ λ = (3.3.2) 為麥克風接收訊號的能量, 5為直接路徑部分的訊號能量。改變 3.3.1 式中 的 δ 所得到的後置濾波器的響應效果如圖 3-10、圖 3-11、圖 3-12、圖 3-13 所 示。圖 3-12 後置濾波器之對數譜失真
由圖 3-10 與圖 3-12 中的 δ=1、δ=2、δ=3 可得知,δ 變大,訊號殘響比會 變大,對數譜失真也會跟著變大,但是由圖 3-11 與圖 3-13 可發現如果 δ 太 大,會造成後迴響的過估計,使得直接路徑部分的訊號也會被消到,所以 δ=25 時的訊號殘響比會稍為比 δ=5 小一點,而對數譜失真會變大。 純化過後輸出訊號以及兩階段各自輸出訊號的訊號殘響比與對數譜失真, 如圖 3-14、圖 3-15、圖 3-16、圖 3-17 所示。由圖 3-14、圖 3-15 可觀察出, 迴響時間漸漸變長時,結果會與前面波束形成介紹的輸出結果越相符。由圖 3-16 與圖 3-17 可發現,本論文架構的純化結果,能比單純只有波束形成或單 通道後置濾波器在迴響時間長的情況下,越能維持效果。表 3-2 與表 3-3 是讓 使用者參考的對照表,使用者可以依照不同的需求,例如需要的訊號殘響比, 容忍失真的程度,依照對照表來選擇適合的 δ。 根據圖 3-2、圖 3-3、圖 3-15 以及圖 3-16 可以觀察到,本論文的架構之輸 出訊號與只經過波束形成處理之輸出訊號相比較,在迴響時間較短的情況, 對數譜失真會稍微變大、訊號殘響比會稍微變大,主要是因為迴響時間較短, 訊號迴響部分能量較低,造成直接路徑部分的自消除(Self cancellation)程度較 高。在迴響時間較長的情況下,對數譜失真會稍微下降而訊號殘響比會較波 束形成的輸出大,則顯示其直接路徑部分的自消除程度較低。
圖 3-14 純化訊號之訊號殘響比
RT60 0.5 1 1.5 2 original 5.788241 0.073819 -2.37934 -3.90586 delta 1 10.48013 5.840099 3.701991 2.218376 2 12.09237 6.747207 4.420009 2.847894 3 12.76566 7.372765 4.781325 3.187679 4 12.63602 7.357509 4.647785 3.075472 5 12.87888 7.292633 4.556879 3.141693 6 13.01536 7.192203 4.645835 3.179897 7 13.04291 7.255582 4.675451 3.131081 8 13.01453 7.273262 4.67321 3.171339 表 3-2 訊號殘響比對照表 RT60 0.5 1 1.5 2 delta 1 13.94806 15.42228 16.20252 16.697 2 16.17098 17.49553 17.96619 18.15511 3 18.48567 20.09778 20.71019 20.45006 4 18.27493 20.6505 20.74095 20.65159 5 19.39956 20.28115 20.7347 20.64885 6 20.67107 21.30488 20.67401 21.14339 7 21.31464 21.90949 20.8894 21.52165 8 21.65511 22.2379 21.10343 21.84882 表 3-3 對數譜失真對照表
第四章
第四章
第四章
第四章
實驗結果與分析
實驗結果與分析
實驗結果與分析
實驗結果與分析
本章節將介紹,利用本論文方法消除迴響的效果。實驗將分為兩個部分。 首先,對麥克風陣列收到的訊號先經過波束形成處理,並對其結果作分析。 接下來再將波束形成的輸出經過後混響譜方差估測迴響訊號之能量,再利用 後置濾波器濾除迴響,並分析其輸出訊號。
4
44
4.1
.1
.1 實驗環境介紹
.1
實驗環境介紹
實驗環境介紹
實驗環境介紹
本論文的錄音平台採用本實驗室的麥克風陣列,麥克風陣列為 8 顆線性陣 列,麥克風與麥克風的距離為 3 公分。圖 4-1 為裝置的實際照片,圖 4-2 為無 響室的聲源與麥克風陣列關係的實際照片,圖 4-3 為在迴響較為明顯的室內空 間中聲源與麥克風陣列關係的實際照片。對於由麥克風接收的訊號,選擇 1024 個取樣點(sample)作為音框大小(Frame size),選擇每一次移動 512 個取樣點, 也就是重疊大小(Overlap size)為 512 個取樣點。 在本論文的實驗中,聲源皆與麥克風陣列成 90 度,訊號從麥克風的正前 方射入。而在預錄資料的部分,則是分別在無響室以及迴響較為明顯的室內 空間錄製需要的預錄資料。
圖 4-1 線性麥克風陣列平台
圖 4-3 室內空間聲源與麥克風陣列關係
4.2
4.2
4.2
4.2 系統
系統
系統消除迴響效
系統
消除迴響效
消除迴響效果
消除迴響效
果
果
果
此段落將比較各種波束形成之波束方向圖(Beam Pattern),四種波束形成 分別如以下四圖所示。由圖可以觀察到 Dahl 演算法、時間延遲相加波束與 TF-GSC 波束形成最大的能量分佈主要在目標聲源方向的角度上,而卡曼濾波 器會在目標聲源的方向上有不少能量較低的部分,因此可以得知濾波器會把 該方向的聲源消除,造成會有自消除的結果。造成此結果的原因是,因為錄 製預錄資料時,會有人為的誤差使訊號入射角度有所偏差,導致直接路徑的
圖 4-4 Dahl 演算法之波束方向圖
圖 4-5 時間延遲相加波束之波束方向圖
圖 4-6 TF-GSC 之波束方向圖
圖 4-7 卡曼濾波器之波束方向圖
本實驗估算出的迴響時間大約為 1.02 秒,不同波束形成的結果如表 4-1
所示,系統輸出結果如表 4-2 所示。
SRR(dB)/LSD(dB)
Dahl -1.57502/5.670427
Delay and sum -4.36925/3.432652 TF-GSC -4.48152/4.433173
δ=1 SRR(dB)/LSD(dB)
Dahl -1.60164/10.2273
Delay and sum -3.3789/8.282535
TF-GSC -3.024/10.44279
δ=4
Dahl 0.112122/13.12621
Delay and sum -2.38513/11.25157 TF-GSC -1.13728/14.86561 表 4-2 系統輸出結果比較表 觀察表 4-1,可以觀察到訊號殘響比最大者為 Dahl 演算法,時間延遲相加 波束約略比 TF-GSC 的訊號殘響比稍微大一點。由於實際的實驗,直接路徑 的訊號會有雜訊的存在,所以對數譜失真會包含了雜訊的影響,導致對數譜 失真的結果會稍微與模擬的部分有些出入。 觀察表 4-2,可發現 δ=1 時訊號殘響比的大小順序為 Dahl 演算法、時間延 遲相加波束,最小為 TF-GSC,當 δ=4 時,訊號殘響比大小順序為 Dahl 演算 法、TF-GSC,最小變為時間延遲相加波束,此結果意味著每種情況適合的參 數不同。 麥克風接收訊號如圖 4-8 與圖 4-12 所示,各種波束形成的輸出結果如圖
4-9 到圖 4-11 與圖 4-13 到圖 1-15 所示。
圖 4-8 輸入訊號
圖 4-11 TF-GSC 波束形成輸出
圖 4-12 輸入訊號時頻圖
圖 4-14 時間延遲相加波束時頻圖 圖 4-15 TF-GSC 波束形成時頻圖 各種波束形成之全系統輸出如圖 4-16 到圖 4-21 所示。以下將固定 δ=4 進 行比較。選擇 δ=4 主要是因為,在此情況下三種波束形成都能有較好的效果, 亦即純化之後的訊號能有效的抑制迴響,並且不會因為失真而無法辨識內 容。
圖 4-16 Dahl 演算法全系統輸出
圖 4-17 時間延遲相加波束全系統輸出
圖 4-19 Dahl 演算法全系統時頻圖
第五章
第五章
第五章
第五章
結論
結論
結論
結論
5.1
5.1
5.1
5.1 研究成果
研究成果
研究成果
研究成果
本論文提出了一個可以依照使用者需求調整消除迴響效果的系統。先利用 麥克風陣列的空間資訊,依照空間濾波器的特性先消除聲源方向以外的迴響, 再進一步利用統計模型的特性,依照估測出的訊號衰減率,達到消除迴響的 效果。由以上的實驗以及模擬結果可以得知,本論文方法在不同的需求下, 皆可以利用改變參數 δ 來調整訊號的衰減率,進一步改變消除迴響的強度, 在可接受失真範圍內,若 δ 上升,可有效提高訊號殘響比。由於本系統依照 不同的 δ 的選擇,能有不同消除迴響的效果,所以使用者可以依照自己的情 況來調整參數,使純化結果可以達到使用者的要求。
5.2
5.2
5.2
5.2 未來展望
未來展望
未來展望
未來展望
當聲源不斷的發出聲音時,由於聲音能量的大小會不斷的改變,導致直達 混響聲能比會不斷的改變。本論文中估測直達混響聲能比的部分,會因為訊 號中帶有語音成分,導致直達混響聲能比會一直上升,因而無法準確的消除 迴響的部分。若能發展出一套改進直達混響聲能比的估測機制,即可使得消 除迴響的精準度上升,亦即可以使自消除的程度下降,如此可以使得在消除 同樣程度迴響的情況下,讓訊號能有更少的失真,語音品質因而得到更好的 改善。
Reference
[1] J.B. Allen and D.A. Berkley, “Image Method for Efficiently Simulating Small Room Acoustics,” Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[2] M. Delcroix, T. Hikichi, and M. Miyoshi, “Precise dereverberation using
multichannel linear prediction,” IEEE Trans. Audio, Speech, Language Processing, vol. 15, no. 2, pp. 430–440, 2006.
[3] M. Delcroix, T. Hikichi, and M. Miyoshi, “Dereverberation and denoising using multichannel linear prediction,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 6, pp. 1791–1801, Aug. 2007.
[4] M. Delcroix, T. Hikichi, and M. Miyoshi, “On the use of lime dereverberation algorithm in an acoustic environment with a noise source,” in Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing
(ICASSP’06), 2006, vol. 1, pp. 825–828.
[5]M. Delcroix, T. Hikichi, and M. Miyoshi, “Blind dereverberation algorithm for speech signals based on multi-channel linear prediction,” Acoustical Science and Technology, vol. 26, no. 5, pp. 432–439, 2005.
[6] J.D. Polack, La transmission de l’´energie sonore dans les salles, Th`ese de doctorat d’etat, Universit´e du Maine, La mans, 1988.
[7] E. A. P. Habets, Single- and multi-microphone speech dereverberation using spectral enhancement, Ph.D. dissertation, Eindhoven University, Eindhoven, The Netherlands, June 2007.
[8]E.A.P. Habets, S. Gannot, and I. Cohen, “Dual-Microphone Speech Dereverberation in a Noisy Environment,” in Proc. of the IEEE International Symposium on Signal Processing and Information Technology (ISSPIT’06), Vancouver, Canada, Aug. 2006.
reverberation time based on the distribution of signal decay rates,” in Proceedings of IEEE International Conference on Acoustic, Speech, and Signal Processing (ICASSP ’08), pp. 329– 332, Las Vegas, Nev, USA, March-April 2008.
[11] K. Furuya, S. Sakauchi, and A. Kataoka, “Speech dereverberation by combining MINT-based blind deconvolution and modified spectral subtraction,” in Proc. ICASSP, May 2006, vol. 1, pp. 813–816.
[12] Lin, X., Gaubitch, N.D., Naylor, P.A.: Blind speech dereverberation in the presence of common acoustical zeros. In: Proc. European Signal Processing Conf. (EUSIPCO), pp. 389–393. Pozna´n, Poland (2007)
[13] K. Kumatani, L. Lu, J. McDonough, A. Ghoshal, and D. Klakow,
“Maximum negentropy beamforming with superdirectivity,” in Proc. Eusipco,
Aalborg, Denmark, 2010.
[14] M. Dahl and I. Claesson, “Acoustic noise and echo canceling with microphone array,” IEEE Trans. Vehic. Technol., accepted for publication. [15] D.H Johnson and D.E Dudgeon, Array Signal Processing, Prentice Hall, Englewood Cliffs, NJ, 1993.
[16] S. Gannot, D. Burshtein, and E. Weinstein, “Signal enhancement using
beamforming and nonstationarity with application to speech,” IEEE Trans. Signal Processing, vol. 49, pp. 1614–1626, Aug. 2001.
[17] Y. H. Chen and C. T. Chiang, “Adaptive beamforming using the constrained Kalman Filter,” IEEE Transactions on Antennas and Propagation, vol. 41, no. 11, pp. 1576–1580, 1993.
[18] 朱育成,”使用卡曼濾波器追蹤參考訊號之適應性語音純化波束形成
器”,交大電控碩士論文,Sept 2011
[19] Recommendation ITU-T P.862, Perceptual Evaluation of Speech Quality (PESQ), An Objective Method for End-toEnd Speech Quality Assessment of Narrowband Telephone Networks and Speech Codecs, Int’l Telecommunication Union, Feb. 2001.
[20] ] A. Rix, J. Beerends, M. Hollier, and A. Hekstra, “Perceptual evaluation of speech quality (PESQ)-A new method for speech quality assessment of telephone networks and codecs,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2001, vol. 2, pp. 749–752.
[21]“Methods for subjective determination of transmission quality,”
Recommendation P.800, International Telecommunications Union (ITU-T), Feb. 1996.