• 沒有找到結果。

語音強化與立體聲迴聲消除於智慧型電視之應用

N/A
N/A
Protected

Academic year: 2021

Share "語音強化與立體聲迴聲消除於智慧型電視之應用"

Copied!
80
0
0

加載中.... (立即查看全文)

全文

(1)

國 立 交 通 大 學

工學院聲音與音樂創意科技

碩士學位學程

碩 士 論 文

語音強化與立體聲迴聲消除於智慧型

電視之應用

Speech Enhancement and

Stereophonic Acoustic Echo Cancellation

for Voice Interface of Smart TV

研 究 生:劉 淵 瀚

指導教授:胡 竹 生 博士

(2)

語音強化與立體聲迴聲消除

於智慧型電視之應用

Speech Enhancement and Stereophonic Acoustic Echo

Cancellation for Voice Interface of Smart TV

研 究 生:劉 淵 瀚

Student : Yuan-Han Liu

指導教授:胡 竹 生 博士

Advisor : Jwu-Sheng Hu

國立交通大學

工學院聲音與音樂創意科技碩士學位學程

碩士論文

A Thesis

Submitted to Master Program of Sound and Music Innovative Technologies

College of Engineering

National Chiao Tung University

in partial Fulfillment of the Requirements

for the Degree of Master

in

Engineering

October 2013

Hsinchu, Taiwan, Republic of China

(3)

I

語音強化與立體聲迴聲消除

於智慧型電視之應用

研 究 生:劉 淵 瀚

指 導教 授:胡 竹 生 博士

國立交通大學工學院聲音與音樂創意科技碩士學位學程

摘 要

本論文提出一套利用麥克風陣列結合適應性空間濾波器及聲學迴聲消除的方法進 行語音強化。智慧型電視的興起,使遠距語音訊號處理應用再度受到重視,例如語音命 令控制和視訊會議都屬於遠距語音的應用,利用這些功能的同時第一個面對的問題即是 如何抑制電視播放的聲音、迴聲和環境噪音對目標聲源之影響,這將是語音介面是否能 夠成功運用於智慧型電視的關鍵。 本論文設計一套能消除立體聲迴聲並且抑制干擾源和剩餘迴聲之適應性波束形成 器。藉由實際智慧型電視的環境配置下進行實驗模擬,麥克風收到訊號分別經過聲學迴 聲消除處理後在通過最小方差無失真響應的波束形成器,配合適應性噪音消除達到語音 強化的效果;其中空間前處理和噪音估測所需的角度資訊,事先運用轉移函式比值法求 得目標聲源在空間中相對轉移函式。

(4)

II

Speech Enhancement and Stereophonic Acoustic Echo

Cancellation for Voice Interface of Smart TV

Student : Yuan-Han Liu

Advisor : Prof. Jwu-Sheng Hu

Master Program of Sound and Music Innovative Technologies

National Chiao Tung University

ABSTRACT

An approach proposed in this thesis combines adaptive spatial filtering of microphone array and acoustic echo cancellation for speech enhancement. The growing trend of smart TV users has reintroduced the value of using long distance speech signal process application again. For example, voice control and video conference both are long distance speech applications. When you use those applications, the one of the problems you may encounter is how to minimize the TV sound, echo, and environment noise all of which affects the target source. This issue is the key to whether or not smart TV’s speech interface will be successful.

This thesis presents a stereophonic acoustic echo cancellation (SAEC) after using an adaptive beamformer for noise reduction and residue echo cancellation. In the real smart TV environment setting, this thesis simulated and experiment with, microphones which received voice signals that passed through a stereophonic acoustic echo cancellation process and then a minimum variance distortionless response (MVDR) beamformer combine adaptive noise cancellation (ANC) for speech enhancement. Spatially pre-process and noise estimate both need to know the directional information between target source and microphones in any given space. To find out this data, one must calculate relative transfer function (RTF) using the transfer function ratio (TFR) method.

(5)

III

誌 謝

本論文順利的完成同時碩士生涯也劃下句點,給自己在學習的道路上立下一個新的 里程碑。首先感謝胡竹生老師的循循善誘和諄諄教誨,教會了我成為工程師以及做研究 的態度,用嚴謹的思考解決問題用鍥而不捨的精神找出解答;也感謝老師在研究上給予 的幫助,提供一個充滿能量和資源充沛的研究環境,讓我有幸在學生涯中得到這些難得 的經驗。 兩年一眨眼就過去了,在實驗室的日子就在家裡一樣溫馨,不論實驗室聚餐大家開 心吃飯喝酒或是一般日子去學生餐廳閒話家常都是很美好的回憶。最感謝的一定非明唐 學長莫屬,在研究上碰到的瓶頸或是問題經過開導如同得到一盞明燈般有方向繼續進行 下去。感謝碩士論文的內容中很多問題一起討論的耕維學長細心的解答或幫助,每天都 會話家常的昭男學長希望畢業後還能繼續保持我們的動態,每天都很開心的阿吉學長無 論什麼問題都能細心傾聽給出中肯的建議,沉穩的男人勁源學長多次幫助過我,兼具鐵 漢及柔情於一身的 Judo 學長答應要罩我,對甜點非常堅持的阿法學長分享手工製作的 蛋糕給我吃。也感謝鳴哥在一進交大什麼都不懂的時候給我的幫助告訴我很多學程及實 驗室的資訊,大學就認識的翰哥食量驚人講話中肯,搞笑幽默的建廷中文超好的 Daniel 很開心認識你們。不論音樂體育都熟悉也是個日韓通的期元開心當你半年的室友,好奇 可愛的哲宇有你可以討論聲音處理上的程式真好,搞笑但專業的健身教練阿文在我眼中 你是個毅力非凡的人,我的地下室好夥伴鳴遠在你身上我學會強者的謙虛低調,認真的 佑軒謝謝你每次無怨無悔的幫忙我做些雜工,帥氣的鬍子、酷酷的小樂、和藹的小綜、 老闆樣的凱翔有你們這些學弟點綴了我碩士生活中美好記憶。聲音組明日之星知琬和錢 丹、實驗室新活寶 Winnie、嘴上功夫一流的哈魯,還有來不及認識的你希望能在未來成 為實驗室的驕傲。最後在碩士生涯中遇見的好朋友罐頭,未來在台北奮鬥工作的日子裡 還能時常保持聯繫也不會忘了我們這兩年的運動與擔任實驗室管理員的時光;在研究所 能遇到足智多謀的大夢很開心一起修課、玩樂、練團、暢聊、出遊、甚至到寫論文口試 彼此形同手足同甘共苦有你真好,讓我的兩年時光增色不少。 感謝善於交際的王可柔、吉他之神許峻豪、沉穩內斂的蔡坤廷、成熟幽默的許大哥、 攝影好手黃品睿、漫畫天才燴飯、歌王小高、甜美的小容、女神 EG、凡事講求專業的 蔡鈺群、老實的鄭中皓、有學姊風範的欣儀,開心和你們一起吃飯聊天逛街上課,不會

(6)

IV 忘記 WOCMAT 研討會和 COLCK 樂團演出的一同付出的點點滴滴,真的很開心能在聲 音學程遇到這群對聲音有相同興趣的朋友;也感謝從大學一直陪伴我到研究所的朋友, 分享生活中一切的翊綺、和每個人都麻吉的阿哲、又帥又多金的大鴻、憨厚又甜蜜的嘎 銘和無話不聊的小玥讓我在一個新的環境中還能有故友相伴相助真是三生有幸。感謝因 調酒認識的一群愛好者給我很多歡樂的時光,特別感謝我的啟蒙者小莫,交大林志玲小 彥,跳舞女王喬安娜因酒緣成為了好友。這兩年裡感謝 Jen 的交換語言讓我更了解美國 希望妳中文越來越好,樂天的 Maiko 也希望在台灣生活多彩多姿,有趣的 MM 很開心 在研究所又能與妳再度成為同學,感謝交通大學多給我了兩年時間讓我當學生的機會, 校園生活最後能在此劃下句點已心滿意足。 最後感謝我背後默默支持我的父母和家人,爸爸劉岳冬、媽媽戴錫卿和哥哥劉淵浩, 提供給我安穩幸福的依靠,不論發生什麼事都能給予我支持與鼓勵,讓我在快樂中成長 自由中學習,也給了我很多人生的啟發與開導,我愛你們。 謹以此論文獻給我生命中最摯愛的父母

(7)

V

目 錄

摘 要 ... I ABSTRACT ... II 誌 謝 ... III 圖 目 錄 ... VI 第一章 緒論 ... 1 1.1 研究動機 ... 1 1.2 研究目標 ... 1 1.3 相關文獻探討 ... 2 1.4 論文架構 ... 3 第二章 適應性陣列訊號處理 ... 4 2.1 陣列訊號處理 ... 4 2.2 適應性訊號處理 ... 9 2.3 適應性空間濾波器 ... 16 第三章 系統架構與相關技術 ... 24 3.1 應用說明與系統架構 ... 24 3.2 轉移函式比值演算法 ... 27 3.3 立體聲迴聲消除演算法 ... 29 第四章 實驗結果與分析 ... 32 4.1 AEC 效能評估分析 ... 34 4.2 SAEC 結合 Beamformer 效能評估 ... 59 第五章 結論 ... 67 5.1 研究成果 ... 67 5.2 未來展望 ... 67 參考文獻 ... 68

(8)

VI

圖 目錄

圖 2- 1 陣列模型 ... 4 圖 2- 2 空間濾波器架構 ... 6 圖 2- 3 均勻線性陣列空間響應(M=8,frequency=3450 Hz,d=0.05 m) ... 7 圖 2- 4 Grating Lobe 示意圖 ... 8 圖 2- 5 適應性濾波器處理架構 ... 9 圖 2- 6 空間聲學反射產生的聲學迴聲 ... 9 圖 2- 7 AEC 主體架構 ... 10 圖 2- 8 維納濾波器架構 ... 11 圖 2- 9 LMS 運算架構 ... 13

圖 2- 10 Wiener Filter in Frequency Domain... 14

圖 2- 11 Matrix processor ... 17 圖 2- 12 麥克風與聲源方向關係圖 ... 18 圖 2- 13 MVDR 輸入訊號 ... 18 圖 2- 14 MVDR Beam Patten ... 18 圖 2- 15 MVDR 出輸訊號 ... 19 圖 2- 16 MVDR 結合雜訊估測 ... 20 圖 2- 17 MVDR+Noise Estimate 輸入訊號... 21 圖 2- 18 FBF Beam Pattern ... 22 圖 2- 19 BM Beam Pattern ... 22 圖 2- 20 經過 MVDR 處理之YFBF訊號 ... 22 圖 2- 21 經過 MVDR+Noise Estimate 處理之輸出Y訊號 ... 23 圖 3- 1 AEC 結合 BF 架構圖 ... 24 圖 3- 2 AEC+BF 架構圖 ... 25 圖 3- 3 AEC+BF+TFR 架構圖 ... 25 圖 3- 4 智慧型電視應用之系統架構圖 ... 26 圖 3- 5 單聲源系統模型 ... 27 圖 3- 6 SAEC 架構圖 ... 29 圖 3- 7 SAEC Weiner 架構圖 ... 31 圖 4- 1 類比麥克風陣列裝置 ... 32 圖 4- 2 錄製器材與裝置 ... 33 圖 4- 3 目標聲源與干擾源擺放位置 ... 33 圖 4- 4 麥克風與單聲道喇叭空間配置圖 ... 34 圖 4- 5 模擬之 RIR ... 35 圖 4- 6 RIR 說明圖 ... 36

(9)

VII

圖 4- 8 FDLMS learning curve during single-talk ... 39

圖 4- 9 FDWiener learning curve during single-talk ... 40

圖 4- 10 FDWiener learning curve during double-talk ... 40

圖 4- 11 比較各演算法求得之 RIR ... 41

圖 4- 12 比較各演算法迴聲消除成果 ... 42

圖 4- 13 空間配置與響應 ... 43

圖 4- 14 AEC Coefficient error norm ... 43

圖 4- 15 比較估測和模擬之 RIR ... 44 圖 4- 16 模擬 MSE 結果 ... 45 圖 4- 17 真實 MSE 結果 ... 45 圖 4- 18 比較時域和頻域運算真實 RIR ... 45 圖 4- 19 模擬 Double-Talk 輸入訊號 ... 47 圖 4- 20 模擬 Double-Talk 結果 ... 47 圖 4- 21 真實 Double-Talk 輸入訊號 ... 48 圖 4- 22 真實 Double-Talk 結果 ... 48

圖 4- 23 PESQ Improvement of AEC ... 49

圖 4- 24 麥克風與雙聲道喇叭空間配置圖 ... 50

圖 4- 25 喇叭(Left)和麥克風(Mic1)之間的 Cross-Correlation 關係 ... 51

圖 4- 26 左右聲道對各麥克風之間的延遲關係圖 ... 52

圖 4- 27 SAEC 在模擬環境之 MSE ... 53

圖 4- 28 SAEC 在真實環境之 MSE ... 53

圖 4- 29 SAEC Coefficient error norm ... 54

圖 4- 30 不同演算法對各聲道估測的 RIR ... 55 圖 4- 31 真實環境左右聲道之 RIR ... 56 圖 4- 32 模擬環境參考訊號對輸出的影響 ... 58 圖 4- 33 實際環境及參考訊號對輸出的影響 ... 58 圖 4- 34 Beamformer SIRI ... 60 圖 4- 35 Beamformer SERI ... 61

圖 4- 36 Beamformer interference suppression ... 61

圖 4- 37 Beamformer echo suppression ... 62

圖 4- 38 System interference and echo suppression ... 63

圖 4- 39 Log spectrum distortion (LSD) ... 64

圖 4- 40 PESQ improvement of system ... 65

圖 4- 41 origenal speech ... 65

(10)

VIII

表 目錄

表 2- 1 MVDR 模擬使用參數 ... 18

表 4- 1 RIR 環境設定 ... 34

表 4- 2 各演算法對 Filter size 的 ERLE 評估 ... 37

表 4- 3 各演算法對時間延遲的 ERLE 評估 ... 38 表 4- 4 模擬真實之 RIR 環境設定 ... 42 表 4- 5 模擬與實際之 ERLE 數值 ... 46 表 4- 6 模擬單聲道回聲消除(Double Talk) ... 48 表 4- 7 實際單聲道回聲消除(Double Talk) ... 48 表 4- 8 SAEC 之 RIR 環境設定 ... 50 表 4- 9 SAEC 實驗參數 ... 50 表 4- 10 左右聲道對個麥克風之間的延遲關係 ... 51 表 4- 11 輸入音檔混合情況 ... 61

(11)

1

第一章 緒論

1.1

研究動機

行動通訊數位化之後,由單純的語音通話大量且快速的擴展成智慧型手機和平板電 腦等行動通訊產品的發展,電視數位化成為必然趨勢,而此時智慧型電視(Smart TV)也 就此誕生。Smart TV 已經不在是只有單向傳輸顯示器之功能,未來應用中會發展出互動 平台而在眾多功能內語音命令控制和視訊會議等這些功能是需要先透過遠距離語音訊 號處理,提供純化過的語音給遠端通訊者或是語音辨識器做處理。 Smart TV 語音命令控制中噪音源主要來至於電視所播放出來的聲音,於是希望提出 解決且排除此噪音之方法,期望留下目標語音訊號壓低噪音源的影響達到純化效果。消 除噪音源需先知其特性,在 Smart TV 應用中噪音分為兩類:第一類為電視喇叭播放出 之聲音稱為迴聲,已知參考訊號的情形將可以運用聲學迴聲消除演算法降低語音中迴聲 成分;第二類為環境中存在的方向性干擾源,可以針對合理範圍需求的環境位置設計空 間濾波器,由空間上的特徵來增加語音訊號的訊噪比,達到語音純化的效果。 在遠距離目標聲源可以假設為遠場平面波的傳遞方式處理,當聲源和麥克風距離不 夠遠時或接收端有失配現象,必須對此傳統空間濾波器加以改良,在此利用轉移函式比 值演算法作為聲源和麥克風之間系統鑑別重要方法,找出兩者之間的相對轉移函式導入 最小方差無失真響應波束型成器作為空間濾波器之演算法。

1.2

研究目標

本論文研究目標如下: 1. 探討適應性訊號處理以及研究雙聲道迴聲消除演算法。 2. 探討空間濾波器之演算法。 3. 使用轉移函式比值演算法完成系統鑑別改進空間濾波器。

(12)

2

1.3

相關文獻探討

智慧型電視在語音介面是否成功運用的關鍵在於如何抑制電視播放的聲音、迴聲與 環境噪音對目標聲源之影響。目前技術所討論的語音純化應用於智慧型電視方法 J. Park et al.[1],利用遙控器和智慧型電視裝設麥克風分別裝配主要及次要麥克風用於接收目標 聲源及估測環境中之干擾訊號進行抑制,前提是主要麥克風和使用者間距離需近距操作 方能有良好的語音強化表現。而本論文提出具有空間特徵抑制電視播放聲源之方法,需 要具有適應性及陣列訊號處理[2][3]觀念;另外使用聲學迴聲消除法,降低由喇叭播放 的聲音對語音品質的影響。本論文利用頻域維納濾波器的架構[4][5]設計 AEC,而在 AEC 的運算中時間延遲問題[6]是很實際且重要的,絕對要避免參考訊號與接收訊號兩者時間 延遲大於 FIR 長度,否則將會無法準確估測出迴聲路徑導致消除迴聲失效。因此透過相 關係數方法找出兩訊號間延遲來解決此問題。 麥克風陣列可達到空間濾波的功能,一般而言稱之為波束形成器 Beamformer[7], Beamformer 用於麥克風陣列早用於第二次世界大戰,接著慢慢衍生出諸如 Fourier Beamformer 、 LCMV[8] 、 MVDR(Minimum Variance Distortionless Response Beamformer)[9][10]、GSC (Generalized Sidelaobe Canceller) [11][12]、TF-GSC (Transfer Function-GSC)[13]、DTF-GSC(Dual-source TF-GSC)[14][15]等。在各種 Beamformer 中 最簡單實現的技術為 Fourier Beamformer,但是它需要較大的麥克風陣列才可以達到較 好的效果,這是因為越多的麥克風可以形成較尖銳的 Beam Pattern,進而減少其他非聲 源角度之干擾源影響。這樣的缺點會造成為了增加效果而必須一直擴大麥克風陣列的體 積,Capon[9]提出了一種可以自動消除干擾源的 MVDR,它除了可以將所量測出之聲源 角度作完整聲音之接收,並且還可讓非聲源角度之聲音接收達到最低,相對於 Fourier Beamformer 增加了抑制干擾源的效果。另外 Frost[8]提出 LCMV 的方法由,這個方法需 先計算出目標聲源的角度以及干擾源的角度,Beamformer 的技術針對目標聲源收音並 且濾除其他方向之雜訊,則此系統將會變得更為實用,缺點是計算量提高,優點是提供 固定的方向對干擾進行壓抑。Griffiths 和 Jim[11]根據 Frost 的演算法修改成 GSC 架構。 GSC 架構分成三個部分:第一部分固定波束形成(Fixed Beamfomer, FBF)目的為滿足設 計的限制。第二個部分阻擋陣列(Blocking Matrix, BM)目的為產生只有包含雜訊的訊號。 第三個部分沒有限制的 LMS 演算法,主要的目的是消除固定波束形成(FBF)的雜訊。 LCMV 和 GSC 方法經 Buckley [12]證明是具有等價的效果,而 GSC 把約束問題轉為非

(13)

3 約束型問題簡化了運算量。Griffiths 和 Jim 的演算法的缺點為假設麥克風陣列與聲源的 關係只有簡單的時間差,因此 Sharon Gannot[13]於 2001 年提出以估測轉移函式比值取 代轉移函式,由於轉移函式不易取得但相對之間比值關係是較容易求得,因此麥克風陣 列與目標聲源之間的關係取代單純只有假設時間差的關係。 相對轉移函式在多聲道免提式通訊裝置應用中為重要的演算法,由於它可以將系統 鑑別出麥克風與目標聲源間的關係,分別有 O. Shalvi[16]提出利用非穩態訊號和 I. Cohen [17]提出利用語音訊號求出 RTF 的估測,經系統鑑別後的資訊可以應用於音源分離[18] 或是空間濾波器的設計[13][14]。最後在 AEC 的設計上為了符合真實電視雙聲道的不同 也利用立體聲迴聲消除(Stereophonic Acoustic Echo Cancellation, SAEC)演算法[21] [29] [30][31]來實現本論文中迴聲消除架構。

1.4

論文架構

本論文所使用的原理及技術分成兩大部份,第一部份適應性訊號處理,其中 AEC 理論是適應性處理中很經典的應用,不僅介紹時域 LMS 基本演算法基礎,更研究及實 現頻域維納濾波器,甚至為了符合智慧型電視應用將單聲道迴聲消除推廣為利用立體聲 迴聲消除演算法。第二部分是說明本論文所使用的陣列訊號處理,選用的適應性空間濾 波器為 MVDR 波束形成器結合適應性雜訊消除演算法。最後將轉移函式比值演算法鑑 別出目標聲源與麥克風陣列間的相對關係,用來改善 MVDR 的效能。論文最後會呈現 系統各項功能結果透過客觀評估標準測試及分析並對研究成果作出結論。論文章節架構 如下: 第二章、適應性陣列訊號處理 第三章、系統架構與相關技術介紹 第四章、實驗結果與分析 第五章、結論

(14)

4

第二章 適應性陣列訊號處理

2.1

陣列訊號處理

數個感應器排成特定的形狀,接收來自空間中所傳遞的訊號,並經過訊號處理,此 技術稱為陣列訊號處理。在陣列訊號處理領域中,依照其目的不同,大致可以將其研究 領域分為兩大類,第一種類的研究著重於估測訊號的數量或在空間中的方位,此類研究 一般來說稱為到達角估測(Direction of arrival estimation)。而另一種類的研究則是利用 訊號的空間關係,希望能夠對不同方向的訊號作出不同的增益,以達到空間濾波的效果, 藉以分離空間中不同方向聲源的訊號,這一類的研究一般稱之為波束形成(Beamforming), 也就是一種空間濾波器(Spatial Filter)。

在陣列訊號處理理論中,基於兩個假設 1. 窄頻訊號(Narrow band signal) 2. 遠場平面波(Far field plane wave)

假設一陣列感應器擺置如圖 2-1 所示,s(t)為原始訊號,n(t)為雜訊

(15)

5 則 M 個感應器輸出可寫成下列向量形式 1 1( ) 1( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) c c M c x j c j t x j M c M x t e n t t s t e x t n t e r t t                                 κ κ x a κ n (2.1.1) 2 c c c k c      kc稱為波數(Wavenumber)而c為波長,c 為波速 m x 接收器位置坐標 m1, 2,....,M (sin , cos )   κ 單位向量 ( )

a κ 稱為陣列拓樸向量(Array Manifold Vector or Steering Vector),期中包 含了訊號傳遞到感應器之間時間關係

( ) ( ) j ct

r ts t e 聲源窄頻波形(Narrowband Source Waveform)

不同的陣列型態會造成不同的空間響應,並會決定陣列的空間解析度,舉例來說, 一維的陣列只能解析一維的空間維度,而二維的陣列就可解析二維的空間維度,論文中 所實現的陣列型態屬於一維陣列的一部分,因此本章節將介紹屬一維陣列的均勻線性陣 列。

均勻線性陣列(Uniform Linear Array),是指一組陣列感應器以線性方式排列,並 且感應器之間的距離相等,圖 2-1 其實就是表示一個均勻線性陣列。若以第一個感應器 當 作 參 考 點 , 每 個 感 應 器 對 於 訊 號 源 相 對 角 度 皆 為 θ , 感 應 器 的 坐 標 表 示 為 ( ( 1) , 0 ) m xmd ,波程差表示為xm κ (m1) sind 則第 M 個感應器收到的時間為訊號 到達第一個感應器後延遲

c d M 1  sin ,因此均勻線性陣列的陣列拓樸向量可寫成如 (2.1.2)式,均勻線性陣列的優點是容易實現且公式容易推導,運算量較其它多維陣列 型態低,但缺點為只能對一維空間作解析。 sin ( 1) sin sin ( 1) sin ( ) 1 c c 1 d M d j j jkd j M kd c c e e e e                a (2.1.2) 使用數位訊號處理分析,空間濾波器(Spatial Filter)指的就是將感應器輸出乘上各 自加權值的線性組合,如圖 2-2(a)所示

(16)

6 ( ) r n y n( )

( , )

h

κ

圖 2- 2 空間濾波器架構 因此均勻線性陣列的總輸出可寫成如下形式: * 1 ( ) ( ) ( ) M m m m y n w x nn  

w x (2.1.3) 其中wm是陣列加權係數,* 和分別代表共軛複數和共軛轉置矩陣。假設只有一個目標 聲源的情況,可以得到

( ) ( ) ( ) ( ) ( ) y nw xnwa κ r nw nn (2.1.4) 可以等價為一個線性系統r n( )與y n( )分別為系統的輸入與輸出,圖 2-2(b)所示。而此陣

列響應方程式w a κ ( )稱之為 Array Pattern 或 Beam Pattern 表示如下

 

*  1 sin 1 ( ) c M jk m d m m p   w e    w a κ

(2.1.5) 若將以均勻加權線性陣列(Uniformly Weighted Linear Arrays)為例,均勻加權的權重為

1 , 1, 2, , m w m M M   (2.1.6) 1( ) x n xM( )n * 1 w * M w

+

2( ) x n * 2 w * 1 ( ) ( ) M m m m y n w x n  

source (a) 線性權重組合 (b) 等價 SISO 系統

(17)

7 寫為矩陣型式 1 Mw 1 (2.1.7) 則p

 

 可化簡成如下所示:

 

1sin sin  1 sin

2 sin 1 sin sin 1 1 1 1 2 1 sin sin 2 c c c c c k M d jk Md M j jk m d jk d m c k Md e p e e k d M M e M                       

(2.1.8)

若將p

 

 取 Magnitude 可得其 Beam Pattern,如圖 2-3 所示。

從圖 2-3 可看出,不同角度入射的訊號會有不同的增益,而角度和增益的關係是由陣列 的加權值所決定,因此波束形成就可達到空間濾波的效果,而在波束形成理論中,就是 用適當的方法去計算出加權值,將訊號作空間濾波,就可得到想要的訊號。 圖 2- 3 均勻線性陣列空間響應(M=8,frequency=3450 Hz,d=0.05 m) 將(2.1.8)式取絕對值可得

 

1 sin 2 sin sin sin 2 c c k Md p k d M                 (2.1.9) 由(2.1.9)式可以看出 p

 

 對 sinθ是一週期為 d c的週期性的函式,關係圖如圖 2-4 所示。

(18)

8 圖 2- 4 Grating Lobe 示意圖 在均勻線性陣列中,預期訊號的角度在  90  間,而在這角度之間我們希望 Main lobe 只會出現一次,如果 Main lobe 出現兩次以上,則會造成非預期的訊號被接收近來。從 圖 2-4 得知,Grating Lobe 發生在 sinθ=

d c的時候,因此若讓 sin 90 1 c d   ,則可 避免在  90

 間出現兩個以上的 Main lobe。在空間的取樣也需要遵守 Nyquist spatial sampling criterion 避免 Spatial aliasing 發生,取樣頻率必須是訊號頻率的兩倍以上。而通 常我們都會選取 d

2 c

,可以同時避免 Grating Lobe 和 Spatial aliasing 的問題。麥克

風陣列的孔距(Aperture)會影響波束寬度(Beam Width, BW) 2 c BW Md   ,因此孔距與波束 寬度的關係為反比關係ApertureBW,可得麥克風數目越多產生越大的孔距和越 窄的波束寬度獲得較高的解析度。

(19)

9

2.2

適應性訊號處理

一般而言,濾波器的係數設計出來後都是固定的,並不會自動的變動。而適應性濾 波器指的是能根據輸入信號,用訊號處理的技巧來適應性地調整濾波器係數,讓濾波效 果更能適應現在環境,以完成某些特定的需要。 圖 2- 5 適應性濾波器處理架構 適應性濾波器處理架構圖如圖 2-5 所示,當訊號(x)輸入適應性濾波器處理之後,輸 出訊號(y)與希望達成的訊號(d)之間的差產生誤差訊號(e),將誤差訊號代入適應性演算 法做為調整適應性濾波器係數重要資訊,如此經由誤差訊號及適應性演算法不斷的調整 適應性濾波器的係數,係數會不斷的變動,最後達到某個穩定的值,此時系統輸出訊號 與希望達成的訊號就會非常接近。

從通訊迴聲產生原因看可分為聲學迴聲(Acoustic Echo)和線路迴聲(Line Echo),相 對應的消除技術稱為聲學迴聲消除(Acoustic Echo Cancellation, AEC)和線路迴聲消除 (Line Echo Cancellation, LEC),而本論文所會探討的問題是應用在免持或是視訊會議的 裝 置,麥 克風 接受 到 經由 喇叭 所 發 出的聲 音 引起的 聲學迴 聲 的系統稱之 為 LEM (loudspeaker-enclosure-microphone) system,如圖 2-6 即為此系統,當雙方通話的情況下 speech 1 透過喇叭播放同時會讓對方麥克風接收到,發生這種迴授情況對於語音品質來 說不好的,因此將會介紹如何利用適應性訊號處理的方法來解決聲學迴聲的問題。

(20)

10

關於如何解決 AEC 會介紹維納解(Wiener Solution)以及計算量較小的最小平均平方 法(Least-Mean-Square, LMS)。圖 2-7 為 AEC 的主體,透過估測喇叭聲源與麥克風收到 訊號之間的關係來達到消除迴聲的功能。換句話說,利用喇叭聲源與麥克風訊號就可以 估測出迴聲路徑(echo path)。x(n)為喇叭欲播放的聲源、W 為真實的迴聲路徑、v(n)環境 雜音、s(n)與 y(n)分別為目標聲源與麥克風收到的訊號。Wˆ 即為估測的迴聲路徑。 圖 2- 7 AEC 主體架構 透過維納濾波器估測迴聲路徑,假設估測的迴聲路徑為一 FIR 濾波器Wˆ 0 1 1 ˆ T N [w ,w ,...,w ] W = (2.2.1) 其中 N 為 FIR 濾波器長度。喇叭欲播出訊號 x(n)為往前 N 筆的訊號向量

( ), ( 1),..., ( 1)

T (n) x n x nx n N x = (2.2.2) 因此濾波器的輸出可寫成Wˆ 與 x(n)的內積 ˆ ˆ( ) ( ) y nWx n (2.2.3) 估測迴聲與麥克風訊號的誤差 ˆ ( ) ( ) ( ) e ny ny n (2.2.4) 並且維納濾波器的最佳化標準為 Minimum mean square error(MMSE),定義目標函數最 小值(

ˆ ˆ

min ( )

(21)

11 2 2 2 ˆ ( ) {| ( ) | } { ( ) ( )} ˆ ˆ {( ( ) ( ))( ( ) ( )) } ˆ ˆ {( ( ) ( ))( ( ) ( )) } ˆ ˆ ˆ ˆ { ( )} { ( ) ( ) } { ( ) ( )} { ( ) ( ) } ˆ ˆ ˆ ˆ { ( )} yx xy xx J W E e n E e n e n E y n y n y n y n E y n W n y n W n E y n E y n n W E W n y n E W n n W E y n W W W W                           R H H x x x x x x r r (2.2.5) 其中RxxE{ ( )x n xH( )}n 為訊號 x(n)的自相關矩陣(Auto-correlation matrix ), { ( ) H( )} xyE x n y n r 為訊號 x(n)與 y(n)的互相關向量(Cross-correlation vector)。 求 ˆ min ( ) W J n 的解,由(2.2.5)式對Wˆ 微分求極值方法可得 2 ˆ ˆ 2 ( ) {| ( ) | } ˆ ˆ ˆ ˆ { ( )} ˆ 2 2 0 W W W yx xy xx xy xx opt J n E e n E y n W W W W W               R R r r r 最佳解Wˆopt即為維納濾波器的解 1 ˆ xy opt xx xy xx W   R r = R r (2.2.6) 維納濾波器架構如下圖 2- 8 所示 圖 2- 8 維納濾波器架構

想要實現維納濾波器可以使用 Sample Matrix Inversion, SMI 方法透過時間平均得到

1 xxR 和r 的估計值使得 FIR 濾波器的解為最佳解,由於 FIR 濾波器的係數通常長度的xy 挑選是因應系統中延遲速度和迴聲路徑響應所決定,如果 FIR 長度太短很容易因為些微 延遲而導致無法算出正確的Wˆ,FIR 長度為 M 時R 為xx MM 矩陣此時計算R 的時候xx1 會出現相當龐大的運算量,所以接下來介紹計算量較小且較容易實現的 Time Domain

(22)

12

LMS 演算法以及 Frequency Domain Wiener Filter 演算法。

2.2.1 Least-Mean-Square Adaptive Filter in Time Domain

同樣要解圖 2-7 AEC 架構下的問題,如果要在時域實現最佳解的維納濾波器是很困 難的。因此,Widrow 和 Hoff [19]提出了另一種可疊代的維納 FIR 濾波器實現方法為 LMS 演算法,LMS 指的是找出一組權重Wˆ 使得誤差平方項最小。

目標函數如(2.2.7)式所示

 

2

ˆ ˆ ˆ ˆ ˆ ˆ

min min {| ( ) | } min {( ( ) ( ))( ( ) ( )) }

W W W J WE e nE y nWH n y nWH nx x (2.2.7) (2.2.7)式的意義就是找出一組Wˆ 使誤差平方項最小,而Wˆ 的找法則需用 Steepest-Descend Method,如(2.2.8)式, ˆ( 1) ˆ( ) , 0 W n W n p n (2.2.8) 其中(2.2.8)式意義為從 ˆ ( )W n 出發,並前進p的距離,為一個比重稱為步長(Step Size)。 而 p 的選取必須從(2.2.7)式開始推導,將(2.2.7)式展開可得

 

ˆ 2 ˆ ˆ ˆ ˆ { ( )} yx ( ) ( ) xy ( ) xx ( ) J WE y nr W nWn rW nR W n (2.2.9) 為了找一組Wˆ 使J

 

w 最小,對(2.2.9)式取Wˆ得

 

ˆ ˆ 2 xy 2 xx ˆ( ) WJ W W n    rR (2.2.10) 因此,為了讓 ˆ ( )W n 往J

 

w 最低處的方向與強度前進,我們取

 

ˆ ˆ 2 xy 2 xx ˆ( ) W p  J WrR W n (2.2.11) 故(2-7)式可寫為 ˆ( 1) ˆ( ) 2 ˆ( ) 0 xy xx W n W n  rR W n n (2.2.12) 在實做上,r 和xy Rxx估計值可用離散形式近似於瞬間值: ( ) H( ), ( ) ( ) xyn y n xxn n H x x x r R (2.2.13) 所以(2.2.13)式代入(2.2.12)式可寫為: ˆ( 1) ˆ( ) 2 ( ) ( ) ( ) ( ) ˆ( ) ˆ( ) 2 ( ) ( ) ( ) ˆ( ) 0 H H W n W n n y n n n W n W n n y n n W n n            H H x x x x x (2.2.14)

(23)

13 因此, LMS Algorithm 可整理如下: Filter out : ˆ ˆ( ) ( ) ( ) y nWn x n (2.2.15) Error function: ˆ ( ) ( ) ( ) e ny ny n (2.2.16) Update weight: ˆ( 1) ˆ( ) 2 ( ) ( ) 0 W n W n  x n en n (2.2.17) 圖 2- 9 LMS 運算架構 圖 2- 9 LMS 運算架構利用訊號流程圖的形式呈現,在 LMS 演算法中,為了確保 其收斂,μ的範圍必須為 max 1 0     ,其中max表示為自相關矩陣Rxx的最大特徵值。 然而在實際應用中,Rxx的具體值是不知道的,參數的值也需要試探性的選擇。若取 值小,能保證收斂,但需要注意的是如果值取的過小時,收斂速度將會非常慢;若取 值大,可以提高收斂速度,但取值過大時會以訊號變動過快失真為代價。 在實際的應用中使用時域 LMS 解決 AEC 的問題會遇到的困難有收斂速度不夠快的 問題,因此,也有在頻域運算根據數位訊號處理理論可以透過重疊儲存相加方法當 50% 重疊時運算效率達到最高的優點來解決 AEC 的問題,J. Shynk [20]提出 Fast Block LMS (FBLMS)準確的描述了 Block LMS 算法的頻域實現,本論文利用頻域估測迴聲路徑的方 法在 2.2.2 章節中詳加說明。

(24)

14

2.2.2 Wiener Filter in Frequency Domain

此章節介紹維納濾波器在頻域實現 AEC 的效果,由 F. Yang et al. [21]、J.S. Hu et al. [22]文獻了解到利用維納濾波器在頻域可做各式應用,利用頻域的維納濾波器比起 LMS 和 FBLMS 在環境變異較大的應用中有較優異的效能,因為它能直接利用開迴路的最佳 近似解權重估測不必透過 Steepest-Descend Method 閉迴路逼近最佳解。圖 2- 10 為頻域 維納濾波器的架構圖。

h

FFT

FFT

( )

y n

( ) X

( )

x n

ˆh

e n( ) ( ) Y  ˆ( ) Y  ( ) ( ) XY XX    

LEM

( ) E

IFFT

( ) s n ( ) v n

圖 2- 10 Wiener Filter in Frequency Domain 由圖 2- 10 LEM 環境中麥克風收到訊號的訊號y n( )可以表示為

( ) ( ) ( ) ( )

y nx n  h s nv n (2.2.18) 在此代表的是摺積運算、 ( )x n 代表喇叭播放訊號、h為迴聲路徑或稱為房間脈衝響應

(Room Impulse Response, RIR)v n( )環境雜音和s n( )在 LEM 環境中的目標聲源。接下來

將推導頻域維納濾波器,先將(2.2.18)式兩邊都做傅利葉轉換可得 ( ) ( ) ( ) ( ) ( ) Y   XH  S  V  (2.2.19) 其中 ( ),YX( ), H( ), ( ), SV( ) 分別是 ( ), ( ), , ( ), ( )y n x n h s n v n 的傅利葉轉換。透過頻 域維納濾波器估測迴聲路徑 ˆ ( )h  ,可將濾波器的輸出可寫成 ˆ ( )h  與X( ) 的內積 * ˆ( ) ˆ ( ) ( ) Y  hX  (2.2.20) 其中 ( )X  是喇叭欲播出訊號,* 代表共軛複數。維納濾波器的最佳化標準為 MMSE, 定義目標函數最小值

(25)

15

2 * 2

ˆ( ) ˆ( ) ˆ( ) ˆ

minJ min {| ( ) | } min {| ( )E E E Y ( ) ( ) | }X

          h h h h (2.2.21) 可以經由先前(2.2.6)推導得到(2.2.21)結果為 ( ) ˆ ( ) ( ) XY XX       h (2.2.22)

其中XX( ) 代表 ( )x n 最自己本身的功率頻譜密度 Auto-Power Spectral Density (PSD)且 ( ) XY   代表著y n( )和 ( )x n 之間的 Cross-PSD

( ) ( ) ( ) ( ) j XY j xy E x n y n e R e                 

(2.2.23) 想要估計 ˆ ( )h  時需要先得到XY( ) 及XX( ) ,以下為 Cross(Auto)-PSD 的估計 * ( , ) ( 1, ) (1 ) ( , ) ( , ) XY ikXY ikX ik Y ik       (2.2.24) * ( , ) ( 1, ) (1 ) ( , ) ( , ) XX ikXX ikX ik X ik       (2.2.25) 在此參數是一個平滑參數或遺忘因子,用來控制疊代過程的有效記憶;每一個音框 (frame)的指標用i表示,頻率由連續變成離散k 2k N k/ , 

0,1, ,N1

而其中 N 根 據 FFT 的 音 框 大 小 (frame size) 所 決 定 。 當 運 算 環 境 為 廣 義 平 穩 時XY( ,ik) ( 1, ) XX ik   和 可以直接使用 * ( , k) ( , k) X iY i  和X i( ,k)X i*( ,k)當作 PSD 的估測,然而 運算環境為非平穩時就要採用簡單的一階遞迴平均 * ( , k) ( , k) X iY i  和X i( ,k)X i*( ,k) 而得,功用在於可以調整平滑程度取用範圍為 0  1的常數,舉例來說取 0.95 意 味著每二十筆資料做一次平均。經由得知XY( ) XX( ) 可以估計出(2.2.22)式,因此, 經過下列運算就能迴聲消除 ˆ ( ) ( ) ( ) E  Y  Y  (2.2.26) 最後再透過 IFFT 轉換即可求得時域訊號。

(26)

16

2.3

適應性空間濾波器

麥克風陣列可以利用訊號的空間特徵,對空間內的訊號進行濾波處理,這種濾波行 為是運用角度或波數的相關性進行描述。從頻域層面分析空間濾波器類似於 FIR 架構, 利用複數增益組合陣列接收器的輸出,根據訊號的空間相關性對訊號進行增強或抑制。 通常,我們想進行空間濾波,使得從一個或一組特定的角度來的訊號通過有效的組合得 到增強,而使從其它角度到來的雜訊通過相消性的組合得到抑制。 設計陣列,並達到某種性能準則,需要在陣列結構、陣列數目、SNR 以及很多因素 之間進行折衷考量才能完成。適應性空間濾波器應用方式很多種類,最簡單的稱為 Fixed Beamforming,它是一組經過特殊設計的固定增益,不論任何訊號都與此組增益組合, 例如 DAS、Hamming、Hann、Dolph-Chebyshev、LS[3][7]設計出的增益都屬與此種範疇。 而另一種稱為 Adaptive Beamforming,它的增益設計與訊號有關,隨著不同的增益條件 和輸入訊號做適當的調整,例如 LCMV[8]、MVDR[9]、GSC[11]等架構都是此技術的應 用。

2.3.1 Minimum Variance Distortionless Response (MVDR)

Beamformer

在智慧型電視的應用只需要針對一個目標聲源方向增強和未知的干擾方向,所以選 用 MVDR 做為波束形成器是很適合的方法。空間濾波器如圖 2- 2 (a)所示,感應器接收 到的訊 號x n( )中有包 含目 標聲源s n( )和雜 訊n n( ),由 (2.1.1)式 可以 寫成 頻域 快 拍 (Snapshot) ( )  s( )  ( ) X X N (2.3.1) ( ) sX 為目標聲源向量,N( ) 為雜訊向量。其中目標聲源向量可以寫為 ( ) ( ) ( , ) s  R  k X a (2.3.2) ( ) R  為 s(n)的頻域快拍,a( , ) k 是一個波數為 k 的平面波對應的陣列拓樸向量,假設雜 訊是零平均且和目標聲源訊號是非相關。圖 2- 11 所示,利用矩陣操作W( ) 對X( ) 進 行處理。W( ) 的維度為1 M 。我們感興趣的第一個準則稱為無失真準則(Distortionless Criterion),這個準則要求在沒有雜訊的情況下,對於任意R( ) ,有 ( ) ( ) Y  R (2.3.3)

(27)

17 接下來透過模擬了解 MVDR 的效果 ( ) X Y( ) ( )  W 圖 2- 11 Matrix processor 在這個約束條件底下,希望在有雜訊的存在的情況下,使得Y( ) 有最小方差 (minimize variance)。因此, ( ) ( ) n( ) Y  R Y  (2.3.4) 目標是minimize EYn( ) 2。 無失真約束條件由(2.3.3)式可說明Y( ) ( ) s( ) ( ) ( ) ( , ) R  k R( )   W XW a  意味著目標聲源方向維持原始大小,表示式為 ( ) ( , ) 1  k W a (2.3.5) 輸出雜訊的均方值為 2 2 [ ( ) ] [ ( ) ( ) ] [ ( ) ( ) ( ) ( )] ( ) [ ( ) ( )] ( ) ( ) ( ) ( ) n NN E Y E E E                         W N W N N W W N N W W S W (2.3.6) 所以我們得到一個最小化問題 2 min EYn( )  min ( ) NN( ) ( ) w W S W Subject to W( ) ( , ) 1 a k

利用 Lagrange multiplier 的方式求得最佳解,寫出目標函數(cost function)

* ( ) NN( ) ( ) ( ) ( ) ( , ) 1 ( ) ( , ) ( ) 1 FW  SW   W  a k     a  k W   (2.3.7) 對W( ) 取 complex gradient 成為WF 0得 1 ( )= ( ) ( , ) ( ) o     k NN     W a S (2.3.8) 假設SNN( ) 為非奇異性矩陣(Nonsingular Matrix),利用(2.3.5)式約束條件求得 1 1 ( ) ( , )k NN( ) ( , )k           a S a  (2.3.9) 把(2.3.9)式代入(2.3.8)式得到 MVDR 最佳解為 1 1 ( , ) ( ) ( )= ( , ) ( ) ( , ) NN o NN k k k            a S W a S a (2.3.10)

(28)

18

MVDR 波束形成器最初由 Capon 推導而來有時也稱成為 Capon 波束形成器。 藉由模擬環境說明 MVDR

Mic number 4 NFFT 256 samples Overlap 128 samples Input SIR 0 dB

Distance 0.07 m Desired signal (woman) 0° Sample frequency 8k Hz Interference (White Noise) 45°

表 2- 1 MVDR 模擬使用參數 圖 2- 12 麥克風與聲源方向關係圖 圖 2- 13 MVDR 輸入訊號 圖 2- 14 MVDR Beam Patten (b) Narrowband (a) Wideband

(29)

19 圖 2- 15 MVDR 出輸訊號 圖 2- 12 為 0°方向目標聲源和 45°方向的干擾源對麥克風關係圖,模擬出圖 2- 13 輸 入訊號。麥克風陣列訊號處理和數位訊號處理在於取樣上有懸殊的差異,在時間域取樣 能有很大量充沛的資料量使用,而空間域的取樣只能透過麥克風個數,因此,要透過稀 少的空間資料量找出最好的解,藉由 MVDR、LCMV、GSC 等演算法的幫助,對空間 訊號處理得出所期望的結果。在本論文使用的 MVDR 將會利用 SMI(Sample Matrix Inversion)的方式求出 NN1 ( )  S ,而設計 ULA 的a( , ) k 陣列拓樸向量有兩種方式可以獲得, 第一種方式,聲源特性接近遠場平面波時可以使用時間延遲模型如(2.1.2)式,陣列拓樸 向量寫為 sin ( 1) sin ( )  1 ejkdej Mkd a ,把希望設計的角度以及麥克風間距 d 麥 克風個數M代入即可以得到 MVDR 使用的a( , ) k 。第二種方式,當聲源和麥克風距離 較近或是目標聲源不再固定角度上的時候轉移函式比值法作為聲源和麥克風之間系統 鑑別重要方法,找出兩者之間的相對轉移函式(Relative Transfer Function, RTF)。在模擬 環境中使用已經準確的設計目標聲源的來向,因此利用時間延遲模型的a( , ) k 代入 (2.3.10)式經由 MVDR 運算可得圖 2- 14 (a)為各頻帶之表現(b)為根據麥克風間距所對應 波長之表現,在低頻表現較差的原因為波長較長不具方向性的關係。圖 2- 15 經過 MVDR 處理過後之訊號,明顯看出干擾源訊號有受到 MVDR 壓抑。

(30)

20

2.3.2 MVDR 結合雜訊估測

理論上 MVDR 會針對目標聲源以外的訊號會進行壓抑,但在本論文提出的方法中, 1 ( ) NN   S 的更新並不會隨時在更新,而是透過使用前的事先訓練(Training)得知,這樣設 計是因為在使用環境中一定會有某些固定干擾源存在,如電扇和冷氣等,希望透過 MVDR 的空間前處理可以把比較強的干擾訊號先抑制,希望透過結合雜訊估測適應性演 算法可以再針對 MVDR 無法抑制的訊號進行消除。此想法是由 GSC 架構而得,Griffiths 和 Jim[11]根據 Frost 的演算法修改成 GSC 架構。GSC 架構分成三個部分:第一部分 固定波束形成器(Fixed Beamformer, FBF)目的為滿足設計的限制。第二個部分阻擋陣列 (Blocking Matrix, BM)目的為產生只有包含雜訊的訊號。第三個部分利用 NLMS 演算法 消除固定波束形成器輸出雜訊部分稱為適應性雜訊消除器(Adaptive Noise Canceler, ANC)。固定波束形成器設計方式為 2.3.1 章節所介紹的 MVDR,此章節將介紹設計阻擋 陣列以及如何透過適應性雜訊消除器消除環境中的雜訊。圖 2- 16 為 MVDR 結合雜訊 估測架構。 Target Local interference ANC (NLMS) BM -+ FBF (MVDR) y YFBF Y NC Y U 圖 2- 16 MVDR 結合雜訊估測 圖 2- 16 中,麥克風陣列收到的訊號y為多聲道訊號,經過 MVDR 空間前處理後得 到YFBF( ) 可表示為 ( , ) ( ) ( , ) FBF o Y i  W  y i (2.3.11) 其中Wo( ) 為(2.3.10)式 MVDR 求出的結果,每一個音框指標用i表示,雜訊參考訊號 (Noise reference signal)為

( , )i   ( ) ( , ) i

U y (2.3.12) BM 設計方法和 GSC 相似,希望把目標聲源的方向阻擋,讓y經過 BM 後的訊號只剩下

(31)

21 樸向量由(2.1.2)式寫為

1 2

( ) ( ) ( ) M( ) A  AAA   (2.3.13) 阻擋矩陣的設計為 3 2 1 1 1 * * * * * * ( ) ( ) ( ) ( ) ( ) ( ) 1 0 0 ( ) 0 1 0 0 0 1 M A A A A A A                                (2.3.14) ( ) 為M

M 1

的矩陣且 ( ) 的行空間為A( ) 的零空間,可透過下式驗證 ( ) ( ) 0 A    (2.3.15) 介紹完 BM 的設計後,接著要利用 NLMS 的方法實現 ANC。系統輸出訊號可寫為 ( , )iFBF( , )i ( , ) ( , )ii     Y Y G U (2.3.16) ( , )iG 為 NLMS 演算法中的時變參數,可寫為 * ( , ) ( , ) ( 1, ) ( , ) 2, , ( , ) m m m est i i i i for m M P i          U YG G (2.3.17)

2 ( , ) ( 1, ) 1 ( , ) est est m m P i  P i   

y i  (2.3.18)

為步長(Step Size),為估測輸入能量所使用的 Forgetting Factor。以上就是 MVDR 結 合雜訊估測的適應性演算法。

模擬環境除了表 2- 1 條件以外多加了一個環境中變動的干擾源訊號在−45°位置。 圖 2-17 為混合後的訊號−45°的干擾源,能量會由小而大的變化。

(32)

22 圖 2- 18 FBF Beam Pattern 圖 2- 19

BM Beam Pattern 圖 2- 18、圖 2- 19 分代表為 FBF 和 BM 的 Beam Pattern,都是固定的權重不隨著 訊號改變。圖 2- 20 為輸入訊號通過 FBF 權重後的訊號,−45°干擾源並沒有包含在 MVDR 事前訓練的權重內,當其能量越大破壞輸出 SIR 也隨之嚴重。 圖 2- 20 經過 MVDR 處理之YFBF訊號

(33)

23 圖 2- 21 經過 MVDR+Noise Estimate 處理之輸出Y訊號 透過雜訊估測的適應性以算法能針對 MVDR 未估測出的雜訊提供了抑制功能,圖 2- 21 看出當−45°干擾源出現時有壓抑效果。論文架構中主要設計雜訊估測是因為希望 除了透過 MVDR 消除環境中固定存在的干擾源外,也會存在 MVDR 訓練時未包含的雜 訊。此方法改變 TF-GSC 原本的架構中 FBF 部分利用空間前處理的概念導入 MVDR 把 環境中固定干擾源壓抑但 BM 中雜訊估測卻依舊會存在。

(34)

24

第三章 系統架構與相關技術

3.1

應用說明與系統架構

結合聲學迴聲消除與空間濾波器的方法有很多種,W. Kellermann et al.[23][24][25] [26]有研究 AEC-BF 和 BF-AEC 前後處理的影響以及利用 GSC 的特性讓 AEC 嵌入其中 成為 GSAEC 一個相當特別的架構。AEC-BF 架構如圖 3- 1 (a),在每一個麥克風接收到 的訊號分別做 AEC 處理優點為有效解決迴聲問題以及達到空間濾波的方法,不過缺點 是當麥克風陣列數目增加時 AEC 演算法同時也需要增加。BF-AEC 架構如圖 3- 1 (b), 優點在於可以減少 AEC 的運算量但在此情況下使用 BF 為適應性演算法會導致 AEC 無 法有效的收斂以致於效能下降。圖 3- 1 (c)運用 GSC 的特性進行設計稱為 GSAEC,其 中 FBF 部分為固定權重所以在此後面接上了 AEC 除了不會影響收斂速度外也減少了 AEC 的使用次數,不受麥克風陣列數量增加有所影響,缺點是 AEC 設計只有上路徑具 有迴聲消除功能,迴聲訊號有可能由下路徑漏過造成效能降低。在 I. Cohen 團隊提出了 TF-GSC 後也陸續出現結合迴聲消除的相關研究,其中 G. Reuven[27][28]比較了不同組 合的影響,也提出了一個新的 ETF-GSC 的架構,在這些架構下面各有優缺點也有針對 不同的使用情境設計。 Beamformer x 1( ) y t AEC 2( ) y t 3( ) y t 4( ) y t AEC AEC AEC x 1( ) y t AEC 2( ) y t 3( ) y t 4( ) y t Beamformer AEC ANC BM

Far end signal

-+ FBF (GJBF) x e Y Y FBF Y NC Y 圖 3- 1 AEC 結合 BF 架構圖 (a) AEC-BF (b) BF-AEC

(35)

25 Target Local interferer ANC (NLMS) BM Acoustic echoes LEM LEM

Far end signal

-+ FBF (MVDR) x y e Y YFBF Y NC Y BF SAEC (FD-Wiener) 圖 3- 2 AEC+BF 架構圖 說明智慧型電視的語音控制遠距使用情境,假設目標聲源為 0°方向且遠場平面波, 在此利用時間延遲模型建構陣列拓樸向量,使用者需要在準確之方向操作才會有好的表 現,如果目標聲源沒有在設計方向會因為 MVDR 壓抑導致 SNR 下降。圖 3- 2 之架構中 需要對環境雜音偵測進行數秒鐘的訓練時間,此步驟為了讓 MVDR 把固定干擾源的資 訊包含於SNN( ) 中。SAEC 使用頻域維納濾波器方法,不需事先訓練動作,藉由適應性 更新來達到消除電視喇叭造成的影響。而適應性雜訊消除方法主要針對沒有受到 MVDR 壓抑的雜訊和剩餘迴聲訊號進行改善。 Target Local interferer ANC (NLMS) Acoustic echoes LEM LEM

Far end signal

-+ FBF (MVDR) x y e Y YFBF Y NC Y SAEC (FD-Wiener) Training data RTF BM 圖 3- 3 AEC+BF+TFR 架構圖 由於圖 3- 2 有假設了使用者聲源為遠場平面波和使用方向的限制,造成使用上有 所侷限,本論文再利用 TFR 進行改良使得輸出效果提昇。圖 3- 3 架構可以因應不同的 使用方向所設計,利用轉移函式比值演算法來鑑別聲源所在的方向,好處在於可以找出

(36)

26 使用者和麥克風的相對位置不必侷限於 0°方向,但利用此方法所要訓練的項目就多出了 單獨目標聲源方向的相對轉移函式估測,在 3.2 章節中會說明如何估測。 了解不同架構演算法優缺點後整理出智慧型電視應用之系統架構圖,如圖 3- 4。 Target Source 0° Yes No

Time delay model

Offline Training RTF Get AMV

Offline Training RNN

Get MVDR RNN

Mic Signal SAEC MVDR

Noise Estimate

Adaptive Noise

Cancellation Enhanced Signal

Offline Training

Offline Training

y YFBF Y

圖 3- 4 智慧型電視應用之系統架構圖 系統架構演算法步驟說明:

1. 分別對環境干擾源和目標聲源做事前訓練(Training),得到 Noise Estimate 和 MVDR 所需的資訊,經運算後各自得到一組權重。 2. 麥克風陣列接收的聲音訊號先各別做 SAEC 的處理。 3. 使用步驟 2 輸出訊號分別乘上步驟 1 所求得之權重,利用這兩組訊號做 ANC 運算 當做最後的輸出訊號。 本論文的系統架構中,主要分成兩個部分,第一個部分為立體聲迴聲消除,使用頻 域維納濾波器的方法做適應性的運算,消除電視所播放的訊號。第二個部分為空間濾波 器,由 TF-GSC[13]架構變形而得,將空間前處理概念導入其中讓 MVDR 權重代替 FBF 權重,在 BM 和 ANC 之設計上則維持相同形式。

(37)

27

3.2

轉移函式比值演算法

轉移函式比值法能解決在實際聲源和麥克風之間的關係,每顆麥克風的增益不匹配 或是聲源方向不同所組成的轉移函式也會有差異,轉移函式不易求得希望藉由比值找出 之間的關係。O. Shalvi[16]提出利用非穩態訊號和 I. Cohen[17]提出利用語音訊號求出 RTF 的估測,經系統鑑別後的資訊空間濾波器的設計[13][14],當做陣列拓樸向量使用。 為了估測空間轉移函式,在這裡假設只有一個聲源s,M 個麥克風y1~yM ( , ) s i  1( ) A 2( ) A ( ) MA 1( , ) y k  2( , ) y k  ( , ) M y k  圖 3- 5 單聲源系統模型 把圖 3- 5 單聲源系統模型中麥克風接收到的聲音資訊表示為 ( , ) ( , ) ( , ) m m m y i   A s i  v i  (3.2.1) 其中Am為空間轉移函式,vm為環境中的雜訊。 空間中的轉移函式可能較難得到,但或許可以得到轉移函式的比值,而此數據可能 會是有用的,這就是轉移函式比值的概念。由(3.2.1)式,套入轉移函式比值的概念,代 入可得以下的式子 1 1 ( ) ( , ) ( , ) ( , ) ( ) m m m A y i y i U i A        (3.2.2) 觀察(3.2.2)式,y im( , ) 及y i1( , ) 都是已知的麥克風資料,如果能夠得到轉移函式比值 1 ( ) ( ) m A A   的話,就可以利用簡單的乘法及減法運算完全消除掉聲源s的影響,只留下雜訊 ( , ) n U k  ,我們將 1 ( ) ( ) m A A   ,即所謂的轉移函式比值矩陣命名為Hm( ) ,再經過移項整理 後可得 1 ( , ) ( ) ( , ) ( , ) m m m y i Hy i  U i (3.2.3) 想獲得Hm( ) 利用 Cross-PSD 運算(3.2.3)式兩邊同乘上y i1( , ) 每次計算第i個音框的

(38)

28 Cross-PSD,可得以下的式子 1( , ) ( ) 1 1( , ) 1( , ) 1, 2 , m m y y iHmy y iU y ii K       (3.2.4) 將式(3.2.4)以矩陣型式表示得以下的式子 1 1 1 1 1 1 1 1 1 1 (1, ) (1, ) 1 (2, ) (2, ) 1 ( ) ( , ) 1 ( , ) 1 ( , ) m m m m y y y y y y y y m U y y y y y H i K K                                             (3.2.5) B A X 觀察(3.2.5)式可以發現,(3.2.5)式也是一個 AX=B 的形式,轉移函式比值矩陣H ( )m  可 以利用最小平方法 T -1 T X=(A A) A B形式求得,推導如下: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 (1, ) 1 ( ) (1, ) (2, ) ( , ) (2, ) 1 ( , ) 1 1 1 1 1 ( , ) 1 (1, ) (2, ) (1, ) (2, ) ( , ) 1 1 1 1 ( , ) m m m m y y m y y y y y y y y U y y y y y y y y y y y y y y y H K i K K K                                                             

 

1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 { ( , ) ( , )} 1 { ( , )} { ( , )} { ( , )} { ( , )} ( , ) ( , ) m m y y y y y y y y y y y y y y y y K K K K K K K K                                               (3.2.6) 由(3.2.6)式可以求得轉移函式比值矩陣H ( )m  : 1 1 1 1 1 1 1 1 1 1 2 2 ( ) ( ) ( ) ( ) ( ) ( ) ( ) m m y y y y y y y y m y y y y H                 (3.2.7) 其中 定義為平均運算子。 1 ( ) ( , ) K i i

 

 

 

(39)

29

3.3 立體聲迴聲消除演算法

立體聲迴聲消除由多聲道迴聲消除法中衍生而來,A. Hirano et al. [29] 提出使用單 一參考聲源形成的立體聲藉由延遲特性減少對估計雙聲道迴聲路徑時所需要使用的濾 波器在硬體上運算次數,M. M. Sondhi et al. [30]介紹使用在視訊會議上雙聲道麥克風產 生的立體聲藉由對遠端使用者(Far-end)的空間系統鑑別減少對近端使用者(Near-end)估 計雙聲道迴聲路徑時所需要使用的濾波器運算次數、T.Gänsler et al. [31]整理了多種適應 性濾波器處理立體迴聲消除方法、F. Yang et al. [21]提出立體聲迴聲抑制基於頻域下使 用維納濾波器及增益函數的演算法。 在本論文所使用的情境底下選用雙聲道迴聲消除法來做說明,智慧型電視應用很廣 除了視訊會議也會透過麥克風陣列做語音控制的功能,此時的電視喇叭聲源播出的雙聲 道訊號並不一定具有特定性質有可能兩個喇叭播出的是單聲道訊號、立體聲訊號或雙聲 道訊號此時各聲道具有不同的聲音,在這較複雜的情況下選擇使用雙聲道迴聲消除方法 來實現 SAEC 上的架構。 1 h ( ) y t 1

( )

x t

e

LEM 2 h 2

( )

x t

ˆy + 2 ˆh 1 ˆh 圖 3- 6 SAEC 架構圖 估測ˆh 和1 ˆh 時是利用誤差訊號作為更新的參考依據,如 LMS 或 Fast Block LMS 等2 演算法,圖 3-6 為架構設計是可以滿足立體聲道迴聲消除,而消除的迴聲x t1( )和x t2( )可 以互為相關性或非相關性的訊號都能處理。SAEC 的架構是分別對於預播出喇叭聲音 1( ) x tx t2( )做 AEC 的運算,ˆh 和1 ˆh 估計出在 LEM 環境中的迴聲路徑(2 h1h2)可以透 過各種方法來設計這兩組 FIR 濾波器,x t1( )和x t2( )通過這兩個濾波器估計出 ˆy 從訊號y 減去可得誤差訊號e,此訊號會是近端迴聲最小的值。 先寫出迴聲訊號由(3.3.1)所示

(40)

30 1 1 1 2 ( ) ( ) ( ) ( ) ( ) y th tx th tx t (3.3.1) 其中代表摺積,h1h2代表在 LEM 中喇叭到麥克風之間的脈衝響應,x1x2為喇叭 訊號。(取樣訊號均假設為時間 t 的正整數指標)。誤差訊號可以寫成

ˆ1 1 ˆ2 2

( ) ( ) e ty th x h x (3.3.2) 1 ˆh 和ˆh 為 FIR 濾波器係數均為 N 維的向量,定義2 x1

x t1( ) x t1( 1) x t1(  N 1)

 和x2

x t2( ) x t2( 1) x t2(  N 1)

為最近 N 筆資料組成的麥克風訊號取樣,代 表轉置。誤差訊號可以寫成矩陣形式簡化為 ˆ ( ) ( ) e ty th x (3.3.3) 把ˆh 和1 ˆh 串為行向量2 hˆ  hˆ1hˆ2,同樣的將x1x2串為行向量x x1x2。假 設 N 的值夠大, ( )y t 可以寫為 1 1 2 2 ( ) y th x + h x = h x   (3.3.4) 1 hh2代表真實的房間脈衝響應向量並且把h1和h2串為行向量 1 2         h h h 。將 (3.3.4)代入(3.3.3)可寫為

 

ˆ ( ) e th h xh x (3.3.5) 在此定義 ˆ   h h h (3.3.6) 稱之為錯位向量(misalignment vector)。以 LMS 為例,更新 ˆh 時利用(2.2.17)所示 ˆ(t 1) ˆ( )t 2 ( ) ( )t e t h h x (3.3.7) 等價於 (t 1) ( ) 2t   ( ) ( )t e t h h x (3.3.8) 在此 為步長。當希望消除迴聲 ( )e t 0並不總是成立,應為 min{ ( )}e t 意味著 h 0 ˆ ( . .,i e hh)才是適應性調整的目標,所以重要的是最早收斂得到 ˆhh 確保各聲道的迴 聲消除。 接著透過頻域維納濾波器來求解 SAEC 問題把架構圖修改為圖 3- 7,配合本論文 2.2.2 章節中所使用的迴聲消除方法所以訊號皆以頻域狀態表示。維納濾波器由於是開迴 路運算,如果使用圖 3- 6 SAEC 架構圖作為相同架構,當出現參考訊號為兩相關訊號 時因為開迴路運算會讓參考訊號多算入誤差訊號中,所以必須避免這個問題故提出圖 3- 7 SAEC Weiner 架構圖,利用兩階段的運算分別算出各階段的最佳解得到誤差訊

(41)

31 號。 1( ) h ( ) Y 1( ) X  ( ) E LEM 2( ) h 2( ) X  1( ) Y 2 ˆh 1 ˆh     圖 3- 7 SAEC Weiner 架構圖 推導利用頻域維納濾波器演算法求解 SAEC,先寫出迴聲訊號由(3.3.1)所示 1 1 2 2 ( ) ( ) ( ) ( ) ( ) ( ) ( ) Y  h  X  h  X  h  X (3.4.1) 其中是共軛轉置運算,h1h2代表在 LEM 中喇叭到麥克風之間的脈衝響應,X1( ) 和 2( ) X  為喇叭訊號,定義h( )  h1( ) h2( ) 和X( )  X1( ) X2( ) 。第一級 訊號運算,先對X1( ) 訊號進行迴聲消除可得Y1( ) 如下所示 1( ) ( ) ˆ1 ( ) 1( ) Y  Y  h  X  (3.4.2) 其中ˆh 為維納濾波器係數,利用頻域維納濾波器(2.2.22)式方法求得 1 1 1 1 1 ( ) ˆ ( ) ( ) X Y X X       h (3.4.3) 第一級運算利用(3.4.2)式讓 ( )Y  訊號迴聲消除,再進行第二級運算,對參考訊號X2( ) 的迴聲消除運算可得最後輸出的誤差訊號如下所示 1 ˆ2 2 ( ) ( ) ( ) ( ) E  Y  h   X  (3.4.4) 其中ˆh 為維納濾波器係數,利用頻域維納濾波器(2.2.22)式方法求得 2 2 1 2 2 2 ( ) ˆ ( ) ( ) X Y X X       h (3.4.5) (3.4.3)和(3.4.5)中所用到的 Cross(Auto)-PSD 均是透過(2.2.24)式和(2.2.25)式的一階遞迴 方法求出。圖 3- 7SAEC 架構下運算可以對X1( ) 和X2( ) 兩個喇叭訊號做雙聲道迴聲 消除,不論X1( ) 和X2( ) 為相關性或非相關性的訊號都能同時處理。

數據

圖  2- 1    陣列模型
圖  2- 4    Grating Lobe 示意圖
圖  2- 6    空間聲學反射產生的聲學迴聲
圖  2- 10    Wiener Filter in Frequency Domain  由圖  2- 10 LEM 環境中麥克風收到訊號的訊號 y n ( ) 可以表示為
+7

參考文獻

相關文件

可重建人體肝臟或腎臟器官 對醫學界貢獻良多

In this paper, we propose a practical numerical method based on the LSM and the truncated SVD to reconstruct the support of the inhomogeneity in the acoustic equation with

We point out that extending the concepts of r-convex and quasi-convex functions to the setting associated with second-order cone, which be- longs to symmetric cones, is not easy

double-slit experiment is a phenomenon which is impossible, absolutely impossible to explain in any classical way, and.. which has in it the heart of quantum mechanics -

In the simulated environment, his patients gain confidence to face the challenges in the real world.. Here is a successful story to demonstrate VR’s

,最短,稱「暫音」;上聲,較平聲短,較 入聲長,稱「準暫音」;去聲較平聲短,較

政府應邀請合適的業界模範參與製作在電視╱電台播放的政府宣傳短片及聲帶。該等

There are two main topics in this thesis: personalized mechanisms for exhibitions and interfaces equipped with cyber-physical concept and the services supporting for this