緒論 - 使用麥克風陣列實現即時語音純化與真人語音活動偵測系統

1.1 研究動機

環境中的語音訊號干擾源總是存在，例如冷氣機、電腦風扇、喇叭、

密閉空間反射等等。當語音訊號遭到干擾時，若用於語音辨識中，辨識率會大為降低，若用於通訊中，通話品質也大受影響。因此若能設計出一語音輸入介面，降低環境中干擾源的影響，達到語音純化的效果，則在生活中將會有很大的應用面。

在論文中，我們利用麥克風陣列來對語音作純化的動作，只要能對當時的環境訊號作適應性空間濾波（Spatial Filter），則可對不同角度入射的訊號有不同的增益，以降低干擾源對語音訊號的影響，達到提升訊噪比

（SNR）的作用。除了適應性空間濾波的功能外，我們額外加入真人語音活動偵測（Voice Activity Detection，VAD）的功能，讓系統能依據真人語音有無自動地適應性調整空間濾波器係數。

1.2 研究目標

本論文目標將分為

1. 選定真人語音活動偵測及適應性空間濾波器演算法

2. 發展一套麥克風陣列平台，能夠將語音訊號透過 USB 介面傳回電腦，

並在電腦作演算法處理及即時性喇叭輸出。其系統簡圖如圖1-1 所示。

3. 將演算法實現於平台，作即時性的處理。

4. 將平台與語音辨識器做整合

1.3 文獻回顧

陣列訊號處理技術早於第一次世界大戰時被提出並加以利用[1]，當時法國人Sergent Jean Perrinm 用了兩組感測器，每組感測器由六組次感測器所組成，此發明是用來偵測敵機。之後，陣列訊號處理技術也被用於聲納 [2]，陣列望遠鏡（如美國新墨西哥洲沙漠中的特大天線陣列（Very Large Array），它由27 個碟形天線以Ｙ字形分佈）等等。而早年的陣列訊號處理技術皆用於軍事或大型儀器上，直到最近，在電子元件普及與運算能力越來越強大的趨勢下，陣列訊號處理技術也慢慢走向消費性產品話，如麥克風陣列。

麥克風陣列可達到空間濾波的功能，一般而言稱之為Beamformer[1]，

Beamformer 用於麥克風陣列早用於第二次世界大戰[3]，接著慢慢衍生出諸如 Fourier Beamformer[4] 、 MVDR(Minimum Variance Distortionless Response Beamformer)[5][6] 、 Robust MVDR[7] 、 MCMV(Multiply Constrained Minimum Variance Beamformer)[8]、MMSE(Minimum Mean Square Error Beamformer) [9]、MSNR(Maximum SNR)[7]、ML(Maximum Likelihood Beamformer)[7]等。在各種 Beamformer 中最簡單實現的技術為 Fourier Beamformer，它具有較高的 SNR，但是它需要較大的麥克風陣列才可以達到較好的效果，這是因為越多的麥克風可以形成較尖銳的 beam pattern，進而減少其他非聲源角度之干擾源影響。這樣的缺點會造成為了增加效果而必須一直擴大麥克風陣列的體積，因而提出了一種可以自動消除干擾源的beamformer—MVDR，它除了可以將所量測出之聲源角度作完整聲音之接收，並且還可讓非聲源角度之聲音接收達到最低。此法跟 Fourier Beamformer 有相同之 SNR，然而卻增加了抑制干擾源的效果。然而，如果接收到的訊號是coherence 或者是作聲源判斷時產生錯誤(pointing error)，MVDR 這方法所形成的效果將大打折扣，甚至會使得原本要接收

之聲源變成完全沒有接收。接下來所提出之Robust MVDR 便是加入 pseudo noise 以減少 pointing error 的影響。另外還有 MCMV 的方法，這個方法需先計算出想要接收的角度以及干擾源的角度，Beamformer 的技術針對此聲源收音並且濾除其他方向之雜訊，則此系統將會變得更為實用，而這方面的系統複雜程度以及運算量相當的龐大，如何去利用Beamformer 和 DOA 定義出想接收度，或者是不想接收的角度，然後產生一個 beam 於想要接收之角度，並且產生null 於不想接收之角度，此法便可將不想接收的聲源消除，只是此法還需計算其他之角度，如此增加之計算量將是整體系統的負擔。

在國內，麥克風陣列的製作廠商幾乎沒有，而本實驗室 1999 年時，

曾經以Fourier beamformer 為基礎，設計一組 real-time spatial filter and DOA estimation system[10][11]，此系統包含一個 16 channel 的 microphone array 以及對應的signal conditioner module、sampler module 以及 DSP Module，

並能即時估測空間之聲源方向。並在2004 年設計出以 USB1.1 為介面之語音純化系統[12]。

1.4 論文貢獻

本論文已實作完成一以 USB1.1 為傳輸介面之八通道麥克風陣列平台，此平台有低成本、低消耗功率且隨插即用等優點。本論文在演算法上，

將真人語音活動偵測（VAD）與空間濾波器（Beamformer）做整合，達到自動適應性調整空間濾波器功能，並將演算法實作完成於八通道麥克風陣列平台上，擁有即時的效能。論文中，麥克風陣列平台與語音辨識器做結合，並在吵雜的環境中做測試，由實驗證明，麥克風陣列平台能夠純化語音，用來提升語音辨識率。

1.5 論文架構

本篇論文包含了三個主要的部分，分別是即時性演算法的理論、實驗平臺的架構與實現與即時性演算法的驗證。底下將大致描述三個主要部分的內容：

第二章：將介紹陣列訊號處理概念、語音活動偵測演算法、適應性訊號處理簡介和適應性陣列訊號處理-Dahl^，s Algorithm

第三章：介紹語音辨識器與IBM ViaVoice 第四章：介紹實驗平台架構

第五章：演算法在實驗平台的驗證第六章：結論

喇叭

傳輸介面

圖 1-1

麥克風陣列

放大電路

電腦

USB

：本論文系統架構簡圖

在文檔中使用麥克風陣列實現即時語音純化與真人語音活動偵測系統 (頁 12-16)