結合雙層真人語音偵測與適應性陣列訊號處理模擬

第二章適應性陣列訊號處理

2.5 結合真人語音偵測與適應性陣列訊號處理

2.5.2 結合雙層真人語音偵測與適應性陣列訊號處理模擬

本章節將展示將聲音訊號於 2.5.1 節所敘述架構中的模擬結果，圖 2-13 為一真人語音與音樂混合之訊號，圖2-14 為將此訊號通過第一層 VAD 與用來彌補當第一層VAD 判斷錯誤的情形，並且聲音通過 Beamformer 後會提高SNR，增加第二層 VAD 的準確率。因此第一層 VAD 的主要作用為用來判定是否須做適應性訊號處理的調整，而第二層VAD 的作用為將非真人語音訊號濾除。

Lower Beamformer 的結果，圖 2-15 為將 Lower Beamformer 的輸出再通過第二層VAD 的結果。

圖 2-13：真人語音與音樂混合之訊號

圖 2-14：混合訊號通過第一層 VAD 與 Lower Beamformer 結果

圖 2-15：混合訊號通過第二層 VAD 結果

從圖 2-14 中可發現當真人語音與音樂混合之訊號通過第一層 VAD 與 Lower Beamformer 後，正確的 VAD 判定應只有圖 2-13 中橫軸十萬點前的四個語音，但因為音樂聲在播放時，有起伏大小聲的緣故，因此從圖2-14 中可看出，第一層 VAD 將一些音樂聲判定為真人語音。為了彌補第一層 VAD 的誤判，Lower Beamformer 後再加入第二層 VAD，因為通過 Lower Beamformer 後的緣故，因此音樂聲會被壓低，而再通過第二層 VAD 就會將音樂聲完全濾除，只輸出真人語音，如圖2-15 所示。

.5.3 結合單層真人語音偵測與適應性陣列訊號處理架構簡介

2-12 中的架構，以即時的論點來講，有兩項缺點，分別為：

Lower Beamformer，再通過 VAD 判定，若判定為真人語音，則真人語音訊號會

未通過 Lower Beamformer），傳遞給 Upper Beamformer 做適應性訊號調整，調整 Lower 樣系統會一直將訊號直接通過Lower Beamformer，系統便不能自動做適應性訊號調整

做適應性訊號調整，會比2.5.1 節架構準確許多。 Beam form er M em ory Training W eight

Beam form er A daptive A lgorithm s

) 與2.5.1 節所述架構做比較，通過 Lower Beamformer 的真人語音與音樂混合之訊號與圖2-13 一樣，而圖 2-17 為真人語音與音樂混合之訊號通過 2.5.3 節所敘述架構中Lower Beamformer（濾波器階數=10）的效果，圖 2-18 為通過VAD 後的效果。圖 2-13 中的混合訊號 SNR 為 11.54dB，圖 2-17 的混合訊號 SNR 為 18.23dB，Lower Beamformer 將混合訊號 SNR 提高了 6.69dB。從圖 2-18 可觀察出，結合單層真人語音偵測與適應性陣列訊號處理可達到與結合雙層真人語音偵測與適應性陣列訊號處理一樣的效果，因

本論文採取2.5.3 節所述架構，實現於麥克風陣列平台上。

此

圖 2-17：真人語音與音樂混合之訊號通過Lower Beamformer 結果

圖2-18： Lower Beamformer 輸出通過 VAD 結果

第三章自動語音辨識

3.1 語音辨識簡介[21]

對於一個語音辨識系統而言，可以簡單的將之分為：連續音、非連續音辨識系統;單一使用者、多使用者辨識系統;以及較少樣本數的資料庫、

較多樣本數的的資料庫。

語音辨識最主要的目的是希望電腦聽懂人類說話的聲音，進而命令電腦執行相對應的工作。當聲音藉由類比到數位的轉換裝置輸入電腦內部，

並以數值方式儲存後，語音辨識程式便開始已事先儲存好的聲音樣本與輸入的測試聲音樣本進行比對工作。比對完成後點腦集輸入一個它認為最

“像”的聲音樣本序號，我們就可以知道使用者剛剛唸進去的聲音代表何意，進而命令電腦做事。

3.2 語音辨識系統

的架構分為兩個部分：1.語音樣本的訓練 2.

語音

顯示出來。

架構

一般來說，語音辨識系統

信號測試。第一個步驟屬off-line，就是將我們所要識別的語音之參數訓練出來後，儲存在系統中。第二個步驟為on-line，即為輸入語音後，系統會將語音識別的結果正確地

3.2.1 語音特徵參數求取[22]

的特性，而使辨識率提高。

3-3 為語音特徵參數求取流程圖，其過程分為六個步驟：

. 預強調：

人的口腔就像一個濾波器,會將語音的高頻部分濾除,因此將語音信號通過一高通濾波器來做為補償，其高通濾波器的方程式如（3-1）式所示：

（3-1）

將語音訊號每 s 取一個音框，為防止相鄰音框的特性變化太過於迅速,令相鄰音框之間重疊 20ms

3. Hamming Window：

使用Hamming Window 降低音框中起始點與終點信號的不連續性，

ming Window 的公式如（3-2）式所示：

在圖3-1 與圖 3-2 中模型建立前的步驟皆屬語音特徵參數的求取，在訊號辨識中，最常用的特徵參數是訊號在頻譜（Spectrum）上的能量值，

這些在頻譜上的能量值便可稱為一種特徵值。然而，對語音訊號而言，另一種稱為倒頻譜的參數卻更能代表語音訊號

圖 1

( ) Z = 1 − 0 . 95 Z

⁻¹

H

2. 音框化：

30 m

其 Ham

語音信號

預強調 (P re -e m p h a s is )

音框化

H a m m in g W in d o w

F F T & lo g || ||

F ilte r B a n k

In v e rs e C o s in e T ra n s fo rm

倒頻譜參數

圖 3-1：語音特徵參數求取流程圖

⎟ ⎠

Mel-Frequency Cepstrum Coefficients 則為一段音框的特徵代表，其 k 的取法如（3-3）式與（3-4）式所示

0

濾波形狀為三角形。而（3-4）式為將 Frequency-Scale f_h

fl f_s

FFT filter bank

圖3-3：用於計算 mel-cepstrum 之 filter bank

‧ ‧ ‧

6. 反餘弦轉換：

將訊號經過反餘弦轉換得到Mel-Frequency Cepstrum Coefficients

（MFCC）。

.2.2 建立語音辨識模型[22]

，接著就必須建立語音模型，而目前最普遍使用的模型即是隱藏式馬可夫模型(Hidden Markov Model；HMM)，HMM 的目的為以統計的方式來建立每個類

HM 音模型建立完成

.3 新竹科學園區廠商名稱語音辨識器[28]

辨識器為交通大學電信

圖3-5：語音辨識器使用者介面 M 相關參數中的 a,b 將會以矩陣形式來表示，而當語

後，當有辨識資料輸入時則利用 Viterbi Algorithm [22]的方法，計算輸入語句和每個模型的相似度，機率最高者，即為辨識結果。

3

本論文將麥克風陣列與語音辨識器做結合，而語音

研究所，所開發的API 介面軟體，其使用者介面如圖 3-5 所示，當啟動辨識後，語音辨識器會透過麥克風接收語音信號並將其波形顯示出來，

最後將顯示最有可能的辨識結果。

3.4 IBM ViaVoice[23]

論文中，麥克風陣列也與 iaVoice 做結合，ViaVoice 為 IBM 所開發

Widows 應用程式，包括

行的動作，啟動程式、切換程式、視窗移

可以朗讀電腦內的中英文字，如:文字檔、E-mail、網頁的

而麥克風陣列與

IBM V

的語音軟體，其最大的功用為用語音來聽寫文字並控制電腦。其產品功能如下：

連續聽寫

可建立、編輯及修改文件並支援大多數

Microsoft Word 等。可讓 Via Voice 分析已輸入的文章，讓電腦了解使用者的習慣用語。

語音命令

可使用聲音來告訴系統要執

動、最大化、最小化、更正聽寫錯誤，甚至是控制滑鼠的動作(語音滑鼠)。

語音合成 Via Voice

內容等，同時還可以讓選擇不同的腔調如男生與女生聲音等。

網上瀏覽

Via Voice 可以用語音來瀏覽網頁，只要唸出想要選的超文字連結 (Hyper-link)，就可漫遊網際網路，並可用語音來控制瀏覽器，例如首頁、我的最愛、重新整理等等。

Via Voice 結合最大的用意即在吵雜的環境下也能用語音來控制電腦，例如，使用者在用喇叭放音樂時，但使用者依然能用語音來瀏覽網路、撰寫Word 等等。

第四章軟硬體設計與實現

4.1 實驗平台架構

，平台架構圖如圖4-1 所示

首先，聲音訊號經由著通過訊號放大電路與

濾波器並將聲音訊號透過A/D（Analog to Digital）轉換器轉換為數位形式，

音訊號放大及濾波電路

Data Acquisition Circuit and

4.2 聲音訊號放大及濾波電路

是用來放大麥克風所收到的訊號並聲音訊號放大及濾波電路的目的

濾掉高頻及低頻的雜訊，每顆麥克風都有各自的放大及濾波電路，8 組放大及濾波電路構造及功能皆相同，放大及濾波電路架構圖如圖4-2 所示：

聲音訊號放大及濾波電路

高通濾波器放大電路及

低通濾波器

聲音訊號類比訊號擷取

及轉換電路

圖 4-2：聲音訊號放大及濾波電路架構圖

音訊號經由電容式麥克風轉為電壓訊號後，必須先經過高通濾波器，以聲

濾掉低頻雜訊及直流訊號，而高通濾波器的3 dB 點設於 80Hz 的地方。訊號經過高通濾波器後還是一個非常小的電壓，因此必須經過一放大電路來放大電壓訊號，以供後端的A./D 來取樣，而本電路的取樣頻率為 16 k Hz，

所以必須將訊號通過低通濾波器來避免Aliasing 問題，而電路中低通濾波器的3 dB 點設定於 6 k Hz。聲音訊號放大及濾波電路圖展示於圖 4-3，本放大電路為一兩級的OP 放大器，工作電壓介於 5V 和-5V 之間，並採用負回授的形式，圖4-3 的放大倍率為 60dB。而電路的頻率響應圖由 P-SPICE 所模擬如圖4-4 所示。

圖 4-3：聲音訊號放大及濾波電路圖

圖 4-4：聲音訊號放大及濾波電路之頻率響應圖

4.3 類比訊號擷取及轉換電路

類比訊號擷取及轉換電路的目的是將放大倍率後的類比聲音訊號，轉如4-5 所示，為了節省功率消耗，

電路

中A/D 轉換器只能供給正電壓，但 S/H 輸出會含有負電壓，因此 Switch

和A/D A/D 的輸入皆在

而S/H、Switch 和 A/D 的時序則由 EZ-USB FX 平台所控制，本系統的取樣頻率為16 kHz，因此 S/H 的工作頻率為 16 kHz，因為總共有個通道，所以Switch 和 A/D 的工作頻率為 16×8 kHz A/D 所轉換出

位元資料，由EZ-USB FX 平台所接收。

換為數位訊號（16 位元），電路架構圖

只用了一個A/D 轉換器，因此，8 通道的類比聲音訊號和 A/D 轉換器之間需要一個切換器，將8 通道的類比聲音訊號輪流切給 A/D 做轉換。

S / H S / H S / H S / H

S w i t c h A d d e r A / D

S / H S / H S / H S / H

圖 4-5：類比訊號擷取及轉換電路架構圖（S/H：Sample and Hold）

其

之間必須加一個加法器，讓 0 伏以上。

，最後來的16

E Z - U S B F X

1 6 k H Z 1 2 8 k H Z 1 2 8 k H Z

4.4 系統電路板

電路實作設計時，將聲音訊號放大及濾波電路和類比訊號擷取及轉換路結合在一起，用Protel 軟體佈局出其電路圖，其印刷電路板實際照片電

如圖4-6 所示：

圖 4-6：麥克風訊號濾波器與數位/類比轉換電路板

此印刷板電路為一四層板架構，長×寬為27 公分×10 公分，工作電壓為 5 伏特，其麥克

將EZ-USB 晶片與 SB 週邊介面所需的各種功能包裝成一個精簡的整合電路，其微處理機是 SB FX 平台在整個系統中有三項目的：

風放大倍率和A/D 取樣範圍皆為可調。

4.5 EZ-USB FX 平台[24]

EZ-USB FX 平台是由 Cypress 半導體公司所推出，

一個增強的8051 核心。而 EZ-U 控制S/H、Switch 和 A/D 的時序 2. 接收 A/D 轉換器的數位資料輸出 3. 將數位資料傳送給 PC 端

架構圖如圖4-7 所示

4.5.1 控制 S/H、Switch 和 A/D 時序

4-7 中 8051 的 PORT A 來傳達控制指令，控制時序由8051 等時中斷來完成，將中斷時間設為

S/H、Switch 和 A/D 的控制時序由圖

16k

1 秒，每次中斷發生後，就同時啟動8 通道的 S/H，使 8 組 S/H 在同一時間完成取樣

在文檔中使用麥克風陣列實現即時語音純化與真人語音活動偵測系統 (頁 36-0)

第二章 適應性陣列訊號處理