空間濾波器與語音辨識率關係

第五章實驗結果與分析

5.1 麥克風陣列於室內環境

5.1.1 空間濾波器與語音辨識率關係

本章節將探討語音訊號通過空間濾波器前後對語音辨識率的改善關係。此語音辨識器為一辨識新竹科學園區廠商名稱辨識器，其字彙庫大小為1339。圖 5-1 為實驗環境的實際照片，實驗環境中有兩個喇叭，一個喇叭用來播放園區廠商名稱，另一個為播放音樂聲，而圖中兩台電腦一為用來將訊號通過空間濾波器並即時的輸出給另一台電腦作辨識。

首先，先用真人語音錄製一百組新竹科學園區廠商名稱，並在下列三情況下播放測試其辨識效果：

1. 安靜的環境下

. 播放音樂的情況下並用單一麥克風作即時輸出

5-2 為實驗環境的平面關係圖。

本章節將介紹將麥克風陣列平台於不同環境下境分為下列兩種：

1. 室內環境 2. 車內環境

在室內濾

種

3. 播放音樂的情況下並將訊號通過空間濾波器圖

圖5-1：實驗環境實際照片

撥放人聲喇叭

撥放音樂聲喇叭

1 3 0 c m 1 0 0 c m

麥克風陣列

3 0

^î

圖5-2：實驗環境平面關係圖

實驗中SNR 的計算方式如下：

圖5-3 中音樂聲能量為-33.91 dB，而真人語音「聯發科」與音樂聲混合部分的能量為-24.4 dB，因此 SNR=9.51 dB。

圖5-4 為測試一經過 256 階空間濾波器的處理結果：

圖5-4：測試一通過空間濾波器處理結果（濾波器階數=256）

圖5-4 中，音樂聲能量為-46.71 dB，而真人語音「聯發科」與音樂聲混合部分的能量為-25.27 dB，因此 SNR=21.44 dB。

測試一總結：

通過空間濾波階數為256 的濾波作用，SNR 由原生的 9.51 dB 提升到 21.44 dB，其 SNR 增加了 11.93 dB。

測試二：真人語音「聯發科」＋音樂聲空間濾波器濾波階數=512 圖5-5 為真人語音「聯發科」與音樂聲之混合訊號（流行歌曲：孫燕姿-奔），用單一麥克風錄到情形：

圖5-5：真人語音「聯發科」與音樂聲混合訊號

圖5-5 中音樂聲能量為-34.73 dB，而真人語音「聯發科」與音樂聲混合能量部分為-25.11 dB，因此 SNR=9.62 dB。

圖5-6 為經過 512 階空間濾波器的處理結果，在圖 5-6 中，音樂聲為-47.36

「聯發科」與音樂聲混合部分的能量為-24.71 dB，因此

過空間濾波階數為512 的濾波作用，SNR 由原生的 9.62 dB 提升到 22.65 B，其 SNR 增加了 13.03 dB。

dB，而真人語音 SNR=22.65 dB。

測試二總結：

通 d

圖5-6：測試二通過空間濾波器處理結果（濾波器階數=512）

經過大量的統計，可發現空間濾波器階數的提高可增加其SNR，但其運算量也相對的增大許多。

表 5-1 顯示出了在三種情況下的語音辨識情況，而在這三種情況下喇

叭的音量皆為單一麥克風的

益與麥克風陣列的增益是相等的，先錄製好一百組新竹科學園區廠商

：辨識率比較

固定，而音樂聲的平均能量為-33.15dB，並且增

名稱，每組皆播放三次，因此每一種情況下會有三百種結果。

正確次數錯誤次數正確率安靜環境下使用單一麥克風 288 12 96﹪

吵雜環境下使用單一麥克風 101 199 33.6﹪

吵雜環境下使用麥克風陣列 231 69 77﹪

表5-1

在文檔中使用麥克風陣列實現即時語音純化與真人語音活動偵測系統 (頁 64-70)

第五章 實驗結果與分析