• 沒有找到結果。

第五章 實驗結果與分析

5.1 麥克風陣列於室內環境

5.1.1 空間濾波器與語音辨識率關係

本章節將探討語音訊號通過空間濾波器前後對語音辨識率的改善關 係。 此語音辨識器為一辨識新竹科學園區廠商名稱辨識器,其字彙庫大 小為1339。圖 5-1 為實驗環境的實際照片,實驗環境中有兩個喇叭,一個 喇叭用來播放園區廠商名稱,另一個為播放音樂聲,而圖中兩台電腦一為 用來將訊號通過空間濾波器並即時的輸出給另一台電腦作辨識。

首先,先用真人語音錄製一百組新竹科學園區廠商名稱,並在下列三 情況下播放測試其辨識效果:

1. 安靜的環境下

. 播放音樂的情況下並用單一麥克風作即時輸出

5-2 為實驗環境的平面關係圖。

本章節將介紹將麥克風陣列平台於不同環境下 境分為下列兩種:

1. 室內環境 2. 車內環境

在室內 濾

2

3. 播放音樂的情況下並將訊號通過空間濾波器 圖

圖5-1:實驗環境實際照片

撥 放 人 聲 喇 叭

撥 放 音 樂 聲 喇 叭

1 3 0 c m 1 0 0 c m

麥 克 風 陣 列

3 0

î

圖5-2:實驗環境平面關係圖

實驗中SNR 的計算方式如下:

圖5-3 中音樂聲能量為-33.91 dB,而真人語音「聯發科」與音樂聲混合部 分的能量為-24.4 dB,因此 SNR=9.51 dB。

圖5-4 為測試一經過 256 階空間濾波器的處理結果:

圖5-4:測試一通過空間濾波器處理結果 (濾波器階數=256)

圖5-4 中,音樂聲能量為-46.71 dB,而真人語音「聯發科」與音樂聲混合 部分的能量為-25.27 dB,因此 SNR=21.44 dB。

測試一總結:

通過空間濾波階數為256 的濾波作用,SNR 由原生的 9.51 dB 提升到 21.44 dB,其 SNR 增加了 11.93 dB。

測試二:真人語音「聯發科」+音樂聲 空間濾波器濾波階數=512 圖5-5 為真人語音「聯發科」與音樂聲之混合訊號(流行歌曲:孫燕姿-奔),用單一麥克風錄到情形:

圖5-5:真人語音「聯發科」與音樂聲混合訊號

圖5-5 中音樂聲能量為-34.73 dB,而真人語音「聯發科」與音樂聲混合能 量部分為-25.11 dB,因此 SNR=9.62 dB。

圖5-6 為經過 512 階空間濾波器的處理結果,在圖 5-6 中,音樂聲為-47.36

「聯發科」與音樂聲混合部分的能量為-24.71 dB,因此

過空間濾波階數為512 的濾波作用,SNR 由原生的 9.62 dB 提升到 22.65 B,其 SNR 增加了 13.03 dB。

dB,而真人語音 SNR=22.65 dB。

測試二總結:

通 d

圖5-6:測試二通過空間濾波器處理結果 (濾波器階數=512)

經過大量的統計,可發現空間濾波器階數的提高可增加其SNR,但其運算 量也相對的增大許多。

表 5-1 顯示出了在三種情況下的語音辨識情況,而在這三種情況下喇

叭的音量皆為 單一麥克風的

益與麥克風陣列的增益是相等的, 先錄製好一百組新竹科學園區廠商

:辨識率比較

固定,而音樂聲的平均能量為-33.15dB,並且 增

名稱,每組皆播放三次,因此每一種情況下會有三百種結果。

正確次數 錯誤次數 正確率 安靜環境下使用單一麥克風 288 12 96﹪

吵雜環境下使用單一麥克風 101 199 33.6﹪

吵雜環境下使用麥克風陣列 231 69 77﹪

表5-1