第五章 實驗結果與分析
5.1 麥克風陣列於室內環境
5.1.1 空間濾波器與語音辨識率關係
本章節將探討語音訊號通過空間濾波器前後對語音辨識率的改善關 係。 此語音辨識器為一辨識新竹科學園區廠商名稱辨識器,其字彙庫大 小為1339。圖 5-1 為實驗環境的實際照片,實驗環境中有兩個喇叭,一個 喇叭用來播放園區廠商名稱,另一個為播放音樂聲,而圖中兩台電腦一為 用來將訊號通過空間濾波器並即時的輸出給另一台電腦作辨識。
首先,先用真人語音錄製一百組新竹科學園區廠商名稱,並在下列三 情況下播放測試其辨識效果:
1. 安靜的環境下
. 播放音樂的情況下並用單一麥克風作即時輸出
5-2 為實驗環境的平面關係圖。
本章節將介紹將麥克風陣列平台於不同環境下 境分為下列兩種:
1. 室內環境 2. 車內環境
在室內 濾
種
2
3. 播放音樂的情況下並將訊號通過空間濾波器 圖
圖5-1:實驗環境實際照片
撥 放 人 聲 喇 叭
撥 放 音 樂 聲 喇 叭
1 3 0 c m 1 0 0 c m
麥 克 風 陣 列
3 0
î圖5-2:實驗環境平面關係圖
實驗中SNR 的計算方式如下:
圖5-3 中音樂聲能量為-33.91 dB,而真人語音「聯發科」與音樂聲混合部 分的能量為-24.4 dB,因此 SNR=9.51 dB。
圖5-4 為測試一經過 256 階空間濾波器的處理結果:
圖5-4:測試一通過空間濾波器處理結果 (濾波器階數=256)
圖5-4 中,音樂聲能量為-46.71 dB,而真人語音「聯發科」與音樂聲混合 部分的能量為-25.27 dB,因此 SNR=21.44 dB。
測試一總結:
通過空間濾波階數為256 的濾波作用,SNR 由原生的 9.51 dB 提升到 21.44 dB,其 SNR 增加了 11.93 dB。
測試二:真人語音「聯發科」+音樂聲 空間濾波器濾波階數=512 圖5-5 為真人語音「聯發科」與音樂聲之混合訊號(流行歌曲:孫燕姿-奔),用單一麥克風錄到情形:
圖5-5:真人語音「聯發科」與音樂聲混合訊號
圖5-5 中音樂聲能量為-34.73 dB,而真人語音「聯發科」與音樂聲混合能 量部分為-25.11 dB,因此 SNR=9.62 dB。
圖5-6 為經過 512 階空間濾波器的處理結果,在圖 5-6 中,音樂聲為-47.36
「聯發科」與音樂聲混合部分的能量為-24.71 dB,因此
過空間濾波階數為512 的濾波作用,SNR 由原生的 9.62 dB 提升到 22.65 B,其 SNR 增加了 13.03 dB。
dB,而真人語音 SNR=22.65 dB。
測試二總結:
通 d
圖5-6:測試二通過空間濾波器處理結果 (濾波器階數=512)
經過大量的統計,可發現空間濾波器階數的提高可增加其SNR,但其運算 量也相對的增大許多。
表 5-1 顯示出了在三種情況下的語音辨識情況,而在這三種情況下喇
叭的音量皆為 單一麥克風的
益與麥克風陣列的增益是相等的, 先錄製好一百組新竹科學園區廠商
:辨識率比較
固定,而音樂聲的平均能量為-33.15dB,並且 增
名稱,每組皆播放三次,因此每一種情況下會有三百種結果。
正確次數 錯誤次數 正確率 安靜環境下使用單一麥克風 288 12 96﹪
吵雜環境下使用單一麥克風 101 199 33.6﹪
吵雜環境下使用麥克風陣列 231 69 77﹪
表5-1