• 沒有找到結果。

第五章 基因演算法

6.3 實驗結果

不過整數 FFT 辨識率僅小幅下滑 1.8%屬於可接受的範圍內。接著對整數 FFT 於 嵌入式系統上運算時間的比較,

表 6-5 開發板上語音辨識各階段運算時間表

平均時間(秒) 浮點數 FFT 整數 FFT

端點偵測 0.047

經驗模態分解 3.5272

高頻強波 0.049

漢明窗 0.013

FFT 2.756 0.314

特徵値擷取 0.15

辨識 0.747

總和 7.2892 4.8472

由表 6-5 可看出整數 FFT 確實可大幅增加傳統 FFT 的運算速度,不過 EMD 確是 相當的慢。在確定整數 FFT 可運作無誤後,將對 EMD 應用於語音辨識上做初步 的實驗,以探討各個本質模態函式用於語音辨識的效果。

表 6-6 中,紅色字體代表該 SNR 下最高之辨識率,整體來看無分解所訓練 出來的模型其辨識率較高,而單一 IMF 下訓練出來的模型其辨識率隨著分解出 的順序而遞減,印證了語音資料集中在較早分解出的 IMF 上,而後段的 IMF 跟 語音特徵可能沒什麼關係,在此我們假設語音集中在第 2 個和第 3 個 IMF 而第 1 個 IMF 為雜訊,分別做了 IMF2+IMF3 和 IMF2+IMF3+IMF4+IMF5 兩種組合,

似乎印證了第一個 IMF 含較多雜訊的傳統觀念,在 SNR 為 10db 以下時辨識率 開始高於無分解訓練出來的語音模型,不過在乾淨語音部分,未分解所訓練出來 的語音模型其辨識率遠高於以個別 IMF 所訓練出來的語音模型,而另外包含 IMF1 的組合在乾淨語音部分的表現較接近原始未分解的效果,這表示在乾淨語 音下 IMF1 包含不少的語音成分,接著我們嘗試以基因演算法找出 IMF 組合權重

,驗證是否有效提高含雜訊語音的辨識率,圖 6-4 和圖 6-5 為 GA 針對各 SNR wi

值所做的最佳化收斂情形,可看出經基因演化後,各 SNR 之語音辨識率皆有提 升。

表 6-6 各本質模態函式之辨識率

clear 25db 20db 15db 10db 5db 0db 無分解 0.966 0.948 0.836 0.586 0.326 0.148 0.102

IMF1 0.88 0.816 0.684 0.512 0.326 0.186 0.128 IMF2 0.746 0.678 0.614 0.56 0.396 0.322 0.19 IMF3 0.404 0.372 0.32 0.282 0.246 0.21 0.146 IMF4 0.208 0.208 0.198 0.23 0.224 0.136 0.108 IMF5 0.09 0.088 0.088 0.098 0.098 0.098 0.1 IMF1+2 0.952 0.922 0.818 0.562 0.394 0.146 0.1 IMF1+2+3 0.966 0.942 0.846 0.62 0.354 0.168 0.106

IMF2+3 0.698 0.712 0.612 0.556 0.39 0.378 0.256 IMF2+..+5 0.712 0.698 0.586 0.552 0.388 0.326 0.24

圖 6.4 針對 SNR 20db 到 clear 最佳化之基因演算法收斂圖

圖 6.5 針對 SNR 0db 到 15db 最佳化之基因演算法收斂圖

表 6-7 為各 SNR 值經基因演算法最佳化後之辨識率與表 6-6 各 SNR 最佳辨識率 所做的比較,平均辨識率提升約一成三,較沒分解的提升約兩成。

表 6-7 最佳辨識率比較

clear 25db 20db 15db 10db 5db 0db 平均 無分解 0.966 0.948 0.836 0.586 0.326 0.148 0.102 0.558 表 6-6 最佳 0.966 0.948 0.846 0.586 0.396 0.378 0.256 0.625 透過 GA 訓練後 0.988 0.988 0.96 0.82 0.664 0.496 0.368 0.754

表 6-8 為針對各 SNR 的情況下基因演算法搜尋出來的權重結果,大概可看出 SNR 越高則越早分離出來之 IMF 其權重較高,當 SNR 變小時,較晚分離出來的 IMF 其權重有變大趨勢。

表 6-8 各 SNR 最佳化權重分布 最佳化權重

w1 w2 w 3 w4 w 5

clear 0.888707 0.734725 0.927015 0.838923 0.635320 25db 0.765946 0.876823 0.821375 0.508175 0.755942 20db 0.815708 0.919173 0.914520 0.462909 0.056839 15db 0.628405 0.865460 0.816548 0.786353 0.821400 10db 0.169578 0.872017 0.243555 0.998566 0.255446 5db 0.154733 0.363699 0.459583 0.477357 0.439257 0db 0.342323 0.132730 0.456147 0.770005 0.114426

最後,表 6-9 針對板子所錄的乾淨語音作訓練並用基因演算法搜尋後所得之 EMD 權重表,表 6-10 為實現在板子上針對各環境做測試所得之結果。

表 6-9 開發板乾淨語音最佳化 EMD 權重分佈 最佳化權重

w1 w2 w 3 w4 w 5

0.932204 0.363756 0.291636 0.135993 0.293799

表 6-10 實際開發板辨識率 實驗環境 實驗室

(EMD)

菜市場 (EMD)

菜市場 (無 EMD)

馬路 (EMD)

馬路 (無 EMD)

語音 0 0.9 0.6 0.4 0.2 1

語音 1 0.8 0.3 0 1 0

語音 2 1 1 0.3 0.7 1

語音 3 1 0.9 0.7 1 0.9

語音 4 0.9 1 0.6 0.8 1

語音 5 1 1 0.2 0.6 0.6

語音 6 1 0.9 0.4 0.8 0.5

語音 7 1 0.6 0.4 0.9 0.6

語音 8 1 1 1 1 1

語音 9 1 0.9 0.4 1 0.9

平均 0.96 0.82 0.44 0.8 0.75

表6.8中可看出在安靜的錄音環境下,保持著良好的辨識效果,而在人潮最多的 下午五點的菜市場裡使用EMD的辨識率較無使用的大幅提高,最後在下班時段 的大馬路旁使用EMD的辨識率較無使用的高了一些,整體而言使用EMD有助於 提高語音的辨識率及抗噪音的能力。

相關文件