語音辨識系統於 FPGA 平台之軟體架構與流程

第五章實驗方式與結果

6.2 語音辨識系統於 FPGA 平台之軟體架構與流程

圖 6.4 為 FPGA 平台上之語音辨識系統軟體架構，是以 C 語言所撰寫，可分為 PIO 模組、Audio 模組、LCD 控制模組、資料儲存模組、語音辨識模組、無線發射模組，各模組敘述如下。

1. PIO 模組: 提供與外部輸入裝置做連接並提供相對應的程式，例如:LED 顯示程式、I/O 2. 中斷監控程式、I/O 輸入輸出控制、按鍵控制、指撥開關控制。

3. Audio 模組: 可透過外接麥克風接收輸入語音，並儲存於 SDRAM。

4. LCD 控制模組: 提供相對應的程式來控制字元型 LCD Panel。

5. 資料儲存模組: 語音輸入可以暫存於 SDRAM。

6. 語音辨識模組: 語音辨識演算法，包含 FVQ、EMD、DHMM。

7. 無線發射模組:負責將語音辨識結果傳送至清潔機器人。

Audio模組

LCD顯示 LED顯示按鍵輸入/指

撥開關輸入

主程式語音辨識

模組無線發射模

組

資料儲存模組 PIO 模組

LCD控制模組

麥克風錄音

圖6.4 語音辨識系統於 FPGA 平台之軟體架構

圖 6.5 為 FPGA 平台上之語音辨識系統軟體流程，在進行語音辨識前，必須將訓練後的DHMM 模型參數 A、B、π 存放於 FPGA 平台上的 Flash RAM。語音辨識系統軟體流程是由按鍵是否被按到來判斷是否進入語音辨識的流程，當按鍵被按到後就會開始進語音辨識流程直到完成語音辨識，如果按鍵沒有被按到，軟體流程會停留在等待按鍵輸入狀態。語音辨識流程敘述如下，輸入語音做語音端點偵測取出語音資料，再以EMD 將雜訊分離，然後經語音預強調、語音加上漢明窗、快速傅利葉轉換來取得語音的音框

語音辨識結果。

主程式

按鍵是否被按?

開始麥克風錄音

將錄音資料暫存於

Buffer

語音端點偵測

EMD去雜訊

特徵向量擷取

FVQ

讀取儲存於flash 的DHMM(A，

B，π)參數

語音辨識結果

無線發射模組

是否

codebook

圖6.5 語音辨識系統於 FPGA 平台之軟體流程

6.3 清潔機器人

本論文所採用的清潔機器人是以 AT89S51 為控制器，並且具有馬達模組、UART TO USB、Sensor 模組、ROM、LED 控制電路、電池充電模組、6 個擴充 I/O 點。圖 6.6 為清潔機器人系統方塊圖，敘述如下:

1. 馬達模組: 接收 AT89S51 訊號後，讓清潔機器人動作的裝置。

2. UART TO USB: 與 PC 的 USB PORT 連接進行更新 AT89S51 軟體程式。

3. Sensor 模組: 偵測清潔機器人是否碰撞到物體，並將訊號回傳至 AT89S51。

4. ROM: 軟體設定值存放的記憶體。

5. LED 控制電路: 可控制 LED 顯示。

6. 電池充電模組: 偵測充電電池電壓，並判斷電池是否完成充電。

7. 6 個擴充 I/O 點: 外接無線接收模組，接收 FPGA 平台傳送至清潔機器人的語音辨識結果。

我們可以利用 KEIL C 這套整合式 IDE 將寫好的機器人控制程式，編譯成 AT89C51

的執行碼後，利用UART TO USB 模組將執行碼下載到 AT89C51 進行清潔機器人控制。

AT89C51 是由 C 語言所撰寫，並提供對清潔機器人控制的應用程式，因此可以對清潔機器人做控制。AT89C51 上的 6 個擴充 I/O 是用來做無線接收模組的介面，並將接收到的訊號透過馬達做動作，例如清潔機器人的”前進”、”後退” 、”左轉” 、”右轉”。另外我們也可以透過電池充電模組來判斷機器人是否需要充電，使用 Sensor 模組偵測清潔

器人的應用程式有，馬達控制、碰撞sensor 偵測、LED 顯示控制、電池狀態偵測。

圖6.6 清潔機器人系統方塊圖

6.4 FPGA 平台控制清潔機器人

我們在 FPGA 平台上加入無線發射模組電路，在清潔機器人上加入無線接收模組電

路，就可以利用語音來控制清潔機器人。圖6.7 為無線發射模組的電路圖，電路圖中的 TWS -BS 為無線發射模組:是以 ASK 方式作傳送，其頻率為 315MHZ，工作電壓為 3~12V，傳輸距離為 80m~120m，常用於無線安全系統、汽機車警報系統，遙控門。TWS

-BS 會搭配HT-12E 編碼 IC，而圖 6.7 中的輸入訊號( )經 HT-12E 編碼後輸出至 TWS-BS，再將訊號以無線方式做傳輸。底下為 TWS-BS 與 HT-12E 接腳介紹。

4 1

T

I

~ I

TWS-BS 模組:

Pin1:為接地。

Pin2:為訊號輸入。

Pin3:為電源。

Pin4:為外接天線。

HT-12E 編碼 IC:

7 0

~ A

A

:地址線，可作為密碼設定。

11 8

~ AD

:輸入資料線。

E :傳送資料是否準備完成接腳，低電壓動作。

1 DOUT

:資料輸出接腳(為串列輸出)。

1 OSC

:頻率調整控制，以電組方式調整。

2 OSC

:頻率調整控制，以電組方式調整。

TWS-BS

接收感度-117dBm，工作電壓 3.5V~5.5V。RWS -371 會搭配 HT-12D 這顆解碼 IC，當 RWS -371 收到訊號後會將訊號傳送至 HT-12D 而 HT-12D 將訊號解碼後經做輸

RWS -371 模組:

Pin1:為接地。

Pin2:為訊號輸出。

Pin3:空腳。

Pin4:為電源。

Pin5:為電源。

Pin6:為接地。

Pin7:為接地。

Pin8:為外接天線。

HT-12D 解碼 IC:

7 0

~ A

A

:地址線，可作為密碼設定。

11 8

~ D

D

:輸出資料線。

VT :傳送資料是否準備完成接腳，低電壓動作。

DIN

:資料輸入接腳(串列輸入)。

1 OSC

:頻率調整控制，以電組方式調整。

2 OSC

:頻率調整控制，以電組方式調整。

表6-1 FPGA 平台未加入 FVQ 與 EMD 並在不同噪音環境之辨識結果未加入FVQ 與 EMD 於不同測試環境之辨識率

電視環境冷氣環境廚房人聲

前進 72 90 87.1 65

後退 75 89 82.4 52

停止 71 91 77.2 63

右轉 54 84 71.2 54

左轉 60 86 69.6 63

平均 66.4 88 77.5 59.4

表6-2 FPGA 平台加入 FVQ 與 EMD 並在不同噪音環境之辨識結果加入FVQ 與 EMD 於不同測試環境之辨識率

電視環境冷氣環境廚房人聲

前進 82 95 90.2 81

後退 84 94 87.8 83

停止 83 93 88.4 78

右轉 74 92 80.2 75

左轉 73 91 82.6 72

平均 79.2 93 85.84 77.8

表6-3 FPGA 平台加入 FVQ 與 EMD 在不同噪音環境辨識率提升程度不同環境之辨識率提升程度

電視環境冷氣環境廚房人聲

前進 10 5 3.1 16

後退 9 5 5.4 31

停止 12 2 11.2 15

右轉 20 8 9 21

左轉 13 5 13 9

平均 12.8 5 8.34 18.4

FPGA平台上的辨識率

0 10 20 30 40 50 60 70 80 90 100

電視環境冷氣環境廚房人聲測試環境

平均值% 加入FVQ與EMD於不同測

試環境之辨識率

未加入FVQ與EMD於不同測試環境之辨識率

圖6.9 以 FPGA 平台在不同噪音環境下辨識結果

根據圖 6.9 可看出，在實際 FPGA 平台並加入 FVQ 與 EMD 演算法的辨識率高於未

加入FVQ 與 EMD，加入 FVQ 與 EMD 在上述噪音環境都有超過 80%的辨識率。

根據表 6-3 可以觀察出幾個特點:

1. 在人聲噪音環境下每個語音提升幅度為最高，這是因為人聲背景在未加入 EMD 與 FVQ 時辨識率是最低的。而 EMD 以 GA 來找尋合適的權重值再透過 FVQ 來提升辨識率，所以辨識率提升幅度為最高。

2. 冷氣環境下每個語音提升幅度為最低，這是因為家裡面的冷氣噪音本來就不大，在未加入 EMD 與 FVQ 時辨識率就達 88%。因此以 EMD+FVQ 來提升辨識率程度有限。

第七章結論

本論文在提升語音辨識率方面，是以模糊向量量化(FVQ)來建立離散隱藏式馬可夫模型(DHMM)以提升 DHMM 模型的準確性，並用於語音模型的訓練。同樣以模糊向量量化(FVQ)對測試語音進行量化與辨識。而語音抗雜訊方面，是以經驗模態分解法(EMD) 將含雜訊的語音訊號分解成多組本質模態函式(IMF)，並以實數型基因演算法找出最佳 IMF 組合參數，再將分離出之 IMF 依組合參數還原成語音。本論文以 Aurora2 database 為訓練與測試語料，並以DHMM、DHMM+FVQ、DHMM+EMD、DHMM+EMD+FVQ 四種方式來進行語音辨識實驗。從實驗上的結果來看，以DHMM 加入 FVQ、EMD 與實數型基因演算法找出最佳本質模態函數組合參數的語音辨識率在各種不同的雜訊背景下提升13.952%~28.486%的平均辨識率。可見本論文所提出的方法對具有雜訊的語音辨識率的提升有很好的效果。因此 FVQ 加上 EMD 有助於提升語音辨識率與語音抗雜訊的能力。

同樣以 FVQ+EMD 在 FPGA 語音辨識平台上測試具有雜訊的語音，語音平均辨識

率在不同的噪音環境中提升了5%~18.4%。所以 FPGA 語音辨識平台上加入 FVQ 與 EMD 同樣可以提升語音辨識率與語音抗雜訊的能力。

未來研究方向有:

1.分解經驗模態分解法(EMD)所用的時間太多，不能用於效能差的嵌入式系統，期待

2.目前是針對不同 SNR 的環境噪音來找出合適 EMD 的權重值，希望可以自動判別噪音套入合適的權重值。

參考文獻

[1] Z.Jin and D.L. Wang, “a multipitch tracking algorithm for noisy and reverberant speech, ” IEEE International Conference on Acoustics Speech andSignal Processing, pp.

4218-4221, 14-19 Mar. 2010.

[2] Y.I. Song, Y.Y. Wang, Y.C. Ju, M. Seltzer, I. Tashev and A. Acero “Voice search of structured media data,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp, 1941-1944, 19-24 Apr. 2009.

[3] E. Erzin, “Improving Throat Microphone Speech Recognition by Joint Analysis of Throat and Acoustic Microphone Recordings,” IEEE Transactions on Audio,

Speech , and Language Processing, Vol. 17, No. 7, pp, 1316-1324, Sep. 2009.

[4] C.W. Hsu and L.S. Lee, “Higher Order Cepstral Moment Normalization for Improved Robust Speech Recognition,” IEEE Transactions on Audio, Speech, and Language

Processing, Vol. 17, No. 2, pp, 205-220, Feb. 2009.

[5] Y.k. Choi, K. You, J. Choi and W. Sung, “VLSI for 5000-word continuous speech recognition,” IEEE International Conference on Acoustics, Speech and Signal

Processing, pp, 557-560, 19-24 Apr. 2009.

[6] C. Wan and L. Liu, “Research and Improvement on Embedded System Application of DTW-based Speech Recognition,” International Conference on Anti-counterfeiting,

Security and Identification, pp, 401-404, 20-23 Aug. 2008.

[7] 王小川，語音信號處理，全華科技出版社，2004.

[8] 陳松琳，以類神經為架構之語音辨識系統，中山大學電機工程系碩士論文，2002.

[9] M.C. Mozer, “Neural-network speech processing for toys and consumer electronics,”

IEEE Expert, Vol. 11, No. 4, pp, 4-5, August. 1996.

[10] L. Rabiner and B.H. Juang, Fundamntals of Speech Recognition, Pentice-Hall International,

[11] T. Kinjo and K. Funaki, “On HMM Speech Recognition Based on Complex Speech Analysis,” IEEE Industrial Electronics IECON, pp, 3477-3480, 6-10 Nov. 2006.

[12] J. Yamagishi, T. Nose, H. Zen, Z.H. Ling, T. Toda, K. Tokuda, S. King and S. Renals, “Robust Speaker-Adaptive HMM-Based Text-to-Speech Synthesis,” IEEE Transactions

on Audio, Speech, and Language Processing, Vol. 17, No. 6 pp, 1208-1230, Aug.

2009.

[13] T. Kobayashi, Y. Nakano, K. Ogata and J. Isogai, “Analysis of Speaker Adaptation Algorithms for HMM-Based Speech Synthesis and a Constrained SMAPLR Adaptation Algorithm,” IEEE Transactions on Audio, Speech, and Language Processing, Vol. 17, No. 1, pp, 66-83, Jan. 2009.

[14] Z.H. Ling, K. Richmond, J. Yamagishi and R.H. Wang, “Integrating Articulatory Features Into HMM-Based Parametric Speech Synthesis,” IEEE Transactions on Audio, Speech,

and Language Processing, Vol. 17, No. 6, pp, 1171-1185, Aug. 2009

[15] S.Theodorakis, A. Katsamanis and P. Maragos, “Product-HMMs for automatic sign language recognition,” IEEE International Conference on Acoustics, Speech and Signal

Processing, pp, 1601-1604, Apr. 2009.

[16] K. Yu, F. Mairesse and S. Young, “Word-level emphasis modelling in HMM-based speech synthesis,” IEEE International Conference on Acoustics Speech and Signal Processing, pp, 4238-4241, Mar. 2010.

[17] M. Dehghana, K. Faeza, M. Ahmadi and M. Shridharc, “Unconstrained Farsi handwritten word recognition using fuzzy vector quantization and hidden Markov models,” Pattern

Recognition Letters, Vol. 22, Iss. 2, pp, 209-214, Feb. 2001

[18] U. Harun, O. Ali, R. Sarac and A. Arslan,” A biomedical system based on fuzzy discrete hidden Markov model for the diagnosis of the brain diseases,” Expert Systems with

Applications, Vol. 35, Iss. 3, pp, 1104–1114, Oct. 2008.

[19] N.E. Huang, “The empirical mode decomposition and the Hilbert spectrum for nonlinear

and non-stationary time series analysis,” Proc. R. Soc. London, pp, 903-995, 1996.

[20] Xiong. Xiao, Siong. Chng, and Haizhou. Li, “Normalization of the Speech Modulation Spectra for Robust Speech Recognition,” IEEE Transactions on Audio, Speech, and

Language Processing, Vol. 16, No. 8, pp, 1162-1174, Nov. 2008.

[21] R.L. Haupt and S.E. Haupt, Practical Genetic Algorithms, 2^nd

Edition, Wiley, 2004.

[22] S. Haykin and B.V. Veen, Signals and System 2nd Edition, Wiley, 2003.

[23] V. Oppenheim, R.W. Schafer and J.R. Buck, DISCRETE-TIME SIGNAL PROCESSING 2nd

Edition, Pearson; 1999.

[24] S. Oraintara, Y.J. Chen and T.Q. Nguyen, ”Integer fast Fourier transform,” IEEE Transactions

on Signal Processing, Vol. 50, No. 3, pp, 607-618, Mar. 2002.

[25] H. Mathews, K.D. Fink and Numerical Methods Using MATLAB, 4th Edition, Prentice-Hall, 2004.

[26] X. Huang, A. Acero and H. Wuenon, Spoken Language Processing A Guide to Theory,

Algorithm and System Development, Pearson, 2005.

[27] 8-bit Microcontroller with 4K Bytes In-System Programmable Flash AT89S51, ATMEL.

[28] http://www.altera.com/literature/hb/nios2/n2sw_nii5v2.pdf [29] http://www.altera.com/literature/hb/qts/qts_qii5v4.pdf

[30] H.G. Hirsch and D. Pearce, “The Aurora Experimental Framework for The Performance Evaluation of Speech Recognition Systems Under Noisy Conditions,” in Proc. ISCA

ITRW ASR2000, Sep. 2000.

在文檔中具有強健性語音辨識的無線語音控制系統研製 (頁 76-91)

第五章 實驗方式與結果

6.2 語音辨識系統於 FPGA 平台之軟體架構與流程

Audio模組

LCD顯示 LED顯示 按鍵輸入/指

撥開關輸入

主程式 語音辨識

模組 無線發射模

組

資料儲存模 組 PIO 模組

LCD控制模 組

麥克風錄音

主程式

按鍵是否被 按?

開始麥克風 錄音

將錄音資料 暫存於

Buffer

語音端點偵 測

EMD去雜訊

特徵向量擷 取

FVQ

語音辨識結 果

無線發射模 組

是 否

codebook

6.3 清潔機器人

6.4 FPGA 平台控制清潔機器人

T

I

~ I

~ A

A

~ AD

AD

E :傳送資料是否準備完成接腳，低電壓動作。

1

DOUT

1

OSC

2

OSC

~ A

A

~ D

D

VT :傳送資料是否準備完成接腳，低電壓動作。

DIN

1

OSC

2

OSC

第七章 結論

參考文獻

Speech , and Language Processing, Vol. 17, No. 7, pp, 1316-1324, Sep. 2009.

Processing, Vol. 17, No. 2, pp, 205-220, Feb. 2009.

Processing, pp, 557-560, 19-24 Apr. 2009.

Security and Identification, pp, 401-404, 20-23 Aug. 2008.

on Audio, Speech, and Language Processing, Vol. 17, No. 6 pp, 1208-1230, Aug.

and Language Processing, Vol. 17, No. 6, pp, 1171-1185, Aug. 2009

Processing, pp, 1601-1604, Apr. 2009.

Recognition Letters, Vol. 22, Iss. 2, pp, 209-214, Feb. 2001

Applications, Vol. 35, Iss. 3, pp, 1104–1114, Oct. 2008.

Language Processing, Vol. 16, No. 8, pp, 1162-1174, Nov. 2008.

Edition, Wiley, 2004.

Edition, Pearson; 1999.

on Signal Processing, Vol. 50, No. 3, pp, 607-618, Mar. 2002.

Algorithm and System Development, Pearson, 2005.

ITRW ASR2000, Sep. 2000.

第五章實驗方式與結果

LCD顯示 LED顯示按鍵輸入/指

主程式語音辨識

模組無線發射模

資料儲存模組 PIO 模組

LCD控制模組

按鍵是否被按?

開始麥克風錄音

將錄音資料暫存於

語音端點偵測

特徵向量擷取

語音辨識結果

無線發射模組

是否

第七章結論