分散式語音辨認系統介紹

第二章背景知識與基礎系統

2.1 分散式語音辨認系統介紹

分散式語音辨識系統主要的構想是來自：想要應用在手持設備可以使用語音輸入更多更複雜的指令，但是手持設備又受限於其計算能力以及記憶體的不足。

因此分散式語音辨識系統的架構是將語音辨識分成兩個部分：在手持設備也就是分散式語音辨識系統的前級（DSR front-end）接收語音輸入，繼而抽取語音的特徵參數，經過壓縮、編碼，透過無線通道傳送到伺服器也就是分散式語音辨識的後級（DSR back-end）端進行解碼以及辨識。本論文中之語言辨識前級是使用歐洲電信標準協會編號202 212 V1.1.1（ETSI ES 202 212 V1.1.1）[1]之分散式語音辨識系統前級的標準（ Extended Advance Feature Extraction; XAFE），

圖 2-1則是歐洲電信標準協會編號202 212 V1.1.1之分散式語音辨識系統的架構圖。

圖 2-1：分散式語音系統架構圖

當使用者在使用手持設備時，週遭普遍都有一些環境雜訊的干擾，為了因應此種情況，在分散式語音辨識系統前級在參數抽取之前特別加入了降低雜訊

（Noise reduction）的處理。

在歐洲電信標準協會編號 202 212 V1.1.1分散式語音辨識系統前級中，降低語音雜訊的處理方法是利用一個二階式維納濾波器（Wiener filter），如圖 2-2所示，這是一種能夠有效降低雜訊的方法，圖 2-2 顯示它的方塊圖，它是由兩個串聯的維納濾波器組成，它們的輸出及輸入都是聲音的波形（Waveform）訊號；第一個維納濾波器的輸入是未經處理且帶有雜訊的語音波形訊號，輸出的是經過初步處理的語音波形訊號，它同時也是第二個維納濾波器的輸入波形訊號，

第二個維納濾波器輸出的是已除去大部分雜訊的波形訊號。在第一個維納濾波器中包含了語音偵測的技術（Voice Activity Detection, VAD），用以進行雜訊頻譜的估測（Noise spectrum estimation），第二個維納濾波器則假設經過第

一個維納濾波器的處理，剩餘的加成性雜訊可以用白雜訊（White noise）近似，

不再含語音偵測技術。兩個維納濾波器都是隨著各個音框（Frame）內不同的雜訊特性及訊噪比而設計的；首先依照不同頻率的訊噪比，得到線性頻率上維納濾波器的係數（Linear-frequency Wiener filter coefficients），再將其通過梅爾濾波器組（Mel filter-bank）以得到較平滑且和聽覺系統相關的梅爾維納濾波器係數（Mel-warped Wiener filter coefficient），接著將此梅爾維納濾波器係數作梅爾反離散餘弦轉換（ Mel-warped Inverse Discrete Cosine Transformation, Mel-warped IDCT），以得到在時域上的脈衝響應（Impulse response），最後再把目前音框中的波形訊號通過此脈衝響應以得到輸出的波形訊號。在第二階維納濾波器輸出之前，有一個偏移補償（Offset compensation）

的區塊，用以移除輸出波形中的直流偏移量（DC offset）。

圖2-2：降低雜訊處理系統流程圖

在歐洲電信標準協會編號 202 212 V1.1.1的系統架構中，也訂定了偵測基頻的方法，其用途可以用來做聲調語言之語音的辨識（ Tonal language

recognition）以及重建語音訊號（Speech reconstruction），所以在本論文中將會利用歐洲電信標準協會編號202 212 V1.1.1所偵測的基頻資訊來做國語連續語音的辨認。

在文檔中使用基頻資訊之國語分散式語音辨識系統 (頁 15-18)

第二章 背景知識與基礎系統

2.1 分散式語音辨認系統介紹

第二章背景知識與基礎系統