第二章 背景知識與基礎系統
2.1 分散式語音辨認系統介紹
分散式語音辨識系統主要的構想是來自:想要應用在手持設備可以使用語音 輸入更多更複雜的指令,但是手持設備又受限於其計算能力以及記憶體的不足。
因此分散式語音辨識系統的架構是將語音辨識分成兩個部分:在手持設備也就是 分散式語音辨識系統的前級(DSR front-end)接收語音輸入,繼而抽取語音的 特徵參數,經過壓縮、編碼,透過無線通道傳送到伺服器也就是分散式語音辨識 的後級(DSR back-end)端進行解碼以及辨識。本論文中之語言辨識前級是使用 歐洲電信標準協會編號202 212 V1.1.1(ETSI ES 202 212 V1.1.1)[1]之分散 式語音辨識系統前級的標準( Extended Advance Feature Extraction; XAFE),
圖 2-1則是歐洲電信標準協會編號202 212 V1.1.1之分散式語音辨識系統的架構 圖。
圖 2-1:分散式語音系統架構圖
當使用者在使用手持設備時,週遭普遍都有一些環境雜訊的干擾,為了因應 此種情況,在分散式語音辨識系統前級在參數抽取之前特別加入了降低雜訊
(Noise reduction)的處理。
在歐洲電信標準協會編號 202 212 V1.1.1分散式語音辨識系統前級中,降 低語音雜訊的處理方法是利用一個二階式維納濾波器(Wiener filter),如圖 2-2所示,這是一種能夠有效降低雜訊的方法,圖 2-2 顯示它的方塊圖,它是由 兩個串聯的維納濾波器組成,它們的輸出及輸入都是聲音的波形(Waveform)訊 號;第一個維納濾波器的輸入是未經處理且帶有雜訊的語音波形訊號,輸出的是 經過初步處理的語音波形訊號,它同時也是第二個維納濾波器的輸入波形訊號,
第二個維納濾波器輸出的是已除去大部分雜訊的波形訊號。在第一個維納濾波器 中包含了語音偵測的技術(Voice Activity Detection, VAD),用以進行雜訊 頻譜的估測(Noise spectrum estimation),第二個維納濾波器則假設經過第
一個維納濾波器的處理,剩餘的加成性雜訊可以用白雜訊(White noise)近似,
不再含語音偵測技術。兩個維納濾波器都是隨著各個音框(Frame)內不同的雜 訊特性及訊噪比而設計的;首先依照不同頻率的訊噪比,得到線性頻率上維納濾 波器的係數(Linear-frequency Wiener filter coefficients),再將其通過 梅爾濾波器組(Mel filter-bank)以得到較平滑且和聽覺系統相關的梅爾維納 濾波器係數(Mel-warped Wiener filter coefficient),接著將此梅爾維納濾 波 器 係 數 作 梅 爾 反 離 散 餘 弦 轉 換 ( Mel-warped Inverse Discrete Cosine Transformation, Mel-warped IDCT),以得到在時域上的脈衝響應(Impulse response),最後再把目前音框中的波形訊號通過此脈衝響應以得到輸出的波形 訊號。在第二階維納濾波器輸出之前,有一個偏移補償(Offset compensation)
的區塊,用以移除輸出波形中的直流偏移量(DC offset)。
圖2-2:降低雜訊處理系統流程圖
在歐洲電信標準協會編號 202 212 V1.1.1的系統架構中,也訂定了偵測基 頻 的 方 法 , 其 用 途 可 以 用 來 做 聲 調 語 言 之 語 音 的 辨 識 ( Tonal language
recognition)以及重建語音訊號(Speech reconstruction),所以在本論文中 將會利用歐洲電信標準協會編號202 212 V1.1.1所偵測的基頻資訊來做國語連續 語音的辨認。