二、 文獻回顧
(一) 語音特徵參數擷取
語音訊號中所包含的資訊不一定全數都有利於語音辨識,而藉由語音特徵參數擷 取可從語音訊號中擷取出一連串的語音特徵向量,取得較有助於語音辨識的資訊。
現有的語音特徵擷取方式較常見的有線性預測係數(Linear Prediction Coefficients, LPC),感知線性預測係數(Perceptual Linear Prediction Coefficients, PLPC)[24],與 梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)[25]等。本論文是使用 同時考慮人耳聽覺構造和發聲構造,與其對不同頻率的感受程度之梅爾倒頻譜係 數為基礎。本節將簡單介紹梅爾倒頻譜係數的擷取過程,其流程圖如圖 2-1 所示。
圖 2- 1:語音特徵參數擷取流程圖。
預強調
取音框
漢明窗
離散傅立葉轉換
梅爾三角濾波器
離散餘弦轉換
對數能量計算
時間差計算
…
1. 預強調(Pre-Emphasis):此部分是將語音訊號經過高通濾波器(High-Pass Filter)的處理目的是要補償語音訊號高頻之部分,原因可從二個面向討 論,一個是從聲波傳遞之面向,當聲波在傳送中會隨著時間和距離的影 響而衰減,其中較嚴重的部分是在高頻的部分,故使用高通濾波器來補 償高頻之部分。另一個原因是從發聲構造之面向討論,在發聲的過程中 聲門會抑制高頻的部分,聲門是肺部壓出的空氣要經過聲帶的出口,也 就是二片聲帶的開口,所以我們要經過預強調來補償語音訊號高頻之部 分。其公式如式 2-1,其中 ̃[ ]為預強調後之語音訊號, 大多為一個 0.9 到 1 之間的參數值:
̃[ ] [ ] [ ] 2. 取音框(Frame)
由於語音訊號是一個長時間且受干擾的訊號,若將語音訊號切成一段一 段時間間隔較小的音框,可看出其實語音訊號在短時間內的變化是較緩 慢的,即短時域穩定 (Short-Term Stationary) 的訊號,也可稱半穩定 (Quasi-Stationary)的訊號。為了避免音框間的變化太大,所以使相鄰的 音框有段重疊(Overlap)的部分。在 Aurora-2 的語料庫中使用的取樣率是 8000Hz,即取樣間距是 0.000125 秒,一個音框內有 200 個取樣,也就 是 200*0.000125=0.025 秒 , 而 音 框 每 次 向 右 移 80 個 取 樣 , 即 80*0.000125=0.01 秒。
3. 漢明窗(Hamming Window)
由於在時域上對語音訊號取音框會使頻域(Frequency Domain)上產生摺 積效果造成失真的情況,加上視窗函數可以降低失真情形,原因是音框 化等同於使用矩形視窗(Rectangular Window)和原始訊號相乘,因為矩形 視窗會造成語音頻譜的邊瓣葉(Side Lobe)過高的缺點,故使用主瓣葉 (Main Lobe)較寬而邊瓣葉較窄的漢明窗,不但可以增加音框左端和右端 的連續性,也可以減少失真的情形。
8
4. 離散傅立葉轉換(Discrete Fourier Transform, DFT)
語音訊號在時間域受到很多的干擾因素,所以很難直接得到助於辨識的 資訊,通常會通過離散傅立葉轉將語音訊號轉到頻域,觀察不同頻域的 能量分布代表的語音特性。本論文在實作上為了加快運算速度,故使用 快速傅立葉轉換(Fast Fourier Transform, FFT)取代離散傅立葉轉換。
5. 梅爾三角濾波器組(Mel-Scaled Triangular Filterbank)
根據研究顯示[26-28]人耳對訊號中低頻的部分較敏銳,而對訊號中高頻 的部皆較不敏銳,為了有效的使語音訊號也具有此特性,故用梅爾三角 濾波器來模擬人耳之結構,對語音訊號做處理,使用梅爾三角濾波器還 有二個優點,其一是可以降低資料量,另一個優點是可以平滑化和消除 諧波(Harmonics)。通常我們會對做完梅爾三角濾波器組之訊號再取對數,
使語音特徵能量的變異不會那麼的敏感。
6. 離散餘弦轉換(Discrete Cosine Transform, DCT)
經過梅爾三角濾波器組的輸出訊號再經過離散餘弦轉換可以降低特徵 參數之間的相關性,也可以降低語音特徵參數向量維度,並回到倒頻頻 域。
7. 對數能量(Logarithm Energy)與時間差量(Time Derivatives)計算
對數能量也是重要的語音聲學特徵之一,其計算方式為在經過取漢明窗 的動作後,將訊號值取平方和再將先前求得之梅爾倒頻譜係數加上對數 能量,此外還會額外計算其一階差量與二階差量來獲取更多語音特徵參 數在時間軸上的特性。
(二) 強健性語音特徵技術 (Feature Normalization)、資料相關線性語音特徵空間轉換法(Data-Driven Linear Feature Transform)。
其中語音參數正規化法是本論文研究的重點。本節將簡介一些作用在時間序 列域上並且基於語音的統計特性設計的語音參數正規化法。