梅爾倒頻譜語音特徵參數擷取

第二章文獻回顧

2.1 梅爾倒頻譜語音特徵參數擷取

圖 2-1：梅爾倒頻譜語音特徵參數擷取流程圖

由於原始語音的資料可能包含一些對於語音辨識系統較無重要性的資訊，或者是會有資料量龐大的問題。所以我們利用語音特徵參數擷取的技術去將原始語音轉換成語音特徵向量，擷取出能夠有利於語音辨識系統來做處理的聲音資訊，且達到降低維度的效果。在許多學者所提出的各種語音特徵參數擷取的方法中，較為人所知的有線性預測係數(Linear Prediction Coefficients, LPC)、感知線性預測係數

(Perceptual Linear Prediction Coefficients, PLPC)[Hermansky, 1991] 與梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)[Davis and Mermelstein, 1980]。而本論文所使用的語音特徵參數擷取法是梅爾倒頻譜係數，因為此語音特徵考慮了人耳的聽覺與發音特性，運用於自動語音辨識時，可以比其他的方法來得好，過

程如圖 2-1，以下為梅爾倒頻譜係數的語音特徵參數擷取步驟說明：

(1) 預強調(Pre-Emphasis)

在特徵擷取流程的一開始，會使原始語音訊號經過一個有限長度 (Finite

Length)的高通濾波器(High-Pass Filter)，用來加強聲波的高頻部份並壓抑住低頻的能量，目的在於想要補償原始語音訊號高頻的部分。需補償的原因可分為兩種。其一種為聲波在空氣中傳遞時，聲波會漸漸衰弱，而聲波的高頻部份會有較明顯得損失；另一種是人類發聲構造的面向，在發聲時，聲門(Glottal) 會抑制住高頻的部份。Z-轉換(Z-Transform)為常見用於預強調的高通濾波器，

其公式如式 2-1。其中𝑥̃[𝑛]為預強調後的語音訊號，而參數𝛼通常為一個 0.9

到 1 之間的數值。

𝑥̃[𝑛] = 𝑥[𝑛] − 𝛼𝑥[𝑛 − 1] (式 2-1)

(2) 取音框(Framing)

長時間的語音訊號有著非穩態(Non-Stationary)的特性。若我們取音框，便可以觀察到語音訊號在短時間內(約 20 至 30 毫秒)，是屬於變化緩慢(Slowly Time Varying)的訊號，所以語音訊號是屬於短時域穩定的訊號(Short-Term Stationary)或稱為半穩定(Quasi-Stationary)的訊號。取音框之目的在於能夠較方便的對後續流程來進行分析處理。一般取音框的方式是每間隔一小段固定時間就對語音訊號取一個音框，且為了不讓音框之間變化過大，會使相鄰的音框彼此進行重疊(Overlap)的動作，重疊長度約為 1/3 至 1/2 個音框長度。

(3) 漢明窗(Hamming Window)

若在時域上對語音訊號作取音框時，會使得此語音訊號的頻域(Frequency

Domain)產生摺積效果而產生訊號失真的情況。所以此步驟之目的為加上ㄧ個窗函數(Window Function)來改善兩端邊界因取音框所造成的不連續現象。窗函數有許多種類，本論文是採用漢明窗。原因是漢明窗擁有主辦葉(Main

Lobes)寬，而邊葉(Side Lobes)較窄的特性，因此可以藉由漢明窗的使用，減少取音框後語音訊號失真的情形。其他常見的窗函數包括漢明視窗(Hamming

Window)、漢尼視窗(Hanning Window) 、矩形視窗(Rectangular Window)及高斯視窗(Gaussian Widow)等。

(4) 離散傅立葉轉換(Discrete Fourier Transform, DFT)

因為在時域難以分析人類的發聲特性，所以通常會將語音訊號從時域轉換到頻域上。透過 DFT，我們可以觀察到每個音框之語音訊號頻譜的表現，以獲取語音訊號的特性。例如觀察不同頻域的能量分佈，一般是使用 DFT 將語音訊號從時域轉換到頻域上。但在實作上為了加快運算速度，通常會使用快速傅立葉轉換(Fast Fourier Transform, FFT)以取代 DFT[Huang et al., 2001]。

(5) 梅爾三角濾波器組(Mel-Scaled Triangular Filterbank)

在ㄧ些研究顯示[Drullman, 1994；Hermansky, 1995；Hermansky, 1998]，由於人耳聽覺對於較低的頻率有較高的敏銳度，較容易分辨出頻率差異。若是在實際頻率為 1K 赫茲(Hz)以下，人類感知頻率與實際頻率之對應關係會接近

線性；當實際頻率大於 1K 赫茲以上，人類感知頻率與實際頻率之對應關係則是接近對數。所以在此步驟利用梅爾三角帶通濾波器 (Mel Triangular

Band-Pass Filter)模擬人耳感知的頻率。在低頻率，濾波器個數較多且頻寬較小；反之在高頻率，濾波器數目相對較少且頻寬較大。而三角帶通濾波器所附帶的優點為能夠降低資料量之維度，並對頻譜進行平滑化(Smooth)且能消除諧波(Harmonic)。

(6) 離散餘弦轉換(Discrete Cosine Transform, DCT)

首先會先對梅爾三角濾波器輸出值使用對數轉換，進行動態壓縮，模擬人耳結構，使每個梅爾三角濾波器輸出值之振幅大小不會有太大差異。然後再經過 DCT 降低語音特徵向量的維度，也使維度間的相關性降低。

(7) 對數能量(Logarithm Energy)

對數能量通常也是個重要的聲學特徵。其計算方式為經過取窗動作後，將語音訊號值取平方並加總起來。ㄧ般而言，會將對數能量與梅爾倒頻譜係數結合在一起。

(8) 時間差量運算(Time Derivatives)

為了進一步將語音訊號在時間軸上的變化記錄下來，必須計算語音特徵在時間序列的一階差量 (First-Order Difference) 與二階差量 (Second-Order Difference)，便可動態的抓住其特質。

2.2 強健性語音特徵技術

在文檔中調變頻譜分解之改良於強健性語音辨識 (頁 19-23)

第二章 文獻回顧

2.1 梅爾倒頻譜語音特徵參數擷取

2.2 強健性語音特徵技術

第二章文獻回顧