1.10 聲調特徵
1.10.1. 高維度梅爾倒頻譜係數(High-order Mel-frequency Cepstral Coefficients)
梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)[28]常做為語音辨識 相關應用的聲學特徵。傳統上多計算 13 維係數與時間上差量,而近年有學者顛覆
20
轉換;(4)梅爾三角濾波器組;(5)離散餘弦轉換等程序,計算過程如圖 2-7 所示。
本節依序介紹各個步驟。
預強調是讓語音訊號透過一個高通濾波器,目的在於彌補聲波傳遞時高頻訊
號的衰減。此濾波器的 Z-轉換(Z-Transform)設計如下式:
𝐻(𝑧) = 1 − 𝛼 ∙ 𝑧−1 (2-19)
其中𝛼控制高頻補償的程度;隨著𝛼增加,高頻補償的能量也越多。實做時可將此
濾波器轉換至時域空間表示,如下式:
𝐿𝑦[𝑛] = 𝐿𝑥[𝑛] − 𝛼 ∙ 𝐿𝑥[𝑛 − 1] (2-20) 其中𝐿𝑥[𝑛]為原始音訊第 n 個樣本,經過兩鄰近樣本的差量運算可得新的訊號𝐿𝑦。 本論文皆設定參數𝛼為 0.975,經過預強調處理的頻域能量變化如圖 2-8 所示;藍
色線為經過預強調處理的訊號,可以看出在高頻處的能量較原始音訊增強了不少。
為了分析語音在頻域上的變化過程,所以需要將時域的語音訊號轉換至頻域
Frequency (Hz)
0 8000
Sound pressure level (dB/Hz) 0 20 40
原始音訊 經預強調
圖 二-8 預強調前後之頻域能量比較
21
上。首先須對音訊做音框化(Framing),即每間隔單位時間就取一個音框,兩兩音 框間有部分重疊。然而,截取音框的過程會使靠近邊界訊號產生高頻成分。為了 降低音框化的過程所產生的破壞影響,在進行傅立葉轉換前須做窗化(Windowing) 處理。常見的窗函數設計多是有較寬的主辦葉(Main Lobe)和較窄的邊葉(Side
Lobes),且壓抑高頻處的能量,例如漢明窗(Hamming Window)、升餘弦窗(Raised-cosine Window)與高斯窗(Gaussian Window)等。音框化及窗化如圖 2-9 所示;範 例為一個 25ms 的音框,藍色虛線為漢明窗函數,可看出音框邊界的波形受到窗 函數的限制。
經過窗化處理後的音訊是短時域穩定(Short-Term Stationary)的訊號,在此利 用離散傅利葉轉換(Discrete Fourier Transform, DFT)將語音訊號轉換到頻域上。
𝑌(𝑘) = ∑ 𝐿̃𝑌[𝑛] ∙ 𝑒−𝑗2𝜋𝑘𝑛/𝑁𝑡
𝑁𝑡−1
𝑛=0
, 0 ≤ 𝑘 < 𝑁𝑡 (2-21)
然 而 , 此 計 算 複 雜 度 為O(𝑁2),實做 上會採 用快 速傅立葉轉 換 (Fast Fourier
Transform, FFT)。
由於人耳的聽覺感知與訊號實際頻率大約呈現指數對應關係;聽覺上的八度 音是指感受到兩倍的音高,而實際頻率會高於兩倍。聽覺與真實頻率間的對應關 係 轉 換 至 梅 爾 刻 度 (Mel Scale) , 透 過 下 式 轉 換 得 到 的 頻 率 為 梅 爾 頻 率 (Mel
Frequency):
𝑀𝑒𝑙(𝑓) = 1125 ln (1 + 𝑓
700) (2-22)
22
由於每個時間的資料為度和ㄧ音框樣本數相同,在此需要透過三角帶通濾波器組
(Triangular Band-pass Filterbank)降低資料維度。假設第 m 個三角帶通濾波器的中 心點為𝑓[𝑚],該濾波器的最低與最高頻率分別為𝑓[𝑚 − 1]和𝑓[𝑚 + 1],則頻率𝑘在
此濾波器的權重如下式:
𝐻𝑚[𝑘] =
{
0, 𝑘 < 𝑓[𝑚 − 1]
𝑘 − 𝑓[𝑚 − 1]
𝑓[𝑚] − 𝑓[𝑚 − 1], 𝑓[𝑚 − 1] ≤ 𝑘 < 𝑓[𝑚]
𝑓[𝑚 + 1] − 𝑘
𝑓[𝑚 + 1] − 𝑓[𝑚], 𝑓[𝑚] ≤ 𝑘 ≤ 𝑓[𝑚 + 1]
0, 𝑘 > 𝑓[𝑚 + 1]
(2-23)
而各濾波器的中心𝑓[𝑚]是從梅爾刻度下求取,可以透過式 2-13 將𝑓[𝑚]表示成下
式:
𝑓[𝑚] = (𝑁
𝐹𝑠) 𝑀𝑒𝑙−1(𝑀𝑒𝑙(𝑓𝑙) + 𝑚 ∙𝑀𝑒𝑙(𝑓ℎ) − 𝑀𝑒𝑙(𝑓𝑙)
𝑀 + 1 ) (2-24) 其中𝑁為傅立葉轉換取樣點數,𝐹𝑠為採樣頻率。上式將濾波器組中的最高頻率𝑓ℎ與 𝑓𝑙轉換至梅爾頻率,並分成𝑀 + 1等份,再還原至原始頻率。將式 2-12 與式 2-14
結合,可以得到每個梅爾濾波器組的輸出值如下:
圖 二-9 套用漢明窗前後的變化
23
Transform, DCT),將其轉換至倒頻譜空間。離散餘弦轉公式如下:
𝑐[𝑛] = √2