如前所述,特徵擷取是自動語音辨識的關鍵成分,它負責精簡且扼要地捕捉 潛藏在語音訊號中的聲學特徵,使這些特徵不僅具有人類感知上的物理意義,也 能實用地與後端的統計模型或辨識器相互契合,以達到更高的辨識率。
若要使語音訊號能使用在隱藏式馬可夫模型架構下的語音辨識中,則此連續 的語音訊號就必須被轉換成為一連串似穩定(quasi-stationary)的離散時間向量 (discrete-time vector sequences)或音框(frame)序列[37-38],這乃是隱藏式馬可夫模
圖2.2 梅爾倒頻譜係數產生流程圖
頻譜分析 頻譜定形
類比/數位轉換 預強 快速傅立葉
轉換
梅爾 濾波器組 離散餘
弦轉換
參數轉換
倒頻譜處理
(時間導數)
語音訊號
音框化 與取窗
特徵向量
12
型一個甚難打破的重要假設。基於此假設,語音訊號的頻譜包絡(spectral envelope) 統計資訊要能夠從每一音框中被擷取出來,使得音框中含有最豐富的聲學資訊。
傳統上語音特徵擷取可以分為三大步驟8[39],頻譜定形(spectral shaping)、
頻譜分析(spectral analysis)和參數轉換(parametric transform),如圖 2.2,以下將詳 細介紹之。
2.2.1 頻譜定形
在頻譜定形的過程中,類比音訊會先透過類比/數位轉換器(A/D converter) 被轉為數位訊號,並經由一些數位濾波器,加強訊號中重要的頻率成分,稱之為 預強(pre-emphasis)。預強可被視為一種高通濾波器(high-pass filter),其 Z 轉換(Z transform)為
1
1]
[
zH z pre (2.3)
一般在時域上我們會以式(2.4)來處理:
) 1 ( )
( )
ˆ(n s n s n
s
pre (2.4)其中,sˆ n( )為第n 個採樣點經預強後的輸出訊號,s
(n )
為第n 個採樣點的輸入訊 號,a 為預強的參數,在本論文中設為 0.975。 pre預強的主要目的在於,語音在空氣中傳送時,高頻部分的能量會隨著時間快 速遞減,而人耳的外聽道的共振作用恰可提高頻率區間為2000~5000 Hz 的聲音 強度,因此我們需要預強來模擬人耳外聽道的功能以彌補聲音高頻部分的能量損 失。其次,也因著人耳對於音訊頻譜上超過1000 Hz 的區域較為敏感,預強就能
8 其它非基於頻譜封包的方法,見[5, 36]。
13
加強這些高頻共振峰(formants)的重要性[39]。
2.2.2 頻譜分析
頻譜分析,顧名思義,即藉著分析語音訊號的頻譜(spectra)擷取出有用的聲 學特徵。由於語音訊號的波形在時域上變化十分迅速且無一定的規則,而難以在 後端作進一步處理。但若藉著快速傅立葉轉換(fast Fourier transform, FFT),把語 音訊號由時域轉成頻域,則可發現在短時間(20-40 ms)的情況下,頻譜呈現出週 期性的變化。因此我們可假設語音訊號為短時間穩定(short-time stationary)或似穩 定的(quasi-stationary),便可每隔一小段時間對語音訊號取一個音框。為了讓相鄰 音框與音框之間能保有相互關聯,相鄰音框間會重疊(overlap)一小段時間,這些 動作稱為音框化(framing)。在本論文中一個音框長設定為 20 ms,音框間重疊為 10 ms。
又因著每個音框是在固定時間點被切割,其邊界便會造成不連續現象,這會 使得音框經過後面的快速傅立葉轉換將產生高頻雜訊。為了減低此雜訊的產生,
音框在快速傅立葉轉換前會乘上一個漢明窗(Hamming window),稱之為取窗 (windowing),以增加音框附近的連續性。漢明窗的表達式如下,其中為
Ham控 制漢明窗的參數,在本論文設定為0.46。
otherwise ,
0
1 1
0 1 ,
cos 2 )
1 ) (
( n ,,...,N
N n n
w Ham Ham
(2.5)在音框化與取窗的過程後,我們就可藉由快速傅立葉轉換將語音訊號轉換為 頻域上的功率頻譜(power spectrum),其表達式如下:
1
0
2
2 ) ( )
( N
n
N k i j
N k
i ej x n e
X (2.6)
14
其中,xi是第i 個音框向量,xi(n)為第i 個音框向量中的第 n 個值,N 是頻域上 的取樣點數。
頻譜分析的方法有很多,梅爾倒頻譜係數(Mel-frequency cepstral coefficients, MFCCs)9是目前在語音辨識上最廣為使用的聲學特徵[40]。MFCCs 的演算法由三 個主要部分組成:梅爾頻率尺度(Mel-frequency scale)、三角濾波器(triangular filters)與離散餘弦轉換(discrete cosine transform, DCT)。
根據人類聽覺特性,梅爾頻率尺度藉著扭曲原本高頻(大於1000 Hz)聲音 的線性頻率尺度來模擬人耳內部基底膜(basiler membrane)傳遞到聽覺神經的現 象,其表達式如下,在本論文中參數
設為1127: 波(harmonics)的作用,以突顯原語音的共振峰。三角濾波器的表達式如下:
15
高的頻率,M 為三角濾波器組的個數。在本論文中共取 18(M 18)個三角濾 波器。
為了模擬人耳對於頻率能量變化的遲鈍,我們會再將三角濾波器輸出的值作 對數轉換,再經由離散餘弦轉換而成為MFCCs:
L k n
k n e
X n
C N
k
N kn t j
t[ ] log| ( )|cos ( 0.5) , 0,1,...,
1
2
(2.10)其中,其中Xt()是第t 個音框向量在頻域的成分,N 是頻域上取樣點數,n 是第 n 個 MFCC。離散餘弦轉換是一種反傅立葉轉換(inverse Fourier transform, IFT),
因此我們將轉換後的特徵稱為倒頻譜(cepstrum),其不僅能代表每一音框語音訊 號的頻譜包絡變化資訊,更能降低特徵維度間的空間關聯性(spatial correlation),
使後端的隱藏式馬可夫模型在處理每一類別的共變異矩陣(covariance matrices) 並作對角化假設時,資訊損失不會太多。再者,此降維的動作也能加快辨識的效 率。
2.2.3 參數轉換
由於隱藏式馬可夫模型亦具有特徵向量獨立(observation independence)的假 設,而忽略了語音訊號在時間上的關聯性。因此,我們不僅讓相鄰音框保有重疊 聲學資訊外,更在每一音框間加入動態資訊(dynamic information)。常見的方法則 是在目前音框的特徵向量之後,加入它與附近音框的一階和二階的時間差量 [11]:
P
p P
p
p t p
t t
p
n C n C p n
C
1 2 1
2
]) [ ]
[ ( ]
[ (2.11)
16
除了以時間導數作為時間或動態資訊上的整合方式外,Makino 等人提出了 另一種稱為多向量輸入(multi-vector input)的方法,能夠利用來自某一音框附近較 長的語音段落,與原音框前後串接,形成一個新的時域-頻域(temporal-spectral) 特徵向量,再對這些短期的語音段落進行分類10[10]。無可避免地,這種處理短 期特徵向量的方式有可能會嚴重破壞原有向量所屬的類別與機率分佈,因此,一 般來說,多向量輸入還會再進一步結合鑑別分析(discriminant analysis),依據類 別資訊將原有的特徵經過線性或非線性轉換成更具鑑別性的特徵,例如,LDA 就在此方面取得不錯的效果[41]。
10 Makino 等人的工作在於以多向量作為後端多層式感知器(multi-layer perceptron, MLP)模型的 輸入(input),用來從事子音(consonant)辨識。Hermansky 認為,這種時域-頻域的圖樣(pattern) 較適用於特別設計的分類器,如多層式感知器,見[7]。
17
值得一提的是,以多向量輸入這種特徵串接(feature concatenation)的方式,
搭配主成分分析(principal component analysis, PCA)11或其它鑑別分析(如LDA),
也可用來取代傳統離散餘弦轉換的工作12[19],如圖 2.3,因為此二者在一定程度 上亦具特徵去相關(feature de-correlation)的作用(見 2.3.2 節)。
11 本論文之後皆以 PCA 來簡稱『主成分分析』。
12 亦有許多方法將多向量輸入應用在倒頻譜係數(cepstrum)之後,見[26, 27],但若我們使用以線 性鑑別分析為基礎的降維方法提前應用在梅爾頻譜(Mel-spectrum)之後,一來可保留了與人類 聽覺系統相似的特性,見[32];二來則不必再重複與離散餘弦轉換相同性質的處理。
表2.1 本論文中梅爾倒頻譜係數架構之特徵擷取使用到的係數
取樣頻率 16 kHz
音框長度 320 點, 20 ms 音框重疊 160 點, 10 ms
預強 0.975
漢明窗 0.46
三角濾波器 18 組
離散餘弦轉換 12 階
能量及差量 能量維1 維,一階、二階差量倒頻譜各 13 維,總共 39 維
18