第二章 背景技術介紹
2.3 S PEECH F EATURE
語音特徵(Speech Feature)為語音辨識鑑別出不同字的依據,每一個字、
每一個發音都有其不同的特徵,並根據這些特徵區別出不同的字。圖 2.6 Source-Filter Model 為最常描述語音發聲的模型[2-5],此模型假設激勵源和 濾波器為互相獨立的。
圖2.6 Source-Filter Model
y t( )為環境中聽到的訊號, ( )h t 為共鳴濾波器, ( )x t 為激勵源訊號,Y(w)、 (w)
X 各 為 其 能 量 頻 譜 , H(w) 為 共 鳴 濾 波 器 的 頻 率 響 應 (Frequency Response),又稱為共鳴曲線(Resonant Curve)[2-6]。圖 2.6 的關係可表示為:
( ) ( ) * ( ) y t x t h t
(w) (w) (w)
=
Y = X H (2.3.1)
在語音中激勵源(excitation)為人的聲帶,在弦樂器中激勵源就為琴 弦,在管樂器中激勵源就為簧片。從激勵源出來的訊號經過了聲道、口腔、
鼻腔、胸腔、嘴型等身體器官的共鳴放大就成為了環境中被人耳所聽到的人 聲;在樂器中就是俗稱的共鳴箱。
從聲音的三要素來看,響度定義了聲音的強弱,由聲波的振幅來決定,
振幅越大,表示聲波的能量越高,聲音也就越大聲。音調定義了聲音的高低,
由振動的頻率決定,頻率越高,聲音也就越尖銳。音色定義了聲音的波形,
不同的波形聽起來的感覺就不同。
因此,可以說激勵源控制了音高,共鳴濾波器控制了音色,而不同的語 Excitation
/Source y(t)
x(t) h(t) Resonation
/Filter
圖 2.7 聲帶震動產生的激勵訊號 ( )x t
圖 2.8 激勵訊號的能量頻譜X(w) 圖 2.9 共鳴濾波器的頻率響應(共鳴曲線)H(w)
圖 2.10 合成訊號的能量頻譜Y(w) [2-7]
圖 2.7 為人的聲帶震動後所產生的訊號,通常為一個三角波。圖 2.8 則 為此波型的能量頻譜,可以看出激勵源的訊號主要為基頻與其諧波成分。此 訊號經過了共鳴濾波器的共鳴放大,最後變為環境中所傳遞的訊號,如圖 2.10。
為了進一步了解語音的特性,以下測試同一個字、不同的發音音高來作 Formants: 45 85
Pitch: D
Peak indices: 10 19 29 38 47 … Formants: 46 89
Pitch: E
Peak indices: 11 22 32 43 53 63 … Formants: 52 90
Pitch: F
Peak indices: 12 23 34 45 57 … Formants: 44 90
Pitch: G
Peak indices: 14 26 39 52 64 … Formants: 51 87
Pitch: A
Peak indices: 15 29 43 56 … Formants: 54 95
frequency frequency frequency
frequency frequency frequency
magnitude magnitude
再拿不同的字、同樣的發音音高來作比較,如圖 2.12。這時就可以發現 Formants: 45 85
Pitch: C3
Peak indices: 9 18 26 34 43 Formants: 37 120 170
Pitch: C3
Peak indices: 9 17 26 34 42 50 Formants: 34 94
Pitch: C3
Peak indices: 9 17 25 33 41 50 Formants: 20 162
Pitch: C3
Peak indices: 9 18 26 35 43 51 Formants: 35 117
Pitch: C3
Peak indices: 9 18 26 34 43 51 Formants: 34 143
Word = ‘阿’ Word = ‘甜’ Word = ‘肯’
Word = ‘基’ Word = ‘學’ Word = ‘偉’
frequency frequency frequency
frequency frequency frequency magnitude magnitude
最後再拿同一個字、同樣的發音音高,但不同的人發音來做比較,如圖 Formants: 45 85
Pitch: C3
frequency frequency
frequency frequency
magnitude magnitude magnitude magnitude
經由以上的觀察,可以再次確定語音特徵就是整個共鳴濾波器(在人聲 中共鳴濾波器也稱為聲道濾波器),也就是此共鳴濾波器的頻率響應-共鳴 曲線,而共振峰也為其中的特徵之一。至於激勵訊號則控制了基頻跟諧波的 位置,不為語音的特徵。所以可以藉由判別共鳴曲線的相似性,或者共振峰 的位置來區別出不同的語音文字,本論文也是依據這兩個語音特徵,來作後 續的分析處理。
從語音辨識的觀點(Speech Recognition),估測出的共鳴曲線代表著不同 的發音方式,也就是不同的語音文字;從語音變換(Speech Transform)和語音 合成(Speech Synthesize)的觀點,則對共鳴濾波器係數和激勵訊號做調整,
合成出想要的語音。
而擷取語音特徵的問題,就會轉變成為估測共鳴濾波器係數的問題,或 者直接蒐集大量資料建立共鳴曲線的模型。其中常見的方法為線性預測編碼 (Linear Predictive Coding,LPC)、倒頻譜(Cepstrum)、梅爾倒頻譜係數
(Mel-scale Frequency Cepstral Coefficients,MFCC)、線性感知預測 (Perceptual Linear Predictive,PLP)幾種。