S PEECH F EATURE

第二章背景技術介紹

2.3 S PEECH F EATURE

語音特徵(Speech Feature)為語音辨識鑑別出不同字的依據，每一個字、

每一個發音都有其不同的特徵，並根據這些特徵區別出不同的字。圖 2.6 Source-Filter Model 為最常描述語音發聲的模型[2-5]，此模型假設激勵源和濾波器為互相獨立的。

圖2.6 Source-Filter Model

y t( )為環境中聽到的訊號， ( )h t 為共鳴濾波器， ( )x t 為激勵源訊號，Y(w)、 (w)

X 各為其能量頻譜， H(w) 為共鳴濾波器的頻率響應 (Frequency Response)，又稱為共鳴曲線(Resonant Curve)[2-6]。圖 2.6 的關係可表示為：

( ) ( ) * ( ) y t x t h t

(w) (w) (w)

Y = X H (2.3.1)

在語音中激勵源(excitation)為人的聲帶，在弦樂器中激勵源就為琴弦，在管樂器中激勵源就為簧片。從激勵源出來的訊號經過了聲道、口腔、

鼻腔、胸腔、嘴型等身體器官的共鳴放大就成為了環境中被人耳所聽到的人聲；在樂器中就是俗稱的共鳴箱。

從聲音的三要素來看，響度定義了聲音的強弱，由聲波的振幅來決定，

振幅越大，表示聲波的能量越高，聲音也就越大聲。音調定義了聲音的高低，

由振動的頻率決定，頻率越高，聲音也就越尖銳。音色定義了聲音的波形，

不同的波形聽起來的感覺就不同。

因此，可以說激勵源控制了音高，共鳴濾波器控制了音色，而不同的語 Excitation

/Source y(t)

x(t) h(t) Resonation

/Filter

圖 2.7 聲帶震動產生的激勵訊號 ( )x t

圖 2.8 激勵訊號的能量頻譜X(w) 圖 2.9 共鳴濾波器的頻率響應(共鳴曲線)H(w)

圖 2.10 合成訊號的能量頻譜Y(w) [2-7]

圖 2.7 為人的聲帶震動後所產生的訊號，通常為一個三角波。圖 2.8 則為此波型的能量頻譜，可以看出激勵源的訊號主要為基頻與其諧波成分。此訊號經過了共鳴濾波器的共鳴放大，最後變為環境中所傳遞的訊號，如圖 2.10。

為了進一步了解語音的特性，以下測試同一個字、不同的發音音高來作 Formants: 45 85

Pitch: D

Peak indices: 10 19 29 38 47 … Formants: 46 89

Pitch: E

Peak indices: 11 22 32 43 53 63 … Formants: 52 90

Pitch: F

Peak indices: 12 23 34 45 57 … Formants: 44 90

Pitch: G

Peak indices: 14 26 39 52 64 … Formants: 51 87

Pitch: A

Peak indices: 15 29 43 56 … Formants: 54 95

frequency frequency frequency

magnitude magnitude

再拿不同的字、同樣的發音音高來作比較，如圖 2.12。這時就可以發現 Formants: 45 85

Pitch: C3

Peak indices: 9 18 26 34 43 Formants: 37 120 170

Pitch: C3

Peak indices: 9 17 26 34 42 50 Formants: 34 94

Pitch: C3

Peak indices: 9 17 25 33 41 50 Formants: 20 162

Pitch: C3

Peak indices: 9 18 26 35 43 51 Formants: 35 117

Pitch: C3

Peak indices: 9 18 26 34 43 51 Formants: 34 143

Word = ‘阿’ Word = ‘甜’ Word = ‘肯’

Word = ‘基’ Word = ‘學’ Word = ‘偉’

frequency frequency frequency

frequency frequency frequency magnitude magnitude

最後再拿同一個字、同樣的發音音高，但不同的人發音來做比較，如圖 Formants: 45 85

Pitch: C3

frequency frequency

magnitude magnitude magnitude magnitude

經由以上的觀察，可以再次確定語音特徵就是整個共鳴濾波器(在人聲中共鳴濾波器也稱為聲道濾波器)，也就是此共鳴濾波器的頻率響應－共鳴曲線，而共振峰也為其中的特徵之一。至於激勵訊號則控制了基頻跟諧波的位置，不為語音的特徵。所以可以藉由判別共鳴曲線的相似性，或者共振峰的位置來區別出不同的語音文字，本論文也是依據這兩個語音特徵，來作後續的分析處理。

從語音辨識的觀點(Speech Recognition)，估測出的共鳴曲線代表著不同的發音方式，也就是不同的語音文字；從語音變換(Speech Transform)和語音合成(Speech Synthesize)的觀點，則對共鳴濾波器係數和激勵訊號做調整，

合成出想要的語音。

而擷取語音特徵的問題，就會轉變成為估測共鳴濾波器係數的問題，或者直接蒐集大量資料建立共鳴曲線的模型。其中常見的方法為線性預測編碼 (Linear Predictive Coding，LPC)、倒頻譜(Cepstrum)、梅爾倒頻譜係數

（Mel-scale Frequency Cepstral Coefficients，MFCC）、線性感知預測 (Perceptual Linear Predictive，PLP)幾種。

在文檔中利用空間域特徵空間一致性及共鳴曲線相似度之喚醒關鍵字偵測方法 (頁 25-31)

第二章 背景技術介紹

2.3 S PEECH F EATURE

第二章背景技術介紹