• 沒有找到結果。

第二章   背景技術介紹

2.3   S PEECH F EATURE

語音特徵(Speech Feature)為語音辨識鑑別出不同字的依據,每一個字、

每一個發音都有其不同的特徵,並根據這些特徵區別出不同的字。圖 2.6 Source-Filter Model 為最常描述語音發聲的模型[2-5],此模型假設激勵源和 濾波器為互相獨立的。

圖2.6 Source-Filter Model

y t( )為環境中聽到的訊號, ( )h t 為共鳴濾波器, ( )x t 為激勵源訊號,Y(w)(w)

X 各 為 其 能 量 頻 譜 , H(w) 為 共 鳴 濾 波 器 的 頻 率 響 應 (Frequency Response),又稱為共鳴曲線(Resonant Curve)[2-6]。圖 2.6 的關係可表示為:

( ) ( ) * ( ) y t x t h t

(w) (w) (w)

=

Y = X H (2.3.1)

在語音中激勵源(excitation)為人的聲帶,在弦樂器中激勵源就為琴 弦,在管樂器中激勵源就為簧片。從激勵源出來的訊號經過了聲道、口腔、

鼻腔、胸腔、嘴型等身體器官的共鳴放大就成為了環境中被人耳所聽到的人 聲;在樂器中就是俗稱的共鳴箱。

從聲音的三要素來看,響度定義了聲音的強弱,由聲波的振幅來決定,

振幅越大,表示聲波的能量越高,聲音也就越大聲。音調定義了聲音的高低,

由振動的頻率決定,頻率越高,聲音也就越尖銳。音色定義了聲音的波形,

不同的波形聽起來的感覺就不同。

因此,可以說激勵源控制了音高,共鳴濾波器控制了音色,而不同的語 Excitation

/Source y(t)

x(t) h(t) Resonation

/Filter

圖 2.7 聲帶震動產生的激勵訊號 ( )x t

圖 2.8 激勵訊號的能量頻譜X(w) 圖 2.9 共鳴濾波器的頻率響應(共鳴曲線)H(w)

圖 2.10 合成訊號的能量頻譜Y(w) [2-7]

圖 2.7 為人的聲帶震動後所產生的訊號,通常為一個三角波。圖 2.8 則 為此波型的能量頻譜,可以看出激勵源的訊號主要為基頻與其諧波成分。此 訊號經過了共鳴濾波器的共鳴放大,最後變為環境中所傳遞的訊號,如圖 2.10。

為了進一步了解語音的特性,以下測試同一個字、不同的發音音高來作 Formants: 45 85

Pitch: D

Peak indices: 10 19 29 38 47 … Formants: 46 89

Pitch: E

Peak indices: 11 22 32 43 53 63 … Formants: 52 90

Pitch: F

Peak indices: 12 23 34 45 57 … Formants: 44 90

Pitch: G

Peak indices: 14 26 39 52 64 … Formants: 51 87

Pitch: A

Peak indices: 15 29 43 56 … Formants: 54 95

frequency frequency frequency

frequency frequency frequency

magnitude magnitude

再拿不同的字、同樣的發音音高來作比較,如圖 2.12。這時就可以發現 Formants: 45 85

Pitch: C3

Peak indices: 9 18 26 34 43 Formants: 37 120 170

Pitch: C3

Peak indices: 9 17 26 34 42 50 Formants: 34 94

Pitch: C3

Peak indices: 9 17 25 33 41 50 Formants: 20 162

Pitch: C3

Peak indices: 9 18 26 35 43 51 Formants: 35 117

Pitch: C3

Peak indices: 9 18 26 34 43 51 Formants: 34 143

Word = ‘阿’ Word = ‘甜’ Word = ‘肯’

Word = ‘基’ Word = ‘學’ Word = ‘偉’

frequency frequency frequency

frequency frequency frequency magnitude magnitude

最後再拿同一個字、同樣的發音音高,但不同的人發音來做比較,如圖 Formants: 45 85

Pitch: C3

frequency frequency

frequency frequency

magnitude magnitude magnitude magnitude

經由以上的觀察,可以再次確定語音特徵就是整個共鳴濾波器(在人聲 中共鳴濾波器也稱為聲道濾波器),也就是此共鳴濾波器的頻率響應-共鳴 曲線,而共振峰也為其中的特徵之一。至於激勵訊號則控制了基頻跟諧波的 位置,不為語音的特徵。所以可以藉由判別共鳴曲線的相似性,或者共振峰 的位置來區別出不同的語音文字,本論文也是依據這兩個語音特徵,來作後 續的分析處理。

從語音辨識的觀點(Speech Recognition),估測出的共鳴曲線代表著不同 的發音方式,也就是不同的語音文字;從語音變換(Speech Transform)和語音 合成(Speech Synthesize)的觀點,則對共鳴濾波器係數和激勵訊號做調整,

合成出想要的語音。

而擷取語音特徵的問題,就會轉變成為估測共鳴濾波器係數的問題,或 者直接蒐集大量資料建立共鳴曲線的模型。其中常見的方法為線性預測編碼 (Linear Predictive Coding,LPC)、倒頻譜(Cepstrum)、梅爾倒頻譜係數

(Mel-scale Frequency Cepstral Coefficients,MFCC)、線性感知預測 (Perceptual Linear Predictive,PLP)幾種。

相關文件