• 沒有找到結果。

第二章 語音訊號處理

2.6 特徵值擷取

人耳對於頻率感知並非線性,以正常狀況來說,只對低頻有較高解析,對於高頻解 析就不如低頻明顯。根據人耳特性可以使用梅爾尺度圖,如圖 2.8[7],由圖 2.8 可以看 出 1KHZ 以下為線性遞增,超過 1KHZ 為對數關係。因為梅爾頻率是根據人類的聽覺 特性而定義,Mel 為人類聽覺頻率的感知單位,公式(2-11)為頻率和 Mel 頻率的關係式 [7]。

700) 1 ( log

* 2595 )

( 10

f

f

Mel

= + (2-11)

圖2.8 梅爾尺度圖

本論文以梅爾倒頻譜[7]做特徵值的擷取,因為梅爾頻率的特性較能符合人類聽覺 上的效果,因此將語音的音框經過快速傅立葉轉換後,得到的每個頻率的能量將乘上梅 爾三角濾波器,濾波器算式[7],如公式(2-12):

⎪⎪

圖2.9 梅爾倒頻率運算流程

第三章 語音訊號結合 EMD 訊號分解

經驗模態分解(Empirical Mode decomposition , EMD)是黃鍔博士(Dr. Norden Huang)

於1998年所提出的數據分析方法,EMD可適用於分析非線性(non-linear)和非穩態 (non-stationary)的訊號,所以EMD對於複雜的訊號有很好的解析。EMD會將訊號分解成 許多個內建模態函數(Intrinsic mode function,簡稱IMF)[17]的線性疊加,而分離出的IMF 都有它的物理特性。將分離出的IMF結合「希爾伯特─黃轉換」(Hilbert-Huang transform, 簡稱HHT)[19]即可求得舜時頻率與振幅。本論文利用HHT中將分離IMF的方式將語音分 解成多個IMF,再將分離的IMF組成語音,期望可以降低雜訊。

3.1 瞬時頻率

EMD與傳統傅利葉分析的不同之處為EMD並不需要事先定義基底函數就可直接根 據訊號本身的性質(局部極大值與局部極小值)自動地將訊號分解成多個IMFs的線性疊 加。傳統的傅利葉分析就是一把不會變的尺,無法適應各種不同的複雜訊號;而EMD 就

好像是一把具有彈性的尺,可以為各種不同的複雜訊號量身訂做一把適合的尺。因此將 IMFs從時間域或空間域轉換至頻率域後,會比使用快速傅利葉轉換(Fast Fourier transform, 簡稱FFT)得到更詳細的頻譜資訊,黃鍔博士在1998年所發表的同一篇論文中 [19],另有提出IMFs的轉換公式,其名稱被命名為「希爾伯特─黃轉換」(Hilbert-Huang

transform,簡稱HHT)。而HHT的公式定義如下所示:

∞ τ τ

− τ

= π

d

t CPV X t

Y

1 ( )

)

( (3-1)

其中,CPV為柯西主值(Cauchy principle value),利用 和 可組成一個解析

3.2 立方弧線(Cubic Spline)與模態函數(Intrinsic mode function ,IMF)分解

EMD將訊號分解成許多個內建模態函數(IMF),並將IMF的局部極大值以包絡線

) (x

g

n )

2(

x g

n−

)

2

( x

g g

4

( x )

)

3(

x g )

1

( x

g g

n−1(

x

)

)

3(

x g

n−

) (x

G

x

5 4 3

2

1

x x x x

x x

n3

x

n2

x

n1

x

n

x

n+1

圖3.1 立方弧線

圖3.2為IMF的局部極大值與局部極小值以立方弧線連結而成的包絡線,其中以局部 極大值連結而成的是上包絡線,局部極小值連結而成的是上包絡線。

局部極大值

局部極小值

圖3.2 IMF局部極大值與局部極小值以立方弧線連結而成的包絡線圖

EMD將訊號分解成許多個內建模態函數(IMF),而一個函數必須滿足下列二個條件 才能被定義成IMF:

(a) 極值(局部極大值與局部極小值)的數目與跨零點的數目必須相等或最多相差一個。

(b) 局部極大值的包絡線(envelope)與局部極小值的包絡線,在任一點其兩者的平均必須 為零。

以下為模態函數(IMF)的分解方式分為4個步驟如下:

步驟1:

(1) 尋找訊號中所有的局部極大值,然後採用立方弧線把它們連接起來當作上包絡線,

命名為

h

up(t)。

(2) 尋找訊號中所有的局部極小值,然後採用立方弧線把它們連接起來當作下包絡線,

命名為

h

low(t)。

(3) 然後,計算局部極大值包絡線與局部極小值包絡線的平均包絡線(mean envelope),

命名為

mean

1

(t )

2 ) ( ) ) (

1

(

t h t t h

mean

up

+

low

=

(3-7) (4) 原來訊號(假設為

f

(t))與平均值包絡線之差即為IMF,命名為

h

1

(t )

1

h

1

( t ) = f ( t ) − mean ( t )

(3-8) 步驟2:

如果 不符合IMF的條件,則把 當作是下一步驟的輸入,回到步驟1重新計算,

直到 滿足IMF 的條件。

)

1

( t h

)

1 (

t h

k

)

1

( t

h

)

才會達到,因此定義一個新的條件[19]如下:

圖3.3 15dB雜訊語音分解成6個IMF之分解圖

3.3 模態函數分解結合語音辨識

包含噪音的語音訊號經EMD分解成多個IMF後,其中IMF1訊號主要成分為噪音,

IMF2與IMF3訊號成份才是乾淨語音,而IMF4與IMF5也含有少數語音成份,可由圖3.3 看出。但是IMF1並不全部的成分皆為雜訊,也包含少數語音成份,同樣的,IMF2與IMF3

也包含少數雜訊,不可能都為語音訊號成份。因此本論文使用基因演算法來找出每個 IMF的權重值,再根據每個IMF的權重值將訊號還原成強化後的語音信號。如公式

(3-13)。

=

∧ = n

i

i

i

imf t

w t

X

1

) ( )

( (3-13)

其中 為EMD處理後按照組合權重 重組後的語音信號, 是由基因演算法求得。

本論文以實數型基因演算法找出公式(3-13)中最佳IMF權重值 後,並依每IMF的權重 值 ,將IMF重組成強化的語音訊號,圖3.4為模態函數分解結合語音辨識系統圖。實 數型基因演算法參數設定如下:

(t)

X

i

w

i

w

i

w

i

w

1.每代染色體數16。

2.每條染色體有5個實數基因,分別對應至IMF1~IMF5。

3.染色體存活率為0.5和突變率為0.05。

4.交配方式為隨機配對,演化代數500。

圖3.4 模態函數分解結合語音辨識系統圖

Speech samples

EMD IMFs weighting

(

w1 w2 L wn

) imf

1

imf

2

imf

n

Feature extraction by MFCC

GA

Train codebook

DHMM modeling

Speech recognition test

Acceptable recognition rate?

modify GA

N

testing features

END Y

第四章 模糊向量量化與隱藏式馬可夫模型

經過語音前置處理,每一個音框會產生一個 13 維的特徵向量。本論文將音框的特

徵向量做模糊向量量化,再將模糊向量產生的觀察向量輸入語音辨識平台做最後的辨 識。同樣以模糊向量量化來建立離散的隱藏式馬可夫模型(DHMM)並對 DHMM 作訓 練。完成訓練後,每一個語音會產生一個對應的DHMM 語音模型,在辨識時計算每一 個語音模型產生該語音的機率,機率最高之模型為辨識的結果,語音模型的訓練與語音 辨識系統如圖4.1。

Train codebook by LBG algorithm Training :

Speech Features

Fuzzy Vector Quantization

Recognition : Speech Features

Fuzzy Vector

Quantization The DHMM model

} , , , ,

{ A B π S V λ =

Recognition results

The DHMM model

} , , , ,

{ A B π S V λ =

圖4.1 語音模型的訓練與語音辨識系統

4.1 語音辨識系統

在介紹語音辨識系統前,我們先對 HMM 作簡介,HMM 主要是根據觀察結果估計 出其隱藏的狀態轉移,此結構剛好可以用於描述語音的特性,一連串的音框可以代表著 一連串的觀察結果,而觀察結果的狀態變化對應到隱藏的狀態轉移。對於每個語音模

於設定模型皆由第一個狀態開始,故初始狀態機率不需要訓練。說明訓練方式前,須先

根據 A 、 B 、

π

三個機率集合,我們可以算出一個模型λ 產生一個觀察結果序列

O

省計算時間,定義Forward variable 式子如下:

N

T

N

T −1

出來

以統計出

n

(

u

ij)、

n

(

u

i)、

n

(

u

j)、

n

(

u

j,

o

=

v

k),當統計完所有筆數的語音後,即可更新 參數,然後再以新的參數之模型重複做上述猜測狀態序列和統計更新的動作,直到模型 參數沒變化,即可結束而得到該聲音的模型參數。經統計我們可以重新更新參數如式子 (4-13)、(4-14),圖 4.3 為 DHMM 語音模型訓練流程圖。

)

將所有音框分類後,根據每ㄧ類別內所有的特徵向量計算新的中心點,所有新計算

出來的中心點則取代舊的碼簿成為更新後的碼簿,公式(4-16)為中心點的計算:

=

×

= Nk

n kn k

k

v

V N

1

1 (4-16)

其中

V

k為第 類新的中心點向量,

k v

k =

[ v

k1,

v

k2...

v

kn

]

為屬於第 類的特徵向量, 為 歸類為第 k 類的特徵向量數。藉由重複上述兩個分類和計算中心點的疊代動作。可對碼 簿做訓練,當碼簿不再變動時則代表碼簿已訓練完成。在碼簿完成後即可根據碼簿對音 框的特徵向量做量化,量化後的特徵向量即為觀察向量。

k N

k

由於音框與音框之間是有關聯性的,但是碼簿對音框特徵向量做量化後有贏者全拿 的特性,如果以向量量化對音框的特徵向量做量化動作,會造成只會選取到碼簿中的一 個分組特徵向量,為了改善向量量化只選取到一個分組特徵向量,因此使用了模糊集合 (Fuzzy Set)的三角形歸屬函數(Triangular Membership Function)對量化後的音框特徵向 量做模糊處理,如圖 4.4。在圖 4.4 中 , 為量化後的音框特徵向量,

, 為三角形歸屬函數。

n i

v

i, =1...

v

i

n

i

A

i, =1...

A

i

) x

i

(

μA

A

i

A

i+1

A

1

v

i

v

i+1

v

1

x

圖4.4 特徵向量量化後於三角形歸屬函數圖

三角形歸屬函數的隸屬程度(Degree of Membership),如公式(4-17)。

)

結果更合理也比較準確。最後將語音辨識系統結合模糊向量量化(FVQ)則可把 Forward variable 演算法的起始公式(4-3)結合(4-18)改為公式(4-19),遞迴運算公式(4-4)結合(4-18) 改為公式(4-20),下列式子為模糊向量量化結合 Forward variable 演算法之算式。

起始:

=

帶入初始的DHMM 模型找出每筆語音的最佳狀態序列公式(4-28),當統計完所有筆數 的語音後,即可更新參數,然後再以新的參數之模型重複做上述猜測狀態序列和統計更 新的動作,直到模型參數沒變化時即可結束而得到該聲音的模型參數。經統計我們可以 重新更新參數如式子(4-13)、(4-14),即完成以 FVQ 訓練 DHMM 模型的過程。圖 4.6 為 DHMM 語音模型訓練結合模糊向量量化流程圖。

4.4 語音辨識系統結合 FVQ、EMD 和 GA

為了提升語音辨識系統的辨識率,本論文在 DHMM 模型的訓練上加入了 FVQ,同 樣將FVQ 加入語音辨識系統上。在語音的抗雜訊方面以 GA 結合 EMD 來分離雜訊,

讓語音辨識系統有更好的抗雜訊能力,最後我們將FVQ,EMD 結合實數型 GA 和語音 辨識系統做結合,使得語音辨識系統有更好的辨識率與抗雜訊能力。

圖4.7 為本論文語音辨識系統加入 FVQ,EMD 與結合實數型 GA 的流程圖,圖 4.7 中(a)為語音辨識,其步驟是先將輸入語音做語音端點偵測取出語音資料,再以 EMD 結 合GA 將雜訊分離,然後經語音預強調、語音加上漢明窗、快速傅利葉轉換來取得語音 的音框特徵向量,再將音框特徵向量結合FVQ 並代入以 FVQ 訓練的 DHMM 模型,最 後得到語音辨識結果。

圖 4.7 中(b)為語音 DHMM 模型得訓練,其步驟是先將輸入語音做語音端點偵測取 出語音資料,經語音預強調、語音加上漢明窗、快速傅利葉轉換來取得語音的音框特徵 向量,再將音框特徵向量做向量量化動作並練成codebook,以 FVQ 來取得觀察向量,

代入DHMM 模型並對 DHMM 模型做訓練,最後完成 DHMM 語音模型訓練。圖 4.7 為 語音辨識系統結合FVQ,EMD+GA 圖。

輸入語音

語音端點偵測

語音預強調

漢明窗

快速傅利葉轉

特徵向量擷取

FVQ

以FVQ訓練的 DHMM模型 EMD+GA

辨識結果

Viterbi +FVQ

DHMM Modeling

(a) 語音辨識

Codebook 訓

(b) 語音DHMM模型訓練 輸入語音

語音端點偵測

語音預強調

漢明窗

快速傅利葉轉

特徵向量擷取

圖4.7 FVQ,EMD 與結合實數型 GA 的流程圖,(a)語音辨識,(b)語音 DHMM 模型訓 練

第五章 實驗方式與結果

5.1 實驗語料

本論文採用 Aurora2 database[30]作為語音測試與訓練的基礎,Aurora2 所使用的語 料為歐洲電信標準協會 (European Telecommunications Standards Institute, ETSI) 所發行 的語料。它是一套含雜訊的英語連續數字語料,而實驗的環境與實驗語者皆是美國成年

本論文採用 Aurora2 database[30]作為語音測試與訓練的基礎,Aurora2 所使用的語 料為歐洲電信標準協會 (European Telecommunications Standards Institute, ETSI) 所發行 的語料。它是一套含雜訊的英語連續數字語料,而實驗的環境與實驗語者皆是美國成年

相關文件