• 沒有找到結果。

第四章 特徵參數補償法之相關改進

N/A
N/A
Protected

Academic year: 2021

Share "第四章 特徵參數補償法之相關改進 "

Copied!
12
0
0

加載中.... (立即查看全文)

全文

(1)

第四章 特徵參數補償法之相關改進

4.1 群集式為基礎之多項式擬合統計圖等化法

縱觀前面章節回顧,若依照語音特徵參數的處理層面與出發點不同,大致上目前

的主要研究方向,可概分為二類:第一種是直接從雜訊語音特徵參數的特徵值域

(Feature Domain)進行特徵參數補償或特徵參數轉換,此類研究方向通常假設有

關於雜訊干擾語音訊號的先備知識(Prior Knowledge)或是假設乾淨語音特徵參數

與雜訊語音特徵參數間存在著某種固定的關係,所以在訓練階段可以事先求算此

一關係,而在測試階段利用此一關係進行補償,因此此種研究方向通常能有較佳

的辨識效能。然而此種研究方向卻存在個潛在的隱藏問題,因為雜訊干擾語音訊

號的影響並非絕對是一對一的線性關係,所以可能因某些非預期的因素影響,造

成特徵參數補償或特徵參數轉換的效果不佳,或更進一步使得辨識效能驟降;另

一種研究方向是利用一些較不容易受雜訊干擾而有所影響的語音特徵參數特徵

值的統計分布特性(Distribution Characteristics),當作是特徵參數補償或是特徵參

數轉換的依據,通常此研究方向相較於前者只需額外的短暫運算時間即可獲得良

好的辨識效能。但有些方法往往會事先對語音特徵參數的統計分布做一些限制或

假設,例如假設語音特徵參數的分布是高斯分布等,然而此類假設並非完全正

確,因此可能使得方法的補償效果有所侷限,此外,雜訊干擾語音訊號除了會產

生統計特性不匹配的問題外,因其本身的隨機特性,同時也會對語音訊號加入了

不確定性(Uncertainties),而此研究方向只能有效處理統計特性不匹配的問題,卻

無法解決由雜訊干擾所產生的不確定性問題。在此,吾人針對目前一些較廣為討

論的語音強建技術做一分類圖,分類圖如圖 4-1 所示。有鑑於此,吾人嘗試結合

二種研究方向的優點,結合語音特徵參數的統計分布特性與雙聲源語料進行語音

特徵參數補償,此外為了能符合實際語音特徵參數的統計分布,吾人搭配多項式

(2)

噪音語音訊號

特徵值域 統計分佈

倒頻譜平均消去法 [Furui 1981]

倒頻譜正規化法 [Vikki et al. 1998]

高階動差正規化法 [Hsu et al. 2006]

統計圖等化法 [Molau 2003;

Torre et al. 2005]

分位差統計圖等化法 [Hilger et al. 2006]

最佳機率過濾法 [Neumeyer et al. 1994]

編碼向量相關之倒頻譜正規化法 [Acero 1990]

特徵空間轉換

異質性線性鑑別分析 [Kumar 1997]

核函數線性鑑別分析 [Mika 1999]

主成分分析 線性鑑別分析 [Duda et al. 1973]

異質性鑑別分析 [Saon et al. 2000]

特徵參數補償

雙聲源為基礎分段線性補償 [Deng et al. 2000]

隨機映對法 [Sankar et al. 1994]

特徵參數正規化

最大相似度隨機映對法 [Wu et al. 2005]

鑑別式隨機向量映對法

最小分類錯誤 [Wu et al. 2006]

最大交互訊息 [Droppo et al. 2005]

特徵參數重建

遺失特徵理論 群集為基礎 [Raj et al. 2004]

共變異為基礎 [Raj et al. 2004]

圖 4-1 語音特徵參數補償或轉換的研究方向分類圖

數據擬合(Polynomial Data Fitting)方法的使用,以資料導向(Data Driven)的方式近 似實際的統計分布,因此吾人稱其為群集式為基礎之多項式擬合統計圖等化法 (Cluster-based Polynomial-Fit Histogram Equalization, CPHEQ)[Lin et al. 2007a, 2007b]。

多項式數據擬合的精神是當給定一些資料點數 ( u ,

i

v

i

) ,若要以一個函數來描

述反應變數(Response Variable) v 與解釋變數(Explanatory Variable)

i

u 關係,通常

i

可使用迴歸模型(Regression Model) G ( ) u

i

來表示,換句話說迴歸模型可用來解釋

在 給 定 u 的情況下,預測

i

v 的可能值為何。通常迴歸模型

i

G ( ) u

i

可 依 係 數

(Coefficients)組合不同而表示成線性或非線性型式,並且 G ( ) u

i

係數的選擇影響預

測值 v~ 的準確性甚鉅,一般可利用最小誤差平方和 (Minimum Sum of Squares

i

Error)求得,換言之,若將所有 u 分別代入迴歸模型所求得的預測值

i

v~ 和實際觀

i

測值 v 的誤差值平方和為最小,此意謂著經由廻歸模型所預測出的值會跟實際的

i

(3)

值較相似,此法又可稱最小平方迴歸法(Least-Squares Regression)[Montgomery et al. 2006]。假設 G ( ) u

i

為一 M 階的線性多項式函數,那麼在給定 u 的情況下,

i

v 的

i

預測值 v~ 可經由下列迴歸模型進行預測:

i

( ) ∑

=

= +

+ +

+

=

= M

m

im M m

i M i

i i

i Gu a au a u a u a u

v

0 2

2 1

~ 0 L

(式 4-1)

因此吾人利用與統計圖等化法相同的假設,假設測試語句之語音特徵參數的 統計分布會和訓練語料特徵參數的統計分布一致,並且新的語音特徵參數可經由 其對應的累積密度函數透過一轉換函數 G ( ) • 求得。此外,為了解決傳統統計圖等 化法利用查表進行轉換動作所需的記憶體空間與運算器處理時間的問題,吾人採 用多項式轉換函數描述轉換函數 G ( ) • 進行補償動作,且在此吾人假設語音特徵向 量中,每一維語音特徵參數間彼此為獨立的,因此每一維語音特徵參數皆可獨立 分開進行補償。此外為了方便表示,吾人重新定義符號 Y 為語音特徵向量及

t

y 代

t

表某一維的語音特徵參數(省略維度的索引值),因此對於每一維語音特徵參數的 補償可經由用下式求得:

( )

( ) ∑ ( ( ) )

=

=

= M

m

t m m

t

t G CDF x a CDF x

x

0

ˆ

(式 4-2)

其中 M 為多項式轉換函數階數(Order), a 為多項式轉換函數的係數,

m

CDF ( ) x

t

t 個音框的語音特徵參數所對應的累積密度函數,此外為了擷取住不同雜訊對

語音訊號的干擾情形,吾人利用向量編碼技術對雙聲源語料中的雜訊語料訓練出

一組高斯混合模型,先以 K -分群演算法( K -Mean)[Alpaydin 2004]計算每個高斯

分布參數的初始種子(Initial Seeds),接著再以期望值最大化演算法,迭代數次以

更新高斯混合模型內每個高斯分布的參數,最後,每個高斯分布可視為一個群

集,且每個高斯分布可被視為是某些雜訊干擾某些音素的影響情形,高斯混合模

型表示如下:

(4)

( ) ∑ ( ) ( ) ∑ ( )

=

=

Σ

=

= K

k

k k t k K

k

t

t P k pY k c N Y

Y p

1 1

,

;

|

μ (式 4-3)

其中 K 為高斯混合模型中所有高斯分布的個數, p ( Y

t

| k ) 為雜訊語音特徵向量 Y

t

落在第

k

個高斯分布的相似度,

P

( )

k

為第

k

個高斯分布的事前機率。因此,吾人 使用和雙聲源為基礎分段線性補償相同的概念(如式 2-43),假設對於每一群集

k

裡的雜訊語音特徵參數 y 和乾淨語音特徵參數

t

x 間的關係式可經由式 4-2 進行

t

補償,因此利用最小均方誤差的概念結合式 4-2,補償後的雜訊語音特徵參數 y~

t

可得下列關係式求得:

[ ] [ [ ] ] ( ) [ ]

( ) ( ( ) )

∑ ∑

= =

=

⎟ ⎟

⎜ ⎜

⎟ ⎟

⎜ ⎜

× ⎛

=

=

=

=

=

K k

M m

t m km

t

K k

t t t t

t t

t t t

y CDF a

Y k P

k Y x Y k P k

Y x Y

x x y

1 0

1

|

,

|

| ,

| ˆ |

~

E EE E

(式 4-4)

其中 P | ( k Y

t

) 為給定雜訊語音特徵向量 Y 下,發生在第

t k

個高斯分布的事後機 率,且每一群集皆有一組對應的多項式轉換函數 G

k

( ) • 。對於每一群集

k

所對應 的多項式轉換函數 G

k

( ) • 的係數 a

km

,則可經由最小化下列均方誤差(Squares Error)而得:

( )

( ) ( )

= =

⎟ ⎟

⎜ ⎜

⎛ ⎟ ⎟ ×

⎜ ⎜

⎛ −

=

1

0

2

0

2

|

T t

t M

m

t m km

t

k

x a CDF y p k Y

E (式 4-5)

其中 T 為所有訓練語料的音框個數, x 為雙聲源語料中乾淨語料所擷取出的語音

t

特徵參數, y 為雙聲源語料中雜訊語料所擷取出的語音特徵參數,而

t

CDF ( ) y

t

則 是 y 所對應的累積密度函數值。因此只需利用

t

a 對式 4-4 做偏微分令其為零,

km

即可透過解聯立方程式求得每個多項式轉換函數的係數。

但由式 4-4 可看出,新的語音特徵參數的求得必須將 CDF ( ) y

i

代入所有每一

群集

k

的多項式轉換函數 G

k

( ) • ,然後再將多項式轉換函數輸出的特徵值乘上給

(5)

Y ,會發生在群集

t k

的事後機率,因此,在實作上,當分群數變多,所需的處 理器運算時間會隨之增加,因此吾人利用最大事後機率的概念,重新定義式 4-4 成如下:

( ) ( ( ) )

( )

( ) ( )

∑ ∑

= =

=

⎟ ⎟

⎜ ⎜

⎛ ⎟ ⎟ ×

⎜ ⎜

= ⎛

=

=

K k

t M

m

t m km

K k

t k

t t

t

Y k y

CDF a

y CDF G Y k x

y

1 0

1

|

ˆ |

~

δ δ

(式 4-6)

( ) ( )

⎩ ⎨

⎧ =

= otherwise

|' max arg if

0

|

t

1 k

k'

p k Y

t

Y

δ k (式 4-7)

其中 δ | ( k Y

t

) 為克羅內克函數(Kronecker Delta Function),判斷的依據是計算在給 定給定雜訊語音特徵向量 Y 下,發生在不同高斯分佈的事後機率,唯具有最大事

t

後機率的高斯分布

k

設為 1,其於的皆設為 0。因此實作上對於每個雜訊語音特 徵向量 Y 而言,需先計算在給定

t

Y 情況下,找出其發生在某個高斯分布下的事後

t

機為最大的高斯分佈,再將該音框裡每一維特徵參數所對應的累積密度函數帶至 該高斯分布所對應的多項式轉換函數 G

k

( ) • 即可,而非像式 4-4 需將累積密度函 數代入至每個高斯分布所對應的多項式轉換函數。因此式 4-6 多項式轉換函數的 係數估測方式如下:

( ) ( )

= =

⎟ ⎟

⎜ ⎜

⎛ ⎟ ⎟ ×

⎜ ⎜

⎛ −

=

1

0

2

0

2

|

T t

t M

m

t km

t

k

x a CDF y k Y

E δ (式 4-8)

然而式 4-5 與式 4-8 最大的差異只是在於群集指派(Cluster Assignment)的方式不

同,式 4-5 屬於軟性指派(Soft Assignment),每個雙聲源訓練語料樣本對於每個

群集的均方誤差皆有貢獻,貢獻程度取決於該雜訊語音特徵落在對應群集的事後

機率,而式 4-8 屬於硬性指派(Hard Assignment),因為每一個訓練樣本只會單單

(6)

多項式迴歸 訓練高斯

混合模型 高斯混合模型

估測每一群集的 多項式轉換函數

多項式轉換 尋找最相近的群集 函數

雙聲源語音 雜訊語音 訓練階段

測試階段

( )

t

k P k Y

k =argmax ' |' ˆ

累積密度 函數估測

累積密度 函數估測 乾淨語音

Xt

Yt

( )

t

Train y C

xt

( )

Gk 雜訊語音 k

t

( )

t

Test y

C ˆ

y~t

圖 4-2 群集式為基礎之多項式擬合統計圖等化法的流程圖

地落在某一群集內,對於其他群集並不會有任何影響,最後群集式為基礎之多項 式擬合統計圖等化法的整體實作流程如圖 4-2 所示。

本論文所提出的方法與以雙聲源為基礎之分段線性補償(SPLICE)的不同之 處可由幾點不同層面進行探討:

(1) 在以雙聲源為基礎之分段線性補償中,假設每一群集內所有的乾淨語音 特徵與雜訊語音特徵間的差異是固定的,並且只利用一線性補償向量 (Linear Compensation Vector)進行補償,然而實際上,縱使二個不同的音 框被分到同一群集內,其受影響的程度亦會是不相同的,乾淨語音特徵 與雜訊語音特徵並非是線性關係的,因此吾人採用非線性的多項式轉換 函數來描述此非線性補償的關係。

(2) 雙聲源為基礎之分段線性補償直接對語音特徵向量進行補償,而本論文

所提出的方法除了利用語音特徵向量做補償的依據外,更結合了不易受

雜訊干擾的統計分布特性-累積密度函數達到補償的作用,因此,本論

文所提出的方法,勢必會比以雙聲源為基礎之分段線性補償更具強健性。

(7)

表 4-1 群集式為基礎之多項式擬合統計圖等化法中使用硬性指派與軟性指派的 辨識結果

乾淨語料訓練模式

32 64 128 256 512 1024 19.73 19.35 18.19 17.27 16.36 15.41 19.77 19.34 18.19 17.24 16.33 15.40

分 群 個 數 硬 性 指 派

軟 性 指 派 指 派 方 式 平均字錯誤率(%)

4.2 群集式為基礎之多項式擬合統計圖等化法相關實驗結果

首先,吾人先探討硬性指派與軟性指派的對於辨識效能的影響程度,吾人嘗試使 用不同群集數的高斯混合模型,包括 32 個、64 個、128 個、256 個、512 個與 1024 個,而多項式轉換函數的階數初步設為 3 階,實驗結果如表 4-1 所示,由表 格可清楚發現隨著高斯混合模型內的高斯分布個數增多,平均字錯誤率會隨之下 降,在分群數達 1024 個群集時,平均字錯誤率達 15.41%左右,相較於梅爾倒頻 譜係數(MFCC)基礎實驗結果,平均字錯誤率達 62%左右的相對減少。此外,從 表中亦可看出硬性指派與軟性指派的辨識結果並無任何顯著差異,主要的原因可 能是因為在式 4-5 中,需計算在給定雜訊語音特徵參數 y 下,其發生在第

t k

個高 斯分布的事後機率,而此事後機率有可能只會被某一個高斯分布所支配著 (Dominate),相對其他 K − 1 個高斯分布的事後機率都會變得很小,也就意謂著該 訓練樣本對於其他 K − 1 個高斯分布的誤差貢獻幾近可忽略,所以式 4-5 與式 4-8 的效用大致相同,因此在實作上,只需利用硬性指派即可,以便降低處理器運算 時間。

下一個實驗吾人採用硬性指派的方式,觀察使用不同階數的多項式轉換函數

與不同群集個數的高斯分布混合模型對於辨識效能的影響情形,欲探討此二種因

素與群集式為基礎之多項式擬合統計圖等化法間的關係,實驗結果如表 4-2 所

示,且不同設定下的辨識結果比較折線圖如圖 4-3 所示。由圖 4-3 中可看到,隨

著分群數增加,平均字錯誤率會隨著降低,在分群數較少時,高階的多項式轉換

(8)

表 4-2 群集式為基礎之多項式擬合統計圖等化法中使用不同分群數與搭配不同 多項式階數的辨識結果

乾淨語料訓練模式

1 2 3 4 5 6

32 20.70 20.36 19.84 19.80 19.75 19.73 64 20.29 20.00 19.49 19.44 19.37 19.35 128 18.95 18.71 18.24 18.21 18.20 18.19 256 17.82 17.60 17.33 17.32 17.27 17.43 512 16.84 16.58 16.36 16.40 16.53 16.84 1024 15.69 15.57 15.41 15.62 16.04 17.14 分

群 個 數

平均字錯誤率(%) 多 項 式 階 數

15.00 16.00 17.00 18.00 19.00 20.00 21.00

1 2 3 4 5 6

多項式階數

(

%

)

32群 64群 128群 256群 512群 1024群

圖 4-3 群集式為基礎之多項式擬合統計圖等化法中使用不同分群數與搭配不同 多項式階數的辨識結果比較圖

函數有較好的效果,相反地,在分群數較多時,低階的多項式轉換函數會有較好 的效果,且愈往高階辨識效能愈差,主要原因是因為雙聲源訓練語料樣本有限,

若分群數太多,每一群集內的訓練樣本數相對會減少,若再利用高階的多項式轉 換函數,則此函數會過度擬合(Over-Fit)訓練樣本,造成多項式轉換函數的估測容 易受到異常值(Outlier)的影響,而失去多項式迴歸的一般化(Generalization)能力,

此情形亦可解釋為維度的詛咒(The Curse of Dimensionality)。因此在實作上,若

分群數較少時,即每一群集內的資料樣本較多時,則可利用較高階的多項式轉換

(9)

表 4-3 群集式為基礎之多項式擬合統計圖等化法中以 1024 分群數搭配 3 階多項 式轉換函數的辨識結果

平均字錯誤率(%)

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 1.04 1.06 1.25 1.02 1.04 1.06 1.25 1.02 1.04 1.09

20dB 2.30 1.75 1.70 2.34 1.78 2.39 1.91 1.85 2.52 3.36

15dB 3.99 2.63 2.51 3.39 2.76 3.14 2.59 3.61 4.11 4.38

10dB 7.03 4.72 4.68 7.47 5.59 7.44 5.22 6.76 9.21 8.83

5dB 16.89 14.30 15.72 18.64 15.60 19.32 13.63 18.02 26.90 24.21 0dB 45.10 40.93 45.45 45.36 40.22 47.73 36.56 44.74 64.51 54.78 -5dB 79.34 73.94 80.85 80.96 73.87 78.30 71.37 77.88 85.94 79.99 平均 15.06 12.87 14.01 15.44 13.19 16.00 11.98 15.00 21.45 19.11 乾淨語料訓練模式

測試集A 測試集B 測試集C

表 4-4 群集式為基礎之多項式擬合統計圖等化法中以 1024 分群數搭配 3 階多項 式轉換函數結合倒頻譜平均消去法的辨識結果

平均字錯誤率(%)

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 1.14 1.06 1.28 0.89 1.14 1.06 1.28 0.89 1.35 0.97

20dB 2.46 1.87 1.76 2.13 1.84 2.06 1.61 1.70 3.10 2.48

15dB 3.99 3.11 2.74 3.27 2.27 2.96 2.18 3.42 4.24 3.45

10dB 7.74 4.47 4.92 7.31 5.19 6.56 3.97 5.55 8.87 7.13

5dB 18.21 13.91 16.25 18.94 12.83 16.11 12.35 16.11 20.88 19.17 0dB 45.19 41.20 47.72 43.54 37.00 46.16 35.73 44.99 49.74 50.63 -5dB 80.35 75.42 82.85 77.35 71.11 80.53 70.47 80.96 82.10 80.56 平均 15.52 12.91 14.68 15.04 11.83 14.77 11.17 14.35 17.37 16.57 乾淨語料訓練模式

測試集A 測試集B 測試集C

函數以求得較精細的轉換函數,若分群數較多時,則只需用低階的多項式轉換函 數即可,在 Aurora-2 上的實驗,又以 1024 群集搭配 3 階的多項式轉換函數能有 最好的補償效果,其於不同噪音與訊噪比下的辨識效能如表 4-3 所示。

從表中可發現在測試集 A 與測試 B 都有良好的辨識效果,但在測試集 C 的

表現卻較測試集 A 與測試 B 來得差,主要原因是因為在測試集 C 中的測試語料

含有與訓練語料不同的通道效應影響,所以在做分群的指派 (如式 4-7) 時,估

測事後機率 p | ( k Y

t

) 會產生誤差,因此效能不及測試集 A 或測試集 B。但此問題

可利用倒頻譜消去法解決通道效應的影響,因此不論是在訓練高斯混合模型前或

是分群指派前,所有語音特徵參數可先經過倒頻譜消去法處理,移除通道效應的

影響,再接續做模型訓練或分群指派。但為了不破壞原本的統計分布,所以在求

算累積密度函數時還是以未經過倒頻譜消去法處理的語音特徵參數為主。實驗結

果對於測試集 C 而言,平均字錯誤率從 20.28% 下降至 16.96%,詳細辨識結果

(10)

超級向量

轉換矩陣 梅爾對數濾波器組輸出值

+9

xt

xt

9

xt

xt

1

xt xt+1

9

xt xt+9

θ

zt

新語音特徵向量yt

Tt

t z

y =θ Yt Yt+1

1

Yt Yt+9

9

Yt

Yt

9

Yt

+9

Yt

Zt

最大相似度線性 轉換矩陣 線性鑑別分析

轉換矩陣θ ψ

Y~t

t

t Z

Y~=ψθT

圖 4-4 鑑別性特徵擷取法示意圖 如表 4-4 所示。

4.3 群集式為基礎之多項式擬合統計圖等化法結合不同語音 特徵參數相關實驗結果

下一個實驗吾人欲探討群集式為基礎之多項式擬合統計圖等化法結合不同特徵 擷取方法,是否能與結合梅爾倒頻譜係數一樣,對於提升辨識效能有顯著的進 步,因此吾人嘗試使用三種不同的語音特徵,第一種是原本第 13 維語音特徵參 數是對數能量改成梅爾倒頻譜係數的第 0 維(C0),第二與第三種語音特徵參數,

是利用線性鑑別分析(LDA)或異質性線性鑑別分析(HLDA)加上最大相似度線性 轉換(MLLT)作用在梅爾對數濾波器組輸出值之後,用來取代傳統梅爾倒頻譜係 數擷取過程中需透過離散餘弦轉換達到各維度特徵向量部份解相關的效果,整體 語音特徵擷取示意圖如圖 4-4 所示,對每個時間點 t 的特徵向量,是採用該時間 點特徵向量加上前後各取九個時間點特徵向量形成超級特徵向量 Z (Feature

t

Supervector),此特徵向量 Z 經由線性鑑別分析或異質性線性鑑別分析的轉換矩

t

θ

與最大相似度線性轉換底矩陣

ψ

進行線性轉換後,以得新語音特徵向量

Y~t

(11)

表 4-5 群集式為基礎之多項式擬合統計圖等化法結合不同語音特徵參數的辨識 結果

乾淨語料訓練模式

32 64 128 256 512 1024 19.73 19.35 18.19 17.27 16.36 15.41 19.63 18.69 17.61 16.74 15.89 15.07 18.40 17.55 16.60 15.40 14.70 13.68 17.78 17.13 16.72 15.57 14.76 13.96 異質性線性鑑別分析

倒頻譜係數(Log_E) 倒頻譜係數(C0) 平均字錯誤率(%)

線性鑑別分析

分 群 個 數 語音特徵參數

13 14 15 16 17 18 19 20

32 64 128 256 512 1024

分群個數 平均字錯誤率(%)

倒頻譜係數(Log_E) 倒頻譜係數(C0) 線性鑑別分析 異質性線性鑑別分析

圖 4-5 群集式為基礎之多項式擬合統計圖等化法結合不同語音特徵參數的辨識結 果比較圖

其數學式表示如下:

t

t

Z

Y ~ = ψθ

T

(式 4-9)

在擷取完語音特徵參數後,再使用群集式為基礎之多項式擬合統計圖等化法進行

補償,其中多項式轉換函數的階數設定是參考圖 4-3 最佳設定,實驗結果如表 4-5

所示。表格中倒頻譜係數(Log_E)等同第三章梅爾倒頻譜係數擷取設定,即表 4-3

的結果,而倒頻譜係數(C0)表示將利用梅爾倒頻譜係數的第 0 維的特徵值取代原

(12)

本的對數能量維的特徵值。

表 4-6 群集式為基礎之多項式擬合統計圖等化法中以 1024 分群數搭配 3 階多項 式轉換函數作用在經過線性鑑別分析處理的語音特徵參數的辨識結果

平均字錯誤率(%)

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 0.92 0.79 1.13 0.99 0.92 0.79 1.13 0.99 0.89 0.73

20dB 1.84 1.81 1.64 1.64 1.29 2.12 1.43 1.27 2.06 3.39

15dB 3.19 2.60 2.51 2.99 2.03 3.23 2.06 2.38 3.44 4.05

10dB 5.37 4.20 4.74 6.51 4.79 6.86 3.82 5.18 7.25 9.70

5dB 11.61 13.75 14.29 15.64 13.26 18.29 13.24 16.08 19.34 23.19 0dB 32.30 42.20 42.08 35.64 38.16 46.25 37.40 44.92 48.76 52.21 -5dB 68.74 77.45 78.62 66.68 75.68 77.57 73.64 78.06 77.43 80.71 平均 10.86 12.91 13.05 12.48 11.91 15.35 11.59 13.97 16.17 18.51 乾淨語料訓練模式

測試集A 測試集B 測試集C

由圖 4-5 可看出不論是使用何種語音特徵參數結合群集式為基礎之多項式擬 合統計圖等化法皆有良好的辨識效能,又以線性鑑別分析結合最大相似度線性轉 換 (LDA_MLLT) 或 是 異 質 性 線 性 鑑 別 分 析 結 合 最 大 相 似 度 線 性 轉 換 (HLDA_MLLT)表現更為顯著,主要原因可能是因為此二種方法本屬於鑑別性語 音特徵,若利用其來訓練分群用的高斯混合模型或在計算落在某個高斯分布的事 後機率,勢必會較精確。在 Aurora-2 上,最好的結果是利用線性鑑別分析結合 最大相似度線性轉換搭配上 1024 群集與 3 階的多項式轉換函數,平均字錯誤率 達 13.68%,相較於梅爾倒頻譜基礎實驗結果,平均字錯誤率達 67%的相對減少,

詳細結果如表 4-6 所示。

數據

表 4-2  群集式為基礎之多項式擬合統計圖等化法中使用不同分群數與搭配不同 多項式階數的辨識結果  乾淨語料訓練模式 1 2 3 4 5 6 32 20.70 20.36 19.84 19.80 19.75 19.73 64 20.29 20.00 19.49 19.44 19.37 19.35 128 18.95 18.71 18.24 18.21 18.20 18.19 256 17.82 17.60 17.33 17.32 17.27 17.43 512 16.84 16.58 16.36 16.4
表 4-3  群集式為基礎之多項式擬合統計圖等化法中以 1024 分群數搭配 3 階多項 式轉換函數的辨識結果  平均字錯誤率(%) 訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道 Clean 1.04 1.06 1.25 1.02 1.04 1.06 1.25 1.02 1.04 1.09 20dB 2.30 1.75 1.70 2.34 1.78 2.39 1.91 1.85 2.52 3.36 15dB 3.99 2.63 2.51 3.39 2.76 3.14 2.59
表 4-5  群集式為基礎之多項式擬合統計圖等化法結合不同語音特徵參數的辨識 結果  乾淨語料訓練模式 32 64 128 256 512 1024 19.73 19.35 18.19 17.27 16.36 15.41 19.63 18.69 17.61 16.74 15.89 15.07 18.40 17.55 16.60 15.40 14.70 13.68 17.78 17.13 16.72 15.57 14.76 13.96異質性線性鑑別分析倒頻譜係數(Log_E)倒頻譜係數(C0)平均字錯誤率(%

參考文獻

相關文件

第四章 連續時間週期訊號之頻域分析-傅立葉級數 第五章 連續時間訊號之頻域分析-傅立葉轉換.. 第六章

第三節 研究方法 第四節 研究範圍 第五節 電影院簡介 第二章 文獻探討 第一節 電影片映演業 第二節 服務品質 第三節 服務行銷組合 第四節 顧客滿意度 第五節 顧客忠誠度

我們堅信所有學生都有能力學習,而且在智能方面,各有所長 。 因此,擬

但是,《華嚴經》中說,善財童子五十三參的過程中,第二十八位大善知識,便是參訪

(八)教科書編撰時宜兼顧各單元之學理基礎與生活實例,宜依照參考時數設計 教學「活動」

1-3 有關臺灣原住民的介紹,重點放在荷 據時期前夕的社會與文化特徵;至於

Wi-Fi 定位即利用無線網路來傳遞信號,根據各種網路參數和算法可以找出使用

接下來的 FDTD 疊代運算將是整個計算的核心,也是運算量最大 的部分,在這中間,如何利用光波導的性質以及傳播常數等特徵參量