• 沒有找到結果。

3.1 實驗語料庫

N/A
N/A
Protected

Academic year: 2021

Share "3.1 實驗語料庫 "

Copied!
10
0
0

加載中.... (立即查看全文)

全文

(1)

第三章 實驗語料庫與相關基礎實驗結果

本章節主要是介紹本論文中實驗語料庫與相關實驗設定。第一小節將介紹本論文 所使用的實驗語料庫;第二小節將說明本論文所使用的相關實驗設定;第三小節 介紹辨識效能的評估方式,最後呈現相關基礎實驗結果與觀察。

3.1 實驗語料庫

為了測試與驗證本論文所提出的方法是否對提升語音強健性有幫助,本論文所使 用的實驗的語料庫為 Aurora-2 語料庫,Aurora-2 是由歐洲電信標準協會(European Telecommunications Standards Institute, ESTI)所發行的語料庫[Hirsch and Pearce 2000],其本身為一套含有雜訊的連續英文數字語料庫,參與錄音計畫的語者,

皆是美國成年人。其中雜訊包含八種來源不同的加成性噪音和二種不同特性的通 道 。 加 成 性 噪 音 包 括 機 場 (Airport) 、 人 聲 (Babble) 、 汽 車 (Car) 、 展 覽 會 館 (Exhibition)、餐廳(Restaurant)、地下鐵(Subway)、街道(Street)及火車站(Train Station),且依不同訊噪比(Signal-to-Noise Ratio, SNR)各自加入乾淨語音裡,訊噪 比包括 20dB、15dB、10dB、5dB、0dB 和-5dB;通道效應包含由國際電信聯合 會 (International Telecommunication Union, ITU) 所 訂 立 的 二 個 標 準 -G.712 和 MIRS。

根據測試語料中加入之通道效應(Channel Effect)以及加成性噪音(Additive Noise)之類型不同,Aurora-2 共分為三組測試群組 Set A、Set B 和 Set C,並且提 供二種不同的訓練模式:乾淨語料訓練(Clean-Condition Training)模式與複合情境 訓練(Multi-Condition Training)模式,詳細內內容如表 3-1 所示。

3.2 實驗設定

在前端處理方面,本論文的基礎實驗是採用梅爾倒頻譜係數作為語音特徵參數,

(2)

表 3-1 Aurora 2.0 語料庫詳細說明 取樣頻率 8KHz

語音內容 包含英文數字單詞:One、Two、Three、Four、Five、Six、Seven、

Eight、Nine、Zero、Oh

乾淨語料訓練 複合情境訓練

訓練模式

語句個數:8440 句 加成性噪音:無

訊噪比範圍:完全乾淨

通道效應:G.712

語句個數:8440 句 加成性噪音:

地下鐵、人聲、汽車、展覽會館 訊噪比範圍:完全乾淨及 20dB 至 5dB

通道效應:G.712

Set A Set B Set C

測試組合

語句個數:28028 句 加成性噪音:地下 鐵、人聲、汽車、展 覽會館

訊噪比範圍:完全乾 淨及 20dB 至-5dB 通道效應:G.712

語句個數:28028 句 加成性噪音:餐廳、

街道、機場、火車

訊噪比範圍:完全乾 淨及 20dB 至-5dB 通道效應:G.712

語句個數:14014 句 加成性噪音:地下 鐵、街道

訊噪比範圍:完全乾 淨及 20dB 至-5dB 通道效應:MIRS 預強調參數α 設為 0.975,漢明窗參數

β

設為 0.46,取樣音框長度(Frame Length) 為 25 毫秒,音框間距(Frame Shift)為 10 毫秒,每個音框的資訊是以 39 維語音特 徵向量表示, 其中包含 12 維的梅爾倒頻譜係數以及一維的對數能量(Log Energy),同時並對 13 維語音特徵參數取其相對的一階差量係數(Delta Coefficient) 和二階差量係數(Acceleration Coefficient)。

在聲學模型的設定,每個數字模型(1~9 及 Zero 和 Oh)皆由一個由左到右

(Left-to-Right)形式的連續密度隱藏式馬可夫模型(CDHMM)表示,其中包含 16

個狀態(State),並且每個狀態是利用 3 個高斯分布的高斯混合模型表示。另外靜

音模型的部份有二種模型,一個為靜音(Silence)模型包含 3 個狀態,每個狀態用

(3)

6 個高斯分布的高斯混合模型,用來表示語句開始跟結束時的靜音;另一個為間 歇(Pause)模型包含 1 個狀態,以 6 個高斯分布的高斯混合模型建模,表示語句內 數字與數字之間的短暫停止,上述所有聲學模型的訓練與本論文所有的實驗都是 使用 HTK 工具套件完成[Young et al. 2006]。

3.3 辨識效能評估方式

辨 識 效 能 評 估 的 方 式 是 採 用 美 國 標 準 與 科 技 組 織 (The National Institute of Standards and Technology,NIST)所訂立的評估標準,進行正確轉譯文句字串與 辨識字串的比較。評估單位是以字正確率(Word Accuracy)為單位,計算正確轉譯 文句字串與辨識字串間的字取代個數(Substitutions)、字插入個數(Insertions)和字 刪除個數(Deletions);計算的方式有二種,字正確率(Word Accuracy Rate)與字錯 誤率(Word Error Rate),分別如下所示:

100%

(%)= − ×

輸入字總數

字插入個數 字正確辨識個數

字正確率

% 100

(%)= + + ×

輸入字總數

字刪除個數 字插入個數

字取代個數 字錯誤率

因為 Aurora-2 的語料庫裡,每一種噪音對於同一個測試集都會用七種不同 程度的訊噪比添加,依照國際學者對數據呈現的習慣,對於每一種噪音的平均字 正確率或平均字錯誤率的計算方式是加總 20dB 至 0dB 的辨識結果取平均,排除 掉乾淨和-5dB 二種極端的訊噪比,所以後續本論文的所有實驗結果亦是遵循此 種呈現方式。

3.4 基礎實驗結果

首先吾人先以梅爾倒頻譜係數(MFCC)(設定如 3.2 節所描述)當作語音特徵參

數,求算其在各種不同雜訊與通道效應下的辨識結果,當作本論文的基礎實驗結

(4)

表 3-2 使用梅爾倒頻譜係數(MFCC)於乾淨語料訓練模式與複合情境訓練模式下 的辨識結果

平均字錯誤率(%

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 1.01 1.00 1.13 0.89 1.01 1.00 1.13 0.89 0.80 0.91

20dB 4.70 9.37 4.18 4.81 7.37 4.96 6.83 4.35 12.25 8.28

15dB 12.65 25.85 13.93 10.46 20.39 14.33 17.86 13.27 21.43 15.21 10dB 31.35 48.55 35.79 26.87 40.80 35.55 39.64 34.53 37.83 31.29 5dB 60.24 71.25 66.00 54.89 65.92 62.21 65.02 65.13 61.77 53.99 0dB 85.57 85.97 86.46 82.35 85.63 79.53 81.99 85.04 82.41 75.82 -5dB 92.05 92.20 92.07 90.96 92.60 90.11 90.96 91.92 89.87 86.85 平均 38.90 48.20 41.27 35.88 44.02 39.32 42.27 40.46 43.14 36.92

平均字錯誤率(%)

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 1.78 1.66 1.52 1.64 1.78 1.66 1.52 1.64 1.63 1.72

20dB 3.72 3.42 2.45 2.87 4.36 2.96 2.45 3.80 3.41 3.81

15dB 5.50 5.47 2.98 4.29 8.07 4.72 3.94 5.92 5.22 5.32

10dB 9.24 9.22 5.10 6.97 12.93 7.44 6.74 8.02 8.17 8.59

5dB 17.47 19.29 13.12 13.64 23.24 19.47 14.46 17.86 22.57 22.55 0dB 41.39 43.11 45.72 40.70 46.24 45.89 35.88 45.88 59.10 54.56 -5dB 77.16 76.57 81.99 79.05 78.14 78.93 71.01 81.86 85.39 82.41 平均 15.46 16.10 13.87 13.69 18.97 16.10 12.69 16.30 19.69 18.97 複合情境訓練模式

測試集A 測試集B 測試集C

乾淨語料訓練模式

測試集A 測試集B 測試集C

果(Baseline)。表 3-2 階分別呈現於乾淨語料訓練模式與複合情境訓練模式的辨識 結果,在乾淨語料訓練模式下的平均字錯誤約莫是 41.03%,在複合情境訓練模 式下的總平均字正確率約莫是 16.18%,從二種不同訓練模式的數據呈現,吾人 總結下列數點觀察到的現象:

(1) 在不受任何雜訊干擾時,字正確率可高達 98% 甚至是 99%,然而隨著 雜訊干擾程度愈來愈大,辨識效能會下降非常的快速,尤其當訊噪比低 於 5dB 時,下降的程度更為明顯。

(2) 複合情境訓練模式的辨識效能較乾淨語料訓練模式好,是因為複合情境 訓練模式是收集許多受不同訊噪比干擾的語料,加以訓練聲學模型,因 此使得測試語料與聲學模型間的不匹配問題降低,所以才能獲得較好的 辨識效能。

(3) 在複合情境訓練模式下,測試集 A 的辨識效果比測試集 B 好,主要是因

為測試集 B 的噪音型態是沒出現在複合情境訓練模式的訓練語料中,所

(5)

表 3-3 倒頻譜平均消去法(CMS)作用在梅爾倒頻譜係數上的辨識結果

平均字錯誤率(%

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 0.92 0.85 0.98 0.62 0.92 0.85 0.98 0.62 0.86 0.73

20dB 3.65 2.21 2.80 3.55 2.09 2.81 2.21 1.76 4.08 2.96

15dB 8.93 5.62 6.77 9.16 4.67 6.59 4.62 5.31 10.04 8.37

10dB 25.18 16.90 22.04 24.04 14.58 20.95 11.51 16.08 27.30 23.79 5dB 53.09 44.29 55.53 55.75 37.43 48.31 35.28 42.92 56.83 53.05 0dB 76.79 73.85 78.14 79.76 69.76 75.42 67.04 73.84 78.14 76.90 -5dB 86.28 86.61 86.31 88.98 85.39 87.15 82.76 85.90 87.14 87.39 平均 33.53 28.57 33.06 34.45 25.71 30.82 24.13 27.98 35.28 33.01 乾淨語料訓練模式

測試集A 測試集B 測試集C

表 3-4 頻譜正規化法(CMVN)作用在梅爾倒頻譜係數上的辨識結果

平均字錯誤率(%

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 0.77 0.85 0.92 0.74 0.77 0.85 0.92 0.74 3.01 3.02

20dB 3.53 2.21 2.18 3.30 2.15 2.57 1.91 2.31 6.75 6.26

15dB 6.85 4.38 4.35 7.07 4.02 5.11 3.70 4.26 12.77 11.12

10dB 14.09 10.16 10.65 15.40 9.79 12.09 8.20 10.37 25.27 23.88 5dB 32.70 27.18 28.15 33.32 24.29 28.48 22.31 26.66 48.11 43.80 0dB 66.38 58.07 59.50 65.04 53.36 59.76 52.07 58.59 70.89 68.17 -5dB 88.06 84.16 84.79 86.12 81.64 84.76 81.33 83.49 86.37 84.64 平均 24.71 20.40 20.97 24.83 18.72 21.60 17.64 20.44 32.76 30.65 乾淨語料訓練模式

測試集A 測試集B 測試集C

以可想而知辨識效能必較差。

(4) 測試集 C 的辨識結果一般而言,較測試集 A 與測試集 B 差,主要原因是 因為測試集 C 的通道效應是和訓練語料不相同的。

由於複合情境訓練模式已經能大幅度降低測試語料與聲學模型間不匹配的

問題,但就乾淨語料訓練模式而言,仍尚有許多可努力的空間,因此吾人在本論

文後續章節將只探討乾淨語料訓練模式下的語音辨識。首先,吾人先討探倒頻譜

平均消去法(CMS)與倒頻譜正規化法(CMVN)的辨識效能,實驗結果如表 3-3 與

表 3-4 所示。從表中可清楚的發現倒頻譜平均消去法對於移除通道效應的影響有

非常顯著的效果,此外,頻譜平均消去法亦對減緩一些加成性噪音所帶來的失真

情形有所幫助;而倒頻譜正規化法除了與倒頻譜平均消去法一樣能移除通道效應

的影響外,同時會對每一維語音特徵參數的分布變異做正規化,進而降低語音特

徵參數各個維度間彼此分布的差異程度,因此可預期的,倒頻譜正規化的辨識效

果會較倒頻譜平均消去法好。

(6)

表 3-5 使用不同統計圖組距數與不同表格記錄點數之查表式統計圖等化法(THEQ)於乾 淨語料訓練模式的辨識結果

乾淨語料訓練模式

10 50 100 500 1000 5000 10000 50000

統 100 41.32 45.65 46.39 44.55 44.59 44.65 44.67 44.65 計 500 33.21 28.60 25.44 22.42 22.42 22.41 22.45 22.41 圖 1000 29.63 24.19 22.12 19.04 19.19 19.46 19.88 19.87 組 5000 28.13 23.72 20.68 18.22 18.02 18.18 18.19 18.10 距 10000 27.64 23.50 20.50 18.35 18.33 18.13 18.30 18.32 數 50000 27.46 23.30 20.29 18.41 18.58 18.46 18.47 18.45

平均字錯誤率(%) 表 格 記 錄 點 數

16.00 21.00 26.00 31.00 36.00 41.00 46.00 51.00

10 50 100 500 1000 5000 10000 50000

表格紀錄點數 平均字錯誤率(%)

100組 500組 1000組 5000組 10000組 50000組

統計圖組距數

圖 3-1 使用不同統計圖組距數與不同表格記錄點數之查表式統計圖等化法於乾 淨語料訓練模式的辨識結果比較圖

再者,吾人實作傳統查表式統計圖等化法(THEQ),在查表式統計圖等化法

中,辨識效能乃取決於二種參數的設定,分別是查表表格的記錄點數與統計圖中

組距 (Histogram Bin)個數(參見 2.3.1 節),因此吾人利用不同的表格紀錄點數與

不同的統計圖組距個數進行實驗,檢視不同的設定環境下,辨識效能為何,整體

辨識結果如表 3-5 所示。如同表格所呈現的數據,查表表格的記錄點數與統計圖

中的組距個數影響辨識效能甚鉅,平均字錯誤率隨著表格記錄點數與統計圖組距

個數增加而降低,相較於梅爾倒頻譜係數基礎實驗而言,在乾淨語料訓練模式

下,可達平均字錯誤率 55%左右的相對減少(Relative Improvement)。從圖 3-1

(7)

表 3-6 使用不同分位差點數於分位差統計圖等化法(QHEQ)於乾淨語料訓練模式與複合 情境訓練模式下的辨識結果

平均字錯誤率(%)

2 3 4 5 8 16 32

24.02 23.67 22.86 23.00 24.93 24.83 24.95 分 位 差 個 數

訓練模式 乾淨語料訓練模式

表 3-7 使用不同分群數於雙聲源為基礎分段線性補償(SPLICE)在乾淨語料訓練模式的 辨識結果

平均字錯誤率(%)

32 64 128 256 512 1024 27.64 24.31 21.89 21.03 20.52 19.04 乾淨語料訓練模式

訓練模式

分群個數

中亦可清楚發現,若要得到良好的辨識效能,那麼查表表格的記錄點數與統計圖 組距個數不可太少,此現象同時意謂著在執行等化的過程,需較多的記憶體空間 供表格的存放與查表需花費額外較多的處理器運算時間。

接下來,吾人討論分位差統計圖等化法(QHEQ)的分位差個數對於辨識效能 的影響情形,辨識結果如表 3-6 所示,隨著分位差個數不同,辨識效能也有所差 異,當分位差點數使用太少,代表分位差統計圖等化法的轉換函數

H

( )

x

會較粗 糙,因此辨識效能較差;相反地,若分位差點數使用太多,使得轉換函數

H

( )

x

太 精細,反而會降低辨識效能,此現象與作者提出的論證相同[Hilger and Ney 2001],因此分位差統計圖等化法中分位差點數的選擇需特別注意。以在 Aurora-2 語料庫上,吾人實驗結果是以 4 點分位差個數能獲得較好的辨識效能,相較於梅 爾倒頻譜係數基礎實驗,在乾淨語料訓練模式下可達平均字錯誤率 44%左右的相 對減少。

再者,吾人實作雙聲源為基礎分段線性補償,在 Aurora-2 語料庫中,雙聲 源語料可從乾淨語料訓練模式的語音及其對應的複合情境訓練模式的語音而 得,吾人嘗試使用 32、64、128、256、512、1024 個不同分群數的高斯混合模型,

欲探討群集數的個數對於辨識效能影響程度為何,實驗結果如表 3-7 所示。從實

(8)

12.00 16.00 20.00 24.00 28.00 32.00 36.00 40.00 44.00 48.00 52.00

地下鐵 人聲 汽車

展覽會館

餐廳 街道 機場

火車站

地下鐵 (通道效應

)

街道 (通道

效應 )

平均字錯誤率(%)

梅爾倒頻譜係數 倒頻譜平均消去法 倒頻譜正規化法

查表式統計圖等化法 分位差統計圖等化法 雙聲源為基礎分段線性補償

圖 3-2 不同強健性語音技術作用在 Aurora-2 語料庫的比較圖

驗表格可清楚發現,隨著分群數增加,辨識效能亦隨之提高,此舉意謂著較多的 群集數對於雜訊干擾乾淨語音的情形能有更精細的描述。在使用 1024 個高斯分 布的高斯混合模型下,辨識結果相較於梅爾倒頻譜係數基礎實驗結果,可達平均 字錯誤率 53%左右的相對減少。

最後,吾人以圖 3-2 總結上述所有實驗,從圖中可發現即使是簡單的倒頻譜

消去法(CMS)或倒頻譜正規化法(CMVN)皆達到不錯的辨識效能。而查表式統計

圖等化法(THEQ)確實較倒頻譜消去與或倒頻譜正規化法好,因為統計圖等化法

可視為是對語音特徵參數統計分布的每一動差進行正規化。分位差統計圖等化法

(QHEQ)雖然對提升辨識效能有幫助,但效果相較於倒頻譜正規化法或查表式統

計圖等化法較不明顯,主要原因是因為查表式統計圖等化法是利用語句的全部累

積密度函數進行等法動作,而分位差統計圖等化法是只以數點分位差對累積密度

函數做分位差校正(Quantile-Corrective);此外,雙聲源為基礎分段線性補償

(SPLICE)在測試集 A 與測試集 B 有較顯著的幫助,而在測試集 C 中,因為語音

訊號是含有與訓練語料不同的通道效應,因此會使得在計算式 2-46 的過程中產

生誤差,因此補償效能會較差,解決的方法之一是在計算式 2-46 前,可先利用

(9)

倒頻譜消去法將通道效應移除掉[Droppo et al. 2002]。

(10)

數據

表 3-1 Aurora 2.0  語料庫詳細說明  取樣頻率  8KHz  語音內容  包含英文數字單詞:One、Two、Three、Four、Five、Six、Seven、 Eight、Nine、Zero、Oh  乾淨語料訓練  複合情境訓練 訓練模式  語句個數:8440 句  加成性噪音:無  訊噪比範圍:完全乾淨  通道效應:G.712  語句個數:8440 句 加成性噪音:  地下鐵、人聲、汽車、展覽會館 訊噪比範圍:完全乾淨及 20dB至 5dB 通道效應:G.712
表 3-3  倒頻譜平均消去法(CMS)作用在梅爾倒頻譜係數上的辨識結果  平均字錯誤率(% 訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道 Clean 0.92 0.85 0.98 0.62 0.92 0.85 0.98 0.62 0.86 0.73 20dB 3.65 2.21 2.80 3.55 2.09 2.81 2.21 1.76 4.08 2.96 15dB 8.93 5.62 6.77 9.16 4.67 6.59 4.62 5.31 10.04 8.37 10d
表 3-5  使用不同統計圖組距數與不同表格記錄點數之查表式統計圖等化法(THEQ)於乾 淨語料訓練模式的辨識結果 乾淨語料訓練模式 10 50 100 500 1000 5000 10000 50000 統 100 41.32 45.65 46.39 44.55 44.59 44.65 44.67 44.65 計 500 33.21 28.60 25.44 22.42 22.42 22.41 22.45 22.41 圖 1000 29.63 24.19 22.12 19.04 19.19 19.46 19
表 3-6  使用不同分位差點數於分位差統計圖等化法(QHEQ)於乾淨語料訓練模式與複合 情境訓練模式下的辨識結果  平均字錯誤率(%) 2 3 4 5 8 16 32 24.02 23.67 22.86 23.00 24.93 24.83 24.95分    位     差     個     數訓練模式乾淨語料訓練模式 表 3-7  使用不同分群數於雙聲源為基礎分段線性補償(SPLICE)在乾淨語料訓練模式的 辨識結果  平均字錯誤率(%) 32 64 128 256 512 1024 27.64 24

參考文獻

相關文件

以下簡單介紹魔術三角形: 如圖 1, 若三角形每邊有 三個數且數字和都是定值, 稱為 3 階 (傳統) 魔術三角形; 如圖 2, 若每邊有三 個數且較大兩數和減最小數的差都是定值, 稱為

隨機實驗是一種過程 (process),是一種不能確定預知會

2-1 化學實驗操作程序的認識 探究能力-問題解決 計劃與執行 2-2 化學實驗數據的解釋 探究能力-問題解決 分析與發現 2-3 化學實驗結果的推論與分析

推理論證 批判思辨 探究能力-問題解決 分析與發現 4-3 分析文本、數據等資料以解決問題 探究能力-問題解決 分析與發現 4-4

Google Science Journal 簡介..

使用人工智慧框架基礎(Frame-based)的架構,這些努力的結果即為後來發展的 DAML+OIL。DAML+OIL 是 Web Resource 中可以用來描述語意的 Ontology 標 記語言,它是以 W3C

2.注重實地演練,角色扮演、跟隨經驗、實地參訪及邀請業界主管演講方 式,使學生能從「經驗中學習」

微陣列玻片資料庫 (The Microarray Database,以下簡稱 TMD) 為本研究嘗 試建置的一套提供存取、分析微陣列玻片 (Microarray)