• 沒有找到結果。

實驗語料庫與相關基礎實驗結果

本章將介紹本論文使用的語料庫與實驗設定。第一節是介紹實驗語料庫,第二節 是相關的實驗設定,第三節說明辨識效能的評估方式,第四節是一些基礎的實驗 結果。

(一) 實驗語料庫

本論文使用 Aurora-2 與 Aurora-4 語料庫。Aurora-2 是英文連續數字語料庫來測試 論文中所提出方法和其它方法在使用相同語料庫時的辨識效果。Aurora-2 是由歐 洲電信標準協會(European Telecommunications Standards Institute, ESTI)所發行的 語 料 庫 [62] , 以 美 國 成 年 人 作 為 錄 音 來 源 , 內 容 為 連 續 的 英 文 數 字 , 由 0(Zero)~9(Nine)加上 0 的另一種說法(Oh)等十一個詞組成。此語料庫中除了乾淨 的語音以外,還另外加入了八種不同的加成性雜訊和兩種不同的通道效應。加成 性雜訊有機場(Airport)、人聲(Babble)、汽車(Car)、展覽會館(Exhibition)、餐廳 (Restaurant)、地下鐵(Subway)、街道(Street)和火車站(Train Station),依照不同的 訊噪比(Signal-to-Noise Ratio, SNR)加入乾淨語音中,訊噪比是指純語音訊號與雜 訊訊號能量的比值,公式如下:

SNR 𝑑𝐵 0 ∗ 𝑙𝑜𝑔 (𝐸𝑆𝑝𝑒𝑒𝑐ℎ

𝐸 𝑜𝑖𝑠𝑒) 4 此語料庫中使用的訊噪比有 20dB、15dB、10dB、5dB、0dB 和-5dB,而通道 效應是使用國際電信聯合會(International Telecommunication Union, ITU)標準中的 G.712 和 MIRS。Aurora-2 中分為三組測試集 Set A、Set B 和 Set C,分別使用不 同加成性雜訊和通道效應,並提供兩組訓練資料,分別為乾淨情境訓練模式 (Clean-Condition Training)與複合情境訓練模式(Multi-Condition Training)。本研究 的基礎實驗皆使用乾淨情境的訓練模式,故測試集中所有加成性噪音皆是訓練語 料中未曾見過的,但只有測試集 C 的通道效應與訓練語料不同。更詳細的語料庫 細節可見表 4-1。

24

表 4- 1:Aurora-2 語料庫相關資訊

AU Aurora-2

取樣頻率 8kHz

語音內容 英文數字單詞:One、Two、Three、Four、Five、Six、Seven、Eight、

Nine、Zero、Oh,共十一個詞。

訓練語料 語句數:8,400 通道效應:G.712

測試語料 測試集 語句數 加成性噪音 通道效應

A 28,028 地下鐵、人聲、汽車、展覽館 G.712 B 28,028 餐廳、街道、機場、火車 G.712

C 14,014 地下鐵、街道 MIRS

訊噪比 乾淨、-5dB、0dB、5dB、10dB、15dB、20dB

Aurora-4 是大詞彙連續語音辨識(Large-Vocabulary Continuous-Speech Recognition, LVCSR)語料庫由歐洲電信標準協會(European Telecommunications Standards Institute, ESTI)所發行的語料庫[62],Aurora-4 主要是評估強健語音辨識 在受到加成性噪音與通道效應干擾之辨識效能。加成性雜訊有機場(Airport)、人 聲(Babble)、汽車(Car)、餐廳(Restaurant)、地下鐵(Subway)、街道(Street)和火車 站(Train Station),通道效應包函二種測試集之麥克風,一個測試集為僅有一隻麥 克風且制造商為 Sennheiser,另一測試集為包含多個不同麥克風且為不同製造商。

語料庫之內容取自華爾街日報(Wall Stress Journal 0, WSJ0),共有 5000 個英文單 字,包函二種取樣頻率 8000Hz、16000Hz,本論文使用與 Aurora-2 相同之 8000Hz 採樣頻率。

Aurora-4 中分為十四組測試集分別使用不同加成性雜訊和通道效應,並提供 兩組訓練資料,分別為乾淨情境訓練模式(Clean-Condition Training)與複合情境訓 練模式(Multi-Condition Training)。更詳細的語料庫細節可見表 4-2。

表 4- 2:Aurora-4 語料庫相關資訊

AU Aurora-4

取樣頻率 8kHz

測試語料 測試集 語句數 加成性噪音 通道效應

1 330 無、SI-84 濾波器 Sennheiser Mic.

2 330 汽車(5 與 15dB) Sennheiser Mic.

3 330 人聲(5 與 15dB) Sennheiser Mic.

4 330 餐廳(5 與 15dB) Sennheiser Mic.

5 330 街道(5 與 15dB) Sennheiser Mic.

6 330 機場(5 與 15dB) Sennheiser Mic.

7 330 火車站(5 與 15dB) Sennheiser Mic.

8 330 無、SI-84 濾波器 Second Mic.

9 330 汽車(5 與 15dB) Second Mic.

10 330 人聲(5 與 15dB) Second Mic.

11 330 餐廳(5 與 15dB) Second Mic.

12 330 街道(5 與 15dB) Second Mic.

13 330 機場(5 與 15dB) Second Mic.

14 330 火車(5 與 15dB) Second Mic.

訊噪比 乾淨、-5dB、0dB、5dB、10dB、15dB、20dB

26

(二) 實驗設定

本論文是的基礎實驗是採用梅爾倒頻譜係數做為語音特徵參數,取樣頻率 (Sampling Rate)為 8000Hz,預強調(pre-emphasis)參數設為 0.97,使用的窗函數為 漢明窗(Hamming Window),音框長度(Frame Length)是 25 毫秒,音框間距(Frame Shift)為 10 毫秒。每一個音框的特徵使用 13 維梅爾倒頻譜係數(第 0 維至第 12 維),

加上其一階差量計算和二階差量計算,共 39 維之特徵參數。在特徵的強健性處 理方法,本論文在處理特徵時,只針對 13 維的靜態特徵參數(Static Feature)進行 處理,處理完成後才額外將一階差量和二階差量加入。

在聲學模型的訓練和測試部份,本論文使用劍橋大學所開發的隱藏式馬可夫 模型工具套件 HTK[63]進行。每個數字的聲學模型皆以一從左到右(Left-to-right) 形式的連續密度隱藏式馬可夫模型(Continuous Density Hidden Markov Model, CDHMM)表示,共 11 個數字模型(one, two ,…, nine, zero , and oh)以及靜音模型。

每個數字模型包含 16 個狀態(State),每個狀態利用 20 個高斯混合(Guessian Mixtures)表示。靜音(silence)模型則包含 3 個狀態,每個狀態以 36 個高斯混合來 表示。

(三) 辨識效能評估方式

本論文評估辨識的方式是採用美國標準與科技組織 (The National Institute of Standards and Technology, NIST)所訂定之評估標準,比較正確轉譯文句字串與辨 識字串。評估的單位是以字精確率(Word Accuracy)為單位。計算正確轉譯文句字 串與辨識字串間的字取代個數(Substitutions)、字插入(Insertions)個數和字刪除 (Deletions)個數,計算的方式有二種,詞精確率(Word Accuracy Rate)與詞錯誤率 (Word Error Rate),其計算公式如下:

詞精確率 詞正確辨識個數 詞插入個數

輸入詞總數 ∗ 00 4

詞錯誤率 詞取代個數+ 詞插入個數 + 詞刪除個數

輸入詞總數 ∗ 00 4 3 在 Aurora-2 語料庫中,在每一個測試集都會依不同程度的訊噪比添加七種 噪音,參照國際學者之設定,本論文使用加總每一種噪音從 20dB 到 0dB 的平均 詞精確率或平均詞錯誤率的結果再取其平均值。值得注意的是,兩種極端的訊噪 比,也就是乾淨的情況和-5dB 的情況,是排除在平均計算範圍外的。本論文所有 的實驗皆是使用此設定來評估計算辨識結果。

(四) 基礎實驗結果

本論文是以梅爾倒頻譜係數作為語音特徵參數,計算在各種不同通道效應和雜訊 下之辨識結果作為本論文的基礎結果(Baseline)。表 4-2 為梅爾倒頻譜係數於乾淨 語料訓練下,三個測試集在不同噪音環境下的辨識結果。從表 4-2 的 Clean 那一 列可以看出在乾淨的測試資料都有很好的辨識結果,平均詞精確率高達 99%,而 比較每一列的辨識結果可以看出當訊噪比愈低──即噪音比例愈高──會使辨識正 確率愈低,也就是說噪音對辨識的影響是很大的,可以印證前文所提到的噪音會 破壞語音特徵的時空結構。

表 4-3 進一步列出了數種在時間序列域常見的特徵正規化方法於乾淨語料訓 練下的辨識結果,有倒頻譜消去法、倒頻譜平均值與變異數正規化法,以及統計 圖等化法。從表 4-3 中可發現倒頻譜消去法在三個測試集中皆有改進之效果,是 因為倒頻譜消去法利用正規化特徵參數之平均值來消除穩定的通道效應,故能有 效的提升辨識效果。而倒頻譜平均值與變異數正規化法除了正規化特徵參數之平 均值,更進一步的正規化特徵參數之變異數,減少了特徵參數的分布差異,故比 倒頻譜消去法有更進一步的改善。統計圖等化法則是透過正規化特徵參數的整體 分布,對特徵參數的統計分布之所有動差進行正規化。一階動差即機率分布之平 均值,二皆動差即機率分布之變異數,故統計圖等化法相較於倒頻譜消去法和倒

28

頻譜平均值與變異數正規化法考慮了更多的資訊,其辨識結果也較倒頻譜平均值 與變異數正規化法突出。

表 4- 3:Aurora-2 梅爾倒頻譜係數於乾淨語料訓練下的辨識結果(平均詞精確率

%)。

乾淨語料訓練模型

訊噪比

Set A Set B Set C

地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 99.72 99.64 99.58 99.75 99.72 99.64 99.58 99.75 99.66 99.61

20dB 98.22 85.97 95.44 97.93 90.97 95.71 88.61 89.76 94.47 95.44

15dB 92.05 65.11 81.09 92.32 74.36 87.52 68.92 72.60 86.49 89.03

10dB 71.63 38.48 51.54 74.17 48.05 64.06 42.32 45.11 71.32 72.13

5dB 39.15 10.76 25.26 41.16 18.54 36.09 17.57 17.96 43.51 47.43

0dB 14.61 -7.22 12.17 17.56 -3.13 16.11 0.95 5.40 17.07 22.61

-5dB 8.17 -10.94 8.32 9.04 -7.22 8.19 -3.13 3.18 8.90 12.24

Avg. 63.13 38.62 53.10 64.63 45.76 59.90 43.67 46.17 62.57 65.33

表 4- 4:Aurora-2 常見之時間序列域特徵正規化方法於乾淨語料訓練下的辨識結 果。

平均詞精確率% Set A Set B Set C Avg.

MFCC 54.87 48.87 63.95 54.29 CMS 66.81 71.79 67.64 68.97 CMVN 75.93 76.76 76.82 76.44 HEQ 80.03 82.05 80.10 80.85 SMN 44.63 46.82 42.47 45.07 SMVN 59.02 63.60 58.49 60.75 CMVN+SMN 81.57 82.95 80.83 81.98 CMVN+SMVN 84.78 86.40 84.81 85.43

表 4- 5:Aurora-4 常見之時間序列域特徵正規化方法於乾淨語料訓練下的辨識結 果。

Set 1 Set 2 Set 6 Set 8 Set 9 Set 13 Avg.

MFCC 88.29 51.67 37.11 64.05 40.76 27.86 51.62 HEQ 89.32 76.83 63.02 77.86 65.75 54.00 71.13 CMVN 89.32 70.53 59.56 75.51 58.67 46.48 66.68 AFE 88.88 81.22 67.22 79.34 72.56 60.55 74.96

30

相關文件