實驗語料庫與相關基礎實驗結果 - 運用調變頻譜分解技術於強健語音特徵擷取之研究

本章將介紹本論文使用的語料庫與實驗設定。第一節是介紹實驗語料庫，第二節是相關的實驗設定，第三節說明辨識效能的評估方式，第四節是一些基礎的實驗結果。

(一) 實驗語料庫

本論文使用 Aurora-2 與 Aurora-4 語料庫。Aurora-2 是英文連續數字語料庫來測試論文中所提出方法和其它方法在使用相同語料庫時的辨識效果。Aurora-2 是由歐洲電信標準協會(European Telecommunications Standards Institute, ESTI)所發行的語料庫 [62] ，以美國成年人作為錄音來源，內容為連續的英文數字，由 0(Zero)~9(Nine)加上 0 的另一種說法(Oh)等十一個詞組成。此語料庫中除了乾淨的語音以外，還另外加入了八種不同的加成性雜訊和兩種不同的通道效應。加成性雜訊有機場(Airport)、人聲(Babble)、汽車(Car)、展覽會館(Exhibition)、餐廳 (Restaurant)、地下鐵(Subway)、街道(Street)和火車站(Train Station)，依照不同的訊噪比(Signal-to-Noise Ratio, SNR)加入乾淨語音中，訊噪比是指純語音訊號與雜訊訊號能量的比值，公式如下：

SNR 𝑑𝐵 0 ∗ 𝑙𝑜𝑔 (𝐸_{𝑆𝑝𝑒𝑒𝑐ℎ}

𝐸_{𝑜𝑖𝑠𝑒}) 4 此語料庫中使用的訊噪比有 20dB、15dB、10dB、5dB、0dB 和-5dB，而通道效應是使用國際電信聯合會(International Telecommunication Union, ITU)標準中的 G.712 和 MIRS。Aurora-2 中分為三組測試集 Set A、Set B 和 Set C，分別使用不同加成性雜訊和通道效應，並提供兩組訓練資料，分別為乾淨情境訓練模式 (Clean-Condition Training)與複合情境訓練模式(Multi-Condition Training)。本研究的基礎實驗皆使用乾淨情境的訓練模式，故測試集中所有加成性噪音皆是訓練語料中未曾見過的，但只有測試集 C 的通道效應與訓練語料不同。更詳細的語料庫細節可見表 4-1。

表 4- 1：Aurora-2 語料庫相關資訊

AU Aurora-2

取樣頻率 8kHz

語音內容英文數字單詞：One、Two、Three、Four、Five、Six、Seven、Eight、

Nine、Zero、Oh，共十一個詞。

訓練語料語句數：8,400 通道效應：G.712

測試語料測試集語句數加成性噪音通道效應

A 28,028 地下鐵、人聲、汽車、展覽館 G.712 B 28,028 餐廳、街道、機場、火車 G.712

C 14,014 地下鐵、街道 MIRS

訊噪比乾淨、-5dB、0dB、5dB、10dB、15dB、20dB

Aurora-4 是大詞彙連續語音辨識(Large-Vocabulary Continuous-Speech Recognition, LVCSR)語料庫由歐洲電信標準協會(European Telecommunications Standards Institute, ESTI)所發行的語料庫[62]，Aurora-4 主要是評估強健語音辨識在受到加成性噪音與通道效應干擾之辨識效能。加成性雜訊有機場(Airport)、人聲(Babble)、汽車(Car)、餐廳(Restaurant)、地下鐵(Subway)、街道(Street)和火車站(Train Station)，通道效應包函二種測試集之麥克風，一個測試集為僅有一隻麥克風且制造商為 Sennheiser，另一測試集為包含多個不同麥克風且為不同製造商。

語料庫之內容取自華爾街日報(Wall Stress Journal 0, WSJ0)，共有 5000 個英文單字，包函二種取樣頻率 8000Hz、16000Hz，本論文使用與 Aurora-2 相同之 8000Hz 採樣頻率。

Aurora-4 中分為十四組測試集分別使用不同加成性雜訊和通道效應，並提供兩組訓練資料，分別為乾淨情境訓練模式(Clean-Condition Training)與複合情境訓練模式(Multi-Condition Training)。更詳細的語料庫細節可見表 4-2。

表 4- 2：Aurora-4 語料庫相關資訊

AU Aurora-4

取樣頻率 8kHz

測試語料測試集語句數加成性噪音通道效應

1 330 無、SI-84 濾波器 Sennheiser Mic.

2 330 汽車(5 與 15dB) Sennheiser Mic.

3 330 人聲(5 與 15dB) Sennheiser Mic.

4 330 餐廳(5 與 15dB) Sennheiser Mic.

5 330 街道(5 與 15dB) Sennheiser Mic.

6 330 機場(5 與 15dB) Sennheiser Mic.

7 330 火車站(5 與 15dB) Sennheiser Mic.

8 330 無、SI-84 濾波器 Second Mic.

9 330 汽車(5 與 15dB) Second Mic.

10 330 人聲(5 與 15dB) Second Mic.

11 330 餐廳(5 與 15dB) Second Mic.

12 330 街道(5 與 15dB) Second Mic.

13 330 機場(5 與 15dB) Second Mic.

14 330 火車(5 與 15dB) Second Mic.

訊噪比乾淨、-5dB、0dB、5dB、10dB、15dB、20dB

(二) 實驗設定

本論文是的基礎實驗是採用梅爾倒頻譜係數做為語音特徵參數，取樣頻率 (Sampling Rate)為 8000Hz，預強調(pre-emphasis)參數設為 0.97，使用的窗函數為漢明窗(Hamming Window)，音框長度(Frame Length)是 25 毫秒，音框間距(Frame Shift)為 10 毫秒。每一個音框的特徵使用 13 維梅爾倒頻譜係數(第 0 維至第 12 維)，

加上其一階差量計算和二階差量計算，共 39 維之特徵參數。在特徵的強健性處理方法，本論文在處理特徵時，只針對 13 維的靜態特徵參數(Static Feature)進行處理，處理完成後才額外將一階差量和二階差量加入。

在聲學模型的訓練和測試部份，本論文使用劍橋大學所開發的隱藏式馬可夫模型工具套件 HTK[63]進行。每個數字的聲學模型皆以一從左到右(Left-to-right) 形式的連續密度隱藏式馬可夫模型(Continuous Density Hidden Markov Model, CDHMM)表示，共 11 個數字模型(one, two ,…, nine, zero , and oh)以及靜音模型。

每個數字模型包含 16 個狀態(State)，每個狀態利用 20 個高斯混合(Guessian Mixtures)表示。靜音(silence)模型則包含 3 個狀態，每個狀態以 36 個高斯混合來表示。

(三) 辨識效能評估方式

本論文評估辨識的方式是採用美國標準與科技組織 (The National Institute of Standards and Technology, NIST)所訂定之評估標準，比較正確轉譯文句字串與辨識字串。評估的單位是以字精確率(Word Accuracy)為單位。計算正確轉譯文句字串與辨識字串間的字取代個數(Substitutions)、字插入(Insertions)個數和字刪除 (Deletions)個數，計算的方式有二種，詞精確率(Word Accuracy Rate)與詞錯誤率 (Word Error Rate)，其計算公式如下：

詞精確率詞正確辨識個數詞插入個數

輸入詞總數 ∗ 00 4

詞錯誤率詞取代個數+ 詞插入個數 + 詞刪除個數

輸入詞總數 ∗ 00 4 3 在 Aurora-2 語料庫中，在每一個測試集都會依不同程度的訊噪比添加七種噪音，參照國際學者之設定，本論文使用加總每一種噪音從 20dB 到 0dB 的平均詞精確率或平均詞錯誤率的結果再取其平均值。值得注意的是，兩種極端的訊噪比，也就是乾淨的情況和-5dB 的情況，是排除在平均計算範圍外的。本論文所有的實驗皆是使用此設定來評估計算辨識結果。

(四) 基礎實驗結果

本論文是以梅爾倒頻譜係數作為語音特徵參數，計算在各種不同通道效應和雜訊下之辨識結果作為本論文的基礎結果(Baseline)。表 4-2 為梅爾倒頻譜係數於乾淨語料訓練下，三個測試集在不同噪音環境下的辨識結果。從表 4-2 的 Clean 那一列可以看出在乾淨的測試資料都有很好的辨識結果，平均詞精確率高達 99%，而比較每一列的辨識結果可以看出當訊噪比愈低──即噪音比例愈高──會使辨識正確率愈低，也就是說噪音對辨識的影響是很大的，可以印證前文所提到的噪音會破壞語音特徵的時空結構。

表 4-3 進一步列出了數種在時間序列域常見的特徵正規化方法於乾淨語料訓練下的辨識結果，有倒頻譜消去法、倒頻譜平均值與變異數正規化法，以及統計圖等化法。從表 4-3 中可發現倒頻譜消去法在三個測試集中皆有改進之效果，是因為倒頻譜消去法利用正規化特徵參數之平均值來消除穩定的通道效應，故能有效的提升辨識效果。而倒頻譜平均值與變異數正規化法除了正規化特徵參數之平均值，更進一步的正規化特徵參數之變異數，減少了特徵參數的分布差異，故比倒頻譜消去法有更進一步的改善。統計圖等化法則是透過正規化特徵參數的整體分布，對特徵參數的統計分布之所有動差進行正規化。一階動差即機率分布之平均值，二皆動差即機率分布之變異數，故統計圖等化法相較於倒頻譜消去法和倒

頻譜平均值與變異數正規化法考慮了更多的資訊，其辨識結果也較倒頻譜平均值與變異數正規化法突出。

表 4- 3：Aurora-2 梅爾倒頻譜係數於乾淨語料訓練下的辨識結果(平均詞精確率

%)。

乾淨語料訓練模型

訊噪比

Set A Set B Set C

地下鐵人聲汽車展覽會館餐廳街道機場火車站地下鐵街道

Clean 99.72 99.64 99.58 99.75 99.72 99.64 99.58 99.75 99.66 99.61

20dB 98.22 85.97 95.44 97.93 90.97 95.71 88.61 89.76 94.47 95.44

15dB 92.05 65.11 81.09 92.32 74.36 87.52 68.92 72.60 86.49 89.03

10dB 71.63 38.48 51.54 74.17 48.05 64.06 42.32 45.11 71.32 72.13

5dB 39.15 10.76 25.26 41.16 18.54 36.09 17.57 17.96 43.51 47.43

0dB 14.61 -7.22 12.17 17.56 -3.13 16.11 0.95 5.40 17.07 22.61

-5dB 8.17 -10.94 8.32 9.04 -7.22 8.19 -3.13 3.18 8.90 12.24

Avg. 63.13 38.62 53.10 64.63 45.76 59.90 43.67 46.17 62.57 65.33

表 4- 4：Aurora-2 常見之時間序列域特徵正規化方法於乾淨語料訓練下的辨識結果。

平均詞精確率% Set A Set B Set C Avg.

MFCC 54.87 48.87 63.95 54.29 CMS 66.81 71.79 67.64 68.97 CMVN 75.93 76.76 76.82 76.44 HEQ 80.03 82.05 80.10 80.85 SMN 44.63 46.82 42.47 45.07 SMVN 59.02 63.60 58.49 60.75 CMVN+SMN 81.57 82.95 80.83 81.98 CMVN+SMVN 84.78 86.40 84.81 85.43

表 4- 5：Aurora-4 常見之時間序列域特徵正規化方法於乾淨語料訓練下的辨識結果。

Set 1 Set 2 Set 6 Set 8 Set 9 Set 13 Avg.

MFCC 88.29 51.67 37.11 64.05 40.76 27.86 51.62 HEQ 89.32 76.83 63.02 77.86 65.75 54.00 71.13 CMVN 89.32 70.53 59.56 75.51 58.67 46.48 66.68 AFE 88.88 81.22 67.22 79.34 72.56 60.55 74.96

在文檔中運用調變頻譜分解技術於強健語音特徵擷取之研究 (頁 33-40)