• 沒有找到結果。

遺失特徵重建法作用在後端語音解碼上

2.3 語音特徵參數重建法

2.3.2 遺失特徵重建法作用在後端語音解碼上

遺失特徵重建法除了可作用在前端語音特徵擷取上,亦可作用於後端語音解 碼 上 , 常 見 的 方 法 亦 有 二 種 類 屬 資 料 設 算 法 (Data imputation) 與 邊 際 化 法 (Marginalization)。

在資料設算法中,假設隱藏式馬可夫模型中的每個狀態都是用一組混合高斯 [Josifovski et al. 1999],計算方法如下:

 

      

在邊際化法中,並不用重建任何向量,而是直接利用可靠與不可靠的頻譜向 量進行相似度估測,計算如下

 

 

   



 

 

v

v s v s u u

r v

s P X t X t Y t

c s

t X

P | , , ; , , , (2-61)

     

Xr t Xu t Yu t sv sv

P , ;, , , 的計算方法與(2-54)式相同。

然而在目前現有的遺失特徵重建法中,大部份的方法都是每個音框獨立 (frame-by-frame)運算,並沒有考慮前後文(Contextual or Temporal)的資訊,然而 語音訊號本身是變化緩慢(slowly time-varing)的訊號,此特性意謂著相鄰的音框 其實會有高度的相關資訊,若能尚用此特性,那麼必能有效地提昇辨識效能。

三、實驗語料庫與相關基礎實驗結果

本章節主要是介紹本論文中實驗語料庫與相關實驗設定。第一小節將介紹本論文 所使用的實驗語料庫;第二小節將說明本論文使用的相關設定;第三小節介紹辨 識效能得評估方式,最後呈現相關基礎實驗結果與觀察。

3.1 Aurora-2 語料庫

為了測詴與驗證本論文所提出的方法是否有增進語音強健性,本論文實驗所使用 的 語 料 庫 為 Aurora-2 是 由 歐 洲 電 信 標 準 協 會 (European Telecommunications Standards Institute, ESTI)所發行的語料庫[Hirsch and Pearce 2000],其本身為一套 含有雜訊的連續英文數字語料庫,參與錄音計畫的語者,皆是美國成年人。其中 雜訊包含八種來源不同的加成性雜訊和二種不同特性的通道效應。加成性雜訊包 括機場(Airport)、人聲(Babble)、汽車(Car)、展覽會館(Exhibition)、餐廳(Restaurant)、

地下鐵(Subway)、街道(Street)及火車站(Train Station),且各自依不同訊噪比 (Signal-to-Noise Ratio, SNR)加入乾淨語音裡,訊噪比包括 20dB、15dB、10dB、

5dB、0dB 和-5dB;通道包含由國際電信聯合會(International Telecommunication Union, ITU)所訂立的二個標準-G.712 和 MIRS。

根據測詴語料中加入之通道雜訊以及加成性雜訊之種類不同,Aurora-2 分為 三組測詴群組 Set A、Set B 和 Set C,並且提供二種訓練模式:乾淨語料訓練(Clean Training)與複合情境訓練(Multi-Condition Training)詳細內內容如表 3.1 所示。

3.2 實驗設定

在前端處理方面,本論文的基礎實驗是採用梅爾倒頻譜係數作為語音特徵參數,

預強調參數設為 0.975,漢明窗參數設為 0.46,取樣音框長度(Frame Length)

為 25 毫秒,音框間距(Frame Shift)為 10 毫秒,每個音框的資訊是以 39 維語音特 徵向量表示,其中包含 12 維的梅爾倒頻譜係數以及第零維倒頻譜係數(the 0-th Cepsral Coefficient),並同時會對 13 維特徵參數取其相對的一階差量係數(Delta Coefficient)和二階差量係數(Acceleration Coefficient)。

表 3.1、Aurora 2.0 語料庫詳細說明。

取樣頻率 8KHz

語音內容 包含英文數字單詞:One、Two、Three、Four、Five、Six、Seven、

Eight、Nine、Zero、Oh

訓練模式 乾淨語料訓練 複合情境訓練

語句個數:8440 句 加成性噪音:無

訊噪比範圍:完全乾淨

通道效應:G.712

語句個數:8440 句 加成性噪音:

地下鐵、人聲、汽車、展覽會館 訊噪比範圍:完全乾淨及 20dB 至 5dB

通道效應:G.712 測詴組合 Set A Set B Set C

語句個數:28028 句 加成性噪音:地下 鐵、人聲、汽車、展 覽會館

訊噪比範圍:完全乾 淨及 20dB 至-5dB 通道效應:G.712

語句個數:28028 句 加成性噪音:餐廳、

街道、機場、火車

訊噪比範圍:完全乾 淨及 20dB 至-5dB 通道效應:G.712

語句個數:14014 句 加成性噪音:地下 鐵、街道

訊噪比範圍:完全乾 淨及 20dB 至-5dB 通道效應:MIRS

在聲學模型的設定,每個數字模型(1~9 及 zero 和 oh)皆由一個由左到右 (left-to-right) 形 式 的 連 續 密 度 隱 藏 式 馬 可 夫 模 型 (Continuous Density Hidden Markov Model, CDHMM)表示,其中包含 16 個狀態(State),並且每個狀態是利用 3 個高斯混合分布(Gaussian Mixture Distribution)表示。另外靜音模型的部份有二 種模型,一個為靜音(Silence)模型包含三個狀態,每個狀態用 6 個高斯的高斯混 合模型,用來表示語句開始跟結束時的靜音;另一個為間歇(Pause)模型包含 1 個狀態,以 6 個高斯模型建模,表示語句內數字與數字之間的短暫停止。另外,

還有關於複雜式的(Complex)連續密度隱藏式馬可夫模型設定。數字模型包含 16 的狀態,每個狀態利用 20 個高斯混和表示。靜音模型含一個狀態,一個狀態用 36 個高斯的高斯混合模型。間歇模型包含 1 個狀態,以 36 個高斯模型建模。上 述所有聲學模型的訓練與本論文所有的實驗都是使用 HTK 工具套件完成[Young et al. 2006]。

3.3 辨識效能評估方式

辨 識 效 能 的 評 估 方 式 是 採 用 美 國 標 準 與 科 技 組 織 (The National Institute of Standards and Technology, NIST)所訂立的評估標準,進行正確轉譯文句字串與辨 識字串的比較。評估單位是已字正確率(Word Accuracy)為單位,計算正確轉譯文 句字串與辨識字串間字的取代個數(Substitutions)、字插入個數(Insertions)和字刪 除個數(Deletions);計算的方式有兩種,字正確率(Word Accuracy Rate)與字錯誤 率(Word Error Rate),分別如下所示

% 100

(%)  

輸入字總數

字插入個數 字正確辯識個數

字正確率

% 100

(%)   

輸入字總數

字刪除個數 字插入個數

字取代個數 字錯誤率

因為 Aurora-2 的語料庫裡,每一種雜訊對於同一個測詴集都會用七種不同

程度的訓噪比添加,依照國際學者對數據的呈現習慣,對於每一種雜訊的平均字 正確率或平均字錯誤率的計算方式是加總 20dB 至 0dB 的辨識結果取平均,排除 掉乾淨和-5dB 二種極端的訓噪比,所以後續本論文的所有實驗結果亦是遵循此 種呈現方式。

表 3-2、使用梅爾倒頻譜係數(MFCC)於乾淨語料訓練模式與複合情境訓練模 式下的辨識結果。

乾淨語料訓練模式

平均字正確率% 測詴集 A 測詴集 B 測詴集 C

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 99.17 99.03 99.02 99.41 99.17 99.03 99.02 99.41 99.23 99.03 20dB 94.29 96.37 96.24 94.91 96.47 95.41 97.70 97.28 94.14 95.22 15dB 84.99 85.43 87.62 86.67 87.90 87.30 92.16 89.69 84.99 86.15 10dB 62.48 54.81 60.10 62.51 63.40 61.73 70.06 65.32 63.99 61.49 5dB 34.42 24.40 27.65 25.67 30.21 33.68 37.70 31.97 35.16 33.71 0dB 16.49 4.53 12.14 6.97 8.41 15.15 16.88 12.16 16.76 15.69 -5dB 10.99 -2.36 7.72 5.71 0.09 9.25 7.07 6.02 10.38 9.01 平均 58.53 53.10 56.75 55.34 57.27 58.65 62.9 59.28 59.00 58.45

複合情境訓練模式

平均字正確率% 測詴集 A 測詴集 B 測詴集 C

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 98.28 98.52 98.15 98.67 98.28 98.52 98.15 98.67 98.31 98.52 20dB 97.02 97.64 97.73 97.07 97.61 97.19 98.18 97.84 96.84 96.95 15dB 95.55 96.92 96.81 96.51 96.16 95.50 97.14 96.70 95.67 95.68 10dB 92.26 93.32 94.57 93.09 91.93 92.90 94.84 94.60 91.65 92.84 5dB 84.59 81.98 86.16 83.43 81.39 83.77 87.56 84.82 82.62 83.46 0dB 63.06 54.53 57.83 60.97 54.47 60.01 67.43 60.23 63.28 62.12 -5dB 33.13 20.92 17.36 28.91 23.58 26.42 32.78 23.17 32.82 27.00 平均 86.49 84.87 86.62 86.21 84.31 85.87 89.03 86.83 86.01 86.21

3.4 基礎實驗結果

首先吾人先以梅爾倒頻譜係數(設定如 3.2 節所述)當作語音特徵參數,求算其在 各種不同雜訊與通道效應下的辨識結果,當作本論文的基礎實驗結果(Baseline)。

表 3-2 分別呈現於乾淨語料訓練模式與複合情境訓練模式的辨識結果,在乾淨語 料訓練模式下的平均字正確率約為 58.06%,在複合情境訓練模式下的平均字正 確率約為 83.3%,從二種不同訓練模式的呈現,吾人觀察到以下幾點現象:

1. 在不受任何雜訊干擾時,字正確率可高達 99%,然而隨著雜訊干擾程 度越來越大,辨識效能下降的非常快,尤其當訊噪比低於 5dB 時,下 降的程度更為明顯。

2. 複合情境訓練模式的辨識效能較乾淨語料訓練模式好,是因為複合情境 訓練模式是收集許多不同訊噪比干擾的資料,加以訓練聲學模型,因此 使得測詴語料與聲學模型間的不匹配問題降低,所以才能獲得比較好的 辨識效能。

3. 在複合情境訓練模式下,測詴集 A 的辨識效果比測詴集 B 好,主要是 因為測詴集 B 的雜訊型態是沒出現在複合情境訓練模式的訓練語料中,

所以可想而知效能比較差。

4. 測詴集 C 的辨識結果一般而言,較測詴集 A 與測詴集 B 差,主要原因 是因為測詴集 C 的通道效應是和訓練語料不相同的。

為了更清楚地理解複合情境訓練模是與乾淨語料訓練模式對於辨識效能的差別,

我們以乾淨語料(Clean)和雜訊語料(訊噪比為 5)為例,比較在乾淨語料訓練模式 與複合情境訓練模式下,不同測詴集之間的字正確率。圖 3-1 中,數線”乾淨_Clean”

代表乾淨語料訓練模式下乾淨語料的辨識結果,其於以此類推。由圖 3-1 可以發 現訊噪比高的 Clean 語料在複合情境訓練模型下與乾淨訓練模型相比,是幾乎沒 有改變的;反之,訊噪比較低的 SNR5 在複合情境訓練模型下可以獲得相當的提 升。也就是說,複合情境訓練模式收集許多受雜訊音干擾的語料以提升訊噪比低 的測詴語料,對於乾淨語料仍然保持著與乾淨語料訓練模式相同的辨識率。此外,

我們可以觀察到測詴集 C 在數線複合_SNR5 與數線乾淨_SNR5 中相比,所獲得 的效能提升不如測詴集 A 和測詴集 B,這也呼應了吾人前述四點觀察中的第四 點。

圖 3-1、比較不同訊噪比之測詴語料在乾淨語料訓練模式與複合情境訓練 模式下之字正確率。

0 20 40 60 80 100 120

測詴集A 測詴集B 測詴集C 測詴集平均

乾淨_Clean 複合_Clean 乾淨_SNR5 複合_SNR5

表 3-3 為梅爾倒頻譜係數在複雜式模型下的辨識結果。梅爾倒頻譜係數在

淨語料訓練模式與複合情境訓練模式下的平均辨識率分別為 41.11%和 9.98%。將表 3-2

的乾淨語料訓練模式與表 3-3 的乾淨語料訓練模式相比,可以發現用更複雜的高 斯混合模型的確提升了字正確率。但若從細部觀察可以發現其對訊噪比在 20 以 上的語料大多有著相當大的字正確率提升,但是對於乾淨語料(Clean)而言,其字 正確率反而是下降的。

表 3-3、使用梅爾倒頻譜係數(MFCC)於乾淨語料訓練模式與複合情境訓練模 式下搭配複雜式聲學模型的辨識結果。

乾淨語料訓練模式-複雜式連續密度隱藏式馬可夫模型

平均字正確率% 測詴集 A 測詴集 B 測詴集 C

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 99.75 99.76 99.67 99.91 99.75 99.76 99.67 99.91 99.66 99.73 20dB 95.70 96.34 97.05 96.33 96.96 96.28 97.88 97.87 94.87 95.77 15dB 86.67 84.67 87.24 87.66 88.27 87.21 91.23 89.23 85.94 86.55 10dB 67.18 57.74 62.57 64.92 65.8 64.96 70.56 66.46 67.02 62.91 5dB 36.60 25.00 29.11 29.74 34.79 36 38.77 33.94 37.30 34.52 0dB 15.60 1.63 11.21 6.17 7.71 15.6 13.6 10.4 15.11 15.24 -5dB 9.09 3.48 8.50 4.84 5.74 9.49 5.31 5.74 9.92 9.43 平均 60.35 53.07 57.43 56.96 58.70 60.01 62.40 59.58 60.04 58.99

複合情境訓練模式-複雜式連續密度隱藏式馬可夫模型

平均字正確率% 測詴集 A 測詴集 B 測詴集 C

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 99.29 99.43 99.37 99.57 99.29 99.43 99.37 99.57 99.32 99.43 20dB 98.86 98.85 99.05 98.52 98.96 98.34 99.11 99.2 98.74 98.25 15dB 97.79 98.13 98.39 98.06 98.13 97.67 98.63 98.27 98 97.49 10dB 96.22 96.37 96.36 95.56 95.46 95.5 97.05 96.58 96.13 95.19 5dB 90.88 86.15 91.17 88.83 86.09 87.73 91.59 88.46 90.14 88.45 0dB 73.29 56.95 68.57 68.37 59.96 68.32 73.55 67.82 71.81 69.8 -5dB 40.9 13.21 26.04 34.87 18.73 33.07 34.12 28.32 42.25 31.47 平均 91.40 87.29 90.70 89.86 87.72 89.51 91.98 90.06 90.96 89.83

由於複合情境模式訓練模式已經能大幅降低測詴語料與聲學模型間不匹配 的問題,但就乾淨訓練模式而言,仍有許多可努力的空間,因此吾人在本論文後 續章節將只探討乾淨語料訓練模式下的語音辨識。此外,所有實驗皆使用非複雜 式連續密度隱藏式馬可夫模型,只有在較主要的幾項實驗上使用複雜式連續密度 隱藏式馬可夫模型。首先,吾人將探討倒頻譜平均數和變異量正規化法(CMVN),

實驗結果如表 3-4 所示。從表中可清楚的發現其除了對於移除通道效應的影響有

實驗結果如表 3-4 所示。從表中可清楚的發現其除了對於移除通道效應的影響有