• 沒有找到結果。

以空間與時間之特徵分布為基礎之正規化架構相關實驗結果 ........................... 7 8

如 5.1.3 小節中所敘述,限定型目標空間準則之方法之來源向量與標記向量的組 合不是唯一的,下個實驗將探討目標函數以最小化平方差之和為主,(來源-標記) 不同的組合之間的比較。結果呈現於表 5-1,其中左側為標記向量之種類,上方 則為來源向量之種類,為了不造成符號上的混淆我們將來源向量的種類以 Type 1 至 Type 5 表示,分別為 CDF、CMVN、CMGN、AGN 和 MFCC。以標記向量是 累積密度函數(CDF)的那一列為例,其對應之欄位為各種不同的來源向量,而該 列之平均字錯誤率代表各種來源向量對應到累積密度函數之標記向量的辨識結 果。表格中對角線位置為相同種類的特徵向量,因此我們不考慮其組合之結果。

表 5-1、使用不同(來源向量-標記向量)組合於以空間與時間之特徵分布為基礎 之正規化架構之實驗結果

乾淨語料訓練模式

平均字錯誤率(%) 來源向量

Type1 Type2 Type3 Type4 Type5 標

記 向 量

CDF * 27.45 21.36 88.13 52.39 CMVN 19.14 * 20.48 85.72 48.74 CMGN 18.95 26.36 * 86.10 50.48 AGN 17.42 28.00 19.81 * 57.76 MFCC 17.99 23.06 18.66 86.45 *

必頇特地說明的是在此實驗中,在測詴階段時所有來源向量皆是轉換至語音特徵 之靜態部分(Static),而靜態部分所在的空間與標記向量所處的空間相同,在那之 後才求算動態部分(Dynamic)。另一種層面的意義為我們將每一種正規化方法前 處理後的數值當作是一種語音特徵參數傳送至辨識器。

由表 5-1 中可以看出,即使將正規化後的數值當作語音特徵參數用來辨識也 能有相當的效果,如標記向量用 CDF、CMVN、CMGN 或 AGN 在 Type 1 至 Type 3 皆能獲得不錯的字錯誤率。而若以 Type 4 或 Type 5 為來源向量,不論標記向 量為何皆無法獲得好的效果。為了更容易理解,我們將表 5-1 圖像化後呈現於圖 5-2。圖中更清楚看見辨識效果是由來源向量所掌控。來源向量 Type 1 至 Type 3 不論搭配何種標記向量必然優於 Type 4 和 Type 5。由於來源向量的主要貢獻為 提供一種可信賴的資訊,其確保不僅在訓練階段能有效地過濾出空間與時間之特 徵分布的主要成分,而且在測詴環境下也能提供與較不受雜訊干擾的資訊,使在 乾淨訓練環境下求得之轉換矩陣得以在測詴環境下發揮效果。我們可以推論在此

圖 5-2、不同來源向量與標記向量之不同組合並以最小平方差之和為目標函數

使用於以空間與時間之特徵分布為基礎之正規化架構。

0

10 20 30 40 50 60 70 80 90

CDF CMGN CMVN MFCC AGN 平

均 字 正 確 率

架構中,以最小化平方差之和為目標函數的條件下,處理環境條件不匹配的重要 資訊為來源向量的種類。

另外,值得討論的是在 Type 1(CDF)為來源向量的那一欄中,顯示出不論搭 配 哪 一 種 類 的 標 記 向 量 皆 能 獲 得 優 於 其 他 組 合 之 辨 識 結 果 。 本 實 驗 中 , Type1(CDF)的估測採用序列式統計值(Order-Statistics)。其與 Type 2(CMVN)比較,

以特徵值域之觀點,此兩種皆有正規化向量特徵值之平均與變異量之精神,且皆 保持單調遞增或遞減的關係。不同的是序列式統計值以非線性轉換將原本向量特 徵值之間的相對差距抹去,只考慮其單調遞增的順序。吾人認為在此架構下,來 源向量是提供與訓練環境下相同的資訊為主要目的。而在遵守統計圖等化法之假 設下,雜訊對語音是單調的轉換(Monotonic Transformation),序列式統計值顯然 地能獲得與訓練環境較一致的估測結果。反觀 CMVN,受制於該句雜訊語音向 量序列的內容,正規化後的結果可能與訓練環境相差較大。

表 5-2 為梅爾倒頻譜係數以及各種正規化方法後的數值直接用來當作語音特 徵向量辨識之結果。各種正規化法皆只作用於梅爾倒頻譜係數之靜態部分,靜態 部分在正規化後才求算動態部分,總共為 39 維的語音特徵向量。此種做法是為 了可以與上個實驗之正規化架構做比較。因為不是傳統 CMVN 的做法,這也解

表 5-2、使用各種正規化方法於語音特徵向量之實驗結果

乾淨語料訓練模式

平均字錯誤率(%) 測詴集

setA setB setC Average MFCC 47.62 49.96 40.50 46.03

AGN 37.52 38.49 37.40 38.80 CMGN 20.66 19.25 20.99 20.30 CMVN 27.48 26.37 26.25 26.70 CDF 23.78 22.02 23.01 22.94

釋了為何 CMVN 的字錯誤率高達 26%。表格中一項較有趣的數據為 CDF 直接 當作語音特徵參數作辨識的結果。顯示出對於 Aurora2.0 語料庫,以序列式統計 值即可獲得可觀的效果。值得順帶一提的是,在 MATBN 與料庫中,吾人也使用 累積密度函數為語音特徵參數於大詞彙連續語音辨識中,實驗語料庫為 MATBN,

梅爾倒頻譜係數的字正確率約為 72%,而累積密度函數獲得相去不遠的 71%。

下個實驗吾人將探討使正規化架構(STDNF)是否對語音特徵參數有所幫助。

因此,吾人將比較表 5-1 與表 5-2 之實驗結果,且結果以圖 5-3 來呈現。圖中右 側之數列名稱的”無使用正規化架構”為直接將各種正規化法前處理後之數值當 作語音特徵參數用來辨識之結果,即表 5-2 之平均字錯誤率。而”使用正規化架 構”代表在搭配目標函數為最小化平方差之和的以空間與時間之特徵分布為基礎 之正規化架構下,使用各種語音特徵向量當作標記向量之辨識結果,所用之數據 取自表 5-1 中各種標記向量之最佳結果。即 MFCC、AGN、CMGN 和 CMVN 皆 搭配 CDF 為來源向量,而 CDF 以 CMGN 為來源向量。以圖中 MFCC 之二數列 為例來說明,無使用正規化架構之平均字錯誤率為 46.03%,而使用正規化架構

圖 5-3、比較以最小化平方差之和為目標函數之正規化架構對於各種語音 特徵參數之效用。

0 10 20 30 40 50

MFCC AGN CMGN CMVN CDF 46.03

38.8

20.3

26.7 22.94

17.99

17.42 18.95 19.14 21.36

無正規化架構 使用正規化架構

均 字 錯 誤 率

之結果為 17.99%,相對進步率達到約 56%。結果顯示正規化架構對於各種語音 特徵參數皆可提升其效能。

5.3 使用不同目標函數於以空間與時間之特徵為基礎之正規 化架構的相關實驗

5.2 節中的所有實驗皆是以最小化平方差之和為目標函數,比較不同語音向量正 規化參數的影響,其訓練階段所需的資訊有來源向量和標記向量。而本節的實驗 將著重在不同目標函數所帶來的影響,且若目標函數不屬於限定型目標空間準則,

則所需的資訊將不包括標記向量。本節有關語音特徵參數轉換之作法與 5.2 節相 同,所有目標函數求得的轉換矩陣,在測詴階段皆將來源矩陣轉換至靜態部分之 後才求算動態部分。

下個實驗吾人將探討以空間與時間之特徵為基礎之正規化架構下,(圖 5-1 中)第三區使用不同目標函數之實驗結果的比較。然而第一區所使用的語音向量 正規化參數則是延續著 5.2 節,其中一個顯而易見的實驗結果告訴我們來源向量 為累積密度函數可以提供較可信賴的資訊於測詴環境下,因此本實驗皆以累積密 度函數為來源向量。實驗結果如表 5-3,其中,MSES 為最小化平方差之和 (Minimize Sum of Error Square)、MLP 為多層次感知器(Multi-Layer Proceptron)、

LDA 為線性鑑別式分析(Linear Discriminative Analysis)、HLDA 為異質性線性鑑 別式分析(Heteroscedastic Linear Discriminant Analysis 、PCA 為主成分分析 (Principle Component Analysis)。MSES 與 MLP 皆屬於限定型目標空間準則的方 法且獲得不錯的辨識效果。LDA 與 HLDA 皆為考慮語音特徵向量之類別的方法,

其辨識效果顯然地不如限定型目標空間準則的方法。其可能的原因為我們所使用 的是序列式統計值的累積密度函數,雖然有助於對抗環境不匹配的影響卻不足以 提供有助分類的資訊,導致分類結果依然混淆。然而 PCA 在此實驗中獲得最佳 的辨識結果,其優於限定型目標空間準則方法的可能原因有三點:

1) 限定型目標空間準則之方法為了省略隨機變數的潛在問題,直接使用 5.1.3 小節所述之來源矩陣M與標記矩陣B,其考慮的是最小化全體樣本的錯誤 之平方差之總和。然而 PCA 考慮的是全體樣本的錯誤之平方差之平均,且不像 限定型目標空間準則之方法已限制了投影的空間,而是依照訓練語料中的特性找 出能使累積密度函數最分散的空間。

2)主成分分析為基礎的特徵根所形成之空間能夠去除雜訊語音中非語音的 多餘成分,藉由將主要語音成分投影到排序後較高順位(High Rank)的特徵空間,

而非語音成分投影到排序後較低順位(Low Rank)的特徵空間[Kuhn et al. 2000;

Abolhassani et al. 2007]。

3)主成分分析的運作本來就對語音特徵向量之元素強度之變異量相當敏感,

當變異量大時,主成分分析可能無法獲得較佳的結果。然而語音特徵向量的正規 化已先行降低了此類的隱憂,也因此能獲得較好的效果。

表 5-3、使用累積密度函數為語音特徵向量,搭配不同目標函數於以空間與時 間之特徵分布為基礎之正規化化架構之相關實驗結果

乾淨語料訓練模式

平均字錯誤率(%) 測詴集

setA setB setC Average MSES 18.02 16.98 18.97 17.99

MLP 18.55 16.86 18.51 17.97 LDA 28.63 27.51 28.52 28.22 HLDA 28.36 27.45 28.37 28.06 PCA 18.27 16.63 16.69 17.20

下個實驗吾人延續上個實驗所獲得之初步結果,即使用 CDF 為語音特徵參 數,搭配以目標函數為主成分分析之正規化架構似乎能有不錯的效果。吾人將目 標函數固定為主成分分析,並搭配不同語音特徵參數於正規化架構。實驗結果如 表 5-4,以 CMGN、CDF 和 CMGN 為語音特徵參數皆可獲得相當不錯的辨識率,

這三種語音特徵皆有對平均數和變異量進行正規化處理,三者的平均字錯誤率分 別為 17.65%、17.20%和 16.76%。

吾人比較三者的不同,CMGN 與 CMGN 將平均數正規化為零,而 CDF 為 0.5,不論雜訊語音特徵之內容為何,三者皆將平均數正規化為某個定值,並無 提供太多的資訊。對於變異數 CMVN 與 CDF 皆正規化到定值,但 CDF 正規化 的變異量較小。不論雜訊特徵向量內容為何,兩者皆正規化到定值。反觀 CMGN,

其變異數的正規化程度是由該句雜訊語音特徵之內容來決定的,因此正規化後的 變異量非定值。吾人初步推論,對於以目標函數為主成分分析之正規化架構而言,

不限定正規化後的分布範圍的方法比限定在固定範圍的方法來得好。然而,限定

不限定正規化後的分布範圍的方法比限定在固定範圍的方法來得好。然而,限定