• 沒有找到結果。

以高斯為核心之位移式音框平滑化函數相關實驗結果

4.2 核心函數平滑化(Kernel Smoother) ........................................................................ 6 3

4.2.2 以高斯為核心之位移式音框平滑化函數相關實驗結果

 

 0, otherwise

|

| if ), ,

|;

) (|

(

2 L

W   yn   (4-8)

其中(||;yn,2)是以y 為平均值的高斯分布,n 是由實驗求得。

4.2.2 以高斯為核心之位移式音框平滑化函數相關實驗結果

下個實驗,吾人將探討使用以高斯為核心之位移式音框平滑化函數(GKSWS)在 傳統的查表式統計圖等化法(THEQ)以及空間與時間之特徵分布統計圖轉化法 (STHEQ)之效果。在查表式統計圖等化法中,辨識能力取決於二種參數的設定,

分別是查表表格的紀錄點與統計中組距(Histogram Bin)個數,本實驗中此二種參 數皆設為 10000。空間與時間之特徵統計圖轉換法的串接數目 K=1,即總共串接 三個向量。以高斯為核心之位移式音框平滑化函數之參數S和 如 4.2.1 小節所 述是實驗中求得的。在此,對於查表式統計圖等化法之S=200、=0.5。而對於 空間與時間之特徵統計圖轉換法之S=1、=1。實驗結果如表 4-5 所示,以高斯 表 4-5、使用以高斯為核心之位移式音框平滑化函數於查表式統計圖等化法與

空間與時間之特徵分布統計圖轉換法之實驗結果

乾淨語料訓練模式

平均字錯誤率(%) 測詴集

setA setB setC Average THEQ 22.8 22.2 23.5 22.5 THEQ+GKSWS 20.6 18.6 20.6 19.9 STHEQ 18.3 16.9 19.3 18.2 STHEQ+GKSWS 17.4 17.4 18.2 17.8

為核心之位移式音框平滑化函數對於傳統的查表式統計圖等化法可以提供約 7

%的相對進步率,而對於空間與時間之特徵統計圖轉換法卻只有 2%的相對進步 率。其原因可能為查表式統計圖等化法與空間與時間之特徵統計圖轉換法對於累 積密度函數的需求,本質上有很大的不同。查表式統計圖等化法在訓練階段使用 訓練語料建構累積密度函數的反轉表,在測詴階段需利用求得的累積密度函數透 過查表直接用對應的梅爾倒頻譜係數值取代。累積密度函數與梅爾倒頻譜係數之 間是直接的對應關係,也就是說好的累積密度函數估測可以獲得較正確的梅爾倒 頻譜係數。然而空間與時間之特徵統計圖轉換法與查表式統計圖等化法相比,是 屬於兩階段式的補償法。第一階段估測累機密度函數且組織成超級向量,第二階 段透過轉換矩陣還原到梅爾倒頻譜係數空間。不只是個別維度之間,而是一種跨 維度的補償法。因此,累積密度函數平滑化無法直接反應在辨識率上。

五、以空間與時間之特徵分布統計圖轉換法之一般化 延伸

前章節敘述的空間與時間之特徵分布統計圖轉換法是屬於一種較細緻的語音特 徵正規化方法,其用統計圖搭配最小平方差之和(MSES)求得反應變數與解釋變 數之間隱含的空間與時間之特徵分布關係。但我們若用更高層次的視野觀察,能 延伸出一個較一般化(General)的正規化架構。在此架構下,運用不同的語音特徵 參數(Feature)與不同的最佳化法則(Optimization Criterion),可發展出多個別具意 義 的 組 合 。 吾 人 稱 其 為 以 空 間 與 時 間 之 特 徵 分 布 為 基 礎 之 正 規 化 架 構 (Spatial-Temporal Distribution Based Normalization Framework, STDNF)。此架構可 分成兩個構成要素做探討:第一構成要素為語音特徵;第二構成要素為目標函數 (Objective Function)。使用何種語音特徵既能達到降低聲學環境之不匹配問題,

又可幫助目標函數過濾出有助於辨識效能的空間與時間之特徵分布即是第一構 成要素所要探討的重點。而第二構成要素所需探討的議題是不同的目標函數擁有 不同的潛在精神,依賴目標函數所求得的轉換矩陣亦會導致目標轉換空間(Target Space)中的參數值影響語音特徵。因此,目標函數的選擇是由使用者的目標來決 定,並且是和語音特徵相輔相成的。

5.1 以空間與時間之特徵為基礎之正規化架構(STDNF)

5.1.1 語音特徵正規化(Normalization)

目前用來轉換測詴語音特徵至可信賴的參考值(Reliable Reference)以降低環境不 匹配的前處理(Pre-Processing)技術,可約略分為兩種:1)語音特徵分布正規化 (Distribution Normalization);2)語音特徵參數正規化(Feature Normalization)。分別 簡介如下:

1)語音特徵分布正規化法藉由非線性的轉換將測詴語音的分布修正為參考 分布,沒有直接處理雜訊,而是藉由非線性函數間接地去除雜訊對於特徵分布的 影響。此類方法確保單調遞增或遞減的性質,但特徵向量彼此之間的距離在轉換 前後並無維持等比例的關係。然而在本章節所述之架構中,吾人只針對用非線性 函數所求得之累積密度函數加以討論。

2)語音特徵參數正規化嘗詴處理某種統計特性,如平均值(Mean)、變異量 (Variance)或更高階動差(Moment),其目的在消除存在於特徵向量內的誤差。此 類方法與語音特徵分布正規化相比,除了確保單調遞增或遞減之性質外,轉換後 的特徵向量之距離仍然維持著接近轉換前的比例。以下為幾個語音特徵參數正規 化之例子,同時是本章節的實驗中所使用的主要方法。

倒頻譜平均消去法(Cepstral Mean Normalization, CMN)是一種簡單卻有效,

用 來 去 除 傳 輸 通 道 (Transmission Channel) 所 導 致 的 短 時 間 內 是 時 間 恆 定 的 (Time-Invariant)訊號干擾的技術,主要精神為消去倒頻譜上的平均值表示如下

x t

t x

xˆ   , (5-1)

T

t t

x x

T 1

 1 , (5-2)

在此我們去除不同頻域維度的指標,其中x 為時間軸上第t t 個特徵向量的元素,

xˆ 為補償過後的t x ,tx為該語句在倒頻譜值域上之平均數。而一種隨之延伸出 的技術為倒頻譜平均和變異量消去法(Cepstral Mean and Variance Normalization, CMVN)[Vikki and Laurila 1998],其不只對平均數同時也對變異量做正規化如下

x x t t

x x

 

ˆ , (5-3)

 

自動增益消去法(Automatic Gain Normalization, AGN)[Benesty et al. 2008]不 論測詴語音之背景雜訊或訓噪比為何,皆可確保語音特徵參數會落在相同的絕對 CGN)[Yoshizawa 1992]可抑制加成性雜訊的對數頻譜,其數學式如下

)

與時間之特徵分布為基礎之正規化架構中,此條件亦是必頇遵守的。諸如前述特 徵正規化之方法,皆可有效地降低環境不匹配並融入本章節所提出之正規化架構 中。