• 沒有找到結果。

資料相關線性語音特徵空間轉換

2.1 語音特徵參數轉換法

2.1.1 資料相關線性語音特徵空間轉換

在轉換語音特徵空間的處理上,主要藉由訓練語料的統計資訊,從中找出語 音特徵空間中重要的基底向量。而不同訓練法則(Criterion)下獲得的基底所發揮 的特性也不盡相同。但總括而言,期望轉換後的語音特徵參數能保留較大的全體 變異量、主要的語音特徵成份、有鑑別資訊的特徵成份和去除多餘的(Redundant) 維度達到降為的目的。

常見的方法有主成分分析(Principal Component Analysis, PCA)、線性鑑別分 析(Linear Discriminant Analysis, LDA)[Duda and Hart 1973; Duda et al. 2001]以及 被廣泛用於語音辨識之異質性線性鑑別分析(Heteroscedastic Linear Discriminant Analysis, HLDA)[Kumar 1997; Gales 2002]、異質性鑑別分析(Heteroscedastic Discriminant Analysis, HDA)[Soan et al. 2000]。

其中線性鑑別分析是假設所有類別之特徵向量的分布變異是相同的;而異質 性線性鑑別分析與異質性鑑別分析則是打破這樣的假設。同時,也有研究嘗詴以 核函數線性鑑別分析(Kernel Linear Discriminant Analysis, Kernel LDA)[Mika 1999]對語音特徵向量做進一步處理,利用核函數將特徵向量投射到高維度特徵 空間作線性鑑別分析,解決在原特徵空間可能存在的非線性鑑別問題。

另一方面,由於在聲學模型(例如隱藏式馬可夫模型狀態觀測機率分布)為了 加快運算速度常使用具對角化共變異矩陣(也就是假設特徵向量維度間彼此為無 關的)的高斯分布,但是上述的語音特徵向量或是鑑別分析並不保證此一特性,

因 而 有 學 者 提 出 以 最 大 相 似 度 線 性 轉 換 (Maximum Likelihood Linear Transformation, MLLT)[Gopinath 1998],嘗詴讓轉換過後的共變異矩陣的值集中 在對角線上,在對聲學模型相似度影響最小的條件下,儘量滿足對角化共變異矩 陣的要求。因此,目前在大詞彙連續語音辨識的語音特徵擷取上常見到以結合線 性鑑別分析與最大相似度線性轉換(LDA-MLLT)或是異質性線性鑑別分析與最

大相似度線性轉換(HLDA-MLLT)[Beyerlein et al. 2002; Hain et al. 2005]等的一些 作法。

2.1.2 語音特徵參數正規化

2.1.2.1 相對頻譜法(RASTA)

語音特徵參數正規化法通常只需很少量的運算時間,卻可明顯地提昇辨識效 果。目前最常見的方法之一是相對頻譜法(Relative Spectral, RASTA)[Hermansky and Morgan 1994; Koehler et al. 1994]。相對頻譜法最主要的動機是因為觀察根據 人類的發音特性,發現在調變頻譜(Modulation Frequency)上變化低於 1 赫茲或高 於 12 赫茲的訊號源均屬於非語音的雜音訊號,因此可以使用一個帶通濾波器 (Band-Pass Filter)來移除雜音訊號,針對數個語音音框(Frames)的特徵參數進行平 滑動作(Smoothing)(大約是 150-170 毫秒),爾後又提出所謂的 J-RASTA[Koehler et al. 1994],增加一個參數 J(又稱對數-J, log-J),用來處理加成性雜訊與摺積性雜訊,

在時域(Time Domain)上受加成性雜訊與摺積性雜訊的語音訊號表示如下:

       

t ht

st nt

y  *  (2-1)

 

t

s 為乾淨語音訊號、n

 

t 表示加成性雜訊、h

 

t 表示摺積性雜訊,若在對數頻域 (Logarithmic Magnitude Spectral Domain)上,式(2-1)則可表示:

 

H

 

S

 

N

 

Y log log

log (2-2)

其中上式中摺積性雜訊logH

 

 通常是指傳輸通道的通道效應(Channel Effect),

相對於語音訊號而言,變化速度屬於比較慢的,所以相對頻譜法是將logY

 

 代 入下式帶通濾波器,可移除變化速度慢的摺積性雜訊外,亦可移除語音訊號中變 化快速的雜訊:

 

4 1 3 1 4

若以功率頻域上(Power Spectral Domain)而言,式(2-1)可表示成

 

H

   

SH

   

N

Y * * (2-4)

相同地可以將Y

 

 代入式(2-3)移除變化速度相對較快或較慢的雜訊,然而我們可 發現帶通濾波器輸出的值會因加成性雜訊N

 

 與摺積性雜訊H

 

 的強度不同而 有所影響,因而無法同時移除此二種雜訊,J-RASTA 利用下式平衡此二種雜訊 的影響:

2.1.2.2 階動差正規化法(Moment Normalization)

倒頻譜平均消去法(Cepstral Mean Substraction, CMS)[Fruri 1981]和倒頻譜正 規化法(Cepstral Mean and Variance Normalization, CMVN)[Vikki and Laurila 1998]

亦被廣泛的應用且也被證實能有效的提升辨識效果 [Lieb and Fischer 2001;

Yapanel et al. 2001],其分別針對語音特徵參數第一階動差(First Moment)和第二 階動差(Second Moment)進行正規化,數學式分別如式(2-6)與式(2-7)所示。

i

 

ti ti i i 代表語音特徵參數中第i維的平均數(Mean)與變異數(Variance),式(2-6)在減去平 均值的過程中,同時也隱含著移除通道效應所帶來的影響,式(2-7)除了能移除通 對語音特徵參數更高階動差進行正規化[Hsu and Lee 2004; Hsu and Lee 2006],此 外尚有學者嘗詴將已經在影像處理中行之有年的「統計圖等化法」應用於語音辨 識之特徵參數正規化[Dharanipragada and Padmanabhan 2000; Molau, 2003; Torre and Peinado 2005; Hilger and Ney, 2006]。

2.1.2.3 統計圖等化法(HEQ)

統計圖等化法除了嘗詴去匹配訓練語料與測詴語料之語音特徵參數的平均 數和變異數之外,更企圖讓訓練語料和測詴語料能夠具有相同的統計分布特性,

其作法是藉由將測詴語料的累積密度函數(Cumulative Density Function, CDF)對 應至由訓練語料所統計出來的參考分布的累積密度函數,藉由此匹配轉換過程,

降低測詴語料與訓練語料由於環境因素影響所造成統計特性不同的現象,實驗結 果證實統計圖等法化對提升辨識效果有很明顯的幫助[Molau 2003; Torre and Peinado 2005],另外更有學者嘗詴將「統計圖等化法」概念推廣至向量量化編碼 (Vector Quantization) , 進 而 應 用 於 分 散 式 語 音 辨 識 (Distributed Speech

Recognition, DSR)上[Wan and Lee 2005; Wan and Lee 2006],利用統計圖資訊做為 向量之量化準則,有效解決傳統以距離為量化準則容易受環境雜訊影響或是容易 形成量化失真(Quantization Distortion)的問題。

統計圖等化法假設測詴語句之語音特徵參數的統計分布會和訓練語料特徵 參數的統計分布(參考分布)是一致的,若以目前較常用的語音特徵參數-梅爾倒 頻譜係數而言,統計圖等化法可以作用在梅爾濾波對數濾波器組輸出[Molau et al.

2001; Molau 2003; Molau et al 2003]或是梅爾倒頻譜係數[Dharanipragada and Padmanabhan 2000; Torre and Peinado 2005; Segura et al. 2004]。統計圖等化法最主 要精神可以視為是要求取一個轉換函數(Transformation Function),使得此函數能 將測詴語句的語音特徵參數中每一維特徵向量的統計分布轉換至先前已從訓練 語句中定義好的參考分布,數學式關係式表示如下[Torre and Peinado 2005; Torre et al. 2002]:假設x為某一維的特徵向量且具有統計分布pTest

 

x ,那麼轉換函數

pTrain Test Test

1

換函數F

 

x' 求得的結果,所以轉換函數F

 

x 會具有下列特性

 

C x

C x

F( ) Train1 Test , (2-10)

其中CTrain1CTrain的逆函數,轉換過程如圖 2-1 所示。

在實作上,因為訓練或是測詴語料的語音特徵參數為一有限集合,所 以 並 無 法 精 準 估 算 其 實 際 的 累 積 密 度 函 數 , 通 常 會 使 用 累 積 直 方 圖 (Cumulative Histogram)近似累積密度函數。對於所有訓練語料而言,語音特 徵參數中的每一維特徵向量會統計出一個累積直方圖,再依需求將累積直方 圖設定為i個分位差(Quantile),每個分位差區間皆以區間內所有特徵值的平 均數做為該分位差的代表特徵值,此資訊可被用來當做轉換的參考分布。對 測詴語句的每一維度特徵向量同樣統計出累積直方圖,也取i個分位差,接著 對測詴語句的每個分位差區間內的特徵值用先前使用訓練語料建立好的特徵 參數參考分布逐一進行轉換取代。一般實作可利用表格查詢(Table-lookup)的 方式進行,首先以表格方式紀錄參考分布的累積直方圖資訊,例如記錄成{分 位差區間數,特徵值};接著在進行等化(Equalization)過程時,將所有表格載 入記憶體中以方便進行查表轉換。往往要得到良好的辨識效果,使用的分位

圖 2-1、統計圖等化法示意圖。

差區間數不可太少,亦代表需耗費大量的記憶體空間,並且在進行查表轉換 時,也需花費不少的搜尋時間。

2.1.2.4 分位差統計圖等化法(QHEQ)

上述介紹的統計圖等化法的轉換動作都是直接根據測詴語句的累積直方圖 進行,無需使用任何額外的參數,Hilger 等研究學者後來提出一種參數型態 (Parametric)的分位差統計圖等化法[Hilger and Ney 2001; Hilger and Ney 2006],對 於特徵向量中每一維的特微值利用一轉換函數H

 

x 進行等化動作,數學關係式 化過程前,需先對整句語句與參考分布進行分位差校正(Quantile Correction),以 求得最佳的參數,此校正動作是以最小平方誤差(Minimum Mean Square Error)進 行,利用格式搜尋法(Grid Search),將 和 個別限制在一段值域區間內,以等

 項的使用進行補償。但由於針對每一測詴語句都必經由(2-12)式求得最佳的參 Equalization, PHEQ)[Lin et al. 2006]利用多項式迴歸函數取代累積直方圖且不需 分位差統計圖等化法所需之大量運算求解參數,即可達到相當好的辨識效果。當 給定一些資料點數

u ,i vi

,若要以一個函數描述反應變數v 與解釋變數i u 關係,i 通常可使用迴歸模型(Regression Models)來表示。換句話說,迴歸模型可用來解 釋給定u 的情況下,預測i v 的值為何。通常迴歸公式i G

 

ui 可依係數(Coefficients)

 

果,但值得一提的是,由非穩定性雜訊(Non-Stationary Noise)所造成的異常尖峰 (Sharp Peak)或波谷(Valley),可能會造成統計圖等化法在等化過程中,某些語音 特徵被放大或縮小。此問題可利用語音訊號本身是屬於變化緩慢的特性,利用移 動平均法來達到音框間特徵值的平滑(Smoothing),減緩音框間過度劇烈的快速變 化。例如[Chen et al., 2002]利用移動平均的概念提出一種不同特徵正規化的方法,

首先先對語音特徵向量進行平均消去法和變異數正規化,接著再利用自動迴歸移 動平均(Auto-Regression Moving Average, ARMA)對特徵向量進行平滑的動作,實 驗結果證實移動平均的使用對於提升整體的辨識率有很大的幫助。然而依照移動 平均所考慮語音特徵來源與時間軸點數不同,可以有以下數種選擇[Chen et al.

2002; Chen and Bilmes 2007]。

1. 非因果關係移動平均(Non-Causal Moving Average)

2. 因果關係自動迴歸移動平均(Causal Moving Average)



3. 非因果關係自動迴歸移動平均(Non-Causal Auto Regression Moving Average)



4. 因果關係自動迴歸移動平均(Causal Auto Regression Moving Average)

 L表示移動平均項階數(Order of Moving Average)。

2.2 語音特徵參數補償法

語音特徵參數轉換法是期望找出更具強健性的語音特徵,且不易受到雜訊影 響,然而此方法是希望能夠將受到雜訊干擾的語音特徵參數,補償至未受雜訊干 擾的語音特徵參數,常見的方法有編碼詞向量相關之倒頻譜正規化法(Codeword Dependent Cepstral Normalization, CDCN)[Acero 1990] 、 機 率 最 佳 化 過 濾 法 (Probabilistic Optimum Filtering, POF)[Neumeyer and. Weintraub 1994]與雙聲源為 基礎分段線性補償(Stereo-based Piecewise Linear Compensation, SPLICE)[Deng et al. 2000; Deng et al. 2001]等。

2.2.1 編碼詞相關倒頻譜正規化法(CDCN)

編碼詞相關倒頻譜正規化法(Codeword Dependent Cepstral Normalization, CDCN) 主 要 是 利 用 向 量 量 化 編 碼 技 術 將 訓 練 語 料 分 成I 個 編 碼 詞 或 區域(I Codewords or Regions),g1,,gI,每一個區域代表某一類受雜訊干擾的語音特 徵參數與未受雜訊干擾的語音特徵參數之間的對應關係,此對應關係可以用一校

編碼詞相關倒頻譜正規化法(Codeword Dependent Cepstral Normalization, CDCN) 主 要 是 利 用 向 量 量 化 編 碼 技 術 將 訓 練 語 料 分 成I 個 編 碼 詞 或 區域(I Codewords or Regions),g1,,gI,每一個區域代表某一類受雜訊干擾的語音特 徵參數與未受雜訊干擾的語音特徵參數之間的對應關係,此對應關係可以用一校