第二章 文獻探討
第二節 基於特徵正規化之強健性技術
以處理語音特徵為基礎的強健性技術,目的在於不重新設計聲學模型,透過 語音訊號增益,特徵向量補償,頻譜補償或正規化等方式還原出乾淨完整的 語音特徵。本節主要回顧調變頻譜正規化,子空間學習法以及其他綜合性方 法,語音訊號增益法將獨立於本章第二節介紹。
將深度神經網路(DNN)的輸出當作是低維度子空間的聯集,我們可以假 設升學特徵的資訊會潛藏在這些子空間的連集中 [25],因此探索子空間結 構便成為一種可以改進語音辨識效果的強健性方法。我們可以將這些經過訓 練的事後機率用於字典學習法和稀疏編碼以加強 ASR 系統對於稀疏雜訊的 處理能力。為了更好地表示潛藏於子空間中的聲學特徵資訊,故以稀疏表示 法來處理。作者將這些方法分為兩大類,其一為 DNN,另一個為 Sparse Modeling。
12
作者闡述了字典學習和稀疏表示法的作用,但仍然有幾個缺點: (1)基於 DNN 的聲學建模仍然有改進的空間,(2)利用低維度子空間結構底層之語音特徵 的聯集和包含雜訊條件下的聲學建模。未來希望能將這些方法運用在不同資 料集上,以檢驗和改進計算法讓 ASR 能有更好的強健性技術。
Low-Rank Representation, LRR 將重點放在調變頻譜中語音特徵的本質 [29] [30]。LRR 技術發展的歷史可以回朔至 強健式主成分分析(Robust Principal Component Analysis, RPCA) [31] RPCA 使 PCA 能夠在降維後維持 一樣的能力。LRR 的目的就是為處理這些子空間的混合物,將這些混合物分 成是有用的語音特徵(存在著語意資訊的部分)和一群噪聲資訊(Error term, E) 的線性組合,其表示法如方程式(1)所示:
Y = L + E , (1)
方程式(1)可以看成是一個包含兩個部分的調變頻譜 Y,其中 L 是從語意子 空間中嚴格抽取出來的特徵,另一部分 E 則是剩餘的非結構化雜訊。基於 PCA 語 RPCA 方 法 的 啟 發 , 也 可 以 透 過 奇 異 值 分 解 (Singular Value Decomposition, SVD),找出 E 的最小擾動。
自動語音辨識技術發展日新月異,經過 LRR 處理過後的特徵用於訓練 聲學模型便是這些帶動研究潮流的方法與應的用其中之一。 [26]之研究是 先建立在一個假設之下,即:「DNN 輸出的語音特徵之條件機率,會存在於 相對低維度的子空間上」使用 LRR 表示這些鄰近的機率,並以實驗分析來
13
驗證上述觀點。,藉由觀察DNN 輸出結果的熵(Entropy),可以發現一個問 題:「隨著條件機率的不確定性增加,會使聲學模型的準確度下降」並且,這 個問題對於語音辨識而言是一個致命的錯誤,透過下列方法可以解決問題。
建立一個存放相似條件機率的矩陣 (亦即特徵資訊),並將其表示為 Low-Rank 矩陣。藉此,稀疏錯誤資訊便可以被獨立出來。該篇論文之實驗結果 闡明在 numbers’95 數字資料集下採用 LRR 來處理特徵的確提升了 8.5%準 確率。
利用 LRR 和字典學習法以及稀疏編碼(Sparse Coding)來處理語音訊號 的特徵 [5],首先以 MFCC(梅爾倒頻譜係數)來表示語音特徵,經過傅立葉 轉換後,對調變頻譜中的強度頻譜進行正規化。為了實現更好的ASR 表現,
目前LRR 及其變體,已應用於語音辨識模型上。LRR 方法可以搭配字典學 習法一起使用 [5]概念即為:我們可以把包含雜訊的語音看成是一組疊加在 一起的向量,所以經過尋找低維度子空間中重要的原子,透過疊代更新找到 一組字典D 和權重矩陣 W,而此時 D 與 W 是一種 LRR 表示法。將由乾淨 訓練語料中得到的字典 D 與待還原的測試語料之權重 W 及其相位頻譜 (Phase Spectrum)重新組合,便可以移除雜訊干擾,進而還原出正確的語音訊 號頻譜。得到乾淨的特徵對語音辨識來說是一項助益。
14