基於特徵正規化之強健性技術

第二章文獻探討

第二節基於特徵正規化之強健性技術

以處理語音特徵為基礎的強健性技術，目的在於不重新設計聲學模型，透過語音訊號增益，特徵向量補償，頻譜補償或正規化等方式還原出乾淨完整的語音特徵。本節主要回顧調變頻譜正規化，子空間學習法以及其他綜合性方法，語音訊號增益法將獨立於本章第二節介紹。

將深度神經網路(DNN)的輸出當作是低維度子空間的聯集，我們可以假設升學特徵的資訊會潛藏在這些子空間的連集中 [25]，因此探索子空間結構便成為一種可以改進語音辨識效果的強健性方法。我們可以將這些經過訓練的事後機率用於字典學習法和稀疏編碼以加強 ASR 系統對於稀疏雜訊的處理能力。為了更好地表示潛藏於子空間中的聲學特徵資訊，故以稀疏表示法來處理。作者將這些方法分為兩大類，其一為 DNN，另一個為 Sparse Modeling。

作者闡述了字典學習和稀疏表示法的作用，但仍然有幾個缺點: (1)基於 DNN 的聲學建模仍然有改進的空間，(2)利用低維度子空間結構底層之語音特徵的聯集和包含雜訊條件下的聲學建模。未來希望能將這些方法運用在不同資料集上，以檢驗和改進計算法讓 ASR 能有更好的強健性技術。

Low-Rank Representation, LRR 將重點放在調變頻譜中語音特徵的本質 [29] [30]。LRR 技術發展的歷史可以回朔至強健式主成分分析(Robust Principal Component Analysis, RPCA) [31] RPCA 使 PCA 能夠在降維後維持一樣的能力。LRR 的目的就是為處理這些子空間的混合物，將這些混合物分成是有用的語音特徵(存在著語意資訊的部分)和一群噪聲資訊(Error term, E) 的線性組合，其表示法如方程式(1)所示:

Y = L + E , (1)

方程式(1)可以看成是一個包含兩個部分的調變頻譜 Y，其中 L 是從語意子空間中嚴格抽取出來的特徵，另一部分 E 則是剩餘的非結構化雜訊。基於 PCA 語 RPCA 方法的啟發，也可以透過奇異值分解 (Singular Value Decomposition, SVD)，找出 E 的最小擾動。

自動語音辨識技術發展日新月異，經過 LRR 處理過後的特徵用於訓練聲學模型便是這些帶動研究潮流的方法與應的用其中之一。 [26]之研究是先建立在一個假設之下，即:「DNN 輸出的語音特徵之條件機率，會存在於相對低維度的子空間上」使用 LRR 表示這些鄰近的機率，並以實驗分析來

驗證上述觀點。，藉由觀察DNN 輸出結果的熵(Entropy)，可以發現一個問題:「隨著條件機率的不確定性增加，會使聲學模型的準確度下降」並且，這個問題對於語音辨識而言是一個致命的錯誤，透過下列方法可以解決問題。

建立一個存放相似條件機率的矩陣 (亦即特徵資訊)，並將其表示為 Low-Rank 矩陣。藉此，稀疏錯誤資訊便可以被獨立出來。該篇論文之實驗結果闡明在 numbers’95 數字資料集下採用 LRR 來處理特徵的確提升了 8.5%準確率。

利用 LRR 和字典學習法以及稀疏編碼(Sparse Coding)來處理語音訊號的特徵 [5]，首先以 MFCC(梅爾倒頻譜係數)來表示語音特徵，經過傅立葉轉換後，對調變頻譜中的強度頻譜進行正規化。為了實現更好的ASR 表現，

目前LRR 及其變體，已應用於語音辨識模型上。LRR 方法可以搭配字典學習法一起使用 [5]概念即為:我們可以把包含雜訊的語音看成是一組疊加在一起的向量，所以經過尋找低維度子空間中重要的原子，透過疊代更新找到一組字典D 和權重矩陣 W，而此時 D 與 W 是一種 LRR 表示法。將由乾淨訓練語料中得到的字典 D 與待還原的測試語料之權重 W 及其相位頻譜 (Phase Spectrum)重新組合，便可以移除雜訊干擾，進而還原出正確的語音訊號頻譜。得到乾淨的特徵對語音辨識來說是一項助益。

在文檔中探索基於生成對抗網路之新穎強健性技術 於語音辨識的應用 (頁 20-23)

第二章 文獻探討

第二節 基於特徵正規化之強健性技術

第二章文獻探討

第二節基於特徵正規化之強健性技術