類神經網路(Artificial Neural Networks) - 語言模型調適使用語者用詞特徵於會議語音辨識之研究

直到近年來，類神經網路的崛起使得各項領域的研究都有所突破，類神經網路對於分類問題有者過去傳統方法所無法比擬的強大能力，在語言模型上也取得巨大的成功，藉由將語言模型轉化成分類問題，類神經網路能自動歸納複雜未經整理的特徵，從中找出抽象的概念以提升分類的準確性。

人工類神經網路(Artificial Neural Networks, ANN)是為了讓電腦具備與人類一樣的學習能力，1981 年，美國神經生物學家 David Hubel 和 Torsten Wiesel 對於

2.2.1 深層類神經網路(Deep Neural Networks)

深度類神經網路顧名思義就是一個多層架構的網路，隨著硬體設備的增強，多層架構不再被視為空談，多層的架構所能提供的好處是可以擷取更加抽象的特徵，

壞處則是我們很難理解裡頭抽象的特徵所代表的意義，參數的更新則是使用反向傳播演算法(Backpropagation)。

深層類神經網路其實是一種資料投影的過程，將資料投影至抽象空間再投影到目標空間中的方法，以文字處理為例，先將文字投影至連續空間中（也就是 Encoding），再將連續空間的向量或點投影至不同的語意空間，最後投影到目標空間（也就是 Decoding），訓練時就是將預測的結果與真實目標計算差異（指的是 Loss)，以這個差異回推更新所有參數（反向傳播演算法）。

2.2.2 遞迴式類神經網路(Recurrent Neural Networks)

遞迴式類神經網路(Recurrent Neural Networks)是為了處理有時序的特徵，最早是使用在手寫數字辨識，在近年，遞迴式類神經網路被廣泛應用在語音辨識領域，

因為語音訊號具有明顯的時序性。遞迴式類神經網路主要概念是將上一個時間點的隱藏層傳遞至現在這個時間點。遞迴式類神經網路會遇到梯度消失或爆炸 (Gradient Vanishing or Exploding)問題，由於誤差在經過多次傳播後會乘以權重無數次，到最後可能就會接近於零或是指數式的爆炸，所以長短期記憶(Long Short-Term Memory, LSTM)被拿來解決這個問題，他利用閥門(Gate)的概念決定要留下或丟掉多少資訊，LSTM 在語言模型領域與其他類神經網路結構相比有目前最好的表現。

2.2.3 摺積式類神經網路(Convolutional Neural Networks)

摺積式神經網路(Convolutional neural networks, CNN)將特徵擷取的部分交由一個或多個摺積層和池化層(Pooling layer)組成，輸出層還是依照任務需求使用全連通層(Fully connected layer)。摺積層是利用過濾器(Filter)對原始特徵進行轉換，將鄰近的特徵經過轉換後得到新的特徵，這樣的結構使得摺積神經網路能夠利用輸入資料的二維結構。與其他深度學習結構相比，摺積神經網路在圖像和語音識別等方面扮演重要的角色。此模型也可以使用反向傳播演算法進行訓練。比起前饋式神經網路，摺積神經網路需要估計的參數更少，使之在特徵有鄰近關係時成為目前最好的特徵擷取結構。

2.2.4 類神經網路語言模型(Neural Network Language Model)

圖 2-3 類神經網路語言模型的歷史

類神經網路在語言模型的應用最早是 Yoshua Bengio 在 2003 年提出的，他將 N 連 詞的估測交由類神經網路計算，為了改善 N 連詞資料太過稀疏的缺點，他也將一 個重要的概念 ─ 詞嵌入 (Word Embeddings) ，應用在類神經網路語言模型中 [Yoshua Bengio, 2003]，在 2010 年，Tomáš Mikolov 提出了遞迴式類神經網路語言模型(Recurrent Neural Network Language Model, RNNLM)，讓語言模型不再受 到 N 連詞的限制，歷史詞不再只能是 N-1 個詞，但是缺點是模型難以訓練，且容 易遇到梯度消失或爆炸(Gradient Vanishing or Exploding)的問題[Tomáš Mikolov, 2010]，2012 年 Martin Sundermeyer 提出了利用長短期記憶語言模型解決這個問題[Martin Sundermeyer, 2012]，至此 LSTM 語言模型一直是最好的語言模型架構，

但是也有一些人試圖使用其他架構建模，例如 Yann N. Dauphin 在 2016 年提出了在摺積式類神經網路上面加上閥門(Gate)，能稍微的改善語言模型，但是也因為他複雜的網路導致訓練不易等問題[Yann N. Dauphin, 2016]。

類神經網路語言模型因為執行效率差所以難以用在第一階段解碼(First Pass Decoding)，所以通常用在第一階段結果的重新打分，又因為執行效率的問題，幾乎只能將類神經網路應用在候選詞序列(N-best)的重新打分，而不能應用在詞網 (Lattice)，為了解決這個問題，Xunying Liu 提出了近似的方法，藉由減少詞網的分支加速詞網重新打分，雖然因為是近似的方法所以會使得結果略遜於候選詞序列重新打分，但是他的方法使類神經網路語言模型也能有效地應用在詞網重新打分。

圖 2-4 前饋式類神經網路語言模型

圖 2-5 遞迴式類神經網路語言模型

在文檔中語言模型調適使用語者用詞特徵於會議語音辨識之研究 (頁 26-31)