遞迴式類神經網路語言模型 - 語言模型調適使用語者用詞特徵於會議語音辨識之研究

遞迴式類神經網路的出現，改善了有時序特徵的預測任務，遞迴式類神經網路 (Recurrent Neural Network, RNN)藉由將前一個時間點的資訊傳遞給下一個時間點作輔助，來幫助下一個時間點的預測，相較於前饋式類神經網路，遞迴式類神經網路可以處理更長遠的時序特徵，但是會碰到梯度消失或爆炸的問題。

3.1.1 長短期記憶(Long Short-Term Memory)

為了解決梯度消失或爆炸，長短期記憶(Long Short-Term Memory, LSTM)被提出來，藉著閥門的結構，控制資訊保留或丟棄，以達到防止梯度消失或爆炸，長短期記憶的遞迴式神經網路也時常被當作目前最好的類神經語言模型，以下是長短期記憶的詳細架構：

𝑓_𝑡 = 𝜎(𝑊_𝑓_𝑥𝑥_𝑡+ 𝑊_𝑓_ℎℎ_𝑡−1+ 𝑏_𝑓)

𝑖_𝑡 = 𝜎(𝑊_𝑖_𝑥𝑥_𝑡+ 𝑊_𝑖_ℎℎ_𝑡−1+ 𝑏_𝑖)

𝑜_𝑡 = 𝜎(𝑊_𝑜_𝑥𝑥_𝑡+ 𝑊_𝑜_ℎℎ_𝑡−1+ 𝑏_𝑜)

𝑐̅ = tanh(𝑊_𝑡 _𝑐_𝑥𝑥_𝑡+ 𝑊_𝑐_ℎℎ_𝑡−1+ 𝑏_𝑐)

𝑐_𝑡 = 𝑓_𝑡∗ 𝑐_𝑡−1+ 𝑖_𝑡∗ 𝑐̅ _𝑡

ℎ_𝑡 = 𝑜_𝑡∗ tanh(𝑐_𝑡)

圖 3-1長短期記憶架構

𝑓_𝑡指的是遺忘閥(forget gate)，𝑖_𝑡指的是輸入閥(input gate)，𝑜_𝑡指的是輸出閥(output gate)，𝑐_𝑡指的是記憶元(memory cell)，ℎ_𝑡指的是輸出的隱藏層(output layer)，LSTM 的設計與傳統RNN的不同是使用一個記憶元來保存需要的資訊，使用前一個時間點的隱藏層和現在時間點的輸入來決定三個閥門的值，輸入閥決定現在時間點的資訊要保留多少，遺忘閥則是決定前一個時間點的資訊要丟棄多少，最後輸出閥決定記憶元要有多少資料輸出給下一層，LSTM因為有遺忘閥的設計，可以有效的解決梯度消失或爆炸的問題。

因為LSTM能很好的解決梯度消失問題，且在語言模型上的表現優於大部分的RNN架構，所以現今類神經網路語言模型多半採用LSTM，以下是LSTM語言模型的架構。

𝑒_𝑡 = 𝐸(𝑥_𝑡)

ℎ_𝑡= 𝐿𝑆𝑇𝑀(𝑒_𝑡, ℎ_𝑡−1, 𝑐_𝑡−1)

𝑝_𝑡 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑊_ℎ𝑦ℎ_𝑡+ 𝑏_ℎ𝑦)

𝑦_𝑡 = argmax(𝑝_𝑡)

圖 3-2 LSTM語言模型

LSTM語言模型的測試階段，先將詞的獨熱編碼(One-Hot Encoding)，也就是維度為詞典大小的空間，經過嵌入層投影到維度較小的語意的連續空間中，接著使用LSTM將過去時間點的資訊加入計算，最後解碼回維度為詞典大小的空間中，

並且使用歸一化指數函數(Softmax)將輸出變成機率和為1。在訓練階段，訓練的準則(Training Criterion)是交互熵值(Cross-Entropy)，訓練的演算法則是時序性倒傳遞演算法 (Backpropagation Through Time) [Werbos, 1990]。

3.1.2 時序性倒傳遞演算法推導

與倒傳遞演算法不同的地方，遞迴式類神經網路是利用時間的變化來調整權重值，

也就是說會調整不只一次且經由不同時間點上的隱藏層資訊來進行調整。在時間點t 所使用的權重是過去時間點所累積的，但利用此方法必須要記錄所有歷史資訊及過去的網路狀態，這將造成記憶體不足和運算量倍增的問題。因此需定義一個變數𝜏當作遞迴的次數[Bengio et al., 1994]，以此來決定想使用多少的歷史資訊，

並且忽略掉更早之前的資訊。如前述所提到，假使網路是穩定的話，則權重的更

新量將會隨著時間越來越小，這是因為網路倚靠有力的小幅度回饋來增加強度。

在文檔中語言模型調適使用語者用詞特徵於會議語音辨識之研究 (頁 33-37)