• 沒有找到結果。

類神經網路(Artificial Neural Networks)

直到近年來,類神經網路的崛起使得各項領域的研究都有所突破,類神經網路對 於分類問題有者過去傳統方法所無法比擬的強大能力,在語言模型上也取得巨大 的成功,藉由將語言模型轉化成分類問題,類神經網路能自動歸納複雜未經整理 的特徵,從中找出抽象的概念以提升分類的準確性。

人工類神經網路(Artificial Neural Networks, ANN)是為了讓電腦具備與人類一 樣的學習能力,1981 年,美國神經生物學家 David Hubel 和 Torsten Wiesel 對於

2.2.1 深層類神經網路(Deep Neural Networks)

深度類神經網路顧名思義就是一個多層架構的網路,隨著硬體設備的增強,多層 架構不再被視為空談,多層的架構所能提供的好處是可以擷取更加抽象的特徵,

壞處則是我們很難理解裡頭抽象的特徵所代表的意義,參數的更新則是使用反向 傳播演算法(Backpropagation)。

深層類神經網路其實是一種資料投影的過程,將資料投影至抽象空間再投影 到目標空間中的方法,以文字處理為例,先將文字投影至連續空間中(也就是 Encoding),再將連續空間的向量或點投影至不同的語意空間,最後投影到目標 空間(也就是 Decoding),訓練時就是將預測的結果與真實目標計算差異(指的 是 Loss),以這個差異回推更新所有參數(反向傳播演算法)。

2.2.2 遞迴式類神經網路(Recurrent Neural Networks)

遞迴式類神經網路(Recurrent Neural Networks)是為了處理有時序的特徵,最早是 使用在手寫數字辨識,在近年,遞迴式類神經網路被廣泛應用在語音辨識領域,

因為語音訊號具有明顯的時序性。遞迴式類神經網路主要概念是將上一個時間點 的隱藏層傳遞至現在這個時間點。遞迴式類神經網路會遇到梯度消失或爆炸 (Gradient Vanishing or Exploding)問題,由於誤差在經過多次傳播後會乘以權重無 數次,到最後可能就會接近於零或是指數式的爆炸,所以長短期記憶(Long Short-Term Memory, LSTM)被拿來解決這個問題,他利用閥門(Gate)的概念決定要留下 或丟掉多少資訊,LSTM 在語言模型領域與其他類神經網路結構相比有目前最好 的表現。

2.2.3 摺積式類神經網路(Convolutional Neural Networks)

摺積式神經網路(Convolutional neural networks, CNN)將特徵擷取的部分交由一個 或多個摺積層和池化層(Pooling layer)組成,輸出層還是依照任務需求使用全連通 層(Fully connected layer)。摺積層是利用過濾器(Filter)對原始特徵進行轉換,將鄰 近的特徵經過轉換後得到新的特徵,這樣的結構使得摺積神經網路能夠利用輸入 資料的二維結構。與其他深度學習結構相比,摺積神經網路在圖像和語音識別等 方面扮演重要的角色。此模型也可以使用反向傳播演算法進行訓練。比起前饋式 神經網路,摺積神經網路需要估計的參數更少,使之在特徵有鄰近關係時成為目 前最好的特徵擷取結構。

2.2.4 類神經網路語言模型(Neural Network Language Model)

圖 2-3 類神經網路語言模型的歷史

類神經網路在語言模型的應用最早是 Yoshua Bengio 在 2003 年提出的,他將 N 連 詞的估測交由類神經網路計算,為了改善 N 連詞資料太過稀疏的缺點,他也將一 個 重 要 的概 念 ─ 詞 嵌入 (Word Embeddings) , 應 用 在類 神經 網 路語 言 模 型 中 [Yoshua Bengio, 2003],在 2010 年,Tomáš Mikolov 提出了遞迴式類神經網路語 言模型(Recurrent Neural Network Language Model, RNNLM),讓語言模型不再受 到 N 連詞的限制,歷史詞不再只能是 N-1 個詞,但是缺點是模型難以訓練,且容 易遇到梯度消失或爆炸(Gradient Vanishing or Exploding)的問題[Tomáš Mikolov, 2010],2012 年 Martin Sundermeyer 提出了利用長短期記憶語言模型解決這個問 題[Martin Sundermeyer, 2012],至此 LSTM 語言模型一直是最好的語言模型架構,

但是也有一些人試圖使用其他架構建模,例如 Yann N. Dauphin 在 2016 年提出了 在摺積式類神經網路上面加上閥門(Gate),能稍微的改善語言模型,但是也因為他 複雜的網路導致訓練不易等問題[Yann N. Dauphin, 2016]。

類神經網路語言模型因為執行效率差所以難以用在第一階段解碼(First Pass Decoding),所以通常用在第一階段結果的重新打分,又因為執行效率的問題,幾 乎只能將類神經網路應用在候選詞序列(N-best)的重新打分,而不能應用在詞網 (Lattice),為了解決這個問題,Xunying Liu 提出了近似的方法,藉由減少詞網的 分支加速詞網重新打分,雖然因為是近似的方法所以會使得結果略遜於候選詞序 列重新打分,但是他的方法使類神經網路語言模型也能有效地應用在詞網重新打 分。

圖 2-4 前饋式類神經網路語言模型

圖 2-5 遞迴式類神經網路語言模型

相關文件