類神經網路語言模型文獻探討

2.3 新近所提出之語言模型

2.3.3 類神經網路語言模型文獻探討

類神經網路語言模型是一種語言模型建立於類神經網路上，透過將詞以連續表示 (Continuous Representation)來解決 N 連語言模型維度詛咒之影響，另外對未知詞 的估測能力也較 N 連語言模型來的好。

而從類神經網路出現開始，就有許多研究學者將自然語言處理與類神經網路做結合，Towsey [Towsey et al., 1998]使用遞迴式類神經網路來預測句中下一個詞的詞性。實驗結果顯示，長距離的詞序列仍有較多的誤差，但遞迴式類神經網路

圖 2-2：類神經網路語言模型演進圖

~1990

•類神經網路與遞迴式類神經網路發展

1990~2000

•類神經網路做在文字處理之相關研究探討

2001~2009

• NNLM相關研究開始發展

2010~

• RNNLM開始發展與不同結構NNLM發展

仍能根據前三個詞或更多歷史詞資訊來做預測。

另外值得注意的是，遞迴式類神經網路不同於傳統前饋式類神經網路，它的目標是希望獲得長距離的資訊，但 Bengio 等學者[Bengio et al., 1993, 1994]發現，

利用梯度下降法(Gradient Descent Method)於遞迴式類神經網路中，對於學習長距離的資訊是十分困難的。而要獲得長距離資訊必須要具有學習任意時間內的資訊，

且擁有抵抗其它資訊干擾的能力。但因為隨著時間變化，距離較遠的資訊會被每一次時間點的輸入資訊所干擾，反而降低了遞迴式結構的好處。

在 1996 年，Lawrence [Lawrence et al., 1996]等學者，調查了數種遞迴式類神經網路。實驗結果中顯示，由艾爾曼網路(Elman Network)建構的遞迴式類神經網路對於學習適當的文法有不錯的成效，可以見得遞迴式類神經網路建構出階層式的網路，幫助了句法或文法上的學習。

時間進入到 2000 年，逐漸有學者應用類神經網路於語言模型上，其中 Xu 和 Rudnicky [Xu and Rudnicky, 2000]比較了類神經網路語言模型和傳統 N 連語言模 型，實驗結果顯示類神經網路的學習能力的確超越了傳統 N 連語言模型。雖然在 語言複雜度(Perplexity)上類神經網路語言模型有不錯的成效，但是花費在估測的 時間上仍較傳統 N 連語言模型來的高許多。

Bengio [Bengio et al., 2001]於 2001 年則是使用了前饋式類神經網路於固定長度的上下文上，透過類神經網路將維度降低，達到比傳統統計式模型還要好的成效，也發現到此方法有益於較長的上下文與有不錯的一般化成果。

Goodman [Goodman, 2001]則將類神經網路語言模型與其他語言模型做比較，

發現此模型比混合許多模型的結果來得佳，如快取模型(Cache Model)及類別模型 (Class-based Model)，之後 Schwenk [Schwenk et al., 2004, 2005, 2007]將之應用在

語音辨識上，大幅改善了基礎實驗的結果。

但是類神經網路語言模型仍有幾個主要的缺點需要改進，首先是令人詬病的運算複雜度。由於是以詞為單位來訓練模型，加上隱藏層(Hidden Layer)至輸出層 (Output Layer)之間的大量運算，造成時間複雜度較高。另外，對於詞的表示方式沒有考慮到其他額外的資訊，如：詞性或聲調等。除此之外，面對 OOV 的問題類神經網路語言模型也沒有一個有效的解決方法，因此，Alexandrescu 等學者 [Alexandrescu and Kirchhoff, 2006]將每個詞都各自對應到一個特徵向量，每個向量的維度則代表許多特徵，像是詞性或大小寫等等。如此一來，面對未曾出現過的詞也有辦法找出其特徵向量，並且做到正確的估測。

2009 年，Mikolov 等學者 [Mikolov et al., 2009]使用類神經網路語言模型於屈折語(Inflective Language)的語言上，由於屈折語的詞綴具備有多種意思，因此此種語言視為相當挑戰的任務；而此篇論文利用不同大小的神經元數目和後撤式 (Backoff)語言模型做比較，效果相當顯著。

同年，Zamora-Martínez 等學者[Zamora-Martínez et al., 2009]針對類神經網路語言模型龐大的時間複雜度進行了改進。他們將可事先運算好的資料儲存起來，

以空間換取時間上的效率，並且提出了階層式(Hierarchy)的概念，將不同高階和低階的類神經網路語言模型做結合，以達到類似快取(Cache)的概念。

隔年，Park 等學者[Park et al., 2010]將類神經網路語言模型做了一點改進，他們將輸入層(Input Layer)加入一個維度來訓練遇到 OOV 之情形，並在估測機率時，

使用不同類型的平滑化技術來比較。此外，也加入了一層適應層(Adaptation Layer)，

期望加強類神經網路語言模型的適應能力，實驗結果於大詞彙語音辨識有不錯的提昇。

而 Mikolov 等學者[Mikolov et al., 2010]在 2010 年時遂結合語言模型與遞迴式類神經網路，並發展了遞迴式類神經網路語言模型套件供學者下載，實驗結果發 現遞迴式類神經網路語言模型有顯著的成效，若結合 N 連語言模型則有更進一步 的提昇。

2011 年時，Mikolov 等學者[Mikolov et al., 2011]將前一年所提出的遞迴式類神經網路語言模型做了延伸，引入了 Goodman 等學者[Goodman et al., 2001]所提出的概念。將輸出層額外分解出一層類別層，使隱藏層和輸出層間的運算大幅減少，另外也在架構中加入一層壓縮層(Compression Layer)，雖然成效比之前稍差了一點，但卻大幅提升了運算速度。此外 Le 等學者[Le et al., 2011]則在類神經網路語言模型的輸出層做了結構上的改進，利用分群以及決策樹的概念去估測機率。

除了在輸出層做改進的研究外，Kang 等學者[Kang et al., 2011]對類神經網路語言模型在輸入層改為由字和詞混合當作輸入做了改進，並應用於大詞彙連續語音辨識。

另一部分，也有研究學者將現行的語言模型和類神經網路語言模型或遞迴式 類神經網路語言模型做結合，例如傳統的 N 連語言模型[Oparin et al., 2012]、最大 熵值法(Maximum Entropy)[Mikolov et al., 2011]與快取語言模型[Zamora-Martínez et al., 2012]等。

而除了 Mikolov，許多學者也將類神經網路語言模型作為比較標準，如 Sarikaya 等日本學者 [Sarikaya et al., 2010] 將共享混和語言模型 (Tie-Mixture Language Modeling)和類神經網路語言模型做比較以及 Mikolov 等學者[Mikolov et al., 2011]將常見的語言模型做逐一比較。因此，我們可以得知類神經網路語言模型之研究越趨重要。

由文獻中我們發現傳統前饋式類神經網路語言模型與遞迴式類神經網路語

言模型有下列缺點：無法有效地獲得長距離資訊、OOV 問題、欠缺適應能力、運算的時間複雜度過高以及詞的表示方式缺少了詞的特性。而許多研究學者針對這些問題進行改進，也可另外分成以下幾類[Oparin et al., 2012]：

 對架構進行改進

從微觀來看，可將輸入層或輸出層進行改進，或是新增加幾層來做延伸；巨觀來看則是將整體的架構進行改進，如遞迴式或階層式的方式，抑或是和其他語言模型做結合。

 對演算法進行改進

由於類神經網路也是一種模型學習的方法，則可以利用不同的演算法來進行改良，使模型更具有一般性能力或是適應性能力。

在下一章中，將介紹類神經網路語言模型於自動語音辨識之使用。

第3章類神經網路語言模型於自動語音辨識之使用

本章將透過兩種較常見用於語言模型之類神經網路做介紹，分別是類神經網路語言模型(Neural Network-based Language Modeling, NNLM)和遞迴式類神經網路語言模型(Recurrent Neural Network-based Language Modeling, RNNLM)。

在文檔中遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究 (頁 29-34)

2.3 新近所提出之語言模型

2.3.3 類神經網路語言模型文獻探討

第3章 類神經網路語言模型於自動語音辨 識之使用

第3章類神經網路語言模型於自動語音辨識之使用