類神經網路語言模型 - 新近所提出之語言模型 - 遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究

2.3 新近所提出之語言模型

2.3.2 類神經網路語言模型

2.3.2.1 類神經網路簡介

類神經網路(Neural Networks)起源於人工智慧(Artificial Intelligence)，又可稱為人工類神經網路(Artificial Neural Networks, ANN)。為了讓電腦具備與人類一樣的能力，自 1940 年開始科學家開始模仿神經元(Neuron)的運作模式，認為如果兩個神經元同時被觸發，則它們之間的連結就會獲得增強。從巴伐洛夫的狗與鈴聲的實驗中就可得知，當聽到鈴聲的神經元和看到食物的神經元同時受到刺激時，兩神經元間就會建立起增強的學習關係，此現象也造就了類神經網路的基礎。直到近年來，類神經網路結合了各項領域，如資訊、工商業甚至心理學等都有不錯的成效，其中像是感知器演算法(Perceptron)是第一個實踐出類神經網路的創舉。然而為何類神經網路在近年來興起一股流行呢？許多學者歸類出類神經網路有以下幾點特性：

(一) 具備平行處理的能力

(二) 容忍錯誤(Fault Tolerance)的能力

(三) 擁有學習、圖形辨識、自我調適和結合式記憶(Associative Memory)的能力 (四) 可以解決最佳化和處理一般演算法難以解決之問題

(五) 可以以硬體線路，如超大型積體電路(VLSI Implementation)來實作 (六) 利用了非線性的運算和具有嚴謹的數學基礎

除了前述優點外，類神經網路也有許多機器學習中會遇到的問題，如過度訓

練(Over Training)或訓練不足(Under Training)。若造成過度訓練，可能導致將訓練

資料中的雜訊學習進去，導致未看過的資料較難作預測；反之，若訓練不足也無法做出正確的預測。而隱藏層及隱藏層內神經元數目的取決也會造成一定的影響，

一般來說兩層的隱藏層即可處理任何問題[Villiers and Barnard, 1992]。當隱藏層數目太多則複雜度較高，學習時間也相對增加，並且容易找到區域最小值(Local Minimum)，而非最佳解；數目太少則會難以收斂。區域最小值的問題可以圖 2-1 來示意，類神經網路在尋找全域最小值(Global Minimum)所採用的方法為梯度下降法(Gradient Decent Method)，但此法仍有可能會找尋到區域最小值。而除了隱藏層中的神經元太少會導致無法收斂外，訓練資料內有互相矛盾或有極端狀況、

訓練資料中的排列順序或學習率(Learning Rate)太大所造成的震盪或誤差容忍度設定太小都可能是無法收斂的原因。

另外根據學習方法的不同，可分下列幾種[Rojas, 1996]：

圖 2-1：區域最小值示意圖區域最小值

全域最小值

 監督式學習網路(Supervised Learning Network)

 感知機網路(Perceptron)

 倒傳遞式網路(Back-Propagation Neural Network, BPN)

 學習向量量化網路(Learning Vector Quantization, LVQ)

 機率式神經網路(Probabilistic Neural Network, PNN)

 反傳遞網路(Counter-Propagation Network, CPN)

 非監督式學習網路(Unsupervised Learning Network)

 自組織映射圖網路(Self-Organizing Map, SOM)

 自適應共振理論網路(Adaptive Resonance Theory Network, ART)

 聯想式學習網路(Associate Learning Network)

 霍普菲爾網路(Hopfield Neural Network, HNN)

 雙向聯想記憶網路(Bi-directional Associative Memory, BAM)

 最適化應用網路(Optimization Application Network)。

 霍普菲爾-坦克網路(Hopfield-Tank Neural Network, HTN)

 退火神經網路(Annealed Neural Network, ANN)

其中，依其架構可分兩類，分別是前饋式架構(Feed-Forward Network)和遞迴式架構(Recurrent Network)或稱為回饋式架構(Feed-Back Network)，兩者差別在於前者只有從輸入傳遞到輸出，而後者會多增加一個步驟，將上一時間點的資訊傳回給網路。

目前類神經網路主要被用於分類及預測上，在影像辨識方面，如圖案的辨識或雜訊的處理等，而在語音辨識中則有語言模型、語音合成與強健性語音辨識等。

另外則是氣象預測、電腦輔助教學、手寫辨識以及超大積體電路的應用。本論文則是探討語音辨識裡的語言模型部份，以下則介紹類神經網路語言模型的演進與改進。

在文檔中遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究 (頁 26-29)