2.3 新近所提出之語言模型
2.3.2 類神經網路語言模型
2.3.2.1 類神經網路簡介
類神經網路(Neural Networks)起源於人工智慧(Artificial Intelligence),又可稱為人 工類神經網路(Artificial Neural Networks, ANN)。為了讓電腦具備與人類一樣的能 力,自 1940 年開始科學家開始模仿神經元(Neuron)的運作模式,認為如果兩個神 經元同時被觸發,則它們之間的連結就會獲得增強。從巴伐洛夫的狗與鈴聲的實 驗中就可得知,當聽到鈴聲的神經元和看到食物的神經元同時受到刺激時,兩神 經元間就會建立起增強的學習關係,此現象也造就了類神經網路的基礎。直到近 年來,類神經網路結合了各項領域,如資訊、工商業甚至心理學等都有不錯的成 效,其中像是感知器演算法(Perceptron)是第一個實踐出類神經網路的創舉。然而 為何類神經網路在近年來興起一股流行呢?許多學者歸類出類神經網路有以下 幾點特性:
(一) 具備平行處理的能力
(二) 容忍錯誤(Fault Tolerance)的能力
(三) 擁有學習、圖形辨識、自我調適和結合式記憶(Associative Memory)的能力 (四) 可以解決最佳化和處理一般演算法難以解決之問題
(五) 可以以硬體線路,如超大型積體電路(VLSI Implementation)來實作 (六) 利用了非線性的運算和具有嚴謹的數學基礎
除了前述優點外,類神經網路也有許多機器學習中會遇到的問題,如過度訓
19
練(Over Training)或訓練不足(Under Training)。若造成過度訓練,可能導致將訓練
資料中的雜訊學習進去,導致未看過的資料較難作預測;反之,若訓練不足也無 法做出正確的預測。而隱藏層及隱藏層內神經元數目的取決也會造成一定的影響,
一般來說兩層的隱藏層即可處理任何問題[Villiers and Barnard, 1992]。當隱藏層數 目太多則複雜度較高,學習時間也相對增加,並且容易找到區域最小值(Local Minimum),而非最佳解;數目太少則會難以收斂。區域最小值的問題可以圖 2-1 來示意,類神經網路在尋找全域最小值(Global Minimum)所採用的方法為梯度下 降法(Gradient Decent Method),但此法仍有可能會找尋到區域最小值。而除了隱 藏層中的神經元太少會導致無法收斂外,訓練資料內有互相矛盾或有極端狀況、
訓練資料中的排列順序或學習率(Learning Rate)太大所造成的震盪或誤差容忍度 設定太小都可能是無法收斂的原因。
另外根據學習方法的不同,可分下列幾種[Rojas, 1996]:
圖 2-1:區域最小值示意圖 區域最小值
全域最小值
20
監督式學習網路(Supervised Learning Network)
感知機網路(Perceptron)
倒傳遞式網路(Back-Propagation Neural Network, BPN)
學習向量量化網路(Learning Vector Quantization, LVQ)
機率式神經網路(Probabilistic Neural Network, PNN)
反傳遞網路(Counter-Propagation Network, CPN)
非監督式學習網路(Unsupervised Learning Network)
自組織映射圖網路(Self-Organizing Map, SOM)
自適應共振理論網路(Adaptive Resonance Theory Network, ART)
聯想式學習網路(Associate Learning Network)
霍普菲爾網路(Hopfield Neural Network, HNN)
雙向聯想記憶網路(Bi-directional Associative Memory, BAM)
最適化應用網路(Optimization Application Network)。
霍普菲爾-坦克網路(Hopfield-Tank Neural Network, HTN)
退火神經網路(Annealed Neural Network, ANN)
其中,依其架構可分兩類,分別是前饋式架構(Feed-Forward Network)和遞迴式架 構(Recurrent Network)或稱為回饋式架構(Feed-Back Network),兩者差別在於前者 只有從輸入傳遞到輸出,而後者會多增加一個步驟,將上一時間點的資訊傳回給 網路。
21
目前類神經網路主要被用於分類及預測上,在影像辨識方面,如圖案的辨識 或雜訊的處理等,而在語音辨識中則有語言模型、語音合成與強健性語音辨識等。
另外則是氣象預測、電腦輔助教學、手寫辨識以及超大積體電路的應用。本論文 則是探討語音辨識裡的語言模型部份,以下則介紹類神經網路語言模型的演進與 改進。