• 沒有找到結果。

2.3 新近所提出之語言模型

2.3.2 類神經網路語言模型

2.3.2.1 類神經網路簡介

類神經網路(Neural Networks)起源於人工智慧(Artificial Intelligence),又可稱為人 工類神經網路(Artificial Neural Networks, ANN)。為了讓電腦具備與人類一樣的能 力,自 1940 年開始科學家開始模仿神經元(Neuron)的運作模式,認為如果兩個神 經元同時被觸發,則它們之間的連結就會獲得增強。從巴伐洛夫的狗與鈴聲的實 驗中就可得知,當聽到鈴聲的神經元和看到食物的神經元同時受到刺激時,兩神 經元間就會建立起增強的學習關係,此現象也造就了類神經網路的基礎。直到近 年來,類神經網路結合了各項領域,如資訊、工商業甚至心理學等都有不錯的成 效,其中像是感知器演算法(Perceptron)是第一個實踐出類神經網路的創舉。然而 為何類神經網路在近年來興起一股流行呢?許多學者歸類出類神經網路有以下 幾點特性:

(一) 具備平行處理的能力

(二) 容忍錯誤(Fault Tolerance)的能力

(三) 擁有學習、圖形辨識、自我調適和結合式記憶(Associative Memory)的能力 (四) 可以解決最佳化和處理一般演算法難以解決之問題

(五) 可以以硬體線路,如超大型積體電路(VLSI Implementation)來實作 (六) 利用了非線性的運算和具有嚴謹的數學基礎

除了前述優點外,類神經網路也有許多機器學習中會遇到的問題,如過度訓

19

練(Over Training)或訓練不足(Under Training)。若造成過度訓練,可能導致將訓練

資料中的雜訊學習進去,導致未看過的資料較難作預測;反之,若訓練不足也無 法做出正確的預測。而隱藏層及隱藏層內神經元數目的取決也會造成一定的影響,

一般來說兩層的隱藏層即可處理任何問題[Villiers and Barnard, 1992]。當隱藏層數 目太多則複雜度較高,學習時間也相對增加,並且容易找到區域最小值(Local Minimum),而非最佳解;數目太少則會難以收斂。區域最小值的問題可以圖 2-1 來示意,類神經網路在尋找全域最小值(Global Minimum)所採用的方法為梯度下 降法(Gradient Decent Method),但此法仍有可能會找尋到區域最小值。而除了隱 藏層中的神經元太少會導致無法收斂外,訓練資料內有互相矛盾或有極端狀況、

訓練資料中的排列順序或學習率(Learning Rate)太大所造成的震盪或誤差容忍度 設定太小都可能是無法收斂的原因。

另外根據學習方法的不同,可分下列幾種[Rojas, 1996]:

圖 2-1:區域最小值示意圖 區域最小值

全域最小值

20

 監督式學習網路(Supervised Learning Network)

 感知機網路(Perceptron)

 倒傳遞式網路(Back-Propagation Neural Network, BPN)

 學習向量量化網路(Learning Vector Quantization, LVQ)

 機率式神經網路(Probabilistic Neural Network, PNN)

 反傳遞網路(Counter-Propagation Network, CPN)

 非監督式學習網路(Unsupervised Learning Network)

 自組織映射圖網路(Self-Organizing Map, SOM)

 自適應共振理論網路(Adaptive Resonance Theory Network, ART)

 聯想式學習網路(Associate Learning Network)

 霍普菲爾網路(Hopfield Neural Network, HNN)

 雙向聯想記憶網路(Bi-directional Associative Memory, BAM)

 最適化應用網路(Optimization Application Network)。

 霍普菲爾-坦克網路(Hopfield-Tank Neural Network, HTN)

 退火神經網路(Annealed Neural Network, ANN)

其中,依其架構可分兩類,分別是前饋式架構(Feed-Forward Network)和遞迴式架 構(Recurrent Network)或稱為回饋式架構(Feed-Back Network),兩者差別在於前者 只有從輸入傳遞到輸出,而後者會多增加一個步驟,將上一時間點的資訊傳回給 網路。

21

目前類神經網路主要被用於分類及預測上,在影像辨識方面,如圖案的辨識 或雜訊的處理等,而在語音辨識中則有語言模型、語音合成與強健性語音辨識等。

另外則是氣象預測、電腦輔助教學、手寫辨識以及超大積體電路的應用。本論文 則是探討語音辨識裡的語言模型部份,以下則介紹類神經網路語言模型的演進與 改進。