倒傳遞式類神經網路 - 新近所提出之語言模型 - 遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究

2.3 新近所提出之語言模型

3.1.1 倒傳遞式類神經網路

3.1.1.1 架構

將神經元彼此連結即可構成類神經網路，類神經網路主要有三層，分別是輸入層 (Input Layer)、隱藏層(Hidden Layer)和輸出層(Output Layer)。有時會額外加入一層投影層(Projection Layer)，用來將歷史詞序列的資訊投影至此連續空間，並降低輸入層的維度。輸入層沒有具備運算能力，表示方式是以詞為單位由訓練資料來

其中， f(netj)為網路的活化函數(Activation Function)，而激發函數大致分為下列幾種：雙彎曲函數(Sigmoid Function)、高斯主動函數(Gauss Action Function)、雙曲線正切函數 (Hyperbolic Tangent Function) 、片段線性函數 (Piecewise-Linear

Function)和雙極性函數(Bipolar Function)。為了保證輸出值能介於 0 到 1 之間，本論文中所使用的是雙彎曲函數，如下面式子所表示： (Softmax Activation Function)，也是轉移函數(Transfer Function)的一種。如下式來表示： (Error Vector) 以降低輸出值(Output Value)和期望值(Desired Value)間的差距，接著使用梯度下降法求取錯誤函數之最小值傳遞到層跟層之間的權重。而求得誤差向 量的方法為期望向量 d (Desired Vector)減去輸出向量 y (Output Vector)，其中期望 向量在類神經網路語言模型裡可視為下一個字所表示的向量。接著以下為使用梯

3.1.1.3 類神經網路語言模型

將類神經網路與語言模型結合的話，則可表示成圖 3-2。輸入層則為欲預測詞的 歷史資訊，其中歷史資訊以h表示。如圖 3-2所示則代表前三個詞的歷史資訊，因 此，此語言模型可視為一個四連的類神經網路語言模型。而每個詞使用one-of-N 方式進行編碼，例如詞w 的表示方式為在長度為N的向量中，只有第i維是1其餘i

為零。接著將歷史資訊映射到投影層內來進行降低維度的作用，透過圖 3-3可以 實際了解到投影層能從投影層權重矩陣有效取得詞的權重資訊。將詞w_i-3、w_i-2和 wi-1透過投影層權重矩陣轉換成投影層，這部份可以了解到，詞序列的結構如果相似，則可使用相同的權重來予以估計。例如有兩段詞序列的語句結構相似，「狗在臥室裡奔跑(The dog runs in the bedroom)」和「貓在房裡走動(A cat walks in the room) 」。因此皆會使用到相同的權重，儘管未在訓練語料中出現，仍可獲得一個較佳的機率預測值，而不須藉由平滑化方法來協助估測下一個詞發生的可能性 [Bengio et al. 2000]。不同於N連語言模型因為訓練語料有限，無法完整收集到所 有可能的N連詞出現的統計資訊，進而造成資料稀疏的問題，投影層可以接受所 有可能的詞序列組合，並且詞序列中的每個詞能獨立貢獻出權重值來估測下一個詞出現的可能性。因此投影層的目的即是將歷史詞序列的資訊映射到連續空間表示，另外，歷史詞序列中詞的順序關係不會改變，所以能讓隱藏層來學習。隱藏層的設計則和原本一樣，而隱藏層中神經元的數目則視為一個參數，需要去自行調整來獲得最佳的預測。輸出層設計也和原本一樣，其大小跟輸入層一樣，是詞彙的數量，不同的是每一維都會有各自預測出來的機率，可表示成P(xi|h)。最後取機率最大的當作預測結果，再進行倒傳遞演算法來調整權重。

圖 3-4：遞迴式類神經網路架構前一次時間點

之隱藏層

權重 V 權重 W

複製 權重 U

輸入層隱藏層輸出層

…… ……

投影層 w_i-3

w_i-2

w_i-1

h

1 0 0

0 0 1

0 1 0

w₁₁w₁₂w₁₃ w₂₁ w₂₂ w₂₃

投影層權重矩陣

w₁₁ w₂₁ w₁₃ w₂₃ w₁₂ w₂₂ 輸入層

圖 3-3：輸入層映射至投影層過程

在文檔中遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究 (頁 34-41)