• 沒有找到結果。

2.3 新近所提出之語言模型

3.1.1 倒傳遞式類神經網路

3.1.1.1 架構

將神經元彼此連結即可構成類神經網路,類神經網路主要有三層,分別是輸入層 (Input Layer)、隱藏層(Hidden Layer)和輸出層(Output Layer)。有時會額外加入一 層投影層(Projection Layer),用來將歷史詞序列的資訊投影至此連續空間,並降低 輸入層的維度。輸入層沒有具備運算能力,表示方式是以詞為單位由訓練資料來

27

其中, f(netj)為網路的活化函數(Activation Function),而激發函數大致分為下列 幾種:雙彎曲函數(Sigmoid Function)、高斯主動函數(Gauss Action Function)、雙 曲 線 正 切 函 數 (Hyperbolic Tangent Function) 、 片 段 線 性 函 數 (Piecewise-Linear

28

Function)和雙極性函數(Bipolar Function)。為了保證輸出值能介於 0 到 1 之間,本 論文中所使用的是雙彎曲函數,如下面式子所表示: (Softmax Activation Function),也是轉移函數(Transfer Function)的一種。如下式來 表示: (Error Vector) 以降低輸出值(Output Value)和期望值(Desired Value)間的差距,接著 使用梯度下降法求取錯誤函數之最小值傳遞到層跟層之間的權重。而求得誤差向 量的方法為期望向量 d (Desired Vector)減去輸出向量 y (Output Vector),其中期望 向量在類神經網路語言模型裡可視為下一個字所表示的向量。接著以下為使用梯

29

30

31

3.1.1.3 類神經網路語言模型

將類神經網路與語言模型結合的話,則可表示成圖 3-2。輸入層則為欲預測詞的 歷史資訊,其中歷史資訊以h表示。如圖 3-2所示則代表前三個詞的歷史資訊,因 此,此語言模型可視為一個四連的類神經網路語言模型。而每個詞使用one-of-N 方式進行編碼,例如詞w 的表示方式為在長度為N的向量中,只有第i維是1其餘i

為零。接著將歷史資訊映射到投影層內來進行降低維度的作用,透過圖 3-3可以 實際了解到投影層能從投影層權重矩陣有效取得詞的權重資訊。將詞wi-3、wi-2wi-1透過投影層權重矩陣轉換成投影層,這部份可以了解到,詞序列的結構如果相 似,則可使用相同的權重來予以估計。例如有兩段詞序列的語句結構相似,「狗 在臥室裡奔跑(The dog runs in the bedroom)」和「貓在房裡走動(A cat walks in the room) 」。因此皆會使用到相同的權重,儘管未在訓練語料中出現,仍可獲得一個 較佳的機率預測值,而不須藉由平滑化方法來協助估測下一個詞發生的可能性 [Bengio et al. 2000]。不同於N連語言模型因為訓練語料有限,無法完整收集到所 有可能的N連詞出現的統計資訊,進而造成資料稀疏的問題,投影層可以接受所 有可能的詞序列組合,並且詞序列中的每個詞能獨立貢獻出權重值來估測下一個 詞出現的可能性。因此投影層的目的即是將歷史詞序列的資訊映射到連續空間表 示,另外,歷史詞序列中詞的順序關係不會改變,所以能讓隱藏層來學習。隱藏 層的設計則和原本一樣,而隱藏層中神經元的數目則視為一個參數,需要去自行 調整來獲得最佳的預測。輸出層設計也和原本一樣,其大小跟輸入層一樣,是詞 彙的數量,不同的是每一維都會有各自預測出來的機率,可表示成P(xi|h)。最 後取機率最大的當作預測結果,再進行倒傳遞演算法來調整權重。

32

圖 3-4:遞迴式類神經網路架構 前一次時間點

之隱藏層

權重 V 權重 W

複製 權重 U

輸入層 隱藏層 輸出層

…… ……

…… ……

投影層 wi-3

wi-2

wi-1

h

1 0 0

0 0 1

0 1 0

w11w12w13 w21 w22 w23

投影層權重矩陣

w11 w21 w13 w23 w12 w22 輸入層

圖 3-3:輸入層映射至投影層過程

33