• 沒有找到結果。

2.3 新近所提出之語言模型

3.1.2 遞迴式類神經網路

3.1.2.1 架構

有別於傳統類神經網路,遞迴式的類神經網路更能帶來好的訓練能力,一般常見 的是於 1990 年由 Elman 所發展的艾爾曼網路(Elman Networks)[Elman, 1990]。其 概念是將隱藏層的輸出當作下一次時間點隱藏層的輸入,而根據不同的需求也有 許多不同的網路形成,如喬丹網路(Jordan Networks)[Jordan, 1986]是將輸出層的輸 出 再 傳 遞 給 下 一 時 間 點 的 隱 藏 層 以 及 雙 向 遞 迴 式 類 神 經 網 路 (Bi-directional RNN)[Schuster and Paliwal]利用歷史資訊和未來資訊來做預測,使用的是兩個遞 迴式類神經網路來做結合及階層遞迴式類神經網路(Hierarchical RNN)等。本論文 則是以艾爾曼網路來進行探討。

遞迴式類神經網路結構可參考圖 3-4,此部分結構是把輸入層加大,且將上 一時間點的隱藏層利用暫存複製起來,若以時間方式來階層展開的話,將會更清 楚看出其遞迴的概念,如圖 3-5 所示。輸入層、隱藏層和輸出層設計也與之前一 樣,但是在前一時間點和目前時間點的隱藏層間會多增加一個權重 U。由於遞迴 式類神經網路具有時序處理(Temporal Processing)的能力,一般來評估此類型的網 路 常 會 注 意 它 們 的 穩 定 性 (Stability) 、 可 控 性 (Controllability) 及 可 觀 察 性 (Observability)。穩定性注重的是隨著時間改變,網路輸出結果需是受侷限的且輸 出後的調整量不可過於劇烈,例如網路中輸出的部份或權重。可控性在意的是「是 否能夠控制的動態行為」,如果在有限的步驟中,一個初始狀態是可控制至任何 期望的狀態,則此遞迴式網路可被稱為具有可控性的。可觀察性關注的是「是否 可觀察出控制應用的結果」,如果網路的狀態可以確定從一組有限的輸入或輸出 測量,則稱做此網路有可觀察性。而與一般類神經網路不同之處,除了結構上的 改 變 外 , 演 算 法 部 分 也 有 進 行 調 整 , 接 著 就 介 紹 時 序 性 倒 傳 遞 演 算 法

34

(Backpropagation Through Time)[Werbos, 1990]。

3.1.2.2 時序性倒傳遞演算法推導

與倒傳遞演算法不同的地方,遞迴式類神經網路是利用時間的變化來調整權重值,

也就是說會調整不只一次且經由不同時間點上的隱藏層資訊來進行調整。如圖 3-5 所示,在時間點 t 所使用的權重是過去時間點所累積的,但利用此方法必須要 記錄所有歷史資訊及過去的網路狀態,這將造成記憶體不足和運算量倍增的問題。

因此需定義一個變數 當作遞迴的次數[Bengio et al., 1994],以此來決定想使用多 少的歷史資訊,並且忽略掉更早之前的資訊。如前述所提到,假使網路是穩定的 話,則權重的更新量將會隨著時間越來越小,這是因為網路倚靠有力的小幅度回 饋來增加強度。換句話說,將更早之前的資訊忽略掉並不會造成太大的問題,透 過多次的回饋則可彌補此缺點。

圖 3-5:以時間階層式展開之遞迴式類神經網路架構

s(t-1) x(t-1)

s(t-2) x(t-2)

s(t-3)

權重 V 權重 V

權重 U

………… ………… …………

權重 V

權重 U

…… ……

權重 V

權重 U x(t)

s(t)

35 有研究學者[Bengio et al., 1993, 1994]指出透過梯度下降法對於學習長距離資訊有 一定的困難。我們對權重 V 來舉例,假設目前正計算詞序列中第 T 個詞要回饋給

36

37

第4章 探索遞迴式類神經網路語言模型之

改進