• 沒有找到結果。

Adag-rad、Stochastic Gradient Descent、Adadelta,演算法的相關文獻可參考Kingma

and Ba (2015), 另外以 Geoffrey Hinton 提出的反向傳播法

(backpropaga-tion) 來修正參數, 詳細的神經網路參數估計的流程分為五個步驟:

步驟一: 隨機生成一組權重W 與 b。

步驟二: 以上述提及前饋神經網路(Feedforward propagation)之運算方式計 算出估計值。

2.3 Long Short-Term Memory Networks

2.2.2小節介紹的全連結類神經網路的使用方式雖然能夠解決非線性的部

,但由於我們的輸入解釋變數(Input Features)與被解釋變數(Label)只有 前後兩期關係, 故輸入的解釋變數之間並沒有關聯, 模型的輸入訊息量只有

立 政 治 大 學

Na tiona

l Ch engchi University 5: 循環式類神經網路

當期所涵蓋的解釋變數。 遺憾的是,匯率或者股價等時間序列資料的應用上, 需要的是能夠更好處理序列信息的模型,例如: 政策執行或者無預期的事件, 事件的影響可能是短期的劇烈波動, 亦有可能過一段時間才會產生影響, 影 響的持續程度也不盡相同, 為了能處理序列上的問題, 就需要改變神經網路 的結構, 將彼此序列之間串連起來一同訓練, 稱為循環神經網絡 (Recurrent

Neural Network), 而循環神經網路視為類神經網路的一種變形, 由下方圖例

可說明,在每個時間點模型運算後的輸出值會以另外的隱藏狀態傳入下一筆 數據, 藉此增加每個時間點間彼此的關連性,RNN 定義式如圖 5

xt 為第 t 期的訓練資料特徵向量, ht−1 為前一期的隱藏狀態, 兩者會分 別進行線性轉換後再帶入激活函數(通常使用SigmoidRELU),得出的結 果 ht 會分別傳遞為下一期的隱藏狀態與輸出值。

ht = f (Wh,xt xt+ Wh,hht−1), (5)

而Wh,xt 為隱藏層的權重參數,Wv,ht 為輸出層的權重參數,yt = f (Wv,ht ht)為輸

網路模型(Long Short-Term Memory, LSTM) 模型來預測台幣匯率, LSTM 近幾年來廣泛地運用在語音辨識, 文本分析, 圖像分析, 語言翻譯, 金融市場

激活函數 (Activation Function): LSTM 神經元中共使用兩種不同的激活函

數, Sigmoid 的主要功能上述已有提到,而Tanh的功能為接收輸入特徵的正

立 政 治 大 學

Na tiona

l Ch engchi University 7: LSTM神經元連結方式

,第一層隱藏層內神經元數目為r,第二層隱藏層神經元數目為t,輸 出層的神經元數目為 y, 以上 LSTM 架構採用堆疊式自動編碼器搭配長 短期記憶網路模型組成, 堆疊式自動編碼器 (Stacked Autoencoder) 下節將 提供詳細說明, 再經由測試模型預測的錯誤率所挑選出來的超參數結構, 由 圖 8可看出, 輸入資料的流動方向會同時往右(下一個時間點) 與往上(下一 層隱藏層) 移動, 此特殊的結構若運用一般的反向傳播法會產生問題, 問題 在於反向傳播的方向必須同方向, 因此在訓練模型參數上,LSTM 的反向傳 播法分為時間方向往後傳遞, 與隱藏層往下一層傳遞兩種, 此法稱為

Back-propagation Through Time 詳細請參考Graves (2012)的以循環性神經網路 進行標籤的監督式學習方法。

立 政 治 大 學

Na tiona

l Ch engchi University 8: LSTM

相關文件