Long Short-Term Memory Networks - 以循環神經網路模型增進新台幣匯率的短期預測能力

Adag-rad、Stochastic Gradient Descent、_Adadelta,演算法的相關文獻可參考_Kingma

and Ba (2015), 另外以 Geoffrey Hinton 提出的反向傳播法

(backpropaga-tion) 來修正參數_, 詳細的神經網路參數估計的流程分為五個步驟_:

步驟一_: 隨機生成一組權重W 與 b。

步驟二_: 以上述提及前饋神經網路(Feedforward propagation)之運算方式計算出估計值。

2.3 Long Short-Term Memory Networks

2.2.2小節介紹的全連結類神經網路的使用方式雖然能夠解決非線性的部

分_,但由於我們的輸入解釋變數(Input Features)與被解釋變數_(Label)只有前後兩期關係_, 故輸入的解釋變數之間並沒有關聯_, 模型的輸入訊息量只有

‧

國

立政治大學

‧

Na tiona

l Ch engchi University 圖_5: 循環式類神經網路

當期所涵蓋的解釋變數。遺憾的是_,匯率或者股價等時間序列資料的應用上_, 需要的是能夠更好處理序列信息的模型,例如_: 政策執行或者無預期的事件_, 事件的影響可能是短期的劇烈波動_, 亦有可能過一段時間才會產生影響_, 影響的持續程度也不盡相同_, 為了能處理序列上的問題_, 就需要改變神經網路的結構_, 將彼此序列之間串連起來一同訓練_, 稱為循環神經網絡 _(Recurrent

Neural Network), 而循環神經網路視為類神經網路的一種變形_, 由下方圖例

可說明_,在每個時間點模型運算後的輸出值會以另外的隱藏狀態傳入下一筆數據_, 藉此增加每個時間點間彼此的關連性_,RNN 定義式如圖 ₅。

x_t 為第 _t 期的訓練資料特徵向量_{, h}_t−1 為前一期的隱藏狀態_, 兩者會分別進行線性轉換後再帶入激活函數₍通常使用_Sigmoid或_RELU),得出的結果 _h_t 會分別傳遞為下一期的隱藏狀態與輸出值。

ht = f (W_h,x^t xt+ W_h,hht−1), (5)

而W_h,x^t 為隱藏層的權重參數,W_v,h^t 為輸出層的權重參數,y_t = f (W_v,h^t h_t)為輸

‧

網路模型(Long Short-Term Memory, LSTM) 模型來預測台幣匯率_{, LSTM} 近幾年來廣泛地運用在語音辨識_, 文本分析_, 圖像分析_, 語言翻譯_, 金融市場

‧

激活函數 (Activation Function): LSTM 神經元中共使用兩種不同的激活函

數, Sigmoid 的主要功能上述已有提到,而Tanh的功能為接收輸入特徵的正

‧

國

立政治大學

‧

Na tiona

l Ch engchi University 圖7: LSTM神經元連結方式

構_,第一層隱藏層內神經元數目為_r 個_,第二層隱藏層神經元數目為_t個_,輸出層的神經元數目為 _y 個_, 以上 _LSTM 架構採用堆疊式自動編碼器搭配長短期記憶網路模型組成_, 堆疊式自動編碼器 (Stacked Autoencoder) 下節將提供詳細說明_, 再經由測試模型預測的錯誤率所挑選出來的超參數結構_, 由圖 ₈可看出_, 輸入資料的流動方向會同時往右(下一個時間點₎ 與往上(下一層隱藏層₎ 移動_, 此特殊的結構若運用一般的反向傳播法會產生問題_, 問題在於反向傳播的方向必須同方向_, 因此在訓練模型參數上_,LSTM 的反向傳播法分為時間方向往後傳遞_, 與隱藏層往下一層傳遞兩種_, 此法稱為

Back-propagation Through Time 詳細請參考Graves (2012)的以循環性神經網路進行標籤的監督式學習方法。

‧

國

立政治大學

‧

Na tiona

l Ch engchi University 圖8: LSTM

在文檔中以循環神經網路模型增進新台幣匯率的短期預測能力 - 政大學術集成 (頁 15-21)