研究方法 - 以循環神經網路模型增進新台幣匯率的短期預測能力

率 (Federal Fund Rate) 等日資料來探討新增加之變數是否會加強模型預測

精準度。其中, 油價與利率來源取自於 _Datastream 資料庫, 我們將杜拜原油與布侖特原油以 _7D3B 的比例計算台灣油價_;金價資料取自世界黃金協會

(World Gold Council) 資料庫_, 油價與金價皆以美元計價。本篇論文將依上述 ₁₀ 種原始資料_, 以常用數據處理套件 _(Sklearn) 中的標準化方式 ₍

Nor-malization , Minimax Scaler) 轉換數據成為輸入模型的資料。

3.2

研究方法

此節將會說明本文執行匯率預測的方法與評估匯率預測的優劣。首先我們會將資料處理好的資料分成訓練集(Training sets) 測試集(Testing sets),分割的比例為_8:2,訓練集資料取_1994/8/31號至_2013/5/8號約₄₉₀₀筆資料_,測試集資料取_2013/5/8至_2018/1/24約₁₂₀₀比資料_,所有模型的估計只會以訓練集的資料來建構。其次我們將三個模型進行超參數 (Hyperpararmeter)、變數、滯後期數的最適化調整。超參數在前節有提到_,依目前類神經網路的發展來說_, 並未有一個完整的模型架構能適用於所有的問題。本文因此希望能藉由考慮各種可能的情況下_,以地毯搜索的方式去找尋最適合估計台幣匯率的網路模型參數_, 考慮的參數包括_: 初始化方式 (Initialize Mode)、隱藏層數目、每層神經元數目、模型總訓練次數、批次大小、學習速度(Learning Rate)、最適化方法 (Adam,Rmsprop,Sgd,Adamax...) 等等。變數的選擇亦對模型的估計效果影響卓著_,前節中有提到本文將數據依照不同的模型進行適合的處

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

過去的資料訊息去建構模型對於預測外匯完全無效_,隨機漫步模型的定義式如下:

y_t= y_t−1+ _t, (18)

∼ iid N (0, σ²) (19)

如上式所述,本文將當期的匯率值令為₁天後、7天後或30天後的的預測值,

依此類推建構出 ₁、₇、₃₀ 天的隨機漫步預測模型。依據隨機漫步模型計算出的 _MSE 結果當作 _ADL、_FNN、_RNN 三個模型的衡量基準_, 來探討模型能否藉由歷史資料的價值來增進匯率模型的預測準確率。

圖11: 個變數對台幣匯率相關係數圖

‧

本節中_,本文將使用Autoregressive Distributed Lag Model、Fully Connected Neural Network、Stacked Autoencoder Recurrent Neural Network與_Random

Walk Model對匯率進行預測_, 並依據滯後期₁日、₇日、₃₀日分別預測短期、

中期、長期的匯率結果_,預測期間₂₀₁₃年₅月₈日至₂₀₁₈年₁月₂₄日。本文將實證結果呈現如下表 _{2 ,}依序對四個模型做 Mean-Square Deviation並嘗試以不同的變數與超參數的選擇_, 來調整各個模型至最佳的狀態。首先變數依前節相關係數由大到小排序為_RMB/USD、_GBP/USD、_WON/USD、_EU

R /USD、_JPY/USD、US Goldprice、TAIWAN INTERBANK RATE、_{Crude oil}

price、Federal Funds Rate,表₂變數欄位顯示_All代表採納所有上述的變數_,

‧

國

立政治大學

‧

Na tiona

l Ch engchi University 表_{2: 1}日匯率預測

模型變數超參數 _mse

ADL All [1, 2, 2, 2, 2, 2,...] 0.01889

FNN 3var1lag [500epoch,120bs,Normal,Adamax,100neuron] 0.00813 RNN(SAE-LSTM) 6var1lag [1000epoch ,180bz , Nadam ,50neuron] 0.01134

Random-Walk twd/usd lag=1 0.01197

路模型預測結果皆與實際匯率相似而 _ADL 模型會有過度預期的情況產生_, 表 ₂ 的結果為本文三種模型與隨機漫步模型的短期 ₁ 日預測表現_, 短期預測結果以兩層隱藏層的 _FNN 表現最卓越_, 且兩種不同結構的類神經網路模型 _(FNN、_RNN) 預測結果皆優於隨機漫步模型。代表著_,類神經網路模型能夠有效萃取外匯金融市場的信息。較值得注意的是經過不同變數與滯後期數實驗後_, 變數的滯後期 _(Lag) 都只取一期當作解釋變數使用_, 顯示出神經網路模型在短期預測的結果上對於過去的訊息影響不大_,對於下一期的預測影響力隨機性的噪音干擾佔了很大的比例。

‧

FNN 6var1lag [500epoch,120bs,Lecun uniform,adamax,500neuron] 0.06814 RNN(SAE-LSTM) 6var3lag [1500epoch,250bz,Adam,80neuorn] 0.02467

Random-Walk twd/usd lag=7 0.03286

圖 ₁₃ 為三種模型的預測結果與實際匯率價格的示意圖_, 紅色為實際我

‧

國

立政治大學

‧

Na tiona

l Ch engchi University 圖_13: 對美元匯率₇ 日預測

4.3 30

日匯率預測結果

圖 14 為三種模型的預測結果與實際匯率價格的示意圖, 紅色為實際我國匯率價格_, 灰色為_ADL模型預測結果_, 綠色為類神經網路模型預測結果_,最後深藍色為堆疊式循環神經網路模型預測結果。圖中結果顯示_, 堆疊式循環神經網路模型的預測結果相較於其他兩種模型_, 其估計結果較為平滑_, 且趨勢與我國匯率價格最為相似_{, ADL}模型則有預測相反趨勢的情況產生_,而傳統的神經網路模型則是缺乏資訊傳遞的功能_, 無法有效回顧將₂₀₁₃ 年至 ₂₀₁₄ 年的低價格匯率歷史資訊_, 導致2017 年後匯率下跌時預測的誤差極大_,表4

表_{4: 30}日匯率預測

模型變數超參數 _mse

ADL 6var [0, 0, 0, 0, 0, 0, 0] 0.10154

FNN 3var10lag [2000epoch,120bs,normal,Adamax,1000neuron] 0.07152 RNN(SAE-LSTM) 3var10lag [3000epoch,160bz,Adamax,50neuorn] 0.05326

Random-Walk twd/usd lag=30 0.07336

‧

國

立政治大學

‧

Na tiona

l Ch engchi University 圖_14: 對美元匯率₃₀日預測

的結果為三種模型與隨機漫步模型的中長期 ₃₀ 日預測表現_, 中長期預測結

果以 ₅ 層 Autoencoder 隱藏層加兩層長短期記憶網路層的的 _RNN 表現最

卓越且優於隨機漫步模型_,代表長短期記憶網路模型對於中長期匯率預測表現上_, 能夠有效萃取與保存外匯金融市場的信息。值得注意的是預測 ₃₀ 日表現的類神經模型_, 滯後期在₃₀ 期預測上顯著的增加為₁₀ 天_,隱藏層的神經元數與訓練模型的次數 _(Epoch) 也上升了_, 顯示出隨著預測期間的增加_, 能夠藉由處理更複雜的資訊量_, 找出與匯率 ₃₀ 天後的相關性並進一步優於隨機漫步模型。

‧

的模型參數與結構,Stacked Autoencoder 藉由非監督式學習的方法轉換原始的特徵來抓出外匯市場訊息中較重要的特徵_,進而降低後續模型建構時誤

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

對於金融或外匯市場這種帶有很多該擾雜訊的資料進行建模_,在資料前置作業中若加入更多降噪的函式像小波轉換 (Wavelet Transform) 等方式, 常被用來降低信息中的雜訊_, 進而使後續的 RNN、_FNN 模型能夠有好的輸入資料。第三_, 本文變數的選擇方式非常的耗費電腦效能與時間_, 根據本文的觀察文中的類神經網路模型並不能自行將不重要亦或者不需要的變數經由權重訓練的方式漸近至零_, 因此在實證結果的呈現上_, 才會有選擇變數種類的表格產生。而藉由相關係數大小挑選模型變數的機制_,我們認為不夠有效率_, 未來的目標是希望以訓練模型的方式讓模型去訓練出適合且有效的變數。第四點一樣圍繞在變數的選擇上_, 本文的變數選擇皆為數值型態資料。其他如類別型態的資料_,投資人的情緒指標_,或者文本資料_,像是財經新聞等等皆有論文指出對於匯率的預測有不錯的預測能力_, 綜觀以上幾點_, 納入眾多不同性質的資料並且篩選出具備顯著解釋能力的輸入特徵將會是本文後續努力改進的目標。

‧

國

立政治大學

‧

Na tiona

l Ch engchi University

參考文獻

[1] Adya, M., and Collopy, F. (1998). “How effective are neural networks at forecasting and prediction ? A review and evaluation”. Journal of forecasting J. Forecast., 17, 481–495.

[2] Bao, W., Yue, J., and Rao, Y. (2017). “A deep learning framework for financial time series using stacked autoencoders and long-short term-memory”, PLOS ONE, 12(7).

[3] Bengio, Y., Simard, P., and Frasconi, P. (1994). “Learning long-term dependencies with gradient descent is difficult”, Neural Networks, 5(2),157-166

[4] Caire, P., Hatabian, G. and Muller, C. (1992). “Progress in forecast-ing by neural networks”. Neural Networks, 2, 540-545.

[5] Connor, J., Martin, R., and Atlas, L. (1994). “Recurrent neural net-works and robust time series prediction” . Neural Netnet-works, 5(2), 240–254.

[6] Contribution, O. (1989). “On the approximate realization of contin-uous mappings by neural networks”. Neural Networks, 2, 183–192.

‧

[7] Cybenko, G. (1989). “Approximation by superpositions of a sigmoidal function”. Mathematics of Control, Signals, and Systems, 2, 303–314.

[8] Enders, W. (2014). Applied econometric time series, 4th Edition. New York, United States : Wiley.

[9] Granger, C.W.J., and A.P. Andersen. (1978). An introduction to bi-linear time series models (Vandenhoeck and Ruprecht, GSttingen).

[10] Graves, A. (2012). Supervised sequence labeling with recurrent neural networks. Berlin, Germany : Springer.

[11] Hornik, K. (1991). “Approximation capabilities of muitilayer feedfor-ward networks”. Neural Networks, 4(2), 251–257.

[12] Hornik, K. (1993). “Some new results on neural network approxima-tion”. Neural Networks, 6(8), 1069-1072.

[13] Hornik, K. Stinchcombe, M., and White, H. (1989). “Multilayer feed-forward networks are universal approximators”. Neural Networks, 2(5), 359–366.

[14] Kim, T. Y., Oh, K. J., Kim, C., and Do, J. D. (2004). “Artificial neu-ral networks for non-stationary time series”. Neurocomputing, 61(1–

4), 439-447.

‧

[15] Kingma, D. P., and Ba, J. L. (2015). “Adam A method for stochastic optimization”. ICLR, 1-15.

[16] Kuan, C. (2006). Artificial neural networks. IEAS Working Paper : academic research 06-A010, Institute of Economics, Academia Sinica, Taipei, Taiwan.

[17] Lipton, Z. C., Berkowitz, J., and Elkan, C. (2015). A crit-ical review of recurrent neural networks for sequence learning.

arXiv.1506.00019[cs.LG]

[18] Refenes A. N. , M. Azema-Barac, L. Chen, and S. A. Karoussos.

(1993). “Currency exchange rate prediction and neural network design Strategies”. Neural Comput Applic, 1(1), 46-58

[19] Tong, K., and Lim, K. S. (1980). “Threshold autoregression, limit cycles and cyclical data”. Royal Statistical Society, 42(3), 245-292.

[20] Vincent, P. (2010). Stacked denoising autoencoders : learning useful representations in a deep network with a local denoising criterion, Paper presented at the 27th International Conference on Machine Learning, 11, 3371–3408.

[21] Weigend, A.S., Huberman, B.A. and Rumelhart, D.E., (1992).

Pre-‧

國

立政治大學

‧

Na tiona

l Ch engchi University

M. Casdagli and S. Eubank (Editors), Nonlinear Modelling and Fore-casting, SFI Studies in the Sciences of Complexity, Proc. Vol. XII.

Addison-Wesley, Redwood City, pp. 395-432.

[22] Zhang, G., Patuwo, E. B., Hu, M. Y. (1998). “Forecasting with arti-ficial neural networks : The state of the art”. International Journal of Forecasting, 14, 35–62.

在文檔中以循環神經網路模型增進新台幣匯率的短期預測能力 - 政大學術集成 (頁 25-39)