率 (Federal Fund Rate) 等日資料來探討新增加之變數是否會加強模型預測
精準度。 其中, 油價與利率來源取自於 Datastream 資料庫, 我們將杜拜原 油與布侖特原油以 7D3B 的比例計算台灣油價;金價資料取自世界黃金協會
(World Gold Council) 資料庫, 油價與金價皆以美元計價。 本篇論文將依上 述 10 種原始資料, 以常用數據處理套件 (Sklearn) 中的標準化方式 (
Nor-malization , Minimax Scaler) 轉換數據成為輸入模型的資料。
3.2
研究方法此節將會說明本文執行匯率預測的方法與評估匯率預測的優劣。 首先我們會 將資料處理好的資料分成訓練集(Training sets) 測試集(Testing sets),分割 的比例為8:2,訓練集資料取1994/8/31號至2013/5/8號約4900筆資料,測 試集資料取2013/5/8至2018/1/24約1200比資料,所有模型的估計只會以 訓練集的資料來建構。 其次我們將三個模型進行超參數 (Hyperpararmeter)、 變數、滯後期數的最適化調整。 超參數在前節有提到,依目前類神經網路的發 展來說, 並未有一個完整的模型架構能適用於所有的問題。 本文因此希望能 藉由考慮各種可能的情況下,以地毯搜索的方式去找尋最適合估計台幣匯率 的網路模型參數, 考慮的參數包括: 初始化方式 (Initialize Mode)、隱藏層數 目、每層神經元數目、模型總訓練次數、批次大小、學習速度(Learning Rate)、 最適化方法 (Adam,Rmsprop,Sgd,Adamax...) 等等。 變數的選擇亦對模型的 估計效果影響卓著,前節中有提到本文將數據依照不同的模型進行適合的處
‧
‧
國立 政 治 大 學
‧
Na tiona
l Ch engchi University
過去的資料訊息去建構模型對於預測外匯完全無效,隨機漫步模型的定義式 如下:
yt= yt−1+ t, (18)
∼ iid N (0, σ2) (19)
如上式所述,本文將當期的匯率值令為1天後、7天後或30天後的的預測值,
依此類推建構出 1、7、30 天的隨機漫步預測模型。 依據隨機漫步模型計算出 的 MSE 結果當作 ADL、FNN、RNN 三個模型的衡量基準, 來探討模型能否 藉由歷史資料的價值來增進匯率模型的預測準確率。
圖11: 個變數對台幣匯率相關係數圖
‧
本節中,本文將使用Autoregressive Distributed Lag Model、Fully Connected Neural Network、Stacked Autoencoder Recurrent Neural Network與Random
Walk Model對匯率進行預測, 並依據滯後期1日、7日、30日分別預測短期、
中期、長期的匯率結果,預測期間2013年5月8日至2018年1月24日。 本 文將實證結果呈現如下表 2 ,依序對四個模型做 Mean-Square Deviation並 嘗試以不同的變數與超參數的選擇, 來調整各個模型至最佳的狀態。 首先變 數依前節相關係數由大到小排序為RMB/USD、GBP/USD、WON/USD、EU
R /USD、JPY/USD、US Goldprice、TAIWAN INTERBANK RATE、Crude oil
price、Federal Funds Rate,表2變數欄位顯示All代表採納所有上述的變數,
‧
‧
國立 政 治 大 學
‧
Na tiona
l Ch engchi University 表2: 1日匯率預測
模型 變數 超參數 mse
ADL All [1, 2, 2, 2, 2, 2,...] 0.01889
FNN 3var1lag [500epoch,120bs,Normal,Adamax,100neuron] 0.00813 RNN(SAE-LSTM) 6var1lag [1000epoch ,180bz , Nadam ,50neuron] 0.01134
Random-Walk twd/usd lag=1 0.01197
路模型預測結果皆與實際匯率相似而 ADL 模型會有過度預期的情況產生, 表 2 的結果為本文三種模型與隨機漫步模型的短期 1 日預測表現, 短期預 測結果以兩層隱藏層的 FNN 表現最卓越, 且兩種不同結構的類神經網路模 型 (FNN、RNN) 預測結果皆優於隨機漫步模型。 代表著,類神經網路模型能 夠有效萃取外匯金融市場的信息。 較值得注意的是經過不同變數與滯後期數 實驗後, 變數的滯後期 (Lag) 都只取一期當作解釋變數使用, 顯示出神經網 路模型在短期預測的結果上對於過去的訊息影響不大,對於下一期的預測影 響力隨機性的噪音干擾佔了很大的比例。
‧
FNN 6var1lag [500epoch,120bs,Lecun uniform,adamax,500neuron] 0.06814 RNN(SAE-LSTM) 6var3lag [1500epoch,250bz,Adam,80neuorn] 0.02467
Random-Walk twd/usd lag=7 0.03286
圖 13 為三種模型的預測結果與實際匯率價格的示意圖, 紅色為實際我
‧
國立 政 治 大 學
‧
Na tiona
l Ch engchi University 圖13: 對美元匯率7 日預測
4.3 30
日匯率預測結果圖 14 為三種模型的預測結果與實際匯率價格的示意圖, 紅色為實際我國匯 率價格, 灰色為ADL模型預測結果, 綠色為類神經網路模型預測結果,最後 深藍色為堆疊式循環神經網路模型預測結果。 圖中結果顯示, 堆疊式循環神 經網路模型的預測結果相較於其他兩種模型, 其估計結果較為平滑, 且趨勢 與我國匯率價格最為相似, ADL模型則有預測相反趨勢的情況產生,而傳統 的神經網路模型則是缺乏資訊傳遞的功能, 無法有效回顧將2013 年至 2014 年的低價格匯率歷史資訊, 導致2017 年後匯率下跌時預測的誤差極大,表4
表4: 30日匯率預測
模型 變數 超參數 mse
ADL 6var [0, 0, 0, 0, 0, 0, 0] 0.10154
FNN 3var10lag [2000epoch,120bs,normal,Adamax,1000neuron] 0.07152 RNN(SAE-LSTM) 3var10lag [3000epoch,160bz,Adamax,50neuorn] 0.05326
Random-Walk twd/usd lag=30 0.07336
‧
國立 政 治 大 學
‧
Na tiona
l Ch engchi University 圖14: 對美元匯率30日預測
的結果為三種模型與隨機漫步模型的中長期 30 日預測表現, 中長期預測結
果以 5 層 Autoencoder 隱藏層加兩層長短期記憶網路層的的 RNN 表現最
卓越且優於隨機漫步模型,代表長短期記憶網路模型對於中長期匯率預測表 現上, 能夠有效萃取與保存外匯金融市場的信息。 值得注意的是預測 30 日 表現的類神經模型, 滯後期在30 期預測上顯著的增加為10 天,隱藏層的神 經元數與訓練模型的次數 (Epoch) 也上升了, 顯示出隨著預測期間的增加, 能夠藉由處理更複雜的資訊量, 找出與匯率 30 天後的相關性並進一步優於 隨機漫步模型。
‧
的模型參數與結構,Stacked Autoencoder 藉由非監督式學習的方法轉換原 始的特徵來抓出外匯市場訊息中較重要的特徵,進而降低後續模型建構時誤‧
國立 政 治 大 學
‧
Na tiona
l Ch engchi University
對於金融或外匯市場這種帶有很多該擾雜訊的資料進行建模,在資料前置作 業中若加入更多降噪的函式像小波轉換 (Wavelet Transform) 等方式, 常被 用來降低信息中的雜訊, 進而使後續的 RNN、FNN 模型能夠有好的輸入資 料。 第三, 本文變數的選擇方式非常的耗費電腦效能與時間, 根據本文的觀 察文中的類神經網路模型並不能自行將不重要亦或者不需要的變數經由權 重訓練的方式漸近至零, 因此在實證結果的呈現上, 才會有選擇變數種類的 表格產生。 而藉由相關係數大小挑選模型變數的機制,我們認為不夠有效率, 未來的目標是希望以訓練模型的方式讓模型去訓練出適合且有效的變數。 第 四點一樣圍繞在變數的選擇上, 本文的變數選擇皆為數值型態資料。 其他如 類別型態的資料,投資人的情緒指標,或者文本資料,像是財經新聞等等皆有 論文指出對於匯率的預測有不錯的預測能力, 綜觀以上幾點, 納入眾多不同 性質的資料並且篩選出具備顯著解釋能力的輸入特徵將會是本文後續努力 改進的目標。
‧
國立 政 治 大 學
‧
Na tiona
l Ch engchi University
參考文獻
[1] Adya, M., and Collopy, F. (1998). “How effective are neural networks at forecasting and prediction ? A review and evaluation”. Journal of forecasting J. Forecast., 17, 481–495.
[2] Bao, W., Yue, J., and Rao, Y. (2017). “A deep learning framework for financial time series using stacked autoencoders and long-short term-memory”, PLOS ONE, 12(7).
[3] Bengio, Y., Simard, P., and Frasconi, P. (1994). “Learning long-term dependencies with gradient descent is difficult”, Neural Networks, 5(2),157-166
[4] Caire, P., Hatabian, G. and Muller, C. (1992). “Progress in forecast-ing by neural networks”. Neural Networks, 2, 540-545.
[5] Connor, J., Martin, R., and Atlas, L. (1994). “Recurrent neural net-works and robust time series prediction” . Neural Netnet-works, 5(2), 240–254.
[6] Contribution, O. (1989). “On the approximate realization of contin-uous mappings by neural networks”. Neural Networks, 2, 183–192.
‧
[7] Cybenko, G. (1989). “Approximation by superpositions of a sigmoidal function”. Mathematics of Control, Signals, and Systems, 2, 303–314.
[8] Enders, W. (2014). Applied econometric time series, 4th Edition. New York, United States : Wiley.
[9] Granger, C.W.J., and A.P. Andersen. (1978). An introduction to bi-linear time series models (Vandenhoeck and Ruprecht, GSttingen).
[10] Graves, A. (2012). Supervised sequence labeling with recurrent neural networks. Berlin, Germany : Springer.
[11] Hornik, K. (1991). “Approximation capabilities of muitilayer feedfor-ward networks”. Neural Networks, 4(2), 251–257.
[12] Hornik, K. (1993). “Some new results on neural network approxima-tion”. Neural Networks, 6(8), 1069-1072.
[13] Hornik, K. Stinchcombe, M., and White, H. (1989). “Multilayer feed-forward networks are universal approximators”. Neural Networks, 2(5), 359–366.
[14] Kim, T. Y., Oh, K. J., Kim, C., and Do, J. D. (2004). “Artificial neu-ral networks for non-stationary time series”. Neurocomputing, 61(1–
4), 439-447.
‧
[15] Kingma, D. P., and Ba, J. L. (2015). “Adam A method for stochastic optimization”. ICLR, 1-15.
[16] Kuan, C. (2006). Artificial neural networks. IEAS Working Paper : academic research 06-A010, Institute of Economics, Academia Sinica, Taipei, Taiwan.
[17] Lipton, Z. C., Berkowitz, J., and Elkan, C. (2015). A crit-ical review of recurrent neural networks for sequence learning.
arXiv.1506.00019[cs.LG]
[18] Refenes A. N. , M. Azema-Barac, L. Chen, and S. A. Karoussos.
(1993). “Currency exchange rate prediction and neural network design Strategies”. Neural Comput Applic, 1(1), 46-58
[19] Tong, K., and Lim, K. S. (1980). “Threshold autoregression, limit cycles and cyclical data”. Royal Statistical Society, 42(3), 245-292.
[20] Vincent, P. (2010). Stacked denoising autoencoders : learning useful representations in a deep network with a local denoising criterion, Paper presented at the 27th International Conference on Machine Learning, 11, 3371–3408.
[21] Weigend, A.S., Huberman, B.A. and Rumelhart, D.E., (1992).
Pre-‧
國立 政 治 大 學
‧
Na tiona
l Ch engchi University
M. Casdagli and S. Eubank (Editors), Nonlinear Modelling and Fore-casting, SFI Studies in the Sciences of Complexity, Proc. Vol. XII.
Addison-Wesley, Redwood City, pp. 395-432.
[22] Zhang, G., Patuwo, E. B., Hu, M. Y. (1998). “Forecasting with arti-ficial neural networks : The state of the art”. International Journal of Forecasting, 14, 35–62.