以循環神經網路模型增進新台幣匯率的短期預測能力 - 政大學術集成
全文
(2) 摘要 以往針對匯率的預測, 傳統的計量方法會將資料本身的歷史資訊以線性估 計方式建模。 但隨著各國外匯交易往來頻繁, 影響我國外匯價格的因素日趨 複雜, 線性估計模型的預測誤差亦不斷擴大, 因此本文採用兩種不同的神經 網路模型來預測我國外匯價格, 參考 Bao et al.(2017) 所提出循環性類神經 網路模型, 藉由模型非線性估計的方法與自編碼器的降噪方法來達到更好的 預測效果。. 政 治 大 為進行有效的比較, 本文比較傳統的 Autoregressive Distributed Lag Model 立. ‧ 國. 學. 計量模型與兩種神經網路模型架構類神經網路模型 (Fully Connected Neu-. ‧. io. sit. y. Nat. ral Network) 與堆疊式自編碼器 (Stacked Autoencoder) 搭配循環神經網絡 n. er. (Recurrent Neural Network), a提供有系統的變數選擇 , 資料預先處理, 資料 iv l C n hengchi U 轉換, 模型建構, 參數調整優化與樣本外預測評估。 評估的方法採均方誤差. 來衡量模型樣本內與樣本外預測的優劣, 接著本文分別估計上述三種模型 1 日、7 日、30 日短中期的預測結果並將其與隨機漫步模型比較。 結果顯示神經網路模型於樣本外預測皆優於於隨機漫步模型。 另外自 編碼器搭配循環神經網路模型以其優異的訊息傳遞與資訊降噪能力, 更是在 7 日與 30 日的預測結果上遠優於其他模型。. 關鍵詞: 匯率預測、神經網路模型、樣本外預測. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(3) 目錄 1 緒論. 1. 2 台幣兌美元匯率 實證模型建構. 3. 2.1. Autoregressive distributed lag model . . . . . . . . . . . . . .. 4. 2.2. 類神經網路模型 . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.2.1. Fully Connected Feedforward Network 模型 . . . . . .. 7. 2.2.2. 政 .治 模型訓練與參數估計 . . . 大. . . . . . . . . . . . . . . 立. 9. Long Short-Term Memory Networks . . . . . . . . . . . . . . . 10. ‧ 國. 學. LSTM 神經元 . . . . . . . . . . . . . . . . . . . . . . . 12. 2.3.2. LSTM 模型 . . . . . . . . . . . . . . . . . . . . . . . . 14. ‧. 2.3.1. io. sit. y. Nat. n. al. 2.4. Stacked Autoencoders. er. 2.3. v ni U . .e.n g. c. h.i . . . . . . . . . . . . . . . . 16. Ch. 2.4.1. 單層 Autoencoder 模型 . . . . . . . . . . . . . . . . . . 17. 2.4.2. 多層 Autoencoder 模型 . . . . . . . . . . . . . . . . . . 18. 3 實證方法. 19. 3.1. 資料說明 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19. 3.2. 研究方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20. 4 實證結果 4.1. 23. 1 日匯率預測結果 . . . . . . . . . . . . . . . . . . . . . . . . 24. I. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(4) 4.2. 7 日匯率預測結果 . . . . . . . . . . . . . . . . . . . . . . . . 26. 4.3. 30 日匯率預測結果. . . . . . . . . . . . . . . . . . . . . . . . 27. 5 結論. 29. 圖目錄 1. 實證模型分析流程圖 . . . . . . . . . . . . . . . . . . . . . . .. 4. 2. Fully-connected neural network . . . . . . . . . . . . . . . . .. 7. 3. Deep neural network . . 政 . . .治 . . . . . . . . . . . . . . . . . .. 7. 4. FNN 實證流程圖 . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 5. 循環式類神經網路 . . . . . . . . . . . . . . . . . . . . . . . . 11. 6. LSTM 神經元結構 . . . . . . . . . . . . . . . . . . . . . . . . 13. 大. 立. ‧. ‧ 國. 學. er. io. sit. y. Nat. al. 8. LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16. 9. 單層Auto encoder 結構 . . . . . . . . . . . . . . . . . . . . . . 18. 10. Stacked Auto encoder 結構 . . . . . . . . . . . . . . . . . . . . 19. 11. 個變數對台幣匯率相關係數圖 . . . . . . . . . . . . . . . . . . 22. 12. 對美元匯率 1 日預測 . . . . . . . . . . . . . . . . . . . . . . . 25. 13. 對美元匯率 7 日預測 . . . . . . . . . . . . . . . . . . . . . . . 27. 14. 對美元匯率 30 日預測 . . . . . . . . . . . . . . . . . . . . . . 28. n. 7. v ni C U h LSTM 神經元連結方式 . .e.n g. c. h.i . . . . . . . . . . . . . . . . 15. II. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(5) 表目錄 1. 解釋變數之單根檢定 . . . . . . . . . . . . . . . . . . . . . . .. 2. 1 日匯率預測 . . . . . . . . . . . . . . . . . . . . . . . . . . . 25. 3. 7 日匯率預測 . . . . . . . . . . . . . . . . . . . . . . . . . . . 26. 4. 30 日匯率預測 . . . . . . . . . . . . . . . . . . . . . . . . . . . 27. 立. 6. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. n engchi U. iv. III. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(6) 1 緒論 隨著近幾年來電腦運算能力的提升, 類神經網路模型 (Fully Connected Neural Network) 以各式不同的架構應用於廣泛領域, 例如卷積類神經網路 (Convolutional Neural Networks, CNN) 促使影像辨識的辨識率大幅提升。 循環性. 類神經網路 (Recurrent Neural Network, RNN) 亦促使語言翻譯與聲音辨識 領域的進步, 各式的文獻與研究機構都相應指出, 類神經網路模型能有效的 找出輸入資料與目標結果(圖片種類或者金融商品價格等) 之間的關聯。 政 治 大 而將此類神經網路模型改良後運用於金融領域亦逐漸受到投資者與研 立. ‧ 國. 學. 究人員的關注, 外匯市場如何預測通常被認為是時間序列預測中困難度極高. ‧. sit. y. Nat. 的問題之一, 原因在於匯率常受到多重因素影響, 例如非市場機制、相對國 al. er. io. 力、區域競爭國效應、央行的作風、政治因素及黑天鵝事件, 建構匯率預測的 n. v ni U engchi 模型大致上分為兩種, 第一種為依據理論建立的總體模型 , Ch. 但要考慮上述諸. 多因素並套入理論後在建構模型的執行上難度極高。 因此本文採取第二種方 法, 計量模型, 將歷史數據本身隱含的訊息以一組聯立方程式表示, 再藉由統 計的估計方法對方程組的參數進行估計。 計量模型與總體模型的差別在於其 有相對較少的理論假設, 它以直接轉換處理數據的方式, 找出歷史序列資料 之間的關聯性, 即使有時難以解釋其背後複雜的原因。 本文使用了三種計量模型, 第一類為滯後變數模型 (Autoregressive Distributed Lag Model, ADL), 用以代表線性估計的計量模型, 第二類為類神. 經網路模型與循環性類神經網路模型, 用以代表非線性估計模型, 而文後實. 1. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(7) 證結果亦顯示非線性模型較能成功地捕捉外匯市場的複雜特性。Caire et al. (1992) 提出傳統類神經網路模型在短期一期預測效果很難與自回歸移動平. 均模型 (Autoregressive Integrated Moving Average Model, ARIMA) 相較 但只要預測期間延長, 類神經網路模型的預測會更加準確, 此項結果應證於 本文第 4 節, 另外 Refenes (1993) 在預測極短期匯率(小時為單位) 也提出 傳統類神經網路模型優於自回歸移動平均模型與指數平滑法 (Exponential Smoothing, ES)。. 儘管上述許多文獻指出類神經網路模型具備優秀的性能, 但非線性計 政 治 大 量模型種類眾多, 在眾多非線計量模型中之所以會挑選類神經網路作為選擇 立. ‧ 國. 學. 而不是 Bilinear Model(Granger & Anderson, 1978) 或 Threshold Autore-. ‧. er. io. sit. y. Nat. gressive (TAR) Model (Tong and Lim, 1980) 的原因除了上述提及類神經 n. 網路結合機器學習於各領域有爆炸性的發展之外。 al i v 其二還具備優秀的數據特 Ch. n engchi U. 徵篩選能力, 即使樣本數據包含噪音訊息, 類神經網路模型也可以正確地推 斷出我們難以察覺的部分。 第三類神經網路模型具備 Universal Functional Approximators 的性質, 意思是模型能夠藉由不同的參數來漸近所有可能的. 連續型函數, 許多文獻驗證此模型特性 (Hornik et al,1989; Cybenko,1989; Hornik,1991,1993), 上述多重優點的具備及說明了為何我們會挑類神經網路. 模型而非其它非線性計量模型的原因, 例如 TAR 模型在必須先定義非線性 模型的結構, 而神經網路是藉由資料的特徵不斷調整更新模型的方法。 在不 預設任何情況下, 神經網路模型給予了估計匯率模型更大的彈性, 同時亦表 著資料的數量與品質將影響整個模型的預測效能, 評量模型效能的標準主要 2. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(8) 以低於隨機漫步模型的誤差作為本文衡量基準。 另外, 除了建構傳統的類神 經網路模型, 本文亦參考了 Bao et al.(2017) 所提出循環性類神經網路模型 搭配堆疊自動編碼器的架構, 分別強化了模型對於外匯市場噪音干擾的抵抗 能力與外匯市場長期事件影響的衝擊延續效果, 本文將延續 Bao et al.(2017) 模型的建構方式, 建構我國台幣兌美元匯率 1 日、 7 日、30 日的預測模型, 並與 上述 ADL 模型跟類神經網路模型、隨機漫步模型做比較, 探討各模型在不同 時間間隔之間的預測能力與各模型所適合的參數設定。. 政 治 大 2 台幣兌美元匯率 實證模型建構. 立. ‧ 國. 學. 針對新台幣匯率, 本文所使用之實證模型有四種。 首先為 Autoregressive. ‧ er. io. sit. y. Nat. Distributed Lag Model(ADL) 模型, 由於本文探討各類經濟變數對匯率的影 n. al v 響, 經濟事件的出現會依據影響程度大小而存在著反應時間與持續時間 ,有 ni Ch. engchi U. 些經濟變數除了受到當下其他因素影響之外, 亦會同時受到過去各種因素所 影響。ADL 模型可視為 ARIMA 的延伸, 為假設其他變數皆為外生的假設 下所建構出的模型。 第二種為類神經網絡模型, 由於外匯市場被許多經濟因 素、環境因素與政治因素所影響, 單以線性的方式去建構匯率模型可能造成 預測上的誤差, 因此本文選擇了神經網路模型來強化模型的非線性估計的能 力。 在非線性計量模型比較上,Weigend et al.(1992) 指出在預測太陽黑子活 動上, 類神經網絡模型預測效果優於 TAR 與 Bilinear Models 。 此外, 本文 亦改進了類神經網絡模型基本的架構, 將序列資料間彼此的關聯性納入模型 中, 該模型為循環性類神經網路 (Rucurrent Neural Network)。 最後第四種模 3. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(9) 圖 1: 實證模型分析流程圖. 型使用傳統的隨機漫步模型 (Random Walk) 來作為評估上述三種模型預測 的基準。 圖 1 為本文實證分析的流程, 首先過濾無法分析的資料, 刪除過多 遺失值的變數, 第二步將變數依據模型的需要做初步的處理, 第三步將資料 政 治 大 立 以八比二的比例分割為訓練集以及測試集 , 第四步以訓練集的資料建構實證. ‧ 國. 學 er. io. al. v ni U hi n g cmodel distributedelag n. 2.1 Autoregressive. sit. Nat. 參數及超參數, 直到預測誤差降到最低為止。. y. ‧. 模型, 第五步將訓練完畢的模型以測試資料評估, 最後藉由不斷地調整模型. Ch. 首先要介紹的第一個模型為 Autoregressive Distributed Lag Model, 與 常用自我相關的迴歸模型最大的不同在於, 該模型的解釋變數俱備自我迴歸 模型所擁有的前幾期被解釋變數外, 也同時納入其他總體變數來當作解釋變 數。 但 ADL 模型的基本假設為 Zt 為外生變數, 亦即 yt 並不會影響到未來 的 Zt+1 ,Zt+2 ,Zt+3 ...., 因此本文選擇 ADL 模型是認為總體經濟變數並不會 因台幣匯率的波動而造成顯著影響。 而本文所選定的總體經濟變數如: 各國 匯率、聯邦利率、油價等變動皆可能顯著影響台幣的匯率。 在台幣匯率的波動 幾乎無法影響這些總體經濟變數的情況下, 本文將這些經濟變數設定為建構 4. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(10) 台幣匯率模型具有顯著解釋力的外生變數。 精確的 ADL 模型定義如下: yt = α + A(L)yt−1 + B(L)Zt + εt ,. 其中, 被解釋變數 yt 為台幣匯率於第 t 期的匯率, 解釋變數 yt−1 為台幣匯 率於第 t − 1 期的匯率, 解釋變數 Zt 為其他總體變量第 t 期的值, 誤差項 εt 為期望值為零變異數為常數項且序列不相關的白噪音 (white noise), 其中 A(L) = ω0 + ω1 L + ω2 L2 + ...ωn Ln 、B(L) = β0 + β1 L + β2 L2 + ...βp Lp ,A(L) 為我國匯率變數滯後 n 期的簡化式,B(L) 為總體變量滯後 p 期的簡. 政 治 大 化式。 本文共採用 9 種總體變數, 為了符合 ADL 模型的變數定態假設, 本文 立. ‧ 國. 學. 使用 Argument Dickey-Fuller Test 與 Phillips-Perron Test 檢查每項變數是. ‧. sit. y. Nat. 否符合定態假設。 其中, 只有韓寰符合定態假設, 因此本文將不符合定態假 er. io. 設的其他解釋變數進行一階差分至定態後再納入建構模型解釋變數中 ,表1 a n. iv l C hengchi Un Argument Dickey-Fuller Test 檢定結果,. 為差分後各變數的. 結果顯示各個變. 數差分過後已呈現定態, 適合作為建構模型的解釋變數。 最後我們將定態解 釋變數分別以不同的延遲期數帶入模型, 選擇延遲期數的方式為採 generalto-specific 方法, 首先建構一個包含全部變數延後期數的方程式:. ∆yt = a0 +. n X. ai ∆yt−i +. i=1. p X. cj ∆zt−i + εt ,. j=1. 並逐一簡化模型的滯後項, 並以 Bayesian Information Criterion (BIC) 來決 定預測模型的各個變數的滯後期選擇。. 5. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(11) 表 1: 解釋變數之單根檢定. 變數. t-Statistic. P值. 變數. −13.98 0 EUR/USD −77.29 0 GBP/USD −10.58 0 RMB/USD −3.61 0.005 US Goldprice −11.41 0 Taiwan Interbank Rate. TWD/USD JPY/USD Crude oil price WON/USD Federal Funds Rate. t-Statistic. P值. −77.67 −25.13 −9.77 −15.31 −21.39. 0 0 0 0 0. 2.2 類神經網路模型 本篇論文採用一般類神經網路模型與長短期記憶網路模型 (Long Short-. 政 治 大此節, 我們將先初步介紹類神 Term Memory, LSTM) 當作預測匯率的模型。. ‧. ‧ 國. 學. 立 經網路模型的形式與參數估計方法。 本文中主要是採取監督式學習 (Super-. vised Learning) 的方法, 將資料分成兩個部分, 一部分為資料的特徵向量, 代 sit. y. Nat. al. er. io. 表模型在預測目標值所需要的歷史資訊, 特徵向量的變數會從相關參考文獻 n. v ni U e n g c代表模型透過資料分析而想要得到 中選取, 另一部分為資料的標籤 (Label), hi Ch. 的對應數值。 換言之, 就是將資料的特徵向量以非線性函數估計, 並將此估 計向量與標籤代入目標函數 (Objective Function) , 用來衡量估計值與標籤 值的相似程度, 相似程度越高目標函數數值愈小, 最後經由不斷的修正模型 參數來將低目標函數的數值, 最後訓練出能具備樣本外預測能力的模型。 圖 2 為簡化版類神經網路模型 (Fully Connected Neural Network), 模型的 結構分為輸入層、隱藏層、輸出層, 圓形的部分則代表單個神經元。 每個神經 元內均有非線性轉換函數, 連接各於個神經元之間且帶有箭頭的線段為神經 元間連接的權重, 而特徵向量流動的方向如箭頭所示. 6. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(12) 圖 2: Fully-connected neural network. 2.2.1 Fully Connected Feedforward Network 模型. ‧ 國. 學. 政 治 大 立 圖 3 為整個模型運算的整體結構, Xt 為輸入資料, 通常為一個 n × 1 的 ‧. 矩陣,t 在本論文中可視為時間序列資料第 t 期所包含的總體變數, 如他國匯 y. Nat. sit. n. al. er. io. 率、利率、油價、金價等共 n 種, 而 a2,m 為位於第二層隱藏層中的第 m 個神 Ch. n engchi U. iv. 圖 3: Deep neural network. 7. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(13) 經元,。 模型經由上述多層的非線性轉換後, 會傳出輸出層, 輸出層可以為一 數值或者一條向量, 輸出層的模式端看問題而定。 假設問題為辨識股價漲跌 的機率, 輸出層將分別輸出上漲與下跌的機率, 藉由比較機率大小來判定股 價漲跌的方向。 而本篇論文的目標為預測台幣匯率的價格, 輸出層將如圖 3 輸出單一數值。 Z1 = W01 × X0 + B1,. (1). A1 = F (Z1 ),. (2). (1) 式、(2) 式說明類神經網路模型在單層之間的運算方式 ,W01 為隱藏層 0 政 治. ‧. ‧ 國. 學. 大 立 層到 1 層之間的權重參數, 以此類推模型可以視情況增加隱藏層數。. (3). er. io. sit. y. Nat. Zi = Wi,i−1 × Xi−1 + Bi, n. a l Ai = F (Zi ), i v n Ch engchi U. (4). (3)、(4) 兩式說明第 i − 1 層的輸出矩陣 (Xi−1 ) 會與權重矩陣 (Wi,i−1 ) 相. 乘後再加上第 i 層的常數向量 (Bi ) 後, 再代入激活函數 (RELU) 中, 即為第 i 層的輸出矩陣 (Xi )。 本文將模型結構設計為, 每一個 label 值 (實際台幣兌. 美元匯率) 對應到前 n 天的資訊量,n 值大小得設定會在第四章節進行說明。 另外文中選擇了與台幣匯率相關係數大於 0.15 的總體變數共 9 種, 總體變 數類別將會在下一章提供詳細說明, 因此每一個時間點我們會以 100 筆資料 來估計目標 label, 資料時間點為 1994/8/31 至 2018/1/24 總計共 6000 多筆 資料, 模型簡化圖圖 4 如下, 假設將大小為 10*5 的資料切成 5 筆的 5*5 資 料, 在第一期本文選用紅色方框當作訓練特徵集, xi,j 變數 j 於第 i 期的數 8. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(14) 圖 4: FNN 實證流程圖. 政 治 大 值, 第一期紅色方框的數值決定後會將其轉成一維向量形式 , 並配合第二期 立. ‧ 國. 學. 的匯率數值來當作訓練模型。. ‧. Nat. er. io. sit. y. 2.2.2 模型訓練與參數估計. al. n. iv. n C h, 因為估計參數較少 傳統的方法如線性迴歸模型等 , 可以用最小平方法 engchi U. 或最大概似估計法來估計最適參數。 但當面臨到估計類神經網絡模型時, 上 萬甚至上億個參數在估計上就沒有那麼容易了, 因此我們使用了梯度下降法 (Gradient Descent) 來估計參數以達到模型的最適。 為了估計這些參數, 我們. 必須設定一個目標函數, 而這些參數的集合代入後會形成目標函數的空間, 因此類神經網路模型的訓練可視為探索此目標函數空間中最適的參數配置。 本文中將此目標函式 J 訂為 MSE(Mean Squared Error): n. minizeJw,b. 1X (L) =− (yi − ai )2 , n i=1. 9. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(15) 目標函式中 a(L) 為隱藏層第 L 層 (輸出層) 所估計的值,yi 為實際的匯率 i 值。MSE 為目標函數確定後, 本論文選了目前較常用的幾個梯度下降演算法 來當作模型參數更新的方法, 分別為 Rmsprop、Adam、Admax、Nadam、Adagrad、Stochastic Gradient Descent、Adadelta, 演算法的相關文獻可參考 Kingma and Ba (2015), 另外以 Geoffrey Hinton 提出的反向傳播法 (backpropagation) 來修正參數, 詳細的神經網路參數估計的流程分為五個步驟:. 步驟一: 隨機生成一組權重 W 與 b。 步驟二: 以上述提及前饋神經網路 (Feedforward propagation) 之運算方式計 政 治 大 立 算出估計值。. ‧ 國. 學. 步驟三: 估計值會與標籤值差很多, 使用反向傳播法運算出每一個權重的偏. ‧ er. io. sit. y. Nat. 微分值。. n. a l (Admax、Nadam 步驟四: 依選定的參數更新方式 i v 、Adagrad、Adam、rmsprop Ch. 等) 來更新權重。. n engchi U. 步驟五: 更新完畢之後回到步驟二重新迭代, 直到目標函數的收斂不再下降 為止, 本篇論文會依不同的模型設定迭代的次數, 迭代數量取決於訓練集與 測試集的錯誤率是否收斂。. 2.3 Long Short-Term Memory Networks 2.2.2小節介紹的全連結類神經網路的使用方式雖然能夠解決非線性的部. 分, 但由於我們的輸入解釋變數 (Input Features) 與被解釋變數 (Label) 只有 前後兩期關係, 故輸入的解釋變數之間並沒有關聯, 模型的輸入訊息量只有. 10. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(16) 圖 5: 循環式類神經網路. 當期所涵蓋的解釋變數。 遺憾的是, 匯率或者股價等時間序列資料的應用上, 政 治 大 需要的是能夠更好處理序列信息的模型 , 例如: 政策執行或者無預期的事件, 立. ‧ 國. 學. 事件的影響可能是短期的劇烈波動, 亦有可能過一段時間才會產生影響, 影. ‧. sit. y. Nat. 響的持續程度也不盡相同, 為了能處理序列上的問題, 就需要改變神經網路 n. er. io. 的結構, 將彼此序列之間串連起來一同訓練 , 稱為循環神經網絡 (Recurrent a v i l C hengchi Un. Neural Network), 而循環神經網路視為類神經網路的一種變形, 由下方圖例. 可說明, 在每個時間點模型運算後的輸出值會以另外的隱藏狀態傳入下一筆 數據, 藉此增加每個時間點間彼此的關連性,RNN 定義式如圖 5。 xt 為第 t 期的訓練資料特徵向量, ht−1 為前一期的隱藏狀態, 兩者會分. 別進行線性轉換後再帶入激活函數 (通常使用 Sigmoid 或 RELU), 得出的結 果 ht 會分別傳遞為下一期的隱藏狀態與輸出值。 t ht = f (Wh,x xt + Wh,h ht−1 ),. (5). t 為隱藏層的權重參數,W t 為輸出層的權重參數,y = f (W t h )為輸 而Wh,x t v,h v,h t. 11. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(17) 出值。 t ht ), yt = f (Wv,h. (6). 不幸地, 實際上基礎的 RNN 模型沒有辦法很好的處理較長的序列, 其中 主要的原因為 RNN 在訓練的過程中很容易發生梯度消失與梯度爆炸, 梯度 的影響可視為, 前 n 層隱藏層的資訊變動所造成當前輸出層的變動量, 這導 致訓練時梯度不能有效地傳遞, 更導致 RNN 無法接收到較長距離的資訊, 詳細資訊可參考 Bengio et al. (1994) 。 2.3.1 LSTM 神經元. 立. 政 治 大. ‧ 國. 學. 為了解決上述資料梯度傳遞過程的不穩定問題, 本文使用了長短期記憶. ‧. 網路模型(Long Short-Term Memory, LSTM) 模型來預測台幣匯率, LSTM sit. y. Nat. al. er. io. 近幾年來廣泛地運用在語音辨識, 文本分析, 圖像分析, 語言翻譯, 金融市場 n. v ni U engchi 預測等領域, 由於模型能有效的解決梯度的問題 , Ch. 在具有序列性質的資料上. 選擇 LSTM 模型來分析已經逐漸成為未來的趨勢,LSTM 提供了直覺上的資 訊保存, 與 RNN 比較,RNN 的隱藏層只有一個狀態 h,h 狀態共享著當期以 及前面所有的資訊, 因此他將被短期的輸入有非常敏感的表現。 因此 LSTM 模型增加了一個新的狀態 C 來專門保存長期的資訊, 示意圖圖 6 如下。 LSTM 神經元的特色為他有三個類似閘門的開關, 主要用來控制與分配. 信息的比重, 開關為 Sigmoid Function, 數值介於 0、1 之間, 藉由三個如同閘 門的函數來確保信息的傳遞不會隨著距離而消失。 基本 LSTM 數學式:. 12. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(18) 圖立 6:. 政 治 大 LSTM 神經元結構. ‧ 國. 學. 激活函數 (Activation Function): LSTM 神經元中共使用兩種不同的激活函. ‧ sit. n. al. er. io. 負方向資訊與資訊強度。. y. Nat. 數, Sigmoid 的主要功能上述已有提到, 而 Tanh 的功能為接收輸入特徵的正 Ch. n engchi U. Sigmoid =. iv. 1 , 1 + e−x. (7). ex − e−x , T anh = x e + e−x. (8). 遺忘門 (forget gate) : 決定了前一期所輸出的狀態變數 Ct−1 , 有多少保留 到當期神經元中。 . h. i. . ft = σ wf • ht−1 xt + bf ,. (9). 輸出門 (input gate) : 決定當前輸入變量有多少要保留到當期神經元中 . h. i. . it = σ wi • ht−1 xt + bi ,. (10). 13. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(19) 單元狀態 C˜ : . h. . i. cet = tanh wc • ht−1 xt + bc ,. (11). ct = ft ◦ ct−1 + it ◦ cet ,. (12). 輸出單元狀態 :. 輸入門 (output gate) : 決定當前輸出變量有多少要延續至下一期的神經元 中: . h. i. . ot = σ wo • ht−1 xt + bo , LSTM 輸出值:. 立. 政 治 大. 學. ht = ot tanh (ct ) ,. (14). ‧. ‧ 國. (13). sit. y. Nat. 因此, 每個 LSTM 的神經元的輸入資料有三大類,Xt 為當期解釋變數,ht −1 er. io. 為前期的 LSTM 輸出值,Ct−1 a為前期的輸出狀態。 遺忘們、輸入門、輸出門分 n. iv l C hengchi Un Wf 、Wi 、Wo 、bf 、bi 、bo 來建置。 建置完成後,. 別由各自的權重. 上一期的輸出狀. 態與遺忘門相乘已得到這期所需要的前期資訊, 而這期輸入解釋變數經過激 活函數轉換後, 輸入門與其相乘得到此期神經元所需要的輸入資訊, 第 (12) 式將前期有用資訊與當期有用資訊加總後得到這期的資訊狀態, 亦即為下一 期的輸入狀態, 再來第 (14) 式將輸入狀態與輸出門相乘而得到當期 LSTM 的輸出值。 2.3.2 LSTM 模型 2.3.1小節僅介紹 LSTM 神經元的結構, 本小節將討論整體 LSTM 運作的. 模式, 圖 7設定 2 層 LSTM 隱藏層搭配 1 層線性回歸輸出層為整體模型的架 14. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(20) 圖 7: LSTM 神經元連結方式. 構, 第一層隱藏層內神經元數目為 r 個, 第二層隱藏層神經元數目為 t 個, 輸 政 治 大 出層的神經元數目為 y 個, 以上 立 LSTM 架構採用堆疊式自動編碼器搭配長. ‧ 國. 學. 短期記憶網路模型組成, 堆疊式自動編碼器 (Stacked Autoencoder) 下節將. ‧. io. sit. y. Nat. 提供詳細說明, 再經由測試模型預測的錯誤率所挑選出來的超參數結構, 由 n. er. 圖 8 可看出, 輸入資料的流動方向會同時往右 (下一個時間點 ) 與往上(下一 al iv Ch. n engchi U. 層隱藏層) 移動, 此特殊的結構若運用一般的反向傳播法會產生問題, 問題 在於反向傳播的方向必須同方向, 因此在訓練模型參數上,LSTM 的反向傳 播法分為時間方向往後傳遞, 與隱藏層往下一層傳遞兩種, 此法稱為 Backpropagation Through Time 詳細請參考 Graves (2012) 的以循環性神經網路. 進行標籤的監督式學習方法。. 15. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(21) 政 治 大. 立 圖 8:. LSTM. ‧. ‧ 國. 學. 2.4 Stacked Autoencoders. sit. y. Nat. n. er. io. 從前幾節介紹中, 類神經網路模型在結構的架構上有許多的變形與進化 , a iv l C hengchi Un. 從最基本的前饋類神經網路 (FNN) 能夠以非線性的估計方式估計匯率, 到 循環類神經網路 (RNN) 的長短期網路架構 (LSTM) 能夠保存多期的資訊的 能力, 都解釋了如何控制與轉換資料的訊息量是非常的重要的, 近期類神經 網路的架構不斷在更新與演進, 包含 Deep Boltzmann Machines (DBMs),Deep Belief Networks (DBNs),Autoencoder (AE),Stacked Autoencoders (SAEs),Restricted Boltzman Machines (RBMs),Convolutional Neural Networks (CNNs),. 等模型, 而本文參考 Bao et al. (2017) 使用的 Stacked Autoencoders (SAEs) 模型架構結合循環類神經網路模型來進行匯率的預測,SAEs 模型由 Autoencoder 模型所疊加而成,Autoencoder 透過輸入變數與輸出變數為同一組數值. 16. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(22) 來進行訓練, 意義在於用更少的神經元來生成原本的輸入值, 輸出值能有效 的模擬輸入值代表著 Autoencoder 模型能夠有效地保存最有用的資訊而達 到降低誤差干擾的效果。 2.4.1 單層 Autoencoder 模型. 單層的 Autoencoder 模型為三層的類神經網路, 如圖 9, 第一層與第三層 為輸出層與重組層, 兩層具備相同的神經元數量, 第二層稱為隱藏層,Autoencoder 的隱藏層會取少於輸出層的神經元個數來達到降噪的效果, 本文對於隱藏層. ‧. ‧ 國. 學. 的設定取原輸出層神經元個數的一半當做隱藏層的神經元數量 , 以下為模型 政 治 大 立 的定義式: A(x) = f (W1 ∗ x + b1 ),. sit. y. Nat. n. al. er. io. x∗ = f (W2 ∗ A(x) + b2 ),. x 與 x∗. (15). Ch. engchi U. v ni. (16). 為輸入向量與輸出向量,W1 ,W2 為隱藏層的權重與重構層的權重,b1 ,b2. 為隱藏層的截距項與重構層的截距項, 模型的運作方式與前節類神經網路模 型相同,f 的部分本文採用 Rectified Linear Unit (ReLU) 來作為激活函數 (Activation Function), 而目標函數在此不同於前節類神經網路的目標函式. 定義,SAEs 定義是如下: argminW1 ,W2 ,b1 ,b2 R = argmin((1/2) ∗. m X. kxi − x∗i k + Jwd + Jsp ),. (17). i=1. R 為單層 AE 所衡量的誤差,xi 與 x∗i 為第 i 個輸入向量與重組向量,m. 為訓練資料的總訓練天數,Jsp 為模型權重的懲罰項, 目的在於避免模型產生. 17. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(23) 治 政 encoder 圖 9: 單層Auto 大結構 立. ‧ 國. 學. 過度配適 (Overfitting) 的情況,Jwd 為衡量輸入向量與輸出向量之間的 KL. ‧. sit. n. al. er. io. 的相似程度。. y. Nat. 散度 (Kullback–Leibler Divergence), 用意在於衡量輸入與輸出值之間分布 Ch. n e n g c h i2 U. iv. Jsp = (1/2) ∗ λ(kW1 k + kW2 k2 ), Jwd = β ∗. m X. KL(ρt || ρ∗t ),. (18) (19). t=1. 參數 λ 與 β 為目標函數的超參數, 用來控制目標函式衡量目標的分配權重, 例如: λ 訂的較高, 過大的權重會造成目標函數數值更顯著的上升, 因此模 型會偏好調整成較稀疏的權重。 2.4.2 多層 Autoencoder 模型. 模型由多個 AE 所組成, 下圖 10 為 5 層 SAEs 的結構, 此 5 層結構亦 為本文所使用的堆疊數量,SAEs 模型的參數訓練是漸進的, 首先先訓練一個. 18. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(24) 圖 10: Stacked 政Auto治encoder 結構. ‧. ‧ 國. 學. 大 立 AE, 訓練完成後將最後一層重組層去除, 將剩下的前兩層當成是訓練下一個 AE 模型的輸入層, 亦即的一個 AE 模型留下的前兩層訓練完後, 參數會固 sit. y. Nat. al. er. io. 定, 不會再被下一層疊上的 AE 模型所改變, 重複此動作不斷的疊加直到第 n. v ni U engchi 5 層為止, 在本文中堆疊至五層的原因是經由測試 3 Ch. 到 10 層過後, 第 5 層. 的效果最為卓越, 而輸入向量與重組向量的選擇也經由誤差測試來決定。. 3 實證方法 3.1 資料說明 本文所採用各國匯率資料來自 Datastream 資料庫, 所採用之樣本期間為 1994/08/31 到 2018/01/24 , 頻率為日資料, 共 6106 筆, 樣本採用各國貨幣. 兌美元的匯率, 所研究之貨幣包含, 台幣 (TWD) 、歐元 (EUR)、英鎊 (GBP)、 日圓 (JPY)、人民幣 (CNY)、韓寰 (KRW) 等 6 種已開發市場之貨幣兌美元 19. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(25) 匯率資料。 此外, 本文亦加入了油價、金價、台灣隔夜拆款利率、聯邦基金利 率 (Federal Fund Rate) 等日資料來探討新增加之變數是否會加強模型預測 精準度。 其中, 油價與利率來源取自於 Datastream 資料庫, 我們將杜拜原 油與布侖特原油以 7D3B 的比例計算台灣油價;金價資料取自世界黃金協會 (World Gold Council) 資料庫, 油價與金價皆以美元計價。 本篇論文將依上. 述 10 種原始資料, 以常用數據處理套件 (Sklearn) 中的標準化方式 ( Normalization , Minimax Scaler) 轉換數據成為輸入模型的資料。. 政 治 大. 3.2 研究方法. ‧. ‧ 國. 學. 立 此節將會說明本文執行匯率預測的方法與評估匯率預測的優劣。 首先我們會 將資料處理好的資料分成訓練集 (Training sets) 測試集 (Testing sets), 分割 sit. y. Nat. al. er. io. 的比例為 8:2, 訓練集資料取 1994/8/31 號至 2013/5/8 號約 4900 筆資料, 測 n. v ni U n g1200 c h i 比資料, 試集資料取 2013/5/8 至 2018/1/24e約 Ch. 所有模型的估計只會以. 訓練集的資料來建構。 其次我們將三個模型進行超參數 (Hyperpararmeter)、 變數、滯後期數的最適化調整。 超參數在前節有提到, 依目前類神經網路的發 展來說, 並未有一個完整的模型架構能適用於所有的問題。 本文因此希望能 藉由考慮各種可能的情況下, 以地毯搜索的方式去找尋最適合估計台幣匯率 的網路模型參數, 考慮的參數包括: 初始化方式 (Initialize Mode)、隱藏層數 目、每層神經元數目、模型總訓練次數、批次大小、學習速度 (Learning Rate)、 最適化方法 (Adam,Rmsprop,Sgd,Adamax...) 等等。 變數的選擇亦對模型的 估計效果影響卓著, 前節中有提到本文將數據依照不同的模型進行適合的處. 20. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(26) 理, 以 ADL 模型為例, 我們以差分後的變數資料當作建構模型的材料, 而究 竟要放多少變數才會達到最小的 BIC ? 本文應用的方法是將差分後所有資 料對台幣兌美元匯率計算相關係數, 並以圖 11 相關係數的大小作為變數是 否丟棄的先後順序, 先以 10 個變數建模, 再依丟棄的順序減少變數後再進行 建模, 最後統計出最適合的變數組合。 而另外, 兩個類神經網路模型 FNN 與 RNN 則會使用未經前置處理的資料計算相關性, 原因在於 Kim et al. (2004). 說明了類神經網路對於模型的估計並不受限於定態 (Stationary) 的假設, 而 變數丟棄的順序方法相同於 ADL 模型。 滯後期數的選擇方式為從 1 期到 10 政 治 大 期的滯後期數中, 由大到小依序測試每個情況下的估計結果 , 取表現最好的 立. ‧ 國. 學. 滯後期期數當作建模的前提。 由於本文發現最好的滯後期數、變數、參數會隨. ‧. er. io. sit. y. Nat. 著預測的天數不同而有所改變, 我們為有效的衡量匯率預測模型的優劣, 本 n. 文參考過去預測匯率相關論文a,ADL 模型採 Enders i v (2014) 建議的方法, 借著 l Ch. n engchi U. 殘差的變異與 AIC,BIC 來衡量模型,FNN 與 RNN 模型則選擇現有套裝軟 體使用且多數預測匯率文獻常常提到的 MSE 來衡量模型的優劣。 MSE 的 數學定義式如下: N 1 X (yt − yˆt )2 , M SE = N. (17). t=1. 其中 N 為總預測天數, t 為預測的時間點, yt 為時間點為t 時台幣兌美元的 實際值, yˆ 為時間點為 t 時台幣對美元的預測值, 兩者越接近越好, 因此 MSE 愈小愈好, 本文另外納入了隨機漫步模型 (Random Walk) 當作衡量的標準, 當外匯市場具備弱式有效性 (Weak Form Efficiency) 時, 外匯價格會服從隨 機漫步, 亦即認為外匯價格的未來走向與其歷史變化之間是相互獨立的, 依 21. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(27) 過去的資料訊息去建構模型對於預測外匯完全無效, 隨機漫步模型的定義式 如下: yt = yt−1 + t ,. (18). ∼ iid N (0, σ 2 ). (19). 如上式所述, 本文將當期的匯率值令為 1 天後、7 天後或 30 天後的的預測值, 依此類推建構出 1、 7、 30 天的隨機漫步預測模型。 依據隨機漫步模型計算出 的 MSE 結果當作 ADL、FNN、RNN 三個模型的衡量基準, 來探討模型能否 藉由歷史資料的價值來增進匯率模型的預測準確率。 政 治 大 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. n engchi U. iv. 圖 11: 個變數對台幣匯率相關係數圖. 22. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(28) 4 實證結果 本節中, 本文將使用 Autoregressive Distributed Lag Model、Fully Connected Neural Network、Stacked Autoencoder Recurrent Neural Network 與 Random Walk Model 對匯率進行預測, 並依據滯後期 1 日、 7 日、 30 日分別預測短期、. 中期、長期的匯率結果, 預測期間 2013 年 5 月 8 日至 2018 年 1 月 24 日。 本 文將實證結果呈現如下表 2 , 依序對四個模型做 Mean-Square Deviation 並 嘗試以不同的變數與超參數的選擇, 來調整各個模型至最佳的狀態。 首先變 治 大 、 GBP/USD、WON/USD、EU 數依前節相關係數由大到小排序為政 RMB/USD 立. ‧ 國. 學. R /USD、JPY/USD、US Goldprice、TAIWAN INTERBANK RATE、Crude oil. ‧. sit. y. Nat. price、 Federal Funds Rate, 表 2 變數欄位顯示 All 代表採納所有上述的變數, al. er. io. 若變數欄位顯示 6 var 1lag, 代表著選擇相關係數最高的前 6 個變數且每個 n. v ni U engchi 變數取前 1 期當作解釋變數, 依此類推 3 var 10 lag Ch. 代表取前 3 相關係數. 高的變數並取前 10 期當作解釋變數。 而超參數的設定隨著模型的不同而改 變,ADL 模型超參數 [1, 2, 2, 2, 2, 2...] 代表著除了對美元匯率本身取前一 期 x1,t−1 當解釋變數外, 其餘每個變數皆取滯後期兩期 xi,t−1 、 xi,t−2 當作 解釋變數來進行建模。FNN 模型與 RNN 模型的變數解釋方式與 ADL 模型 相同, 依據不同的超參數需求,FNN 模型第一格為初始化隨機權重時所使用 的生成模式, 舉表 2 為例 normal 表示以標準常態分配為母體, 隨機給予模 型權重使模型學習, 好的生成模式有助於減少最適化 (Optimized) 過程所需 要的時間。 第二格為模型每層所訓練或迭代修正的次數, 迭代次數太少會造. 23. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(29) 成參數估計的不精確, 而迭代次數太多除了會消耗運算資源外, 還可能造成 過度估計 (Over Fitting) 的結果, 導致樣本外預測失真, 因此適當的調整訓 練次數尤其重要。 第三格為訓練批次 (Batch Size), 訓練批次的定義為每次 進行誤差修正 (Backpropagation) 的數據量, 假設有 6000 筆資料, 以 300 為 訓練批次會使模型將資料分割為 20 等分, 並進行 20 次誤差修正, 修正完一 輪即稱為一個 Epoch, 已有許多文章討論過過大的 Batch Size 會導致降低 模型的準確性, 因為其減少了隨機性, 而過小的 Batch Size 會導致訓練過程 緩慢且不易收斂的特性, 因此本文經過詳細的測試後, 測試出最適合的訓練 政 治 大 批次做為超參數選擇之一。 第四格為最適化所使用的梯度修正方法 , 下述提 立. ‧ 國. 學. 供的方法皆由 Keras 套件提供, 適當的最適化選擇能夠有效地為目標函數找. ‧. er. io. sit. y. Nat. 出誤差極小的參數空間。 第五格為每層神經元數目, 足夠的神經元個數才能 n. 藉由非線性轉換來解釋複雜的外匯市場 , 另外模型的隱藏層數由於涉及整體 al iv Ch. n engchi U. 結構, 詳細的資訊會在下方各別提出。SAE RNN 模型由於有既定的初始化參 數, 三個不同期數的 RNN 初始化參數相同因此並未呈現於表中, 其餘皆與 FNN 相同。. 4.1. 1 日匯率預測結果. 圖 12 為三種模型的預測結果與實際匯率價格的示意圖, 紅色為實際我國匯 率價格, 灰色為 ADL 模型預測結果, 綠色為類神經網路模型預測結果, 最 後深藍色為堆疊式循環神經網路模型預測結果。 圖中結果顯示, 兩種神經網 24. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(30) 表 2: 1 日匯率預測. 模型. 變數. 超參數 mse. ADL All FNN 3var1lag RNN(SAE-LSTM) 6var1lag Random-Walk twd/usd. [1, 2, 2, 2, 2, 2,...] 0.01889 [500epoch,120bs,Normal,Adamax,100neuron] 0.00813 [1000epoch ,180bz , Nadam ,50neuron] 0.01134 lag=1 0.01197. 路模型預測結果皆與實際匯率相似而 ADL 模型會有過度預期的情況產生, 表 2 的結果為本文三種模型與隨機漫步模型的短期 1 日預測表現, 短期預 測結果以兩層隱藏層的 FNN 表現最卓越, 且兩種不同結構的類神經網路模. ‧. ‧ 國. 學. 政 治 大 代表著, 類神經網路模型能 型 (FNN、RNN) 預測結果皆優於隨機漫步模型。 立 夠有效萃取外匯金融市場的信息。 較值得注意的是經過不同變數與滯後期數 實驗後, 變數的滯後期 (Lag) 都只取一期當作解釋變數使用, 顯示出神經網 sit. y. Nat. n. al. er. io. 路模型在短期預測的結果上對於過去的訊息影響不大, 對於下一期的預測影 n engchi U 響力隨機性的噪音干擾佔了很大的比例。. Ch. iv. 圖 12: 對美元匯率 1 日預測. 25. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(31) 4.2. 7 日匯率預測結果 表 3: 7 日匯率預測. 模型. 變數. 超參數 mse. ADL 6var FNN 6var1lag RNN(SAE-LSTM) 6var3lag Random-Walk twd/usd. [0, 0, 0, 0, 0, 0, 0] 0.04825 [500epoch,120bs,Lecun uniform,adamax,500neuron] 0.06814 [1500epoch,250bz,Adam,80neuorn] 0.02467 lag=7 0.03286. 圖 13 為三種模型的預測結果與實際匯率價格的示意圖, 紅色為實際我. ‧ 國. 學. 國匯率價格, 灰色為 ADL 模型預測結果 , 政 治, 綠色為類神經網路模型預測結果 大 立 最後深藍色為堆疊式循環神經網路模型預測結果。 圖中結果顯示, 未經降噪. ‧. (SAE) 與資料訊息傳遞處理的傳統神經網路, 一旦預測期間延長, 預測效果 y. Nat. er. io. sit. 不佳。 表 3 的結果為三種模型與隨機漫步模型的中期 7 日預測表現, 中期預 a. n. v. l C ni 測結果以 5 層 Autoencoder 隱藏層加兩層長短期記憶網路層的的 RNN 表 he i U. ngch. 現最卓越且優於隨機漫步模型。 代表著, 長短期記憶網路模型能夠有效萃取 與保存外匯金融市場的信息。 較值得注意的是預測 7 日表現的類神經模型, 平均而言變數總體數量有增加, 滯後期也增加, 隱藏層的神經元數也上升了, 顯示出隨著預測期間的增加, 模型能夠藉由納入更多資訊, 以及更複雜的結 構來進一步優於隨機漫步模型。. 26. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(32) 圖 13: 對美元匯率 7 日預測. 立. ‧ 國. 30 日匯率預測結果. 學. 4.3. 政 治 大. ‧. 圖 14 為三種模型的預測結果與實際匯率價格的示意圖, 紅色為實際我國匯 sit. y. Nat. al. er. io. 率價格, 灰色為 ADL 模型預測結果, 綠色為類神經網路模型預測結果, 最後 n. v ni U 深藍色為堆疊式循環神經網路模型預測結果。 e n g c h i 圖中結果顯示, Ch. 堆疊式循環神. 經網路模型的預測結果相較於其他兩種模型, 其估計結果較為平滑, 且趨勢 與我國匯率價格最為相似, ADL 模型則有預測相反趨勢的情況產生, 而傳統 的神經網路模型則是缺乏資訊傳遞的功能, 無法有效回顧將 2013 年至 2014 年的低價格匯率歷史資訊, 導致 2017 年後匯率下跌時預測的誤差極大, 表 4 表 4: 30 日匯率預測. 模型. 變數. 超參數 mse. ADL 6var [0, 0, 0, 0, 0, 0, 0] 0.10154 FNN 3var10lag [2000epoch,120bs,normal,Adamax,1000neuron] 0.07152 RNN(SAE-LSTM) 3var10lag [3000epoch,160bz,Adamax,50neuorn] 0.05326 Random-Walk twd/usd lag=30 0.07336. 27. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(33) 圖 14: 對美元匯率 政 治30 日預測. ‧. ‧ 國. 學. 大 立 的結果為三種模型與隨機漫步模型的中長期 30 日預測表現, 中長期預測結 果以 5 層 Autoencoder 隱藏層加兩層長短期記憶網路層的的 RNN 表現最 sit. y. Nat. al. er. io. 卓越且優於隨機漫步模型, 代表長短期記憶網路模型對於中長期匯率預測表 n. v ni U engchi 現上, 能夠有效萃取與保存外匯金融市場的信息。 Ch. 值得注意的是預測 30 日. 表現的類神經模型, 滯後期在 30 期預測上顯著的增加為 10 天, 隱藏層的神 經元數與訓練模型的次數 (Epoch) 也上升了, 顯示出隨著預測期間的增加, 能夠藉由處理更複雜的資訊量, 找出與匯率 30 天後的相關性並進一步優於 隨機漫步模型。. 28. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(34) 5 結論 本文的研究為預測台幣兌美元匯率, 目標為探討深度學習框架下的類神經網 路模型與循環式類神經網路模型相較於隨機漫步模型與經典計量模型之間 的差異。 每個方法所建構的匯率模型的流程分為, 首先參考文獻並蒐集建構 匯率模型能使用的資料;其次對資料依模型需求進行前置處理並使資料的特 性符合模型所需;最後進行外匯模型建模, 嘗試不同的架構並記錄下最精確 的模型參數與結構,Stacked Autoencoder 藉由非監督式學習的方法轉換原 政 治 大, 進而降低後續模型建構時誤 始的特徵來抓出外匯市場訊息中較重要的特徵 立. ‧ 國. 學. 差的干擾。 而 RNN 中的長短期記憶網路 (LSTM) 則能夠藉由不同的閾值. ‧. sit. y. Nat. (Gate) 保存資訊使金融市場發生的事件影響能夠有效地彰顯。 而本文的變 al. er. io. 數選擇分為它國的匯率價格, 國外經濟變數與國內經濟變數等, 皆取日資料 n. v ni U engchi 是希望模型能夠在 6000 多筆的大資料量下 , 匯率估計能夠收斂, 而實證的結 Ch. 果也顯示出了類神經網路模型在短期的匯率預測上效果優於隨機漫步假設, 而在預測長期匯率的能力上, 由於循環性類神經網路具備保存信息的架構, 預測結果更勝隨機漫步模型。 綜觀以上幾點, 本篇文章主要的發現在於預測 金融外匯市場的領域中, 結合了非監督式學習與監督式學習的方式, 從資料 的前置處理開始到後續的模型結構與參數改良, 並且以堆疊式自編碼器與循 環性神經網路模型的架構有效的預測外匯價格。 最後, 本文還有某些待改進 的地方, 第一, 隨著深度學習的浪潮不斷地推進, 在未來不同的網路架構會不 斷的推陳出新, 嘗試更新的模型結構有可能優於 SAE-LSTM 的結果。 第二,. 29. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(35) 對於金融或外匯市場這種帶有很多該擾雜訊的資料進行建模, 在資料前置作 業中若加入更多降噪的函式像小波轉換 (Wavelet Transform) 等方式, 常被 用來降低信息中的雜訊, 進而使後續的 RNN、FNN 模型能夠有好的輸入資 料。 第三, 本文變數的選擇方式非常的耗費電腦效能與時間, 根據本文的觀 察文中的類神經網路模型並不能自行將不重要亦或者不需要的變數經由權 重訓練的方式漸近至零, 因此在實證結果的呈現上, 才會有選擇變數種類的 表格產生。 而藉由相關係數大小挑選模型變數的機制, 我們認為不夠有效率, 未來的目標是希望以訓練模型的方式讓模型去訓練出適合且有效的變數。 第 政 治 大 四點一樣圍繞在變數的選擇上立 , 本文的變數選擇皆為數值型態資料。 其他如. ‧ 國. 學. 類別型態的資料, 投資人的情緒指標, 或者文本資料, 像是財經新聞等等皆有. ‧. er. io. sit. y. Nat. 論文指出對於匯率的預測有不錯的預測能力, 綜觀以上幾點, 納入眾多不同 n. 性質的資料並且篩選出具備顯著解釋能力的輸入特徵將會是本文後續努力 al iv Ch. 改進的目標。. n engchi U. 30. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(36) 參考文獻 [1] Adya, M., and Collopy, F. (1998). “How effective are neural networks at forecasting and prediction ? A review and evaluation”. Journal of forecasting J. Forecast., 17, 481–495. [2] Bao, W., Yue, J., and Rao, Y. (2017). “A deep learning framework for financial time series using stacked autoencoders and long-short term-memory”, PLOS ONE, 12(7).. 立. 政 治 大. ‧ 國. 學. [3] Bengio, Y., Simard, P., and Frasconi, P. (1994). “Learning long-term. al. er. io. sit. y. Nat. 5(2),157-166. ‧. dependencies with gradient descent is difficult”, Neural Networks,. n. v ni U engchi [4] Caire, P., Hatabian, G. and Muller, C. (1992). “Progress in forecastCh. ing by neural networks”. Neural Networks, 2, 540-545. [5] Connor, J., Martin, R., and Atlas, L. (1994). “Recurrent neural networks and robust time series prediction” . Neural Networks, 5(2), 240–254. [6] Contribution, O. (1989). “On the approximate realization of continuous mappings by neural networks”. Neural Networks, 2, 183–192.. 31. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(37) [7] Cybenko, G. (1989). “Approximation by superpositions of a sigmoidal function”. Mathematics of Control, Signals, and Systems, 2, 303–314. [8] Enders, W. (2014). Applied econometric time series, 4th Edition. New York, United States : Wiley. [9] Granger, C.W.J., and A.P. Andersen. (1978). An introduction to bilinear time series models (Vandenhoeck and Ruprecht, GSttingen). [10] Graves, A. (2012). Supervised sequence labeling with recurrent neural. 政 治 大. networks. Berlin, Germany 立 : Springer.. ‧ 國. 學 ‧. [11] Hornik, K. (1991). “Approximation capabilities of muitilayer feedfory. Nat. al. er. io. sit. ward networks”. Neural Networks, 4(2), 251–257. n. v ni U e n gresults c h i on neural network approxima[12] Hornik, K. (1993). “Some new Ch. tion”. Neural Networks, 6(8), 1069-1072. [13] Hornik, K. Stinchcombe, M., and White, H. (1989). “Multilayer feedforward networks are universal approximators”. Neural Networks, 2(5), 359–366. [14] Kim, T. Y., Oh, K. J., Kim, C., and Do, J. D. (2004). “Artificial neural networks for non-stationary time series”. Neurocomputing, 61(1– 4), 439-447.. 32. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(38) [15] Kingma, D. P., and Ba, J. L. (2015). “Adam A method for stochastic optimization”. ICLR, 1-15. [16] Kuan, C. (2006). Artificial neural networks. IEAS Working Paper : academic research 06-A010, Institute of Economics, Academia Sinica, Taipei, Taiwan. [17] Lipton, Z. C., Berkowitz, J., and Elkan, C. (2015). A critical review of recurrent neural networks for sequence learning. arXiv.1506.00019[cs.LG]. 立. 政 治 大. ‧ 國. 學. [18] Refenes A. N. , M. Azema-Barac, L. Chen, and S. A. Karoussos.. ‧ er. io. sit. y. Nat. (1993). “Currency exchange rate prediction and neural network design n. Strategies”. Neural Comput Applic, 1(1), al i v 46-58 Ch. n engchi U. [19] Tong, K., and Lim, K. S. (1980). “Threshold autoregression, limit cycles and cyclical data”. Royal Statistical Society, 42(3), 245-292. [20] Vincent, P. (2010). Stacked denoising autoencoders : learning useful representations in a deep network with a local denoising criterion, Paper presented at the 27th International Conference on Machine Learning, 11, 3371–3408. [21] Weigend, A.S., Huberman, B.A. and Rumelhart, D.E., (1992). Predicting sunspots and exchange rates with connectionist networks. In: 33. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(39) M. Casdagli and S. Eubank (Editors), Nonlinear Modelling and Forecasting, SFI Studies in the Sciences of Complexity, Proc. Vol. XII. Addison-Wesley, Redwood City, pp. 395-432. [22] Zhang, G., Patuwo, E. B., Hu, M. Y. (1998). “Forecasting with artificial neural networks : The state of the art”. International Journal of Forecasting, 14, 35–62.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. n engchi U. iv. 34. DOI:10.6814/THE.NCCU.ECONO.010.2018.F06.
(40)
相關文件
Categories of Network Types by Broad Learning Method.
• 1961 年Lawrence Roberts使用低速網路線 將劍橋與加州的電腦相連,展示廣域網路 (wide area network) 的概念..
Each unit in hidden layer receives only a portion of total errors and these errors then feedback to the input layer.. Go to step 4 until the error is
Deep learning usually refers to neural network based model.. Shallow – Speech Recognition. ◉
for training
Random Forest: Theory and Practice Neural Network Motivation.. Neural Network Hypothesis Neural Network Training Deep
To solve this problem, this study proposed a novel neural network model, Ecological Succession Neural Network (ESNN), which is inspired by the concept of ecological succession
本研究採用三種判斷準則來比較 Nelson-Siegel Model、Extend Nelson-Siegel Model 與 Nelson-Siegel-Svensson Model 的配適能力,配適結果如表 4 表示,其中