深度增強學習在動態資產配置上之應用— 以美國ETF為例 - 政大學術集成

全文

(1)國立政治大學金融學系研究所碩士學位論文. 深度增強學習在動態資產配置上之應用— 以美國 ETF 為例. 治政 The Application of Deep Reinforcement 大 Learning on 立 ‧. ‧ 國. 學. Dynamic Asset Allocation: A Case Study of U.S. ETFs. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授：廖四郎博士研究生：劉上瑋撰. 中華民國一○六年七月.

(2) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 1. i n U. v.

(3) 摘要. 增強式學習（Reinforcement Learning）透過與環境不斷的互動來學習，以達到極大化每一期報酬的總和的目標，廣泛被運用於多期的決策過程。基於這些特性，增強式學習可以應用於建立需不斷動態調整投資組合配置比例的動態資產配置策略。本研究應用 Deep Q-Learning 演算法建立動態資產配置策略，研究如何在每. 政治大 6 月 30 日的美國中大型股的股票 ETF 及投資等級的債券 ETF 建立投資組合，以立. 期不同的環境狀態之下，找出最佳的配置權重。採用 2007 年 7 月 2 日至 2017 年. ‧ 國. 學. 其日報酬率資料進行訓練，並與買進持有策略及固定比例投資策略比較績效，檢視深度增強式學習在動態資產配置適用性。. ‧. n. al. er. io. sit. y. Nat. 關鍵詞：動態資產配置、深度增強學習、Q-Learning、類神經網路. Ch. engchi. i. i n U. v.

(4) Abstract. Reinforcement learning learns by interacting with the environment continuously, in order to achieve the target of maximizing the sum of each return. It has been used to solve multi-period decision making problem broadly. Because of these characteristics, reinforcement learning can be applied to build the strategies of dynamic asset allocation which keep reallocating the mix of portfolio consistently. In this study, we apply deep Q-Learning algorithm to build the strategies of. 政治大 environment. We use Large-Cap, Mid-Cap ETFs and investment-grade bond ETFs in 立. dynamic asset allocation. Studying how to find the optimal weights in the different. ‧ 國. 學. the U.S. to build up the portfolio. We train the model with the data of daily return, and then we measure its performance by comparing with buy-and-hold and constant-mix. ‧. strategy to check the fitness of deep Q-Learning.. sit. y. Nat. n. al. er. io. Key words： Dynamic Asset Allocation、Deep Reinforcement Learning、 Q-Learning、Neural Network. Ch. engchi. ii. i n U. v.

(5) 目. 第一章. 次. 緒論 .............................................................................................. 1. 第一節研究背景與動機 .............................................................................. 1 第二節研究目的 .......................................................................................... 2 第二章. 文獻探討 ...................................................................................... 3. 第一節資產配置 ........................................................................................... 3. 政治大研究方法 .................................................................................... 21 立. 第二節增強式學習 ....................................................................................... 7 第三章. 第一節建構投資組合 ................................................................................ 21. ‧ 國. 學. 第二節資料處理 ........................................................................................ 27. ‧. 第三節增強式學習系統設計 .................................................................... 27 第四節 Deep Q-Network ............................................................................ 29. Nat. y. 研究結果 .................................................................................... 33. sit. 第四章. 參考文獻. a ................................................................................ 結論與建議 34 v n. 第五章. er. io. 第一節結果分析 ........................................................................................ 33. i l C n h e n g c………………………………….36 ………………… ................... hi U. iii.

(6) 圖次 1 代理人和環境在增強式學習中的互動 .................................................... 8 2 策略迭代的過程 ...................................................................................... 15 3 Q-LEARNING 演算法 .............................................................................. 17 4 Q-LEARNING 使用 Q-TABLE 儲存 𝑞 值 .................................................. 17 5 DEEP Q-LEARNING 演算法 .................................................................... 19 6 19 支股票 ETF 的價格 .......................................................................... 22 7 19 支股票 ETF 的報酬率 ...................................................................... 22 8 15 支債券 ETF 的價格 .......................................................................... 23 9 15 支債券 ETF 的報酬率 ...................................................................... 23 10 34 支 ETF 報酬率的相關係數矩陣 ...................................................... 24 11 本研究的類神經網路結構 ................................................................... 30. 立. 政治大. 學. ‧ 國. 圖圖圖圖圖圖圖圖圖圖圖. ‧. 表次. sit. y. Nat. n. al. er. io. 表 1 八種訓練模型 ......................................................................................... 32 表 2 八種訓練模型的結果 ............................................................................. 33. Ch. engchi. iv. i n U. v.

(7) 第一章. 第一節. 緒論. 研究背景與動機. 金融商品的種類越來越多樣化，投資人如何將資金分配於各項商品以求極大化報酬一向是非常值得研究的議題。但由於一般投資人通常不具備同專業投資人. 政治大賴專業的投資機構代為進行資金的分配，而此舉往往又需要額外的費用，讓實際立. 般的專業知識以及對市場的敏銳度，亦無法投入大量精神與時間於投資，必須仰. 的報酬降低。. ‧ 國. 學 ‧. 自 Markowitz 的現代投資組合理論啟發了資產配置的想法，其後隨著人工智. y. Nat. 慧的發展，包含類神經網路（Neural Network）及遺傳演算法（Genetic Algorithm）. er. io. sit. 皆被應用於投資組合管理，如何運用這些人工智慧技術來協助投資人在金融市場妥善運用資金，以獲得更大的報酬，是很值得探討的問題。. n. al. Ch. engchi. i n U. v. 增強式學習是近幾年發展相當快速的技術，藉由和環境不斷的互動來學習，可以運用於多期的決策過程，而這一期的決策又會影響下一期的決策。最終目標是極大化每一期報酬的總和。其多期決策和極大化報酬的特性，可以運用在建立資產配置的策略，尤其是動態資產配置，需要一直接收金融市場中的新訊息，來改變配置策略。. 1.

(8) 第二節. 研究目的. 基於以上的動機，本研究欲應用深度增強學習建立股票 ETF 及債券 ETF 的兩項資產動態資產配置的策略，研究如何在每期不同的環境之下，找出最佳的配置權重。確定此方法的可行性後，往後可以將深度增強學習擴及到更多財務金融領域的應用。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i n U. v.

(9) 第二章文獻探討第一節資產配置. 一、投資組合理論資產配置的想法源自於 Markowitz, H. (1952)發表的「投資組合的選擇」（Portfolio Selection），建議投資人應分散投資至不同風險的資產，利用各種資產不同的相關性，組成效率前緣（Efficient Frontier）的投資組合，意即找出在特定. 政治大. 的預期報酬下，總風險最小的投資組合；或是在特定風險水準下，預期報酬最高. 立. 的投資組合。又稱為「現代投資組合理論」（Modern Portfolio Theory, MPT）。其. ‧ 國. 學. 主要的目的不僅是追求資產的報酬最大化，更著重於降低投資的風險。在決定投資組合中各個資產的權重時，Markowitz 提出了均數-變異數最適化. ‧. （Mean-Variance Optimization），此法需要估計出各項資產的報酬率平均數、報酬. y. Nat. sit. 率標準差以及各項資產間的共變異數等三個參數，但由於參數估計會產生誤差，. n. al. er. io. 故無法得到一個穩定的配置策略。再者，此法主要用於處理單一期間的配置，但. i n U. v. 現今的金融環境複雜且多變，單期的策略已無法適當反映未來的情況，雖然理論. Ch. engchi. 架構很完備，但由於計算複雜，且結果十分不穩定，實務上鮮少有人運用此理論進行資產配置。 Michaud, R. O. (1989)認為均數-變異數最適化的方法，不能真正在實務上推動，是因為輸入的參數其估計值的誤差太大，使得資產權重的配置出現非常不穩定的現象，但只要能解決參數估計的問題，均數-變異數最適化的確是一個很好的方法。Michaud, R. O. (1998) 發展出再抽樣法（Resampled Method）以解決上述的問題。. 3.

(10) 二、投資組合績效分析 Brinson, G. P., Singer, B. D., & Beebower, G. L.（1991）對全球自 1977 年到 1987 年的 82 家大型退休基金做實證研究，他們發現資產配置可以解釋 91.5%的基金報酬總變動，選股能力（Security Selection）和市場擇時能力（Market Timing）只佔了不到 10%。也就是說挑選正確比例的資產比挑選績效好的資產更為重要。資產配置最核心的問題是如何選取投資標的以及如何決定資產的權重。本研究將重點放在如何決定資產的權重。. 政治大的價格乘上流通在外股數計算出來的總市值佔所有股票總市值之和給予權重。立. 我們最為熟悉的權重分配方式是市值加權（Cap Weight），也就是按照該股票. 另外也有以公司基本面數據為基礎的基本面加權法（Fundamental Weight）. ‧ 國. 學. （Arnott, R. D., Hsu, J., & Moore, P., 2005）。還有風險等值加權法（Equal Risk. ‧. Weight）以及其他在作業研究領域的最佳化法（Optimization）。. Nat. sit. y. 近期有很多學術研究表明，金融界過去數十年來發展出來各種各樣的資產配. n. al. er. io. 置模型，並沒有比最簡單的平均分配比例法（也就是每個資產擁有相同的權重）. i n U. v. 更有效。DeMiguel, V., Garlappi, L., & Uppal, R.（2007）對於包含最小變異數投資. Ch. engchi. 組合（Minimum Variance Portfolio）等 14 種資產配置策略進行績效衡量，發現沒有任何一種配置策略在樣本外測試中獲得比平均分配比例法更高的績效. 4.

(11) 三、資產配置策略以下將介紹幾種比較常見的資產配置策略： 1. 買進持有（Buy-and-Hold）一開始即訂出資產配置的比例，買進後無論資產的相對價值如何變化，皆不重新調整資產的配置比例。. 2. 固定比例投資策略（Constant-mix strategies）（Perold, A. F., & Sharpe, W. F., 1988）固定比例投資策略也就是投資組合比例再平衡策略（Rebalancing），兩類資. 政治大. 產必須長期維持於一定的比例，資產買進之後無論其價值如何變動，必須定期調. 立. 整至原來設定的比例。當投資組合中某資產的相對價值提高時，便需要賣出該資. ‧ 國. 學. 產；而當某資產的相對價值降低時，則必須再買入該資產。. Plaxco, L. M., & Arnott, R. D.（2002）認為投資組合比例之再平衡策略會比. ‧. 買進持有策略得到更高的報酬並可以提升風險控管的效果，而在波動性較大的期. y. Nat. n. al. er. io. (1) 定期再平衡（Calendar Rebalancing）：. sit. 間，每日再平衡調整可以提高獲利。並提出再平衡策略又可分為四種：. i n U. v. 再平衡的期間可為一個月、一季或一年。其配置的比例會定期調整至原先設定的目標比例。. Ch. engchi. (2) 區間再平衡（Range Rebalancing）：又可細分為再平衡至可容忍區（Rebalancing to the Allowed Range）以及臨界平衡（Threshold Rebalancing），前者的比例一旦掉出可容忍區（Tolerance Band），則僅需調整回可容忍區的界線；後者一旦掉出可容忍區，則必須調整回至目標比例。 (3) Opportunity-Based Rebalancing：最適合用於調整的期間以及可容忍區並非靜態的情況，其調整的比例可以偏離目標比例。 5.

(12) (4) 飄移比例（Drifting Mix）：可以選擇是否要跟隨市場的趨勢來進行配置。臨界值的設置是為了避免不斷的再平衡，造成其成本超過收益。根據 Daryanani, G.（2008）的研究，建議另一種再平衡方法 ── 機會性再平衡法（Opportunistic Rebalancing），意即不需要經常實施配置比例的再平衡，但要經常去發掘最適合再平衡的時機。. 3. 固定比例投資組合保險策略（Constant Proportion Portfolio Insurance, CPPI）. 政治大固定權重投資策略並沒有考慮到不同投資人因其資產以及對風險的偏好皆不立. （Perold, A. F. et al., 1988）. 相同，對於風險性資產的投入亦不相同。此保險策略公式為：. ‧ 國. 學. 投資於風險性資產的金額 = 𝑚(資產 − 金額下限)， 𝑚為一固定乘數. ‧. y. Nat. 意即當投資組合的報酬超過某一特定水準時，增加持有風險性資產的比例，當市. er. io. sit. 場開始下跌時，減少持有風險性資產的比例，此方法可以將投資組合的下跌的風險控制在一定範圍內。此策略適用於市場有長期上漲或長期下跌趨勢的情況。. n. al. Ch. engchi. i n U. v. 4. 以選擇權為基礎之投資組合保險策略（Option-Based Portfolio Insurance, OBPI）利用選擇權定價公式，透過調整風險性資產和無風險資產之間的比重來複製選擇權，從而達到保本的功能。. 5. 動態資產配置 Sharpe, W. F.（1987）說明了策略性資配置（Strategic Asset Allocation）與戰略性資產配置（Tactical Asset Allocation）的差異，前者透過不同類別的資產的組成建構了投資策略，當市場變化而使資產的相對價值改變時，經由定期調整以回復. 6.

(13) 到目標配置比例；後者不同之處在於其並非被動的因應市場變動來調整投資組合，而是主動回應市場的狀況，若對於資產報酬率的預期發生改變，則主動調整資產的配置比例。 Standard & Poor’s 在 2007 年 7 月出版的《S&P Dynamic Multi-Asset Strategy Index Methodology》提出動態資產配置的作法，在不提高投資組合波動性的前提下提高長期報酬，以編制 S&P 500® Dynamic VEQTOR 指數。由於市場的變化，資產的價值都會隨著時間改變，造成原本的配置比例也跟著改變。這時應該依據當前的環境重新配置權重，才能極大化長期報酬。. 立. 政治大. ‧ 國. 學. 第二節增強式學習. 一、增強式學習模型. ‧. 機器學習的演算法大致可以劃分為三類：監督式學習、非監督式學習以及增. sit. y. Nat. 強式學習。. n. al. er. io. 增強式學習（Reinforcement Learning）透過直接與環境（Environment）互動. i n U. v. 來學習，以達成目標。決策者或學習者稱為代理人（Agent），觀察目前所處環境. Ch. engchi. 的狀態（State），選擇要採取哪一個動作（Action）才能得到期望的結果，並藉由最大化數值獎勵（Reward）來學習。透過不斷嘗試來發現採取哪個動作可以得到最大的報酬。（Sutton, R. S., & Barto, A. G., 1998）增強式學習與其他機器學習演算法的差異主要有以下三點：一為增強式學習是封閉迴圈（closed-loop）的問題，因代理人採取的動作會影響到其接下來接收到環境的資訊，而環境又會影響代理人如何採取動作。二為由於沒有明確的指示該採取什麼動作，代理人必須經由不斷嘗試各種動作以得知何者能產生最大的報酬。三為代理人在當期所採取的動作不僅影響了立即獲得的報酬，也會對下一期、甚至接下來的每一期報酬產生影響。 7.

(14) 監督式學習（Supervised Learning）是透過有人為標註目標的訓練資料來學習，知道在該狀態下應採取的正確行為。監督式學習的主要目的是從訓練資料中學習到一種模式，當有新的資料進來時，可藉此預測其結果。常見的監督式學習包含迴歸分析（Regression）及分類（Classification）。非監督式學習（Unsupervised Learning）是透過未經標註目標的資料來找出隱藏於其中的結構。常見的監督式學習為分群（Clustering）。有些人認為增強式學習可以歸類於非監督式學習中的一種，因其同樣不需要有正確目標資料的例子。但兩種方法的目標有很大的差異，增強式學習的目標是為了最大化報酬而非為了找出資料中隱藏的結構。. 學 er. io. al. sit. Nat. （資料來源：Sutton, R. S. et al. (1998)）. y. 圖 1 代理人和環境在增強式學習中的互動. ‧. ‧ 國. 立. 政治大. v. n. 在增強式學習中，代理人透過與環境的互動來學習，其關係可用圖 1 表. Ch. engchi. i n U. 示。在每一期 𝑡 ，代理人會接收到所處在環境的情況，稱為「狀態」（State， 𝑆𝑡 ），𝑆𝑡 ∈ 𝒮 ，𝒮代表所有可能的「狀態」表達式所構成的集合。代理人會根據目前的狀態選取一個「動作」（Action，𝐴𝑡 ），𝐴𝑡 ∈ 𝒜（𝑆𝑡 ），𝒜（𝑆𝑡 ）為在目前狀態 𝑆𝑡 下，代理人可以執行的所有動作所構成的集合。而在下一期 𝑡 + 1，代理人會收到環境所給予的數值「獎勵」（Reward，𝑅𝑡+1 ），𝑅𝑡+1 ⊂ ℝ，並改變了環境，進入到新的狀態 𝑆𝑡+1。1 代理人在每個狀態中選擇動作的規則，也就是狀態與動作之間的對應關係，. 1. 這裡用𝑅𝑡+1 而不用𝑅𝑡 來表示執行動作𝐴𝑡 所獲得的報酬，是因為要強調報酬 𝑅𝑡+1 和新的狀態. 𝑆𝑡+1 是同時被決定的，𝑅𝑡+1 和𝑆𝑡+1 有聯合分配 (joint distribution)。 8.

(15) 稱為「策略」（Policy，𝜋𝑡 ），可以表達成狀態的函數 𝜋𝑡 (𝑎|𝑠)，表示在時間點 𝑡，當狀態 𝑆𝑡 為 𝑠 時，所執行的動作 𝐴𝑡 為 𝑎 之機率2。執行動作時必須遵從探索性（Exploration）和利用性（Exploitation）之間的換抵關係，在訓練階段一開始時，會隨機選取動作（即為探索性），接下來有較高價值的動作會有較高被選中的機率（即為利用性）。這是增強式學習很重要的特性。增強式學習的目標是為了找到一個最佳的策略，讓代理人在環境中採取一系列的動作之後，獲得最大的累計獎勵值，並可依據環境給予的獎勵來衡量所採取. 政治大進行決策，知道在什麼狀態下應該採取什麼動作。立. 動作的優劣。經由代理人與環境反覆的互動後，往後代理人可根據學習到的策略. 前述增強式學習的目標是為了最大化數值獎勵，更嚴格的說，是為了最大化. ‧ 國. 學. 預期報酬（Expected Return）。報酬（return，𝐺𝑡 ）即為採取一系列的動作而得到. ‧. 未來各期所有報酬折現到當期 𝑡 的總和，之所以需要折現是因為沒有一個完美的. y. Nat. 模型可以預測未來的變化，因此未來各期的報酬具有不確定性，以數學式表示為：. 其中，0 ≤ 𝛾 ≤ 1， 𝛾 為折現率。. al. （1）. er. io. sit. 𝑘 𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾 2 𝑅𝑡+3 +⋅⋅⋅= ∑∞ 𝑘=0 𝑅 𝑟𝑡+𝑘+1. n. v i n 代理人執行動作後，不僅會得到報酬，還會促使狀態產生變化。「狀態轉換 Ch engchi U. 函數」（State Transition Function）可以用來模擬狀態的變化，又稱「模型」. （Model）。 𝑝(𝑠 ′ |𝑠, 𝑎) 表示當代理人執行動作 𝑎 後，從狀態 𝑠 轉移到狀態 𝑠 ′ 的機率。. 二、馬可夫決策過程（Markov Decision Process, MDP）. 2. 策略有兩種表達方式，一為確定性策略(deterministic policy)，𝑎 = 𝜋𝑡 (𝑠)，表在狀態 𝑠 下，一. 定會選擇動作 𝑎 。二為隨機性策略(stochastic policy)，𝜋𝑡 (𝑎|𝑠)，表在狀態 𝑠 下，執行動作 𝑎 的機率。一般來說，策略是隨機的。 9.

(16) 增強式學習是經由與環境互動來學習，透過馬可夫決策過程（Markov decision process）可以嚴格定義增強式學習的環境。首先，必須了解馬可夫性質（Markov property），若一個狀態 𝑆𝑡 能保有所有跟環境攸關的資訊，即擁有馬可夫性質。定義如下：狀態 𝑆𝑡 擁有馬可夫性質若且唯若（2）. ℙ[𝑆𝑡+1 |𝑆𝑡 ] = ℙ[𝑆𝑡+1 |𝑆1 , 𝑆2 , … , 𝑆𝑡 ]. 可見，下一期的狀態 𝑆𝑡+1 會如何變化只與當時 𝑆𝑡 的狀態有關，與之前所有的狀態 {𝑆1 , 𝑆2 , … , 𝑆𝑡−1 } 皆無關。. 政治大馬可夫鏈（Markov chain），是由一系列的狀態和狀態轉換機率（State Transition 立. 馬可夫過程（Markov Process）是具有馬可夫性質的隨機狀態序列，又稱為. Probability）所組成。. ‧ 國. 學. 馬可夫決策過程（Markov Decision Process）即馬可夫過程加上價值衡量以. ‧. 及決策能力，若一個環境中的所有狀態都擁有馬可夫性質即可稱此環境為馬可. y. sit. io. er. A. W.,1996）：. Nat. 夫決策過程，由以下四個要素所組成（Kaelbling, L. P., Littman, M. L., & Moore,. 1. 所有可能的狀態所構成的集合 𝒮. n. al. Ch. 2. 所有可執行的動作所構成的集合 𝒜. engchi. i n U. v. 3. 報酬函數 𝑟(𝑠, 𝑎) = 𝔼[𝑅𝑡+1 |𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎] ⊂ ℝ 4. 狀態轉換函數（state transition function）更正式的定義增強式學習問題中的馬可夫性質，一般而言，下一期環境的變化應該與所有過去發生的事件有關，可以用下列式子表達： ℙ[𝑆𝑡+1 = 𝑠 ′ , 𝑅𝑡+1 = 𝑟 | 𝑆0 , 𝐴0 , 𝑅1 , … , 𝑆𝑡−1 , 𝐴𝑡−1 , 𝑅𝑡 , 𝑆𝑡 , 𝐴𝑡 ]. （3）. 若一個狀態擁有馬可夫性質，則下一期環境的變化僅跟本期的狀態及動作有關，轉換函數可以用下式表示：. 10.

(17) 𝑝(𝑠 ′ , 𝑟|𝑠, 𝑎) ≐ ℙ[𝑆𝑡+1 = 𝑠 ′ , 𝑅𝑡+1 = 𝑟 | 𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎]. （4）. 也就是說，一個狀態擁有馬可夫性質，若且唯若式（3）等於式（4）。若一個環境擁有馬可夫性質，我們就可以在已知本期狀態及動作的情況下，用式（4）去預測下一期的狀態及預期報酬。一個增強式學習的問題若能滿足馬可夫性質，即可稱為馬可夫決策過程。由於策略是隨機的，即使在同樣的狀態下，所採取的動作也具有隨機性，所以每一回合獲得的報酬應視為隨機變數（所以在同一個策略之下，每次得到的報酬也不同），因此不能以每回合的報酬來代表該策略的好壞，應以這些報酬隨機. 政治大. 變數之期望值來評估該策略的好壞。因此，在 MDP 裡，以值函數（Value Function）來衡量一個策略的好壞。. 立. 狀態值函數（State-value Function）用來衡量代理人處於某個狀態時的好壞，. ‧ 國. 學. 狀態值函數 𝑣𝜋 (𝑠) 定義為遵循策略 𝜋 下，起始於狀態 𝑠 的預期報酬，可用下列的. ‧. Nat. 𝑣𝜋 (𝑠) = 𝔼𝜋 [𝐺𝑡 |𝑆𝑡 = 𝑠] = 𝔼𝜋 [∑ 𝑅 𝑘 𝑟𝑡+𝑘+1 |𝑆𝑡 = 𝑠]. （5）. io. er. 𝑘=0. y. ∞. sit. 式子表達：. 動作值函數（Action-value function，又稱為 Q-Function）則用來衡量在某個. al. n. v i n 狀態下，採取某個動作的好壞。記為 𝜋 下，起始於狀 C h 𝑞𝜋 (𝑠, 𝑎) ，定義為遵循策略 engchi U. 態 𝑠 且採取了動作 𝑎 的預期報酬，可用下列的式子表達： ∞. 𝑞𝜋 (𝑠, 𝑎) = 𝔼𝜋 [𝐺𝑡 |𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎] = 𝔼𝜋 [∑ 𝑅 𝑘 𝑟𝑡+𝑘+1 |𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎] （6） 𝑘=0. 值函數在增強式學習中可以表達成一種特別的遞迴關係，推導如下：. ∞. 𝑣𝜋 (𝑠) = 𝔼𝜋 [𝐺𝑡 |𝑆𝑡 = 𝑠] = 𝔼𝜋 [∑ 𝑅 𝑘 𝑟𝑡+𝑘+1 |𝑆𝑡 = 𝑠] 𝑘=0. 𝑣𝜋 (𝑠) = 𝔼𝜋 [𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾 2 𝑅𝑡+3 + ⋯ |𝑆𝑡 = 𝑠] 11.

(18) 𝑣𝜋 (𝑠) = 𝔼𝜋 [𝑅𝑡+1 + 𝛾(𝑅𝑡+2 + 𝛾𝑅𝑡+3 + ⋯ )|𝑆𝑡 = 𝑠] 𝑣𝜋 (𝑠) = 𝔼𝜋 [𝑅𝑡+1 + 𝛾𝐺𝑡+1 |𝑆𝑡 = 𝑠] 𝑣𝜋 (𝑠) = 𝔼𝜋 [𝑅𝑡+1 + 𝛾𝑣𝜋 (𝑆𝑡+1 )|𝑆𝑡 = 𝑠]. （7）. 由上面的式子可以發現，值函數可以分解成兩個部分，一為立即的報酬 𝑅𝑡+1 ，二為下一期的值函數折現 𝛾𝑣𝜋 (𝑆𝑡+1 ) 。式（7）稱為「Bellman 方程」（Bellman Equation）（Bellman, R.E. 1957），可以用來說明當期狀態的值及其下期狀態的值之間的關係。動作值函數亦可依上面的推導分解成兩部分，如下式： 𝑞𝜋 (𝑠, 𝑎) = 𝔼𝜋 [𝑅𝑡+1 + 𝛾𝑞𝜋 (𝑆𝑡+1 , 𝐴𝑡+1 )|𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎]. （8）. 政治大. 立. 式（7）及式（8）之 Bellman 方程式透過整理可以表達成下面的式子，. ‧ 國. 學（9）. 𝑣𝜋 (𝑠) = ∑ 𝜋(𝑎|𝑠) (𝑟(𝑠, 𝑎) + 𝛾 ∑ 𝑝(𝑠 ′ |𝑠, 𝑎) 𝑣𝜋 (𝑠 ′ )). ‧. 𝑠′ ∈𝑆. 𝑎∈𝒜. y. Nat. al. 𝑎′ ∈𝒜. （10）. er. io. 𝑠′ ∈𝑆. sit. 𝑞𝜋 (𝑠, 𝑎) = 𝑟(𝑠, 𝑎) + γ ∑ 𝑝(𝑠 ′ |𝑠, 𝑎) ∑ 𝜋(𝑎′ |𝑠 ′ ) 𝑞𝜋 (𝑠 ′ , 𝑎′ ). v. n. 增強式學習的問題是為了找到一個最佳的策略，最好的方法就是經由值函數. Ch. engchi. i n U. 的計算找到最大的值函數，進而確定該如何採取最適的動作。若一個策略在所有狀態的值函數皆最大，則該策略為最佳策略，以 𝜋∗ 表示。，其狀態值函數 𝑣∗ 及動作值函數 𝑞∗ 定義如下： 𝑣∗ (𝑠) = max 𝑣𝜋 (𝑠). （11）. 𝑞∗ (𝑠, 𝑎) = max 𝑞𝜋 (𝑠, 𝑎). （12）. 𝜋. 𝜋. 由於 𝑣∗ 是值函數，必滿足式（7）的 Bellman 方程式，可以表達成一種不遵循特定策略的形式，稱為「Bellman 最佳性方程」（Bellman optimality equation），. 12.

(19) 顯示在最佳策略下的狀態值 𝑣∗ (𝑠) 必定等於在該狀態下選擇了最佳動作的預期報酬 𝑞∗ (𝑠, 𝑎)。若知道了 𝑞∗ (𝑠, 𝑎)，也就知道在每個決策點應該選擇哪個動作。 𝑣∗ 的 Bellman 最佳性方程可表達如下： 𝑣∗ (𝑠) =. max 𝑞∗ (𝑠, 𝑎) = max𝔼𝜋∗ [𝐺𝑡 |𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎] 𝑎. 𝑎∈𝒜（𝑠）. 𝑣∗ (𝑠) = max𝔼[𝑅𝑡+1 + 𝛾𝑣∗ (𝑆𝑡+1 )|𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎] 𝑎. 𝑣∗ (𝑠) =. max ∑ 𝑝(𝑠 ′ , 𝑟|𝑠, 𝑎)[𝑟 + 𝛾𝑣∗ (𝑆𝑡+1 )]. 𝑎∈𝒜（𝑠） ′ 𝑠 ,𝑟. 政治大 + 𝛾 max 𝑞 (𝑆 , 𝑎 )|𝑆 = 𝑠, 𝐴 = 𝑎] 立. 𝑞∗ 的 Bellman 最佳性方程則可以表達為： 𝑞∗ (𝑠, 𝑎) = 𝔼 [𝑅𝑡+1. 𝑎′. ∗. 𝑡+1. ′. 𝑡. 𝑡. ‧ 國. 學. 𝑞∗ (𝑠, 𝑎) = ∑ 𝑝(𝑠 ′ , 𝑟|𝑠, 𝑎) [𝑟 + 𝛾 max 𝑞∗ (𝑠 ′ , 𝑎′ )] ′ 𝑎. 𝑠′ ,𝑟. ‧. 由此可知，一定存在一個最佳策略，藉由找出 𝑞∗ (𝑠, 𝑎) 而獲得。. n. er. io. sit. y. Nat. al. Ch. engchi. 13. i n U. v. (14).

(20) 三、求解馬可夫決策過程. 增強式學習的目標是為了求解馬可夫決策過程（以下簡稱 MDP）的最佳策略， Bellman 最佳性方程為非線性方程式，故沒有封閉解，可以透過以下三種基本的方法求解： 1. 動態規劃（Dynamic Programming）動態規劃的原理是先將一個複雜的問題分解成許多較簡單子問題，解決了一個個子問題後，再將這些子問題的解結合而成為複雜問題的解，同時也把每個子. 政治大透過 Bellman 最佳性方程的型式遞迴分解成子問題，而值函數則可儲存這些子問立問題的解儲存下來，之後若遇到相同的子問題就不需要再重新求解。MDP 可以. ‧ 國. 學. 題的解，因此動態規劃能用來求解 MDP。我們可以將動態規劃視為 MDP 最基本的解法，也是理解其他方法的基礎。. ‧. 動態規劃需要完整了解環境的模型，包含狀態、動作、報酬函數及狀態轉換. sit. y. Nat. 機率，其根本的想法是透過值函數來建構最佳策略的搜尋，可以透過策略迭代. al. er. io. （Policy Iteration）或值迭代（Value Iteration）的方式求解。. v. n. 策略迭代可以拆解為兩步驟，一為策略評估（Policy Evaluation），目的是為. Ch. engchi. i n U. 了計算出特定策略 𝜋 的狀態值函數 𝑣𝜋 。藉由式（9）透過多次迭代不斷計算出新的狀態值，最後會收斂到真實的值函數 𝑣𝜋 ，可以用下面的式子表達： 𝑣𝑘+1 (𝑠) = ∑ 𝜋(𝑎|𝑠) ∑ 𝑝(𝑠 ′ , 𝑟|𝑠, 𝑎)[𝑟 + 𝛾𝑣𝑘 (𝑠 ′ )] ， 𝑎∈𝒜. 𝑠′ ,𝑟. （15）. 𝑘 = 0,1, … … , ∞ 其中， 𝑠 ′ 代表 𝑠 的下一個狀態 𝑣𝑘 (𝑠 ′ ) 代表上一次迭代計算出來的狀態值. 14.

(21) 首先將所有狀態的初始值設為 𝑣0 ，在每次迭代 𝑘 + 1 中，必須同時考慮所有的狀態 𝑠1、𝑠3、…、𝑠𝑛，利用上次迭代所計算出的下一個狀態之狀態值 𝑣𝑘 (𝑠1 ′ )、 𝑣𝑘 (𝑠2 ′ )、…、𝑣𝑘 (𝑠𝑛 ′ )，同步更新所有狀態的值 𝑣𝑘+1 (𝑠1 )、𝑣𝑘+1 (𝑠2 )、…、𝑣𝑘+1 (𝑠𝑛 )。策略迭代的第二個步驟為策略改進（Policy Improvement），由上一個步驟已經可以確定策略 𝜋 在所有狀態的值函數 𝑣𝜋 (𝑠)，現在要考慮在此狀態是否有其他更好的選擇，若僅在狀態 𝑠 改為遵循策略 𝜋 ′ ，即由原本的動作 𝜋(𝑠) 轉為採取動作 𝜋 ′ (𝑠)，是否會獲得比 𝑣𝜋 (𝑠) 更好的值函數。這時則需要透過式（10）的動作值函數 𝑞𝜋 (𝑠, 𝑎) 來驗證。若 𝑞𝜋 (𝑠, 𝜋 ′ (𝑠)) ≥ 𝑣𝜋 (𝑠) （代表在狀態 𝑠 改採取動作 𝑎 ，而. 政治大會是較好的選擇，意味著 𝜋 是較好的策略。由上述得知若能立. 之後仍遵循原策略 𝜋 的值大於等於自始至終皆遵循策略 𝜋 的值），則每當面臨狀態 𝑠 皆採取動 𝜋. ′ (𝑠). ′. 在每一個狀態都選擇 𝑞𝜋 (𝑠, 𝑎) 最大的動作，如下：. ‧ 國. 學. 𝜋 ′ (𝑠) = argmax 𝑞𝜋 (𝑠, 𝑎) 𝑎∈𝒜. （16）. ‧. 就能以更好的策略改進現有策略。而其狀態值函數 𝑣𝜋′ (𝑠) 亦會與 Bellman 最佳性. sit. y. Nat. 方程相同。. al. er. io. 策略迭代的過程可以用圖 2 表示，圖中的 E 代表策略評估的步驟、I 代表策. v. n. 略改進的步驟。先以 𝑣𝜋0 評估策略 𝜋0 ，改進為更好的策略 𝜋1，接著𝑣𝜋1 評估之，. Ch. engchi. i n U. 再次改進為更好的策略 𝜋2 ，如此一直到收斂至最佳策略𝜋∗ 。. 圖 2 策略迭代的過程. 15.

(22) 值迭代依照下面的公式更新： 𝑣𝑘+1 (𝑠) = max 𝔼[𝑅𝑡+1 + 𝛾𝑣𝑘 (𝑆𝑡+1 )|𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎] 𝑎. （17）. 𝑣𝑘+1 (𝑠) = max ∑ 𝑝(𝑠 ′ , 𝑟|𝑠, 𝑎)[𝑟 + 𝛾𝑣𝑘 (𝑠 ′ )] 𝑎. 𝑠′ ,𝑟. 值迭代在第 𝑘 + 1 次迭代時，直接將最大的 𝑣𝜋 (𝑠) 賦予 𝑣𝑘+1，在整個算法中不需要儲存策略 𝜋 ，比策略迭代法更有效率。。. 2. 蒙地卡羅法（Monte Carlo Methods）蒙地卡羅法與動態規劃不同地方在於其不需要對環境有完整的認識，但是卻. 治政必須完整執行到最後一步才能改進策略，就金融市場而言幾乎是不可行的，所以大立在此不多加敘述。 ‧ 國. 學 ‧. 3. 時間差分法（Temporal-Difference Learning, TD Learning）. 時間差分法結合了動態規劃法和蒙地卡羅法的優點，不需要環境的完整模型，. y. Nat. 狀態的值𝑣(𝑆𝑡+1 )回推以更新狀態 𝑆𝑡 的值 𝑣(𝑆𝑡 )。. n. al. Ch. TD (0)更新狀態值函數的公式如下：. engchi. er. io. sit. 最簡單的 TD (0) 透過抽樣法採取動作，僅需往前一步到狀態 𝑆𝑡+1，即能藉由該. i n U. v. 𝑣(𝑆𝑡 ) ⟵ 𝑣(𝑆𝑡 ) + 𝛼[𝑅𝑡+1 + 𝛾𝑣(𝑆𝑡+1 ) − 𝑣(𝑆𝑡 )]. 16. （18）.

(23) 三、Q-Learning Q-Learning（Watkins, C. J., & Dayan, P., 1992）是一種建立於 TD 控制問題的離線式（off-policy）演算法，用來更新動作值函數，但動作值更新時所採的策略不同於選取動作時所遵循的策略，而是使用最大的 𝑞(𝑠𝑡+1 , 𝑎) 來更新 𝑞(𝑠𝑡 , 𝑎𝑡 )。 Q-Learning 更新動作值函數的公式如下： 𝑞(𝑠𝑡 , 𝑎𝑡 ) ← 𝑞(𝑠𝑡 , 𝑎𝑡 ) + 𝛼 [𝑟𝑡+1 + 𝛾 𝑚𝑎𝑥𝑞(𝑠𝑡+1 , 𝑎𝑡+1 )-𝑞(𝑠𝑡 , 𝑎𝑡 )] 𝑎𝑡+1. （19）. 政治大. 立. ‧. ‧ 國. 學 Q-Learning 演算法. io. sit. y. Nat. 圖 3. n. al. er. 在 Q-Learning 中，使用 Q 表格（Q-table）來計算並儲存 𝑞 值，表格中的. Ch. 列為狀態、欄為所採取的動作。. 𝑎1. engchi 𝑎2. 𝑠1. 𝑞(𝑠1 , 𝑎1 ) 𝑞(𝑠1 , 𝑎2 ). 𝑠2. 𝑞(𝑠2 , 𝑎1 ) 𝑞(𝑠2 , 𝑎2 ). ⋮. i n U. v. 𝑎𝑚. …. ⋱. 𝑠𝑛. 𝑞(𝑠𝑛 , 𝑎𝑚 ). 圖 4. Q-Learning 使用 Q-table 儲存 𝑞 值 17.

(24) 四、深度增強學習（Deep Q-Learning） Q-Learning 最大的缺點是，很難以大小有限的 Q-table 來表達擁有眾多狀態及動作 MDP 的 𝒒 值，所以必須改用值函數近似（value function approximation）的方法去近似最佳的 𝑞 ∗ (𝑠, 𝑎) 函數。. 𝑄(𝑠, 𝑎; 𝜃𝑖 ) ≈ 𝑄 ∗ (𝑠, 𝑎). , 𝜃𝑖 為第𝑖次迭代的參數（即權重）. 使用類神經網路等非線性函數去近似動作值函數通常會很不穩定。這是因. 治政為（1）觀測值序列的相關性；（2）對於 𝒒 值的微小更新都會對策略產生顯著的大立改變，也因此改變了資料的分布狀況；（3）𝒒 值以及目標值 𝑟 + 𝛾 max 𝑄(𝑠 , 𝑎 ) ′. ‧ 國. 學. 之間存在相關性。. ′. 𝑎′. ‧. 為了改善非線性函數近似的不穩定性，使用一種新型的 Q-Learning 稱為. sit. y. Nat. Deep Q-Learning（Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J.,. io. er. Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G.,. al. v i n C h S., 2015），以類神經網路來近似動作值函 D., Legg, S., Hassabis, D. & Petersen, engchi U n. Petersen, S., Beattie, C., Sadik, A., Antonoglou, L., King, H., Kumaran, D., Wierstra,. 數，這樣的類神經網路稱為 Deep Q-Network（DQN）。. 18.

(25) Deep Q-Learning 的演算法如下：. Initialize reply memory 𝐷 to capacity 𝑁 Initialize action-value function 𝑄 with random weights θ Initialize target action-value function 𝑄̂ with weights 𝜃 − = 𝜃 For episode = 1, M do Initialize sequence 𝑠1 = {𝑥1 } and preprocessed sequence 𝜙1 = 𝜙(𝑠1 ) For 𝑡 = 1, T do With probability 𝜀 select a random action 𝑎𝑡 Otherwise select 𝑎𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑎 𝑄(𝜙(𝑠𝑡 ), 𝑎; 𝜃) Execute action 𝑎𝑡 in emulator and observe reward 𝑟𝑡 and image 𝑥𝑡+1 Set 𝑥𝑡+1 = 𝑠𝑡 , 𝑎𝑡 , 𝑥𝑡+1 and preprocess 𝜙𝑡+1 = 𝜙(𝑠𝑡+1 ) Store transition (𝜙𝑡 , 𝑎𝑡 , 𝑟𝑡 , 𝜙𝑡+1 ) in 𝐷 Sample random minibatch of transition (𝜙𝑗 , 𝑎𝑗 , 𝑟𝑗 , 𝜙𝑗+1 ) from 𝐷. 政治大. 立𝑟. if episode terminates at step j + 1 𝑟𝑗 + 𝛾𝑚𝑎𝑥𝑎′ 𝑄̂(𝜙𝑗+1 , 𝑎′ ; 𝜃 − ) otherwise Perform a gradient descent step on (𝑦𝑗 − 𝑄(𝜙𝑗 , 𝑎𝑗 ; 𝜃))2 with respect to the 𝑗. ‧ 國. 學. Set 𝑦𝑖 = {. ‧. network parameters 𝜃. al. y. n. 其包含了兩個重要的想法：. Deep Q-Learning 演算法. er. io. 圖 5. sit. Nat. Every C steps reset 𝑄̂ = 𝑄 End For End For. Ch. engchi. (1) 經驗回放（Experience Replay）. i n U. v. 讓代理人能回顧儲存在回放記憶庫（Replay Memory）的經驗，便能再次從過去發生的經驗中學習，使得每一次經驗都能被使用於數次的參數更新中，使資料的使用更有效率。回放記憶庫可以隨機產生資料，因此能去除觀測序列間的相關性，並可以使資料分布的改變較平滑。其優點是減少觀測資料間的相關性，也因此降低每次更新時產生的變異。但由於回放記憶庫無法判斷何者為較重要的經驗，所以記憶庫在有限的容量之下，只能不斷以所獲得最新的 𝑒 來替換掉最舊的 𝑒 。 19.

(26) (2) 調整 𝑞 值的更新方式：使用另一個類神經網路（稱為 target network）產生目標值 𝑦𝑖 ，並改為定期由訓練的 Q-network 更新參數至 target Q-network（每經過一定期數後才調整），可以降低兩個類神經網路之間的相關性。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 20. i n U. v.

(27) 第三章研究方法. 本研究以深度增強學習建構由美國股票型 ETF 及美國債券型 ETF 組成的投資組合，並且每經過 30 天動態調整資產的配置比例。. 第一節建構投資組合. 政治大根據 Markowitz 的現代投資理論，資產配置成功的關鍵在於選擇幾項相關性立. 一、資產選擇. ‧ 國. 學. 極低的資產，才能達到分散風險的效果，故本研究採用股票型 ETF 與債券型 ETF 這兩項呈負相關的資產。基於美國市場的 ETF 數量及種類皆最為豐富，且發行. ‧. 日最為久遠，本研究由 Bloomberg 資料庫依據這兩類資產挑選出基金規模（Asset. sit. y. Nat. under management, AUM）前幾名的資產，考量到債券 ETF 的發行日期較晚，為. al. er. io. 了能取得更多樣本，選擇的 ETF 起始日期在 2007 年 7 月 2 日之後，最後採用 19. v. n. 支美國中大型股的股票 ETF 以及 15 支美國投資等級的債券 ETF 的調整後收盤. Ch. engchi. i n U. 價為樣本資料，樣本期間為 2007 年 7 月 2 日至 2017 年 6 月 31 日。圖 6 到圖 9 分別繪出股票 ETF 和債券 ETF 的價格趨勢及報酬率，而由圖 10 的相關係數矩陣可以觀察出股票 ETF 與債券 ETF 之間的確呈負相關，另每支 ETF 的基本資料詳見附錄。. 21.

(28) 政治大. 立. 19 支股票 ETF 的價格. ‧. ‧ 國. 學. 圖 6. n. er. io. sit. y. Nat. al. Ch. 圖 7. engchi. i n U. 19 支股票 ETF 的報酬率. 22. v.

(29) 政治大. 立. ‧ 國. 學. 圖 8. 15 支債券 ETF 的價格. ‧. n. er. io. sit. y. Nat. al. Ch. 圖 9. engchi. i n U. 15 支債券 ETF 的報酬率. 23. v.

(30) 學. 圖 10. 34 支 ETF 報酬率的相關係數矩陣. ‧. ‧ 國. 立. 政治大. sit. n. al. er. io. 二、交易成本. y. Nat. （前面 19 支為股票 ETF，後面 15 支為債券 ETF）. Ch. engchi. i n U. v. 為了模擬 ETF 投資在實務上的應用，需計入交易成本才能使研究結果更符合實際的交易環境，否則最終的報酬可能會有高估的情形。本研究參考了兩間允許國際投資人開戶的美國券商 TD Ameritrade 和 Firstrade，TD Ameritrade 每一筆交易的手續費為 6.95 美元，但卻提供特定 100 支 ETF 免交易手續費，其中包含本研究挑選的 25 支 ETF；Firstrade 每一筆交易的手續費為 4.95 美元，也提供本研究挑選的 6 支 ETF 免手續費。若不考慮買入 ETF 後續支出的總開支比率（expense ratio），本研究取兩家券商的手續費平均數 3 美元為交易手續費。. 24.

(31) 三、資產配置方法假設一開始的資金為一百萬美元，初期將股票 ETF 與債券 ETF 以 6：4 的比例進行配置，每隔 30 天依據市場的變化重新調整資產的配置情形。. 四、績效衡量指標本研究採用的投資組合績效衡量指標為以下三種： 1. 年化報酬率. 立. 政治大. 12. 年化報酬率 = (1 + 平均月報酬率). （20）. ‧ 國. 學. 2. 年化標準差. −1. ‧. 標準差用來衡量報酬率的波動程度，當標準差越大時，表示投資組合的波動程. sit. y. Nat. 度越大。公式如下：. n. al. （21）. er. io. 年化標準差 = 月報酬率的標準差 × √12. Ch. engchi. i n U. v. 3. 夏普指數（Sharpe ratio）（Sharpe, W. F., 1966）投資人不能只追求最大的報酬率或最小的標準差的投資組合，因為當投資標的預期報酬率越高時，投資人所承受的波動性也就越高，所以一個理性的投資人應在合理的風險下，追求最大的報酬。夏普指數同時考慮了報酬與風險，用來衡量投資組合每承受一單位的總風險，會產生多少超額報酬。. 25.

(32) 夏普指數的公式如下：. Sharpe ratio =. [𝑅𝑝 − 𝑅𝑓 ] 𝜎𝑝. （22）. 其中， 𝑅𝑝 為投資組合的年化報酬率 𝑅𝑓 為無風險利率 𝜎𝑝 為投資組合的年化標準差. 學. ‧ 國. 立. 政治大. 五、投資組合比較基準. ‧. 本研究使用買進持有策略與固定比例投資策略作為與本研究訓練出來的投. sit er. io. 1. 買進持有策略. y. Nat. 資組合模型之比較基準：. al. n. v i n 進持有策略一開始以股票CETF 與債券 ETF 為 6：4 的比例為目標權重進行 hengchi U. 配置，之後不再重新調整配置比例。. 2. 固定比例投資策略固定比例投資策略一開始也以股票 ETF 與債券 ETF 為 6：4 的比例為目標權重進行配置，其後由於資產的價值隨著市場的波動而改變，則每 21 個交易日再重新調整使兩項資產的配置比例重回 6：4。. 26.

(33) 第二節資料處理一、資料前處理本研究的資料來自 Bloomberg 資料庫，選取自 2007 年 7 月 2 日至 2017 年 6 月 30 日合計 34 支 ETF 的調整後收盤價為樣本資料，每支 ETF 都有 2519 個交易日的價格資料，除了 ITOT 少了 2007 年 9 月 13 日的資料，因此帶入前一日的價格。由於考量到價格資料無法直接衡量投資組合績效的好壞，故以所有收盤價資料皆計算其日報酬率。. 立. 二、資料切割. 政治大. ‧ 國. 學. 分別自 19 支股票 ETF 與 15 支債券 ETF 之中各取一支 ETF 組成一個投資組. ‧. 合，可以得到 285 個投資組合樣本資料。. sit. y. Nat. 依照訓練資料與測試資料的比例 7：1.5：1.5，將 285 個投資組合切成 199 個. al. er. io. 訓練資料、43 個驗證資料以及 43 個測試資料。訓練資料用來訓練模型，驗證資. v. n. 料用來校調類神經網路的架構，測試資料則用來檢驗最後選擇的模型之好壞。. Ch. engchi. i n U. 第三節增強式學習系統設計為了使用增強式學習來建立資產配置的策略，必須先定義三種增強式學習的重要因子：狀態、動作及報酬函數。. 一、定義狀態狀態用於描述代理人──在本研究中即為投資人所處的環境，代理人根據從環境中接收到的狀態來決定如何執行動作，因此狀態如何定義對於策略的學習影. 27.

(34) 響甚大。本研究採用股票 ETF 與債券 ETF 這兩項負相關的資產組成投資組合，此投資組合每 30 天──於本研究的資料為 21 個交易日重新調整資產的配置比例，我們以在特定交易日 t 下，分別取兩項資產自前 21 個交易日至當天的日報酬{ 𝑟(1,𝑡−21) , 𝑟(1,𝑡−20) , … , 𝑟(1,𝑡−1) , 𝑟(1,𝑡) }, { 𝑟(2,𝑡−21) , 𝑟(2,𝑡−20) , … , 𝑟(2,𝑡−1) , 𝑟(2,𝑡) }、兩項資產在當天及前一個營業日的調整後收盤價 {𝑝(1,𝑡−1) , 𝑝(1,𝑡) }, {𝑝(2,𝑡−1) , 𝑝(2,𝑡) }、兩項資產於前一個營業日的持有股數 𝑥(1,𝑡−1) , 𝑥(2,𝑡−1) ，作為交易日 t 的狀態。故在交易日 t 的狀態總數為 50 個。. 政治大投資組合每個月重新調整資產的配置比例時，會買入一定金額的某一資產，立. 二、定義動作. ‧ 國. 學. 並賣出相同金額的另一種資產。. 本研究定義了 25 種動作，每個動作代表賣出股票 ETF 並買入債券 ETF 的. ‧. 比例，正值代表賣出股票 ETF 並買入債券 ETF，負值代表買入股票 ETF 並賣出. sit. y. Nat. 債券 ETF。由於在 Q-Learning 中，動作為離散型的，故須盡量將該買賣比例的區. al. er. io. 間切割得小一點才能更符合真實情況。. v. n. 這 25 種動作為 -0.300（代表賣出總資金中百分之三十的股票 ETF，並買入. Ch. engchi. i n U. 相同金額的債券 ETF）、 -0.275、-0.250、-0.225、-0.200、 -0.175、 -0.150、-0.125、 -0.100、 -0.075、 -0.050、 -0.025、0、0.025（表示買入總資金中百分之二點五的股票 ETF，並賣出相同金額的債券 ETF）、0.050、0.075、0.100、0.125、0.150、 0.175、 0.200、0.225、0.250、0.275、0.300。考慮到交易手續費，每 30 天調整一次資產的配置情況，. 三、定義報酬函數採用第一節的績效衡量指標──夏普指標為增強式學習的報酬函數。. 28.

(35) 第四節 Deep Q-Network. 在 deep Q-Learning 演算法中，用於估計 𝑞 值的深度類神經網路（Deep Neural Network）又稱為 deep Q-network（DQN）。. 一、類神經網路架構類神經網路顧名思義即為模仿人類腦神經網路的構造，以大量的神經元（Neuron）互相連接，每個神經元皆可視為一個「活化函數」（Activation Function），. 政治大. 將來自上一層神經元的輸入值（Input）加權加總後，經由活化函數的非線性轉換. 立. 而輸出（Output），這個輸出值又會再輸入下一層的神經元。. ‧ 國. 學. 類神經網路架構就是透過一層一層的神經元而組織起來，層的數量、每層中有多少神經元、層與層之間的神經元如何連接及活化函數的挑選都需要事先設定. ‧. 好，這些參數的設定則會影響類神經網路的學習效能。. y. Nat. sit. 類神經網路的層次可以分為輸入層（Input Layer）、隱藏層（Hidden Layer）. n. al. er. io. 以及輸出層（Output Layer）。在本研究中，輸入層的神經元接收增強式學習系統. i n U. v. 中環境的狀態，故輸入層有 50 個神經元。在輸入層和輸出層之間的層次皆稱為. Ch. engchi. 隱藏層，提供類神經網路處理神經元之間的交互作用，本系統設有三層隱藏層，第一層有 40 個神經元，第二層有 50 個神經元，第三層有 30 個神經元。輸出層輸出增強式學習系統中的動作值，故共有 25 個神經元，經由找出輸出最大的動作值，就可以知道在輸入何種狀態之下，應該採取何種動作，才能使報酬極大。圖 11 為本研究的類神經網路架構。. 29.

(36) 政治大. 學. ‧ 國. 立. 圖 11 本研究的類神經網路結構. ‧. 二、損失函數（Loss Function）. y. Nat. er. io. sit. 損失函數用來衡量類神經網路模型的好壞，透過定義損失函數才能使模型有明確的學習目標，本研究採用均方差（Mean Square Error, MSE）為損失函數，其. n. al. 公式如下： 𝑛. MSE =. Ch. 1 ∑(𝑦𝑖 − 𝑦̂𝑖 )2 𝑛. engchi. i n U. v. （23）. 𝑖=1. 當損失函數很小時，代表類神經網路訓練的過程已經收斂。. 30.

(37) 三、超參數（Hyperparameters）的設定. 1. 𝝐 增強式學習透過 𝜖 − 𝑔𝑟𝑒𝑒𝑑𝑦 策略來選擇該採取哪種動作，有 𝜖 的機率會隨機選取動作， 1 − 𝜖 的機率會選取動作價值較高的動作。我們的訓練過程中，會將 𝜖 設為 0.1 和 0.15，比較其結果。. 2. 最佳化演算法. 政治大重組合，讓損失函數極小化的過程。立. 類神經網路的訓練是指透過特定的最佳化演算法，找出網路架構中最佳的權. ‧ 國. 學. 本研究選擇使用 Adaptive Moment Estimation（Adam）（Kinga, D., & Adam, J. B., 2015）和隨機梯度下降法（Stochastic Gradient Descent, SGD）做為使損失函數. ‧. 極小化的演算法。. al. er. io. sit. y. Nat. 3.活化函數. v. n. 活化函數是指由一個神經元透過非線性轉換傳遞到下一個神經元，本研究使. Ch. engchi. i n U. 用 Sigmoid 函數和 Rectified Linear Unit 函數（簡稱 ReLU）作為活化函數。 Sigmoid 函數的公式如下： 𝑓(𝑥) =. 1 1 + 𝑒 −𝑥. （24）. ReLU 函數的公式如下： 𝑌 = 𝑚𝑎𝑥(0, 𝑥). 31. （25）.

(38) 本研究將三種超參數組合成八種訓練模型如下表：. 表 1 八種訓練模型. 最佳化演算法活化函數. 𝛜. 1. Adam. ReLU. 0.1. 2. Adam. ReLU. 0.15. 3. Adam. Sigmoid. 0.1. 4. Adam. Sigmoid. 0.15. 5. SGD. ReLU. 0.15. 政治 ReLU 大 0.1. 立 SGD. 學. ‧ 國. 6. SGD. Sigmoid. 0.1. 8. SGD. Sigmoid. 0.15. ‧. 7. n. er. io. sit. y. Nat. al. Ch. engchi. 32. i n U. v.

(39) 第四章研究結果. 第一節結果分析. 基於第三章的 deep Q-network 架構及不同的超參數組合產生的八組模型，其訓練結果如下表。可以發現，在第一種跟第四種參數組下由增強式學習訓練出來的動態資產. 政治大數組訓練出來的模型卻遠低於對照基準。若能再對超參數以及類神經網路的結立. 配置模型其夏普指數明顯高於固定比例策略以及買進持有策略，而其他六種參. 構進行更多的調整及嘗試，有可能發展出極佳的動態資產配置策略。. ‧ 國. 學. 𝛜. 年化報酬率. 0.1. 10.44%. 0.15. 6.61%. 年化標準差. 夏普指數. ReLU. 14.71%. 0.54. 2. Adam. 12.83%. 0.32. 3. Adam. 12.35%. 0.31. 4. Adam. Sigmoid. 0.15. 10.60%. 14.54%. 0.56. 5. SGD. ReLU. 0.1. 6.56%. 12.57%. 0.32. 6. SGD. ReLU. 0.15. 6.23%. 11.93%. 0.31. 7. SGD. Sigmoid. 0.1. 6.92%. 13.25%. 0.33. 8. SGD. Sigmoid. 0.15. 6.47%. 12.67%. 0.31. n. aReLU l C Sigmoid h. er. Adam. io. 1. sit. y. Nat. 最佳化演算法活化函數. ‧. 表 2 八種訓練模型的結果. v ni. 6.33% e 0.1 ngchi U. 9. 買進持有策略. 7.13%. 11.29%. 0.41. 10. 固定比例投資策略. 8.33%. 12.68%. 0.46. 33.

(40) 第五章結論與建議. 本研究根據增強式學習透過與環境互動來學習以及極大化報酬的特性，建立金融市場的動態資產配置策略。由於市場的波動造成資產價值的變化，故設定每經過 30 天需再重新調整投資組合的配置比例。自美國市場的基金規模最大且發行時間最長的中大型股的股票 ETF 和投資等級的債券 ETF 之中各取一支組成投資組合，將 2007 年 7 月 2 日至 2017 年 6 月 30 日的調整後收盤價轉換成日報酬率以代表資產價值隨著市場波動的變化。. 政治大. 依據 Deep Q-Learning 演算法的架構，定義每次需再調整配置比例時代理人. 立. 會接收到 50 種足以描述市場環境的狀態，並可以執行 25 種配置的動作。最後使. ‧ 國. 學. 用兩種最佳化演算法以及其他不同的超參數，設計出八種配置模型。對於各模型經過訓練和測試後，由結果得知，其中兩種模型的夏普指數明顯高於買進持有策. ‧. 略及固定比例投資策略，可以見得，透過增強式學習來開發動態資產配置策略是. n. al. er. io. sit. y. Nat. 可行的。. i n U. v. Deep Q-Learning 僅能用於處理離散型動作空間的系統，故本研究中增強式. Ch. engchi. 學習定義的動作（意即資產配置權重）只能設計為離散型，但資產配置的權重本應為連續型態的資料，因此只能將動作盡其可能切割得越細越好。但這麼做卻有可能產生高維度的動作空間，而造成維度的災難（curse of dimensionality）。若依 Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D. & Wierstra, D. （2015）的研究，透過 deep deterministic policy gradient 則可以將動作改成連續型，更能符合實際的情況，也更有機會找出報酬極大化的配置策略。在本研究中僅將歷史日報酬率、調整後收盤價以及資產持有股數納入狀態中，但若能將總體經濟的指標、技術分析指標、財經新聞、產業動態等諸多能影響資. 34.

(41) 產配置的因子考量納入系統的環境中，讓每個狀態獲得的資訊更完整，定可以訓練出更佳的策略。本研究僅考慮了兩種資產的配置，但若能增加配置的資產種類，盡量涵蓋到所有的金融商品，更能達到風險分散的效果。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 35. i n U. v.

(42) 參考文獻 [1] Arnott, R. D., Hsu, J., & Moore, P. (2005). Fundamental indexation. Financial Analysts Journal, 61(2), 83-99. [2] Bellman, R.E. 1957. Dynamic Programming. Princeton University Press, Princeton, NJ. Republished 2003: Dover. [3] Daryanani, G. (2008). Opportunistic Rebalancing: A New Paradigm for Wealth Managers. Journal of Financial Planning, 21(1).. 政治大. [4] DeMiguel, V., Garlappi, L., & Uppal, R. (2007). Optimal versus naive diversification: How inefficient is the 1/N portfolio strategy?. The review of. 立. Financial studies, 22(5), 1915-1953.. ‧ 國. 學. [5] Brinson, G. P., Singer, B. D., & Beebower, G. L. (1991). Determinants of portfolio performance II: An update. Financial Analysts Journal, 47(3), 40-48.. ‧. [6] Kaelbling, L. P., Littman, M. L., & Moore, A. W. (1996). Reinforcement learning:. Nat. io. sit. y. A survey. Journal of artificial intelligence research, 4, 237-285.. n. al. er. [7] Kinga, D., & Adam, J. B. (2015). A method for stochastic optimization. In International Conference on Learning Representations (ICLR).. Ch. engchi. i n U. v. [8] Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D. & Wierstra, D. (2015). Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971. [9] Markowitz, H. (1952). Portfolio selection. The journal of finance, 7(1), 77-91. [10] Michaud, R. O. (1998). Efficient Asset Management: a practical guide to stock portfolio management and asset allocation. Financial Management Association, Survey and Synthesis Series. HBS Press, Boston, MA. [11] Michaud, R. O. (1989). The Markowitz optimization ‘optimized’optimal?. Financial Analysts Journal, 45(1), 31-42. 36. enigma:. Is.

(43) [12] Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., Petersen, S., Beattie, C., Sadik, A., Antonoglou, L., King, H., Kumaran, D., Wierstra, D., Legg, S., Hassabis, D. & Petersen, S. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533. [13] Perold, A. F., & Sharpe, W. F. (1988). Dynamic strategies for asset allocation. Financial Analysts Journal, 16-27. [14] Plaxco, L. M., & Arnott, R. D. (2002). Rebalancing a global policy benchmark. The Journal of Portfolio Management, 28(2), 9-22. [15] Sharpe, W. F. (1966). Mutual fund performance. The Journal of business, 39(1), 119-138.. 立. 政治大. ‧ 國. 學. [16] Sharpe, W. F. (1987). Integrated asset allocation. Financial Analysts Journal, 43(5), 25-32.. ‧. [17] Sutton, R. S., & Barto, A. G. (1998). Reinforcement learning: An introduction (Vol. 1, No. 1). Cambridge: MIT press.. y. Nat. sit. n. al. er. io. [18] Watkins, C. J., & Dayan, P. (1992). Q-learning. Machine learning, 8(3-4), 279292.. Ch. engchi. 37. i n U. v.

(44) 附錄. 基金分類. SPY. iShares Core S&P 500 ETF. IVV. 3. Vanguard Total Stock Market. VTI. 美國大型股. S&P 500. 美國大型股. 總開支. (億美元). 比率. 1993 年 1 月 22 日. 2398.3. 0.09%. 2000 年 5 月 15 日. 1165.3. 0.04%. 美國整體. 2001 年 5 月 24 日. 802.2. 0.04%. v BlackRock. 2000 年 5 月 22 日. 394.8. 0.07%. BlackRock. 2000 年 5 月 22 日. 369.6. 0.20%. BlackRock. 2000 年 5 月 22 日. 354.2. 0.20%. S&P 500. BlackRock. CRSP US Total Market Index. Vanguard. io. 股票市場. ETF. 基金規模. State Street. 成立日期. Global Advisors. Nat. 2. ‧ 國. SPDR S&P 500 ETF Trust. 發行公司. 學. 1. 追蹤指數. 立. 代碼. 政治大. n. al. sit. 基金. er. 名稱. （資料來源：www.etf.com）. ‧. 編號. 19 支美國中大型股股票 ETF 基本資料. y. 附錄 1. 4. iShares Core S&P Mid-Cap ETF. IJH. 美國中型股. 5. iShares Russell 1000 Value ETF. IWD. 大型價值型. i MidCap 400 Index n CS&P hengchi U Russell 1000 Value Index. 6. iShares Russell 1000 Growth. IWF. 大型成長型. Russell 1000 Growth Index. ETF. 38.

(45) 編號. 名稱. 基金. 基金分類. 追蹤指數. 發行公司. 成立日期. 代碼. 7. Vanguard Value ETF. VTV. 大型價值型. CRSP US Large Cap Value Index. 8. Vanguard Growth ETF. VUG. 大型成長型. CRSP US Large Cap Growth. 立 VO. 10. SPDR S&P Midcap 400 ETF. MDY. 比率. 2004 年 1 月 26 日. 315.3. 0.06%. Vanguard. 2004 年 1 月 26 日. 270.7. 0.06%. CRSP US Mid Cap Index. Vanguard. 2004 年 1 月 26 日. 196.0. 0.06%. 美國中型股. S&P MidCap 400 Index. State Street. 1995 年 5 月 4 日. 187.7. 0.25%. 2000 年 5 月 15 日. 185.8. 0.15%. 2000 年 5 月 22 日. 179.8. 0.18%. 2001 年 7 月 17 日. 156.1. 0.20%. ‧. Trust. (億美元). Index. 美國中型股. ‧ 國. Vanguard Mid-Cap ETF. 總開支. Vanguard. 學. 9. 政治大. 基金規模. Global Advisors. iShares Russell 1000 ETF. IWB. 美國大型股. Russell 1000 Index. 12. iShares S&P 500 Growth ETF. IVW. 大型成長型. S&P 500 Growth Index. 13. iShares Russell Midcap ETF. IWR. 美國中型股. 14. Guggenheim S&P 500 Equal. RSP. 美國大型股. S&P 500 Equal Weight Index. Guggenheim. 2003 年 4 月 24 日. 135.5. 0.20%. IVE. 大型價值型. S&P 500 Value Index. BlackRock. 2000 年 5 月 22 日. 134.4. 0.18%. n. Russell Midcap Index. Ch. engchi U. y. sit. io. al. BlackRock BlackRock. er. Nat. 11. v BlackRock i n. Weight ETF. 15. iShares S&P 500 Value ETF. 39.

(46) 編號. 名稱. 基金. 基金分類. 追蹤指數. 發行公司. 成立日期. 代碼 iShares Core S&P Total U.S.. ITOT. 美國整體. VV. 美國大型股. 18. iShares Russell 3000 ETF. IWV. 美國整體. 立. ‧ 國. Vanguard Large-Cap ETF. 100.0. 0.03%. CRSP US Large Cap Index. Vanguard. 2004 年 1 月 27 日. 97.1. 0.06%. Russell 3000 Index. BlackRock. 2000 年 5 月 22 日. 78.4. 0.20%. 2000 年 6 月 12 日. 11.2. 0.20%. 政治大. 股票市場美國整體. Dow Jones U.S. Index. BlackRock. Nat. 股票市場. y. IYY. io. sit. iShares Dow Jones U.S. ETF. n. al. er. 19. 比率. 2004 年 1 月 20 日. 學. 17. (億美元) BlackRock. S&P Total Market Index. 股票市場. Stock Market ETF. 總開支. ‧. 16. 基金規模. Ch. engchi. 40. i n U. v.

(47) 附錄 2 15 支美國投資等級的債券 ETF 基本資料編號. 名稱. 基金. 基金分類. 追蹤指數. 發行公司. 成立日期. 代碼投資等級債. 立 LQD. Grade Corporate Bond ETF. 3. Vanguard Total Bond Market. BND. iShares TIPS Bond ETF. TIP. 公司債. Grade Index. 投資等級債. Bloomberg Barclays U.S.. Bloomberg Barclays U.S.. al. n. 美國公債. 5. Vanguard Short-Term Bond ETF. BSV. 475.9. 0.05%. BlackRock. 2002 年 7 月 22 日. 361.1. 0.15%. 2007 年 4 月 3 日. 344.7. 0.05%. 2003 年 12 月 4 日. 230.8. 0.20%. 2007 年 4 月 3 日. 219.4. 0.07%. Vanguard. Aggregate Float Adjusted Index. 抗通膨. io. 4. Markit iBoxx $ Liquid Investment. Nat. ETF. 2003 年 9 月 22 日. Aggregate Bond Index. 投資等級. ‧ 國. iShares iBoxx $ Investment. BlackRock. 學. 2. 比率. y. Bond ETF. 政治大. Bloomberg Barclays U.S.. sit. AGG. (億美元). BlackRock. er. iShares Core U.S. Aggregate. 總開支. ‧. 1. 基金規模. i n C h e(TIPS) Securities i U n gIndex c h(Series-L) Treasury Inflation Protected. 短期政府/. Bloomberg Barclays U.S. 1-5. 投資等級債. Year Government/Credit Float Adjusted Index. 41. v. Vanguard.

(48) 編號. 名稱. 基金. 基金分類. 追蹤指數. 發行公司. 成立日期. 代碼 Bloomberg Barclays U.S. 5-10. 中期債券. Year Government/Credit Float. 立 CSJ. ETF. 8. iShares 1-3 Year Treasury Bond. SHY. iShares MBS ETF. MBB. 短期公司債. Year Credit Bond Index. 美國短期. ICE U.S. Treasury 1-3 Year Bond. 公債. Index. 機構房貸. Bloomberg Barclays U.S. MBS. io. 9. al. n. 抵押債券 10. iShares 20+ Year. TLT. Treasury Bond ETF. 11. iShares 7-10 Year Treasury Bond ETF. IEF. 美國長期. 137.3. 0.07%. BlackRock. 2007 年 1 月 5 日. 118.5. 0.20%. 2002 年 7 月 22 日. 107.8. 0.15%. 2007 年 3 月 13 日. 101.4. 0.28%. BlackRock. 2002 年 7 月 22 日. 80.5. 0.15%. BlackRock. 2002 年 7 月 22 日. 74.2. 0.15%. Adjusted Index. Bloomberg Barclays U.S. 1-3. Nat. ETF. 2007 年 4 月 3 日. 政治大. 投資等級. ‧ 國. iShares 1-3 Year Credit Bond. Vanguard. 學. 7. 比率. BlackRock. y. Bond ETF. 投資等級. sit. BIV. (億美元). BlackRock. er. Vanguard Intermediate-Term. 總開支. ‧. 6. 基金規模. i n C ICEh U.S. e Treasury h iYearU n g c20+ Index. 政府公債. Bond Index. 美國中期. ICE U.S. Treasury 7-10 Year. 公債. Bond Index. 42. v.

(49) 編號. 名稱. 基金. 基金分類. 追蹤指數. 發行公司. 成立日期. 代碼. CIU. 14. 投資等級. 立. Bloomberg Barclays U.S.. 中期公司債. Intermediate Credit Bond Index. 投資等級. Bloomberg Barclays U.S. Long. 長期債券. Government/Credit Float Adjusted Index. 中期政府/. Bloomberg Barclays U.S Intermediate. 投資等級債. Government/Credit Bond Index. io. Government/Credit Bond ETF. GVI. 73.6. 0.15%. BlackRock. 2007 年 1 月 5 日. 72.4. 0.20%. 2007 年 4 月 3 日. 21.8. 0.07%. 2007 年 1 月 5 日. 18.4. 0.20%. n. al. Vanguard. ‧. iShares Intermediate. BLV. 比率. Index. Nat. 15. Vanguard Long-Term Bond ETF. (億美元) 2007 年 1 月 5 日. 學. Bond ETF. 政治大. 總開支. BlackRock. BlackRock. y. iShares Intermediate Credit. ICE U.S. Treasury 3-7 Year Bond. 公債. ETF. 13. 美國中期. sit. IEI. er. iShares 3-7 Year Treasury Bond. ‧ 國. 12. 基金規模. Ch. engchi. 43. i n U. v.

(50) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 44. i n U. v.

(51)