• 沒有找到結果。

強化學習應用於美式選擇權評價 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "強化學習應用於美式選擇權評價 - 政大學術集成"

Copied!
59
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學金融學系研究所 碩士學位論文. 治 政 大 強化學習應用於美式選擇權評價 立 ‧. ‧ 國. 學. Applying Reinforcement Learning to American Option Pricing. er. io. sit. y. Nat. n. a. v. l C 指導教授:江彌修 博士 ni. hengchi U. 研究生:許琳 撰. 中華民國 一百零八 年 六 月. DOI:10.6814/NCCU201900058.

(2) 謝辭. 首先最要感謝的是指導教授江彌修老師,對我論文耐心細心並且溫和的指導, 也常常照顧同學們請客讓大家聚餐。感謝口試委員:徐之強教授、劉祥熹教授以 及許育進研究員騰出寶貴的時間對我的論文給予指導。也非常感謝我主要參考文 獻的作者 Yuxi Li 及 Csaba Szepesvari 對我的問題快速回應,並給予了非常大的幫 助。同時很感謝爸媽在論文期間一直安撫焦慮的我,鼓勵我,在遇到瓶頸時給了. 政 治 大. 很大的幫助。也多虧了同門的同學力帆、晏寧、molly 一直互相照顧,一起討論, 使得論文可以順利完成。. 立. ‧ 國. 學. 研究所兩年時間謝謝許多同學們的陪伴與照顧,什麼事情都可以一起分享 的東杰,總是陪著我去各種地方緩解心情的啟華,一直在學業上給了我巨大幫助. ‧. 的力帆,總是在研究室一起努力一起嘮嗑的大家,都非常非常感謝,這兩年有大. n. al. er. io. sit. y. Nat. 家在一起,真的很開心。. Ch. engchi. i n U. v. 許琳. 國立政治大學. 謹至于. 金融研究所. 民國一○八年六月. DOI:10.6814/NCCU201900058.

(3) 強化學習應用於美式選擇權評價 學生:許琳. 指導教授:江彌修 博士. 國立政治大學金融系 摘要 本文研究了強化學習應用於美式選擇權定價問題,首先,使用 Li, Szepesvari and. 政 治 大 將蘋果公司美式股票選擇權之真實市場數據處理後套用於 LSPI 方法,並將 LSPI 方法與 立. Schuurmans 提出之最小平方策略迭代(LSPI)演算法學習美式賣權履約策略並進行定價,. Tsitsiklis and Van Roy 提出之 FQI 方法和傳統最小平方蒙地卡羅法比較定價準確性。其. ‧ 國. 學. 次,使用符合金融市場之分析方式,將賣權分價內外不同情況分析,並進行敏感度分析,. ‧. 觀察強化學習使用之參數對於定價結果之影響。模擬結果表示,LSPI 方法與 FQI 方法 總體優於 LSM 方法,強化學習對於愈價內之賣權定價愈準確。本文發現強化學習在商. Nat. sit. al. er. io. 討論。. y. 品定價領域仍有很大研究潛力,特別是模擬路徑方式與執行動作多樣性方面值得進一步. n. 關鍵詞:美式選擇權、定價、強化學習、最小平方策略迭代、FQI. Ch. engchi. i n U. v. I. DOI:10.6814/NCCU201900058.

(4) Applying Reinforcement Learning to American Option Pricing Student: Lin Xu. Advisor : Dr. Mi-Hsiu Chiang. Department of Money and Banking, National Chengchi University. Abstract In this paper we apply the reinforcement learning method to American options pricing. We mainly consider the least squares policy iteration (LSPI) proposed by Li, Szepesvari and. 政 治 大 We price AAPL American stock 立option with processed real market data, and compare the Schuurmans(2009) to learn the exercise policy and pricing method of American put options.. ‧ 國. 學. accuracy between LSPI, FQI proposed by Tsitsiklis and Van Roy(2001), and the standard least square Monte Carlo method (LSM). In order to investigate the influence of parameters used. in LSPI on pricing results, the analysis method in financial market, sensitivity analysis is. ‧. carried out under different situations which are divided according to whether the put option is. y. Nat. in-the-money or out-of-the-money. The simulation result shows that LSPI and FQI are. sit. superior to LSM in general, and LSPI is more accurate in pricing deeper in-the-money put. er. io. option. We also find that the reinforcement learning method still has great research potential. n. al. v. in the field of derivatives pricing. In particular, there is a need for further investigation on. i n C simulation method of price path or selecting variety. h e naction gchi U. Keywords:American Option, Pricing, Reinforcement Learning, LSPI, FQI. II. DOI:10.6814/NCCU201900058.

(5) 目錄 第 一 章 簡介.............................................................................................................................1 第 二 章 文獻回顧.....................................................................................................................5 第 三 章 研究方法.....................................................................................................................8 第一節 馬可夫決策過程 MDP ..................................................................................... 9 第二節 近似價值函數................................................................................................. 14 第三節 最小平方策略迭代 LSPI ............................................................................... 18. 政 治 大. 第四節 美式選擇權定價............................................................................................. 20. 立. (⼀) LSPI ................................................................................................ 20. ‧ 國. 學. (⼆) FQI .................................................................................................. 23. ‧. (三) 最小平方蒙地卡羅方法 LSM ....................................................... 24. sit. y. Nat. n. al. er. io. (四) 基函數設定..................................................................................... 25. i n U. v. 第 四 章 實證分析...................................................................................................................27. Ch. engchi. 第⼀節 實證方法......................................................................................................... 27 (一) 模型訓練方法................................................................................. 29 (二) 模型套用及結果............................................................................. 31 第⼆節 敏感度分析..................................................................................................... 42 (一) 股價................................................................................................. 42 (二) 股價變動率..................................................................................... 43 (三) 股價波動率..................................................................................... 44. III. DOI:10.6814/NCCU201900058.

(6) (四) 無風險利率..................................................................................... 45 第 五 章 結論與建議...............................................................................................................46 參考文獻...................................................................................................................................47. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. IV. DOI:10.6814/NCCU201900058.

(7) 圖目錄. 圖 4. 1 評價期間的股價波動及最高股價與最低股價................................................. 28 圖 4. 2 不同到期天數模型訓練結果比較..................................................................... 30 圖 4. 3 履約價 K=170 時,到期日前 2 日至前 81 日 LSPI、FQI、LSM 模型每日預測 賣權價格與市場價格之折線圖及對應之相對誤差折線圖................................... 32 圖 4. 4 履約價 K=175 時,到期日前 2 日至前 81 日 LSPI、FQI、LSM 模型每日預測. 政 治 大. 賣權價格與市場價格之折線圖及對應之相對誤差折線圖................................... 33. 立. 圖 4. 5 履約價 K=180 時,到期日前 2 日至前 81 日 LSPI、FQI、LSM 模型每日預測. ‧ 國. 學. 賣權價格與市場價格之折線圖及對應之相對誤差折線圖................................... 34 圖 4. 6 履約價 K=185 時,到期日前 2 日至前 81 日 LSPI、FQI、LSM 模型每日預測. ‧. 賣權價格與市場價格之折線圖及對應之相對誤差折線圖................................... 35. sit. y. Nat. 圖 4. 7 履約價 K=190 時,到期日前 2 日至前 81 日 LSPI、FQI、LSM 模型每日預測. io. er. 賣權價格與市場價格之折線圖及對應之相對誤差折線圖................................... 36. al. v i n Ch 賣權價格與市場價格之折線圖及對應之相對誤差折線圖................................... 37 engchi U n. 圖 4. 8 履約價 K=195 時,到期日前 2 日至前 81 日 LSPI、FQI、LSM 模型每日預測. 圖 4. 9 履約價 K=200 時,到期日前 2 日至前 81 日 LSPI、FQI、LSM 模型每日預測 賣權價格與市場價格之折線圖及對應之相對誤差折線圖................................... 38 圖 4. 10 履約價為 170-200 時 LSPI、FQI 與 LSM 之平均相對誤差 ........................ 39 圖 4. 11 履約價為 170-200 時 LSPI、FQI 與 LSM 之平均相對誤差標準差 ............ 40 圖 4. 12 履約價為 170-200 時 LSPI、FQI 與 LSM 之均方根誤差 ............................ 41 圖 4. 13 股價上升一單位與下降一單位時,不同價內外程度 LSPI 定價價格之相對 變動........................................................................................................................... 43. V. DOI:10.6814/NCCU201900058.

(8) 圖 4. 14 股價變動率上升 1%與下降 1%時,不同價內外程度 LSPI 定價價格之相對 變動........................................................................................................................... 43 圖 4. 15 股價波動率上升 1%與下降 1%時,不同價內外程度 LSPI 定價價格之相對 變動........................................................................................................................... 44 圖 4. 16 無風險利率上升 1%與下降 1%時,不同價內外程度 LSPI 定價價格之相對 變動........................................................................................................................... 45. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. VI. DOI:10.6814/NCCU201900058.

(9) 表目錄. 表 1 原始資料形式............................................................................................................. 29 表 2 縮放後資料形式......................................................................................................... 29 表 3 模型由縮放資料訓練後得到之模擬價格與實際價格縮放值之相對誤差數據..... 30 表 4 履約價 K=170 時所有到期日相對誤差之平均值與標準差 ................................... 32 表 5 履約價 K=175 時所有到期日相對誤差之平均值與標準差 ................................... 33. 政 治 大. 表 6 履約價 K=180 時所有到期日相對誤差之平均值與標準差 ................................... 34. 立. 表 7 履約價 K=185 時所有到期日相對誤差之平均值與標準差 ................................... 35. ‧ 國. 學. 表 8 履約價 K=190 時所有到期日相對誤差之平均值與標準差 ................................... 36. ‧. 表 9 履約價 K=195 時所有到期日相對誤差之平均值與標準差 ................................... 37. sit. y. Nat. 表 10 履約價 K=200 時所有到期日相對誤差之平均值與標準差 ................................. 38. io. al. er. 表 11 履約價 170-200 時 LSPI、FQI 與 LSM 之平均相對誤差 .................................... 39. v. n. 表 12 履約價 170-200 時 LSPI、FQI 與 LSM 之平均相對誤差標準差 ........................ 40. Ch. engchi. i n U. 表 13 履約價 170-200 時 LSPI、FQI 與 LSM 之均方根誤差 ........................................ 41 . VII. DOI:10.6814/NCCU201900058.

(10) 第 一 章 簡介 選擇權是一種金融市場中很常見且大量交易量的衍生性商品之一, 主要用於避險與風險管理。因此對於選擇權的評價是許多學者關心的問 題,目前仍是一個具有挑戰性的議題。最先提出的定價方法為 1973 年的 Black and Scholes 模型,此模型為歐式選擇權定價提出了封閉形式解, 為之後選擇權定價的研究奠定了基礎。實際交易市場中,除了歐式選擇 權 以 外 , 還 有 美 式 選 擇 權 、 亞 式 選 擇 權 (Asian option)、 百 慕 達 選 擇 權. 治 政 大 (Bermudan option)、界線選擇權(barrier option)等等履約條件、履約時間 立 各不相同的選擇權形式。此外選擇權的標的資產也有股票、公債、外匯、. ‧ 國. 學. 股價指數、波動度等。這些選擇權形式與特徵的多樣化均會加大定價的. ‧. 難度。. Nat. sit. y. 美式選擇權最大的特性是具有提前履約的權利,因為履約時間的不. n. al. er. io. 確定,導致美式選擇權定價公式無法找到封閉解,也就是解析解,目前. i n U. v. 對於這個問題的大多數解法均為近似解或數值方法。最基礎衍生品評價. Ch. engchi. 的數值方法是 Cox, Ross and Rubinstein 在 1979 年提出的二項式模型 (Binomial Option Pricing Model),這是一種簡單動態規劃方法,假設股 價變動為間斷的,在可以構建完整二項樹的前提下,美式選擇權可以判 斷每一節點是否會提前履約,從而得到定價結果。然而這個方法僅適用 於標的資產沒有股息分配的選擇權,否則決策樹大小會呈指數成長,並 且實際操作時,稍微複雜的衍生品就無法建立完整的決策術,這時便產 生 “ 維 數 災 難 ” , 導 致 計 算 困 難 。 蒙 地 卡 羅 模 擬 法 (Monte Carlo Simulation)的應用範圍則較廣,是利用大數法則的概念,用隨機模型(例. 1. DOI:10.6814/NCCU201900058.

(11) 如布朗運動)模擬數條股價模擬跳動路徑,分別計算每一條路徑上選擇 權的價值,折現後取平均值便可得到選擇權當前價格,適用於路徑相依 形式的選擇權定價。Longstaff and Schwartz 在 2001 年的研究中提出最小 平方蒙地卡羅法(LSM, Least-Squares Monte Carlo Simulation),使用回歸 的方法決定美式選擇權在蒙地卡羅模擬法中的路徑上何時履約的問題, 大幅提高了美式選擇權的定價準確度。同時也有有限差分法的數值分析 法,將偏微分方程轉為差分方程進而求解,解決自由邊界的問題,計算 結果通常很準確,但缺點是通用性低,不容易用於評價路徑相依選擇權 及多個標的資產的選擇權。. 立. 政 治 大. 從根本來說,對於美式選擇權定價最主要的問題便是尋找最佳履約. ‧ 國. 學. 策略,找到最佳履約時間就可以準確計算出選擇權價值,從這個角度可. ‧. 以 將 美 式 選 擇 權 定 價 看 作 馬 可 夫 決 策 過 程 模 型 (MDP, Markov Decision. sit. y. Nat. Process)下的最佳控制問題。馬可夫決策過程是一個時間離散型的隨機控. io. er. 制過程,在一個隨機的系統中,每一個時間點時系統都擁有一種狀態 (state),在這個狀態下執行一個動作(action),系統會依據這個狀態和這. al. n. v i n Ch 個動作隨機地移動到下一個狀態,同時得到一個獎勵(reward)。系統的狀 engchi U. 態僅與前一期狀態中的信息有關,而這整個過程的目標就是極大化總體 獎勵的期望值。因此可以發現,這個決策過程與美式選擇權的定價步驟 非常相似。 強 化 學 習 方 法 (RL, Reinforcement learning)便 是 用 於 解 決 馬 可 夫 決 策過程問題的模型,可以分為以值函數為中心的近似動態規劃方法 (approximate dynamic programming methods)和以策略為中心的策略梯度 方法(Policy gradient methods)。因美式選擇權重點在於評價,所以適用 與前一方法。動態規劃方法還可細分為策略迭代算法和值迭代算法。 2. DOI:10.6814/NCCU201900058.

(12) 強化學習中設定的環境就是以馬可夫決策過程為基礎,試圖尋找一 個對於這個環境的最佳策略。當馬可夫決策過程規模很大時,一樣會面 臨到“維數災難”,強化學習可以利用不同的有效近似方法解決這個問 題。並且過去對於美式選擇權多在討論定價方面,使用強化學習方法不 僅 可 以 進 行 定 價 還 可 以 學 習 得 出 履 約 策 略 。 Li, Szepesvari and Schuurmans 在 2009 的文章中將 Lagoudakis and Parr(2003)提出的近似 策略迭代方法,最小平方策略迭代(LSPI, Least square policy iteration)和 Tsitsiklis and Van Roy 在 2001 提出的 FQI 方法(Fitted Q-Iteration)擴充應. 政 治 大. 用至美式選擇權定價,再與傳統最小平方蒙地卡羅法進行結果比較,本. 立. 文將沿用 Li, Szepesvari and Schuurmans 文章中提到的這三種方法進行研. ‧ 國. 學. 究。. ‧. 最小平方策略迭代、FQI 和最小平方蒙地卡羅方法的共同點為均為. sit. y. Nat. 尋找一組權重計算每一個可履約點的繼續持有價值,與履約價值進行比. io. er. 較而決定履約時間點。LSM 通過回歸方程計算得到權重矩陣,強化學習. al. 策略迭代方法通過生成一串單調改進的策略,不斷迭代得到最佳策略及. n. v i n Ch 其對應的權重向量,所以這三個方法具有一定可比性。並且 engchi U. LSM 方法. 在傳統美式選擇權評價中是實用性極高並且常用於比較基準的方法,故 選擇最小平方蒙地卡羅法 LSM 為比較方法,判定強化學習定價之準確 性。 本文與前文最大不同為使用與先前論文不同的實證方法分別對這三 種模型進行訓練及測試。過往文獻中進行實證分析的方法為通過視窗技 術(windowing technique),僅針對價平選擇權逐日移動得到不同之股價路 徑以訓練模型,再利用從到期日股價逆向回推至發行日股價之方法得到 用於測試之股價路徑。本文認為此訓練路徑趨勢具有很大相似性並且模 3. DOI:10.6814/NCCU201900058.

(13) 型用於測試時使用已知之股價路徑用於未來趨勢預測較不合理,因此使 用縮放之參數模擬路徑訓練模型學習履約策略,並使用當日之真實市場 參數模擬股價路徑測試模型得到模擬價格。前文使用之實證結果呈現方 式為各模型之報酬率大小比較,本文是將結果與實際市場最新交易價比 較模型定價對於市場價格預測之準確度。將結果按照選擇權分析之方法 分不同履約價進行結果討論,比較價內價平價外不同狀況之影響。同時 還會進行敏感度分析,用於探討各種模型所需之參數的變動對於 LSPI 及 FQI 評價結果之影響,比較說明模型結果之效果及與市場狀況及傳統 選擇權理論之貼合度。. 立. 政 治 大. 本文後續章節主要內容依序為第二章之文獻回顧,對過去衍生性商. ‧ 國. 學. 品定價及強化學習相關文獻進行回顧;第三章為研究方法及模型描述,. ‧. 詳細描述 LSPI、FQI 模型並簡單介紹 LSM 計算步驟;第四章為實證分. sit. y. Nat. 析,利用那斯達克交易所之真實美式選擇權資料及金融市場現況資料進. io. al. er. 行模型套用並呈現數值結果;接著針對股價、股價變動度、股價波動度、. n. 無風險利率四個參數進行敏感度分析,最後於第五章總述本文結論。. Ch. engchi. i n U. v. 4. DOI:10.6814/NCCU201900058.

(14) 第 二 章 文獻回顧 對 於 選 擇 權 , 目 前 最 基 礎 並 普 遍 被 認 可 的 定 價 方 式 為 Black and Scholes(1973)提出的定價模型,利用無套利組合創造出價格的偏微分方 程式,加上市場之邊界條件,通過熱傳導公式得到偏微分方程封閉解, 也就是廣為人知的 Black-Scholes 方程。此方法僅能提供歐式選擇權價格 的封閉解。. 政 治 大 式 選 擇 權 定 價 的 解 析 方 法 有 Roll-Geske-Whaley 立. 因此對於美式選擇權的準確評價便成為學者們關心的問題。目前美 模型,這個方法由. ‧ 國. 學. Roll(1977)首次提出,Geske(1979)進行擴充,Whaley(1981)修改了一些推 導過程中的錯誤。此模型將美式選擇權拆分為不同長度的歐式選擇權,. ‧. 來計算單次付息的美式買權價格。但是付息時間不在選擇權期間時,便. sit. y. Nat. 會失效,並且 Hang and Lewis(2003)發現這個方法存在錯誤。並且此方. n. al. er. io. 法僅可評價股息為已知且離散的股票賣權,因此 Geske and Johnson (1984). i n U. v. 研究出美式賣權價值的計算方法,這個方法雖然較有效並且更直觀,但. Ch. engchi. 因其需要估計累計雙變量、三變量等複雜的參數,故在計算二十次後依 舊耗費巨大。Barone-Adesi and Whaley(1987)提供了準確且計算耗能小的 方 法 以 計 算 標 的 為 商 品 或 商 品 期 貨 之 買 權 與 賣 權 價 值 。 Medvedev and Scaillet(2010)提出新的數學方法推導出美式選擇權近似解析解。 Boyle(1977)提出蒙地卡羅模擬法評價歐式選擇權,Tilley(1993)最早 開 始 討 論 如 何 將 蒙 地 卡 羅 模 擬 法 應 用 於 美 式 選 擇 權 , 直 到 2001 年 Longstaff and Schwartz 提出了可以用於美式選擇權的最小平方蒙地卡羅 方法(Least-Squares Monte Carlo Method),利用回歸方程決定每個時間點 5. DOI:10.6814/NCCU201900058.

(15) 選擇權持續價值,解決了美式選擇權最佳履約點的問題,這個方法至今 仍被廣泛使用中。 選擇權評價之數值方法還有二項式評價模型,最初由 Sharpe(1978) 及 Cox, Ross and Rubinstein(1979)提出,日後大部分研究皆以 Cox, Ross 及 Rubinstein 的論文作為參考文獻,故又稱為 CRR 模型。歐式與美式 選擇權皆可用此方法評價,Boyle(1986)提出三項樹評價模型,其收斂速 度通常優於二項樹評價模型,應用於沒有股息分配等基礎選擇權時效果 較好。. 政 治 大 另一種數值方法有限差分法最早由 Brennan and Schwartz(1977)提出, 立. ‧ 國. 學. 主要分為顯式有限差分法(Explicit Finite Difference Method)和隱式有限 差分法 (Implicit Finite Difference Method)。. ‧. 關於強化學習方面,馬可夫過程由 Howard(1960)、Lindsey(1963)、. y. Nat. io. sit. Cook(1966)、Bellman(1977)等學者應用於各方面決策判斷後,相關的研. n. al. er. 究逐漸增多,被廣泛應用於人工智慧、機器人技術、經營管理決策等方. Ch. i n U. v. 面。用於解決馬可夫過程的強化學習演算法也層出不窮,Powell(2007)、. engchi. Wiering(2012)、Sutton and Barto(2014)都對相關演算法進行了介紹。 利用馬可夫過程尋找美式選擇權最佳履約策略進而定價的方法,最 早由 Tsitsiklis and Van Roy(2001)提出,採用反向遞歸動態規劃方法,用 最小平方回歸的線性估計法來逼近美式選擇權的期望繼續持有價值。 Lagoudakis and Parr (2003)提 出 最 小 平 方 策 略 迭 代 (LSPI, least square policy iteration) 這 一 種 近 似 策 略 迭 代 方 法 , Li, Szepesvari and Schuurmans(2009)將這個方法擴充並套用於實際選擇權市場數據,計算 美式選擇權報酬。Dubrov(2015)繼續將先前的方法擴充應用到可轉讓債 6. DOI:10.6814/NCCU201900058.

(16) 券評價上,並再提出隨機森林法進行比較。 本文以 Li, Szepesvari and Schuurmans(2009)中討論的 LSPI、FQI 模 型與 LSM 模型使用較為符合市場交易方式之實證方法進行比較,更為 細節性的討論三種方法的差異。下一章即為本文研究方法介紹與其他基 本假設之詳述內容。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 7. DOI:10.6814/NCCU201900058.

(17) 第 三 章 研究方法 強化學習為機器學習中的一類,強調如何基於環境而行動,以取得最 大化的預期利益,解決如何在一個隨機環境中學習最佳行為策略之問題。 強化學習可以說是以馬可夫決策過程(MDP, Markov Decision Process) 作為基礎的模型,設定了狀態、動作在環境中之關係與相互作用之影響, 設定了強化學習所需之參數變量。在這個環境下決定最佳策略之方法是利. 政 治 大 曼提出之動態規劃技巧將狀態函數轉換為可迭代之形式,用策略迭代方法 立 用尋找這個最佳策略對應之最佳狀態函數,許多強化學習演算法利用貝爾. ‧ 國. 學. 不斷進行策略評估及優化直至收斂,從而得到最佳策略。 但因貝爾曼方程僅為動態規劃之理論方法,實際計算有困難,因此使. ‧. 用線性近似法中之最小平方不動點估計法近似得到價值函數,保留原本函. y. Nat. er. io. sit. 數之計算功能與計算值。. 最小平方策略迭代(LSPI, least square policy iteration)將矩陣形式之近. al. n. v i n Ch 似價值函數用樣本抽樣的方式學習得到近似之最佳策略。學習的策略與新 engchi U 樣本不斷相互作用影響狀態函數價值同時更新策略,便形成強化學習之演 算法。FQI 方法(Fitted Q-iteration)在 LSPI 方法的基礎上多增加了一項逼近 條件進行迭代。 3.1 節為強化學習基礎環境馬可夫決策過程之設定,3.2 節使用最小平 方不動點迭代方法得到近似價值函數,3.3 節說明最小平方策略迭代之計 算方法,3.4.1 節將 LSPI 整體過程套用到美式選擇權定價情況上,3.4.2 節 擴展出 FQI 方法,3.4.3 節簡單介紹用於比較之傳統方法最小平方蒙地卡羅 法,3.4.4 節為三種方法之基函數設定。 8. DOI:10.6814/NCCU201900058.

(18) 第一節 馬可夫決策過程 MDP 強化學習之基礎環境是馬可夫決策過程,此過程假定時間為離散形式, 在間斷的時間點𝑡" , 𝑡$ , 𝑡% ,…之下均有一個對應的狀態𝑠" , 𝑠$ , 𝑠% ,…, 這些狀態 𝑠' ∈ 𝑆。在每個時間點,執行一個動作𝑎' ∈ 𝐴,使得環境移動到下一個狀態 𝑠',$ ∈ 𝑆,同時獲得一個獎勵𝑟',$ ∈ 𝑅。 馬可夫性質是指下一個狀態僅由當前狀態及當前動作決定,與之前的 狀態無關。當前狀態𝑠' 其實是隱含了所有相關的歷史信息𝑠" , 𝑠$ , 𝑠% ,…,一旦. 政 治 大. 當前狀態已知,歷史信息將會被拋棄。馬可夫決策過程滿足馬可夫性質。. 立. 折現之和𝑟" + 𝛾𝑟$ + 𝛾 % 𝑟% + ⋯ =. 學. ‧ 國. 馬可夫過程的目標是要最大化長期的獎勵總值,可以定義為每期獎勵 3 ' '4" 𝛾 𝑟',𝛾為折現因子,0. < 𝛾 < 1。折現因. sit. y. Nat. 大。. ‧. 子會隨著期數增多而減少,代表這個極大化目標與愈近期的獎勵關聯性愈. n. al. er. io. 將馬可夫過程總結為五個參數(𝑆, 𝐴, 𝑃, 𝑅, 𝛾)的過程。𝑆為狀態的集合,𝐴. i n U. v. 為動作的集合,𝑃 𝑠 < , 𝑠, 𝑎 = 𝑃(𝑠 < |𝑠, 𝑎)代表狀態𝑠時執行動作𝑎後,環境跳動 <. Ch. engchi. 至下一狀態𝑠 的機率。𝑅 𝑠, 𝑎 為狀態𝑠時執行動作𝑎所獲得之報酬,為期望值 形式𝐸[𝑅',$ |𝑠' = 𝑠],𝛾為折現因子。 策略π是在給定狀態下尋找一種規則以決定所要執行的動作,將π(𝑠, 𝑎) 定義為在狀態𝑠的環境下,根據策略π選擇動作𝑎的概率。由於策略是隨機 的,所以對應的獎勵總值也是隨機的,為了得到一個確定值來計算每一個 狀態的價值,狀態價值函數可以表達為這個狀態之後所有獎勵的折現總值 之期望:. 9. DOI:10.6814/NCCU201900058.

(19) 3. 𝐺' = 𝑟',$ + 𝛾𝑟',% + 𝛾 % 𝑟',G + ⋯ =. H4". 𝛾 H 𝑟',H,$. (3.1). 𝑉 C 𝑠 = Ε[𝐺' |𝑠' = 𝑠]. (3.2). 𝑄C 𝑠, 𝑎 = Ε[𝐺' |𝑠' = 𝑠, 𝑎' = 𝑎]. (3.3). 而動作價值函數定義為:. 政 治 大. 價值函數表達了一個狀態的表現如何或一個狀態下執行某個動作的表現如. 立. 何。. ‧ 國. 學. Bellman(1957)提出貝爾曼方程(Bellman Equation),也被稱作動態規劃 方程(Dynamic Programming Equation),目的是動態規劃這種數學最佳化函. ‧. 數能夠達到最佳化的必要條件。此方程將決策問題在特定時間點的值分為. y. Nat. io. sit. 初始動作得到的獎勵和由初始動作衍生的決策問題的值兩個部分表示。 首. n. al. er. 先將狀態價值函數改寫為:. Ch. engchi. i n U. v. 𝑉 C 𝑠 = ΕC 𝑟',$ + 𝛾𝑟',% + 𝛾 % 𝑟',G + ⋯ 𝑠' = 𝑠 = ΕC 𝑟',$ + 𝛾(𝑟',% + 𝛾 % 𝑟',G + ⋯ ) 𝑠' = 𝑠 = ΕC 𝑟',$ + 𝛾𝐺',$ 𝑠' = 𝑠 = ΕC 𝑟',$ + 𝛾𝑉 C (𝑠',$ ) 𝑠' = 𝑠 = ΕC 𝑟',$ + 𝛾𝑉 C (𝑠',$ ) 𝑠' = 𝑠. (3.4). 狀態價值便拆分為兩個部分,前一部分為當前狀態動作得到的獎勵, 可計算為: 10. DOI:10.6814/NCCU201900058.

(20) ΕC 𝑟',$ 𝑠' = 𝑠 =. 𝑃 𝑠 < 𝑠, 𝑎 𝑅(𝑠, 𝑎). 𝜋 𝑠, 𝑎. (3.5). KL. J. 後一部分為下一個狀態價值:. ΕC 𝛾𝑉 C (𝑠',$ ) 𝑠' = 𝑠 =. 𝑃 𝑠 < 𝑠, 𝑎 𝛾𝑉 C (𝑠 < ). 𝜋 𝑠, 𝑎. (3.6). KL. J. 因此在貝爾曼方程式之下,狀態價值函數寫為: 3. 𝑉 C 𝑠 = ΕC [. 立. 學. ‧ 國. H4". =. 政 治 大. 𝛾 H 𝑟',H,$ |𝑠' = 𝑠]. 𝑃 𝑠 < 𝑠, 𝑎 [ 𝑅 𝑠, 𝑎 + 𝛾𝑉 C (𝑠 < )]. 𝜋 𝑠, 𝑎 KL. J. (3.7). ‧. 動作價值函數之推導過程如下:. y. Nat. er. io. sit. 𝑄C 𝑠, 𝑎 = ΕC 𝑟',$ + 𝛾𝑟',% + 𝛾 % 𝑟',G + ⋯ 𝑠' = 𝑠, 𝑎' = 𝑎. n. 3 a v = ΕC [𝑟',$ +l 𝛾 𝛾 H 𝑟',H,% | 𝑠' = 𝑠, 𝑎' = i𝑎] n CH4"h engchi U 3. 𝛾 H 𝑟',H,% | 𝑠',$ = 𝑠]]. = ΕC [𝑟',$ + 𝛾ΕC [ H4". 3. = ΕC [𝑟',$ + 𝛾. 𝛾 H 𝑟',H,% | 𝑠',$ = 𝑠, 𝑎',$ = 𝑎′]]. ΕC [ JL. H4". 𝑃 𝑠 < 𝑠, 𝑎 [ 𝑅 𝑠, 𝑎 + 𝛾. = KL. 𝑄C (𝑠 < , 𝑎′)]. (3.8). JL. 貝爾曼方程將當前狀態的價值函數與下一期之函數產生關聯,保證了這些 11. DOI:10.6814/NCCU201900058.

(21) 函數可以被迭代。 計算狀態價值函數的目的是為了從數據中構建學習算法得到最佳策略。 每個策略都有相對應的一個狀態價值函數,最佳策略對應着最佳的狀態價 值函數。在有限狀態及動作集合之下,定義總是存在最佳策略π∗ ,但不一 L. 定是唯一。若𝑉 C (𝑠) ≥ 𝑉 C (𝑠),則一定代表𝜋 > π<,策略𝜋優於π<,因此最佳 狀 態 價 值 函 數 為 𝑉 ∗ 𝑠 = 𝑚𝑎𝑥C 𝑉 C (𝑠) , 最 佳 動 作 價 值 函 數 為 𝑄∗ 𝑎, 𝑠 = 𝑚𝑎𝑥C 𝑄C (𝑎, 𝑠)。他們對應之貝爾曼最優方程為:. 𝑉 ∗ 𝑠 = max J. KL. 學. ‧ 國. 立. 𝑄∗ 𝑠, 𝑎 =. 政 治 大. 𝑃 𝑠 < 𝑠, 𝑎 [ 𝑅 𝑠, 𝑎 + 𝛾𝑉 ∗ (𝑠 < )]. 𝑃 𝑠 < 𝑠, 𝑎 [ 𝑅 𝑠, 𝑎 + 𝛾 max 𝑄∗ (𝑠 < , 𝑎′)] J. KL. (3.9). (3.10). ‧. 當馬可夫過程的五個參數均已知的情況下,可以使用動態規劃方法. y. Nat. io. sit. (Dynamic Programming)來求解。使用動態規劃需滿足兩個條件:1、問題. n. al. er. 的最優解可由若干小問題的最優解所構成,即可通過尋找子問題的最優解. Ch. i n U. v. 以得到問題之最優解;2、子問題間非獨立,存在遞推關係,一個子問題在. engchi. 下一階段決策中可能被重複利用。通過貝爾曼方程已經將馬可夫過程轉換 為滿足這兩個條件的過程。 動態規劃中策略迭代(Policy Iteration)的方法主要由兩部分組成:迭 代法策略評估(Iteration Policy Evaluation)和策略優化。迭代法策略評估是 利用給定的策略,計算(3.9)式的解。(3.9)式唯一的未知數為各個狀態 下之價值函數,可以看作有|𝑆|個未知數和|𝑆|條方程的線性方程組。任意設 定一個初始價值函數,利用貝爾曼方程反向迭代:. 12. DOI:10.6814/NCCU201900058.

(22) 𝑉H,$ (𝑠) =. 𝑃 𝑠 < 𝑠, 𝑎 [ 𝑅 𝑠, 𝑎 + 𝛾𝑉H (𝑠 < )]. 𝜋 𝑠, 𝑎. (3.11). KL. J. 每 次 迭 代 過 程 中 , 用 所 有 狀 態 s 的 第 k 次 迭 代 得 到 的 𝑉H (𝑠 < )來 計 算 𝑉H,$ (𝑠)的值,反覆迭代後,𝑉H (𝑠 < )與𝑉H,$ (𝑠)的差值會逐漸縮小,收斂到所有 狀態下𝑉 C (𝑠)的穩定值。策略優化是進行策略改進的方法,在已知當前策略 價值函數時,在每個狀態下採用貪婪策略(greedy policy)改進當前策略,在 每個狀態下選擇的動作是其能夠到達後續所有可能狀態中狀態價值最大的. 政 治 大. 那個動作。表示為:. 立. 𝜋H,$ 𝑠 = 𝑎𝑟𝑔 max 𝑄CX (𝑠, 𝑎). (3.12). ‧ 國. 學. J. ‧. 𝜋H,$ 至少要不差於𝜋H 。. sit. y. Nat. 策略迭代的執行步驟如下:. 2.. 對當前策略進行策略評估. 3.. 利用策略評估得到的值改進策略. 4.. 重複 2、3 的步驟直到收斂(|𝑉H,$ 𝑠 − 𝑉H 𝑠 |小於某個程度). n. al. er. 任意選擇一個初始策略與所有狀態的初始價值(例如都設置為 0). io. 1.. Ch. engchi. i n U. v. 通過策略迭代最終可以找到每個狀態最佳的策略與其相對應的價值函數。. 13. DOI:10.6814/NCCU201900058.

(23) 第二節 近似價值函數 從策略迭代方法可以看出,每次迭代都需要改變所有狀態的值,當狀 態空間非常大甚至接近無窮大時,這個方法也面臨了“維數災難”問題, 因此可以用近似架構將迭代函數泛化並表示為參數形式,線性組合是一個 有效的近似方法。 將𝑄C 𝑠, 𝑎; 𝑤 定義為權重為𝑤的𝑄C 𝑠, 𝑎 的近似結構,這個近似方法不僅 得到一個近似原函數的值,還保留了原函數的計算能力,也就是近似方法. 政 治 大. 的函數在算法計算中可以做到與原函數近似的功能。線性組合方法下,行. 立. 向量大小為 S |A|的策略𝜋之價值函數𝑄C (𝑠, 𝑎)可以表達為𝑘個基函數組成的. ‧ 國. 學. 𝑄 𝑠, 𝑎; 𝑤 =. ‧. H C. 𝜙_ (𝑠, 𝑎)𝑤_. sit. Nat. _4$. (3.13). y. 線性集合:. n. al. er. io. 其中𝜙_ , 𝑖 = 1,2, … , 𝑘.是一些任意決定的線性獨立基函數,以保證沒有多餘權. i n U. v. 重 , 𝑤_ 為 基 函 數 對 應 之 權 重 集 合 , 定 義 𝜙(𝑠, 𝑎)為 下 列 形 式 長 度 為 𝑘之 行 向 量:. Ch. engchi. 𝜙 𝑠, 𝑎 =. 𝜙$ 𝑠, 𝑎 𝜙% 𝑠, 𝑎 … 𝜙H 𝑠, 𝑎. ,. (3.14). 將𝑄C 表達式轉換為:. 𝑄C = Φ𝑤 C. (3.15). 14. DOI:10.6814/NCCU201900058.

(24) 𝑤 C 為包含所有權重長度為𝑘之行向量,矩陣Φ大小為(|S||A|×𝑘),形式如下:. 𝑤h =. 𝑤$C 𝑤%C , … 𝑤HC. 𝜙(𝑠$ , 𝑎$ )h 𝜙(𝑠% , 𝑎% )h , … 𝜙(𝑠|i| , 𝑎|j| )h. Φ=. (3.16). Φ中每一列都包含了某一個狀態-動作組合(s, a)的所有基函數值,每一行包 含一個基函數在所有狀態-動作組合上的價值。因基函數為線性獨立,故Φ 的每一列也均為線性獨立。. 政 治 大 接下來就需要尋找一個方式來計算固定策略π下可以用於近似𝑄 的𝑄 。 立 C. C. ‧ 國. 學. Lagoudakis and Parr(2003)已比較貝爾曼殘差最小化近似(Bellman Residual Minimizing Approximation) 和 最 小 平 方 不 動 點 近 似 (Least-Squares. a l最 小 平 方 固 定 點 近 似 法 使 用 之i符v號 n Ch U engchi. n 表 1. 符號. sit. io. 先對此方法會使用到的符號進行說明:. er. Nat. 好。因此本文僅介紹最小平方不動點近似法。. y. ‧. Fixed-Point Approximation)這兩種近似方法。用實證證據證明後者的效果較. 類型. 大小. 含義. 𝑄C. 行向量. |S||A|×1. 價值函數. 𝑅. 行向量. |S||A|×1. 獎勵. 𝑃. 矩陣. |S||A|×|S|. 過渡機率. ΠC. 矩陣. |S|×|S||A|. 策略. Φ. 矩陣. |S||A|×𝑘. 基函數值. 𝑤. 行向量. 𝑘×1. 近似函數權重. 15. DOI:10.6814/NCCU201900058.

(25) 定義一個貝爾曼算子(Bellman operator) 𝑇C,把貝爾曼方程中的𝑄C 換成被作 用的𝑄函數:. 𝑃(𝑠 < |𝑠, 𝑎). 𝑇C 𝑄 𝑠, 𝑎 = 𝑅 𝑠, 𝑎 + 𝛾 KL. 𝜋 𝑎< 𝑠 < 𝑄(𝑠 < , 𝑎< ) (3.17) JL. 矩陣形式寫為:. 𝑇C 𝑄 = 𝑅 + 𝛾𝑃ΠC 𝑄,. (3.18). 治 政 大 對於任何的初始向量𝑄,連續應用𝑇 後都會收斂至策略𝜋的動作價值函數𝑄 。 立 C. C. 𝑄C 是貝爾曼算子的不動點(fixed point):. ‧ 國. 學 ‧. 𝑇C 𝑄C = 𝑄C ,. y. Nat. n. er. io. sit. 因此近似方程也應是這個貝爾曼算子的不動點:. al. (3.19). 𝑇C 𝑄C ≈ 𝑄C. Ch. engchi. i n U. v. (3.20). 𝑄C 是落在近似價值函數的空間內,但𝑇C 𝑄C 可能不會落在這個空間內,因此 要 使 用 正 交 投 影 Φ(Φh Φ)l$ Φh 𝑇C 𝑄C 。 這 個 正 交 投 影 可 最 小 化 歐 氏 距 離 (L% -norm),使等式(3.20)成立。其中Φ是前文說明的每行之間線性獨立 的基函數值矩陣,因此Φ中行空間的正交投影是被明確定義的。方程(3.20) 變為: Φ(Φh Φ)l$ Φh 𝑇C 𝑄C = 𝑄C Φ Φh Φ. l$. Φh (𝑅 + 𝛾𝑃ΠC 𝑄C ) = 𝑄C 16. DOI:10.6814/NCCU201900058.

(26) Φ Φh Φ Φ Φh Φ. l$. Φh Φ. l$. Φh (𝑅 + 𝛾𝑃ΠC Φ𝑤 C ) = Φ𝑤 C . Φh 𝑅 + 𝛾𝑃ΠC Φ𝑤 C − 𝑤 C = 0. l$. Φh 𝑅 + 𝛾𝑃ΠC Φ𝑤 C − 𝑤 C = 0. Φh Φ. l$. Φh 𝑅 + 𝛾𝑃ΠC Φ𝑤 C = 𝑤 C Φh 𝑅 + 𝛾𝑃ΠC Φ𝑤 C = Φh Φ 𝑤 C . Φh Φ − 𝛾𝑃ΠC Φ 𝑤 C = Φh 𝑅 (𝑘×𝑘). (𝑘×1). 通過上述方程的處理,得到一個𝑘條方程𝑘個未知數的線性方程組,𝑘為基. 政 治 大. 函數個數。這個方程組的解為:. 學. ‧ 國. 立. 𝑤 C = (Φh Φ − 𝛾𝑃ΠC Φ )l$ Φh 𝑅. (3.21). ‧. 還可以用加權正交投影的方式取代原本的正交投影以控制近似誤差的分佈。. sit. n. al. er. io. 因此將解改寫為:. y. Nat. 假設µ為(𝑠, 𝑎)上的機率分佈,∆q 是表示了(S×A)下µ(𝑠, 𝑎)信息的對角矩陣,. Ch. engchi. i n hU. 𝑤 C = (Φh ∆q Φ − 𝛾𝑃ΠC Φ )l$ Φ ∆q 𝑅. v. (3.22). 通過這個方法得到𝑤 C 再用於計算𝑄C 近似函數𝑄C 的方法就稱為最小平方不 動點近似法。. 17. DOI:10.6814/NCCU201900058.

(27) 第三節 最小平方策略迭代 LSPI 上一小節中得到了價值函數的近似方程為:. Φh ∆q Φ − 𝛾𝑃ΠC Φ 𝑤 C = Φh ∆q 𝑅. (3.23). 將此方程寫為𝐴𝑤 C = 𝑏,其中: 𝐴 = Φh ∆q Φ − 𝛾𝑃ΠC Φ 𝑎𝑛𝑑 𝑏 = Φh ∆q 𝑅. 政 治 大 法來解決這個問題,用學習得到之𝑤 去解決近似價值函數。首先觀察一下 立 實際計算時,𝑃和𝑅通常未知或過大,因此可以通過從樣本中學習𝐴、𝑏的方 C. ‧ 國. 學. 𝐴、𝑏的形式:. 𝜇(𝑠, 𝑎). KL. J. =. 𝜇(𝑠, 𝑎) K. KL. J. al. v i n 𝑃 𝑠 < 𝑠, 𝑎C[𝜙(𝑠, 𝑠, 𝑎 − 𝛾𝜙(𝑠 < , 𝜋 𝑠 < ))h ] h e𝑎)(𝜙 ngchi U n. K. 𝑃 𝑠 < 𝑠, 𝑎 [𝜙(𝑠, 𝑎)(𝜙 𝑠, 𝑎 − 𝛾𝜙(𝑠 < , 𝜋 𝑠 < ))h ]. io. =. KL. sit. J. er. K. y. 𝑃(𝑠 < |𝑠, 𝑎)𝜙(𝑠 < , 𝜋 𝑠 < ))h . 𝜙(𝑠, 𝑎)𝜇(𝑠, 𝑎)(𝜙 𝑠, 𝑎 − 𝛾. Nat. =. ‧. 𝐴 = Φh ∆q Φ − 𝛾𝑃ΠC Φ . (3.24). 𝑏 = Φh ∆q 𝑅 =. 𝑃 𝑠 < 𝑠, 𝑎 𝑅 𝑠, 𝑎. 𝜙 𝑠, 𝑎 𝜇(𝑠, 𝑎) K. KL. J. =. 𝑃 𝑠 < 𝑠, 𝑎 [𝜙(𝑠, 𝑎)𝑅(𝑠, 𝑎)]. 𝜇(𝑠, 𝑎) K. J. (3.25). KL. 從等式中可以觀察到𝐴為𝜙(𝑠, 𝑎)(𝜙 𝑠, 𝑎 − 𝛾𝜙(𝑠 < , 𝜋 𝑠 < ))h 形式的秩一矩陣之 加總,𝑏為𝜙(𝑠, 𝑎)𝑅(𝑠, 𝑎)形式的向量之總和。這兩個方程需要把(𝑠, 𝑎, 𝑠 < )空間 18. DOI:10.6814/NCCU201900058.

(28) 內所有元素加總,並使用聯合機率分佈𝜇(𝑠, 𝑎)和轉換機率𝑃 𝑠 < 𝑠, 𝑎 做為權重。 實際操作上無法進行如此大範圍的加總,因此可通過抽樣的方式計算近似 的𝐴和𝑏。 為了不偏的抽樣,樣本對(𝑠, 𝑎)按照𝜇(𝑠, 𝑎)的聯合機率抽取,𝑠 < 符 合 𝑃 𝑠 < 𝑠, 𝑎 機 率 分 佈 , 𝑟從 𝑅(𝑠, 𝑎, 𝑠 < )中 抽 取 , 這 樣 就 形 成 了 樣 本 集 合 𝐷 = 𝑠_ , 𝑎_ , 𝑟_ , 𝑠_< |𝑖 = 1,2, … , 𝐿 ,𝐿為樣本個數,𝐴和𝑏估計為: 1 𝐴= 𝐿. y. [𝜙(𝑠_ , 𝑎_ )(𝜙 𝑠_ , 𝑎_ − 𝛾𝜙(𝑠_< , 𝜋 𝑠_< ))h ]. (3.26). _4$ y. 政 治 大. (3.27). [𝜙(𝑠_ , 𝑎_ )𝑟_ ] _4$. 立. 學. ‧ 國. 1 𝑏= 𝐿. 當𝐿趨近於無限大時,𝐴與𝑏會收斂到最小平方不動點近似法之𝐴、𝑏。等式 兩 邊 的 1/𝐿可 以 消 除 , 然 後 寫 為 不 斷 根 據 新 樣 本 進 行 更 新 的 模 式 , 初 始. ‧. 𝐴(") = 0,𝑏 (") = 0:. sit. y. Nat. n. al. er. io. 𝐴(_,$) = 𝐴(_) + 𝜙(𝑠_ , 𝑎_ )(𝜙 𝑠_ , 𝑎_ − 𝛾𝜙(𝑠_< , 𝜋 𝑠_< ))h. Ch. engchi. 𝑏 (_,$) = 𝑏 (_) + 𝜙(𝑠_ , 𝑎_ ) 𝑟_. i n U. (3.28). v. (3.29). 用足夠數量的樣本量更新後得到𝑤,𝑤通過:. π = 𝑎𝑟𝑔 max 𝑄(𝑠, 𝑎) = 𝑎𝑟𝑔 max 𝜙(𝑠, 𝑎)h 𝑤 J. J. (3.30). 隱性決定了策略π,可決定在每個狀態𝑠下要執行哪個動作𝑎,這個策略再 次用於下次 LSPI 迭代計算,不斷迭代收斂得到最佳π∗,這便是最小平方策 略迭代演算法。. 19. DOI:10.6814/NCCU201900058.

(29) 第四節 美式選擇權定價 本章將前續介紹之強化學習演算法計算過程套用在美式選擇權定價的 情況下,描述實際操作之步驟。同時增加 FQI 方法並簡單介紹用於比較之 最小平方蒙地卡羅法。. (⼀) LSPI. 政 治 大. 美式選擇權應用於強化學習方法時,需要考慮幾個特殊性質。首先,. 立. 同一個選擇權在不同時間下價值均不相同,因此狀態空間需要加入時間𝑡這. ‧ 國. 學. 個元素,每個狀態表示為一組(𝑠' , 𝑡),其中𝑠' 為選擇權標的物價格,本文中 為股價。第二,在每個狀態下可以選擇的動作只有兩種,履約(表示為 0). ‧. 或繼續持有(表示為 1) ,選擇繼續持有狀態才會繼續移動,一旦選擇履約,. y. Nat. io. sit. 環境便結束。動作價值函數的值即為選擇權之內含價值。第三,在選擇權. n. al. er. 履約前獎勵𝑅均為 0,履約時得到的獎勵就是選擇權之報酬,設為𝑔 𝑠 =. Ch. 𝑚𝑎𝑥 0, 𝐾 − 𝑆' ,𝐾為選擇權之履約價。. engchi. i n U. v. 接下來計算權重𝑤。定義𝑄" (𝑠' , 𝑡)為狀態(𝑠' , 𝑡)的價值,那麼動作價值函 數可表示為:. 𝑄 𝑠, 𝑡, 𝑎 =. 𝑄" 𝑠, 𝑡 𝑖𝑓 𝑎 = 0 𝑔 𝑠 𝑖𝑓 𝑎 = 1. (3.31). 遞歸形式的𝑄" 可寫為:. 𝑃(𝑠 < |𝑠)(𝐼C. 𝑄" 𝑠, 𝑡 = γ. K L ,',$ 4" 𝑄". 𝑠 < , 𝑡 + 1 + 𝐼C. K L ,',$ 4$ 𝑔(𝑠. <. )) (3.32). K‘. 20. DOI:10.6814/NCCU201900058.

(30) 其中𝐼為指示函數(Indicator function),當𝐼下標條件成立時,𝐼值為 1,其餘 情況為 0。 矩陣形式為:. 𝑄" = 𝛾𝑃(𝐼" 𝑄" + 𝐼$ 𝑔). H _4$ 𝜙_ (𝑠, 𝑡)𝑤_ ,𝑄". 接著用線性近似結構𝑄" 𝑠, 𝑡 =. (3.33). = Φ𝑤表示𝑄" ,根據最小. 平方不動點近似法的方式進行推導,將(3.33)式寫為: Φ Φh Φ. 立. Φh Φ. l$. l$. 政 治 大. Φh 𝛾𝑃(𝐼" 𝑄" + 𝐼$ 𝑔) = Φ𝑤. Φh 𝛾𝑃(𝐼" Φ𝑤 + 𝐼$ 𝑔) = 𝑤. ‧ 國. 學. Φh 𝛾𝑃(𝐼" Φ𝑤 + 𝐼$ 𝑔) = Φh Φ𝑤. ‧. Φh 𝛾𝑃𝐼" Φ𝑤 + Φh 𝛾𝑃𝐼$ 𝑔 = Φh Φ𝑤. (Φh Φ − Φh 𝛾𝑃𝐼" Φ)𝑤 = Φh 𝛾𝑃𝐼$ 𝑔. sit. y. Nat. io. al. er. 因此形成了𝐴𝑤 = 𝑏的函數形式,𝐴 = (Φh Φ − Φh 𝛾𝑃𝐼" Φ),𝑏 = Φh 𝛾𝑃𝐼$ 𝑔,𝐴為. n. (𝑘×𝑘)之矩陣,𝑏為(𝑘×1)之矩陣。 h. h. 𝐴 = (Φ Φ − Φ 𝛾𝑃𝐼" Φ) =. Ch. 𝑃 𝑠<, 𝑡<. 𝜇(𝑠, 𝑡). engchi. i n U. v. 𝑠, 𝑡 𝜙 𝑠, 𝑡 [𝜙 𝑠, 𝑡 − 𝛾𝐼" (𝑠 < , 𝑡 < )𝜙(𝑠 < , 𝑡 < )]h. (K L ,' L ). (K,'). (3.34) 𝑏 = Φh 𝛾𝑃𝐼$ 𝑔 =𝛾. 𝑃 𝑠<, 𝑡<. 𝜇 𝑠, 𝑡 K,'. 𝑠, 𝑡. 𝜙 𝑠, 𝑡 𝐼$ (𝑠 < , 𝑡 < )𝑔(𝑠 < ). (3.35). K L ,' L. 因本文股價變動路徑樣本由蒙地卡羅模擬法得出,因此滿足常態分佈. 21. DOI:10.6814/NCCU201900058.

(31) 形式的概率函數𝜇(𝑠, 𝑡),並且實際美式選擇權定價時𝑃 𝑠 < , 𝑡 <. 𝑠, 𝑡. = 1,也. 就是選擇繼續持有動作時,環境一定會進入下一個狀態 𝑠 < , 𝑡 < ,選擇履約 時,環境一定會結束。故𝐴、𝑏計算方式可寫為:. (•). 𝐴_ =. (•). (•). (•). 𝜙(𝑠' )[𝜙 𝑠' , 𝑡 − 𝛾𝐼" (𝑠',$ , 𝑡 + 1)𝜙(𝑠',$ , 𝑡 + 1))h •,' (•). (•). 𝑏_ =. (•). 𝜙(𝑠' , 𝑡)𝛾𝐼" (𝑠',$ , 𝑡 + 1)𝑔(𝑠',$ ). (3.36) (3.37). •,'. 𝑖為迭代次數,𝑗為路徑數,𝑡為時間點。 LSPI 計算步驟如下:. 輸入樣本路徑(蒙地卡羅模擬路徑) 、基函數𝜙、任意值的一個矩陣𝑤 C€. ‧ 國. 學. 1.. 立. 政 治 大. 代表初始策略𝜋" 、折現因子γ。. ‧. 策略估計。將初始𝐴和𝑏設為𝑘×𝑘之零矩陣及𝑘×1之零矩陣,𝑘為基函數. y. Nat. io. 天數。 ii.. al. 構建每一步時間下之狀態組合 𝑆' , 𝑡 ,𝑆' 為當前股價,𝑡為距到期. n. i.. sit. 個數。對每條路徑按照時間步數循環至到期。每次循環執行以下動作:. er. 2.. Ch. engchi. i n U. v. 將𝑤 C€ 與𝜙(𝑠' )相乘得到包含每一時間點下狀態價值之向量,最後 一步的𝜙(𝑠h )及𝜙(𝑠h,$ )為 0。. iii.. 比 較 每 一 個 時 間 點 狀 態 價 值 與 當 下 履 約 報 酬 , 若 𝜙(𝑠' )h 𝑤 > 𝑚𝑎𝑥 0, 𝐾 − 𝑆' , 則 不 履 約 , 獎 勵 𝑔' = 0 。 反 之 則 履 約 , 𝑔' = 𝑚𝑎𝑥 0, 𝐾 − 𝑆' 。此步驟相當於決定每個時間點之𝐼值。. iv.. 依序在時間節點上根據:. 22. DOI:10.6814/NCCU201900058.

(32) 𝐴(',$) = 𝐴(') + 𝜙(𝑠' )(𝜙 𝑠' − 𝛾𝜙(𝑠',$ ))h. (3.38). 𝑏 (',$) = 𝑏 (') + 𝜙(𝑠' )𝑔(𝑠' ). (3.39). 更新𝐴與𝑏 3.. 策略改進。通過𝑤 C‚ƒ„ = 𝐴l$ 𝑏改進策略並用於下一次迭代。利用計算出 之𝑤 C‚ƒ„ 對應策略𝜋_,$ 決定履約時間點,將履約時之報酬折現得到每條 路徑上選擇權價格,總體平均後得到估計之選擇權價格。. 4.. 政 治 大. 重複過程 2、3,直至兩次迭代得到之選擇權價格誤差小於一定範圍。. 立. 通過 LSPI 方法學習到在模擬路徑下之提前履約策略並得到選擇權評價結. n. al. er. io. sit. y. Nat. (⼆) FQI. ‧. ‧ 國. 學. 果。. i n U. v. 此 演 算 法 由 Tsitsiklis and Van Roy(2001) 提 出 , Szepesvari and. Ch. engchi. Schuurmans (2009)和 Dubrov(2015)均針對此方法進行了實證測試。 與 之 前 演 算 法 類 似 , 也 是 將 狀 態 函 數 近 似 為 𝑄 𝑠' , 𝑡 = 𝑤 C 𝜙(𝑆' , 𝑡), 但 FQI 方 法 希 望 這 個 狀 態 價 值 可 以 逼 近 下 一 期 最 大 之 動 作 價 值 函 數 γ maxJ 𝑄 𝑆',$ , 𝑡 + 1 , 𝑎 。相當於要解決下列問題:. •. •. [𝑤 h 𝜙 𝑠' , 𝑡 − 𝛾 max 𝑄( 𝑠',$ , 𝑡 + 1 , 𝑎)]%. 𝑤 = 𝑎𝑟𝑔𝑚𝑖𝑛…. J. ',•. (3.40). 定義:. 23. DOI:10.6814/NCCU201900058.

(33) 𝐴_ =. 𝜙 𝑠'. •. •. 𝜙 𝑠' , 𝑡. h. (3.41). •,' (•). 𝑏_ = 𝛾. (•). 𝜙(𝑠' , 𝑡) max{𝑔 𝑠'. (•). , 𝑄( 𝑠',$ , 𝑡 + 1 , 0)} (3.42). •,'. 每次迭代計算𝑤 = 𝐴l$ 𝑏,便得到 FQI 方法的解。. (三) 最小平方蒙地卡羅方法 LSM. 治 政 最小平方蒙地卡羅方法(LSM,Least-Squares 大 Monte Carlo Method)使用 立 反向遞歸動態規劃方法估計期望繼續(狀態)價值。使用基函數𝜑,計算 ‧ 國. 學. 未履約之時間點之狀態價值𝑄 𝑠, 𝑡 , 0; 𝑤 = 𝑤 h 𝜑(𝑠),但到期前最後一個時. ‧. 間點𝑡 = 𝑇,狀態價值就為到期報酬𝑄 𝑠h , 𝑇 , 0; 𝑤 = 𝑔(𝑠h )。從倒數第二期 •. sit. y. Nat. 反向推導,在每個時間點𝑡選出所有價內(𝑔 𝑠' > 0)之路徑,通過簡單最. io. al. er. 小平方回歸方式尋找當期狀態與下一期狀態價值折現之關係式,也就是尋. n. 找𝑤通過極小化以下算式: H •. Ch. engchi •. i n U. v. •. [𝑄 𝑠, 𝑡 , 0; 𝑤 − 𝛾max (𝑔 𝑠',$ , 𝑄( 𝑠',$ , 𝑡 + 1; 𝑤',$ ))]% (3.43). 得到之𝑤用於計算當期繼續持有之條件期望值。若繼續持有的期望價值大 於當下履約報酬,則繼續回推,若當下履約報酬較大,則此路徑之現金流 量就為此時報酬之折現。最後將所有路徑之報酬折現取平均就為選擇權價 值。 與 LSPI 和 FQI 方法不同的是,無論時間點長度為多少,這兩個方法 計算之權重均為(𝑘×1)之矩陣,而 LSM 方法在每個時間點下產生一個(𝑘×𝑡) 24. DOI:10.6814/NCCU201900058.

(34) 大小之𝑤矩陣。. (四) 基函數設定 本文要用於評價之三個方法均需要設置基函數形式用於計算狀態價值。 對於股票選擇權定價,最主要的兩個變數便是股價和時間。根據 Longstaff and Schwartz (2001)所建議的,使用以下基函數組合:. 𝜙" 𝑆 = 1. 立. 政 治 大. 𝜙$ 𝑆 = exp (−𝑆 < /2). ‧ 國. 學. 𝜙% 𝑆 = exp (−𝑆 < /2)(1 − 𝑆 < ). ‧. 𝜙G 𝑆 = exp (−𝑆 < /2)(1 − 2𝑆 < + 𝑆 <% /2). (3.44). sit. y. Nat. 設𝑆 < = 𝑆/𝐾,因為exp (−𝑆/2)會很快趨近於 0。LSM 方法不同時間點有不同 G _ _4" 𝜙_ (𝑠' )𝑤' 。但在. n. al. er. io. 之權重,所以使用以上基函數即可,. i n U. LSPI 與 FQI 方法. v. 中,狀態空間中除了股價𝑆變量,還有時間𝑡。因此需要增加三個與時間相 關之基函數:. Ch. engchi. 𝜙Œ 𝑡 = sin −. 𝑡𝜋 𝜋 + 2𝑇 2. 𝜙• 𝑡 = ln (T − t). (3.45). 𝜙‹ 𝑡 = (𝑡/𝑇)% 此基函數根據 Duffie(2001)文章所選定。LSPI 與 FQI 使用這總共七個基函 數計算狀態價值,. ‹ _ _4" 𝜙_ (𝑠' , 𝑡)𝑤 。. 25. DOI:10.6814/NCCU201900058.

(35) 本章論述強化學習之基本假設及建構理論與步驟,推導出應用於美式 選擇權之方式,第四章將詳細說明如何利用實際美式選擇權市場資料進行 定價並分析結果準確性,最後則為各參數之敏感度分析。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 26. DOI:10.6814/NCCU201900058.

(36) 第 四 章 實證分析 本章使用第 3 章所描述之兩種強化學習模型與傳統最小平方蒙地卡羅 方法進行數值分析比較不同方法之定價準確性,本章欲評價之選擇權為在 Nasdaq 交易,以蘋果公司股票為標的之美式選擇權。Nasdaq 中文名稱為那 斯達克股票交易所,是一間於 1971 年創立的美國電子股票交易所,目前是 世界第二大證券交易所,那斯達克交易所上市的公司以高科技產業公司為 主,包括蘋果(Apple Inc.)、微軟(Microsoft)、英特爾(Intel Corporation)、戴. 政 治 大. 爾(Dell Inc.)、思科(Cisco Systems, Inc.)等。蘋果公司股票選擇權均為美式. 立. 選擇權且可在任一交易日選擇履約,履約價以 5 元為單位變化。本章所使. ‧ 國. 學. 用之市場價格資料為 2019 年 3 月 15 日到期的以價平為中心上下不同 7 檔. ‧. 履約價之選擇權資料,在實證資料處理章節會有更加詳細的說明。. sit. y. Nat. 第 3 章建立之評價模型需輸入之參數資料為股票市場價格、模擬股價. n. al. er. io. 路徑所需之股價變動度與波動度、市場無風險利率與決策次數,這些參數 均通過市場之歷史資料估計得到。. Ch. engchi. i n U. v. 4.1.1 小節描述如何用選擇權價平時之資料進行縮放以訓練模型。4.1.2 小節將測試資料用訓練完成之模型進行評價後,比較模型計算之價格相對 實際市場價格的準確度。4.2 節對股價、股價變動度、股價波動度、無風 險利率這四個參數進行敏感度分析。. 第⼀節 實證方法 本章用於模型計算之真實市場價格資料為 2019 年 3 月 15 日到期履約 27. DOI:10.6814/NCCU201900058.

(37) 價分別為 170、175、180、185、190、195、200 的賣權最新價,取樣區間 為到期前 81 個工作日至到期前 2 個工作日共 80 天,也就是 2018 年 11 月 14 號至 2019 年 3 月 13 日,由 Bloomberg 資料庫抓取,資料總數為 560 筆, 此期間少數幾日因無成交量而缺失之最新價由前後兩日價格平均值取代。 因本文所使用的模型至少需要兩日以上的決策步驟計算才可以進行定價, 故去除接近到期兩個工作日的資料。模型所使用之股票市場價格為 2018 年 11 月 14 號至 2019 年 3 月 13 日調整前收盤價,股價變動率為當日股票. 政 治 大. 報酬率,股價波動率是以當日為基準過去一年之股價標準差,市場無風險. 立. 利率為美國十年期國債年化利率之當日收盤價,決策次數為選擇權離到期. ‧ 國. 學. 剩餘之工作日天數。股價路徑模擬之蒙地卡羅法遵循幾何布朗運動之隨機 過程。. ‧. sit. y. Nat. 由圖 4.1 可觀察到本章所選擇之美式賣權在到期時對應股價為 186,. io. al. er. 故取履約價 185 之賣權為價平選擇權,並以此履約價為中心上下各取 3 檔. n. 履約價為價內及價外選擇權。. Ch. engchi. i n U. v. 圖 4. 1 評 價 期 間 的 股 價 波 動 及 最 高 股 價 與 最 低 股 價. 28. DOI:10.6814/NCCU201900058.

(38) (一) 模型訓練方法 本小節將 80 天的股價、股價變動率、股價波動率、履約價及無風險利 率的資料均以價平履約價 185 為標準進行資料縮放後,將每一天之股價用 蒙地卡羅法模擬得到 5000 條擴散路徑,再分別用 LSPI、FQI、LSM 模型 進行訓練,得到 80 個不同決策步數各自對應之當日模擬價格及履約策略 (權重矩陣) ,後者會在下一小節用於測試新資料。資料縮放前後之對比見. 表 1 原始資料形式. 股價變動率 股價波動率 決策步數. 19/3/13. 181.71. 0.0044. 0.2217. 2. 185. 19/3/12. 180.91. 0.0112. 0.2218. 3. 185. 19/3/11. 178.90. 0.0346. 0.2218. 4. 185. 19/3/8. 172.91. 0.0024. 0.2217. 5. 185. 19/3/7. 172.50. al. 0.2216. 6. io. n. Ch. engchi. 無風險利率 賣權最新價. er. Nat. -0.0116. 履約價. 0.0261. ‧. ‧ 國. 股價. 學. 日期. iv 185 n U. 3.45. 0.0261. 4.49. 0.0264. 6.25. y. 立. 政 治 大. sit. 下方表 1 及表 2。. 0.0262. 12.70. 0.0264. 12.45. 表 2 縮放後資料形式 日期. 股價. 股價變動率 股價波動率 決策步數. 履約價. 無風險利率 賣權最新價. 19/3/13. 98.22. 0.0044. 0.1196. 2. 100. 0.0141. 1.86. 19/3/12. 97.79. 0.0112. 0.1196. 3. 100. 0.0141. 2.43. 19/3/11. 96.70. 0.0346. 0.1197. 4. 100. 0.0143. 3.38. 19/3/8. 93.46. 0.0024. 0.1196. 5. 100. 0.0142. 6.86. 19/3/7. 93.24. -0.0116. 0.1197. 6. 100. 0.0143. 6.73. 29. DOI:10.6814/NCCU201900058.

(39) 圖 4. 2 不 同 到 期 天 數 模 型 訓 練 結 果 比 較. 立. 政 治 大. ‧ 國. 學. 表 3 模型由縮放資料訓練後得到之模擬價格與實際價格縮放值之相對誤差數據. ‧. 平 均 值 Mean. 0.1431. 0.1413. 0.1381. 標 準 差 SD. 0.1995. 0.1994. 0.2444. 0.2434. sit. 0.1974. n. er. io. al. 均 方 根 誤 差 RMSE. LSM. y. FQI. Nat. LSPI. Ch. engchi. i n U. v. 0.2399. 圖 4.2 為 LSPI、FQI、LSM 三種模型訓練資料後得到之模擬價格與同 等縮放後之履約價 185 賣權市場價格之比較圖與對應之相對誤差比較圖, 三種模型在訓練時所得之結果較為相近並在距到期 60 天內都與市場價值 幾乎吻合,60-80 天期之價格因長期價格模擬與市場價格之誤差變大導致 結果與實際之誤差增大。表 3 為相對誤差之總體平均值與標準差,LSM 在 模型訓練時之結果平均誤差與標準差均最小,因為 LSPI 與 FQI 方法為通 過迭代手段逼近得到權重,而 LSM 是使用逐步逆推之方法得到權重,故. 30. DOI:10.6814/NCCU201900058.

(40) LSM 在訓練時之表現較好。. (二) 模型套用及結果 本小節將履約價為 170、175、180、185、190、195、200 之賣權資料分 別套用於 LSPI、FQI 和 LSM 模型,三種模型套用方式相似,詳細步驟如 下: 1.. 政 治 大. 取樣期間 80 天每日均根據當日之股價與股價變動率、股價波動率模擬. 立. 5000 次得到股價擴散模擬路徑。. ‧ 國. 學. 2.. 將 80 日每日之模擬路徑使用訓練得到之權重直接計算得到每一步驟. 分別判斷每條路徑每個決策點持有價值與履約價值大小,得到各路徑. sit. y. Nat. 3.. ‧. 之持有價值。. n. al. er. io. 之最佳履約時間,折現得到單一路徑價值,將所有路徑價值取平均即 為預測之選擇權當前價值。. Ch. engchi. i n U. v. 因模型訓練時迭代得到權重之過程計算耗能相對大,耗時長,直接利 用上一小節模型訓練得到之權重進行套用的方法可明顯提高計算速度、大 幅降低計算成本。 本小節將得到預測之價格與實際市場價格進行比較,計算兩者之相對 誤差大小,並觀察平均值、標準差與均方根誤差,以便於比較不同方法在 不同到期日下之預測準確性。 圖 4.3 至圖 4.9 分別為不同履約價之測試結果,表 4 至表 10 為不同履. 31. DOI:10.6814/NCCU201900058.

(41) 約價下定價結果之相對誤差平均值、標準差與均方根誤差。對於愈價外的 賣權,LSPI、FQI 與 LSM 方法之誤差均增大,反之,愈接近價平至深價內 預測結果與市場交易最新價愈為接近。同時,距離到期日愈近之賣權預測 結果愈好,愈遠期產生的誤差有逐漸增大之趨勢。但總體而言,對於遠期 賣權價值預測,LSPI 與 FQI 之預測結果優於 LSM 方法。. 圖 4. 3 履 約 價 K=170 時 , 到 期 日 前 2 日 至 前 81 日 LSPI、 FQI、 LSM 模 型 每 日. 政 治 大. 預測賣權價格與市場價格之折線圖及對應之相對誤差折線圖. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 表 4 履 約 價 K=170 時 所 有 到 期 日 相 對 誤 差 之 平 均 值 與 標 準 差 LSPI. FQI. LSM. 平 均 值 Mean. 0.4284. 0.5554. 0.4407. 標 準 差 SD. 0.4970. 0.6480. 0.4867. 均 方 根 誤 差 RMSE. 0.6562. 0.8535. 0.6566. 32. DOI:10.6814/NCCU201900058.

(42) 圖 4. 4 履 約 價 K=175 時 , 到 期 日 前 2 日 至 前 81 日 LSPI、 FQI、 LSM 模 型 每 日 預測賣權價格與市場價格之折線圖及對應之相對誤差折線圖. 政 治 大. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 表 5 履 約 價 K=175 時 所 有 到 期 日 相 對 誤 差 之 平 均 值 與 標 準 差 LSPI. FQI. LSM. 平 均 值 Mean. 0.2480. 0.3196. 0.3070. 標 準 差 SD. 0.2622. 0.3508. 0.2617. 均 方 根 誤 差 RMSE. 0.3609. 0.4746. 0.4034. 33. DOI:10.6814/NCCU201900058.

(43) 圖 4. 5 履 約 價 K=180 時 , 到 期 日 前 2 日 至 前 81 日 LSPI、 FQI、 LSM 模 型 每 日 預測賣權價格與市場價格之折線圖及對應之相對誤差折線圖. 政 治 大. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 表 6 履 約 價 K=180 時 所 有 到 期 日 相 對 誤 差 之 平 均 值 與 標 準 差 LSPI. FQI. LSM. 平 均 值 Mean. 0.1350. 0.1866. 0.2083. 標 準 差 SD. 0.1408. 0.2019. 0.2322. 均 方 根 誤 差 RMSE. 0.1959. 0.2613. 0.3011. 34. DOI:10.6814/NCCU201900058.

(44) 圖 4. 6 履 約 價 K=185 時 , 到 期 日 前 2 日 至 前 81 日 LSPI、 FQI、 LSM 模 型 每 日 預測賣權價格與市場價格之折線圖及對應之相對誤差折線圖. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 表 7 履 約 價 K=185 時 所 有 到 期 日 相 對 誤 差 之 平 均 值 與 標 準 差 LSPI. FQI. LSM. 平 均 值 Mean. 0.0830. 0.1235. 0.1474. 標 準 差 SD. 0.1067. 0.1969. 0.2107. 均 方 根 誤 差 RMSE. 0.1381. 0.2209. 0.2503. 35. DOI:10.6814/NCCU201900058.

(45) 圖 4. 7 履 約 價 K=190 時 , 到 期 日 前 2 日 至 前 81 日 LSPI、 FQI、 LSM 模 型 每 日 預測賣權價格與市場價格之折線圖及對應之相對誤差折線圖. 政 治 大. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 表 8 履 約 價 K=190 時 所 有 到 期 日 相 對 誤 差 之 平 均 值 與 標 準 差 LSPI. FQI. LSM. 平 均 值 Mean. 0.0601. 0.0847. 0.1092. 標 準 差 SD. 0.1187. 0.1816. 0.1859. 均 方 根 誤 差 RMSE. 0.1350. 0.2015. 0.2102. 36. DOI:10.6814/NCCU201900058.

(46) 圖 4. 8 履 約 價 K=195 時 , 到 期 日 前 2 日 至 前 81 日 LSPI、 FQI、 LSM 模 型 每 日 預測賣權價格與市場價格之折線圖及對應之相對誤差折線圖. 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n C 所 有 到 期 日 相 對 誤 差U之 平 均 值 與 標 準 差 9 履 約 價 K=195 時h engchi. 表. LSPI. FQI. LSM. 平 均 值 Mean. 0.0517. 0.0644. 0.0820. 標 準 差 SD. 0.1204. 0.1456. 0.1508. 均 方 根 誤 差 RMSE. 0.1318. 0.1606. 0.1692. 37. DOI:10.6814/NCCU201900058.

(47) 圖 4. 9 履 約 價 K=200 時 , 到 期 日 前 2 日 至 前 81 日 LSPI、 FQI、 LSM 模 型 每 日 預測賣權價格與市場價格之折線圖及對應之相對誤差折線圖. 政 治 大. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 表 10 履 約 價 K=200 時 所 有 到 期 日 相 對 誤 差 之 平 均 值 與 標 準 差 LSPI. FQI. LSM. 平 均 值 Mean. 0.0417. 0.0496. 0.0594. 標 準 差 SD. 0.0905. 0.1011. 0.1045. 均 方 根 誤 差 RMSE. 0.0993. 0.1138. 0.1187. 38. DOI:10.6814/NCCU201900058.

(48) 總結不同履約價下 LSPI、FQI 及 LSM 模型定價誤差之平均值與標準 差及均方根誤差如下三圖:. 圖 4. 10 履 約 價 為 170-200 時 LSPI、 FQI 與 LSM 之 平 均 相 對 誤 差. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 表 11 履 約 價 為 170-200 時 LSPI、 FQI 與 LSM 之 平 均 相 對 誤 差 170. 175. 180. 185. 190. 195. 200. LSPI. 0.4330. 0.2466. 0.1350. 0.0830. 0.0601. 0.0517. 0.0417. FQI. 0.5653. 0.3186. 0.1866. 0.1235. 0.0847. 0.0644. 0.0496. LSM. 0.4404. 0.3071. 0.2083. 0.1474. 0.1092. 0.0820. 0.0594. 39. DOI:10.6814/NCCU201900058.

(49) 圖 4. 11 履 約 價 為 170-200 時 LSPI、 FQI 與 LSM 之 平 均 相 對 誤 差 標 準 差. 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. 表 12 履 約 價 170-200 時 LSPI、 FQI 與 LSM 之 平 均 相 對 誤 差 標 準 差. Ch. e n g c185h i. 170. 175. 180. LSPI. 0.5023. 0.2631. 0.1408. FQI. 0.6618. 0.3512. LSM. 0.4894. 0.2622. i n U. v. 190. 195. 200. 0.1067. 0.1187. 0.1204. 0.0905. 0.2019. 0.1969. 0.1816. 0.1456. 0.1011. 0.2322. 0.2107. 0.1859. 0.1508. 0.1045. 40. DOI:10.6814/NCCU201900058.

(50) 圖 4. 12 履 約 價 為 170-200 時 LSPI、 FQI 與 LSM 之 均 方 根 誤 差. 學. ‧ 國. 立. 政 治 大. 表 13 履 約 價 170-200 時 LSPI、 FQI 與 LSM 之 均 方 根 誤 差. LSM. 0.6566. 0.4746. al. 0.1959. 0.1381. 0.1350. 0.2613. 0.2209. 0.2015. 0.4034. Ch. 0.3011. 0.2503. engchi. 195. 200. 0.1318. 0.0993. y. 0.8535. 190. n. FQI. 0.3610. io. 0.6562. 185. sit. Nat. LSPI. 180. er. 175. ‧. 170. i n U. v. 0.2102. 0.1606. 0.1138. 0.1692. 0.1187. 由圖 4.10 所示,在所有履約價之賣權價格預測中,LSPI 方法之相對 誤差均小於傳統 LSM 方法,FQI 在大部分情況下準確性也高於 LSM 方法。 圖 4.12 顯示用於測量模擬值與真實值差距的均方根誤差也呈現了相同的 結果。通過圖 4.11 描繪之相對誤差之標準差圖也可以觀察到總體 LSPI 預 測之穩定性優於 LSM,FQI 在較價內的履約價預測穩定性表現比 LSM 好。 總體而言,對於本節所討論之選擇權區間,LSPI 與 FQI 之評價準確性與穩 定性均比 LSM 有所改善。. 41. DOI:10.6814/NCCU201900058.

(51) 第⼆節 敏感度分析 本部分探討模型中各參數對於模型評價之影響,針對 LSPI 模型,給定 該參數一個變動比率區間,在其他參數值皆固定之情況下,對於不同履約 價下評價結果之影響 。本章評價之天數較多無法一一比較,又因為過於遠 期之模型評價結果誤差較大,近到期模型評價結果受參數變動之影響較小 不便觀察比較,故選擇距到期 70 日之賣權進行敏感度分析。在 70 日資料. 政 治 大 險利率為 3.01%,以下小節根據這幾個參數進行分析,觀察參數變動一個 立 中,股價為 178.58、股價變動率為-0.054%、股價波動率為 19.833%、無風. ‧ 國. 學. 單位時,不同價內外程度𝑆/𝐾之賣權價格變動趨勢。因強化學習模型預測 有隨機性,故取 10 次結果之平均觀察定價變化。. ‧. n. al. er. io. sit. y. Nat. (一) 股價. Ch. i n U. v. 此小節衡量賣權標的物股票價格變動對於賣權價格之影響,圖 4.13 描. engchi. 述股票價格上升一元與下降一元時,賣權價格變動之大小。 由圖 4.13 可知,LSPI 模型下,股價上漲時,賣權價格下跌,股價下 跌時,賣權價格上升,呈現反向關係,與歐式選擇權理論相符。賣權越接 近價外,受股價影響之價格變動便越小(接近 0),愈價內之賣權,對標的 物價格之敏感度愈大(逐漸接近 1) 。標的價格變動一元時,賣權價格之變 動大小介於 0 到 1 之間。這些變化趨勢與 B-S 模型中 delta(Δ)之結果一致。. 42. DOI:10.6814/NCCU201900058.

(52) 圖 4. 13 股 價 上 升 一 單 位 與 下 降 一 單 位 時 , 不 同 價 內 外 程 度 LSPI 定 價 價 格 之 相 對 變 動. 立. 政 治 大. ‧ 國. 學 ‧. (二) 股價變動率. Nat. sit. y. 此小節衡量股價變動率之變動對賣權價格之影響。圖 4.14 描述股價變. n. al. er. io. 動率上下變動 1%對於 LSPI 模型賣權定價結果之影響。. i n U. v. 圖 4. 14 股 價 變 動 率 上 升 1%與 下 降 1%時 , 不 同 價 內 外 程 度 LSPI 定 價 價 格 之 相 對 變 動. Ch. engchi. 43. DOI:10.6814/NCCU201900058.

(53) 由圖 4.14 可知,LSPI 模型下,股價變動率變動對選擇權價格呈負向 影響。股價變動率上升時,賣權價格下降,反之股價變動率下降時,賣權 價格上升。愈價內之賣權對股價變動率之敏感度愈高。. (三) 股價波動率 本小節衡量股票波動率變化對於賣權價格之影響。圖 4.15 描述股價波. 政 治 大. 動率上下變動 1%對於 LSPI 模型賣權定價結果之影響。. 立. ‧. ‧ 國. 學. 圖 4. 15 股 價 波 動 率 上 升 1%與 下 降 1%時 , 不 同 價 內 外 程 度 LSPI 定 價 價 格 之 相 對 變 動. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 根據選擇權理論,波動率上升時,賣權價格上升,反之波動率下降時, 賣權價格下降。由圖 4.15 可以看到 LSPI 模型之下,波動率變動與定價呈 正向關係,符合選擇權理論。並且波動率變動對於價平或靠近價平之價內 賣權價格影響最大,愈價內或價外之賣權受波動率變化的影響較小。此變 化趨勢與 B-S 模型敏感度分析中 vega 之結果一致。. 44. DOI:10.6814/NCCU201900058.

(54) (四) 無風險利率 本小節對無風險利率變動對於賣權價格之影響進行分析。圖 4.16 描述 市場無風險利率上下變動 1%對於 LSPI 模型賣權定價結果之影響。 圖 4. 16 無 風 險 利 率 上 升 1%與 下 降 1%時 , 不 同 價 內 外 程 度 LSPI 定 價 價 格 之 相 對 變 動. 立. 政 治 大. ‧. ‧ 國. 學 sit. y. Nat. n. al. er. io. 由圖 4.16 可觀察到無風險利率上升時,賣權價值下降,無風險利率下. i n U. v. 降時,賣權價值上升。相較前文分析之其他參數,無風險利率變動一單位. Ch. engchi. 對於賣權定價結果之影響程度較小。. 本小節對 LSPI 模型主要的四個輸入參數進行敏感度分析,觀察到參 數中股價與股價變動率對模型結果的影響最大,同時大部分參數對賣權價 值之影響與實際市場變化趨勢相符,證明 LSPI 模型能夠捕捉符合市場狀 況之選擇權價格,定價結果有很大程度之可信度。. 45. DOI:10.6814/NCCU201900058.

(55) 第 五 章 結論與建議 本文對股票為標的之美式賣權進行了評價與履約策略學習。利用強化 學習中之最小平方策略迭代 LSPI 演算法來解決這個問題,並且與 FQI 演 算法以及最小平方蒙地卡羅法 LSM 進行比較。使用統一縮放後之真實市 場數據對模型進行訓練後,對實際選擇權資料進行測試得到定價,再與交 易價格比較定價準確性,通過實證結果發現 LSPI 與 FQI 表現總體優於傳. 政 治 大. 統 LSM 方法,LSPI 定價準確性與穩定性在三種方法中均為最佳。本文相. 立. 對先前相關文獻,除了使用不同之模型訓練測試方式外,同時增加了不同. ‧ 國. 學. 價內外程度與不同交易期限之選擇權定價比較,發現 LSPI 與 FQI 方法對. ‧. 於愈價內及愈短期之賣權評價準確度愈高,同時對長期選擇權定價結果比. sit. y. Nat. LSM 方法更接近實際交易價,改進了長期選擇權定價準確度。並且進行敏. io. al. er. 感度分析,說明 LSPI 模型中股價、股價變動率、無風險利率與賣權價格. n. 呈反向變動,股價波動度與賣權價格為正向變動,其中股價與股價變動率. Ch. engchi. 影響最大,與實際市場狀況相符。. i n U. v. 對於此強化學習演算法用於定價之未來研究方向可有以下幾點建議。 首先本文僅對美式賣權進行定價,美式買權履約條件更加複雜,涉及到分 配股息等問題,後續研究可以考慮如何定義美式買權可以選擇之動作及狀 態,以進行買權定價。其次,還可使用跳躍式模擬路徑等更好模擬股價走 勢之方式尋找提高價外選擇權或長期選擇權精確度之方法。同時還可以將 此方法應用於不同商品之定價,還有很多執行方式與馬可夫決策過程相似 之衍生性商品,例如具有可轉讓、可贖回性質的金融商品。. 46. DOI:10.6814/NCCU201900058.

(56) 參考文獻 [1] Barone-Adesi,. G.. and. Whaley,. R.. (1987).. Efficient. Analytical. Approximation of American Option Values. Journal of Finance, Vol. 42, 301-320. [2] Bellman, R. (1957). A Markovian Decision Process. Journal of Mathematics and Mechanics, Vol. 6, 679–684.. 政 治 大. [3] Black, F. and Scholes, M. (1973). The Pricing of Options and Corporate. 立. Liabilities. Journal of Political Economy, Vol. 81, 637-659.. ‧ 國. 學. [4] Boyle, P. P. (1977). Options: A Monte Carlo Approach. Journal of. Nat. y. ‧. Financial Economics, Vol. 4, 323–338.. io. sit. [5] Boyle, P. P. (1986). A lattice framework for option pricing with two state. er. variables, Journal of Financial and Quantitative Analysis, Vol. 23(1), 1-12.. al. n. v i n C h E. (1977). TheUValuation Schwartz, engchi. [6] Brennan, M. and. of American Put. Options. Journal of Finance, Vol. 32, 449-462. [7] Cox, J. C., Ross S. A. and Rubinstein, M. (1979). Option Pricing: A simplified Approach. Journal of Financial Economics, Vol. 7, 229-264. [8] Dubrov, B. (2015). Monte Carlo Simulation with Machine Learning for Pricing American Options and Convertible Bonds. SSRN. [9] Geske, R. (1979). The Valuation of Compound Options. Journal of. 47. DOI:10.6814/NCCU201900058.

(57) Financial Economics, Vol. 7, 63–81. [10] Geske, R. (1979). A Note on an Analytic Valuation Formula for Unprotected American Call Options on Stocks with Known Dividends. Journal of Financial Economics, Vol. 7, 275–380. [11] Geske, R. (1981). Comments on Whaley’s Note. Journal of Financial Economics, Vol. 9, 213–215.. 政 治 大. [12] Geske, R. and Johnson, H. E. (1984). The American Put Valued. 立. Analytically. Journal of Finance, Vol. 39, 1511-1524.. ‧ 國. 學. [13] Haug, E.G., Haug, J. and Lewis, A. (2003). Back to Basics: a New. ‧. Approach to the Discrete Dividend Problem. Wilmott Magazine, 37–47.. sit. y. Nat. [14] Howard, R. A. (1960). Dynamic Programming and Markov Processes.. n. al. er. io. Cambridge, Mass: MIT Press.. Ch. i n U. v. [15] Hull, J. C. (2011). Options, Futures, and Other Derivatives, 8th edition.. engchi. United States of America: Prentice Hall.. [16] Johnson, H. (1983). An Analytical Approximation for the American Put Price. Journal of Financial and Quantitative Analysis, Vol. 18, 141-148. [17] Ju., N. and Zhong, R. (1998). An Approximate Formula for Pricing American Options. Review of Financial Studies, Vol. 11, 627-646. [18] Lagoudakis, M. G. and Parr, R. (2003). Least-Squares Policy Iteration.. 48. DOI:10.6814/NCCU201900058.

參考文獻

相關文件

國立政治大學應用數學系 林景隆 教授 國立成功大學數學系 許元春召集人.

Bootstrapping is a general approach to statistical in- ference based on building a sampling distribution for a statistic by resampling from the data at hand.. • The

If the skyrmion number changes at some point of time.... there must be a singular point

美國麻省理工學院Peter Senge教授,於1990年 出版「第五項修練:學習型組織的藝術和實 務」(The Fifth Discipline: The Art and. Practice

and Jorgensen, P.l.,(2000), “Fair Valuation of Life Insurance Liabilities: The Impact of Interest Rate Guarantees, Surrender Options, and Bonus Policies”, Insurance: Mathematics

聽、說、讀、寫,以 及分析、評價等能力 例:設計課業,讓學生 應用所學,並運用各

關注事項 1 11 1: : :因應初中學生的學習能力差異擴大 : 因應初中學生的學習能力差異擴大 因應初中學生的學習能力差異擴大 因應初中學生的學習能力差異擴大, , , ,加強 加強

• But Monte Carlo simulation can be modified to price American options with small biases..