機率整合體理論 - 資金管理模型 - 研究方法 - 一個使用機器學習模型的資金管理系統的比較性研究

3 研究方法

3.2 資金管理模型

3.5.1 機率整合體理論

機率整合體由 Wolpert (2003)提出，主要的精神在於尋找目標解的最佳機率 分布以求得最佳效用(world utility)。舉例來說，玩家 i 所採行的策略𝑥_𝑖是根據策略的機率分佈𝑞_𝑖(𝑥_𝑖)來決定，在𝑞_𝑖(𝑥_𝑖)中機率較高的策略會優先被採用且代表該策略的期望效用高於其他策略。在 PC 的架構中，為了解釋現實世界中玩家使用混合策略(mixed strategy)的現象，玩家會被制定為依據機率來決定他們的策略。因此 在一個包含 N 個使用混合策略的玩家的系統中，我們必須將所有玩家採取的策 略集合表示成一個 joint distribution P(x)，並以方程式(30)來表示:

𝑃(𝑥) = 𝑃(𝑥₁, 𝑥₂⋯ 𝑥_𝑛). (30)

為了簡化此 joint distribution 的計算 Wolpert (2004)提出 product distribution (PD) theory，將 P(x)轉為各獨立玩家策略機率分佈的乘積，以公式(31)表示:

𝑃(𝑥) = 𝑃(𝑥₁, 𝑥₂⋯ 𝑥_𝑛) = 𝑞1(𝑥₁) × 𝑞2(𝑥₂) ⋯ × 𝑞𝑛(𝑥_𝑛) = ∏^𝑁_𝑖=1𝑞_𝑖(𝑥_𝑖). (31)

上式代表共有 N 個玩家，每個玩家 i 所採用的策略𝑥_𝑖是各自獨立的，N 個玩 家皆使用混合策略，而他們的策略機率分佈會組成一個整個系統的策略的 joint distribution，他們在統計上彼此相關，但是各自的策略卻又是獨立的。在 P(x)拆 解為各玩家策略機率分佈的乘積後，整個問題被簡化為我們對各玩家 i 他們策略 的機率分佈𝑞_𝑖(𝑥_𝑖)作最佳化即可得到整個系統的最佳效用。

為了方便後面公式的運算，我們將最佳化的目標改為成本，在一般思考中，

最佳效用 G 是去最大化效用，效用越大代表玩家越滿意，改為成本後，玩家們會想盡辦法去降低整體策略所帶來的成本，當成本越低，玩家的效用也就越高，所 以接下來的章節我們將去最小化成本 G 以尋找 world cost G。

接下來我們要介紹如何最佳化各玩家 i 的機率分佈𝑞_𝑖(𝑥_𝑖) 。首先根據 Fudenberg and Tirole (1991)提出，假設有 N 個玩家參與一個非合作的賽局，任一 玩家 i 會使用混合策略，其中包含自己所會用策略的機率分布𝑞_𝑖(𝑥_𝑖)以及 private utility function 𝑔_𝑖(𝑥)，而𝑔_𝑖(𝑥)是由 N 個玩家所做出的策略的集合 x 計算得來，因 此玩家 i 的期望成本𝐸(𝑔_𝑖)可用方程式(32)表示:

𝐸(𝑔_𝑖) = ∫ 𝑑𝑥 ∏ 𝑞_𝑗 _𝑗(𝑥_𝑗)𝑔_𝑖(𝑥). (32)

Nash (1951)提出納許均衡(Nash equilibrium)也可稱呼為非合作賽局平衡。在納許均衡中，假設每名玩家都是完全理性，亦即這類玩家知道其他人所採取的策略，則每位玩家便可計算最佳的策略機率分佈以最大化自己的期望效用，當所有玩家都滿意他們的效用且不會再改變他們的策略時，此種情況被稱為納許均衡，

在本文中，因目標改為成本，所以每位玩家都想最小化自己的成本。

但在現實世界中，並沒有完全理性的玩家，每個玩家皆是有限理性，亦即這類玩家無法完全知道其他人所採取的策略。為了在公式中加入這一部份，Wolpert (2004)使用 Shannon entropy 來代表有限理性的部分:

𝑆(𝑃) = − ∫ 𝑑𝑦 𝑃(𝑥) 𝑙𝑛(𝑃(𝑥)). (33)

27 度坡降法（gradient descent method）、最陡坡降法（steepest descent method）、

牛頓法（Newton method），本文中使用牛頓法來更新所有玩家的最佳策略分布， 𝐸[𝐺|𝑥_𝑖]，因此我們使用蒙地卡羅法（Monte Carlo method）幫助我們計算，每個 玩家 i 會從他目前的機率分佈𝑞_𝑖(𝑥_𝑖)中根據蒙地卡羅選出他的策略𝑥_𝑖，在得到每個玩家的策略後，我們就可以經由 objective function 計算出期望成本，最後根據方程式(32)更新策略分佈𝑞_𝑖(𝑥_𝑖)。

在文檔中一個使用機器學習模型的資金管理系統的比較性研究 (頁 35-38)