3 研究方法
3.2 資金管理模型
3.5.1 機率整合體理論
機率整合體由 Wolpert (2003)提出,主要的精神在於尋找目標解的最佳機率 分布以求得最佳效用(world utility)。舉例來說,玩家 i 所採行的策略𝑥𝑖是根據策略 的機率分佈𝑞𝑖(𝑥𝑖)來決定,在𝑞𝑖(𝑥𝑖)中機率較高的策略會優先被採用且代表該策略 的期望效用高於其他策略。在 PC 的架構中,為了解釋現實世界中玩家使用混合 策略(mixed strategy)的現象,玩家會被制定為依據機率來決定他們的策略。因此 在一個包含 N 個使用混合策略的玩家的系統中,我們必須將所有玩家採取的策 略集合表示成一個 joint distribution P(x),並以方程式(30)來表示:
𝑃(𝑥) = 𝑃(𝑥1, 𝑥2⋯ 𝑥𝑛). (30)
為了簡化此 joint distribution 的計算 Wolpert (2004)提出 product distribution (PD) theory,將 P(x)轉為各獨立玩家策略機率分佈的乘積,以公式(31)表示:
𝑃(𝑥) = 𝑃(𝑥1, 𝑥2⋯ 𝑥𝑛) = 𝑞1(𝑥1) × 𝑞2(𝑥2) ⋯ × 𝑞𝑛(𝑥𝑛) = ∏𝑁𝑖=1𝑞𝑖(𝑥𝑖). (31)
25
上式代表共有 N 個玩家,每個玩家 i 所採用的策略𝑥𝑖是各自獨立的,N 個玩 家皆使用混合策略,而他們的策略機率分佈會組成一個整個系統的策略的 joint distribution,他們在統計上彼此相關,但是各自的策略卻又是獨立的。在 P(x)拆 解為各玩家策略機率分佈的乘積後,整個問題被簡化為我們對各玩家 i 他們策略 的機率分佈𝑞𝑖(𝑥𝑖)作最佳化即可得到整個系統的最佳效用。
為了方便後面公式的運算,我們將最佳化的目標改為成本,在一般思考中,
最佳效用 G 是去最大化效用,效用越大代表玩家越滿意,改為成本後,玩家們會 想盡辦法去降低整體策略所帶來的成本,當成本越低,玩家的效用也就越高,所 以接下來的章節我們將去最小化成本 G 以尋找 world cost G。
接 下 來 我 們 要 介紹 如何 最 佳 化 各 玩 家 i 的機 率 分 佈𝑞𝑖(𝑥𝑖) 。 首 先 根 據 Fudenberg and Tirole (1991)提出,假設有 N 個玩家參與一個非合作的賽局,任一 玩家 i 會使用混合策略,其中包含自己所會用策略的機率分布𝑞𝑖(𝑥𝑖)以及 private utility function 𝑔𝑖(𝑥),而𝑔𝑖(𝑥)是由 N 個玩家所做出的策略的集合 x 計算得來,因 此玩家 i 的期望成本𝐸(𝑔𝑖)可用方程式(32)表示:
𝐸(𝑔𝑖) = ∫ 𝑑𝑥 ∏ 𝑞𝑗 𝑗(𝑥𝑗)𝑔𝑖(𝑥). (32)
Nash (1951)提出納許均衡(Nash equilibrium)也可稱呼為非合作賽局平衡。在 納許均衡中,假設每名玩家都是完全理性,亦即這類玩家知道其他人所採取的策 略,則每位玩家便可計算最佳的策略機率分佈以最大化自己的期望效用,當所有 玩家都滿意他們的效用且不會再改變他們的策略時,此種情況被稱為納許均衡,
在本文中,因目標改為成本,所以每位玩家都想最小化自己的成本。
26
但在現實世界中,並沒有完全理性的玩家,每個玩家皆是有限理性,亦即這 類玩家無法完全知道其他人所採取的策略。為了在公式中加入這一部份,Wolpert (2004)使用 Shannon entropy 來代表有限理性的部分:
𝑆(𝑃) = − ∫ 𝑑𝑦 𝑃(𝑥) 𝑙𝑛(𝑃(𝑥)). (33)
27 度坡降法(gradient descent method)、最陡坡降法(steepest descent method)、
牛頓法(Newton method),本文中使用牛頓法來更新所有玩家的最佳策略分布, 𝐸[𝐺|𝑥𝑖],因此我們使用蒙地卡羅法(Monte Carlo method)幫助我們計算,每個 玩家 i 會從他目前的機率分佈𝑞𝑖(𝑥𝑖)中根據蒙地卡羅選出他的策略𝑥𝑖,在得到每 個玩家的策略後,我們就可以經由 objective function 計算出期望成本,最後根據 方程式(32)更新策略分佈𝑞𝑖(𝑥𝑖)。