• 沒有找到結果。

第二章 文獻探討

第一節 學習模型

立 政 治 大 學

Na tiona

l Ch engchi University

6

高報償的決策方向,此種過程被稱為增強學習。

第一節 學習模型

有些學習模型,玩家會根據過去的經驗來決定未來的決策,如:增強學習模 型(Reinforcement Learning Model)、延伸的增強學習模型(Extend Reinforcement Learning Model)。學習模型會預測對手的選擇,以決定自己下一步最佳選擇,如:

信念學習模型(Belief Learning Model)。此外,也有兼顧以上兩種的學習模型,如:

加權經驗吸引模型(Experience-Weighted Attraction Model)。

配適學習模型需要的主要資訊是玩家在不同回合下所得到的報酬,這些模型 都認為,玩家會根據過去自己的選擇以及過去遇到的玩家,進而影響下一次的選 擇,本文使用的資料裡是重複的囚犯兩難賽局,表 2.1 提供了兩位玩家在不同選 擇配對下的報酬,其中 C 和 D 分別代表合作以及不合作。

表 2.1、報酬矩陣 玩家 2

玩家 1 合作(C) 不合作(D) 合作(C) (8,8) (1,12) 不合作(D) (12,1) (3,3)

註:(A,B)分別代表(玩家 1,玩家 2)的報酬 單位:NT$

為了方便描述模型,先定義一些符號。假設玩家共有 N 人,遊戲有 T 回合,

分別以i1, ,N代表各玩家以及t1, ,T代表各回合,k 1, 2則分別代表選 擇 ,C D,s ti

( )

代表i玩家在第 t 回合的選擇,s ti

( )

則是代表i玩家的對手在第t回 合的選擇,i( ( ),s t sik k*i( ))t 則是玩家i在第t回合選擇k遇到對手選擇k*所得到 的報酬,舉例來說,玩家i在第 6 回合選擇不合作但遇到合作的對手,其報酬為

2. 增強學習模型(Reinforcement learning model; RL) (Roth and Erev, 1995):

此模型最開始是從行為心理學發展出來的,行為學家認為人們的行為,可以

的規則,並且將它們應用在決定策略上,之後克羅斯(Cross, 1983),將增強學習 應用在經濟決策,非常不幸的是,一直等到十年後才有人注意到他重要的貢獻,

之後陸陸續續有學者將增強學習應用在賽局上如:McAllister(1991)、Mookerjhee and Sopher(1994,1997)、Roth and Erev(1995)、Sarin and Vahid(2001)等。而最常見 增強學習模型的形式如下:

3. 延伸增強學習模型(Extend Reinforcement learning model; ERL)(Lai Y.H., 2005):

以增強學習模型為基礎做細項調整,此模型認為光是以過去的經驗,似乎不 足描述本文的實證資料,其修改後的式子為:

4. 信念學習模(Belief learning model; BL)(Belief-Based Model):

最早提出信念學習必須回溯至庫爾諾(Cournot, 1960),他提出玩家選擇最佳 策略時,是根據下一回合玩家認為其對手會選擇的策略而做調整,其最主要的思 維是,玩家會傾向選擇預期最高報酬的選項,換句話說玩家只在乎對手的選擇,

以此調整選擇下一次預期最高報酬的選項。

關於信念有很多不同的形式如:虛擬對策(Fictitious Play)(Brown, 1951)、庫 爾諾最佳反應(Cournot Best Response) 以及加權虛擬對策(Weighted Fictitious Play),其中加權虛擬對策,其特殊形式則包含了庫爾諾最佳反應以及虛擬對策,

5. 加權經驗吸引模型(Experience-weighted attraction model; EWA) (Cramer and Ho, 1999):

而學習模型裡的吸引轉換成機率,通常都是以羅吉斯函數(Logit Function)轉換,

轉換公式如下: 地卡羅的方法早在西元 1777 年,法國布馮(Buffon)提出投針實驗的方法求圓周率,

被認為是蒙地卡羅模擬的起源。

相關文件