第二章 文獻探討
第一節 學習模型
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
6
高報償的決策方向,此種過程被稱為增強學習。
第一節 學習模型
有些學習模型,玩家會根據過去的經驗來決定未來的決策,如:增強學習模 型(Reinforcement Learning Model)、延伸的增強學習模型(Extend Reinforcement Learning Model)。學習模型會預測對手的選擇,以決定自己下一步最佳選擇,如:
信念學習模型(Belief Learning Model)。此外,也有兼顧以上兩種的學習模型,如:
加權經驗吸引模型(Experience-Weighted Attraction Model)。
配適學習模型需要的主要資訊是玩家在不同回合下所得到的報酬,這些模型 都認為,玩家會根據過去自己的選擇以及過去遇到的玩家,進而影響下一次的選 擇,本文使用的資料裡是重複的囚犯兩難賽局,表 2.1 提供了兩位玩家在不同選 擇配對下的報酬,其中 C 和 D 分別代表合作以及不合作。
表 2.1、報酬矩陣 玩家 2
玩家 1 合作(C) 不合作(D) 合作(C) (8,8) (1,12) 不合作(D) (12,1) (3,3)
註:(A,B)分別代表(玩家 1,玩家 2)的報酬 單位:NT$
為了方便描述模型,先定義一些符號。假設玩家共有 N 人,遊戲有 T 回合,
分別以i1, ,N代表各玩家以及t1, ,T代表各回合,k 1, 2則分別代表選 擇 ,C D,s ti
( )
代表i玩家在第 t 回合的選擇,s ti( )
則是代表i玩家的對手在第t回 合的選擇,i( ( ),s t sik k*i( ))t 則是玩家i在第t回合選擇k遇到對手選擇k*所得到 的報酬,舉例來說,玩家i在第 6 回合選擇不合作但遇到合作的對手,其報酬為‧
2. 增強學習模型(Reinforcement learning model; RL) (Roth and Erev, 1995):
此模型最開始是從行為心理學發展出來的,行為學家認為人們的行為,可以
‧
的規則,並且將它們應用在決定策略上,之後克羅斯(Cross, 1983),將增強學習 應用在經濟決策,非常不幸的是,一直等到十年後才有人注意到他重要的貢獻,之後陸陸續續有學者將增強學習應用在賽局上如:McAllister(1991)、Mookerjhee and Sopher(1994,1997)、Roth and Erev(1995)、Sarin and Vahid(2001)等。而最常見 增強學習模型的形式如下:
3. 延伸增強學習模型(Extend Reinforcement learning model; ERL)(Lai Y.H., 2005):
以增強學習模型為基礎做細項調整,此模型認為光是以過去的經驗,似乎不 足描述本文的實證資料,其修改後的式子為:
‧
4. 信念學習模(Belief learning model; BL)(Belief-Based Model):
最早提出信念學習必須回溯至庫爾諾(Cournot, 1960),他提出玩家選擇最佳 策略時,是根據下一回合玩家認為其對手會選擇的策略而做調整,其最主要的思 維是,玩家會傾向選擇預期最高報酬的選項,換句話說玩家只在乎對手的選擇,
以此調整選擇下一次預期最高報酬的選項。
關於信念有很多不同的形式如:虛擬對策(Fictitious Play)(Brown, 1951)、庫 爾諾最佳反應(Cournot Best Response) 以及加權虛擬對策(Weighted Fictitious Play),其中加權虛擬對策,其特殊形式則包含了庫爾諾最佳反應以及虛擬對策,
‧
‧
5. 加權經驗吸引模型(Experience-weighted attraction model; EWA) (Cramer and Ho, 1999):
‧
而學習模型裡的吸引轉換成機率,通常都是以羅吉斯函數(Logit Function)轉換,
轉換公式如下: 地卡羅的方法早在西元 1777 年,法國布馮(Buffon)提出投針實驗的方法求圓周率,
被認為是蒙地卡羅模擬的起源。