學習模型 - 文獻探討 - 賽局理論與學習模型的實證研究

第二章文獻探討

第一節學習模型

國

立政治大學

‧

Na tiona

l Ch engchi University

高報償的決策方向，此種過程被稱為增強學習。

第一節學習模型

有些學習模型，玩家會根據過去的經驗來決定未來的決策，如：增強學習模型(Reinforcement Learning Model)、延伸的增強學習模型(Extend Reinforcement Learning Model)。學習模型會預測對手的選擇，以決定自己下一步最佳選擇，如：

信念學習模型(Belief Learning Model)。此外，也有兼顧以上兩種的學習模型，如：

加權經驗吸引模型(Experience-Weighted Attraction Model)。

配適學習模型需要的主要資訊是玩家在不同回合下所得到的報酬，這些模型都認為，玩家會根據過去自己的選擇以及過去遇到的玩家，進而影響下一次的選擇，本文使用的資料裡是重複的囚犯兩難賽局，表 2.1 提供了兩位玩家在不同選擇配對下的報酬，其中 C 和 D 分別代表合作以及不合作。

表 2.1、報酬矩陣玩家 2

玩家 1 合作(C) 不合作(D) 合作(C) (8，8) (1，12) 不合作(D) (12，1) (3，3)

註：(A，B)分別代表(玩家 1，玩家 2)的報酬單位：NT$

為了方便描述模型，先定義一些符號。假設玩家共有 N 人，遊戲有 T 回合，

分別以i1, ,N代表各玩家以及t1, ,T代表各回合，k 1, 2則分別代表選擇 ,C D，s t_i

( )

代表i玩家在第 t 回合的選擇，s t__i

( )

則是代表i玩家的對手在第t回合的選擇，_i( ( ),s t s_i^k _^k^*_i( ))t 則是玩家i在第t回合選擇k遇到對手選擇k^*所得到的報酬，舉例來說，玩家i在第 6 回合選擇不合作但遇到合作的對手，其報酬為

‧

2. 增強學習模型(Reinforcement learning model; RL) (Roth and Erev, 1995)：

此模型最開始是從行為心理學發展出來的，行為學家認為人們的行為，可以

‧

的規則，並且將它們應用在決定策略上，之後克羅斯(Cross, 1983)，將增強學習應用在經濟決策，非常不幸的是，一直等到十年後才有人注意到他重要的貢獻，

之後陸陸續續有學者將增強學習應用在賽局上如：McAllister(1991)、Mookerjhee and Sopher(1994,1997)、Roth and Erev(1995)、Sarin and Vahid(2001)等。而最常見增強學習模型的形式如下：

3. 延伸增強學習模型(Extend Reinforcement learning model; ERL)(Lai Y.H., 2005)：

以增強學習模型為基礎做細項調整，此模型認為光是以過去的經驗，似乎不足描述本文的實證資料，其修改後的式子為：

‧

4. 信念學習模(Belief learning model; BL)(Belief-Based Model)：

最早提出信念學習必須回溯至庫爾諾(Cournot, 1960)，他提出玩家選擇最佳策略時，是根據下一回合玩家認為其對手會選擇的策略而做調整，其最主要的思維是，玩家會傾向選擇預期最高報酬的選項，換句話說玩家只在乎對手的選擇，

以此調整選擇下一次預期最高報酬的選項。

關於信念有很多不同的形式如：虛擬對策(Fictitious Play)(Brown, 1951)、庫爾諾最佳反應(Cournot Best Response) 以及加權虛擬對策(Weighted Fictitious Play)，其中加權虛擬對策，其特殊形式則包含了庫爾諾最佳反應以及虛擬對策，

‧

5. 加權經驗吸引模型(Experience-weighted attraction model; EWA) (Cramer and Ho, 1999)：

‧

而學習模型裡的吸引轉換成機率，通常都是以羅吉斯函數(Logit Function)轉換，

轉換公式如下：地卡羅的方法早在西元 1777 年，法國布馮(Buffon)提出投針實驗的方法求圓周率，

被認為是蒙地卡羅模擬的起源。

在文檔中賽局理論與學習模型的實證研究 - 政大學術集成 (頁 13-19)

學習模型

第二章 文獻探討

第一節 學習模型

國

立 政 治 大 學

‧

第一節 學習模型

( )

( )

‧

‧

‧

‧

‧

‧

第二章文獻探討

第一節學習模型

立政治大學

第一節學習模型