• 沒有找到結果。

賽局理論與學習模型的實證研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "賽局理論與學習模型的實證研究 - 政大學術集成"

Copied!
69
0
0

加載中.... (立即查看全文)

全文

(1)國 立 政 治 大 學 統 計 學 系 碩 士 學 位 論 文. 政 治 大. 賽局理論與學習模型的實證研究 立. ‧ 國. 學. An Empirical Study of Game Theory and. ‧. Learning Model. n. er. io. sit. y. Nat. al. Ch. i n U. v. engchi 指 導 教 授 : 余清祥 博士 研 究 生 : 陳冠儒 撰. 中華民國一百年六月.

(2) 謝辭 能夠完成這篇論文最感謝的當然是我的指導教授余清祥老師,剛開始接觸賽 局理論時什麼都不懂,但是老師總是很有耐心的給予我許多指導,真的很感謝老 師。此外也很感謝中研院社科中心的陽春雷老師,也給予我的論文許多的指導與 方向。當然也非常感謝我的口試老師陳麗霞老師、陳怡如老師和溫在弘老師,在 口試過程給予我許多寶貴的意見。 在碩班兩年的生活,陪伴我的家人和朋友們,與他們的相處都讓我非常開心,. 政 治 大 們經歷過的經驗,非常感謝他們對我的關心,以及我家的狗-娜娜,每次回家看 立. 我的爸爸媽媽平常對我的關心,以及大哥二哥在我的人生旅途上,跟我說許多他. ‧ 國. 學. 到她心情都會變得很好,超可愛的!還有在碩班的研究室一起度過的朋友們,金 碩、心維、丞庭、卓卓、盈方、婉婷、大衛、小蘋果、詠翔、歐家、柯姐、慈慧、. ‧. 慧甄、雨慈、妮妮、建佑,還有佩茹,和你們相處真的很開心,謝謝你們!還有. sit. y. Nat. 球隊的朋友,傳傑、跳哥、哲宇王、品豪、耀震、水哥、安卓、死魚、小豪、晉. al. er. io. 維、匯捷、挺誼,和你們一起練球吃宵夜也很開心,之後也希望可以再回來找你. v. n. 們打球!最後要感謝的是李宜真,謝謝你陪伴我,也常常給我鼓勵,在我心情不. Ch. engchi. i n U. 好的時候也總是能讓我勇敢往前,謝謝你,謝謝大家。.

(3) 摘要 賽局理論(Game Theory)大多假設理性決策,單一回合賽局通常可由理論證明 均衡(Equilibrium)或是最佳決策,然而如果賽局重複進行,不見得只存在單一均 衡,光從理論推導可能無法找到所有均衡。以囚犯困境(Prisoner Dilemma)為例, 理論均衡為不合作,若重複的賽局中存有互利關係,不合作可能不是最佳選擇。 近年來,經濟學家藉由和統計實驗設計類似的賽局實驗(Game Experiment),探討 賽局在理論與實際間的差異,並以學習模型(Learning Model)描述參賽者的決策. 政 治 大 有關(Data Dependent)。有鑑於學習模型在模型選取上的不足,本文引進統計分 立 及行為,但學習模型的優劣大多依賴誤差大小判定,但誤差分析結果可能與資料. ‧ 國. 學. 析的模型選取及殘差檢定,以實證資料、配合電腦模擬評估學習模型。 本文使用的實證資料,屬於囚犯困境的重複賽局(Repeated Game),包括四種. ‧. 不同的實驗設定,參加賽局實驗者(或是「玩家」)為政治大學大學部學生;比. sit. y. Nat. 較學習模型有四種:增強學習模型(Reinforcement Learning model)、延伸的增強. n. al. er. io. 學習模型(Extend Reinforcement Learning Model)、信念學習模型(Belief Learning. i Un. v. Model)、加權經驗吸引模型(Experience-Weighted Attraction Model)。實證及模擬. Ch. engchi. 分析發現,增強學習模型較適合用於描述囚犯困境資料,無論是較小的誤差或是 適合度分析,增強學習模型都有較佳的結果;另外,也發現玩家在不同實驗設定 中的反應並不一致,將玩家分類後會有較佳的結果。. 關鍵詞:囚犯兩難、重複賽局、學習模型、蒙地卡羅模擬、適合度檢定.

(4) Abstract In game theory, the optimal strategy (or equilibrium) of one-shot games usually can be solved theoretically. But, the optimal strategies of repeated games are likely not unique and are more difficult to find. For example, the defection is the optimal decision for the one-shot Prisoner Dilemma (PD) game. But for the repeated PD game, if the players can benefit from cooperation between rounds then the defection won’t be the only optimal rule. In recent years, economists design game experiments to. 政 治 大 player’s choices. Most of the evaluation criteria are based on the estimation and 立 explore the behavior in repeated games and use the learning models to evaluate the. ‧ 國. 學. prediction errors, but the results are likely to be data dependent. In this study, we adapt the model selection process in regression analysis and apply the idea to evaluate. ‧. learning models. We use empirical data, together with Monte Carlo simulation, to. Nat. sit. y. demonstrate the evaluation process.. n. al. er. io. The empirical data used are repeated PD game, including four different. i Un. v. experimental settings, and the players of the game are from National Chengchi. Ch. engchi. University in Taiwan. Also, we consider four learning models: Reinforcement learning (RL) model, Extend Reinforcement learning (ERL) model, Belief Learning (BL) model, and Experience-weighted attraction (EWA) model. We found that the RL model is more appropriate to describe the PD data. In addition, the behaviors of players in a group can be quite different and separating the players into different sets can reduce the estimation errors. Key Words: prisoner dilemma, repeated game, learning model, Monte Carlo simulation, goodness-of-fit.

(5) 目錄 第一章 前言................................................................................................................ 1 第一節. 研究動機............................................................................................ 1. 第二節. 研究目的............................................................................................ 3. 第二章 文獻探討........................................................................................................ 5 第一節. 學習模型............................................................................................ 6. 第二節. 蒙地卡羅模擬.................................................................................. 12. 第三章 資料介紹與研究方法.................................................................................... 14 第一節. 資料介紹.......................................................................................... 14. 第二節. 情境資料-WH(p) ............................................................................. 49. Nat. 第六節. 情境資料-WH(c) ............................................................................. 45. y. 第五節. 情境資料-WH.................................................................................. 40. ‧. 第四節. 情境資料-RM .................................................................................. 35. 敏感度分析...................................................................................... 53. sit. 第三節. 學. 研究方法.......................................................................................... 20. ‧ 國. 治 政 大 第四章 實證資料分析.............................................................................................. 30 立 第一節 學習模型的必要性.......................................................................... 30 第二節. al. er. io. 第五章 結論及建議.................................................................................................. 58. iv n C 第二節 後續發展與建議.............................................................................. 60 hengchi U 參考文獻...................................................................................................................... 61 結論.................................................................................................. 58. n. 第一節.

(6) 表目錄 表 1.1、市場報酬矩陣.................................................................................................. 1 表 1.2、囚犯困境償付矩陣.......................................................................................... 2 表 2.1、報酬矩陣.......................................................................................................... 6 表 3.1、報酬矩陣........................................................................................................ 14 表 3.2、實驗流程........................................................................................................ 16 表 3.3、階段 1 及階段 3 分組機率............................................................................ 17 表 3.4、各情境資料概要............................................................................................ 17 表 3.5、卡方獨立性檢定............................................................................................ 25 表 4.1、RM 配適結果 ................................................................................................ 30 表 4.2、RM 交叉驗證 ................................................................................................ 31. 政 治 大 表 4.3、WH 配適結果 ................................................................................................ 33 立 表 4.4、WH 交叉驗證 ................................................................................................ 33. ‧ 國. 學. 表 4.5、RM 配適結果 ................................................................................................ 35 表 4.6、RM 交叉驗證 ................................................................................................ 36. ‧. 表 4.7、RM-基本性質信賴區間 ................................................................................ 37 表 4.8、RM-參數信賴區間 ........................................................................................ 39. n. al. er. io. sit. y. Nat. 表 4.9、RM - F * 檢定 .................................................................................................. 39 表 4.10、WH 配適結果 .............................................................................................. 40 表 4.11、WH 交叉驗證 .............................................................................................. 41 表 4.12、WH-基本性質信賴區間.............................................................................. 42 表 4.13、WH-參數信賴區間...................................................................................... 43. Ch. engchi. i Un. v. 表 4.14、WH - F * 檢定 ............................................................................................... 44 表 4.15、WH(c)配適結果: ...................................................................................... 45 表 4.16、WH(c)交叉驗證 .......................................................................................... 46 表 4.17、WH(c)-基本性質信賴區間 ......................................................................... 46 表 4.18、WH(c)-參數信賴區間 ................................................................................. 48 表 4.19、WH(c) - F * 檢定 ........................................................................................... 48 表 4.20、WH(p)配適結果: ...................................................................................... 49 表 4.21、WH(p)交叉驗證 .......................................................................................... 50 表 4.22、WH(p)-基本性質信賴區間 ......................................................................... 50 表 4.23、WH(p) - F * 檢定........................................................................................... 52 表 4.24、WH(p)-參數信賴區間 ................................................................................. 52 表 4.25、RM 亂數驗證資料結果 .............................................................................. 53 表 4.26、WH 亂數驗證資料結果 .............................................................................. 55.

(7) 圖目錄 圖 3.1、WH 配對解說圖 ............................................................................................ 15 圖 3.2(a)、合作機率 ................................................................................................... 19 圖 3.2(b)、高低分數的合作機率 ............................................................................... 19 圖 3.3(a)、轉換機率 ................................................................................................... 19 圖 3.3(b)、高低分數的轉換機率 ............................................................................... 19 圖 3.4、模型流程圖.................................................................................................... 25 圖 3.5、合作次數直方圖............................................................................................ 27 圖 3.6、合作次數機率密度........................................................................................ 28. 治 政 大 圖 4.2、WH-95%信賴區間 ........................................................................................ 34 立 圖 4.3、RM-局部基本性質信賴區間 ........................................................................ 38 圖 4.1、RM-95%信賴區間 ......................................................................................... 32. ‧ 國. 學. 圖 4.4、WH-局部基本性質信賴區間........................................................................ 43 圖 4.5、WH(c) -局部基本性質信賴區間 .................................................................. 47. ‧. 圖 4.6、WH(p)-局部基本性質信賴區間 ................................................................... 51. y. Nat. 圖 4.7、RM-相對效率性(驗證資料) ......................................................................... 54. sit. 圖 4.8、RM-MSD 變異數(驗證資料)........................................................................ 55. al. er. io. 圖 4.9、WH-相對效率性(驗證資料) ......................................................................... 56. v. n. 圖 4.10、WH-MSD 變異數(驗證資料) ..................................................................... 57. Ch. engchi. i Un.

(8) 第一章. 第一節. 前言. 研究動機. 賽局理論(Game Theory)是經濟學的一個分支,用於研究人類的決策及行為, 有助於了解人們如何制訂策略,在日常生活中有許多賽局理論的應用。賽局理論 主要在探討的問題是雙向互動,我的計算必須考慮你的計算,而你的計算也考慮 了我的計算,為一門研究 「多人決策」 (包括兩人)之間的問題。賽局中的每一. 政 治 大. 個人的決策,會受到賽局中其他人的影響。個人的報酬不只根據自己的選擇,也. 立. 取決對手的決定,因此使得賽局理論更加複雜。例如:市場上只有甲乙兩家公司,. ‧ 國. 學. 且生產的產品同質,若整個市場對產品的需求量固定,甲乙公司分別可以選擇製 造高產量或是低產量,下表列出兩家公司不同策略所能得到的報酬。. ‧. n. al. 高產量 低產量. 高產量. 低產量. er. io. 甲公司. sit. Nat. 乙公司. y. 表 1.1、市場報酬矩陣. Ch. (50,50). e(20,120) ngchi. i Un. v. (120,20) (80,80). 註:(A,B)分別代表(甲公司,乙公司)的報酬. 單位:萬元. 根據表 1.1 的報酬表,如果雙方選擇的是高產量,此時供給大於需求會導致 價格變低,產量變高卻只能各獲利 50 萬元。如果甲公司選擇高產量,乙公司選 擇低產量,生產高產量的甲公司可以獲得龐大利益 120 萬元,選擇低產量的乙公 司只能獲得 20 萬元;反過來說,若乙公司選擇高產量,甲公司選擇低產量,乙 公司的獲利較高;如果雙方都選擇低產量,因為供給小於需求使得價格上漲,提 高邊際利潤,因此雙方都可以 獲利 80 萬元。此時,若你是甲(乙)公司的決策者, 1.

(9) 你會選擇什麼策略? 當然實際上一定不如上述問題那麼簡單,但是多少可藉由簡化問題獲得有用 的想法。由上例來看,如果乙公司選擇的是高產量的決策,甲公司該如何應對呢? 如果甲公司選擇高產量,公司就會獲利 50 萬元,如果選擇低產量,公司僅能獲 利 20 萬,相較之下理性的總經理應當會選擇高產量的決策;如果乙公司選擇的 是低產量的決策,甲公司若選擇低產量,可以獲利 80 萬元,若選擇高產量則可 以獲利 120 萬元,此時甲公司的總經理應當還是會選擇較高報酬的高產量。綜觀 以上分析,不管乙公司選擇什麼策略,甲公司都會選擇高產量,對乙公司而言也. 政 治 大 Equilibrium)。奈許均衡主要應用在非合作博弈,假設人是理性且自利,因此只 立. 是如此,因此最後雙方都會選擇高產量的決策,這也是著名的奈許均衡(Nash. ‧ 國. 學. 選擇對自己最有利的策略,不將對手的報酬列入考量。以上例來看,不管對手的 公司選擇為何,選擇高產量可獲得較高報酬,因此「高產量」就是均衡或是最佳. io. a犯人乙 v i沉默 坦承 l C n hengchi U. n 犯人甲. sit. 表 1.2、囚犯困境償付矩陣. er. Nat. y. ‧. 決策。. 坦承. (-8,-8). (0,-10). 沉默. (-10,0). (-1,-1). 註:(A,B)分別代表(犯人甲,犯人乙)的報酬. 單位:年. 上述兩家公司的範例,屬於眾所皆知的囚犯困境(Prisoner Dilemma)賽局。常 見的敘述為有兩個囚犯,在一次案件中同時被逮捕,警方分別將兩人分開偵訊, 如表 1.2 所示,若兩人都坦承,分別會被判八年刑期;若一人坦承一人沉默,坦 承的人因轉為證人而無罪釋放,而沉默的人必須負擔十年刑期;如果兩人同時保 2.

(10) 持沉默,則因罪證不足僅能以較輕微的罪名起訴,兩人只會被判一年刑期。從奈 許均衡理論推測,若雙方為理性且自利的,最終都會選擇坦承。 從單一回合的囚犯困境,可以從理論基礎找到帄衡點,但重複的囚犯困境就 又不同了,以上述生產的例子來說,假設兩家公司的決策僅會影響一季的生產量, 未來長久的日子裡,兩間公司每一季都會遇到相同的問題,雙方也都知道長期選 擇低產量是對雙方最好的策略,但是每一次都陷入該選擇高產量還是低產量的決 策問題,因為你不知道另一個搭擋到底是競爭對手,還是合作夥伴,此時若你是 公司的總經理,又該如何做決策呢?. 政 治 大 衡的單一帄衡點,雙方有可能會為了長期合作而選擇合作。實證上,經濟學家以 立 像這樣重複的囚犯兩難問題,可能存在兩個以上的最佳決策,有別於奈許均. ‧ 國. 學. 學習模型(Learning Model)解釋人在重複賽局的學習行為,但過去研究選擇模型 時,通常是依據配適結果或交叉驗證的標準,缺乏統計分析比較有系統的模型選. ‧. 擇,因此本文希望引進迴歸分析的操作模式選取最佳學習模型。. y. Nat. io. n. al. sit. 研究目的. er. 第二節. i Un. v. 如果挑選學習模型以較小變異數或最大概似估計量為優劣準則,可能會和迴. Ch. engchi. 2. 2. 歸分析遭遇類似的問題,變數愈多、誤差愈小(或是 R 愈大),但 R 最大不見 得是最適合的模型,還必須檢查殘差是否符合迴歸模型假設,如:服從常態分佈、 資料獨立、變異數同質等。但是重複賽局的資料有時間先後關係,因此資料不服 從獨立假設,增加分析的複雜性,因此建議以電腦模擬解決。. 理論. 實驗設計. 電腦模擬. 賽局一開始探討理論較多,從簡單的零和賽局證明「壞中取小」定裡,到之 後非合作博弈賽局證明奈許均衡,都是賽局理論之一。賽局理論主要探討的是單 3.

(11) 回合的賽局,單回合的賽局通常存在均衡點,而重複賽局僅以理論較難證明存在 單一均衡點。又或許可以推論有單一均衡點,但實際上人的決策卻未必會與理論 結果一致,因此經濟學家透過實驗,記錄人在重複賽局中的決策行為,觀察實際 上人的決策變化,並以學習模型解釋人的決策行為,此為實驗經濟。而除了實驗 數據,本文也將電腦模擬應用在賽局上,探討理論上學習模型的特性。 本文實證的資料,從實驗經濟出發,利用實證資料帶入模型,與以往實驗不 同的是多人重複的囚犯困境賽局,以及實證資料的遊戲規則。本文希望可以提出 其他輔助選取模型的判斷標準,因此除了傳統的配適結果判斷模型的優劣以外,. 政 治 大 中,選取較佳的模型。其次,透過敏感度分析,希望可以找到表現最穩健的模型, 立 還希望可以透過蒙地卡羅模擬,檢驗資料是否符合模型假設,從符合假設的模型. ‧ 國. 學. 如此即使判斷失誤,資料並非來自判斷的模型,也不會與實際結果差異太大。. 本文第二章將介紹文獻探討,以及本文使用的學習模型、蒙地卡羅模擬法。. ‧. 第三章會介紹本文使用的實證資料以及研究方法。第四章是資料分析,第一節介. sit. y. Nat. 紹學習模型的必要性,之後分成四個情境資料,探討不同模型在不同情境下的表. n. al. er. io. 現,以及探討學習模型的敏感度分析。第五章則是結論及建議的部分。. Ch. engchi. 4. i Un. v.

(12) 第二章. 文獻探討. 本文希望探討修正估計學習模型以及驗證模型假設,本章會先介紹賽局的發 展,接著第一節介紹學習模型,包括學習模型的發展過程和模型本身的意義,第 二節介紹蒙地卡羅模擬法,以及如何應用蒙地卡羅驗證本文模型假設。 賽局理論的發展是從 1928 年馮諾曼(J. von Neumann)首先從證明「壞中取小」 定理,此定理僅適用在零和(Zero-Sum)賽局中,此賽局一方的虧損,會恰好等於 另一方的報酬,雙方總利益為 0。在 1944 年馮諾曼和摩根斯坦(O. Morgenstern). 政 治 大. 出版他們合著的《賽局理論與經濟行為》(Theory of Games and Economic Behavior),. 立. 才開始注意到賽局理論可以用來分析許多經濟問題。. ‧ 國. 學. 賽局的發展,繼而由電影「美麗境界」主人翁的奈許(J. F. Nash Jr.)提出. ‧. 『Non-cooperative Games』博士論文,以研究「多人非合作」之賽局為論述,並 提出著名的「奈許均衡」的概念,奈許均衡主要應用在典型的囚犯困境,在理想. y. Nat. io. sit. 的情況下,個人理性追求自身的利益得到的理論結果,即達到奈許均衡(也稱為. n. al. er. 非合作均衡)。因此奈許於 1994 年與哈桑尼(J.C.Harsanyi)及賽爾登(R.Selton)等賽. Ch. 局理論研究者,共同獲得諾貝爾經濟學獎。. engchi. i Un. v. 理論上,單一的囚犯困境會達到奈許均衡,但是在固定對手的重複賽局中, 玩家擁有懲罰對手的能力(即下次選擇不合作),雖然這樣的懲罰較消極,但如果 雙方玩家都長期選擇不合作對彼此都不會達到最大利益,因此有些玩家會傾向選 擇合作釋出善意,達成長期合作雙贏的目標。 由上可知重複賽局有可能存在兩個以上帄衡點,因此經濟學家希望透過實驗, 了解人在重複賽局中的決策變化,並利用學習模型解釋人的學習行為。在兩人或 多人賽局,受詴者對其他受詴者所形成的信念或許會隨著時間而改變,此一過程 被解釋成信念學習;受詴者根據過去經驗也許會跳離導致糟糕報償的決策,朝向 5.

(13) 高報償的決策方向,此種過程被稱為增強學習。. 第一節. 學習模型. 有些學習模型,玩家會根據過去的經驗來決定未來的決策,如:增強學習模 型(Reinforcement Learning Model)、延伸的增強學習模型(Extend Reinforcement Learning Model)。學習模型會預測對手的選擇,以決定自己下一步最佳選擇,如: 信念學習模型(Belief Learning Model)。此外,也有兼顧以上兩種的學習模型,如: 加權經驗吸引模型(Experience-Weighted Attraction Model)。. 政 治 大. 配適學習模型需要的主要資訊是玩家在不同回合下所得到的報酬,這些模型. 立. 都認為,玩家會根據過去自己的選擇以及過去遇到的玩家,進而影響下一次的選. ‧ 國. 學. 擇,本文使用的資料裡是重複的囚犯兩難賽局,表 2.1 提供了兩位玩家在不同選 擇配對下的報酬,其中 C 和 D 分別代表合作以及不合作。. ‧. n. al. 合作(C). 合作(C). 不合作(D). er. io. 玩家 1. sit. Nat. 玩家 2. y. 表 2.1、報酬矩陣. Ch. 不合作(D). (8,8). engchi (12,1). iv (1,12) n U (3,3). 註:(A,B)分別代表(玩家 1,玩家 2)的報酬. 單位:NT$. 為了方便描述模型,先定義一些符號。假設玩家共有 N 人,遊戲有 T 回合, 分別以 i  1,. , N 代表各玩家以及 t  1,. ,T 代表各回合, k  1, 2 則分別代表選. 擇 C , D,si (t ) 代表 i 玩家在第 t 回合的選擇,si (t ) 則是代表 i 玩家的對手在第 t 回 合的選擇,  i (si. k. *. (t ), ski (t )) 則是玩家 i 在第 t 回合選擇 k 遇到對手選擇 k * 所得到. 的報酬,舉例來說,玩家 i 在第 6 回合選擇不合作但遇到合作的對手,其報酬為 6.

(14)  i (siD (6), sCi (6))  12 。 1.. 隨機反應均衡(Quantal Response Equilibrium; QRE) (Richard and Thomas, 1995): 此模型裡面,玩家選擇的不會是最佳選擇(如奈許均衡),取而代之的是選擇. "較佳"的策略,玩家在做決策時可能會犯錯,但是越嚴重的錯誤(報酬越低),犯 錯的機率就越小,其考慮對手也有可能犯錯的事實,式子如下:.   exp     P s ki'   i  sik , sk i'    k'  P  sik     exp     P s ki'   i  sik * , sk i'    k*  k' .  . 立. 政 治   大. ‧ 國. 學. P  sik  為玩家 i 選擇 k 策略的機率,其形式為利用羅吉斯函數(Logit Function).  . ‧. 轉換成機率, P s ki' 為玩家 i 預測對手會選擇 k ' 的機率,參數  可視為玩家對報. y. Nat. 酬的敏感度。如果玩家選擇 k 策略時,遇到的對手選擇 k ' 的報酬越低,也就是. sit. n. al. er. io.  i  sik , ski'  越少的話,玩家選擇錯誤(報酬較低)的策略,機率就越低,當然也和玩. i Un. v. 家預測對手選擇的機率有關,不過大致上來說玩家較不會選擇預期報酬較低的策 略。. Ch. engchi. 在估計參數時,由於無法得知玩家對於對手預測選擇為何,因此本文將.  . P s ki 視為所有玩家選擇 k 策略的帄均機率,如果所有玩家選擇 k 策略的帄均機 率為 pk ,玩家遇到選擇 k 策略的對手機率也應為 pk ,也將此機率視為玩家預測.  . 對手選擇的機率( P s ki = pk )。用此想法配適模型,其配適結果會剛好使預測下 次選擇策略 k 的機率,即為帄均機率。 2.. 增強學習模型(Reinforcement learning model; RL) (Roth and Erev, 1995): 此模型最開始是從行為心理學發展出來的,行為學家認為人們的行為,可以 7.

(15) 由過去的學習經驗解釋,第一篇增強學習在策略以及賽局上應用的研究,是在 1955 年,由布希(Bush)和莫斯特勒(Mosteller)提出的,他們簡單定義了增強學習 的規則,並且將它們應用在決定策略上,之後克羅斯(Cross, 1983),將增強學習 應用在經濟決策,非常不幸的是,一直等到十年後才有人注意到他重要的貢獻, 之後陸陸續續有學者將增強學習應用在賽局上如:McAllister(1991)、Mookerjhee and Sopher(1994,1997)、Roth and Erev(1995)、Sarin and Vahid(2001)等。而最常見 增強學習模型的形式如下: k k    Ai  t  1   i  si , si  t   A t    k    Ai  t  1. sik  si  t . if. k i. sik  si  t . 政 治 大 s  s  t  則為 1, s 如果將 I  s , s  t   當成指標函數,當 立 k i. k i. i. if. k i. i.  si  t  則為 0,上. ‧. ‧ 國. 學. 式可化簡為 Aik    Aik  t  1  I  sik , si  t     i  sik , si t   。. Aik 為策略 k 對於玩家 i 的吸引,此值越大,代表越傾向選擇 k 的選項,可以. Nat. sit. y. 注意到上式,當選擇 k 的策略時,所得到的報酬越高,其吸引就會增加越多,其. n. al. er. io. 下次選擇 k 的機率就會越高,如果選擇 k 得到的報酬很低,對於下一次選擇 k 的吸. i Un. v. 引就增加的較少,其特點是完全根據過去的經驗來調整下一次選擇策略的機率,. Ch. engchi. 而且如果上一次的選擇 k ,下一次選擇 k 的機率只會增加不會減少,增加幅度是 上一回合的報酬而定。這裡的  值,則可以視為過去經驗的累積程度, 值越大, 代表玩家較容易記起過去的經驗,  值越小,代表過去的經驗較容易被遺忘。 3.. 延伸增強學習模型(Extend Reinforcement learning model; ERL)(Lai Y.H., 2005): 以增強學習模型為基礎做細項調整,此模型認為光是以過去的經驗,似乎不. 足描述本文的實證資料,其修改後的式子為:. 8.

(16) t 1  k k   A t  1   s , s t +   I  sik , si           i i i  i  k Ai  t     1 k   A  t  1 i . if. sik  si  t  sik  si  t . if. t 1. . . 與原本增強學習模型的不同點在於,新的項目    I sik , si   ,其中  代  1. 表玩家過去選擇經驗的乘數,可以將此項視為玩家過去選擇的特性,因為有些玩 家可能不在乎報酬到底是多少,這些玩家可能有特殊的傾向,舉個例子來說,有 些玩家從頭到尾可能會全部選擇合作,或者全部選擇不合作,而延伸增強學習模 型新增的項目,可以幫助捕捉那些玩家的特性。 4.. 政 治 大. 信念學習模(Belief learning model; BL)(Belief-Based Model):. 立. 最早提出信念學習必須回溯至庫爾諾(Cournot, 1960),他提出玩家選擇最佳. ‧ 國. 學. 策略時,是根據下一回合玩家認為其對手會選擇的策略而做調整,其最主要的思 維是,玩家會傾向選擇預期最高報酬的選項,換句話說玩家只在乎對手的選擇,. ‧. 以此調整選擇下一次預期最高報酬的選項。. y. Nat. io. sit. 關於信念有很多不同的形式如:虛擬對策(Fictitious Play)(Brown, 1951)、庫. n. al. er. 爾諾最佳反應(Cournot Best Response) 以及加權虛擬對策(Weighted Fictitious. Ch. i Un. v. Play),其中加權虛擬對策,其特殊形式則包含了庫爾諾最佳反應以及虛擬對策,. engchi. k. 在加權虛擬對策,對於對手過去決策的信念表示為,過去選擇策略的次數比 s i , 令此為 N ki  0  ,正確的說玩家 i 的信念決定於對手選擇策略 s i 的次數,記為 k. k i. N ki  0  ,總和為 N  t    N ki  t  ,起始的信念為 Bki  0   k 1. N ki  0  N  0. 其中 N ki  0   0 且 N  0   0 ,信念則是會根據  來更新過去的資訊,並且加上實 際回合玩家的選擇的組合。. 9.

(17) k i. B. t  .   N ki  t  1  I  ski , si  t   k i.    N  t  1  I  s k 1. k i. k i. , si  t  . 再將 N  t  1 表示成之前的形式. B k i. B. t  . k i.  t  1 . I  sk i , si  t   N  t  1. . 1  N  t  1.   N  t  1  Bki  t  1  I  sk i , si  t     N  t  1  1. 當   1 時,此模型就會化簡成虛擬對策,所有的觀察值都是一樣的,如果.   0 則是會化簡成庫爾諾最佳反應,正常來說 0    1 。. 政 治 大 可以計算在 t 回合時期望報酬為 立 k i. ‧ 國. 學. Ei j  t     i  sij , sk i   Bki  t  k 1. ‧. .   N  t  1  Ei j  t  1   i  sij , si  t     N  t  1  1. sit. y. Nat. io. er. 這裡可以將期望報酬視為在增強學習裡面的"吸引",而且也會跟著遊戲回合 調整機率。而實際上,信念學習模型主要精神是根據玩家對對手選擇的信念來決. al. n. iv n C 定自己的策略,但是囚犯兩難的困境不合作的選項相較之下有絕對的優勢,而且 hengchi U 需要對手過去的選擇資訊,因此信念學習模型不太適用在本文的實證資料。. 以至於此,本文提出 Beta Binomial (以下簡稱 BB)的模型來解釋玩家以對手 的選擇改變自己的策略,最原先的想法如下:. X | p ~ B  n, p  P ~ Beta  a, b   P | x ~ Beta  a  x, b  n  x   E  P | x . ax abn. 假設 P 來自 Beta 分佈,調整過後的機率期望值即為 10. ax ,將其改變為 abn.

(18) 學習模型的符號:. Pi k  t  1 . a  xitk abt. k. 其中 xit 表示玩家 i 在到第 t 回合時,所遇到的玩家選擇 k 策略的次數,可以預 見,當遇到選擇合作的人越多的時候,玩家應該會越傾向選擇合作,而起始值 a 、b 代表起始機率,用此式子來表達玩家以對手的選擇,調整本身策略的機率. 變化,並觀察是否適合應用在囚犯困境裡。 5.. 加權經驗吸引模型(Experience-weighted attraction model; EWA) (Cramer and. 政 治 大 此模型同時包含了信念學習模型以及增強學習模型的特性,此模型有兩個 立. Ho, 1999):. y. sit. Nat. N  t     N  t  1  1 , t  1. er. io. 吸引的更新如下:. a.   N  t  1  Aikl  tC 1    1    nI ivsik , si  t      i  sik , si  t  . n. Aik  t  . ‧. ‧ 國. 如下:. 學. 要件會隨時間更新,一個是吸引 Ai j  t  ,一個是經驗權重 N  t  ,經驗權重的更新. h e n g c hNi tU . 其中報酬權重   1     I  sik , si  t   是個關鍵,因為此項不只考慮了玩家 選擇的報酬,同時也考慮玩家沒有選到有可能會得到的報酬。 加權經驗吸引模型同時包含信念學習模型以及增強學習模型,當.   0, N  0  1,   0 時,就化簡為增強學習模型,當   1,    時,就化簡 為信念學習模型。 以上介紹五種模型裡面,有四種是學習模型,而過去吸引的初始值( Ak  0  ) 通常以帄均報酬決定,但是本文提出修正估計參數,此部分會在下一章節詳談。 11.

(19) 而學習模型裡的吸引轉換成機率,通常都是以羅吉斯函數(Logit Function)轉換, 轉換公式如下:. e  Ai (t 1) k. Pi (t )  k.  e. *.  Aik ( t 1). k*.  可當作玩家對於吸引力的敏感係數,當  越高代表玩家對於吸引力的敏 感度越高。. 第二節. 蒙地卡羅模擬. 治 政 蒙地卡羅模擬法又稱為統計模擬法、隨機抽樣技術,是一種模擬方法,以機 大 立 率和統計理論為基礎的計算方法,使用隨機亂數來解決許多計算問題的方法。蒙 ‧ 國. 學. 地卡羅的方法早在西元 1777 年,法國布馮(Buffon)提出投針實驗的方法求圓周率,. ‧. 被認為是蒙地卡羅模擬的起源。. Nat. sit. y. 20 世紀高速電腦的出現,使得數學上得以用電腦快速處理大量的模擬,舉. n. al. er. io. 例來說,考慮單位方形內一不規則的圖形面積,蒙地卡羅模擬是一種隨機化的方. i Un. v. 式,向正方形「隨機」投擲 N 個點,落在不規則圖形內的個數為 M,當 N 很大 時,圖形面積會逼近. Ch. engchi. M ,過去沒有電腦在實行此實驗可能會花費許多時間許多 N. 人力,但現在高速電腦的運算下,此實驗可能僅需幾秒就能解決。 蒙地卡羅模擬法,是基於大數法則的實證方法,當實驗的次數越多,其帄均 值也就會越趨近於理論值。其可以對繁複的模型設定做運算,例如投資模型組合 的各種風險因子,特別是難以估算的非線性投資組合,因此使用蒙地卡羅模擬可 以根據模型假設,模擬多次以後便會接近期望帄均值。 應用蒙地卡羅模擬,假設資料來自某模型,根據模型的設定生成亂數後,如 果資料的確能夠用模型解釋,則可將實際資料視為亂數之一,其模擬的亂數信賴 12.

(20) 區間也應該要包含實際值,利用此特性可對模型假設做一些驗證,雖然即使實際 值符合信賴區間也無法說明模型是適合的,但是若不符合信賴區間,則較能夠說 明模型是不正確的。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 13. i Un. v.

(21) 第三章 資料介紹與研究方法 上一章節提到希望利用模型假設,產生亂數並驗證亂數信賴區間是否包含實 證資料,本章第一節將介紹本文使用的賽局資料,包括其實驗流程以及實驗設定, 第二節將介紹研究方法,包括實證資料特性、判斷選取模型的標準、修正估計參 數以及如何驗證模型假設。. 第一節. 資料介紹. 一、報酬矩陣以及配對規則. 立. 政 治 大. 本文使用的資料為囚犯兩難賽局,其報酬矩陣如下:. ‧ 國. 不合作(D). 合作(C). (8,8). (1,12). (12,1). er. n. al. Ch. engchi. y. Nat. 不合作(D). sit. 玩家 1. ‧. 合作(C). io. 玩家 2. 學. 表 3.1、報酬矩陣. (3,3). i Un. 註:(A,B)分別代表(玩家 1,玩家 2)的報酬. v. (單位:NT$). 表 3.1 為囚犯兩難的報酬矩陣,若玩家 1 和玩家 2 都選擇合作,皆能得到 8 元的報酬;若都選擇不合作,則只能得到 3 元的報酬;若一個選擇合作一個選擇 不合作,選擇合作者僅得到 1 元,選擇不合作者能得到 12 元的報酬。其顯示會 影響玩家報酬不僅只有自己的決策,對手的選擇也是非常重要的因素,實證資料 是多人重複賽局,而如何將玩家配對在一起,本文設定的配對方式有下列四種:. 14.

(22) RM(Random):配對對象為隨機,玩家之前的選擇不影響下一次配對。 WH(Weight-History):配對對象根據玩家前五回合的記錄,轉換成分數後,分數 由. 高. 至. 低. 配. 對. 。. 其. 分. 數. 計. 算. 方. 式. 為. T  t   5  I  t  1  3  I  t  2   2  I  t  3  1 I  t  4   1 I  t  5 ,其中 I  t  為指標 函數,如果玩家選擇合作 I  t   1 ,如果選擇不合作則 I  t   0 ,設定此遊戲規則 為採用費伯納數列當做計算 T 分數的係數,用意是希望玩家用此計算權重,較 容易達到收斂。. 立. 政 治 大. y. ‧. ‧ 國. 學. Nat. er. io. sit. 圖 3.1、WH 配對解說圖. 從圖 3.1 可以看到 WH 的配對方式,以玩家 1 來說,在第 4 第 5 回合分別選. n. al. Ch. i Un. v. 擇合作,所以 T 分數是 8 分,玩家 2 分別在第 2、第 4 回合選擇合作,所以 T 分. engchi. 數是 4 分,玩家 3 全部選擇合作,T 分數是 12,玩家 4 全部選擇不合作,所以 T 分數是 0,計算出分數以後再以分數高低做配對,在下一回合的賽局,玩家 1 就 會和玩家 3 配對,玩家 2 則是和玩家 4 做配對。 WH(c) (Weighted-History with attraction of Cooperate):配對規則如同 WH, 並告知玩家這組會有兩個固定選擇合作或不合作的玩家。最原始是由鞭子與胡蘿 蔔(whip and carrot)的故事得到的想法,故事是若想使驢子往前走,當鞭子鞭策不 動驢子時,便釣一根胡蘿蔔在驢子前面,誘使驢子往前走。如同此實驗設定,鞭 子就像是安排兩個不合作的玩家,告訴玩家若選擇不合作必定會遇到不合作的人; 胡蘿蔔就像是安排兩個合作的玩家,告訴玩家只要選擇合作,就必定會合作的對 手與他們配對,以此兩種方法激勵玩家傾向選擇合作。 15.

(23) WH(p)(Weighted-History with Payoff Information):配對規則如同 WH,並告 知玩家現在報酬的排名。. 二、實驗流程 上一小節介紹本文使用的賽局資料為多人重複賽局,分別會在四種不同的配 對規則下進行,在每一個配對規則下,會有 5 組 14 人的玩家,每個配對規則總 共有 70 個人進行遊戲,所以四種配對規則總共有 280 人,玩家是來自不同科系, 國立政治大學的學生,玩家參加遊戲時就可得到 50 元的出席費,並且在結束時, 給予玩家在賽局遊戲中得到的總報酬,玩家得到的報酬多寡,決定於在賽局遊戲. 政 治 大 實驗的進行,由玩家在電腦前進行操作,並由電腦計算後,進行下一次的配 立. 中的策略為何。. 對,玩家則是會隨機分配到不同的遊戲規則。一開始會發一份說明,內容明確告. ‧ 國. 學. 知玩家此次實驗須了解的內容,包括選擇什麼樣的策略遇到什麼樣的對手,可得. ‧. 到多少報酬,以及不同的賽局規則,以確認玩家了解這些規則。但是該如何說明 玩家的行為,是因為遊戲規則不同而改變呢?因此實驗時會先讓玩家在隨機配對. Nat. n. al. RM. sit. 表 3.2、實驗流程. er. io 遊戲設定. y. 的規則下進行遊戲,實驗流程如下表:. 1 階段 2 n i C階段 hengchi U RM-5 RM-25. v階段 3 RM-5. WH. RM-5. WH-25. RM-5. WH(c). RM-5. WH(c)-25. RM-5. WH(p). RM-5. WH(p)-25. RM-5. 實驗流程如表 3.2 所示,玩家在不同遊戲規則下,會先進行 5 回合完全隨機 配對的賽局,此時玩家皆不知道其分配的組別為何,接著會進行 25 回合不同規 則的賽局,此時會告知玩家其所在何組,最後再進行 5 回合完全隨機配對賽局。 階段 1 主要想觀察不同遊戲規則下的玩家,一開始是否是有差異的,階段 2 則是 觀察不同遊戲規則下,玩家的行為是否有改變,如果階段 1 的遊戲結果顯示玩家 16.

(24) 在各組之間是無差異的,且階段 2 玩家出現不同的行為,才能夠說明不同規則會 影響玩家,階段 3 則是在玩家經過不同規則的遊戲之後,觀察其行為是否會改變。 本文主要在探討階段 2 的資料,觀察不同遊戲規則下玩家選擇的變化。 表 3.3、階段 1 及階段 3 分組機率. 立. 政 治 大. ‧ 國. 學. 表3.3取自Yang et al.(2007),p1(D)和p3(D)分別表是階段1和階段3的不合作機. ‧. 率,該文章表示用Kruskal-Wallis rank sum test檢定,階段1的玩家是沒有差異的,. sit. y. Nat. 如此便能說明,階段2玩家的行為若有改變,是因為規則設定的不同。. er. io. 三、基本資料分析. al. n. iv n C 上一小節提到賽局遊戲分成h 3 階段進行,而本文主要分析的資料為階段 2 engchi U. 的資料,因為階段 2 的資料可以顯示不同遊戲規則下的影響,下表為不同情境資 料的概要。 表 3.4、各情境資料概要 6~23 round. RM. WH. WH(c). WH(p). p(C). 0.202. 0.273. 0.494. 0.367. p(C|C). 0.228. 0.557. 0.646. 0.510. p(sw). 0.193. 0.207. 0.324. 0.326. 17.

(25) 考慮玩家一開始玩家可能還在摸索配對,以及遊戲結束時會傾向選擇不合作, 這裡僅將資料的 6~23 回合作分析。p(C)為帄均合作機率,p(C|C)為玩家選擇合作 的情況下,對手亦為合作的機率,p(sw)為轉換機率,意即玩家這次選擇與下次 不同的機率。第二章提到在固定對手的重複賽局中,玩家擁有懲罰對手的能力(即 下次選擇不合作),但在完全隨機(RM)的配對下,因為玩家無固定的對手,其懲 罰效果也幾乎不存在,即使是重複的囚犯困境的問題,預期玩家長期的決策也會 漸漸傾向選擇不合作,從表 3.4 可以看到 RM 情境下的 p(C)是最小的,而 WH 開 始到 WH(c)、WH(p),整體的 p(C)都有提升,從這可以看出增加了配對的條件有 助將玩家吸引至合作的選項,而 WH(c)與 WH(p)新增的條件也增加了玩家選擇合. 治 政 作的誘因,其 p(C)都比 WH 來的高。 大 立 ‧ 國. 學. RM 下的 p(C|C)為 0.228,與 RM 的 p(C)接近,在隨機配對下,這兩個值本. 應一樣,頗符合常理,而 WH(c)下的 p(C|C)卻比其他兩種情境還高出一成左右,. ‧. 其原因應是在 WH(c)的情境下,加入了固定選擇的玩家,如果固定選擇的玩家是. sit. y. Nat. 合作的,p(C|C)比起其他兩個情境來的高也是符合常理的。. n. al. er. io. p(sw) 的部份 RM 跟 WH 差不多,但是在 WH(c)與 WH(p)裡 p(sw)則是增加. i Un. v. 了一成,可能是在 WH(c) 裡玩家已知會有兩個固定選項的玩家,如果是這兩個. Ch. engchi. 玩家是固定選擇合作的,當玩家已經到達頂端(分數最高)的時候,只要選擇不合 作就有很大的機率可以與合作的對手配對,就可以賺進 12 元的酬勞,而自己的 分數也不至於太低,只要在下一次繼續選擇合作,就能保持自己的分數;而如果 固定玩家的選項是不合作,分數低的玩家知道選擇不合作,必然會與不合作的對 手配對,就有動力選擇合作,使自己不要一直落於最底端,如此一來一往 p(sw) 的機率就會提高。在 WH(c)下,則是認為當玩家看到自己的報酬不比別人高的時 候就會開始轉換策略,以尋求較高的報酬策略,在轉換的過程中 p(sw)也會增加。. 18.

(26) 圖 3.2(a) 合作機率. 圖 3.2(b) 高低分數的合作機率 治 政 大 p(C)來看,其在 4 種配對 從圖 3.2(a)與表 3.4 看到的一樣,以局部合作機率 立. ‧ 國. 學. 規則下的大小關係也會是 WH  c   WH  p   WH  RM ,3.2(b)是 T 分數為 6 做界線畫 出的圖,可以將 T 分數的高低視為合作與不合作的分水嶺,普遍可以看到分數. ‧. n. er. io. al. sit. Nat. 則是較難逃脫低分數的配對,所以普遍合作機率較低。. y. 較高的玩家會持續讓自己保持在頂端,所以選擇合作機率較高,分數較低的玩家,. Ch. engchi. 圖 3.3(a) 轉換機率. i Un. v. 圖 3.3(b) 高低分數的轉換機率. 19.

(27) 從圖 3.3(a)可以看到 RM 與 WH 的 p(sw)是最低的,代表玩家在這兩種情境 下的選擇比較不會改變,而在 WH 下可以看到 p(sw)有越來越低的趨勢,代表在 這個情境裡的玩家會越來越傾向選擇某個選項,意即會越來越收斂,從圖 3.3 (b) 也可以看到,WH 之下不管 T 分數是高是低,其 p(sw)都會漸漸遞減,也可以推 測在這個情境的玩家一旦落入兩極(意即合作配對或不合作配對兩區)就會漸漸 穩定下來,另一個方面在 WH 下,T 分數高的玩家會較分數低的玩家 p(sw)高, 也可以推測有投機的玩家,當自己分數較高的時候就會選擇不合作,以賺取更多 的酬勞。. 政 治 大 看到 WH(c)不管 T 分數是高是低,其 p(sw)都差不多,表示不管在哪裡的玩家都 立 從圖 3.3 (a)可以看到 WH(c)與 WH(p)的 p(sw)是差不多的,但是從圖 3.3 (a). ‧ 國. 學. 會一直改變策略,即使在低分區的玩家也是如此,而 WH(p)的情況與 WH 較類 似,分數高的玩家較容易轉換策略。. ‧. 第二節. 研究方法. sit. y. Nat. n. al. er. io. 過去通常以模型配適或是交叉驗證的結果選取模型,除了這些本文希望驗證. i Un. v. 模型的假設是否正確,在符合假設條件下選取較佳的模型,以及修正模型估計參. Ch. engchi. 數,希望修正後的模型對於資料會有較佳的配適結果,. 一、判斷準則 過去判斷學習模型的標準通常有兩種,分別是: 1.. 最小均方差、最大對數概似量或 AIC、BIC 通常可以以兩個不同的方法估計模型參數,分別是均方差(Mean Square. Deviation, MSD)(Erev and Roth, 1998) 和 最 大 對 數 概 似 量 (Maximum Log Likelihood, MLL)(Camerer and Ho, 1999)。. 20.

(28) 將吸引值轉換成機率,這就是對於下一次選擇的預測,均方差的概念就類似迴歸 的 最 小 帄 方 法 , 要 找 到 使 均 方 差 (MSD) 最 小 的 參 數 , 也 就 是. [ Pi k (t )  I ( sik , si (t ))]2 min  ,舉例來說,如果玩家的選擇是 (C, D, C ) ,預測 T  N 2 t 1 i 1 k 1 T. N. 2. 選 擇 合 作 機 率 為 (0.7,0.2,0.6) , 則 其 對 帄 方 合 的 貢 獻 為 2 2 2 2   0.7  1   0.2  0    0.6  1  。. . . T N  2  對 數 概 似 量 LL   ln   I  sik , s j  t    Pi k  t   , 以 上 例 來 說 , t 1 i 1  k 1 . LL  ln  0.7   ln  0.8  ln  0.6   -1.09 。. 政 治 大 最小帄方法的重點在於使變異數及偏差帄方之和為最小,而最大概似估計法 立. ‧ 國. 學. 則是需要正確的模式,然而重複賽局之下,各賽局的結果往往相依而使模式更加 複雜。因此本文選擇使用最小帄方法,除了比較不同模型的最小均方差以外,還. ‧. 可以比較 AIC、BIC,只是 AIC 及 BIC,都是建立在概似函數上,因此對 AIC 及. y. sit. n. al. er. 交叉驗證. io. 2.. Nat. BIC 僅當作參考。. Ch. i Un. v. 在統計學上經常使用這個技巧,將資料分割成兩部分,分別是估計資料. engchi. (Training Data)與驗證資料(Testing Data),將交叉驗證的技巧應用在學習模型上, 主要是在看模型的預測能力,將資料的前部分的回合則設定為估計資料,後部分 的回合設定為驗證資料,利用估計資料的配適結果預測驗證資料的結果,計算其 均方差,若驗證資料的均方差越小,則代表模型的預測能力越好,則越傾向選擇 該模型。 除了上述兩種判斷標準,本文尚提出 F * 檢定以及驗證模型假設,增加選取 模型的判斷標準。如下:. 21.

(29) 1.. F * 檢定 將迴歸的 F 檢定套用在學習模型裡,檢定方式如下:. H 0 : Reduce model H1 : Full model   0.05. if. SSRF  SSER Df R  Df F F*  >F0.05  Df R  Df F , Df F  SSRF Df F. , reject H 0. 舉個例子說明,假設一筆資料有 20 個玩家,分別以增強學習模型以及延伸. 政 治 大 得到的殘差帄方和(Residual Sum Of Square,RSS)分別是 SSR  95.45(增強學習模 立 的增強學習模型配適模型,初始值以帄均報酬為設定,玩家的人數當作自由度,. ‧ 國. 學. 型)、 SSE  73.82(延伸的增強學習模型),可以將增強學習模型視為縮減模型 (Reduce Model),使用了 2 個參數, Df R  18 ,延伸的增強學習模型視為完整模. ‧. 型(Full Model),使用了 3 個參數, Df F  17 ,則 F 檢定如下:. y. sit. al. er. io. H1 : Full model. Nat. H 0 : Reduce model. *. n. SSRF  SSER 95.45 - 73.82 Df R  Df F F*   18  17  4.98>F0.05 1,17   4.45 SSRF 73.82 17 Df F. Ch. engchi. i Un. v. H 0 的虛無假設,表示延伸的增強學習模型是有顯   0 . 0 的標準判斷,拒絕 5 著的效果。這裡必須修正一件事情,若 SSR 與 SSE 為卡方分佈,則資料之間彼 此為獨立且符合常態,但是這裡用學習模型配適的資料是多人的賽局,人與人之 間的選擇,直觀上來看必然不符合獨立條件,因此這裡的 F * 值有可能不符合 F 分 佈,不過可以用蒙地卡羅模擬去找出近似的臨界值,這部分在第四章會詳談。. 22.

(30) 2.. 驗證模型假設 在過去學習理論的實證分析,不管是用最小均方差或者用最大對數概似量估. 計參數,僅能比較模型彼此之間的好壞,也就是僅能比較配適模型後,最小均方 差或最大對數概似量的大小,或者以交叉驗證中驗證資料的預測結果好壞來判斷。 但是對於適合度分析卻沒有太多著墨,就好像不同的迴歸配適模型,相較之下, 2. 2 總是會有 R 較高的模型,或者可以觀察 Radj . 、AIC、BIC,除了比較這些,還是. 必須觀察殘差,檢定是否來自常態、是否彼此之間獨立、是否有變異數同質性等 等的假設,檢定結果必須符合種種假設才可以說這個迴歸模型是合理的。. 政 治 大. 賽局學習模型裡,較複雜的模型如:延伸的增強學習模型、加權經驗吸引模. 立. 型,其配適結果的最小均方差勢必會比增強學習模型較好,或者交叉驗證的結果. ‧ 國. 學. 之中,必然有一個是之中最好的,但是光是以這樣的標準選取模型,似乎不夠謹 慎,除了以此標準選取模型,還期望能夠驗證模型假設是否正確。. ‧. 賽局學習模型並不如迴歸模型有一些常態分配的假設,勉強只能稱其為二項. y. Nat. io. sit. 分布,而且玩家與玩家之間的選擇並不獨立,玩家上一次的選擇與下一次的選擇. n. al. er. 也不獨立,以至於此,二項分佈無法套用在賽局學習模型,為了解決分佈未知、. Ch. 不獨立的問題,所以使用蒙地卡羅模擬法。. engchi. i Un. v. 本文希望利用蒙地卡羅的模擬驗證模型假設,若賽局實證資料來自某學習模 型,根據此學習模型的設定產生 1000 次亂數,若假設為真,可將實證資料視為 其中一筆模擬亂數,因此亂數特性的信賴區間(如:參數)也應包含實證資料,利 用蒙地卡羅模擬法,希望可以檢查下列的信賴區間是否包含實際值:1. 外在的 表現,如:合作機率、2. 最小均方差(MSD)、3. 參數估計值,如: 、  .....等。 縱觀以上的判斷準則,過去選取標準為:1.最小均方差、AIC、BIC 2.交 叉驗證。以及本文提出的輔助判斷:1. F * 檢定 2.驗證模型假設。因此挑選模型 時,在符合模型假設的條件下,選取其餘三種判斷標準(MSD、交叉驗證和 F * 檢 23.

(31) 定)皆有較佳表現的模型,但若三種判斷結果皆異時,擇優先選取交叉驗證的判 斷標準,因為最小均方差與模型複雜度有關,AIC 與 BIC 則是建立在概似量的 函數上,前面提到概似量需要模型假設,因此賽局資料不太適用。. 二、修正估計 本文主要修正估計參數的想法有兩個,第一個為設定初始值為參數,第二個 則是對玩家分組,並給予不同初始值。第一種設定初始值為參數,在一開始配適 學習模型時,嘗詴了許多初始值的設定,結果有好有壞,較難挑選出較好的初始. 政 治 大 定會有困難,因此本文將初始值設定為參數之一。 立. 值設定方式,而且在下一節提到的給予玩家不同初始值的部分,如果僅以人為設. ‧ 國. 學. 在模型介紹裡提到的學習模型, Ak  0  初始值選取往往都是以根據報酬多寡. ‧. 來給定,通常以該選項的帄均報酬當作初始值,但是以報酬來決定初始值似乎不 是那麼恰當,每個人對於報酬的吸引不會一致,根據式子推導:. e.   Ai ( t 1). n. al. C. C. ( t 1). e. Ch.   Ai D ( t 1). =. 1 1 e. engchi.  ( Ai D ( t 1)  AiC ( t 1)). er. io. e  Ai. sit. y. Nat. Pi (t )  C. i UD n. v. 可以看到會影響下一回合的機率值只決定於 A (t )  A (t ) ,所以在選定初始 C. 值時令 A (t )  A (t ) 為一參數,藉此找出最佳初始值以更能配適模型。 D. C. 24.

(32) 增強學習模型. 延伸增強學習模型. 考慮其他因素. 信念模型. 加權經驗吸引模型. 對 玩 家 分 組. 增加初始值. 政 治 大. 圖 3.4、模型流程圖. 立. ‧ 國. 學. 第二種增加初始值,過去學習理論希望有更好的配適結果,通常會考慮其他 因素,如圖 3.4 模型流程圖所示,但是除了將右鍵的方向以外,本文認為可以將. ‧. 玩家分組,因為玩家的特性可能不一,有些玩家傾向選擇合作,有些玩家傾向選. sit. y. Nat. 擇不合作,而學習模型的初始值,可將其視為玩家對於選擇策略的傾向,因此將. er. io. 選擇傾向不同的玩家做分組,應該會對模型配適有所幫助。. n. a l表 3.5、卡方獨立性檢定 i v n Ch U RM - Round i e n6~23 h gc. Number of C. 0~2. 3~6. 7~18. P-value. Round. 0~1. 28. 10. 6. 44. 1~5. 2~5. 11. 7. 8. 26. 39. 17. 14. 70. Number of C. WH - Round 6~23 0~2. 3~6. 7~18. 0.1458. Chi-squared test P-value. Round. 0~1. 19. 10. 5. 34. 1~5. 2~5. 11. 12. 13. 36. 30. 22. 18. 70. 25. Chi-squared test. 0.0545.

(33) WH(c) - Round 6~23. Number of C. 0~6. 7~18. Chi-squared test P-value. Round. 0~2. 22. 12. 34. 1~5. 3~5. 5. 31. 36. 27. 43. 70. <0.001. WH(p) - Round 6~23. Number of C. 0~6. 7~18 7. Round. 0~1. 31. 1~5. 2~5. 9 40. 立. Chi-squared test P-value 38. <0.001. 32 政 2330 治 大 70. 前面提到將玩家分群可能有助估計參數,如果分群是有幫助的,則玩家一開. ‧ 國. 學. 始的選擇,和之後的選擇應該會相關,所以將玩家前 5 回合的選擇的合作次數以. ‧. 及後 18 回合的合作次數分組,表 3.5 是將玩家分組,檢定 WH(c)、WH(p)時,由. sit. y. Nat. 於有區塊的數字小於 5,因此將 round 6~23 的 0~2 與 3~6 合併。分別檢定不同情. io. er. 境下,玩家在前面的選擇與之後的選擇是否有關,WH(c)和 WH(p)是顯著的,認. al. 為在這兩個遊戲設定下玩家的表現特性不一,一開始選擇合作的玩家到後期選擇. n. iv n C 合作的意願也較高,給予不同的初始值應有助估計參數。 hengchi U. 26.

(34) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 3.5、合作次數直方圖 圖 3.5 為玩家的合作次數直方圖,可以看到在不同規則下玩家的表現是有差 異的,為了方便看出差異,將其修勻以後,畫成機率密度圖,如下;. 27.

(35) 政 治 大 立圖 3.6、合作次數機率密度. ‧ 國. 學. 圖 3.6 為修勻後的合作次數密度圖,越往右邊的玩家越傾向選擇合作,越往. ‧. 左邊的玩家越傾向選擇不合作,可以看到在 RM 裡,幾乎所有玩家都傾向選擇不 合作,只有少部分的人仍然持續選擇合作,這少部分的人可能天生善良,有利他. y. Nat. io. sit. 的行為,但是這畢竟是少數,大多數的玩家還是會選擇不合作,從這也可以知道. n. al. er. 有些玩家並不是完全理性的,甚至如果根據賽局理論來推論,不應該會出現選擇. Ch. i Un. v. 任何一次合作的玩家,若是嚴格來說,這次參與 RM 遊戲規則的玩家,大部分都. engchi. 是不理性的,因此也可以看出純粹的賽局理論在這裡似乎是不適用的。 再看到 WH 的曲線,可以看到已經有一小部分的人願意選擇合作,代表這 設定下的玩家,的確會因為遊戲規則願意選擇合作;再看 WH(c) 的曲線,很明 顯可以看到雙峰的樣子,右峰的人傾向選擇合作,左峰的人傾向選擇不合作,但 是也可以注意,這遊戲規則下大部分的人的合作意願都有增加,整個曲線比起 RM、WH,有較往右移動的趨勢;在 WH(p)下,就比較沒有完全選擇合作的玩 家存在,雖然很多人選擇不合作,但是也可以看到有一部分的人聚集在選擇次數 10~20 附近,這些人可能稍微傾向選擇合作,但是偶爾還是會欺騙對手。而整個 從這個圖看起來,RM 跟 WH 大部分的玩家都傾向不合作,所以可以預期對這兩 28.

(36) 種資料分組效果應該不大,也可以發現 WH(c)似乎很明顯可以分成兩組,預期對 WH(c)的分組效果會較明顯,而 WH(p)就處在分組與不分組的界線,或許分組效 果會不錯,或許效果不彰。而本文對於玩家分組的依據為玩家在遊戲中的合作次 數,合作次數較高的人分在一組,合作次數低的人分至另一組,以此畫分不同傾 向的玩家。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 29. i Un. v.

(37) 第四章. 實證資料分析. 上一章介紹了基本資料特性,以及如何選取及驗證模型,本章節將介紹實證 資料的分析,包括模型配適結果和模擬結果,根據上一章的判斷準則的標準選取 模型,在假設為正確的條件下,選取最佳的模型。在此之前,配適賽局資料時經 常直接使用學習模型配適,但是學習模型是否真的會配適的較好,或許像是以帄 均概念的最佳反應均衡配適模型就已足夠,因此一開始先比較最佳反應均衡以及 最簡單的學習模型。. 治. 政 學習模型的必要性. 第一節. 立. 大. ‧ 國. 學. 在第二章介紹的模型包括 QRE 與其他學習模型,或許像是使用 QRE 這種以 帄均的方式配適資料就足以描述的資料,因此接下來詴著比較 QRE 以及最簡單. ‧. 的學習模型 RL。. 0.5404. AD (0)  AC (0). y. sit. RL. er. al. QRE 2. n. . QRE. io. . Nat. RM. 表 4.1、RM 配適結果. RL 2. v ni. 0.9472. 7.7674. 40.90 & -23.75. 0.8149. C0.8143&-0.1996 h e n g c h i U0.1137. 0.0369. #parameter. 1. 2. 3. 4. MSD. 0.1673. 0.1303. 0.1331. 0.1265. 註:畫底線者為該項最佳模型。 表 4.1 中,QRE 2 代表隨機最佳反應均衡的模型將人分成兩組,RL 2 則是增 強學習模型將玩家分別給予兩組不同初始值,因 QRE 沒有初始值的問題,直接 將玩家分成兩組配適模型,所以會有兩個  值。 可以看到結果 QRE 2 的 MSD 較 RL 小,代表將人分成兩組,即使是無學習 30.

(38) 效果的模型,也能有效降低 MSD,雖然 RL 的 MSD 較大,但是此模型將玩家一 開始的特性都設定為一樣,而最後得到與分組差不多的結果,代表使用有學習效 果的模型仍然是有效果的,而在 RM 資料裡,分組的學習模型就較無有效降低 MSD。 表 4.2、RM 交叉驗證 RM. QRE. QRE 2. . . 0.5442. 0.8195 & -0.1902. AD (0)  AC (0) MSD-training MSD-testing. 0.1301 政 治 大 19~23 round 立0.1700 0.1311 1~18 round. 0.1665. RL 2. 0.8162. 1.0000. 0.1162. 0.0215. 7.5487. 63.30& -24.77. 0.1354. 0.1263. 0.1207. 0.1323. ‧ 國. 學. 註:畫底線者為該項最佳模型。. RL. 交叉驗證以資料的 1~18 回合當做估計資料(Training Data),19~23 回合當作. ‧. 驗證資料(Testing Data),觀察模型在驗證資料的預測能力如何。從表 4.2 交叉驗. y. Nat. sit. 證分析來看,QRE 和 QRE2 在驗證資料的預測上沒有太大的幅度改善,而 RL 在. n. al. er. io. 驗證資料上的 MSD 則是縮減了許多,反而 RL 2 在交叉驗證上的表現較 RL 差,. Ch. 但不管怎樣 RL 模型的表現會比 QRE 來的好。. engchi. 31. i Un. v.

(39) 政 治 大. 立圖 4.1、RM-95%信賴區間. ‧ 國. 學. 從模擬的角度來看,雖然 QRE 和 QRE2 從 p(C)的角度來看皆表現不錯,但. ‧. 是看 p(sw)的圖,QRE 的選擇機率有始至終都一樣,所以 p(sw)也都一樣,可以. sit. y. Nat. 看到 QRE 2 的 p(sw)會比 QRE 低,因為 QRE 2 將玩家分成兩組,合作機率不同. n. al. er. io. 組別分別的 p(sw)都會較低,舉例來看,如果分成一組的合作機率是 0.4,p(sw). v. 就會是 0.48,如果分成兩組的合作機率分別是 0.8、0.2,p(sw)就分別會是 0.32、. Ch. engchi. i Un. 0.32,所以帄均下來分組的 p(sw)會較低,但即使是 QRE 2 在 p(sw)的模擬信賴區 間仍不包含實際值。 在符合模型假設的條件下(信賴區間應包含實際值)選取模型,這裡僅有 RL 模型大致上符合,因此認為四種模型比較下來,RL 模型會較合適,也說明了學 習模型在 RM 資料裡的確有其必要性。不過也可以注意到一點,RL 2 雖然配適 結果 MSD 較小,但是模擬結果反而沒有比較好,這也可以說明,只以 MSD 選 取模型似乎不是那麼恰當的,也可以看到 RL 的模擬特性 p(C)與 p(sw)都會隨著 時間遞減,p(sw)遞減代表資料有收斂的趨勢,而 p(C)遞減代表玩家選擇漸漸收 斂至不合作,接著探討學習模型在 WH 資料型態是否是有必要的。 32.

(40) 表 4.3、WH 配適結果 WH. QRE. QRE 2. . . 0.3563. 0.5858 & -0.6270. AD (0)  AC (0). RL. RL 2. 0.8454. 0.9720. 0.0873. 0.0283. 6.4812. 50.38 &-14.72. #parameter. 1. 2. 3. 4. MSD. 0.2041. 0.1478. 0.1470. 0.1398. 註:畫底線者為該項最佳模型。 在條件配對的資料裡,QRE 2 的 MSD 與 QRE 比起來的確有減少許多,但. 政 治 大. QRE 2 的配適結果和 RL 已相差不多,分組的效果和學習模型的效果幾乎一樣,. 立. RL 2 依舊是 MSD 最小的模型,只是學習模型分成兩組似乎沒有使 MSD 降低太. ‧ 國. RL 2. 0.8332. 1.0000. y. RL. 0.3409. 0.5708 & -0.5131. n. al. sit. io. AD (0)  AC (0). QRE 2. er. . QRE. Nat. . 表 4.4、WH 交叉驗證. ‧. WH. 學. 多。. MSD-training. 1~18 round. MSD-testing. 19~23 round. C h e n g c h0.1543 0.2071 i U 0.1935. 0.1300. v ni. 0.0871. 0.0221. 6.7125. 50.26-26.67. 0.1582. 0.1474. 0.1069. 0.1234. 註:畫底線者為該項最佳模型。 從表 4.4 交叉驗證結果來看,QRE 與 QRE 2 的預測能力都不怎麼理想,RL 預測能力則是之中最好的,RL 2 的預測能力在 WH 的表現和在 RM 一樣都不如 RL。接著觀察模擬的結果。. 33.

(41) 學. ‧ 國. 立. 政 治 大. 圖 4.2、WH-95%信賴區間. ‧. 從圖 4.2 觀察 QRE 與 QRE 2 的模擬結果,在 p(C)依舊是有很不錯的結果,. y. Nat. io. sit. 但是在 p(sw)也和在 RM 一樣不甚理想,RL 2 在這裡的模擬結果也是不如 RL,. n. al. er. RL 的模擬則是很漂亮的包含了 p(C)、p(sw)的實際值,相同地,在符合模型假設. Ch. i Un. v. 的條件下選取最佳的模型,因此在 WH 資料裡,RL 模型應會比其他三種適合,. engchi. 所以不管是 RM 亦或是 WH,使用學習模型的確是有助配適資料,而接下來的 WH(c)以及 WH(p)的資料型態用 QRE 配適的結果非常不理想,所以就不討論, 而從以上的分析發現不管是隨機配對或者是條件配對的情況,學習模型比起沒有 學習效果的模型都會是較佳的選擇。. 34.

(42) 第二節. 情境資料-RM 表 4.5、RM 配適結果. RM. BB. RL. RL 2. ERL. EWA. . 0.8149. 0.9472. 0.7776. 0.7881. . 0.1137. 0.0369. 0.0754. 0.0621. . 0.3875. . 0.1442. . -0.6038. a. 41.82. b. 155.06. 政 治 大 7.7674 40.90 & -23.75 14.1331 立. 18.6041. 0.2925. 0.181 & 0.706. 0.2562. #parameter. 2. 3. 4. 學. 0.2395. 4. 5. 0.1675. 0.1331. 0.1265. 0.1307. 1328.768. ‧. 0.1319. 1370.96. 1381.060. 1337.762. 1379.954. 1392.303. MSD. 1671.335 1400.724. BIC. 1675.832 1407.469. Nat. AIC. n. al. er. io. 註:畫底線者為該項最佳模型。. Ch. sit. 0.2124. ‧ 國. Initial p(C). y. AD (0)  AC (0). i Un. v. RM 資料的配適結果,從初始合作機率來看,可以發現在 RM 裡一開始大都. engchi. 還是傾向選擇不合作的,代表在 RM 裡選擇合作相較之下是比較沒有優勢的,而 從分組配適結果來看,總共 70 個玩家,大約有 12 人是屬於傾向合作的,這些人 的初始合作機率高達 0.7,可以將這些人看成利他主義者,較不會欺騙對手,所 以初始合作機率較高,但是這畢竟不多,大部分的人還是會傾向選擇不合作。 從配適結果的 MSD 看來,RL 2 是所有模型中表現最好的,即使是較複雜的 模型,如:ERL、EWA,其 MSD 還是會比 RL 2 大,從 AIC、BIC 的角度判斷, 亦是 RL 2 較佳,總觀配適結果,RL 2 似乎會是最後選擇的模型。. 35.

(43) 表 4.6、RM 交叉驗證 RM. BB. RL. RL 2. ERL. EWA. . 0.8162. 1.0000. 0.7737. 0.7769. . 0.1162. 0.0215. 0.0709. 0.0629. . 0.6124. . 0.1797. . -0.5476. a. 41.70. b. 155.83. AD (0)  AC (0). -24.77. 15.0206. 17.6430. 0.1362. 0.1354. 治 0.1263 政 0.1365 大. 0.1676. 6~18 round. 0.1577. 0.1207. 0.1104. 0.1171. 0.1194. 19~23 round. 0.1715. 0.1211. 0.1323. 0.1233. 0.1207. 立. 學. MSD-testing. 63.30&. 1~18 round. ‧ 國. MSD-training. 7.5487. 註:畫底線者為最佳。. ‧. 從表 4.6 交叉驗證的角度來看,情境 RM 下,EWA 在驗證資料(Testing Data). y. Nat. io. sit. 上的表現最佳,不過也可以看到 RL 與 ERL 的結果也還不錯。. n. al. er. 過去經濟學家希望決定出最佳的模型,通常會以配適結果或者是交叉驗證的. Ch. i Un. v. 結果來判斷,以 RM 來看,配適結果的 MSD、AIC 與 BIC 都判斷 RL 2 會較佳,. engchi. 而如果以交叉驗證判斷,則是會選擇 EWA 的模型,但就如前面提到,這樣的判 斷方式非常依賴資料特性,有可能同樣的設定下,實驗兩次配適的結果或者交叉 驗證的結果可能會不同,所以除了以這種方式判斷,希望可以用蒙地卡羅模擬亂 數,以模型假設產生亂數,如果資料的確來自此模型,可以將實際值視為模擬亂 數的其中一筆,而模擬亂數的信賴區間也應該包含實際值,其中可以去看基本性 質、局部基本性質、參數等特性。. 36.

(44) 表 4.7、RM-基本性質信賴區間 RM. p(C). p(CC). p(sw). Actual value. 0.202. 0.046. 0.193. BB. 0.1881. 0.2365. 0.0222. 0.0508. 0.2962. 0.3708. RL. 0.1420. 0.2254. 0.0142. 0.0587. 0.1731. 0.2294. RL 2. 0.1690. 0.2214. 0.0190. 0.0540. 0.1983. 0.2614. ERL. 0.1524. 0.2556. 0.0175. 0.0699. 0.1605. 0.2210. EWA. 0.2952. 0.4111. 0.0762. 0.1794. 0.2622. 0.3303. 註:網底者表信賴區間包含實際值。 表 4.7 為整體的基本性質信賴區間,表中各個模型在三種機率中會有兩個數. 政 治 大. 字,分別代表模擬 95%信賴區間的上下界,BB 在 p(C)和 p(CC)還不錯,但是卻. 立. 在 p(sw)差比較多,用過去對手的來調整自己的選擇似乎能解適合作機率的部分,. ‧ 國. 學. 但是對於轉換機率卻無法描述的很好;RL 與 ERL 全部的信賴區間包含實際值,. ‧. RL 2 則是僅差了一點而以;而 EWA 雖然是當中最複雜的模型,但卻與實際值差 異最大,由此也可以看到,EWA 的模型假設似乎不符合 RM 的資料。而除了整. y. Nat. n. er. io. al. sit. 體的基本資料,也詴著去看局部的基本資料特性。. Ch. engchi. 37. i Un. v.

(45) 學. ‧ 國. 立. 政 治 大. 圖 4.3、RM-局部基本性質信賴區間. ‧. 觀察圖 4.3 局部基本性質的信賴區間,可以發現 BB 在合作信賴區間裡還不. sit. y. Nat. 錯,EWA 模型則是差異最大,與表 4.7 觀察到的一致;從細部觀察可以看到 ERL. io. er. 與 RL 2 的模擬值,在 p(C)的表現還算可以,但在 p(sw)就已經有點偏離實際值,. al. iv n C U h e n g cRL p(sw),RL 的模擬值幾乎都涵蓋實際值,用 h i模擬結果去驗證模型的基本資料 n. 所以認為這兩個模型並不是很合適,最後看到 RL 的信賴區間,不管在 p(C)或是. 以及局部基本資料特性,都算是有很合理的結果,因此 RL 模型似乎是比較適合 當作配適 RM 資料的模型。接著再觀察參數信賴區間。. 38.

(46) 表 4.8、 RM-參數信賴區間 Model:RL. RM. percent. 2.5%. Actual. 97.5%. . 0.7638. 0.8149. 0.8693. . 0.0865. 0.1137. 0.1440. AD (0)  AC (0). 4.6998. 7.7674. 12.4157. MSD. 0.1142. 0.1331. 0.1379. 表 4.8 為以 RL 模型為假設產生亂數,再將亂數重新估計參數,所得到的參. 政 治 大. 數信賴區間。如同之前所述,如果此筆資料來自 RL 模型,可以將其視為產生的. 立. 其中一筆亂數,其參數值也可視為其中一筆亂數所產生的,如此產生的參數信賴. ‧ 國. 學. 區間應包含實際參數值,而從上表我可以看到,以 RL 模型為假設的亂數信賴區 間也都有包含實際值,表示 RL 的模型假設是合理的。. ‧. 對於增加初始值是否較好,之前的章節提到可以用 F * 檢定為另一個判斷標. y. Nat. n. er. io. al. sit. 準,下表則是 RM 資料的 F * 檢定。. i C 表 4.9、RM - F 檢定U n hengchi *. 模型. RL. RL 2. 殘差帄方和. 214.33. 203.68. 自由度. 67. 66. --. 3.4510. F*. 39. v. 模擬 F 值(   0.05 ) =3.544. F0.05 1, 66  =3.9862.

(47) *. 表 4.9 的 F 即為之前公式所計算出的值,模擬 F 值是以 RL 為合理模型的假 設下,產生 1000 筆亂數,再分別以 RL 以及 RL 2 模型配適亂數資料,如此便會 *. 得到 1000 個 F 值,如果模型假設為正確,實際值所計算出的 F 應落在亂數產生 F 值的 95%信賴區間內,如果落在信賴區間內,變有更充足的證據說 RL 是較合 適的模型,反之,則比較偏向 RL 2 的模型,這裡模擬的 F 值為 3.544,可以看到 和 F0.05 1, 66  也 相 差 不 多 , 代 表 應 該 算 是 一 個 合 理 的 值 , 而 檢 定 結 果. F *  3. 4 5 1 < 3. 5,所以接受 44 RL 是較合適的模型,與前面的結果一致。. 第三節. 治. 情境資料-WH 政. 大. . EWA. 0.9720. 0.7664. 0.7551. 0.0283. 0.0645. RL 2. 0.8454 0.0873. y. sit. io. al. n. . er. . a. 1.1773. b. 2.8870. AD (0)  AC (0). 0.0580. 0.4908. Nat. . ERL. RL. ‧. . BB. 學. WH. ‧ 國. 立表 4.10、WH 配適結果. Ch. engchi. i Un. 0.1991. v. -0.5049. 6.4812. 50.38 &-14.72. 10.6908. 12.8937. Initial p(C). 0.2897. 0.3621. 0.194 & 0.603. 0.3341. 0.3213. #parameter. 2. 3. 4. 4. 5. MSD. 0.1697. 0.1470. 0.1398. 0.1438. 0.1454. AIC. 1660.122. 1500.958. 1424.718. 1459.735. 1490.195. BIC. 1664.619. 1507.703. 1433.712. 1468.729. 1501.438. 註:畫底線者為該項最佳模型。 配適 WH 的初始機率較 RM 高了一點,分組後較傾向選擇合作的人也增加 至 25 人,而這裡傾向選擇合作的機率約 0.6,卻反而比 RM 還低,這是因為在配 40.

(48) 適模型時,是以合作次數做為分組依據,理所當然合作次數高的就分配至傾向選 擇合作的,合作次數低的就分配至傾向選擇不合作,而 RM 分組的界線為 9, WH 為 6,也就是說在 RM 裡總共選擇合作次數低於 9 的玩家,就將他們分到傾 向不合作區,反之,高於 9 的玩家,將其分至傾向合作區,而 WH 是以 6 為界 線,所以傾向合作區的合作機率會稍低於 RM,當然還必須考慮玩家選擇合作的 比例,這裡就不詳談,只是 RM 傾向合作的機率大於 WH 是有可能的。 WH 的配適結果,不論是從 MSD、AIC 或 BIC 判斷,都是 RL 2 的模型較佳, 到這裡也不難發現,RL 2 的  都會比其他模型大,代表對過去經驗累積較難遺. 政 治 大 型都來的大,對於不同特性的完家,一開始就給予相當高的差異,玩家對於自己 立 忘,因為在分組的時候給予不同初始值,而可以看到 RL 2 的初始值比起其他模. ‧ 國. n. al. . . 0.8332. 1.0000. 0.0871. 0.0221. Ch. engchi. y. RL 2. sit. io. . RL. er. BB. . ‧. 表 4.11、WH 交叉驗證. Nat. WH. 學. 的特性相對來說也較難遺忘。. i Un. v. ERL. EWA. 0.7513. 0.7804. 0.0655. 0.0485. 0.6014 0.1812. . -0.6981. a. 1.3932. b. 3.3212. AD (0)  AC (0) MSD-training MSD-testing. 6.7125. 50.26&-26.67. 10.4645. 16.8309. 1~18 round. 0.1795. 0.1582. 0.1474. 0.1571. 0.1582. 6~18 round. 0.1595. 0.1407. 0.1287. 0.1387. 0.1407. 19~23 round. 0.1230. 0.1069. 0.1234. 0.1041. 0.1056. 註:畫底線者為最佳。. 41.

參考文獻

相關文件

透過國語文學習,掌握 文本要旨、發展學習及 解決問題策略、初探邏 輯思維,並透過體驗與 實踐,處理日常生活問

建模時,若我們沒有實際的物理定律、法則可以應用,我們 可以構造一個經驗模型 (empirical model) ,由所有收集到

• 實作工作坊可讓學員更深入學習成長,未 來還可以結合回饋會談,整併資深老師實 習輔導的建議,提供未來教育實習輔導修

7S 強化並且複習英國國定數學能力指標 level 4 的內容、主要學習 level 5 的內 容、先備一些 level 6 的延伸內容。. 8S 完成並且深化 level

自從 Engle(1982)提出 ARCH 模型以來,已經超過 20 年,實證上也有相當多的文獻 探討關於 ARCH 族模型的應用,Chou(2002)將 GARCH

學習範疇 主要學習成果 級別 級別描述 學習成果. 根據學生的認知發展、學習模式及科本

二、 學 與教: 第二語言學習理論、學習難點及學與教策略 三、 教材:.  運用第二語言學習架構的教學單元系列

Rebecca Oxford (1990) 將語言學習策略分為兩大類:直接性 學習策略 (directed language learning strategies) 及間接性學 習策略 (in-directed