进化博弈论(三)
在他的工作进化游戏和均衡选择中,萨缪尔森(1997)表示希望进一步发展进化博弈理论可以在解决均衡选择问题方面提供服务。 目前,这种希望似乎没有实现。 作为第2.1节表明,在比赛中存在多种竞争稳定性的竞争概念。 此外,随着第3节所示,在静态设置中,在动态设置和进化稳定的情况下,进化稳定之间存在不完美的协议。
4.2高音理体的问题
传统的游戏理论对代理商来说非常高的合理性要求。 这一要求源于开发效用理论,该理论提供博弈论的基础(参见Luce and Raiffa,1957,介绍)。 例如,为了能够为各个代理分配红衣主义效用功能,通常假设每个代理具有通过各个选择可能导致的“彩票”集中的定义,一致的一组偏好。 由于过度结果的不同彩票的数量是无数的无限的,这需要每个代理人具有明确定义的,一致的无数无限的偏好。
实验经济学的许多结果表明,这些强烈的理性假设没有描述真实人类受试者的行为。 人类很少(如果有的话)传统博弈论描述的矫正剂。 例如,在实验情况下,人们对人们并不罕见,表明他们更喜欢A到B,B,B,以及C至A.如果人们有明确定义的一致偏好,则不会发生这些“偏好的传递的失败”。 此外,与一类被称为“美容选美”的游戏的实验相当巨大地,常识假设的失败通常被调用为解决游戏。[8] 由于进化博弈论成功地解释了昆虫和动物某些行为的优势,在强烈的理性假设显然失败的情况下,这表明合理性并不像以前认为游戏理论分析的核心。 那么,希望是进化博弈论可能在描述和预测人类受试者的选择方面取得更大的成功,因为它更好地处理适当的较弱的理性假设。 实际上,Sandholm(2010)引入的框架的巨大优势之一是它提供了将个人使用的学习规则联系在微观水平,在宏观层中描述人口变化的动态方法。
4.3在传统的游戏理论中缺乏动态理论
在游戏和经济行为理论的第一章结束时,冯·诺曼和Morgenstern写道:
我们非常重视我们的理论是彻底的静态。 动态理论毫无疑问地更加完整,因此优选。 但是,只要静态侧面没有彻底了解,就有充足的科学分支就是徒劳的证据。 (冯Neumann和Morgenstern,1953年,第44页)
进化理论是一种动态理论,上面草图的进化博弈论的第二种方法明确地模拟了人口中个人之间的相互作用中存在的动态。 由于传统的游戏理论缺乏对理性审议的动态的明确治疗,因此可以部分地看到进化博弈论,因为填补了传统博弈论的重要程度。
通过以广泛的形式模拟游戏,而不是其正常形式,可以寻求捕获传统博弈论中决策过程的一些动态。 然而,对于大多数合理复杂性的游戏(并且因此兴趣),游戏的广泛形式迅速变得无法管理。 此外,即使在广泛的游戏形式中,传统的博弈论也代表了个人的策略,作为个人在游戏中设置的每个信息所做的选择的规范。 然后,选择策略,对应于在游戏之前的选择,在游戏中的任何可能阶段都会在游戏中进行的。 战略选择的这一表示清楚地预设了大学玩家,并没有代表一个玩家观察他的对手行为的过程,从这些观察中学到,并尽最大努力回应他所学到的东西(因为人们可能期望的那样,没有必要模仿学习高清个体)。 在传统的博弈论中无法模拟游戏发挥动力学元素,以及进化博弈理论自然融入动态考虑的程度,揭示了进化博弈论的重要美德。
5.进化博弈论的应用
进化博弈论已被用于解释人类行为的许多方面。 从进化角度分析的小型采样包括:利他主义(Fletcher和Zwick,2007; Gintis等,2003;Sánchez和Cuesta,2005; Trvers,1971),公共产品游戏的行为(Clemens和Riechmann,2006; Hauert,2006; Hauert等人,2002,2006; Huberman和Glance,1995),Empathy(Page和Nowak,2002; Fishman,2006),人类文化(eNquist和Ghirlanda,2007; Enquist等,2008),道德行为(亚历山大,2007; Boehm,1982;危害和斯基摩,2008; Skyrms 1996,2004),私人财产(渡林蒂斯,2007年),信号传导系统和其他原型语言行为(Barrett,2007; Hausken和Hirshleirfer,2008; Hurd,1995;Jäger,2008; Nowak等,1999; Pawlowitsch,2007,2008; 2010年Skyrms; Zollman,2005),社会学习(Kameda和Nakanishi,2003; Nakahashi,2007; Rogers,1988; Wakano和Aoki,2006; Wakano等,2004)和社会规范(Ackelrod,1986; Bicchieri,2006; Binmore和Samuelson,1994; Chalub等,2006; Kendal等,2006; Ostrum,2000)。
以下小节提供了使用进化游戏理论模型来解释人类行为的两个领域的简要说明。 第一个涉及人们在完美对称情况下同样共享的趋势。 第二个展示了语言前的人群如何在使用简单的信号系统时协调,即使它们缺乏通信的能力。 这两种模型分别指出了对我们公平和语言感的初步解释。 他们被选中纳入其中三个原因:(1)模型的相对简单性,(2)在解释有问题现象的明显成功,(3)将解释现象的重要性。
5.1公平感
用于调查公平性演变的一种自然游戏是歧视 - 蛋糕(这是纳什议价游戏的最简单版本)。 在社会合同演变的第1章中,Skyrms提出了如下问题:
在这里,我们从一个非常简单的问题开始; 我们要划分我们之间的巧克力蛋糕。 我们俩都没有与另一个人有任何特别的要求。 出位位置完全是对称的。 蛋糕对我们来说是一种意外收获,这取决于我们划分它。 但如果我们不能同意如何分享它,那么蛋糕会破坏,我们什么都不会得到。 (Skyrms,1996,pp.3-4)
更正式地,假设使用第三方具有尺寸C的资源来呈现两个人。 在这场比赛中,玩家的战略包括他想要的一定数量的蛋糕。 因此,播放器的一组可能的策略是0到C之间的任何量。如果每个玩家的策略总和小于或等于C,则每个玩家都会收到他要求的金额。 但是,如果策略的总和超过C,则没有玩家收到任何东西。 图13示出了该游戏的可行设置。
x轴上的播放器1的图表和y轴上的播放器2。 一条线从(0,10)到(10,0),线下方的三角形填充。 如果S_I + S _ { - i} <= 10,则标记为pi(s_i,s _ { - i})= s_i。
图13:用于淘汰饼干游戏的可行集。 在这个图中,蛋糕的尺寸C = 10,但是对于任一家球员(包括分数要求)允许0到10之间的所有策略。
我们有一个明确的直觉,即每个玩家选择的“明显”策略是C / 2; 哲学问题在于解释为什么代理商会选择这种策略而不是其他人。 即使在完美对称的情况下,回答这个问题也比第一次出现更困难。 要看到这一点,首先要注意这款游戏有一个无限数量的纳什均衡。 如果播放器1要求蛋糕的p,那么0≤p≤c,播放器2要求c-p,那么该策略概况是p∈[0,c]的任何值的纳什均衡。 (每个玩家的策略都是一种最佳反应,给出了另一个选定的是,从这个意义上讲,这两个玩家都不能通过改变她的策略来增加她的回报。)因此平等的分裂只有无限的纳什均衡之一。
人们可能建议两个玩家应该选择最大化其预期收益的战略,这些策略在假设他们不确定是否将被分配给玩家1或者玩家2的作用。这项提案,斯基尔斯票据基本上是Harsanyi(1953)。 这样的问题是,如果玩家只关心他们的预期收益,他们认为它们同样可能被分配给玩家1或玩家2的角色,那么这也没有选择唯一的平等分裂。 考虑策略简介⟨p,c-p⟩,可分配播放器1 p切片和播放器2 c-p切片。 如果玩家认为,它同样可能会被分配给玩家1或玩家2的角色,然后他的预期效用是
1
2
p +
1
2
(c-p)=
c
2
,对于所有值P∈[0,c]。
现在考虑以下进化模型:假设我们有一群人携手搭配并反复发挥蛋糕的比赛,以复制器动态描述的方式修改它们的策略随着时间的推移。 为方便起见,让我们假设蛋糕分为10个等大小的切片,并且每个玩家的策略都符合以下11种可能类型之一:需求0切片,需求1切片,......,需求10切片。 对于Replicator Dynamics,群体的状态由Vector⟨p0,p1,...,p10⟩表示,其中每个PI表示策略的频率“需要我切片”。
复制器动力学使我们能够模拟人口中策略分布如何随着时间的推移而变化,从特定的初始条件开始。 下面的图14显示了连续复制器动力学下的两个进化结果。 请注意,尽管公平部门可以发展,如图14(a)所示,它不是唯一的进化稳定结果,如图14(b)所示。
群体频率与三个曲线的频率图,标记为“需求4”,“需求5”和“需求6”。 在时间0时,需求4开始于.05,上升到.5,在405时上升到.5,度数为0和时间10.需求5在最初慢慢上升,然后在时间慢慢上升,然后在时间内快速上升。.15,在时刻2的.25的峰值,然后在时间6周围下降到0。
(a)公平部门的演变。
群体频率与三个曲线的频率图,标记为“需求4”,“需求5”和“需求6”。 在0时,需求4从.8开始,渐近地升至.68。 需求5以0开始,在时间2上升到.02并围绕时间返回0。需求6在0.025上升到.35时的时间2.5,按时间渐近向.34逐渐下来。
(b)不平等划分规则的演变。
图14:在连续复制器动力下的两种进化结果,用于淘汰赛游戏。 在存在的11个策略中,只有三种是颜色编码的,以便在图中识别,如在图例中所指出的那样。
回想一下,手头的任务是解释为什么我们认为在一个完美的对称资源分配问题中的“明显”的战略选择是两个玩家要求一半的资源。 以上所示的表明是,在以复制者动态描述的方式修改其行为的有限理性代理人的群体中,公平部门是一个,虽然不是唯一的进化结果。 假设任何初始条件都同样有可能,可以通过确定人口中每个人在策略需求5切片的频率的吸引力的盆地的尺寸来衡量公平划分的趋势。 Skyrms(1996)使用Monte Carlo方法测量公平部门的吸引力盆地的大小,发现公平部门大约是62%的时间发展。
但是,重要的是要认识到,复制器动力学假定各个之间的任何成对相互作用同样可能。 实际上,个人之间的相互作用在某种程度上是相关的。 由于空间位置的结果(如上表所示,空间囚犯的困境的情况),社会关系的结构化效果或Ingroup / Offgrous成员效应,可以发生相关性相互作用,列出一些原因。
介绍相关性时,公平部门出现的频率急剧变化。 模型中的相关量由相关系数ε表示,它们可以在0和1之间的范围内。当ε= 0时,在特定群体中的群体中的代理比例根本地确定成对相互作用的所有相关性策略。 当ε= 1时,相关性是完美的,并且特定策略之后的代理只与自己的种类相互作用。 中间级别的相关性引入了一些药剂倾向于与自己的种类相互作用,其中趋势随着ε的值而增加。 图15说明了随着相关系数ε从0增加到0.2时,所有需求的吸引力5的盆地如何变化。[9] 一旦相互作用中存在的相关量达到ε= 0.2,公平部门几乎是一种进化的确定性。 请注意,这并不依赖于存在的三种策略:允许相互作用之间的一些相关性增加公平部门的概率,即使初始条件使用任何11个可能的策略包含个体。
图像的图像
(a)ε= 0。(b)ε= 0.1
照片
(c)ε= 0.2
图15:三个图表显示如何,随着互动之间的相关性增加,公平部门更有可能发展。 在图15(a)和15(b)中,空间内部存在不稳定的固定点,其中所有三种策略存在于人口中。 (这是进化轨迹似乎相交的程度。)这种定点是称为动态系统理论中的鞍点:最小的扰动会导致人群从这一点扩散到其他两个吸引子中的一个。
那么,我们可以从这个模型中得出关于公平部门的演变吗? 当然,这一切都取决于复制器动力学如何模拟作用于人口的主要进化力(文化或生物学)。 虽然复制器动力学是一个“简单”的数学模型,但它确实足以建模一种生物演进类型(参见泰勒和Jonker,1978年)和一种文化演进(参见Börgers和Sarin,1996; Weibull,1995)。 作为Skyrms(1996)说明:
在有限的人口中,在有限的时间内,在进化中存在一些随机元素,一些合理的可分配性的好的和一些相关性,我们可以说很易于分享和共享,也应该在分裂 - 蛋糕情况下发展。 这是,也许是我们司法概念的起源的解释的开始。
当然,这是索赔,没有评论没有发表评论。 选择一些讨论,特别是D'Arms(1996,2000); D'Armet等,1998年; Danielson(1998); Bicchieri(1999); Kitcher(1999); 湾(2000); 伤害(2000); 克莱斯(2000); Alexander和Skyrms(1999); 和亚历山大(2000,2007)。
5.2语言的出现。
在他的开创性工作公约中,大卫刘易斯开发了发件人接收器游戏的想法。 这些游戏已被用来解释语言和语义内容,可以在一个最初没有任何语言的社区中出现。[10] 他的原始定义如下(对于清晰度和后来的参考,缉获的宣称和题为的宣称分数的部分):
一个双面的信令问题是涉及称为Communicator的代理和一个或多个称为观众的代理的情况,这是真的,这是传播者和观众的常识:
究竟是S1,......,SM的几个替代国家之一。 传播者,但不是观众,是一个很好的位置来告诉哪一个。
观众的每个成员都可以执行几种替代行动R1,...,RM称为响应。 每个人都希望受众的反应,以某种方式依赖于持有的事态。 从{si}有一定的一对一函数f到{rj},这样每个人都喜欢观众的每个成员都在si保持的条件下,每个si都能执行。
通信器可以执行几种替代动作σ1,...,σn(n≥m)的任何一种称为信号。 观众处于一个很好的位置,可以告诉他做了哪一个。 没有人参与任何关于这些行动的任何优先性,这足以超过他对观众对事务状态的依赖的依赖性的偏好。 [...]
传播者的应急计划是传播者的信号可能取决于他观察到持有的事态的任何可能的方式。 它是从{si}中的函数fc到{Σk}。 [...]
同样,观众的应变计划是任何可能的观众响应的可能方法可能取决于他观察通信者给予的信号。 它是从{Σk}的一部分进入{rj}的一对一函数fa。 [...]
每当FC和FA结合[...],给出观众对患者对事态的响应的首选依赖性,我们都会致电⟨fc,法令发信号系统。 (Lewis,1969,PP。130-132)
自惯例出版以来,更为常见的是将Communicator称为发送者和受众作为接收者的成员。 发件人 - 接收器游戏背后的基本想法是以下内容:Nature选择世界的哪些状态获得。 发件人角色的人会观察到世界的这种状态(正确识别它),并向接收器的角色发送信号。 接收器在接收到该信号时执行响应。 如果接收者确实是正确的响应,鉴于世界的状态,那么两名球员都会收到1; 如果接收器执行了不正确的响应,则两个播放器都会收到0.请注意,在此简化模型中,任何阶段都没有错误存在错误。 发件人始终观察到世界的真实状态,并始终发送他打算发送的信号。 同样地,接收器总是接收发送者发送的信号(即,频道不是嘈杂的),并且接收器始终执行他打算的响应。
刘易斯允许“受众”由一个以上的人组成,更常见的是考虑在两个人之间播放的发件人 - 接收器游戏,因此只有一个接收器(或者在lewisian术语中,观众的单个成员)。[11] 为简单起见,在下文中,我们将考虑一个具有世界上两个状态的双人发送者 - 接收器游戏{S1,S2},两个信号{Σ1,σ2}和两个响应{R1,R2}。 (我们将在稍后会看到较大的发件人 - 接收器游戏越来越难以分析。)
请注意,在他的发件人接收方游戏定义的点(2)中,Lewis需要两件事:对世界状况有一个独特的最佳反应(这是一个需要F为一对一的东西),并且观众中的每个人都同意这种情况。 由于我们正在考虑只有单个响应者的情况,因此第二个要求是otiose。 对于世界两个国家和两种反应的情况,只有两种方法可以为满足刘易斯要求的世界的国家分配回应。 这些如下(其中x⇒y表示世界x的状态,最好的回复是做y“):
s1⇒r1,s2⇒r2。
s1⇒r2,s2⇒r1。
它对其中一项我们选择的模型没有实际差异,所以选择直观的一个:在世界的状态SI,最好的响应是RI(即功能1)。
发件人的策略(刘易斯称为“Communicator的应急计划”)包括一个函数,指定了他给予世界各国的信号。 它是刘易斯笔记,从世界各种州的一个函数进入了一组信号。 这意味着发件人可以在世界的两个不同状态中发送相同的信号。 这种策略从理性的角度来看,因为接收者不会获得足够的信息能够识别世界状况的正确响应。 但是,我们并不排除这些策略因考虑因素,因为它们是逻辑上可能的策略。
有多少发件人策略? 因为我们允许对世界上多个状态发送相同的信号的可能性,所以有两个选择发送给定状态S1的信号和发送给定状态S2的两个选择。 这意味着有四种可能的发件人策略。 这些策略如下(其中'X→Y'意味着当世界的状态是x时,发件人将发送信号Y):
发件人1:S1→Σ1,S2→Σ1。
发件人2:S1→Σ1,S2→Σ2。
发件人3:S1→Σ2,S2→Σ1。
发件人4:S1→Σ2,S2→Σ2。
什么是接收器的策略? 在这里,它证明有助于偏离刘易斯的“受众应急计划”的原始定义。 相反,让我们将接收器的策略从一组信号中的函数中成为响应集的函数。 如在发件人的情况下,我们允许接收器对多个信号执行相同的响应。 通过对称性,这意味着有4个可能的接收器策略。 这些接收策略是: