囚犯的困境(六)
Linster在两国策略中模拟了各种环保锦标赛。 一些使用的“均匀突变”,其中人口中的每种策略具有相同的概率M,其突变为任何其他策略。 一些使用的“程式化突变”,其中允许的唯一突变是可以理解为摩尔机械图中单个“破碎链路”的结果的突变。 在某些情况下,假设突变发生在每代的群体中的微小比例; 在别人中,“突变体”代表了侵略力,占原始人群的百分之一。 在某些情况下,征收罚款以增加复杂性,以减少需要更多州或更多链接的机器的收益的形式。 正如人们所期望的那样,结果取决于条件有所不同。 然而,在所有南部的结果和诺瓦克和锡格蒙德之间存在一些引人注目的差异。 在吉斯特的锦标赛中,没有单一的策略在诺曼克和锡格蒙德的方式占据了P1和GTFT的方式占据了幸存的人口。 一般占百分之五十个人人口的一个策略是S(1,0,0,0)的最初合作版本。 这是一种策略,其不完美的变体似乎对NOWAK和SIGMUND非常竞争引起。 它在博弈论文献中经常讨论了标签严峻或触发器。 它合作,直到对手叛逃一次,然后在其余的游戏中缺陷。 根据斯基尔(1998)和Vanderschraaf,霍布斯和休谟都认为它是在重要的PD样情境中得到合作行为的战略。 对LIMSTER强烈表现之间的差异的解释及其对NOWAK和SIGMUND的不良表现可能与错误存在急剧恶化。 在两个不完美长度的匹配中,通过导致长长的互相叛逃的“错误”叛逃。 因此,从长远来看,严峻严峻的严峻对本身不佳。 幸存下来的其他策略(在较小的数字中)LINSTER锦标赛是TFT,P1,CU和最初合作的S(1,0,1,1)。 (请注意,不完美的严峻也可能对此的不完美版本不佳。)观察到进化可能导致稳定的策略混合(也许每种用于保护他人对抗特定类型的入侵者)而不是单一的主要战略都提示。 同样暗示是在几种特殊条件下获得的结果,其中进化导致群体混合物的经常性循环。
人们可能希望能够预测在满足各种条件的EPD中占有平的策略,并通过正式证据证明这种预测。 然而,直到最近,EPD的数学分析已经被关于“进化稳定性”的概念混淆困扰,该条件如今,即赛马,“进化停止”。 AXELROD和AXELROD&HAMILTON主张表明TFT正在进化稳定。 Selten 1983包括一个没有进化的游戏的示例,没有进化稳定的策略,而Selten的论点,没有这样的策略明确适用于环保署和其他进化游戏。 Boyd和Lorberbaum和Farrell和Ware目前仍然不同的证据表明,没有对EPD的策略是进化的稳定性。 不出所料,通过观察三组作者来解决悖论,每个作者都采用了略微不同的进化稳定性概念。 概念纠结是由Bendor和Swistak的一系列论文解开。 描述了两个中央稳定性概念并应用于下面的EPD。 希望将这些与文学中出现的其他一些其他其他人进行比较的读者可以咨询以下简要指导:
进化游戏中稳定的概念。
一个策略对于进化游戏具有普遍性的强大稳定性(“USN-稳定性”)如果一个人口出现战略,在任何进化规则下,都会灭绝任何足够小的入侵者,所有这些都发挥了相同的策略。 一个进化的游戏在符合Maynard Smith识别的简单条件下,进化游戏具有USN - 稳定性:
(MS)对于所有策略J,V(i,i)> v(j,i)或v(i,i)= v(j,i)和v(i,j)> v(j,j)。
(这里以及在下文中,符号v(i,j)表示策略我扮演j时的回报。当地人当地人本身就是这样,但本地人对入侵者做得更好而不是入侵者自己。
然而,对于IPD中的任何策略(或确实在任何迭代的有限游戏中),有些策略J与我不同,这样J模仿我扮演I或J时的播放方式。 这些“中性突变体”的存在意味着MS不能满足,因此没有EPD具有USN稳定性。 当然,这个论点使用假设迭代游戏中的任何策略是可能的入侵者。 可能有充分的理由限制可用的策略。 例如,如果假设玩家没有了解以前的交互,则可能适合将可用策略限制给无条件的相互作用。 由于一对玩家然后在每一轮迭代游戏中获得相同的回报,我们可能会在每一轮进化游戏中占据每一副播放器之间的一次拍摄游戏,而不是迭代游戏。 实际上,这是那种莫妮德史密斯自己考虑的进化游戏。 在本框架中,任何策略的策略是(s,s)是一个严格的纳什均衡在底层的单次游戏中(包括PD中的无条件差异)符合MS条件。 因此,MS和USN - 稳定性在某些情况下是非琐碎的条件。
战略S受到限制弱稳定性)(RWB-稳定性)如果,当进化根据比例健身规则和本土人群正在播放时,任何(可能的异构)的侵略者都会有足够小的尺寸的入侵者将无法驱动当地人灭绝。 这种情况结果等同于由Bendor和Swistak标识的MS的弱化版本。
(BS)对于所有策略J,V(i,i)> v(j,i)或v(i,i)= v(j,i)和v(i,j)≥v(j,j)。
BS和RWB-稳定性是更一般的进化框架中的非琐碎条件:满足RWB稳定性的环保署的策略存在。 然而,这并不特别地证明了上面讨论的任何策略。 Bendor和Swistak证明了结果类似于前面提到的民间定理:如果未来的阴影足够大,则有RWB稳定的策略,支持任何从零到一个的合作程度。 区分符合BS的策略的一种方法是通过所需的入侵所需的侵袭,或者,等效地,通过保持稳定所需的当然比例。 Bendor和Swistak表明,这个数字,稳定频率最小,永不超过1/2:没有人口可以抵抗每个入侵组,如本身就是大。 它们认为这一结果确实允许他们开始为Axelrod的权利要求提供理论上的理由。 他们能够表明,随着未来的阴影方法,任何良好的策略(意味着它永远不是先缺陷)和报复(意味着它在叛逃时始终缺陷)具有最小的稳定频率接近一半。 TFT拥有这些属性,其实于它们是四个属性的前两个Axelrod被引用为TFT的成功。 当然,许多其他良好和报复性的策略,并且有策略(如p1),这些策略不是报复性,但仍然满足RWB稳定性。 但是,Bender和Swistak至少能够表明任何“最大稳健的”策略,即最小稳定频率接近一半的任何策略,选择了在无限重复的PD中的所有动作中的合作。
必须在一些关心中解释Bendor和Swistak的结果。 首先,人们应该记住,没有概率或噪音敏感的策略可以符合“漂亮”或“报复”策略的定义。 此外,TFT的不完美版本不满足RWB稳定性。 它们可以通过决定性TFT的任意较小的侵犯来推翻或者确实是任何不那么不完全TFT的任意小侵入。 其次,必须记住,关于最小稳定频率的结果仅涉及弱稳定性。 如果与原始人群相比的几代人数大(因为它通常在生物学应用中),最初由采用相同最大强劲战略的玩家完全组成的人口可以很好地承认一系列小型入侵组,最终将原始策略减少到更少超过一半的人口。 此时,原始策略可以被推翻。
这两个警告都可能在解释Bendor / Swistak结果和Nowak / Sigmund模拟之间表观差异。 人们会期望Bendor / Swistak的最小稳定频率,提供一些人口扮演特定策略的时间长度的指示。 需要大入侵倾覆的策略可能比需要小侵入的策略占上风。 直接计算揭示了P1具有相对低的最小稳定频率。 它被超过10%的人口的无条件缺陷的入侵翻倒。 然而,在Nowak / Sigmund模拟中,P1样策略主要占TFT样策略。 由于模拟所需的缺陷,因为它们产生了一系列大于原始群体的突变体,这里没有真正的矛盾。 尽管如此,差异表明我们还没有对足以预测在各种合理条件下会出现的策略的理论理解。
与USN稳定性一样,如果它对特定的一组策略相比,RWB稳定性的概念可以更具区别。 例如,Molander的1992年对Schelly的许多人版本的PD调查,限制了TFT样阶层的家庭{S1,...,Sn}。 在至少我的其他人合作后,采用SI采用SI和每一轮的每一轮合作。 通过将稳定性作为其他家庭成员的抗侵蚀性,熔点能够表明存在有条件的条件,其中两个Si的特定混合物(一个相当于du)是唯一稳定的。 然而,这些结果的重要性取决于允许策略集的这种限制的合理性。
进化和可选的PD
在可选的PD的迭代和进化版本中,我们想象来自某些人口的玩家反复配对,并有机会播放PD(选择C或D)或选择退出(选择N)。 在选择N时,玩家放弃了在下一个配对之前接受奖励或诱惑收益的机会。 在最想去的大多数人的互动中,拒绝与特定合作伙伴聘用并不代表与另一个人的相同机会丧失,作为参与的选择。 如果我从一个肆无忌惮的经销商那里买一辆车,我将在下次购买之前等待很长一段时间做得更好; 但如果我拒绝与她互动,我可以立即开始与邻近经销商进行谈判。 尽管如此,可能存在由可选PD的进化版本适当建模的人(非人类动物中或国家之间的可能性)的情况(更有可能。
我们可以代表进化可选PD的策略,这些PD不需要以前的交互记忆作为Triples⟨p,q,r⟩,其中p,q和r是一个代表播放c,d和n的概率。没有这些策略符合其中的概率BS条件,因此在这个家庭中没有策略稳定。 如果一个组的所有成员无条件地拒绝接合(采用⟨0,0,1⟩),那么它们可以被渗透,最终被更多合作策略的小侵入替换。 反过来,合作策略将通过缺陷的策略推翻,并且当缺陷的浓度足够大时,拒绝参与的“孤独者”可以再次接管。 添加到进化PD的选项确实允许从不幸的普遍叛逃状态中逃脱,但导致唯一稍微不良的结果,其中通过普遍非接触的状态反复一次人口周期。 (Szabó和Hauert包含了这种现象的漂亮照片。)
在确实允许依赖以前的互动,Batali和Kitcher的策略中,如此严峻的模拟,他们称之为歧视利他主义者(Hustentforth da)。 DA与任何从未违约的玩家合作,否则拒绝参与。 他们表明,在一组五种简单的策略中,将存在类似于上面描述的循环模式,其中“反社会”(缺陷)策略被“ASocial”(非参与)策略所取代,这些策略依次被“社会”(DA)策略所取代,它被“反社会”策略再次更换。 然而,他们的分析使他们得出结论,如果人口的成员仅限于这五种策略,则进化将导致他们在高度合作中花费“大部分时间”(尽管在每轮的“完全可选”的游戏中也不像案例那样,但只有那些准确信号愿意配对)。 据说允许任何策略依赖于前两次对手的策略的代理商之间的模拟据说是提供粗糙的粗化。 有些小心在这里才能。 几乎没有分析模拟中的合作群体的策略,实际上,DA不是一个选择内存只回到两个游戏的代理人的选择。 奇怪的是,对于游戏的完全可选版本而言,略有略低于半选项(尽管在每种情况下,但是,对于预期,普通Pd的合作率明显更大。 所采用的进化动态和合作措施采用的措施是充分的特质,使与其他工作变得困难的比较。 尽管所有这些警告,但是,得出的似乎安全的是,采取可选的参与可以为普遍性地,在相互作用模式模式中很少看到普遍,无情的叛逃的事实提供了另一种解释,有时被建模为进化PD。
17.信令
当Kendall等人开始组织其IPD锦标赛来标记Axelrod的出版物的20周年,他们收到了一个无辜的似乎:一位参赛者可以制作多次提交吗? 如果他们没有立即意识到这个问题的意义,他们肯定必须这样做,因此当来自格拉茨技术大学的一群企图进入第一个比赛的单独命名策略中的超过10,000名。 大多数这些抱负的参赛作品被禁止。 然而,事实证明,获胜战略来自南海普顿大学的一群人,他们自己提交了超过223个策略的一半。 随着来自格拉茨和南海普顿的团体实现(Axelrod的早期锦标赛的参与者显然没有),赢得一名循环IPD的好方法是陪伴一个人的参赛者,其中一支促进其相对的“推动者”。给他人。 在极端形式中,主策略及其启动因子通过播放C和D的短代码序列来开始,通过它们可以通过它们识别。 此后,推动者始终与主人(允许自己被剥削)和对所有其他人的缺陷合作(从而降低硕士竞争对手的分数)。 对使能器的主缺陷,并对所有其他人扮演合理的策略(如TFT)。 在这种情况下,主人的得分取决于两个因素:其有利的军队的大小以及识别码序列的准确性和成本。 如果外部战略“意外”开始使用代码序列开始游戏,则精度少于完美。 成本是通过使用早期举措来发出一个人的身份而不是遵循更生产策略的支付价值。 更长的代码以更高的成本产生更高的准确性。 对这些想法的更好欣赏,肯德尔等人组织了额外的锦标赛2005年,一个人将每位作者限制在一个条目,另一个人将每个作者限制在20个条目的团队中(但是,如Slany和Klienrich观察到,这种限制很难或者不可能强制执行。)
一个人可能怀疑这种信令和团队扮演是否有任何重要性,超出了竞争力的学者如何赢得罗宾IPD锦标赛。 在一个进化的旨在的武器中,推动者将迅速走向灭绝,留下主策略,仅仅面临其高等评分的竞争对手。 当然,有一个成功的“团队”动物种和人类社会之间的例子,其中少数人的利益少。 据推测,在这些情况下,剥削者足够转移到被剥削者,以确保后者的持续可用性。 也许在旨在探索这些问题的IPD锦标赛中,应允许团队中的这种支付转移。 然而,即使没有这样的规则发生变化,也存在较少的团队播放形式,这将在进化环境中表现更好。 如果一个人允许使能商彼此识别和合作,他们将大大增加,除非启动器错误地将局外人识别出一个局部人。 如果允许他们发挥合理策略,他们将更多地获得更多,尽管对船长的风险(通过外人的收益)会相当大。 即使没有允许自己被硕士利用,球队也可以通过在自己和外人之间扮演C之间的努力,或者他们自己中的文化,以及对外人的合理战略。 Slany和Kienreich(Graz Group)标记这些方法EW,EP,DW和DP和观察(以及其他属性),对于平等且足够大的尺寸的团队来说,此订单镜子从最糟糕的最佳组成团队的最佳成员的顺序。
错误的可能性对Team Play具有这种信号的特殊困难:可能会意外发送不正确的信号,或者可以估计正确的信号。 Rogers等人(南安普顿集团)意识到当误差时发送和接收信号的问题是计算机科学中的一个良好研究的问题:在嘈杂的频道上可靠地通信。 在2004年和2005年,由Kendall等人组织的IPD锦标赛之一推出了噪声来模拟错误的可能性。 通过采用一些标准的纠错代码,旨在通过嘈杂的频道处理通信作为其信令协议,南安普顿集团均以舒适的余量赢得。
在像Axelrod和Kendall等人那样的IPD锦标赛中,除了他们在游戏中的举措之外,玩家们一无所知,因此他们无法使用其他信息来发出他们在组中的成员资格。 在现实世界中,可以使用其他沟通途径似乎更有可能。 在球员之间的这种沟通可能促进合作结果的概念是博弈论中的一个古老的想法。 Santos等,表明这可能是如何。 他们的工作来自Arthur Robson(1990)的有影响力的纸张。 想象一下进化的游戏,其潜在的收益结构可以是雄鹿狩猎或PD,其中所有玩家都可以在(无条件)移动C和D之间选择。如果底层游戏是PD,则群体将以普遍的缺陷稳定。 (如果它是雄鹿狩猎,它可能与每个人打D(劣质均衡)或每个人打C(卓越的均衡)。说明沟通的有益可能性,让我们假设前者。)现在假设一小群突变体进入制作信号的人口(“秘密握手”)并将C对抗那些向所有其他人发出信号的人。 由于这些玩家以及对抗奥迪斯的原始而且更好地反对自己,他们很快就会接管人口。 (这对具有类似资源的其他可能的突变体并非如此,就像那些信令和播放D对抗自己和C对外人员。)所以通信似乎促进了合作。 然而,如果底层游戏是PD,一旦新的统一合作人口接管了,它本身就是脆弱的。 它可以被“欺骗”)侵略者侵入和涂覆的是谁对信号和缺陷的侵略者。 然后可以通过其他非信号传导,缺陷渗透(但不包括)渗透所得种群。 因此,Robson得出的结论是,信号传导可以将人口从较低的均衡移动到上一个阶梯,但只能延迟PD中的普遍叛逃。 然而,Santos等人观察到,如果第二个信号可用,则普遍缺陷的人群可以通过使用它作为新的秘密握手的一小组突变体。 当然,这个群体本身就是易受模仿第二信号的突变体的伤害,同时对所有人进行缺陷。 然而,在这种情况下,产生的深夜可能不再是永久性的。 如果在任何信号 - 一个缺陷之前重新出现的突变群体 - 一个涉及缺陷在群体中漂移到人口之前,则它们将再次接管,并且将重复循环。 (如果有第三个信号,当然,合作的回报将更容易。)故事不再是“进化停止”的地方:相当普遍叛逃和普遍合作的国家之间的人口周期。 每个状态所花费的时间取决于PD的收益和可用信号的数量。 然而,Santos等人证明,对于具有足够缓慢的突变率和大量可用信号合作的有限群体,在具有信令中的EPD中的占主导地位。