囚犯的困境(八)
虽然在进化中持续持续性ZD策略,但是,Hilbe等人的票价令人难以置信,但表明他们确实发挥着重要的进化作用,作为合作演变的“催化剂”。 他们详细探讨了限于策略的小型战略的代理人的进化过程,包括无条件叛逃,融合性ZD战略和熟悉(相对合作)的P1。 在没有底板的情况下,无条件缺陷在任何尺寸的群体中占主导地位。 然而,在底板存在下,随着种群大小的增加,P1变得更加成功。 在大于五十的人群中,它主要是占主导地位的。 当无条件合作被添加到战略选择时,相同的基本结果。 在没有可驯育策略的情况下,TFT可以发挥类似的催化作用,允许P1占据无条件的缺陷(有或没有无条件的合作者)。 简短的解释是,TFT和可汇编策略可以漂移到无条件缺陷群中作为中性突变体,而TFT的比例可以长为一段时间。 然而,最终,P1会比两种更好。
应该指出的是Hilbe等。 捍卫并采用“成对比较”的演化模型,与此进入之前讨论的进化动态的种类显着不同。 在每个阶段,一对代理被随机选择,首先采用第二个策略,其概率随着其收益之间的差异而增加。 在这种动态下,如果突变率足够低,人口将始终移动到“固定”,即,每个代理商采用相同策略的状态。 达到固定的时间随着人口大小而增加,如果每个策略都对所有对方获得相同的回报,那么战略的赔率是固定的赔率与雇用的人口的一部分成比例。 这些特征对应于群体遗传学中的熟悉性质,但它们与例如复制器动力学不是真的。
在介绍ZD策略的文章中,Stewart和Plotkin(2012年)指出,由于GEN-2等更慷慨的ZD策略被压力和呼吸声相对忽视。 如果玩家一个人在2IPD中采用了传统的支付矩阵的2IPD,那么他的支付v(1,2)将是2V(2,1)-3。 球员两者可以让玩家在一个和奖励价值的惩罚价值之间进行任何收益,同时确保她自己的收益较大。 她的最高支付响应是Cu,这导致三个球员的平均长期回报。 如果她愿意采用减少奖励水平的平均收益的战略,她将减少两倍的球员。 Stewart和Plotkin(2012)报告称,Gen-2等策略实际上在像Axelrod这样的模拟IPD锦标赛中获得了十九次策略中的最高分,包括TFT,GTFT,P1,严峻和其他策略在以前的棋子着作。 extort-2的版本获得了第二个最低分。 值得注意的是,莱特2版本赢得了第二个最“前往头”竞赛,而Gen-2版本赢得了第四次。 随着Axelrod与TFT相关的,击败一个人的对手并不是PD锦标赛中成功的路径。 然而,暗示斯图尔特和绘图曲线评论留下了对Ten-2等策略的ZD特征的问题开辟了这一问题。
在最近的工作中,Stewart和Plotkin(2013)提出了支持公开问题的合格肯定答案的证据。 他们的工作借用Ethan Akin对无限IPD的详细数学调查。 Akin,2013)侧重于满足您可能想要的条件的策略,我们可能想要的条件,我们对2IPD的道德合适的条件:(1)两个玩家的使用确保合作的收益,(2)两个玩家的使用构成纳什均衡,即,一个战略对,给每个玩家提供了一个通过单方面偏离它和(3)两位玩家使用的炮弹改善的回报可以防止通过任何减少他对手的支付的策略的任何变化的开发也将减少他的拥有。 Akin标签这样的策略“好”,并源于它们的显着简单。 策略S(P1,P2,P3,P4)很好,如果才能符合以下条件:
的p1 = 1,
(的p2,p3,p4)≠(1,0,0),
p3
(t-r)
(r-s)
<(1-P2)和
p4
(t-r)
(r-p)
<(1-的p2)。
易于检查,使用标准的PD回报,Grim,TFT,GTFT和Gen-2都满足这些条件,但露出-2,Set-2和P1不。 (P1确实符合收益满足r>的条件
1
2
(t + p)。)
Stewart和Plotkin表明,也是ZD的良好策略正是慷慨的ZD策略,即Gen-2等等,这使得惩罚与对手之间的惩罚和奖励之间的收益份额更大。 当Hilbe等人的调查时。 扩展到包括良好的策略,特别是对慷慨的ZD策略,表现出来的模式是完全不同的。 在小人物中,策略在这两组(相对于机会上)和更大的人口中的策略附近花费很少,他们花了更大比例的时间。 在大人物中,大量比例的策略最强烈地受到进化的良好和ZD。 然而,这个故事并不完全直截了当。 良好但不是ZD的策略被演变中等青睐,并且既不是ZD也不好的策略也强烈青睐。
毫无疑问,ZD策略的确定具有新的充气调查,特别是简单的游戏和IPD。 其对进化PD和出现合作的课程尚未完全理解。
21.组选择和干草堆PD
一个第三种机制,其中玩家可以更有可能与自己相遇的人,是考虑更复杂的演化动态,这些演变是在这些群体中的球员组和个人中运作的。 生物学家和生物学哲学家的激烈辩论,了解自然选择的适当“选择单位”。 在许多情况下,在许多情况下,将这些单位成为个人的群体(而不是,基因或个人)最近被重新播种为可敬和合理的观点,这一想法是有意义的。 (见清醒和威尔逊或威尔逊和清醒的历史和驾驶捍卫这种复苏的辩护。)对于文化演变,这个想法同样是合理的,在群体内行为可能处于均衡,但不同群体达到的均衡可能是不同的。 较少成功的团体可能会模仿,被更换,或丢失成员,更成功的群体。 清醒和威尔逊有时会写的,因为进化博弈论是群体选择的替代观点,但重要的是要明白,这只是简单的进化模型,如上面所示的简单进化模型。 更复杂的进化游戏是可能的。 例如,考虑John Maynard Smith最初描述的Haystack模型的简单版本。 一对来自大型人口对的球员随机。 每对殖民殖民地殖民地。 该对扮演囚犯困境,对个人的回报确定了下一代中该个人的后代的数量。 (父母在孩子们出生时死亡。)对于一些固定数量的世代,殖民地成员与其他成员随机对并播放PD。 然后将堆垛撕裂,人口混合和随机对在下赛季的干草堆中殖民。 代表N-Generation Haystack PD的一个简单的方法,因为我们可能会称之为,就是将其视为一个大海捞针的两个初始创始人之间的游戏,其中一个与使用他的战略的生活后代的创始人的回报。 (这个想法是在伯尔斯特罗姆中提出的,在斯基尔斯2004中报道。例如,假设n = 3,诱惑,奖励,惩罚和吸盘收益设定为5,3,1,0.然后,如果玩家一个合作和玩家两种缺陷支付给播放器一个将是0,因为合作者在第二个中获得0个后代,任何后续一代。 球员的回报将是5,因为叛逃者在第二代中有五个(非常志)的后代,其中每个人都有第三代中的一个,因为没有留下的合作者见面。 具有收益3,2,1的四代Haystack PD的完整收益矩阵和0由下面的矩阵给出。
c d
c 8,8 0,3
d 3,0 1,1
作为Skyrms 2004注意,该矩阵表征了普通的Stag Hunt游戏,如上所定义。 事实上,Skyrms的观察通常是真实的。 对于任何PD游戏G,如果n足够大,则G的N代Haystack版本是雄鹿。 以下非常简短的补充文档中给出了这个结果的简单参数:
干草堆PDS成为Stag Hunts。