囚犯的困境(五)

然而,Tzafestas能够表明她识别的战略之一优于TFT和GRDTFT在Beaufils建造的同一个环境中。 更近年来,对TFT的热情已经通过增加持怀疑主义来锻炼。(参见,例如,2015年Binmore 2015(第30页)和Northcott和Alexandrova(第71-78页)。证据已经出现了Axelrod锦标赛中TFT的成功可能部分是由于AXELROD的设置的特点。Rapoport等人(2015)表明,而不是开展循环锦标赛,其中每个策略都扮演每个策略,也可以划分初始群体随机进入相等大小的群体,在每个群体中进行循环锦标赛。然后是集团获奖者中的冠军循环锦标赛。他们发现,在阿克罗德的第一个比赛中存在相同的初始策略次数,战略在该锦标赛中排名第二和六次,这两次比排名第一的TFT更好地表现得比排名第一的TFT。Kretz(2011)发现,在循环锦标赛中,在策略中只能在少数先前移动(其中TFT显然是一个)策略的相对性能对PD矩阵中的收益值敏感。 (有趣的是,即使PDS全部满足或不能满足条件R + P = T + S,表征交换游戏,以及所有满足或不能满足RCA条件,R>½(T + S)。 同样地说,也许是使用与Axelrod这样的参数相同的参数更新的锦标赛的结果。 要标志着Ackelrod书籍的出版物的二十周年,2004年波特兰进化计算的IEEE国会上演了许多类似的比赛,以及科尔切斯特的计算智力和游戏的IEEE研讨会2005. Kendall等人2007描述了锦标赛,并包含了提交获奖条目的作者的几篇论文。 大多数锦标赛被故意旨在从Ackelrod(并且其中一些在下面的信号通知部分中简要讨论其中一些)。 在最紧密复制的Axelrod锦标赛中。 然而,TFT在提交的五十次策略中只完成了第十四个。 Ackelrod的五个建议的成功标准,似乎最清楚的锦标赛最明显的锦标赛的成功标准是“清晰度”。 两个最高评分的策略,适应性Pavlov(Apavlov)和Tat(ωtft,靠近Rapoport的山雀的简单性)都没有。两者都在Tzafestas的意义上广泛适应但是,第一个比Tzafestas更狭隘地制作了它的设计师预期锦标赛环境,第二个替代Tzafestas的世界变量与旨在衡量“死锁”和随机性的一系列措施。 李(2007)明确地说,Apavlov背后的想法是对教育猜测,了解将进入哪些策略,找到一种准确,低成本的方式,以确定游戏的初始阶段,然后对如此识别的每个策略发挥最佳策略。 例如,在补充表中描述的策略Cu,Du,Grim,随机,TFT,TFT,TTFT和P1均出现在先前的锦标赛中。 通过围绕第三轮缺陷,并选择与一个人的对手的六个六个举动的相反,可以在三个动作中识别这些九个中的任何相反的策略。 然而,这种识别过程是昂贵的,因为,通过第一次举措,它消除了与严峻合作的任何机会。 李先生选择在前六轮雇用TFT作为他的识别策略,以牺牲精度和范围的牺牲降低成本。 值得注意的是,TFT无法区分任何满足Axelrod的尼度状况的策略(永远不是第一个缺陷)。 这意味着它可以利用无条件合作者利用的机会。 李的条目只赢得了锦标赛,因为他猜到了正确的是,并没有许多无条件的合作者。 再次课程是记住,成功取决于环境。 ωtft播放TFT,除非其死锁或随机性的测量超过指定的阈值。 死锁措施旨在检查ωTFT及其对手是否锁定在一个不生产的循环中,在这种情况下它们轮流缺陷。 超过其阈值时,该策略配合并重置措施。 当随机性度量超过其阈值ΩTFT切换到无条件缺陷。 与其名称可能的预期相反,当无条件缺陷器反复利用Omegatft时,随机性会增长。 然而,与Apavlov一样,该战略与无条件合作者合作。 详细信息可以在Slany和Kienreich找到(第184页)。 本条目中提到的所有IPD的策略总结在上述策略表中。 15.错误迭代 在出版上述结果后几年的几年,Axelrod和Dion,Chronicle的TFT和修改的几年来,TFT的几年。 他们得出结论,“研究表明,许多Axelrod的发现......可以推广到与原始双人迭代囚犯的困境游戏完全不同的设置。” 但在几个合理的设置中,TFT具有严重的缺点。 在Axelrod和Dion调查中注意到这样的这种情况是在尝试结合那些符号的假设时,该玩家经受执行和感知的错误。 有许多方式可以完成。 例如,谨慎考虑“嘈杂的收益” 当玩家在其对手缺陷的同时合作时,它的回报是S + e,其中e是一个随机变量,其中一个随机变量,其预期值为0.每个玩家infers从其自身的收益中播出,所以如果e足够高,则可能弄错了。 Sugden(第112-115页)考虑了那些对他们来说明显的执行错误但不是他们的对手的表现。 这些球员可以通过在以后的叛派比在预期的叛逃之后,通过更合作的合作来采取策略。 假设玩家本身无法区分误认为是从真实的误导或观察,更简单的模型方式错误的错误只是为了禁止完全确定的策略,如TFT,用“不完美”对应物替换它们,如“模仿”另一个球员的最后一个概率与99%的概率相反,以1%的概率反对。“ 不完美的TFT比其确定性兄弟姐妹更少吸引力,因为当两个不完美的TFT策略互相播放时,任何一个的“错误”都会出现一个长链移动,其中玩家轮流缺陷。 在两个不完美的TFT之间的长期迭代游戏中,任何概率p错误,0

1,PN对随机策略进行比TFT更好。 更一般地,PN对往往与固定概率P≥的慷慨无响应策略CP,PN也比TFT更好或更好 1 2 (因为偶尔的诱惑收益可以教它来利用无响应的策略。)在这些情况下,Pavlov的“慢学习者”版本与N值高的Pavlov比具有低值的“快速学习者”更好地表现出略微好。 反对响应策略,如其他帕夫洛夫策略和TFT,PN及其对手最终达到了(差不多)不断合作的状态。 然后,总回报与“培训时间”反向关系,即达到该状态所需的轮数。 由于PN的训练时间与N,KRaines和Kraines呈指数级变,因此将P3或P4保持在其他帕夫洛夫策略中,并且接近“理想”的IPD策略。 然而,应该注意的是,当(确定性)TFT自身播放时,根本没有培训时间,而当帕夫洛维亚战略扮演TFT或其他Pavlov时,训练时间可能很大。 因此,对TFT的Pavlov优越性的论证的核对取决于观察,即在经受缺陷时,其性能显示出较小的降解。 它也值得记住,每个环境中没有最佳策略,用于防御IPD中各种策略的标准是模糊和异质的。 下一节中讨论的IPD的进化版本的一个优点是,他们允许更加仔细的制定和评估成功标准。 16.进化 也许对PD的最活跃的研究领域涉及游戏的进化版本。 雇用各种战略的球员人口在他们自己之间扮演IPDS。 较低的评分策略减少数量,增加的评分增加,并重复该过程。 因此,在进化的PD(Hellenthforth EPD)中取得了成功,需要与其他成功的策略做得好,而不是与各种各样的策略做得好。 EPD中的初始群体可以由一组对{(P1,S1),...(Pn,Sn)}表示,其中P1 ... PN分别是群体播放策略S1,...,Sn的比例。 上面给出的EPD的描述没有准确指定在每个IPD后重建策略群体。 通常的假设和最明智的生物应用,是任何圆的分数表示下一个“后代”的相对数量。 假设整个人口的大小保持在固定,因此更成功的策略的出生恰好被较不成功的死亡抵消。 这相当于比例p的条件 * 一世 在继承人口中的每个策略中,由等式P确定 * 一世 = PI(VI / V),其中VI是前一轮中SI的得分,V是人口中所有分数的平均值。 因此,每个比分的策略都在人口平均值上增加,每一个分数低于平均值的每一个都会减少。 根据“比例健身”规则,这种演变被称为“复制器动力学”或演化。 其他进化规则是可能的。 Bendor和Swistak认为,对于社交应用,将玩家与从一个策略转换为另一个策略而不是进入和存在的人来说,这更有意义。 由于Rational Players可能只会仅转换为在前一轮的最高收益的策略,因此只有最高评分策略将增加数量。 Batali和Kitcher采用动态,其中最低评分策略被混合得分最高策略的策略所取代。 在Kuhn 2004中描述并比较了各种其他可能的进化动力学。然而,这里的讨论将主要关注与比例健身规则的ePD。 Axelrod从Trivers和Maynard Smith借来,包括对比例健康的EPD的描述,并简要分析了他的IPD锦标赛的进化版本。 对于Axelrod,EPD提供了一种有利于TFT的证据: Tat for Tat在原始锦标赛中有一个非常轻微的领先,而且从未在模拟代中丢失过这一领先。 通过千分之一的一代,这是最成功的规则,并且仍然以比任何其他规则更快的速度增长。 然而,Axelrod的EPD锦标赛纳入了几种可能被视为人为的功能。 首先,它允许在无噪声环境中确定策略。 如上所述,在模型错误的条件下,TFT可以预期更差。 其次,只有来自原始IPD锦标赛的63个策略开始。 反应在象牙塔中策略的成功可能并不意味着对所有可能在自然界都有的人的成功取得成功。 第三,允许在给定阶段竞争的唯一策略是前阶段的幸存者。 一个人可能会争论更现实的模型,将允许新的“突变”策略在任何阶段进入游戏。 改变这一第三个功能可能会受到伤害TFT。 对于TFT人口的巨大增长将使突变体遭受更多的天真策略,如Cu这样的策略来重新获得立足点,并且这些Naifs在人口中可能有利于Du在TFT上的讽刺策略。 Nowak和Sigmund模拟了两种锦标赛,避免了三种可疑的功能。 第一次检查了“反应性”策略的家庭。 对于任何概率y,p和q,r(y,p,q)是在第一轮中与概率y协作策略,此后如果另一个玩家在前一轮中合作,并且如果她已经叛逃了概率q。 这是一个广泛的家庭,包括许多已经考虑的策略。 Cu,Du,TFT和Cp是R(1,1,1),R(0,0,0),R(1,10)和R(P,P,P)。 GTFT,当收益为5,3,1,0时,是R(1,1,25)。 为了捕获错误的必然性,Nowak和Sigmund排除了确定性策略,其中p和q完全是1或0,从他们的锦标赛中。 如前所述,如果游戏足够长(并且P和Q不是整数),则可以忽略第一移动,并且可以用其P和Q值识别反应策略。 特别注意靠近上述莫尔德的GTFT的策略,其中P = 1和Q = min {1-(T-R)/(R-S),(R-P)/(T-P)}。 第一系列欧坦克和Sigmund的EPD锦标赛从反应战略的代表性样本开始。 对于大多数此类锦标赛,他们发现演变导致不可逆转地达到du。 最接近R(0,0)的那些策略R(P,Q)在其他人被发现的时候茁壮成长。 然而,当初始策略之一非常接近TFT时,结果发生变化。 TFT和所有其他往复策略(近(1,0))似乎已经消失了。 但陷入困境的少数群体仍然和反击。 当'吸盘'如此抽取时,潮汐变为剥削者不能再向他们喂食。 起初慢慢地,但收集势头,往复运动员回来,现在的剥削者现在衰落。 但是,引起这种逆转财富的TFT的策略不会从中获利:消除了剥削者,它被抢劫了其使命并被最接近GTFT的战略取代。 进化然后停止。 即使我们偶尔介绍1%的另一种策略,它也会消失。 在他们的锦标赛的基础上,诺瓦克和锡格蒙德召集的是,虽然TFT对合作的出现至关重要,但实际提出了生物世界中持续合作模式的战略更可能是GTFT。 然而,具有更广泛的战略的第二系列模拟,迫使他们修改他们的意见。 第二个系列中考虑的策略允许每个玩家在其先前的举措以及对手的情况下基于合作的可能性。 现在可以将策略表示为S(p1,p2.p3,p4),其中P1,p2,p3,p4是在结果(c,c),(c,d),(d,c)之后协作的概率,并且(d,d),分别在收到奖励,吸盘,诱惑和惩罚后的后。 (再次,只要PI S不是零或一个),我们就可以忽略第一移动缺陷的概率。介绍了随机选择的(非确定性)突变体,并且群体通过比例的适应来演变。 结果与以前不同。 在107代之后,在90%的模拟试验中达到了稳定的相互合作状态。 但是,使用TFT或GTFT的球员填充了这些国家的8.3%。 剩下的91.7%以靠近S(1,0,0,1)的策略为主。 这是Kraines和Kraines的Pavlovian战略P1,它在收到R或T后重放其最后一个举措,并且在接受P或S. Kraines和Kraines后对另一个移动的变化有所不清楚P1。 他们记得Rapoport和Chammah,他早期在博弈论历史上识别它已标记为“SimpleTon”,并备注“称谓是值得的”。 实际上,P1有不幸的特点是尝试与杜拉杜的杜鹃在一起,而对TFT可以被锁定到劣质重复系列T,P,S,T,P,S,......。 但是,Nowak和Sigmund重命名战略“Win-Stay丢失班”并小号为其优势。 他们的模拟表明,这里提到的缺陷在进化环境中并不重要。 一个原因可能是P1有助于使其环境不适合其敌人。 Du在具有慷慨策略的环境中进行良好,如CU或GTFT。 正如我们所看到的,TFT允许这些策略蓬勃发展,这可能会为DU铺平道路。 因此,虽然TFT比P1对DU的严重差别,但P1更好地保持其环境没有杜。 确定性战略宇宙中的模拟产生的结果与诺瓦克和锡格蒙德的宇宙产生相比。 Bruce Linster(1992年和1994年)表明,可以通过代表简单的摩尔机器来定义进化的自然策略和现实机制。 例如,P1由下面图片的机器表示。 图8 图8 这台机器有两个状态,由圆圈表示。 它以最左边的状态开始。 左圆圈中的C意味着机器在第一移动上配合。 从左侧到右侧圈导致的箭头表示机器缺陷(进入D)合作(在C状态)之后,其对手已经缺陷(箭头由D)标记)。 Linster在可以由两国摩尔机器代表的策略中进行了进化PD的模拟。 事实证明,这些正是诺瓦克和锡格蒙德战略的确定性版本。 由于战略是确定性的,我们必须区分在第一轮和第一轮缺陷的版本之间的版本。 在第一圆形合作伙伴中,S(1,1,1,0),S(1,1,0),S(1,1,0,1)和S(1,1,0,0)都代表了无条件合作的策略。 同样,四轮缺陷的四个都代表du。 其它S(P1,P2,P3,P4)中的每一个,其中P1,P2,P3,P4为零,或者一个代表独特的策略,并且每个策略都是根据它是否与圆形配合或缺陷的两个品种。 通过删除这三个决定性版本的欧洲划分的六个决定性版本,我们获得了绞线考虑的二十六个“两国”策略。

(本章完)

相关推荐