囚犯的困境(五)
1,PN对随机策略进行比TFT更好。 更一般地,PN对往往与固定概率P≥的慷慨无响应策略CP,PN也比TFT更好或更好 1 2 (因为偶尔的诱惑收益可以教它来利用无响应的策略。)在这些情况下,Pavlov的“慢学习者”版本与N值高的Pavlov比具有低值的“快速学习者”更好地表现出略微好。 反对响应策略,如其他帕夫洛夫策略和TFT,PN及其对手最终达到了(差不多)不断合作的状态。 然后,总回报与“培训时间”反向关系,即达到该状态所需的轮数。 由于PN的训练时间与N,KRaines和Kraines呈指数级变,因此将P3或P4保持在其他帕夫洛夫策略中,并且接近“理想”的IPD策略。 然而,应该注意的是,当(确定性)TFT自身播放时,根本没有培训时间,而当帕夫洛维亚战略扮演TFT或其他Pavlov时,训练时间可能很大。 因此,对TFT的Pavlov优越性的论证的核对取决于观察,即在经受缺陷时,其性能显示出较小的降解。 它也值得记住,每个环境中没有最佳策略,用于防御IPD中各种策略的标准是模糊和异质的。 下一节中讨论的IPD的进化版本的一个优点是,他们允许更加仔细的制定和评估成功标准。 16.进化 也许对PD的最活跃的研究领域涉及游戏的进化版本。 雇用各种战略的球员人口在他们自己之间扮演IPDS。 较低的评分策略减少数量,增加的评分增加,并重复该过程。 因此,在进化的PD(Hellenthforth EPD)中取得了成功,需要与其他成功的策略做得好,而不是与各种各样的策略做得好。 EPD中的初始群体可以由一组对{(P1,S1),...(Pn,Sn)}表示,其中P1 ... PN分别是群体播放策略S1,...,Sn的比例。 上面给出的EPD的描述没有准确指定在每个IPD后重建策略群体。 通常的假设和最明智的生物应用,是任何圆的分数表示下一个“后代”的相对数量。 假设整个人口的大小保持在固定,因此更成功的策略的出生恰好被较不成功的死亡抵消。 这相当于比例p的条件 * 一世 在继承人口中的每个策略中,由等式P确定 * 一世 = PI(VI / V),其中VI是前一轮中SI的得分,V是人口中所有分数的平均值。 因此,每个比分的策略都在人口平均值上增加,每一个分数低于平均值的每一个都会减少。 根据“比例健身”规则,这种演变被称为“复制器动力学”或演化。 其他进化规则是可能的。 Bendor和Swistak认为,对于社交应用,将玩家与从一个策略转换为另一个策略而不是进入和存在的人来说,这更有意义。 由于Rational Players可能只会仅转换为在前一轮的最高收益的策略,因此只有最高评分策略将增加数量。 Batali和Kitcher采用动态,其中最低评分策略被混合得分最高策略的策略所取代。 在Kuhn 2004中描述并比较了各种其他可能的进化动力学。然而,这里的讨论将主要关注与比例健身规则的ePD。 Axelrod从Trivers和Maynard Smith借来,包括对比例健康的EPD的描述,并简要分析了他的IPD锦标赛的进化版本。 对于Axelrod,EPD提供了一种有利于TFT的证据: Tat for Tat在原始锦标赛中有一个非常轻微的领先,而且从未在模拟代中丢失过这一领先。 通过千分之一的一代,这是最成功的规则,并且仍然以比任何其他规则更快的速度增长。 然而,Axelrod的EPD锦标赛纳入了几种可能被视为人为的功能。 首先,它允许在无噪声环境中确定策略。 如上所述,在模型错误的条件下,TFT可以预期更差。 其次,只有来自原始IPD锦标赛的63个策略开始。 反应在象牙塔中策略的成功可能并不意味着对所有可能在自然界都有的人的成功取得成功。 第三,允许在给定阶段竞争的唯一策略是前阶段的幸存者。 一个人可能会争论更现实的模型,将允许新的“突变”策略在任何阶段进入游戏。 改变这一第三个功能可能会受到伤害TFT。 对于TFT人口的巨大增长将使突变体遭受更多的天真策略,如Cu这样的策略来重新获得立足点,并且这些Naifs在人口中可能有利于Du在TFT上的讽刺策略。 Nowak和Sigmund模拟了两种锦标赛,避免了三种可疑的功能。 第一次检查了“反应性”策略的家庭。 对于任何概率y,p和q,r(y,p,q)是在第一轮中与概率y协作策略,此后如果另一个玩家在前一轮中合作,并且如果她已经叛逃了概率q。 这是一个广泛的家庭,包括许多已经考虑的策略。 Cu,Du,TFT和Cp是R(1,1,1),R(0,0,0),R(1,10)和R(P,P,P)。 GTFT,当收益为5,3,1,0时,是R(1,1,25)。 为了捕获错误的必然性,Nowak和Sigmund排除了确定性策略,其中p和q完全是1或0,从他们的锦标赛中。 如前所述,如果游戏足够长(并且P和Q不是整数),则可以忽略第一移动,并且可以用其P和Q值识别反应策略。 特别注意靠近上述莫尔德的GTFT的策略,其中P = 1和Q = min {1-(T-R)/(R-S),(R-P)/(T-P)}。 第一系列欧坦克和Sigmund的EPD锦标赛从反应战略的代表性样本开始。 对于大多数此类锦标赛,他们发现演变导致不可逆转地达到du。 最接近R(0,0)的那些策略R(P,Q)在其他人被发现的时候茁壮成长。 然而,当初始策略之一非常接近TFT时,结果发生变化。 TFT和所有其他往复策略(近(1,0))似乎已经消失了。 但陷入困境的少数群体仍然和反击。 当'吸盘'如此抽取时,潮汐变为剥削者不能再向他们喂食。 起初慢慢地,但收集势头,往复运动员回来,现在的剥削者现在衰落。 但是,引起这种逆转财富的TFT的策略不会从中获利:消除了剥削者,它被抢劫了其使命并被最接近GTFT的战略取代。 进化然后停止。 即使我们偶尔介绍1%的另一种策略,它也会消失。 在他们的锦标赛的基础上,诺瓦克和锡格蒙德召集的是,虽然TFT对合作的出现至关重要,但实际提出了生物世界中持续合作模式的战略更可能是GTFT。 然而,具有更广泛的战略的第二系列模拟,迫使他们修改他们的意见。 第二个系列中考虑的策略允许每个玩家在其先前的举措以及对手的情况下基于合作的可能性。 现在可以将策略表示为S(p1,p2.p3,p4),其中P1,p2,p3,p4是在结果(c,c),(c,d),(d,c)之后协作的概率,并且(d,d),分别在收到奖励,吸盘,诱惑和惩罚后的后。 (再次,只要PI S不是零或一个),我们就可以忽略第一移动缺陷的概率。介绍了随机选择的(非确定性)突变体,并且群体通过比例的适应来演变。 结果与以前不同。 在107代之后,在90%的模拟试验中达到了稳定的相互合作状态。 但是,使用TFT或GTFT的球员填充了这些国家的8.3%。 剩下的91.7%以靠近S(1,0,0,1)的策略为主。 这是Kraines和Kraines的Pavlovian战略P1,它在收到R或T后重放其最后一个举措,并且在接受P或S. Kraines和Kraines后对另一个移动的变化有所不清楚P1。 他们记得Rapoport和Chammah,他早期在博弈论历史上识别它已标记为“SimpleTon”,并备注“称谓是值得的”。 实际上,P1有不幸的特点是尝试与杜拉杜的杜鹃在一起,而对TFT可以被锁定到劣质重复系列T,P,S,T,P,S,......。 但是,Nowak和Sigmund重命名战略“Win-Stay丢失班”并小号为其优势。 他们的模拟表明,这里提到的缺陷在进化环境中并不重要。 一个原因可能是P1有助于使其环境不适合其敌人。 Du在具有慷慨策略的环境中进行良好,如CU或GTFT。 正如我们所看到的,TFT允许这些策略蓬勃发展,这可能会为DU铺平道路。 因此,虽然TFT比P1对DU的严重差别,但P1更好地保持其环境没有杜。 确定性战略宇宙中的模拟产生的结果与诺瓦克和锡格蒙德的宇宙产生相比。 Bruce Linster(1992年和1994年)表明,可以通过代表简单的摩尔机器来定义进化的自然策略和现实机制。 例如,P1由下面图片的机器表示。 图8 图8 这台机器有两个状态,由圆圈表示。 它以最左边的状态开始。 左圆圈中的C意味着机器在第一移动上配合。 从左侧到右侧圈导致的箭头表示机器缺陷(进入D)合作(在C状态)之后,其对手已经缺陷(箭头由D)标记)。 Linster在可以由两国摩尔机器代表的策略中进行了进化PD的模拟。 事实证明,这些正是诺瓦克和锡格蒙德战略的确定性版本。 由于战略是确定性的,我们必须区分在第一轮和第一轮缺陷的版本之间的版本。 在第一圆形合作伙伴中,S(1,1,1,0),S(1,1,0),S(1,1,0,1)和S(1,1,0,0)都代表了无条件合作的策略。 同样,四轮缺陷的四个都代表du。 其它S(P1,P2,P3,P4)中的每一个,其中P1,P2,P3,P4为零,或者一个代表独特的策略,并且每个策略都是根据它是否与圆形配合或缺陷的两个品种。 通过删除这三个决定性版本的欧洲划分的六个决定性版本,我们获得了绞线考虑的二十六个“两国”策略。