囚犯的困境(七)
18.空间PD
前一节讨论了一个有争议的论据,当时每个玩家都知道另一个人都像他一样让他们选择相同的举动,合作在PD中合理合理。 在进化环境中的这个论点的模拟更加明显。 如果代理人不随意配对,而且更容易发挥其他采用类似策略的人,那么合作行为更有可能出现。
可以实现至少三种机制,可以实现球员之间的这种“关联”。 进化PD中的一种这样的机制已经在标签“空间PD”下广泛研究 球员以一些“地理”安排安排。 这可以是具有矩形边界的阵列,例如,具有没有边界的球体的球体或圆环的圆形或表面的表面。 从地理安排,两个(可能相同)的各种社区被识别为每个玩家。 代理商只达到他们的“互动”社区,而进化动态仅考虑到他们“比较”社区中的收益。 通常,所采用的进化动态是互动街区内的“获胜者模仿”之一。 (这可以模拟每个玩家由最成功的邻居或每个玩家采用它所看到的最成功的策略的想法。)因为进化和互动都是“本地”,玩家更有可能(在第一轮之后)以满足他们自己的竞争对手SPD比他们在一个普通的进化游戏中。 除了“关联”的效果之外,还应记住,SPD的结果可能受到胜利仿动态的影响,这可能会推动可能在可能生存的灭绝策略 - 并最终占主导地位 - 与普通的再分类器动态更常用EPD。
像往常一样,看着空间SPD的动力似乎来自Axelrod。 提交给Axelrod锦标赛的63个策略中的每一个的四个副本被排列在一个带球形几何形状的网格上,使每个细胞有四个邻居进行相互作用和比较。 对于每个初始随机分布,所得到的SPD最终达到了每个细胞中的策略与所有邻居合作的状态,此时不可能进一步进化。 在这些最终状态下,只有大约十个原始策略中的十个。 其余策略不再是随机分布的,而是分离成各种尺寸的团块。 Axelrod还表明,在SPD的特殊条件下,SPD中的进化可以产生连续的复杂对称图案,这些模式不会似乎达到任何稳态平衡。
为了了解为什么合作行为可能传播在这个和类似的框架中,考虑协作和非协作亚步进之间的前沿的两侧的两个代理。 合作社看到一个合作界,其四个邻居都合作,因此谁在播放它们之后获得了四倍的奖励回报。 所以他会模仿这个邻居的战略,并保持合作。 另一方面,非合作社看到了他的合作对手,他从合作邻居和一个吸盘支付获得三个奖励资金。 他将其与非合作景观邻居的收益进行比较。 最好的这些可以做到三次惩罚和诱惑。 因此,只要3r + s超过3p + t,边境上的非共同代理将采用他的合作邻居的策略。 Axelrod的收益为5,3,1和0,适用于T,R,P和S,确实符合这种情况。
诺瓦克,可能已经在更详细的SPD中调查,其中唯一允许的策略是CU和DU。 (这些是缺乏记忆或识别技能的个人的策略。)他们发现,对于各种空间配置和策略分布,演变取决于统一方式的相对收益。 当诱惑的回报足够高时,Du成长簇和Cu缩小; 当它足够低时,DU簇缩小并且CU集群生长。 对于狭窄的中间值范围,我们获得了像Axelrod注意的那样的复杂模式。 不断发展的模式表现出很大的品种。 然而,对于给定的空间配置,比率Cu与Du策略的比率似乎对特殊范围内的所有初始策略分布和所有诱惑收益的所有初始分布相同。 这些模拟部分解释了自然界合作持久性的想法已经受到质疑,他们认为他们认为是确定性的(无错误)的移动和更新。 但是作者在各种错误条件下报告了类似的现象,尽管那时需要较低的相对诱惑值来存活合作者的生存,误差水平不能超过一定的阈值。 (见Mukherjii等,以及Novak等人的回复立即跟随它。)
Grim,Mar和St Denis报告了许多具有更多种类初始策略的SPD模拟。 一般而言,他们的观察结果证实了合理的猜想,即合作结果在SPD中比普通的普遍存在更常见。 从欧坦克和锡格蒙德的所有纯反应策略开始的模拟(即,上述所有策略R(y,p,q),其中y,p和q为0或1.),全部以TFT-I.E结束。,用R(1,1,0) - 唯一的幸存者(尽管其他结果 - 包括Du是唯一的幸存者,其中Cu和TFT被混合的唯一幸存者 - 显然是可能的。)从所有64个可能的纯策略开始的模拟开始在对手之前的两次举动中,以混合幸存者的混合人群结束,雇用了各种类似TFT的策略。 它们在双重偏差(DD)后所有缺陷,尽管在单次偏差CD或DC之后不一定; 他们都在双重合作后合作,但不一定在单一合作之后; 他们都在第二轮游戏中合作,但不一定在第一个)。 (再次,其他结果也是可能的。)使用许多(viz。,100)欧元克和sigmunds的均匀分布式样本的仿真混合的反应策略,往往被r(.99,.1)接管,这是一款慷慨的TFT版本不到GTFT的慷慨的一半。 这些策略的随机选择开始的模拟倾向于发展到由单个版本的慷慨TFT主导的混合稳定或循环模式,其比GTFT更慷慨。 R(.99,.6),这是GTFT的两倍多,似乎是常旅客的胜利者。
Szabó和Hauert在一些细节中调查了可选PD的空间版本。 在他们的研究结果中,对于特定(中级)的收益范围,在方形格子上扮演“纯粹”策略的代理商将朝着一个独特的均衡而发展,其中所有三种策略存在。 这与上面讨论的进化可选PD的非时空化版本的连续循环形成鲜明对比。 与早期的观察一样,它可能有助于解释一个团队如何实现普遍叛逃以外的国家,而不是如何实现普遍合作的状态。
SPD的“地理”方面不需要服用。 对于社会应用,甚至对于许多生物学的应用,似乎也没有任何特定的几何安排没有动力。 (为什么不为“蜂窝”,例如,每个代理有六个邻居,而不是每个代理有四到八个的网格,SPD的兴趣可能是我的“邻居”的相互作用和“社区”的相互作用,但很多即使事实证明没有受到物理地理的细节的限制,也比人口小。 然而,特别是几何安排的合作演变的SPD模型已经给了我们一些暗示和漂亮的照片来考虑。 通过本条目末尾的链接可以访问几个示例。
19. PD和社交网络
一种方法来使当地互动的想法更加现实,以便在过去的交互中的回报基于收益,让代理商选择与谁交互的合作伙伴。 Skyrms 2004考虑了无条件合作者和缺陷群体中的迭代PD。 最初,像往常一样,每个代理商从剩余人口的随机选择一个伴侣。 然而,对于随后的互动,根据选用伙伴的前一次的回报或(更现实地)从前一代的收益进行调整,根据前一次的收益进行调整,或者无论哪一个是“选择的人”,那么)。 在典型的PD中,在诱惑,奖励,惩罚和吸盘的回报是3,2,1和0的情况下,两个合作者和缺陷都最终只选择了合作者。 由于合作伙伴由合作伙伴和缺陷选择,它们比仅在他们正在做出选择时播放的缺陷更频繁地发挥作用。 如果我们认为合作者和缺陷之间存在平等的分裂,那么合作伙伴可以期望当它们是选择者时,他们可以返回一个奖励回报,并且当他们是所选时,奖励和吸盘收益的五十/五十次混合。 因此,每个互动的预期收益将是(3r + s)/ 2。 缺陷可以期待每次游戏的一个诱惑收益的回报,但他们经常发挥一半。 带有支付结构,指示,3r + s> t,因此合作伙伴可以更好地做得更好,即使是这种“单向”关联。
这个故事可能在斯基尔呼叫“减弱”的Pd中的情况下略微不同,让我们说,2.01,2,1.98和0.(我们可能会认为这是“只是不要成为傻瓜”游戏。)在这里,如前所述,合作伙伴快速学会不选择缺陷作为合作伙伴。 无论他们选择合作伙伴或缺陷作为合作伙伴,缺陷都会得到相同相同的收益。 由于它们迅速停止被合作者选择,因此他们与合作伙伴的互动的回报将低于缺陷的回报,并且他们将很快将其选择限制在其他缺陷中。 (重要的是在这里了解,确定概率I与代理A交互的学习算法取决于与与A的相互作用相互作用的总回报,而不是与A)相互作用的平均返回。)所以在减毒游戏中如此我们最终得到了完美的协会:缺陷扮演缺陷和合作者玩合作者。 由于奖励支付略微超过惩罚后收益,合作者再次比缺陷做得更好。
上面认为的社交网络游戏不是在上述意义上的真正进化的PD。 互动模式发展,但人口的策略概况仍然是固定的。 允许两种策略和相互作用同时发展的策略和概率是自然的,因为收益分布。 在此类条件下是否合作或叛逃(或两者)来统治人口取决于众多因素:收益的价值,策略的初始分配,战略调整的相对速度以及策略和互动概率的相对速度,以及这两个进化动态的其他性质。 Skyrms 2004包含一般讨论和许多暗示示例,但它没有提供(或旨在提供)社会网络PD的全面描述或仔细分析精确的配方,以适当的模型特定现象。 仍然是未知的。
20.零决小策略
在社交网络游戏中,代理商从潜在的对手群中选择; 在感兴趣的IPD的版本中,代理商必须播放他们是零件的其他人口的其他成员。 然而,通过Driesher和洪水的原始描述,然而,有关一对多次播放相同的PD游戏的玩家。 在简短的,但有影响力的情况下,纸张一对杰出的物理学家,威廉媒体和弗里曼戴森,最近回到了这个原始版本的IPD,而不是无限重复的版本。
让我们称之为这个版本的游戏(无限)两个玩家IPD,或2IPD。 在其他版本的IPD中,从较大的人口的对一起努力玩游戏,成功的策略是一个得分。 “嗯”可能是指(如在转速器下的演变的情况下)的分数至少高的群体的平均得分,或(如在模仿动态下的演变的情况下)至少高达人口中最成功的代理商的分数。 在这些条件下,在特定的游戏中,它更重要,以提高自己的分数而不是降低对手。 Axelrod反复(和原因)建议参与者在他的锦标赛中不要羡慕。 然而,在2IPD中,人口大小是两个。 在这种情况下,降低对手的支付是筹集自己的贡献,甚至可以利用降低自己的收益,如果这样做降低了你的对手比你的更多。
2IPD的另一个值得注意的特征,严格在媒体和戴森(附录A)中经过严格证实,是不需要良好的记忆。 假设我采用了一个策略,即,我条件每次都会仅在我们上次的互动上。 然后按下和Dyson表明您无法使用更长的内存无法受益:无论您采用哪种策略,都有相同的内存 - 您可以采用一项策略,这将净额净额相同的分数。 通过自己采用一个记忆 - 自己,我确保更长的内存对您没有任何好处。 因此,我们可以在没有普遍的情况下,将2IPD游戏带到具有内存的代理商之间的游戏 - 一种策略。
内存 - 一个代理之间的2IPD游戏(以及确实在内存 - 一个代理之间的任何2播放器,2-Move游戏)可以以特别呈现的方式表示。 让O1,O2,O3,O4成为四种结果CC,CD,DC和DD。 存储器 - 一种策略(如上所述讨论)是与概率p1,p2,p3,p4合作的策略S(p1,p2,p3,p4),其在结果O1,O2,O3,O4之后。 (如果我们假设游戏无限重复多次,并且对于i = 1,2,3,4的0<pi<1,则可以忽略初始移动。)。 设S(P1,P2,P3,P4)和S(Q1,Q2,Q3,Q4)是球员策略的一个和两个。 (下标被播放器两次切换,因此P2和Q2在接收驾驶员支付后,P2和Q2在接受诱惑后提供合作的可能性。)让P
'
一世
= 1-pi和q
'
一世
= 1-qi(对于i = 1,2)(这样p
'
一世
和Q
'
一世
是叛逃的几率)。 然后,我们可以将2IPD表示为一个和两个,作为“马尔可夫转换矩阵”,其显示从任何状态移动到任何状态的几率。
o1氧气o3 o4
o1 p1q1 p1q
'
1
p
'
1
第1季度p
'
1
q
'
1
o2的p2q3 p2q
'
3
p
'
2
第3季度p
'
2
q
'
3
o3 p3q2 p3q
'
2
p
'
3
第2季度p
'
3
q
'
2
o4 p4q4 p4q
'
4
p
'
4
第4季度p
'
4
q
'
4
例如,从状态O2移动的可能性,其中一个合作的差异与状态O4合作,其中播放器缺陷在第二行和第四列中给出:P
'
2
q
'
3
。
通过这种方式查看游戏使得可以使用矩阵代数和马尔可夫链的机器,其中LED和Dyson识别零决小剂(ZD)策略的识别。 (在Hilbe等人的附录A中给出了更简单的新闻和Dyson的中央结果,采用更适度的数学机械。他的对手。 例如,TFT(= S(1,0,1,0))向任何PD变成这样的策略。 如果我采用TFT,那么我保证,无论您选择的策略如何,我们都会得到相同的回报。 如果选择无条件的合作(= s(1,1,1,1))或gtft(= s(1,25,1,.25))我们都会获得奖励收益,如果您选择无条件叛逃,我们都接近了平均惩罚。 对于其他选择,您可以在惩罚和奖励之间获得收益。 但是,无论你选择什么,你仍然会像我一样获得同样的回报。
IPD有各种这些ZD策略(确实为大多数两位玩家,双手游戏)。 对于带薪5,3,1,0,3的标准PD,其他其他代表性ZD策略如下:
设置-2 = s(
3
4
,
1
4
,
1
2
,
1
4
),
敲诈-2 = s(
7
8
,
7
16
,
3
8
,0),
代-2 = s(1,
9
16
,
1
2
,
1
8
)。
按下和Dyson强调Set-2和extort-2等策略。 如果玩家一个采用Set-2,那么玩家两个将获得2的支付2,无论她雇用什么战略。 在记忆中,一名2IPD一名球员可以将他的对手的战略设置为惩罚和奖励收益之间的任何价值。 Hilbe等。 致电此类策略“均衡器”策略,但在我们的背景下,也许“独裁者”将是一个更好的标签。 如果玩家知道独裁者策略并了解球员两个是一个天真的效用,他可以欺骗她通过提高当她最近的游戏满足他的欲望时,他可以扮演他诉诸他的水平的策略。 当然,一个更有趣的球员可能意识到她可以实现相同的独裁策略。 然而,这些将没有使用,除非他们导致球员的行为转变。 如果独裁者策略的存在是两名球员的常识,那么他们可能会盈利地同意将彼此的分数设置为奖励回报。 由于每个人都在雇用独裁策略,因此通过偏离,既不能在短期内受益。 如果要么偏离希望长期收益,另一方面可以通过他或她自己的收益的变化来检测它,并采取报复性行动。 当然,这种协议是否稳定,取决于球员是否可以使他们的报复威胁。
extort-2是“可汇编”ZD策略的示例。 如果播放器一个采用extort-2,那么他的支付v(1,2)将始终是2V(2,1)-1(其中V(2,1)是玩家二的收益)。 当然,玩家可以通过不断的叛逃来保证至少一个至少一个。 如果她这样做,球员将随着频率的增加而缺陷,并且其平均收益都将接近惩罚价值。 然而,由于链接他们的收益的线性关系,如果她比这更好,她一定会失去玩家。 实际上,对她自己得分的任何惩罚都会惩罚将只是她对手的一半。 对抗天真,效用最大化对手,德特-2比Set-2更有效。 没有必要的技巧。 每当天真的对手比她失去勒索者的惩罚收益超过惩罚的惩罚。 无论她如何增加自己的回报,都将是必要性的,将勒索者增加两倍。 她可以对extort-2做的最好的是,无条件地合作。 这将导致该对实现成果CC和DC的比例为三到一个,使她的平均收益为2.25,而勒索者网3.5。 她唯一的希望逃脱就是放弃效用 - 最大化并获得新闻和戴森呼唤“心理理论” 如果她意识到她的行为可能导致勒索者抛弃他的战略,她可能自己采取扣上绳策略。 这将在短期内降低他们的回报,但她可能希望长期提高结果。 根据媒体和戴森的说法,虽然敲诈勒索策略将始终击败天真效用 - 最大化器,但勒索者和更复杂的代理商之间的2IPD成为最终游戏。 勒索者提出了联合收益的不公平分工,使他的对手留下了接受它的不满意或使两个玩家更糟糕的选择。 (也许值得注意的是,这种分析省略了嵌入的派对意识到对她对手以及她自己的回报,并且意识到IPD正在两个代理商之间播放,寻求最大限度地减少她之间的差异对手的回报和她自己。采取这种态度可能会导致她达到无条件叛逃的战略。然后两名球员的收益将接近处罚价值,勒索者从下面和下面的税收。)
独裁和可汇总的策略都没有在具有更大种群的进化环境中速度良好。 根据定义,成功的策略在进化框架中变得更加普遍,因此更有可能面对别人。 因为独裁者和勒索民族者对自己不好,他们在进化环境中取得了任何成功将是自我限制的。 Hilbe等。 确认这些直觉。 他们表明,当一个非常小的一般记忆策略受到突变和进化的影响时,代理人花费近似ZD策略的时间相比,这些策略的数量比较高,特别是近似独裁者策略的相对时间更高,并且花费的相对时间近似股票策略仍然高得多。 然而,随着人口大小的增加,花费近似所有三类的时间比例迅速下降。 当人口超过十时,随着这些策略的示例,花费的时间几乎是零。 在大约相同的人口水平,幸存者的策略S(X,Y,Z,W)的平均分量X和Z(代表接受奖励和处罚后收益后的合作可能性)迅速上升,而平均成分Y和W慢慢下降,因此在较大方面填充策略的平均值看起来像S(1,.9,.1,.1)-an and的p1不完美版本。 (如可能预期的那样,随着策略的平均水平,平均收益增加并接近奖励价值。这表明在某些情况下,合作在大型团体中的熟悉观念比小组更难以倒退。)