囚犯的困境(三)
When the correlation between our behaviors is sufficiently strong or the differences in payoffs is sufficiently great, my expected payoff (as that term is usually understood) is higher if I cooperate than if I defect. 当然,柜台论证是我的行动是因我的副本而异的。 由于我不能影响我的同罪和自从他所做的事情,如果他所做的任何事情,如果我缺陷,我的回报就会更大,我应该缺陷。 这些论点非常类似于Newcomb问题的两个职位的论点,这是一个难题在诺齐克斯的哲学家中推广。 (相似程度在lewis中明显了。)Newcomb问题要求我们考虑两个盒子,一个透明和一个不透明。 在透明的盒子里,我们可以看到一千美元。 不透明的盒子可能包含一百万美元或任何东西。 我们有两种选择:取消透明盒的内容或取出两个盒子的内容。 我们知道在选择我们行为的可靠预测因子之前,如果他预测,我们将采取第一选择,如果他预测,我们会采取第二次。 要查看PD中的每个玩家面临新的问题,请考虑以下付款矩阵。
c d
c是,是0,是+ t
d是+ t,0 t,t
通过“合作”(选择不透明的盒子),每个玩家确保另一个获得一百万美元(和缺陷的额外额外)。 通过“缺陷”(选择两个盒子),每个玩家都可以确保他自己(如果是另一个合作,他将获得一千美元(和一百万)。 只要M>T>0,该游戏的结构是普通的双手,双相PD(并且任何这样的PD都可以以这种形式表示)。 此外,新Comb问题中的“单拳”和“双拳击”的论点与在囚犯的困境中合作和缺陷的论据相同,其中玩家的动作之间存在正相关。 两个拳击是一个主导战略:两个盒子比第一个是满的还是空的。 另一方面,如果预测器是可靠的,则单箱的预期收益大于双拳击的预期收益。 (请参阅Hurley(1991)和Bermúdez(2015年),因为这两个谜题显着不同。)
两个拳击是新媒体问题中的理性选择的直觉,或者这种叛逃是PD中具有正相关的PD中的理性选择,似乎与合理性需要最大化预期的想法相冲突。 这种明显的冲突导致一些人建议需要在代理人行动提供证据的情况下改进标准决策理论,而不会导致他行为的背景。 在PD的情况下,标准(证据)决策理论要求玩家一个比较他的预期合作公用事业和叛逃,这可以写作p(C2 | C1)×R + P(D2αC1)×S和P(C2 | D1)×T + P(D2 | D1)×P(例如,P(C2 | C1)是给予球员一个合作的两个合作的条件概率)。 如果玩家的动作是强烈相关的,则P(C2 | C1)和P(D2 | D1)将接近一个,P(C2 | D1)和P(D2 | C1)将接近零。 在建议的修订版上,这些条件概率应该被某种因果性有条件概率所取代,这可能(在一些账户上)被“概率,如果一个人合作,两者也会合作。” 当移动是因果关系时,这将是两个合作的概率。
NewComb问题中描述的相当远的场景最初导致了一些疑惑因子区分因果和证据决策理论之间的重要性。 刘易斯认为,PD的链接表明,两种决策不言而喻的情况并不是那么异常,而最近关于因果决策理论的着作包含许多比较差异的奇异的问题。 (例如,参见Joyce。)
近年来,博弈论博弈论的技术机制和有条件的各种逻辑,都是在复制品之间的囚犯在囚犯困境中的合作与叛逃的论据(以及在Newcomb问题中的一次拳击和双拳击)。 有一个例子,看看Bonanno和其他几个人的讨论。 这些陈述清楚了关于争论的理性性质的微妙假设。 尽管对讨论的复杂性提高了,但仍有人们致力于每次观察。
有可能注意到,这里在文献中通常被称为“复制品之间的PD”。 目前的命名的一个原因是将这些思想与真实(相同或兄弟)双胞胎的PD游戏的实验文献报告区分开来。 (参见,例如,SEGAL和Hershberger。
8. Stag Hunt和PD
在引言中提到的想法,PD模型在理性代理商之间的合作问题有时被批评,因为在真正的PD中,合作结果不是纳什均衡。 这种性质的任何“问题”,批评者的争论将是一个无法解决的。 (参见例如,ugden或binmore 2005,第4.5章)通过稍微改变PD的支付结构,因此奖励回报超出了诱惑的回报,我们获得了一场相互合作,相互叛逃的游戏是一种纳什均衡。 这个游戏被称为雄鹿狩猎。 它可能为合作困难的情况提供更好的模型,但仍然可能,并且对于有时分配给PD的其他角色也可能更适合。 更具体地说,雄鹿狩猎是两位玩家,两个移动游戏,其中包括在第1节中给出的PD的支付矩阵,其中包括PD1被替换为:
(sh)一个。 r>t
b。 r>p
c。 p>s
从卢梭关于不平等话语的话语中获集并提供其名称的寓言戏剧化并提供了名称,涉及狩猎探险而不是监狱侦查。 两个猎人正在寻求包扎雄鹿。 成功是不确定的,如果它来,需要努力。 另一方面,任何一个猎人都可以抓住他的伴侣,抓住一个野兔,有很好的成功机会。 典型的收益矩阵如下所示。
c d
c 4,4 0,3
d 3,0 3,3
在这里,“合作”举动与一个人的伴侣一起狩猎雄鹿,“叛逃”是自己狩猎野兔。 雄鹿狩猎中的“诱惑”的回报不再是一个诱惑,但我们保留了易于阐述的支付术语。 在这种情况下,诱惑和惩罚处罚是相同的,也许反映了我的合作伙伴选择猎物的选择对我在野兔狩猎中的成功没有影响。 或者,我们可能会超越惩罚,也许是因为狩猎野兔比单独享有奖励(虽然仍然不那么有价值,但当然比狩猎雄鹿在一起),或者我们可能有超过诱惑的惩罚,也许是因为第二个野兔猎人代表无益的竞争。 无论哪种方式,雄鹿狩猎的本质仍然存在。 有两个均衡,一个一致优选另一个。 当合理性决定两个球员选择导致较差均衡的行动时,雄鹿被狩猎成为“困境”。 很明显,如果我确定我的伴侣会追捕雄鹿,我应该加入他,如果我确定他会追捕野兔,我也应该追捕野兔。 出于这个结构的原因,这种结构的游戏有时被称为“保证”或“信任”的游戏 (但是这些不应与以下部分中讨论的异步PD的“信任游戏”版本混淆。)如果我不知道我的伴侣会做什么,标准决策理论告诉我最大限度地提高期望。 但是,这需要我估计我的伴侣扮演C或D的概率。如果我缺乏任何这种估计的信息,那么一个理性的一个推定原则(“漠不关心”)表明我应该将所有选项视为同样可能的选项。 通过这个标准,如果才能满足以下条件,我应该捕猎野兔:
(shd)t + p> r + s
当SHD获得时,据说野兔狩猎是“风险占主导地位”均衡。 让我们召唤一个雄鹿狩猎游戏,这种情况达到了Stag Hunt困境。 上面的矩阵提供了一个示例。
另一种合理性原则(“Maximin”)表明,我应该考虑在任何行动方案下可以获得最糟糕的回报,并选择最大化该价值的行动。 由于吸盘支付是雄鹿狩猎中最糟糕的回报,这一原则表明,任何雄鹿都会呈现困境。 然而,Maximin更有意义作为零和游戏的理性原则,可以假设一个理性的对手试图最大限度地减少我的分数,而不是雄鹿狩猎等游戏,在那里一个理性的对手可能很高兴看到我做得很好,只要看到我做得很好因为他也是如此。
Stag Hunt可以以明显的方式推广,以适应不对称和基本的回报。 通过游戏的图形表示形成的四边形是凸的,因此纯/不太区别不再适用。 (换句话说,在雄鹿狩猎中,没有混合策略,更加友好相互合作。)将游戏概括到许多玩家的最明显的方法将保留有两种平衡的条件,一个一致优选对方。 这可能是合作活动的好模式,其中成功需要充分合作。 例如,想象一下,单个污染者会破坏湖泊,或者一次泄漏会挫败调查。 如果涉及许多代理商,通过上诉或出于其他原因,我们估计每一个合作机会,那么这些例子将以极端形式代表Stag Hunt困境。 如果所有人合作,每个人都会受益,但只有一个非常信任的傻瓜会认为它是合作的合作。 也许对多人案件的一些更广泛的概括将代表其他熟悉的社会现象的结构,但这在这里不会追求这一问题。
STAG HUNT中的合作结果可以通过以下许多相同的手段来确保,因为这里讨论的PD。 可能是预期的,在两人Stag亨特中,合作比在两人PD中更容易。 这里不会在这里给出详细信息,但感兴趣的读者可以咨询斯基斯2004,这负责对这场比赛的兴趣复苏。
9.异步移动和信任游戏
它经常被认为,理性的自我兴趣玩家可以通过使他们的举措放在其他球员的动作上来获得合作结果。 例如,Peter Danielson有利于互惠合作策略:如果您在合作并且如果您没有,则其他玩家会合作,那么合作,但违反缺陷。 如上所述的游戏版本的条件策略被排除在游戏版本中,但在更准确地模拟真实世界情况的版本中可能是可能的。 在本节和接下来,我们考虑两个这样的版本。 在本节中,我们消除了两名球员同时移动的要求。 考虑一下唯一竞争对手刚刚降低价格的公司的情况。 或者假设汽车的买方刚刚支付商定的购买价格,卖方尚未移交标题。 我们可以将这些作为某个玩家在其他球员已经做出类似选择之后选择合作或缺陷的情况。 相应的游戏是异步或扩展的PD。
仔细讨论异步PD示例,作为Skyrms(1998)和Vanderschraeaf最近注意,发生在大卫休谟的作品中,洪水前洪水和脱德的普通PD的配方。 休谟写了两棵邻近的粮食农民:
你的玉米今天成熟; 我的明天将是如此。 “这对我们来说都有利可图,我今天和你一起劳动,你会帮助我去明天。 我对你没有善良,并知道你对我有点少。 因此,我不会占用您的帐户; 我应该与您劳动到自己的帐户,在期望回归,我知道我会失望,而且我徒步依靠你的感激之情。 然后我让你独自劳动:你以同样的方式对待我。 季节变化; 我们俩都失去了渴望相互信任和安全的收获。
在休闲休谟,斯基尔斯和vanderschraeaaf将这种异步PD称为“农民的困境” 在树图中将其图像是有意义的。
图5
图5
在这里,时间流向右侧。 由正方形标记的节点表示播放器一个人的选择点,那些由圆圈标记的那些表示玩家两个。 每个玩家的动作和回报都与普通的PD完全一样,但这里玩家可以根据一个玩家选择他的行动。 如图5所示的树图被认为是广泛的游戏表示,而先前给出的收益矩阵是正常形式的表示。 由于休谟的分析表明,使游戏异步不会消除困境。 玩家知道,如果他在第一举措中选择C,玩家两人会在第二次移动中选择D(因为她喜欢对奖励的诱惑),所以他自己最终会得到吸盘的回报。 如果玩家是选择D,球员两人仍然会选择D(因为她更喜欢对吸盘支付的惩罚),并且他最终会得到惩罚的回报。 由于他更喜欢将惩罚支付给吸盘支付,因此人员将在第一次举动中选择D,而且两名球员都将最终得到惩罚的收益。 这种“落后”推理,其中玩家首先评估最后一个移动中会发生什么,如果实现了各种游戏历史,并且使用它可以确定在前面的动作上发生什么,以广泛的形式广泛地应用,并且将讨论更多的普通版本下面有限迭代。
农民的困境可以通过理解球员在C和D和玩家2之间选择(同时)在四个条件的动作中选择:无条件(Cu),无条件(du)的缺陷,模仿玩家的移动(i),并与玩家的移动相反(o)。 结果是具有以下矩阵的两个玩家游戏。
cu du我o
c r,r s,t r,r s,t
d t,s p,p p,p t,s
读者可以注意到,该游戏是(多移动)均衡困境。 唯一(弱)纳什均衡导致球员选择D和玩家两者选择du,从而为自己实现P和P的劣等。然而,游戏不是优势PD。 实际上,任何一个玩家都没有主导的举措。 通常认为理性的自我兴趣玩家即使在任何球员都有主导地位的情况下也会达到纳什均衡。 如果是这样,农民的困境仍然是一个困境。
为了保留表征普通PD的玩家之间的对称性,我们可能希望修改异步游戏。 让我们遵守阶段的扩展PD。 首先,每个玩家选择第一移动(C或D)和第二移动(Cu,Du,I或O)。 接下来,裁判决定了谁首先移动,让每个玩家相同的机会。 最后,结果是以适当的方式计算的。 例如,假设行播放(d,o)(意味着如果他先移动,并且如果他移动第二个)和列播放(c,du),他将缺陷他的对手。 如果他第一次和T,如果他走了第二次,那么他就意味着他的预期收益是
1
2
(p + t)。 如果她第一次和P如果她走了第二个,则可以得到s,给她一个预期的收益
1
2
(p + s)。 它是简单的,但乏味,通过八个收益矩阵计算整个八个。 在这样做之后,读者可以观察到,与农民的困境一样,扩展PD的对称形式是平衡PD,但不是优势PD。 当两个玩家采用策略(D,DU)时,就会发生鞋底均衡,从而实现(P,P)的劣等。
在标签“投资者游戏”或“信任游戏”下已经研究了这一主题的一些特别简单且暗示的变化(参见,例如,Kreps(1990),Berg(1995)和Bicchieri和Suntuoso(2015)和注意事项游戏命名不是一致的accross这些引用。)播放器是给出了效用单元。 他可以选择将任何数字传递给“受托人”,他们重写这个号码并将其传递给玩家二。 播放器两者可以保留她有的单位或将其中一些人归还给球员。 如此制定,游戏具有以下优点,即人们可以获得她的效用的比例,即球员投降作为她的合作程度。 如果一个人限制动作,以便玩家可以给出没有或■,并且玩家两人可能给出没有2S或2S的困境。
在农民的困境和信托游戏中,与PD不同,两名球员的类似标签似乎有点不同的口味。 我们更有可能将球员人的合作视为慷慨或计算(即使我们认为所涉及的计算是非理性的),而且球员两人公平。 标签信任仅适用于玩家一个人的合作举措,虽然玩家两者的合作可能被认为是值得信任的人。
值得注意的是,与PD不同,STAG HUNT的异步版本呈现出少数感兴趣的问题。 如果第一个玩家在第一次狩猎时,那么第二名是在第一天的雄鹿,第二名应该在第二天做她的部分。 如果他在第一天狩猎野兔,她也应该在第二天同样做。 第一个球员,意识到这一点,应该在第一天捕猎雄鹿。 因此,理性的玩家毫无困难地达到异步雄鹿狩猎中的合作结果。
10.透明度
可以将条件移动引入PD的另一种方式是假设玩家具有David Gauthier具有标记透明度的属性。 完全透明的玩家是他人意图完全可见的玩家。 没有人认为我们的人类是完全透明的,但观察到我们通常可以成功预测别人所做的事情表明我们至少是“半透明” 此外,更大规模的代理商,如公司或国家,可能在行动前公开审议,可能比我们更加透明。 因此,对于具有透明球员的PDS调查可能存在一些理论兴趣。 这些玩家可以大概执行的条件策略比(非透明)扩展的游戏玩家,策略更复杂,例如,在其他人所采用的条件策略上有条件。 然而,在确定这些球员的策略确切地区究竟存在一些困难。 假设行采用策略“与列相同”和列采用策略“做行相反”。 无法满足这两种策略。 另一方面,如果每次采用战略“模仿其他玩家”,则有两种方式可以满足策略,并且没有办法确定他们将采用的两种方式。 Nigel Howard,谁可能是第一个系统地研究这种条件策略,通过坚持刚性类型的游戏阶层来避免这种困难。 在基础级别,我们拥有普通的PD游戏,其中每个玩家在C和D之间选择。对于层次结构中的任何游戏G,我们都可以生成两个新的游戏RG和CG。 在RG中,列具有与游戏中的相同的动作,并且行可以选择将C或D分配给每个列可能的移动的任何功能。 同样地,在CG中,行具有与G的相同移动,并且列具有一组新的条件移动。 例如,如果[PD]是基础级别游戏,则C [PD]是游戏,其中列可以从上面提到的策略CU,DU,I和O中选择。 霍华德观察到,在两个第三级游戏RC [PD]和CR [PD](以及在每个更高级别的游戏中),有一个均衡结果给出每个玩家R.特别地,当一个玩家扮演我和其他合作时,达到这种平衡当他的对手扮演Cu,Du或O时,对手扮演我和缺陷。请注意,最后一项策略尚不相传到Danielson在上一节中描述的互惠合作。
理性行动的所有这一切都不清楚。 假设PD中的两个玩家足够透明,以采用高级游戏的条件策略。 他们如何决定哪些级别游戏? 谁选择模仿举措,谁选择互惠合作? 为了在更高级别的游戏中移动,可能是形成另一个玩家可观察到的意图。 但为什么选择球员希望如果有忽视它有益处,就会预计有意进行?
当我们按照指示进行询问时,有条件的策略具有更加令人信服的申请,而不是扮演PD,而是作为设计代理商,他们将与各种可能的对手一起玩。 这是丹尼尔森的观点。 (另请参阅J.V.霍华德对此观点的早期启发讨论。)条件策略并不意图是玩家在游戏中移动的意图,而是定义一种播放器的确定性算法。 实际上,如果它们可以形成不可撤销的“动作协议”而不是始终遵循在行动时可能形成的意图,则PD的一个课程可能是透明剂更好。 Danielson并不将自己限制在Howard的层次结构中的策略。 代理只是一个计算机程序,它可以包含允许其他程序读取和执行它的行。 我们可以轻松地编写两个这样的程序,每个程序都旨在确定其对手是否扮演C或D并进行对面。 当这两个播放PD时会发生什么,这取决于实施的细节,但它们可能会是“不连贯的”,即,即,他们将进入无尽的环路,并无法制定任何移动。 成功的是一个程序应该能够在与各种其他程序配对时移动,包括本身的副本,它应该能够获得宝贵的结果。 以直接的方式实施I和O的计划不太可能成功,因为当彼此配对时,它们将不连贯。 实施du的计划不太可能成功,因为它们只能与克隆配对时只能得到p。 实施CU的人不太可能成功,因为当与识别和利用无条件合作性质的程序配对时,他们只能获得。 成功标准存在一些模糊性。 在霍华德的计划中,我们可以将条件策略与那个水平的所有可能的替代品进行比较。 在这里,可以将任何两个程序配对,该方法是无意义的。 尽管如此,当与各种各样的球员配对时,某些程序似乎很好。 一个是Gauthier主张被倡导的策略的版本作为约束的最大化。 这个想法是,如果另一个,如果j确实合作,则应合作玩家j,否则缺陷。 如上所述,这似乎是RC [PD]或CR [PD]游戏的策略。 目前尚不清楚如何在与本身配对时移动的程序移动(如果确实会移动)。