囚犯的困境(一)
Tanya和Cinque已被捕,用于抢劫Hibernia储蓄银行,并放在单独的隔离细胞中。 对他们的个人自由感到远离与他们的同罪福利相比更多。 一个聪明的检察官对每个的提议进行以下优惠:“您可以选择承认或保持沉默。 如果你承认和你的同谋仍然保持沉默,我将放弃对你的所有费用,并用你的证词来确保你的同谋确实是严重的时间。 同样,如果你的同罪在你保持沉默的时候承认,他们会在你做时间的时候免费。 如果你们两个承认我得到了两个定罪,但我会看到你们两个都得到早期假释。 如果你们俩都保持沉默,我将不得不在枪支占有费用上满足令牌判决。 如果你想承认,你必须在明天早上回来之前用狱卒留下一张票据。“
囚犯面临的“困境”是,无论对方做什么,每个人都比沉默的沉默更好。 但是,当两个承认对于他们所获得的结果都是更糟糕的结果,他们都会得到沉默。 普通视图是难题说明了个人和团体合理性之间的冲突。 一群成员追求理性自我利益的集团最终比一群成员违反理性自身利益的小组更加糟糕。 更一般地说,如果没有假设收益代表自我利益,那么一个成员理由追求任何目标的小组可能都会比他们单独合理地追求目标,这一切都能降低成功。 密切相关的观点是囚犯的困境游戏及其多人概括模型模型熟悉的情况,其中难以获得理性,自私的代理商为共同利益合作。 大部分当代文学都集中在识别球员或应该使对应于沉默的“合作”移动的条件。 一个略有不同的解释需要游戏代表自私行为和社会所需的利他主义之间的选择。 无论其他玩家如何,无论其他玩家对应的那样,对应于忏悔的举动会使演员效益。 当然,受益于自己并不总是错的,当然,利益以牺牲自己的牺牲品并不总是在道德上要求,但在囚犯的困境游戏中,两名球员都喜欢与自私动作的利他主义的结果。 这种观察导致了大卫·纳施尔等人以及囚犯的困境对道德本质来说些重要的困境。
这是另一个故事。 比尔有一个蓝色的帽子,更喜欢红色的帽子,而玫瑰有一个红色的帽子,更喜欢蓝色的帽子。 两者都更喜欢两个帽子,任何一个帽都根本没有帽子。 它们每个都可选择保持它们的帽子或将其放在另一个之间。 这个“交流游戏”具有与囚犯的故事相同的结构。 玫瑰是保持帽子还是给予账单,比尔更好地保持他,如果他给她,她会更好。 比尔是否保持帽子或送到玫瑰,罗斯更好地保持胜任,如果她给他,他会更好。 但如果他们交换帽子,两者都会好得多,而不是他们都保持他们拥有的话。 新故事表明,囚犯的困境也占据了经济体系中心的一个地方。 似乎任何旨在促进互利交流的市场都需要克服困境或避免它。
Merrill Flood and Melvin Driesher于1950年讨论了囚犯困境的结构的谜题,作为兰德公司进入博弈论的一部分(由于可能的核策略可能的可能性,兰德追求的兰德)。 标题“囚犯的困境”和作为收益的判决的版本是由于阿尔伯特·塔克,他们想要洪水和德莱赫的想法更易于斯坦福心理学家的观众。 最近,它已经提出(Peterson,P1),Tucker可能一直在讨论他着名的研究生约翰纳什的工作,并纳什1950(第291页)确实包含了囚犯困境的游戏,这是一个系列中的第二次。六个例子说明了他的技术思想。 虽然洪水和德莱赫(并纳什)他们自己急于在外部期刊文章中宣传他们的想法,但由于在各种学科中吸引了广泛和越来越长的关注以来。 Donninger报道称,“超过一千篇文章”在六十年代和七十年代发表。 谷歌学者在2018年搜索“囚犯的困境”返回49,600个结果。
下面的部分为囚犯的困境提供了各种更精确的特征,从最窄开始,并调查了与类似游戏的一些联系以及哲学和其他地方的一些应用。 特别注意的是游戏的迭代和进化版本。 在Fomer中,囚犯的困境游戏一再播放,打开玩家可以使用其当前举措奖励或惩罚以前移动的可能性,以便在未来诱导合作效应。 在后者中,人口的成员在囚犯的困境游戏中反复发挥彼此,并且那些比那些获得较低的收益的人更快地获得更高的收益“繁殖”。 '囚犯的困境'缩写为“PD”。
1.对称2×2 PD具有序数回报
2.不对称
3.基本收益和不纯的PD
4.多个移动和可选的PD
5.多名球员,公共的悲剧,投票和公共产品
6.单身人士解释
7.具有复制品和因果决策理论的PD
8. Stag Hunt和PD
9.异步移动和信任游戏
10.透明度
11.有限迭代
12.蜈蚣和有限IPD
13.无限迭代
14.无限期迭代
Axelrod和tat for tat
后艾克塞罗德
15.错误迭代
16.进化
进化和可选的PD
17.信令
18.空间PD
19. PD和社交网络
20.零决小策略
21.组选择和干草堆PD
参考书目
学术工具
其他互联网资源
相关条目
1.对称2×2 PD具有序数回报
在其最简单的形式中,PD是收益矩阵描述的游戏:
c d
c r,r s,t
d t,s p,p
满足以下不等式链:
(pd1)t>r>p>s
有两个玩家,行和列。 每个可能的移动,“协作”(c)或“缺陷”(d),对应,对应于上面的说明性轶事中留下沉默或忏悔的选择。 对于每个可能的一对移动,在适当的单元中列出了到行和列(以该顺序)的回报。 R是每个玩家在合作的情况下收到的“奖励”回报。 P是每个缺陷的“惩罚”,如果两种缺陷。 T是每个接收唯一缺陷的“诱惑”,S是“吸盘”的回报,每个回报都作为唯一的合作者获得。 我们在此假设游戏是对称的,即,每个玩家的奖励,惩罚,诱惑和吸盘收益是相同的,而且收益只有序条意义,即,它们表明一个收益是否比另一个收益更好,而是没有告诉我们多么好。 现在很容易看出,我们有一个像故事中那个这样的困境的结构。 假设列合作。 然后行得到r用于合作和t进行缺陷,因此更好地缺陷。 假设列缺陷。 然后行得到用于合作和P的缺陷,因此再次更好地缺陷。 逐行移动D严格统治移动C:无论列表所做的任何一列,按照对称D的选择D比C为C.严格占主导地位。 因此,两个“理性”玩家将缺陷并获得P的收益,而两个“非理性”球员可以合作并获得更高的支付R.在标准治疗中,博弈论呈现理性和常识。 每个玩家都是理性的,知道另一个是理性的,知道另一个知道他是理性的等等。每个玩家还知道其他值的结果。 但由于D严格地占据了两名球员的C,但这里困境的论点只需要每个玩家都知道自己的收益。 当然,在更强大的标准假设下,它还值得注意的是,这两个玩家缺陷的结果(D,D)是游戏的唯一严格的纳什均衡,即,这是每个玩家只能的唯一结果通过单方面改变举动来更糟糕。 洪水和Dresher对其困境的兴趣似乎已经源于他们的观点,即它为游戏的NASH均衡构成其自然的“解决方案”提供了一个强调。
如果在收益的排名中可能有“关系”,则可以削弱条件PD1而不会破坏困境的性质。 假设以下条件之一获得:
(PD2)t>r>p≥s,或
t≥r>p>s
然后,对于每个玩家,虽然D不严格支配C,但它仍然略微占据了每个玩家总是至少做的那种源于,并且有时更好地播放D.在这些条件下仍然是理性的,它仍然没有参与球员更喜欢的回报。 让我们称之为符合PD2弱PD的游戏。 注意,在不满足PD1的弱PD中,在上面定义的严格意义上不再是纳什均衡。 然而,它仍然是唯一的纳什均衡在较弱的意义上,这两者都不能通过单方面改变其移动来改善其位置。 再次,人们可能会想到,如果这个较弱的品种较少的纳什均衡,理性的自我兴趣球员将到达它。
2.不对称
不假设对称性,可以通过使用下标R和C来表示PD,以便为行和列的回报来表示。
c d
c rr,rc sr,tc
d tr,sc pr,电脑
如果我们假设在每个玩家之前订购后,即,当i = r,c时,那么,那么,那么,如前所述,d是两个玩家的严格主导的移动,但两者的结果(d,d)都是严格的主导每个举动的玩家对(C,C)的速度更差。 然而,困境的力量也可以在较弱的条件下感觉到。 考虑以下三对不等式:
(pd3)一个。 TR> RR和PR>SR
b。 TC>RC和PC>SC
c。 RR>PR和RC>PC
如果这些条件都获得了困境的论证,请按照困境。 叛逃严格占据每个球员的合作,(C,C)由每项(D,D)严格首选。 如果每个条件A-C条件中的两个标志中的一个被弱不等式符号(≥)所取代,则我们具有弱PD。 D弱占主导地位的C对于每个玩家(即,D在所有情况下都与C同样好,在某些情况下更好)和(C,C)弱得优于(D,D)(即,它至少适用于两个玩家,更好)。 由于没有条款都需要比较R的收益和C之间,因此我们不需要假设>具有任何“人际关系”的意义。
现在假设我们删除A或B(但不是两者)的第一个不等式。 符合所产生的条件的游戏可能被称为普通知识PD。 只要每个玩家都知道另一个是理性的,并且每个人都知道另一个对收益的订单,我们仍然觉得困境的力量。 假设一个持有人。 然后d是行的主导移动。 列,知道该行是合理的,知道该行将缺陷,因此,通过B的剩余不平等,将自己缺陷。 同样,如果B保持列将缺陷和行,则实现这一目标,将缺陷自己。 通过C,由此产生(D,D)对(C,C)再次更差。
3.基本收益和不纯的PD
如果游戏指定绝对(而不是相对)的收益,那么即使在两个人PD中,普遍合作也可能不是帕累托最佳结果。 对于在某些条件下,两个玩家通过采用与概率p协作的混合策略和概率(1-p)缺陷而做得更好。 此点在下面的图表中示出。
图1
图1
这里x和y轴表示行和列的实用程序。 在第二部分的矩阵中输入的四个结果由标记的点表示。 条件PD3A和PD3B(见上文)确保(C,D)和(D,C)(D,C)的谎言和(D,D)的东南部,并且PD3C反映在(C,C)的东北部(D,D)的谎言中。 首先假设(d,d)和(c,c)位于(c,d)和(d,c)之间的线的相对侧,如在左图中的图表中。 然后,四点形成凸四边形,混合策略的可行结果的收益由该四边形或内部的所有要点代表。 当然,玩家每次播放游戏时都只能获得四种可能的收益中的一个,但四边形中的点代表两名球员的收益的预期价值。 例如,如果行和列与概率p和q(以及概率p * = 1-p和q * = 1-q的缺陷),那么The的收益的预期值是p * qt + pqr + p * q * p + pq * s。 根据标准视图,一个合理的自我兴趣的玩家应该更喜欢较低的预期收益。 在左侧的图表中,普遍合作的收益(具有概率一)是所有混合策略的收益中的Pareto。 然而,在右侧的图表中,其中(d,d)和(c,c)躺在(c,d)和(d,c)之间的线条的谎言,故事更加复杂。 这里,可行结果的收益在于在东北三个不同的曲线段,两个线性和一个凹面上的数字内。 请注意,(C,C)现在处于由实线界定的区域内部,表明存在混合策略,这些策略提供比(C,C)更高的预期收益。 值得注意的是,我们正在谈论在这里的独立混合策略。 行和列使用私有随机设备,并没有通信。 如果他们能够将其混合策略相关联,以确保(C,D)具有概率P *的概率P和(D,C),该组可行解决方案将延伸到(并且包括)(C,D)和(D,C)之间的虚线延伸到)。 这里的那一点是,甚至限制了独立的策略,有一些满足PD3的游戏,其中两个玩家都可以比他们与普遍合作更好。 一个PD,其中普遍合作是Pareto最佳的,可能称为纯PD。 (这种现象在Kuhn和Moresi中鉴定,并应用于Kuhn 1996的道德哲学。)纯Pd的特征在于通过添加以下条件来表征PD3。
(p)(tr-rr)(tc-rc)≤(rr-sr)(rc-sc)
在对称的游戏中,P减少到更简单的条件
(的RCA)r≥
1
2
(t + s)
(以作者Rapoport,Chammah和Axelrod命名)。
4.多个移动和可选的PD
一般来说,人们可能会说PD是一个游戏,其中只有当每个玩家违反理性自我利益时才可获得的“合作”结果,这一致优于当每个玩家遵守理性自我利益时获得的“自私”结果。 我们可以将自私结果表征为每个玩家追求其主导(强大的)战略,或作为独特的弱(强)纳什均衡。 在两个移动游戏中,两种特征出现在同一件事 - 主导举动对是一个独特的平衡,独特的均衡是一个主导的移动对。 然而,随着下面的回报矩阵显示,两个概念在一个以上两个移动的游戏中发散。
c d n
c r,r s,t t,s
d t,s p,p r,s
n s,t s,r s,s
这里每个玩家可以选择“协作”,(c)“缺陷”(d),或“既不”(n),并且收益按之前订购。 叛逃不再占主导地位,因为当另一个选项选择n时,每个玩家都会更好地选择c.然而(d,d)仍然是独特的均衡。 让我们标记这样的游戏,其中自私结果是均衡PD的独特均衡,其中自私结果是一对主导地位移动优势PD。 如下所示,尝试通过允许条件策略来“解决”PD可以创建本身平衡PD的多移动游戏。
在标签“可选的PD”下,三移动结构略有不同的结构 参见,例如,Kitcher(2011),Kitcher(1993),Batali和Kitcher,Szabó和Hauert,Orbell和Dawes(1993),以及Orbell和Dawes(1991)。 前三个来源也采取可选的游戏,允许玩家发出愿意参与(即,玩C或D对抗)特定的对手。 在Batali和Kitcher中讨论了没有信令的简单三移动游戏。 S,R,P和T回报如前所序,但现在的收益矩阵另外包含“退出”值,o在p和r之间呈现。
c d n
c r,r s,t o,o
d t,s p,p o,o
n o,o o,o o,o
在这个版本的游戏中,叛逃不再是主导的移动,相互叛逃不再是均衡结果。 如果列合作,则行最佳缺陷; 如果列缺陷,则按播放n最佳 如果列播放n,则通过播放任何移动,行同样良好。 从相互D的结果,可以通过单方面切换到N.但是从相互N的结果中可以受益,两党可以通过单方面变化的移动受益。 因此,可选的PD是一种弱平衡PD,n播放缺陷的作用。 Orbell和Dawes(1991和1993)添加了退出后续o等于零的附加条件。 在一个可选的PD中,如果她希望她的对手合作,则理性球员将参与(即,播放C或D)。 因为,如果她的对手确实合作,她将通过没有参与,并完全没有参与,而她将保证至少r,而如果她的对手不合作,她将通过不参与和完全o获得最多P,并不是o of of of inflants。 当O为零时,此功能变得特别突出,因为只有当一个人的对手合作时,接合的收益是正的。
“既不”移动和“选择退出”的回报在可选PD的帐户中有点不同。 对于竞技器,他们经常代表“走独奏”的选择 例如,狒狒,而不是彻底或羞辱伴侣以换取伴侣,以换取其合作伙伴的彻底或沉思,可能会选择培养自己。 另一方面,它建议n表示“坐出”游戏的选择,也许是为了获得更合适的伴侣以后玩谁。 这种差异的重要性(如果有的话)将出现在游戏的迭代和进化版本中。 (参见下面的第11-17节。 这个想法在下面第19节中讨论的社交网络游戏中,可能更为不同,也许更直接建模。 对该想法的进一步讨论留给了该部分。
Orbell和Dawes特别关注的是对经验支持的假设的合作行为的解释,即个人通常基于对他人行为和倾向知识的对他人的行为的期望。 这个假设表明,合作者比叛逃者更可能希望其他人合作,因此,如果他是合理的,更有可能从事可选的PD。 Orbell和Dawes(1991)证明,如果合作伙伴比叛逃者更可能是缺陷家,以期望他的对手合作,那么(如果他的对手合作的几率足够高),那么合作者实际上可以预期比a更高的回报可选PD中的缺陷。 Orbell和Dawes(1993)目前的实验证据表明可选PD的参与者确实接受更高的平均支付,而不是缺乏N个移动的相应PD中的薪水。 它们提供聪明的统计论据,以支持以下假设:打算合作者(当必须与之交往时合作的人)在可选的PD中做得更好,而不是相应的PD; 打算缺陷通常在可选的PD中更差; 在某些条件下,这些收益和损失足以使打发的合作者比打算缺陷更好地更好地(如前论文的理论结果所预说); 最后,那些希望与他人合作的人(通过他们的参与证明)根据自己的合作倾向,而不是任何直接辨别对手的角色。 (见下面的透明度。)
5.多名球员,公共的悲剧,投票和公共产品
大多数人认为PD的人说明了道德的重要事项似乎相信游戏的基本结构反映在更大的群体,也许整个社会面孔的情况。 两位玩家到许多玩家游戏中最明显的概括将支付每个玩家的奖励(r)如果所有人都合作,那么惩罚(p)如果所有缺陷,如果有些合作和一些缺陷,则会支付合作者的浮雕支付缺陷诱惑(t)。 但我们不太可能面临这种结构的许多情况。
一个共同的看法是,多人PD结构被反映在Garrett Hardin被推广为“公共悲剧”中的内容 一群邻近农民的每个成员都喜欢让他的母牛在公共场地上放牧,而不是把它保持在他自己的土地上,但如果超过一些门槛数使用它,即将渲染不适合放牧。 更一般地说,有一些社会益处B,如果足够多的支付成本C,每个会员都可以实现。我们可能代表支付矩阵,如下所示:
超过n
选择c。n还是更少
选择c
c c + b c
d b 0
假定成本c是负数。 这里的“诱惑”是为了获得没有成本的好处,奖励是益处的成本,惩罚是既没有和吸盘支付是为了支付成本而不实现福利。 所以收益是有序的b>(b + c)>0>c。 如在两位玩家游戏中,它看起来对所有球员都强烈占主导地位,因此理性的玩家将选择D并达到0,同时更倾向于每个人都会选择C并获得C + B.