囚犯的困境(四)
然而,Danielson能够构建近似为约束的最大化,这与本身合作。 Danielson的程序(以及约束最大化的其他实施)不能完全与一切匹配。 尽管如此,它会对熟悉的策略迈进和得分。 它与Cu和本身合作,而且它缺乏杜。 如果它是连贯的配对,它似乎保证了一个低于P的收益。
第二个成功的计划模型Danielson的互惠合作。 同样,尚不清楚策略(如上所述)允许它与其自身配合(或制造任何移动),但Danielson能够构建一个近似的近似。 (近似)互惠合作以及(近似)限制为自身,du和约束最大化的最大化。 反对CU,它会更好,得到限制最大化只有R的地方得到了。
11.有限迭代
许多据称拥有PD的结构的情况,如军事竞争对手的防御互动或多级垄断公司的价格设置,由迭代版本的游戏版本更好地建模,其中玩家反复播放PD,保留每轮的访问所有之前轮的结果。 在这些迭代的PDS(因此,迫使IPDS)在一轮中缺陷的球员可以通过随后的回合中的叛逃“受到惩罚”,并且可以通过合作获得合作的人。 因此,合理自我兴趣球员的适当战略不再是明显的。 事实证明,对这个问题的理论答案强烈依赖于IPD的定义以及归因于理性球员的知识。
IPD可以通过像上面的农民困境的树图以广泛的形式表示。
图6
图6
在这里,我们有一个长度的IPD。 这两轮游戏中的每一个的末端都标有虚线垂直线。 对两个玩家中的每一个的回报(通过增加两轮的回报)在每条路径的末尾都列出了通过树的末尾。 表示与前一个的表示与每个分支上的两个节点相同,在同一划分内标记两个玩家的同时选择。 由于玩家既不在同一回合中知道另一轮的移动,则IPD没有资格作为游戏理论主义者的标准“完美信息游戏” 如果玩家连续移动而不是同时移动(我们可以通过删除虚线的垂直线),所得游戏是一个迭代的农民的困境,它符合游戏理论家的定义,它共享了使IPD有趣的许多功能。
与农民的困境一样,理论上,一个IPD可以通过采取球员的举措来以正常形式代表,成为战略,如果他们应该在一轮游戏树结束时应该达到任何节点。 战略的数量随着游戏的长度而迅速增加,因此在实践中不可能为所有简短的IPD写出正常形式。 每对策略都决定了游戏的“播放”,即通过广泛形式树的路径。
在这样的游戏中,纳什均衡的概念会失去其特权状态。 回想一对移动是纳什均衡,如果每个是对另一个的最佳回复。 让我们扩展了在异步PD讨论中使用的符号,并让Du是在IPD的每个节点上调用差异的策略。 很容易看到du和du形成纳什均衡。 但是,除了第十五个节点的其他球员,否则对杜,否则呼吁叛逃的策略将确定与du本身的相同播放(以及因此相同的收益)。 呼吁合作的组成部分永远不会发挥作用,因为其他球员在第十五次(或任何其他)行动中不合作。 同样,唯一在第二次合作之后呼吁合作的战略同样良好。 因此,这些策略和许多其他策略与DU形成了纳什均衡。 有意义的是,这些策略显然没有同样理性。 虽然它们沿着代表实际播放的路径在节点处产生相同的回报,但如果已达到其他节点,则不会产生相同的收益。 如果玩家有人在过去合作,那么他现在仍然可以为他提供合理的理由。 纳什均衡只需要两种策略在游戏实际开发时彼此最好地回复。 对于广泛形式的游戏的更强大的解决方案概念要求两种策略仍然是彼此最好的回复,无论达到游戏树上的哪个节点。 在Selten 1975中定义和辩护了诸如完美均衡的这种概念。通过说策略 - 对作为原始游戏的每个子轨道的纳什均衡来表示,其中Supgame是拍摄原始游戏节点的结果树作为根,修剪远离它的一切。
鉴于这种新的更强的解决方案概念,我们可以询问IPD的解决方案。 在固定的有限长度的IPDS之间的此问题上存在显着的理论差异,如上图所示的IPD,以及无限或无限的有限长度。 在第一个游戏中,人们可以通过称为后向归纳的参数证明du,du是唯一的Subgame完美均衡。 假设玩家知道游戏将持续正好n轮。 然后,无论已达到哪个节点,在圆形N-1时,玩家面临普通(“单次”)PD,它们会缺陷。 在圆形N-2时,球员知道,无论他们现在做什么,他们都会在下一轮缺陷。 因此,它们也是他们现在缺陷的理性。 通过多次重复这个论点,理性的玩家推断它们应该在树上的每个节点上缺损。 实际上,由于在每个节点缺陷都是对任何移动的最佳响应,因此可以没有其他子宫内完美的均衡。
在实践中,人们在长期固定的IPD中的行为(最终几轮之外)和不确定长度的长度之间的表现之间没有巨大的差异。 这表明在后向感应论证(以及博弈论中的其他地方)中使用的一些合理性和常识假设是不现实的。 有一个相当大的文献试图仔细制定论证,检查其假设,并了解如何放宽不切实际的假设可能会改变PD和其他固定长度游戏中的合理可接受的策略。 (对于小型样本,请参阅Bovens,Kreps和Wilson,Pettit和Sugden,Sobel 1993和Binmore 1997)。
球员人认为,除了持续的叛逃之外,两项可能追求的略有可能会追求“非理性”战略可以使她频繁地合作。 实际上,即使一个人的合理性肯定,一个人认为有些人认为两个人认为她有些人认为这种疑虑可能具有相同的效果。 因此,在固定长度IPD中继续缺陷的参数取决于复杂的迭代索赔的某些合理知识。 Rabinowicz和其他人指出的更不切实际的假设是,每个玩家都在继续相信,即使在以前的动作上的非理性播放证据后,另一个人也会在下一个移动中选择合理的。 例如,假设,在长一系列移动(C,C),......,(C,C),播放器中的节点处,尽管从未这样做过。
有些人使用了这些观察来争辩说,后向感应参数表明,关于合理性的标准假设(与其他合理的假设)是不一致的或彻底的挫败。 对于(具有合理的假设)一种方法来确保理性球员将怀疑一个人的合理性是表现不合理的。 例如,在固定长度IPD中,球员可以推断出来,如果她要遵循适当的“非理性”策略,球员两者将合理地反应,以便他们可以在几乎所有轮舍内实现相互合作。 所以我们的假设似乎意味着球员应该持续缺陷,如果她没有,她会做得更好。 (参见Skyrms 1990,PP。125-139和Bicchieri 1989年)
12.蜈蚣和有限IPD
固定长度IPD提出的许多问题甚至可以通过略微更简单的游戏以缺点形式提出。 考虑一个惩罚支付的PD为零。 现在迭代此游戏的异步版本固定数量。 想象一下,两名球员都受到了高度“惩罚性的”策略,他们必须始终违反曾经叛逃的球员缺陷。 (以下在标签上讨论了这种重要策略。)结果是蜈蚣游戏。 Sobel 2005给出了特别漂亮的实现。一堆n一美元钞票谎言。 球员轮流从堆栈中拿钱,每圈一两张票据。 当堆栈运行或其中一个玩家需要两个账单时 两名球员都保留了他们所采取的那一点。 下面是针对n = 4的广泛形式的游戏。
图7
图7
据推测,真正的蜈蚣将包含100个“腿”,这里讨论的一般形式应该真正称为“n-tipede” 游戏似乎首先在Rosenthal讨论。
与固定长度的PD一样,落后的感应论证很容易建立一个理性的球员应该在他的第一次举动中服用两笔账单,让她获得两三美元的支付,这取决于她是否第一次或第二,并留下未分配的N美元的剩余时间。 在更备言言言之上,游戏的唯一纳什均衡是第一个玩家在第一次移动中占用两美元的纳什均衡,并且唯一的贱民完美的均衡是两个玩家在任何转弯时占据两美元的那个。 同样,常识和实验证据表明,真正的玩家很少以这种方式行事,这导致了关于这种论点的究竟假设所需的假设以及它们是否正在逼真的问题。 (除了有限迭代的PDS部分中提到的样本外,参见,例如,Aumann 1998,Selten 1978和Rabinowicz。)蜈蚣还提出了一些关于合作和社会所需的利他主义的一些相同的问题PD和它是一个最喜欢的游戏竞争中的最受欢迎的工具。
13.无限迭代
一种方法来避免在没有深入了解知识条件和理性的情况下,避免了向后感应论点的可疑结论是考虑无限重复的PD。 当然,没有人类代理商实际上可以发挥无限重复的游戏,但无限的IPD被认为是一种适当的方式来模拟一系列互动,其中参与者从未有理由认为当前的互动是他们的最后一次。 在此设置中,一对策略决定了游戏树的无限路径。 如果单次游戏的回报是积极的,他们沿着任何这种道路的总数是无限的。 这使得比较策略令人尴尬。 在许多情况下,随着轮次的增加,每轮的平均收益接近限制,因此限制可以方便地作为回报。 (参见Binmore 1992,Page 365进行了进一步的理由。)例如,如果我们将自己限制在可以由机械设备实现的那些策略(具有有限的回忆和计算速度),那么在有限数之后,每个玩家将始终是每个玩家的收益序列圆形,通过特定的有限的回报反复循环。 每轮平均收益的限制将是周期的平均收益。 近年来,新闻和戴森表明,对于许多目的,对无限IPD的调查可以被限制在“记忆 - 一个”策略中,其中在任何一轮中合作的可能性只取决于前一届会议之间的战略之间发生的事情。 每轮平均收益再次在限制中始终定义。 新闻和Dyson的想法在无限IPD上启发了很多新的工作。 (见下面的零决定策略。)由于没有最后一轮,显然向后感应不适用于无限IPD。
14.无限期迭代
最具同性恋的调查,IPD既不是无限的,也不是固定的有限长度,而是不确定的长度。 这是通过在游戏规范中包括概率p(未来的“阴影”)来实现的,使得在游戏中的每一轮将继续概率p。 或者,在每轮之后将“折扣因子”P应用于收益,以便附近的回报比远处的高度高。 数学上,P是否被视为继续或收益折扣的可能性几乎没有差异。 在IPD的给定阶段合作的合作价值明确取决于在以后在后面遇到一个人的对手的几率。 (这已据说解释为什么一个村庄的礼貌水平高于大都市,为什么客户倾向于在当地餐馆的更好提示比远处的地方。 由于P接近一个IPD成为无限IPD,并且叛逃的值减少了。 坚持认为,游戏的财产是上面标有RCA的财产,所以(在对称游戏中)玩家通过在每一轮上合作来做得更好,而不是“轮流” - 你在我缺陷的时候合作,然后我在缺陷时合作。
有一个观察结果,显然是在Kavka 1983中发起的,并且在Carroll中给出了更多的数学形式,后向归纳参数适用于游戏长度的上限是常识。 因为如果B是如此的上限,那么,如果玩家要到达B阶段,他们会知道这是最后一轮,他们会缺陷; 如果他们要到达B-1阶段,他们会知道他们在这个轮子上的行为不能影响下一个缺陷的决定,因此他们会缺陷; 等等。 计算现实生活中的交互数量的上限似乎是一种很容易的事情。 例如,由于店主琼斯不能达到一秒钟,因为他居住不到一千年,因此他和客户史密斯可以计算(保守地),他们不能进行超过1012项的交易。 将此论点更接近地审查这一论点是有说令人尖锐的,以便在无限期的IPD和其他无限期重复的比赛中戏剧化标准治疗所作的假设。 首先,首先,在如上所述的无限IPD中,游戏的长度可以没有上限。 相反,一些固定概率p,在游戏仍在播放的任何时间,它将继续使用概率p播放。 因此,如果史密斯和琼斯的互动被建模为无限期的IPD,他们在一千年中互动的概率不会为零,而是超过PK的数量,其中P是他们再次交互的概率,K是a中的秒数千年。 更现实的来模拟交互的方法可能是允许P的值减少随着游戏的进展。 然而,只要P始终仍然大于零,它仍然是可以在可能的交互的数量上没有上限,即,未来交互的可能性没有时间变为零。 另一方面,假设有一个数字,使得游戏的零概率持续到阶段n。 让P1,......,Pn,成为游戏在第1阶段之后继续的概率......,阶段n。 然后必须有一个最小的我,使得PI变为0. IPD根本。 在店主和他的客户的情况下,我们认为今天都知道他们的最后一次互动,让我们在午后于2020年中午开始。我们开始的非常合理的想法,即我们开始的一些上限互动是常识,即使最小的上限不是,与我们知道所有延期概率PI的假设是不兼容的。
作为Becker和CUDD的观察,我们不需要一个可能的迭代次数的上限,以使反向感应参数成为可能。 如果玩家从一开始就知道PI的所有值,那么,只要PI的值变成并保持足够的小,他们(和我们)可以计算一个阶段K,其中未来惩罚的风险和未来奖励的可能性不再超过立即叛逃的效益。 所以他们知道他们的对手将在舞台阶段缺陷,归纳开始。 然而,这种修改Kavka / carroll论点只是进一步暴露了其假设的难以言之。 史密斯和琼斯预计将相信他们将在一千年中互动存在非零性概率,每个人都希望能够计算未来互动的确切日期,这是不太可能在那一天的预期返回的情况下仍然存在。回报。 此外,每个人都希望相信另一个已经制定了这一计算,另一个人希望他已经成功了,等等。
Axelrod和tat for tat
从游戏设计的时间讨论了PD的迭代版本,但在八十年代初期的罗伯特阿克莱罗的有影响力出版后的兴趣加速了。 Axelrod邀请专业游戏理论家提交播放IPD的计算机程序。 所有这些计划都进入了一项比赛,其中每一个锦标赛(以及如何自身的克隆以及随机合作和叛逃的战略)数百次。 很容易看出,在像这样的游戏中,没有策略是“最好的”,因为它的得分在任何竞争对手之间都是最高的。 如果其他策略从未考虑过以前的互动历史,则在选择下一步移动时,最好是无条件地缺陷。 如果其他策略全部通过合作开始,然后通过在所有后续轮列中缺陷,“惩罚”对自己的任何叛逃,然后无条件合作的政策更好。 然而,如在透明的游戏中,一些策略具有似乎让他们在各种环境中做得好的功能。 在AXELROD初始锦标赛中得分最高的策略,用于TAT(自愿TFT),简单地在第一轮合作,并在此后模仿其对手之前的举动。 或许比TFT的初始胜利更为重要,这是它赢得了Axelrod的第二届锦标赛,他的六十三名参赛者都获得了第一个比赛的结果。 在分析他的第二届锦标赛时,Axelrod指出,每个参赛者都可以分配五个“代表性”策略中的一个,以便通过反对其代表的成功准确预测战略对他人的成功来准确预测。 作为TFT实力的进一步证明,他计算了各种策略在锦标赛中收到的分数,其中一个代表策略是原始锦标赛中的常见常见的五倍。 除了这些假设锦标赛之一之外,TFT获得了最高分。
Axelrod将TFT的成功归因于四个属性。 这很好,这意味着它永远不是第一个缺陷。 Axelrod锦标赛中的八个好的参赛作品是八个最高的排名策略。 它是报复性的,这使得它很难被不好的规则利用。 它宽恕,即使与那些违反它的人愿意合作(如果他们的叛逃不在紧接在一起)。 一个无情的规则无法在对手叛逃一次后无法获得奖励回报。 很清楚,可能是让其他策略更容易预测其行为,以促进互利互动。
暗示Ackelrod的讨论是值得注意的,即思想没有准确地制定,以允许严格的TFT的上至高无上的展示。 例如,一个不知道可能具有概述的四个属性的策略的程度,或者让它们可能暗示了成功标准。 确实如此,如果一个人的对手正在播放TFT(并且未来的阴影足够大),那么一个人的最大收益是通过导致每轮相互合作的策略获得的最大收益。 由于TFT本身是这样的一种这样的策略,这意味着TFT在所有策略的空间中形成纳什均衡。 但这并不是特别区分TFT,对于DU,DU也是纳什均衡。 实际上,迭代博弈论的“民间定理”(现在广泛发布 - 参见,例如,Binmore 1992,PP.373-377)意味着,对于任何P,0≤p≤1存在纳什平衡相互合作发生的次数。 事实上,在某些方面,在某些方面,比许多其他均衡策略更糟糕,因为民间定理可以锐化到类似的结果,关于析轨完美均衡。 一般来说,TFT不是SUPGEAME完美。 因为,在一个圆形中,是一个TFT玩家(每个不可能的人),第二个将缺勤,第二个将作为无条件合作者做得更好。
后艾克塞罗德
在公布Axelrod,1984年之后,鉴定了许多常见的策略来改善TFT。 (由于IPD锦标赛中的成功取决于存在的其他舞会,因此究竟究竟是什么索赔手段或如何证明它。)第一个是ordak和Sigmond的Pavlov,也被称为赢得止回(WSL),哪些条件每个非初始举动其先前的举动以及其对手。 更具体地说,如果它及其对手先前移动的反对者,它会合作,如果他们以前移动不同,则它缺陷。 等效,它在成功(诱惑或奖励)之后重复其移动,并在失败后改变它(惩罚或吸盘)。 因此名字。 当许多无条件缺陷或随机玩家存在时,这种策略在类似Ackelrod跳出的环境中确实很好。 在下面的误差和演化部分中的标签P1进一步讨论。 第二个家庭是TAT的渐进山雀(Hellentforth GRDTFT)。 GRDTFT在两个方面不同于TFT。 首先,它逐渐增加了对手对每种叛逃的惩罚叛逃响应的串。 其次,它通过在随后的两轮中合作来为每种叛逃道歉。 第一个属性可确保(与TFT不同),它将随着随机播放器的增加而缺陷。 第二种确保(与TFT不同)它将迅速建立与可疑版本的TFT(即,TFT版本的TFT版本在其第一次移动时)的相互合作制度。 Beaufils等人表明,每当作者在考试后选择的“良好”IPD策略(包括TFT)填充的胜利胜利的逃生胜利的Grdtft的版本以前的锦标赛。 Tzafestas(1998)认为,在每次举动方面取决于游戏的整个先前历史,GRDTFT都包含了不良的内存要求。 她建议使用“适应性”策略获得平等的成功,该战略可以追踪对手对近期移动狭窄窗口的对手的合作或响应能力,并根据这项措施(“世界”)超过一些门槛选择其移动。 批评似乎被误导:维持现有叛逃的计数似乎没有比更新世界变量更加繁重。