游戏理论(四)

非心理博弈论学家往往对大部分改进计划持悲观态度。显而易见的原因是,它依赖于直觉,即人们应该认为哪些类型的推论是合理的。与大多数科学家一样,非心理学博弈论学家对哲学假设作为经验和数学建模指南的力量和基础表示怀疑。

相比之下,行为博弈论可以被理解为博弈论的改进,尽管不一定是其解决方案概念的改进,只是在不同的意义上。它限制了该理论的基本公理适用于一类特殊的主体,个体,心理上典型的人类。它通过参考推论和偏好来激发这种限制,人们确实认为这些推论和偏好是自然的,无论这些是否看起来合理,但他们常常不这样做。非心理博弈论和行为博弈论的共同点是,两者都无意成为规范——尽管两者都经常被用来描述玩家群体中普遍存在的规范,并解释为什么规范可能会在玩家群体中持续存在,即使它们对于哲学直觉来说似乎并不完全理性。两者都认为应用博弈论的作用是在给定战略部署的某种分布以及对他人战略部署的期望分布的情况下预测经验博弈的结果,这些分布是由参与者环境的动态(包括制度压力和结构)决定的和进化选择。因此,让我们将非心理和行为博弈论学家归为一类,只是为了与规范博弈论学家(作为描述性博弈论学家)进行对比。

描述性博弈论学家常常倾向于怀疑寻求理性一般理论的目标作为一个项目是否有意义。制度和进化过程构建了许多环境,在一种环境中被视为理性的程序在另一种环境中可能并不受到青睐。另一方面,一个至少随机地(即,可能是吵闹的,但统计上往往不满足)满足经济合理性的最低限制的实体,除非偶然,否则不能被准确地描述为旨在最大化效用函数。对于这样的实体,博弈论首先没有任何应用。

这并不意味着非心理博弈论学家放弃所有根据 NE 出现的相对概率将 NE 集限制为子集的原则方法。特别是,非心理学博弈论学家倾向于赞同将重点从理性转向对博弈信息动态的考虑的方法。我们也许不应该感到惊讶,仅仅 NE 分析常常无法告诉我们关于战略形式博弈的许多应用性、经验性兴趣(例如,上面的图 6),其中信息结构受到抑制。在广泛形式博弈的背景下,均衡选择问题通常能得到更有效的解决。

2.6 子博弈完善

为了加深我们对扩展形式游戏的理解,我们需要一个比 PD 提供的结构更有趣的示例。

考虑这棵树描述的游戏:

图9

图9

本游戏无意迎合任何先入为主的情况;它只是一个寻求应用的数学对象。 (这里的L和R分别表示“左”和“右”。)

现在考虑这个游戏的策略形式:

二、

LL LR RL RR

LL 3,3 3,3 0,5 0,5

LR 3,3 3,3 0,5 0,5

RL −1,0 4,5 −1,0 4,5

RR −1,0 5,−1 −1,0 5,−1

图10

如果您对此感到困惑,请记住,策略必须告诉玩家在玩家采取行动的每个信息集中该做什么。由于每个玩家在此处的两个信息集的每一个上都在两个行动之间进行选择,因此每个玩家总共有四种策略。每个策略名称中的第一个字母告诉每个玩家在达到第一个信息集时该怎么做,第二个字母告诉每个玩家在达到第二个信息集时该怎么做。即,玩家 II 的 LR 告诉 II 如果达到信息集 5,则玩 L;如果达到信息集 6,则玩 R。

如果您检查图 10 中的矩阵,您会发现 (LL, RL) 位于 NE 之中。这有点令人费解,因为如果玩家 I 在扩展形式游戏中达到她的第二个信息集 (7),她几乎不想在那里玩 L;她通过在节点 7 玩 R 获得更高的回报。仅仅 NE 分析不会注意到这一点,因为 NE 对游戏路径之外发生的事情不敏感。玩家 I 在节点 4 处选择 L,确保不会到达节点 7;这就是说它“脱离了比赛路径”的意思。然而,在分析广泛形式的游戏时,我们应该关心游戏路径之外发生的事情,因为考虑到这一点对于路径上发生的事情至关重要。例如,事实上,如果到达节点 7,玩家 I 会玩 R,这会导致玩家 II 在到达节点 6 时玩 L,这就是为什么玩家 I 不会在节点 4 处选择 R。我们抛出如果我们像纯粹的 NE 分析那样忽略偏离路径的结果,就会丢失与博弈解决方案相关的信息。请注意,怀疑 NE 本身是否是一个完全令人满意的均衡概念的原因与关于理性的直觉无关,正如第 2.5 节中讨论的细化概念的情况一样。

现在将 Zermelo 的算法应用到我们当前示例的扩展形式中。再次开始最后一个子游戏,从节点 7 开始。这是玩家 I 的举动,她会选择 R,因为她更喜欢 5 的收益,而不是通过玩 L 获得的 4 的收益。因此,我们分配收益(5,−1) 到节点 7。因此,在节点 6 II 面临着 (−1,0) 和 (5,−1) 之间的选择。他选择 L。在节点 5,II 选择 R。因此,在节点 4,I 在 (0, 5) 和 (−1,0) 之间进行选择,因此扮演 L。请注意,如在 PD 中一样,结果出现在终端节点——节点 7 的 (4, 5)——帕累托优于 NE。然而,游戏的动态又阻止了它的实现。

事实上,Zermelo 的算法选择策略向量(LR、RL)作为游戏的唯一解决方案,这表明它产生的不仅仅是 NE。事实上,它正在生成博弈的子博弈完美均衡(SPE)。它给出的结果不仅在整个游戏中而且在每个子游戏中都产生 NE。这是一个有说服力的解决方案概念,因为与第 2.5 节的改进不同,它并不要求主体具有“额外”的理性,即期望他们拥有并使用关于“什么有意义”的哲学直觉。然而,它确实假设玩家不仅知道与他们的情况相关的所有战略信息,而且还使用所有这些信息。在关于经济学基础的争论中,这通常被称为理性的一个方面,如“理性预期”一词。但是,如前所述,最好小心不要将理性的一般规范概念与计算能力和拥有时间和精力预算相混淆,以充分利用它。

玩子博弈完美策略的智能体只需在她到达的每个节点处选择一条路径,该路径可以为她带来来自该节点的子博弈中的最高收益。 SPE 预测游戏结果是为了以防万一,在解决游戏时,玩家预见到他们都会这样做。

分析 SPE 的扩展博弈的一个主要价值在于,这可以帮助我们找到社会优化的结构性障碍。在我们当前的示例中,与 SPE 结果相比,在从节点 7 发出的左侧节点处,玩家 I 的情况会更好,而玩家 II 的情况也不会更差。但玩家一的经济理性和玩家二对此的认识阻碍了社会有效的结果。如果我们的参与者希望在这里带来更有社会效率的结果(4、5),他们必须通过重新设计他们的机构来改变博弈的结构。改变制度和信息结构以便在主体(即个人、公司、政府等)实际参与的博弈中更有可能产生有效结果的事业被称为机制设计,并且是机制设计的主导领域之一。博弈论的应用。 Hurwicz 和 Reiter (2006) 对主要技术进行了综述,其第一作者因其在该领域的开创性工作而获得了诺贝尔奖。

2.7 关于收益的解释:博弈中的道德与效率

许多读者,尤其是哲学家,可能想知道为什么在上一节中举的例子中,机制设计应该是必要的,除非玩家是病态的自私的反社会者。当然,玩家可能会看到结果 (4, 5) 在社会和道德上是优越的;由于整个问题也理所当然地认为他们也可以看到导致这种有效结果的行动路径,那么谁是博弈论学家来宣布,除非改变他们的游戏,否则这是无法实现的?这一反对意见应用了伊曼努尔·康德所主张的独特的理性理念,表明了许多哲学家比描述性博弈论学家更多地理解“理性”的主要方式。 Binmore(1994,1998)以极大的活力和争论力探讨了这个主题。

这种关于理性的重大哲学争论有时会因对非心理博弈论中“效用”含义的误解而混淆。为了根除这个错误,请再次考虑囚徒困境。我们已经看到,在PD的独特NE中,两个玩家获得的效用都比通过相互合作获得的效用要少。即使你不是康德主义者(正如许多评论家所认为的那样),这可能会让你感到反常。当然,你可能会认为,这只是玩家自私和偏执的结果。首先,他们不顾社会利益,然后又因为太不值得信任、不遵守协议而搬起石头砸自己的脚。

这种思维方式在大众讨论中很常见,而且很混乱。为了消除它的影响,让我们首先介绍一些谈论结果的术语。福利经济学家通常用帕累托效率来衡量社会福利。效用 β 的分布被称为帕累托优于另一种分布 δ,以防万一从状态 δ 可能将效用重新分配到 β,使得至少一个玩家在 β 中的境况比在 δ 中更好,并且没有玩家的境况更差未能从帕累托下分布转变为帕累托上分布是低效的,因为 β 作为一种可能性的存在,至少在原则上,表明在 δ 中,一些效用被浪费了。现在,在我们的 PD 模型中代表相互合作的结果 (3,3) 显然帕累托优于相互背叛;在 (3,3) 处,两名玩家都比在 (2,2) 处更好。因此,PD 确实会导致低效率的结果。我们在 2.6 节中的例子也是如此。

然而,低效率不应与不道德联系在一起。玩家的效用函数应该代表玩家关心的一切,可能是任何东西。正如我们所描述的囚犯的情况,他们确实只关心自己的相对刑期,但这没有什么本质的。严格来说,游戏之所以成为 PD 的一个例子,是因为它的收益结构。因此,我们这里可能有两种类型的特蕾莎修女,她们都不太关心自己,只想养活饥饿的孩子。但是假设原来的特蕾莎修女希望养活加尔各答的孩子们,而胡安妮塔修女希望养活波哥大的孩子们。假设如果两位圣人提名同一个城市,国际援助机构将最大化其捐款;如果他们提名彼此的城市,国际援助机构将提供第二高的金额;如果他们各自提名自己的城市,国际援助机构将提供最低的金额。我们的圣徒们都在警察局里,尽管他们并不自私或不关心社会公益。

回到我们的囚犯身上,假设与我们的假设相反,他们确实重视彼此的福祉以及自己的福祉。在这种情况下,这必须反映在它们的效用函数中,从而反映在它们的收益中。如果他们的报酬结构发生了变化,例如,他们会对导致效率低下感到非常难过,以至于宁愿在监狱里多呆几年也不愿忍受耻辱,那么他们将不再担任警察。但这一切表明,并非所有可能的情况都是PD;它并没有表明自私是博弈论的假设之一。使囚犯陷入低效结果的是囚犯处境的逻辑,而不是他们的心理,如果这确实是他们的处境,那么他们就会陷入其中(除非下面讨论进一步的复杂情况)。希望避免低效率结果的代理人最好防止某些博弈的发生;康德理性可能性的捍卫者实际上是在建议他们试图通过将自己变成不同的代理人来摆脱这种游戏。

一般来说,游戏部分地由分配给玩家的收益来定义。在任何应用中,此类分配都应基于可靠的经验证据。如果提出的解决方案涉及默认改变这些收益,那么这个“解决方案”实际上是一种改变主题并逃避最佳建模实践影响的变相方式。

2.8 颤抖的手和量子响应平衡

我们上面的最后一点为一个哲学难题开辟了道路,这是那些仍然关注博弈论逻辑基础的人所关注的几个难题之一。它可以针对任意数量的例子提出,但我们将从 C. Bicchieri (1993) 借用一个优雅的例子。考虑以下游戏:

图11

图11

这里的 NE 结果位于从节点 8 下降的单个最左边的节点。要看到这一点,请再次向后归纳。在节点 10,我会玩 L,得到 3 的收益,给 II 带来 1 的收益。II 在节点 9 玩 L,得到比这更好的收益,给 I 0 的收益。通过玩 L,我可以比这做得更好在节点8;这就是我所做的,游戏在我没有移动的情况下就结束了。然后,Bicchieri(以及其他作者,包括 Binmore(1987)以及 Pettit 和 Sugden(1989))通过以下推理提出了一个难题。玩家 I 在节点 8 玩 L,因为她知道玩家 II 是经济理性的,因此会在节点 9 玩 L,因为玩家 II 知道玩家 I 是经济理性的,因此会在节点 10 玩 L。但现在我们有以下悖论:玩家 I 必须假设玩家 II 在节点 9 处会预测玩家 I 在节点 10 处的经济理性游戏,尽管已经到达只有玩家 I 在经济上不理性时才能到达的节点 (9)!如果玩家 I 在经济上不理性,那么玩家 II 就没有理由预测玩家 I 不会在节点 10 玩 R,在这种情况下,不清楚玩家 II 不应该在节点 9 玩 R;如果玩家 II 在 9 处玩 R,则玩家 I 可以保证比在节点 8 玩 L 时获得更好的收益。两个玩家都使用后向归纳法来解决游戏;向后归纳法要求玩家 I 知道玩家 II 知道玩家 I 是经济理性的;但玩家 II 只能通过以玩家 I 未能按照经济理性行事为前提的逆向归纳论证来解决博弈。这就是逆向归纳法的悖论。

文献中解决这一悖论的标准方法是引用 Selten (1975) 提出的所谓“颤抖的手”。这里的想法是,一个决定及其随后的行为可能会以某种非零概率“崩溃”,无论概率有多小。也就是说,玩家可能打算采取行动,但随后在执行过程中出现失误,导致游戏走向其他路径。如果玩家犯错误的可能性很小——她的“手可能会颤抖”——那么玩家使用向后归纳论证就不会引入矛盾,因为向后归纳论证需要假设另一个玩家已经采取了一条路径,该路径是经济上理性的玩家无法选择。在我们的示例中,玩家 II 可以根据玩家 I 在节点 8 选择 L 但随后滑倒的假设来推理在节点 9 做什么。

Gintis (2009a) 指出,明显的悖论不仅仅源于我们假设两个参与者在经济上都是理性的。它关键取决于另一个前提,即每个参与者都必须知道另一个参与者在经济上是理性的,并在知道的基础上进行推理。这是每个参与者对均衡路径之外会发生什么的猜测不一致的前提。如果玩家相信她的对手在经济上是理性的,但他的手可能会颤抖,或者她对他在经济上不理性的可能性附加了一些非零概率,或者她对她的猜想附加了一些怀疑,那么她就有理由考虑失衡的可能性关于他的效用函数。正如 Gintis 还强调的那样,通过 Zermelo 算法解决 SEP 的扩展形式博弈的问题概括为:玩家甚至没有理由玩纳什均衡策略,除非她期望其他玩家也玩纳什均衡策略。我们将在下面的第 7 节中回到这个问题。

后向归纳的悖论,就像均衡细化提出的难题一样,主要是那些认为博弈论有助于规范理性理论(具体来说,有助于更大的理论——战略理性理论)的人的问题。非心理学博弈论学家可以对明显的“非理性”游戏及其所鼓励的谨慎给出不同的解释。这涉及到诉诸经验事实,即包括人在内的实际主体必须学习他们所玩游戏的均衡策略,至少在游戏非常复杂的情况下是如此。研究表明,即使像囚徒困境这样简单的游戏也需要人们学习(Ledyard 1995, Sally 1995, Camerer 2003, p. 265)。人们必须学习均衡策略的意思是,我们必须比之前在应用显示偏好理论的行为中构建效用函数时更加复杂一些。我们不能在单个事件的基础上构建效用函数,而必须在行为稳定后观察到的行为运行的基础上构建效用函数,这意味着相关主题和相关游戏的学习成熟度。囚徒困境再次成为一个很好的例子。人们在日常生活中很少遇到一次性的囚徒困境,但他们会遇到很多与非陌生人重复的囚徒困境。因此,当在实验实验室中设置一次性 PD 时,人们一开始倾向于将游戏视为重复 PD 的单轮游戏。重复的 PD 有许多涉及合作而不是背叛的纳什均衡。因此,在这些情况下,实验对象一开始往往会合作,但经过几轮之后就会学会背叛。实验者在看到这种行为稳定之前,无法推断出她已经通过实验设置成功诱导了一次性 PD。

如果游戏的玩家意识到其他玩家可能需要从经验中学习博弈结构和均衡,那么他们就有理由考虑扩展形式博弈的均衡路径之外会发生什么。当然,如果玩家担心其他玩家没有学会均衡,这很可能会消除她自己采取均衡策略的动力。这引发了一系列有关社会学习的深层问题(Fudenberg and Levine 1998)。如果老练的玩家不表现出来,那么无知的玩家如何学会玩均衡策略,因为在无知的玩家学会之前,老练的玩家不会被激励去玩均衡策略?将博弈论应用于人与人之间的互动时,关键的答案是年轻人是通过在包括文化规范在内的机构网络中成长而被社会化的。人们玩的大多数复杂游戏已经在他们之前社会化的人们中进行,也就是说,已经学会了游戏结构和平衡(Ross 2008a)。新手必须只模仿那些看起来被其他人期待和理解的玩法。制度和规范充满了提醒,包括说教和容易记住的经验法则,以帮助人们记住他们在做什么(Clark 1997)。

正如上面第 2.7 节所述,当观察到的行为在游戏中的均衡附近不稳定,并且没有证据表明学习仍在进行中时,分析师应该推断她错误地模拟了她正在研究的情况。很可能她错误地指定了玩家的效用函数、玩家可用的策略或他们可用的信息。考虑到社会科学家研究的许多情况的复杂性,我们对模型的错误指定频繁发生并不感到惊讶。应用博弈论学家必须进行大量学习,就像他们的学科一样。

逆向归纳悖论是一系列悖论之一,如果一个人将对完整信息的拥有和使用构建为一种理性概念,就会出现这些悖论。 (通过类比,如果我们假设经济理性投资包含字面上的理性预期,那么考虑一下出现的股市悖论:假设没有个人投资者能够长期击败市场,因为市场总是知道投资者所知道的一切;那么没有人可以击败市场)有动机收集有关资产价值的知识;那么没有人会收集任何此类信息,因此从市场知道一切的假设出发,市场无法知道任何事情!)正如我们将在下面的各种讨论中详细看到的那样,大多数博弈论的应用明确地纳入了不确定性和前景由玩家学习。我们上面看到的 SPE 扩展形式博弈实际上是概念性工具,可以帮助我们准备概念,以应用于完整和完美信息并不常见的情况。如果我们像一些哲学家和规范博弈论学家那样认为,我们想要用博弈论来强化的概念工具之一是理性本身的完全普遍的概念,那么我们就无法避免这个悖论。但这并不是经济学家和其他将博弈论应用于实证建模的科学家所关心的问题。在真实情况下,除非玩家过去经历过彼此处于均衡状态的博弈,即使他们都是经济理性的并且都相信彼此这一点,我们应该预测他们会在对博弈的理解的猜想上附加一些正概率。一些参与者之间的结构不完善。这就解释了为什么人们,即使他们是经济上理性的代理人,也可能经常,甚至通常,会表现得好像他们相信颤抖的手一样。

(本章完)

相关推荐