游戏理论(六)
这是一个轻描淡写的说法:过去四十年博弈论中的大多数纯理论文献都关注了所讨论的复杂性。部分原因是这些问题既深刻又困难,部分原因是博弈论最有效应用的大多数实际战略情况实际上都要求玩家学习。当人们(或其他动物)卷入战略互动时,世界通常不会提供有关游戏结构的明确信息。特别是,可以说,它并没有将玩家的效用函数印在他们的额头上。当玩家不确定他们玩的游戏的结构(取决于所有玩家的效用向量)时,我们说他们的信息不完整。
此外,玩家可能不知道一些与其策略选择相关的参数概率分布。在刚刚讨论的过河游戏的例子中,我们假设两个玩家事前(即当他们选择策略时)都知道岩石掉落和眼镜蛇袭击的概率。在想象中的实际情况下,这是不可能的。两个玩家可能会研究两个风险桥一段时间,以收集有关危险(逃犯)事件的概率分布的信息。但估计可能会有偏差,除非样本非常大并且概率是固定的(例如,随着更多暴露的岩石掉落,落石不会变得不那么频繁)。当玩家不确定参数意外事件时,我们通过添加一个额外的玩家(通常称为“自然”)在扩展形式的游戏中对此进行建模,该玩家没有效用函数,因此在游戏结果中没有利害关系,并且随机地绘制相对的动作到一些指定的概率分布。通过将自然的行动范围放入单个信息集中,我们可以允许战略参与者(即自然以外的参与者)可能不得不在不知道自然为他们绘制了什么的情况下做出选择,就像我们在广泛的范围内进行战略选择一样。形成一些动作同时进行的游戏,如上图 13 所示。然后,玩家对参数因素的不确定性被建模为不完美信息。
最后,如果战略参与者对不确定参数的估计是独立的,那么每个参与者的估计都可能为其他参与者提供信息。在重复博弈中,玩家可以通过观察彼此的选择来获取彼此对参数概率的估计信息。例如,假设在我们的过河游戏中存在一系列逃犯,成功的逃亡者将报告发送给跟踪他们的人。现在想象一下,追捕者惊讶地发现逃亡者选择石桥的频率比她预期的要少得多。如果她假设逃亡者在经济上是理性的,那么她应该更新对落石概率的估计;显然它太低了。那么,她当然应该相应地调整自己的策略。该信息对于追捕者和逃亡者来说都是可用的,因此随着更新的进行,游戏变化的平衡也会受到影响。特别是,由于先验不确定性的程度通过更新而减少,与均衡相容的结果范围缩小,因此现实生活中的主体更有可能找到均衡。
由于贝叶斯规则是管理学习的原则,因此它可能与至少某些玩家拥有不完美或不完整信息的游戏相关。如果仅涉及不完美信息,则直接适用遵循或修改萨维奇公理的主观预期效用理论。这是本节其余部分的主题。不完整的信息会带来更深层次的挑战,我们将在后面的部分中考虑这些挑战。但我们上面的重复游戏示例允许贝叶斯规则的特别有趣和强大的应用。如果参与者知道其他参与者遵循贝叶斯规则来更新他们的信念,并且效用完全取决于信息,那么当参与者收到共享信号时,他们可以通过识别 Aumann(1974,1987)所谓的“相关均衡”来共同解决他们的战略问题。
现在,为了说明贝叶斯规则在最直接的情况下的使用,即在广泛形式的博弈中没有自然的不完美信息,我们将从 Selten 的马开始(即图 13)。如果我们假设玩家的信念符合贝叶斯规则,那么我们可以将顺序均衡定义为博弈的解决方案。 SE 有两个部分:(1) 与之前一样,每个玩家的策略配置文件 §,以及 (2) 每个玩家的信念系统 μ。 μ 为每个信息集 h 分配 h 中节点的概率分布,并解释为,假设已达到信息集 h,这些是玩家 i(h) 关于她在信息集中的位置的信念。那么顺序均衡是策略的轮廓§和与贝叶斯规则一致的信念μ系统,使得从树中的每个信息集h开始,玩家i(h)从那时起就发挥最佳作用,假设她相信已经发生了什么事先前由 μ(h) 给出,后续移动中将发生的情况由 § 给出。
再次考虑我们之前为 Selten 的马确定的 NE (R,r2,r3)。假设玩家 III 将 pr(1) 分配给她的信念,即如果她下棋,她就处于节点 13。然后,玩家 I 在给定一致的 μ(I) 的情况下,必须相信玩家 III 会下 l3,在这种情况下,她只SE策略是L。所以虽然(R,r2,l3)是NE,但它不是SE。
在这个例子中一致性要求的使用有点微不足道,所以现在考虑第二种情况(也取自 Kreps (1990), p. 429):
图14
图14
假设玩家 I 玩 L,玩家 II 玩 l2,玩家 III 玩 l3。还假设 μ(II) 将 pr(.3) 分配给节点 16。在这种情况下,l2 不是玩家 II 的 SE 策略,因为 l2 返回预期收益 .3(4)+.7(2)= 2.6,而 r2 带来的预期收益为 3.1。请注意,如果我们调整玩家 III 的策略配置文件,同时保持其他所有内容不变,则 l2 可能会成为玩家 II 的 SE 策略。如果 §(III) 产生了 pr(.5) 的 l3 和 pr(.5) 的 r3,那么如果玩家 II 玩 r2,他的预期收益现在将为 2.2,因此 (L,l2,l3) 将是SE。现在想象将 μ(III) 设置回原来的状态,但更改 μ(II),以便玩家 II 认为位于节点 16 的条件概率大于 0.5;在这种情况下,l2 也不是 SE 策略。
希望 SE 的想法现在已经很清楚了。我们可以将其应用到过河游戏中,避免追击者翻转任何硬币,我们对游戏进行了一些修改。现在假设追捕者可以在逃亡者通行期间两次换桥,并在逃亡者离开桥时遇到他时抓住他。那么追击者的 SE 策略就是按照上面第 3 节第三段中的等式给出的比例来分配她在三座桥上的时间。
必须注意的是,由于贝叶斯规则不能应用于概率为 0 的事件,因此其应用于 SE 要求玩家为所有可扩展形式的动作分配非零概率。这一要求是通过假设所有策略配置文件严格混合来捕获的,即每个信息集的每个动作都以正概率采取。你会发现,这相当于假设所有的手有时都会颤抖,或者没有任何期望是完全确定的。如果均衡时的所有策略都是对严格混合策略的最佳响应,则 SE 被称为“颤抖之手完美”。当你得知弱支配策略不可能是完美的颤手策略时,你也不应该感到惊讶,因为颤手的可能性为玩家提供了避免此类策略的最有说服力的理由。
非心理学博弈论学家如何理解行为和信念均衡的 NE 概念?数十年的实验研究表明,当人类受试者玩游戏时,尤其是理想情况下需要使用贝叶斯规则来推测其他玩家信念的游戏时,我们应该预期策略反应会出现显着的异质性。多种信息渠道通常将不同的主体与其环境中的激励结构联系起来。有些智能体实际上可能计算出平衡,但或多或少存在误差。其他人可能会在误差范围内稳定下来,通过或多或少的短视条件学习,随机漂移在平衡值附近。还有一些人可能会通过复制其他主体的行为或遵循嵌入文化和制度结构并代表历史集体学习的经验法则来选择响应模式。请注意,这里的问题是针对博弈论的,而不仅仅是重申一个适用于任何行为科学的更普遍的观点,即从理想理论的角度来看,人们的行为是喧闹的。在给定的游戏中,即使是训练有素、有自我意识、计算资源丰富的智能体玩 NE 游戏是否合理,也取决于他或她期望其他人这样做的频率。如果她预计其他玩家会偏离 NE 玩法,这可能会给她一个偏离 NE 的理由。有经验的实验者或建模者不是预测人类玩家会揭示严格的 NE 策略,而是预测他们的游戏与偏离 NE 的预期成本之间存在关系。因此,观察到的动作的最大似然估计通常将 QRE 识别为比任何 NE 提供更好的拟合。
分析师以这种方式处理经验数据不应被解释为“测试假设”,即所分析的主体是“理性的”。相反,她推测他们是代理人,也就是说,他们行为的统计模式的变化与可能目标状态的一些风险加权基数排名之间存在系统关系。如果代理人是人或制度结构的人群体,他们相互监督并被激励尝试集体行动,那么这些猜想通常会被批评者认为是合理的,甚至在务实上是毫无疑问的,即使考虑到不可推翻的情况总是可以推翻的。哲学家有时会考虑的那种奇怪的未知情况的可能性为零(例如,表面上的人是预先编程的非智能机械拟像,如果只有环境激励响应未写入他们的程序)。分析师可能会假设所有主体都会根据萨维奇预期效用理论对激励变化做出反应,特别是当主体是在与许多参与者进行市场竞争的规范要求条件下已经学会了响应意外事件的公司时。如果分析师的研究对象是个人,特别是如果他们处于相对于其文化和制度经验而言非标准的环境中,她可能会更明智地估计最大似然混合模型,该模型允许一系列不同的效用结构管理不同的子集她的选择数据。思考这个问题的方法如下。适用于样本中某些人的每个实用新型都描述了一个数据生成过程(DGP)。这些不同的 DGP 在游戏中相互作用以产生结果。当数据用于估计混合模型时,她知道数据的哪些比例最好通过她假设的 DGP 来估计(前提是她在给定数据的情况下足够好地指定她的模型以识别它们)。所有这一切都表明,博弈论的使用并不迫使科学家凭经验应用一个模型,该模型的规格可能过于精确和狭窄,无法合理地适应真实战略互动的混乱复杂性。一名优秀的应用博弈论学家也应该是一名受过良好教育的计量经济学家。
我们将在第 8 节中回顾的一个重要警告是,当我们将博弈论应用于代理有机会学习的情况时,因为他们的信息不完美或不完整,那么我们必须决定它是否合理期望智能体使用贝叶斯规则更新他们的信念。如果我们认为这种期望在经验上不合理,那么我们可能会期望智能体采取除了直接探测参数或战略环境之外没有战略目的的行动。这给所有玩家带来了额外的不确定性的特殊来源:另一个玩家的行为的功能是探测还是直接收获效用?处理必须考虑到这种不确定性的应用程序需要大量的数学专业知识,如 Fudenberg 和 Levine (1998) 中的回顾和 Fudenberg 和 Levine (2008) 中的更新。随之而来的建模自由裁量范围使得应用博弈论学家尝试预测涉及非贝叶斯学习的情况变得危险;通常,她所能做的最好的事情就是解释事后发生的事情。 (应该补充的是,这种解释通常对于推广到新案例至关重要,并且至少同样重要的是,如果参与者或监管者想要改变结果,则可以进行干预。)读者可能会认为这一定是标准案例:可能性有多大大多数人从未听说过贝叶斯规则,更不用说使用它来计算预测,难道人们会根据该规则进行学习,并预期与他们互动的人也会这样做吗?但也有人对此表示怀疑。大多数动物,包括人类,并不清楚它们为什么会做出这样的行为。就贝叶斯学习而言,越来越多的神经科学证据表明,神经皮质学习与较老大脑区域的学习的区别在于,前者本质上是贝叶斯学习(Clark 2016;Parr et al 2022)。这是有解释性的:贝叶斯学习是一种情境灵活的学习,并且为这种学习提供能力几乎肯定是导致许多具有社交智能的动物的新皮质随着时间的推移而生长的功能,并且在社交智能动物中获得了明显更大的大脑皮层神经元电池组。现代人类的例子(Godfrey-Smith 1996)。无论人们是否知道,人们都是贝叶斯学习者,这是一个似乎合理的猜想。
博弈论学家可以在她自己的建模的元级别直接利用贝叶斯学习。上面建议应用博弈论学家应该估计最大似然混合模型,以捕获人群中的异质风险偏好结构。在现有文献中,这是当前的技术水平。但它有一个局限性:结果对建模者在混合中包含哪些模型的判断力很敏感,并且此类模型没有固定的类型。如果理论家转而使用分层贝叶斯模型,则可能消除这种无原则的自由裁量权的需要(参见 Kruschke 2014;McElreath 2020)。使用此资源的建议并不要求博弈论学家成为专家编码员,因为此类模型的例程现已包含在经济学家的标准计量经济学软件包 Stata (TM) 中。这有望显着提高真实战略互动的博弈论模型的力量和准确性,并且是未来研究的一个有吸引力的目标。
4. 重复游戏与协调
到目前为止,我们的注意力仅限于一次性游戏,即玩家的战略关注点不超出其单次交互的终端节点的游戏。然而,博弈通常会考虑到未来的博弈,这可能会显着改变其结果和均衡策略。本节我们的主题是重复博弈,即一组玩家期望在类似情况下多次面对对方的博弈。我们首先通过反复出现的囚徒困境的有限背景来探讨这些问题。
我们已经看到,在一次性PD中,唯一的NE就是相互背叛。然而,如果玩家们希望在未来的 PD 中再次见面,这种情况可能不再成立。想象一下,四家都生产小部件的公司同意通过联合限制供应来维持高价格。 (也就是说,他们形成了一个卡特尔。)只有当每个公司维持其商定的生产配额时,这才有效。通常情况下,每家公司都可以通过偏离自己的配额来最大化利润,而其他公司则遵守自己的配额,因为这样它就能以几乎完整的卡特尔带来的更高的市场价格出售更多的单位。在一次性情况下,所有公司都会有这种背叛的动机,卡特尔就会立即崩溃。然而,两家公司预计将长期面临竞争。在这种情况下,每家公司都知道,如果它违反了卡特尔协议,其他公司可以通过在足够长的时间内压低价格来惩罚它,以消除其短期收益。当然,惩罚企业在抑价期间也会遭受短期损失。但如果这些损失有助于重建卡特尔并带来最大的长期价格,那么这些损失可能是值得的。
在重复的 PD 中保持合作的一种简单而著名的(但与普遍的神话相反,不一定是最佳的)策略被称为“一报还一报”(Tit-for-tat)。该策略告诉每个玩家按以下方式行事:
始终在第一轮合作。
此后,采取对手在上一轮中采取的任何行动。
一群都以牙还牙的玩家永远不会出现任何叛逃。因为,在其他人玩针锋相对的群体中,没有一个针锋相对的玩家可以(严格地)通过采取替代策略做得更好,所以每个玩针锋相对的人都是 NE。你可能经常听到懂一点(但还不够)博弈论的人谈论好像这就是故事的结局。根本不是。有三个主要的并发症。
首先,也是最根本的一点,每个玩“一报还一报”游戏的人都不是一个独特的NE。许多其他策略,例如“冷酷”(合作直到被玩家背叛,然后永远无条件地背叛该背叛者)和“一报还一报”(合作直到被玩家背叛两次,然后背叛一次,然后恢复合作)出现在各种NE组合中。一般来说,均衡并不要求所有参与者都使用相同的策略。 “一报还一报”的更有限的优点是,它是一种简单的策略,相对于人们倾向于选择的策略(基于与真人进行的实际锦标赛的证据),它的平均效果很好。但这也可以归于格瑞姆。虽然“一报还一报”可以说是“好”的,因为它宽恕冒犯,但“冷酷”的情况却恰恰相反。一般来说,如果玩家在到达那里之前不知道哪一轮游戏将是最后一轮,那么在大量人口中存在无限组策略组合,这些策略组合在重复游戏中是均衡的。