博弈论的认识论基础(一)

非合作博弈论研究个体玩家或代理在涉及战略互动的情况下如何做出决策。在这些情况下,每个玩家的结果不仅取决于他们自己的选择,还取决于其他玩家的选择(有关概述,请参阅 Ross 1997 (2024))。认识论博弈论研究关于玩家信念和理性的假设如何影响他们在战略情境中的选择。本条目首先讨论不确定性在战略情境中的作用。然后介绍在认识论博弈论和认识论逻辑文献中开发的多代理知识和信念模型。接下来,它研究了如何使用这些模型来表征经典博弈论解决方案概念,重点关注参与者的理性与他们对彼此理性的相互信念之间的关系。本文最后简要概述了认识论博弈论文献中的其他关键主题,并提出了进一步阅读的建议。

。1. 博弈的认识论观点

。1.1 古典博弈论

。1.2 认识论博弈论

。1.3 决策阶段

。1.4 不完全信息

。1.5 不完全信息和完全回忆

。2. 博弈模型

。2.1 认识概率模型

。2.1.1 认识模型

。2.1.2 添加信念

。2.1.3 认识概率模型中的理性选择

。2.2 类型空间

。 2.2.1 信念层次结构

。2.2.2 定性类型空间

。2.2.3 概率类型空间

。2.2.4 类型空间中的理性选择

。2.3 共同知识与信念

。2.4 博弈模型中的自指悖论

。3. 解概念的认识论特征

。3.1 认识论博弈论基本定理

。3.1.1 严格支配

。3.1.2 对理性的共同信念与严格支配策略的迭代消除

。3.1.3 关于相关选择的信念

。3.2 子博弈精炼均衡

。3.2.1 扩展形式的博弈

。3.2.2 扩展形式的博弈模型

。 3.2.3 理性常识与子博弈精炼均衡

。3.3 纳什均衡

。3.3.1 均衡博弈的认识论特征

。3.3.2 混合策略均衡的认识论解释

。3.4 迭代弱优势与谨慎信念

。3.5 前向归纳法与扩展形式合理化

。4. 其他主题

。4.1 纳入无意识

。4.2 替代选择规则

。4.3 动态博弈模型

。4.4 信念的有限层次

。5. 结束语

。参考书目

。学术工具

。其他网络资源

。相关文章

。1. 博弈的认识论观点

。本节概述了认知博弈论中使用的关键思想和概念。

1.1 古典博弈论

博弈是指涉及一群“自利”玩家或代理人的互动情境。博弈的本质特征是玩家参与“相互依赖的决策问题”,博弈结果取决于所有玩家的选择(Schelling,1960)。博弈的数学描述至少包含以下组成部分:

玩家:在本条目中,我们仅考虑有限多玩家的博弈,并使用 N 表示博弈中的玩家集合;

对于每个玩家 i∈N,存在一组有限的可行选项(通常称为行动或策略);以及

对于每个玩家 i∈N,存在一个效用函数,表示 i 对博弈可能结果的偏好。博弈论中的一个标准假设是,博弈的结果是一系列行动,每个玩家对应一个行动。一系列动作称为策略概况。用策略概况识别博弈结果反映了博弈结果取决于所有玩家选择的核心思想。

博弈的不同数学表示描述了交互情况的其他特征,例如玩家移动的顺序。

定义 1.1(战略形式的博弈)战略形式的博弈是一个元组⟨N,(Si)i∈N,(ui)i∈N⟩,其中 N 是玩家的非空有限集,对于每个 i∈N,Si 是玩家 i 的非空动作集,对于每个 i∈N,ui:×i∈NSi→R 是玩家 i 的效用函数,其中 ×i∈NSi 是策略概况的集合。

战略形式的博弈表示所有玩家同时做出单一决策而无需随机移动的情况。

图 1 是战略形式博弈的一个例子。有两个玩家,Ann 和 Bob,每个玩家有两种可选行动:N={Ann,Bob}、SAnn={u,d} 和 SBob={l,r}。玩家的效用 uAnn 和 uBob 显示在矩阵的单元格中(元组中的第一个数字是 Ann 的效用,第二个数字是 Bob 的效用)。例如,如果 Bob 选择 l,由于 uAnn(u,l)>uAnn(d,l),Ann 更喜欢选择 u 的结果,而不是选择 d 的结果;但如果 Bob 选择 r,则这种偏好会逆转。在图 1 所示的游戏中,游戏有 4 种结果,分别对应 4 种不同的策略配置 {(u,l),(u,r),(d,l),(d,r)}(由图 1 中矩阵的 4 个单元格分别表示)。

Bob

l r

Ann u 1,1 0,0

d 0,0 1,1

图 1:协调博弈

图 1 所示的博弈被称为纯协调博弈:博弈者在协调他们在 (u,l) 或 (d,r) 上的选择方面有共同的利益,并且他们对如何协调选择都漠不关心。

1.1.1 解决方案概念与混合策略

古典博弈论研究的一个主要重点是研究和开发解决方案概念。解决方案概念将一组结果(即一组策略配置)与每个博弈(来自某一固定类型的博弈)关联起来。最著名的解决方案概念是纳什均衡,尽管我们在本条目中还会遇到其他解决方案概念。从规范的角度来看,解决方案概念是关于博弈者在博弈中应该做什么,或者假设博弈者做出理性选择,可以预期什么结果的建议。从预测的角度来看,解决方案概念描述了玩家在游戏中实际会做什么。

。博弈论中的许多解决方案概念都涉及混合策略,其中玩家故意随机选择可用行动,而不是确定地选择一个。配对硬币游戏说明了混合策略的重要性:两个玩家同时显示正面或反面,如果硬币匹配,则一个玩家获胜,如果硬币不同,则另一个玩家获胜。在这个游戏中,如果你的对手可以预测你的选择,他们就会通过做出相应的选择而获胜。为了防止对手获得这种优势,你应该通过随机化让你的选择真正变得不可预测——甚至对你自己来说也是如此。混合策略指定从可用行动的无限可能概率分布中选择每个行动的概率(例如,60% 正面,40% 反面)。

。形式上,玩家 i 的混合策略是 i 可用策略的概率。令 Δ(X) 表示有限集合 X 上的概率测度集合。每个 m∈Δ(Si) 被称为玩家 i 的一个混合策略。如果 m∈Δ(Si) 将概率 1 分配给策略 s∈Si,则 m 被称为纯策略(在这种情况下,我们将 m 记为 s)。

。混合策略在博弈论中发挥着重要作用,尤其是在纳什均衡的存在性方面。然而,对混合策略的解释存在争议(例如,参见 Rubinstein 1991: 913)。主要问题是,玩家是否应该被视为真正地随机化——即将他们的选择委托给某种随机化机制——或者混合策略是否捕捉到了其他一些东西,例如对手对玩家选择的不确定性(参见 Zollman 2022 和 Icard 2021)。我们将在第 3.3.2 节回到对混合策略的解释。

。1.2 认知博弈论

。认知博弈论(EP)作为对均衡细化程序的回应,于20世纪80年代作为一项定义明确的研究程序应运而生。均衡细化程序(概述参见van Damme 1983)始于这样的观察:纳什均衡(纳什均衡的定义参见3.3节)并不总是能提供唯一或令人信服的博弈解。均衡细化程序旨在通过在纳什均衡集合中施加额外标准来识别更理想的博弈解。这些细化的均衡概念通常基于对构成博弈中理性行为的直觉判断。认知博弈论的发展正是源于将这些直觉判断形式化的愿望。 Armbruster & Böge (1979) 可以说是对这一方法最早的贡献,但其他值得注意的著作包括 Spohn (1982)、Bernheim (1984)、Pearce (1984) 以及 Tan & Werlang (1988),所有这些著作都清晰地阐述了认知程序与均衡细化程序的对比。有关认知博弈论历史的更全面讨论,请参阅 Perea (2014b)。

认知博弈论的目标之一是刻画理性博弈者的行为,这些博弈者相互认可彼此的理性,而理性通常被理解为标准决策理论中的定义(参见Briggs 2014 2019)。这种博弈研究方法可以很好地概括为:

。在结果取决于多个主体行为的情况下,决策制定并没有特殊的理性概念。其他主体的行为,如同偶然事件、自然灾害和天灾一样,只是关于不确定世界的事实,主体拥有信念和信念程度。其他主体的效用与主体相关,仅仅作为一种信息,它与关于这些主体理性的信念一起,有助于预测其行为。(Stalnaker 1996: 136)

。博弈认知分析的核心内容是描述博弈者彼此了解和相信的内容。在认知博弈论中,玩家的不确定性主要有两个来源:

战略不确定性:其他玩家会怎么做?

高阶信息:其他玩家在想什么?

当然,博弈论家早在认知博弈论出现之前就已经开始研究游戏中的不确定性。这项工作主要集中在游戏中的另外两个不确定性来源:

有关博弈结构的信息(称为完全/不完全信息):还有谁参与了博弈?有哪些可用的行动?每个玩家的收益是什么?游戏中的这种不确定性在第 1.4 节中进行了简要讨论

有关博弈玩法的信息(称为完美/不完美信息):已经走了哪些招数?游戏中的这种不确定性在第 1.5 节中进行了简要讨论。

游戏中的这四个不确定性来源在概念上很重要,但不一定是详尽无遗的,也不一定是互相排斥的。例如,约翰·哈萨尼(John Harsanyi)认为,博弈结构的所有不确定性(即所有可能的信息不完整性)都可以归结为收益的不确定性(Harsanyi 1967–68,另见Hu & Stuart 2002和Lorini & Schwarzentruber 2010)。类似地,Kadane & Larkey认为,对于单人博弈中的玩家

而言,除了他对对手行为的“意见”之外,他的观点的其他方面都是无关紧要的,可以通过将它们从联合意见中整合出来,在分析中忽略它们。(1982: 116)

1.3 决策阶段

博弈论文献中,将决策过程分为三个阶段是标准做法:事前、事中和事后。一个极端是事前阶段,此时尚未做出任何决策。另一个极端是事后阶段,所有参与者的选择都公开披露。介于这两个极端之间的是事中阶段,参与者已经做出了自己的决定,但他们仍然不知道其他参与者的选择。

这些区分并非刻意为之,而是描述了参与者在决策过程中信息披露的不同阶段。在事前阶段,除了博弈结构、参与者以及可能(但不一定)了解其他参与者的信念之外,几乎一无所知。在事后阶段,博弈基本结束:所有参与者都做出了决定,这些决定现在不可逆转地公开了。这并不意味着所有不确定性都已消除,因为代理人可能仍然不确定其他人对她究竟有何期望。在这两个极端之间,存在着一系列信息披露状态,我们将其笼统地称为“事中”阶段。这些信息披露状态的共同点是,代理人已经做出了决定,尽管不一定是不可撤销的决定。

在本文中,我们关注决策的过渡阶段。这与博弈论认知基础领域的许多文献一致,因为它允许根据玩家对对手行为的预期,直接评估他们的理性程度。关注过渡阶段确实会引发一些有趣的问题,即玩家在得知自己并非“理性”选择后应该如何反应(参见 Stalnaker 1999,第 4 节和 Skyrms 1990)。需要注意的是,这个问题不同于玩家在得知其他人并非理性选择后应该如何修正自身信念的问题。第二个问题与玩家进行顺序选择的博弈密切相关,我们将在第 3.2 节中讨论。

1.4 不完全信息

关于任何博弈情境的数学模型,一个自然而然的问题是,如果玩家对模型的某些参数不确定,分析会如何变化?这促使哈萨尼(Harsanyi)在1967-68年发表了一篇开创性的论文,该论文引入了一个信念模型,用于描述博弈中某些方面信息不完全的玩家的信念。基于这些思想,大量文献研究贝叶斯博弈,即玩家对博弈某些方面不确定的博弈。请参阅Leyton-Brown & Shoham(2008:第7章)的简要概述和相关文献索引。我们将在第2.2节讨论哈萨尼对高阶信念建模的方法。根据Brandenburger 2010(第4节和第5节)的观点,我们指出了贝叶斯博弈研究与认知博弈论之间的两个关键区别。

。在贝叶斯博弈中,玩家唯一的不确定性来源是博弈的收益、其他玩家认为的正确收益、其他玩家认为其他玩家对收益的看法等等。其基本思想是,玩家对博弈收益的(高阶)信念完全决定了对博弈其他方面的(高阶)信念。具体而言,如果一个玩家知道其他玩家的收益,那么该玩家就能确定(并且正确)其他玩家可能做出的(理性)选择。)2)如1.2节所述,在认知博弈论中,信念模型关注玩家的其他不确定性来源,例如战略不确定性。

。在贝叶斯博弈中,假设所有玩家都会根据其信息做出最优选择。也就是说,所有玩家都会根据他们对博弈的信念、对其他玩家对博弈的信念等,选择一种能够最大化其预期效用的策略。这尤其意味着,玩家不会考虑对手可能做出“非理性”选择的可能性。相比之下,认知博弈论模型允许玩家认为其他玩家做出非理性选择的可能性。

。请注意,这些假设并非 Harsanyi 在不完全信息博弈中表示玩家信念的形式主义所固有的。相反,它们是 Harsanyi 及其后研究贝叶斯博弈的研究人员所遵循的惯例。

。1.5 不完全信息和完美回忆

。战略形式博弈的定义性特征是玩家同时选择他们的行动。这并不是对玩家在博弈中做出选择的精确时间的假设,而是对玩家对其他玩家的选择的了解和看法的假设。更一般地说,战略形式博弈是不完全信息博弈的一个例子,其中玩家可能无法完全了解对手的举动或偶然举动的结果。两个玩家不同时行动,但彼此不知对方选择,他们的选择可以描述如下(例如,第一个玩家在 d0 处选择,第二个玩家在 d1 和 d2 处选择,可用动作的标签被隐藏):

图表:链接至下方扩展描述

图 2(图 2 的扩展描述见附录。)

解释为,在第一个节点(d0)做出的决策被遗忘或未被观察到,因此第二个决策是在不确定决策者是在节点 d1 还是 d2 的情况下做出的。有关不完全信息博弈的一般理论,请参阅 Osborne(2004:第 9 和 10 章)。允许博弈中存在不完全信息提出了一个有趣的问题,即玩家是否可能不完全了解自己过去的决策。

哈罗德·库恩(Harold Kuhn,1953)在信息不完全的博弈中引入了完美回忆和不完美回忆的区别。其核心思想是,当玩家记住自己过去的所有举动时,他们就拥有完美回忆。博弈论中的一个标准假设是所有玩家都拥有完美回忆——也就是说,他们可能不确定对手或对手的先前选择,但他们确实记得自己的所有举动。完美回忆假设不仅在博弈论中发挥着重要作用(Bonanno,2004;Kaneko & Kline,1995;Piccione & Rubinstein,1997a),而且在知识和时间逻辑研究(Halpern、van der Meyden & Vardi,2004)以及扑克计算模型(Waugh 等人,2009)中也发挥着重要作用。

正如我们在第 1.3 节中提到的,决策过程分为不同的阶段。这些决策阶段之间的差异在顺序决策问题中更加明显,因为决策者在不同的时间点做出选择。有两种方法可以思考顺序决策问题中的决策过程。第一种方法是关注初始“规划阶段”。最初(在采取任何行动之前),决策者确定一个计划,指定他们在每个选择节点将采取的(可能是随机的)行动。然后,参与者开始按照他们承诺的计划采取各自的行动,而不会在每个选择节点重新考虑他们的选择。或者,决策者可以在每个选择节点做出“局部判断”,始终根据当前可用的信息选择最佳选项。库恩定理 (1953) 表明,如果参与者具有完美回忆,那么一个计划是最优的当且仅当它是局部最优的——也就是说,最优计划会导致与每个决策者在其决策节点做出最优选择相同的选择序列(有关这一经典结果的证明,请参阅 Maschler、Solan & Zamir 2013: 219–250)。

。完美回忆假设对于库恩的结果至关重要。Piccione & Rubinstein (1997a) 所谓的心不在焉驾驶问题证明了这一点:

。一个人深夜坐在酒吧里,计划他午夜回家的旅程。为了回家,他必须走高速公路并在第二个出口下车。在第一个出口转弯会进入一个灾难性的区域(收益为 0)。在第二个出口转弯可以获得最高回报(收益为 4)。如果他继续驶过第二个出口,他就无法回头,在高速公路的尽头他会找到一家可以过夜的汽车旅馆(收益 1)。司机心不在焉,并且意识到了这一点。在十字路口,他无法分辨这是第一个还是第二个十字路口,也不记得自己已经经过了多少个十字路口(我们可以参考第 17 个十字路口,使情况更真实)。坐在酒吧里,他所能做的就是决定是否在十字路口驶出。(Piccione & Rubinstein 1997a: 7)

。心不在焉的驾驶员的决策树如下所示:

。图表:链接至下面的扩展描述

。图 3(图 3 的扩展描述在附录中。)

。这个问题表明,决策者在酒吧计划时承诺要做的事情与他在第一个十字路口认为最好的事情之间可能存在冲突:

。计划阶段:决策者在酒吧计划回家时,面临着“继续;继续”和“退出”之间的选择。由于他无法区分两个交叉路口,因此他无法计划在第二个交叉路口“退出”(他必须在 X 和 Y 处计划相同的行为)。由于“退出”会导致最坏的结果(收益为 0),因此最优策略是“继续;继续”,保证收益为 1。

。行动阶段:到达交叉路口时,决策者面临着“退出”或“继续”的局部选择(可能随后会做出另一个决策)。现在决策者知道,由于他承诺在每个交叉路口都选择“继续”,因此他有可能位于第二个交叉路口。事实上,决策者得出结论,他位于第一个交叉路口的概率为 1/2。但是,他“退出”的预期收益为 1/2∗4+1/2∗0=2,大于遵循他先前承诺的策略所保证的收益。因此,他选择“退出”。

(本章完)

相关推荐