博弈分析逻辑(六)

4.2.1 认知更新与不完美信息

从某种角度来看,标注有不完美信息单元的游戏可以被解读为记录实际游戏的过程。然而,不完美信息树不足以完全指定真实游戏的轨迹。这就引出了一个问题:如何梳理出真正发生的事情。一种分析方法涉及动态认知逻辑的技术。在这种方法中,假设玩家拥有完美的回忆能力,他们不会忘记任何曾经知道的事情,同时又满足“无奇迹”原则:观察实际游戏过程是他们唯一的信息来源(参见第 3.6 节)。

在初步近似中,每一步都会触发一次公开宣布,告知所有玩家刚刚发生的事情。然而,许多游戏包含部分可观察的举动,其中一些玩家仅仅知道某个动作已经发生,但不一定知道具体是哪一步。在这种情况下,信息处理需要动态认知逻辑的产品更新(参见第 3.6 节)。Baltag & Moss 2004),允许知识和不确定性的适当混合。

示例:通过更新装饰博弈树。

下图左侧显示了博弈的简单行动结构,没有任何可观察性信息。然而,在移动时,玩家可以区分自己的行动,但无法区分对手的所有行动。他们精确的观察能力由针对各个行动的事件模型描述(参见 van Ditmarsch、van der Hoek 和 Kooi 2007)。

这是一个博弈树图和一个事件模型,用于说明示例。扩展描述(链接见图题)将描述该树。

图 18. ⓘ

关于可能行动的观察结构由相应节点之间的关系编码,如不完全信息博弈(第 3.6 节)所述。以下是创建树中不确定性链接的连续更新:

这三个图表示更新。扩展描述(链接见图题)将描述该树。

图 19. ⓘ

最终得到的带注释的树状图如下所示,即不完美信息博弈:

这是一个说明示例的博弈树图。扩展描述(链接见图题)将对这棵树进行描述。

图 20. ⓘ

类似的分析适用于无限树和认知森林(参见第 3.6 节)。更一般地说,任何不完美信息结构都可以由信息更新产生,前提是玩家满足完美回忆且不存在奇迹,并且游戏中的移动具有逻辑上可定义的先决条件来控制其可用性。van Benthem、Gerbrandy、Hoshi 和 Pacuit (2009) 中提供了精确的公式和证明。Dégremont、Löwe 等在不假设同步性的情况下对博弈玩法进行了推广,以及 Witzel (2011)。

在博弈论中,没有奇迹和完美回忆是大多数类型智能体的典型假设。然而,某些场景需要修改(参见 Osborne & Rubinstein 1994 关于“醉酒驾驶”场景的论述)。此外,如果玩家被表示为有限自动机(参见第 3.8 节),完美回忆将失效,并且可能出现截然不同的不确定性模式。Liu (2011) 中提供了无记忆和有记忆玩家的表征结果。

除了游戏设置中内置的观察限制外,产品更新还可以模拟与实际游戏并行的外部通信或其他信息流。一些此类场景将在下面的“进一步说明”中列出。

4.2.2 信念修正和前向归纳

某些类型的信息可能被判断为不确定或不完全可靠。虽然此类信息不适合用于推进知识,但它们可能会促使智能体改变其部分信念。这些不确定的证据通常与对手玩家类型的预期有关。撇开单纯失误的可能性不谈,所有行动都可以被认为是有意为之的战略考量。通过解读对手过去的行动,智能体可以推断出他们的信念、偏好、风险态度或推理类型。当然,大多数此类观察并非完全具有结论性。因此,相应的更新无法删除任何替代方案。相反,它们仅仅改变了智能体在不同选项之间的可信度排序≤i。形式上,这可以通过为逆向归纳法引入的可信度更新来处理。然而,具体解释有所不同。在这里,这些更新并非代表赛前审议的步骤,而是源于游戏过程中的实际行动。除了上文介绍的根本性升级之外,Baltag 和 Smets (2008) 还定义了一些反映对所获信息不同态度的进一步更新策略。Dégremont (2010) 运用早期完美回忆和无奇迹属性的两个对应物:“可信度揭示”和“可信度传播”,确定了游戏中系统性可信度更新可能产生的认知可信度模式。

这些结果仅涉及游戏中信念的一个方面。还有其他方面。另一种信念描述了代理对游戏的先前态度,这种态度源于过去的经验或深思熟虑。另一种信念则是指代理基于先前游戏过程中的观察,对其在游戏树中位置的信念。为了区分这些概念,可以区分游戏过程中更局部的“信念”和面向未来的对游戏进展的“预期”。例如,通过逆向归纳法创建的可信度顺序描述了对未来游戏玩法的预期。这些并非基于当前博弈中已有的观察,而且显然未能满足似真性揭示和传播的性质。以下是一条特殊的逻辑信念及其修正,具有独立的博弈论意义。

正向归纳法假设某位玩家偏离了她在博弈前商议中计算出的逆向归纳法策略。其他人对此有何看法?文献中提供的答案多种多样,从将偏差解释为不具有任何未来影响的错误(Aumann 1995)到以各种方式将其视为重要因素(Bicchieri 1993)。在后一种情况下,偏差可能是合作的信号(无论是否可信)。这或许是资源有限的迹象,或许可以揭示其他与玩家类型相关的信息。

更明确地说,这种情况包含以下几个方面。在博弈的任何阶段,玩家都拥有多种类型的信息,包括他们对博弈进展的先前预期,以及在此过程中可能出现的意外观察。如果博弈要继续进行,就像下图所示的状态一样,智能体需要将两者整合到对博弈未来走向的预期中。

这是一张博弈树图,用于说明上一段内容。扩展描述(链接见图题)将对这棵树进行描述。

图 21. ⓘ

合理化:整合各种信息并没有唯一的最佳方法。然而,一个自然的选择是维持对手理性的假设,即先前意义上的假设。假设偏好是常识,观察到的举动因此提供了关于对手信念的新信息。更具体地说,这些信念包含两个组成部分:对其他玩家行为的预期,以及对自己未来行动的意图。那么,驱动原则将是:

合理化:理性棋手通过走一步棋,表明这一步棋对她而言并非严格服从信念。

显然,只有当棋手没有选择在任何情况下都严格服从信念的棋步时,合理化才能维持。在这种情况下,必须进一步假设对手,包括她犯错的可能性。

上述类型的推理策略称为前向归纳法。Battigalli 和 Siniscalchi (2002) 以及 Brandenburger (2007)基于其与策略型博弈中的弱支配策略迭代移除的紧密联系,分析扩展型博弈中的正向归纳法。以下涉及显式推理的示例来自 Perea (2012)。

示例:正向归纳法场景。

这是一个博弈树图,用于说明该示例。扩展描述(链接见图题)将对这棵树进行描述。

图 22. ⓘ

在矩阵博弈中,没有任何一步会优于其他一步。因此,E 应该考虑所有可能的结果。在本例中,向左走比向右走更安全,因此 A 一开始就应该选择向左走。然而,如果 E 进行合理化,并观察到 ​​A 选择向右走,那么她在选择节点上就拥有了额外的信息。根据理性假设,A 预期会比选择 3 更好,而这只有在他打算在矩阵博弈中选择“向上”时才有可能。现在,这告诉 E 继续前进到矩阵,并选择其中的左列。E 的结果比她最初选择的安全选项“2”的收益更高。

从逻辑角度来看,前向归纳法的研究需要具有三元世界依赖似真性关系的认知-信念模型,并结合上文所述的公开公告更新或似真性升级(第 4.1.2 节;另见 van Benthem 2014)。目前尚无关于前向归纳法的权威逻辑分析发表。

4.2.3 赛后合理化

文献中对玩家赛后行为的关注相对较少。然而,这些后续活动通常至关重要,例如,可以积累一些可能对未来游戏玩法有价值的通用经验教训。这种解读在小型或孤立的群体中尤为突出,因为在未来可能会再次遇到同一个对手。博弈后偏好的变化 简单来说,博弈后活动可以包含设定或改变理性选择中除信念之外的第二个输入参数:玩家的偏好。一些民俗学研究结果与此相关。例如,当与另一位已知偏好的玩家的既定策略进行博弈时,任何策略都可以通过在结果中选择合适的偏好来合理化。刘(2011)讨论了几种基于偏好的合理化算法,这些算法使用了偏好变化的动态逻辑。

偏好变化也可能发生在博弈过程中。玩家可能会收到关于博弈最终状态及其属性的新信息。他们也可能遵循权威的命令或建议,从而建立偏好或改变先前的偏好。与此相关,玩家可能会改变他们在博弈中追求的外部目标,或者他们可能会出于更内在的原因调整偏好,例如“酸葡萄”现象(Elster,1983)。

4.2.4 长期时间视角下的博弈

本节主要关注单局博弈前、中、后发生的局部动态。还有一种更广阔的时间视角,其中所有这些活动都嵌入在一个扩展的时间宇宙中,这个宇宙大到足以容纳博弈中所有可能的轨迹,无论是有限的还是无限的。尤其是在演化博弈论中,无限博弈通常源于有限博弈的迭代,刘易斯的信号博弈(2002)就是哲学中的突出例子。

假设一个扩展的无限时间视角,会引发关于博弈者战略预见和适应能力的更多问题(Christoff 2016)。在这方面,不同的长期视角存在巨大差异,从典型的演化博弈论的最低理性假设,到主体预测其选择长期影响的高推理复杂性。

时间逻辑 虽然在第2.10节中简要提到了无限博弈的形式,但无限博弈关注的是随时间变化的主体性。为此,人们提出了许多时间逻辑,包括解释系统(Fagin、Halpern等人,1995)、认知时间逻辑(Parikh和Ramanujam,2003)、STIT(Belnap和Perloff,1988;Horty和Belnap,1995)、ATL(Alur、Henzinger和Kupferman,2002;van der Hoek和Wooldridge,2003)等等。许多此类系统融合了多种模态。因此,它们的复杂性可能非常高(不可判定、不可公理化,甚至非算术性的),正如 Halpern & Vardi (1986) 在一项关于结合时间和知识的开创性研究中所表明的那样。对这一领域的考察超出了本条目的范围,参见时间逻辑条目。van Benthem 和 Pacuit (2006) 提出了关于各种范式之间联系的统一观点。

这是一个树状图。扩展描述(链接见图题)将描述该树。

图 23. ⓘ

与有限博弈一样,研究潜在无限博弈中的均衡时,必须明确玩家的偏好。由于缺乏结果节点或最终时刻来附加偏好,这些自然会被理解为玩家的目标,并表示为博弈历史应满足的属性。这些目标可以是在特定时刻成立的局部命题事实。但目标也可以涉及历史的全局属性,例如避免或到达同一位置指定次数,或者更抽象地说,在某种适当的意义上实现安全或公平。所有这些属性都可以在时序逻辑中指定。就线性时序逻辑 (LTL) 而言,Gutierrez、Harrenstein 和 Wooldridge (2015) 的“布尔博弈”深入发展了基于时序目标的方法。值得注意的是,该框架验证了迭代博弈中“平民定理”的逻辑版本,参见 Osborne & Rubinstein (1994):在目标自然的条件下,迭代博弈可以产生不依赖于基础博弈纳什均衡的新型均衡。时序逻辑的其他重要用途将博弈论与信念修正理论联系起来 (Battigalli & Bonanno 1999;Perea 2012;Stalnaker 1998)。

进化博弈论与动态系统 迭代博弈的一个突出应用是进化博弈论(Maynard Smith 1982;Hofbauer & Sigmund 1998;Gintis 2000)。该框架在生物学、形式社会学以及语言学和哲学领域都有广泛的应用(Lewis 2002;Skyrms 2010;Alexander 2007;Clark 2012)。

迄今为止,很少有研究沿着本文所述维度对进化博弈进行逻辑分析。事实上,进化博弈与本文所追求的分析风格之间存在着显著的概念差异,这种差异或许可以被称为“高度理性”导向。进化博弈并非引入有意图的、战略性的参与者,而是通过动态系统的时间推进来运作,而动态系统则由个体在与他人进行类似博弈的遭遇中获得的适应度值驱动。在这样的系统中,行为并非由信念更新或复杂的战略考量驱动。相反,玩家通常表现出“低理性”,遵循某些固有的策略。进化系统的大部分动态是由种群策略类型构成的变化所驱动的。即便如此,演化博弈论确实与逻辑相关。像“以牙还牙”(Axelrod & Hamilton 1981)这样的简单策略在演化上的成功,引出了一个问题:复杂的基于逻辑的高理性策略何时才能被同样有效的、简单到足以由自动机或类似的有界智能体模型执行的替代策略所取代(Grädel, Thomas & Wilke 2002)。在更高的抽象层面上,也存在着一条关于逻辑与动态系统之间联系的新兴研究线索,动态系统是分析演化博弈的标准工具。这条线索包括双峰拓扑时间逻辑(Kremer & Mints 2007)、不动点振荡逻辑(van Benthem 2015),以及动态认知更新逻辑与度量空间上动态系统之间的系统性联系(Klein & Rendsvig 2019;2020)。在更具体的层面上,信号博弈是演化博弈的一个重要类型(Lewis 2002;Cho & Kreps 1987;Osborne & Rubinstein 1994;Skyrms 2010;van Rooy 2004),其中主体发送和接收关于世界状态的信号。信号博弈与早期博弈过程中信息流的动态逻辑自然契合。

4.3 结论:博弈理论

本节讨论的主题在文献中的标准性不如前几节。按照正统的解读,本节讨论的各个方面并不被视为博弈论本身的一部分。此处遵循的扩展议程已被 van Benthem、Pacuit 和 Roy(2011)视为一个更大的逻辑方案,并归入“博弈理论”的范畴。其基本思路是,博弈并不能完全决定其结果,因为它们允许各种博弈风格。因此,博弈过程本身或许……包括玩家类型及其随时间的变化,这或许是理解互动的最佳焦点,而非仅仅关注博弈或博弈形式。类似的论点在计算基础中也存在,其中有人提出行为应该是研究的核心主题(Abramsky 2008)。

4.4 进一步的研究方向

信念修正与学习理论 重复博弈中的信念修正与形式学习理论中的限制学习(Kelly 1996)有着天然的相似性。Baltag、Gierasimczuk 和 Smets(2011)从初始认知-信念模型的角度分析学习,在该模型中,有限的信号历史触发学习者修改信念,表现为认知可及性或似真性顺序的变化。事实证明,如上所述的迭代公开声明和迭代彻底升级都是通用的学习方法,尽管只有后者在输入流中存在(有限多个)错误的情况下能够保持这一特性。

目标动态与意图 虽然偏好和目标迄今为止一直被假设为固定且普遍已知的,但这绝非必然。van Otterloo (2005) 提出了一种战略力量的动态逻辑,其中关于玩家意图和偏好的信息可以在游戏过程中公布。Roy (2008) 使用意图公布来简化战略博弈的求解程序。Parikh、Taşdemı̇r 和 Witzel (2013) 的论文中发现了更具体的无关信息流场景,其中代理在游戏过程中操纵其他代理的知识。

游戏变化 在许多现实场景中,玩家并不了解他们正在玩的完整博弈树。即使他们知道,它也可能会在游戏过程中发生变化。或者,至少,玩家可能会尝试改变游戏。4.1.1 节中的博弈树提供了一个具体的例子。其中,E 承诺不向左走,可以避免低效的逆向归纳结果 (1,0)。当该声明具有约束力(例如通过处以罚款)时,它会消除历史记录,并最终导致新的逆向归纳结果 (2,2)。因此,限制一方的自由可以使双方都受益。博弈论对此类情景进行了深入的分析,包括对“廉价言论”(Osborne & Rubinstein 1994)的分析,探讨此类声明何时可信。从逻辑角度来看,这暗示着对信号博弈的分析(van Rooy 2004)。我们尚不清楚是否有任何逻辑研究在这方面开展过。

真实游戏 游戏规范与游戏现实之间的差异在真实游戏中尤为显著,无论是普通客厅游戏中的“自然”游戏(van Ditmarsch & Kooi 2015),还是实验博弈论实验室实验中发现的人工游戏(Camerer 2003)。尽管对游戏进行计算分析的传统由来已久(Schaeffer & van der Herik 2002;Kurzen 2011),但逻辑学家在这方面的研究却很少。任何充分的逻辑分析显然都需要纳入第三节中讨论的关于有限主体的考量。

数学基础 本文讨论的游戏逻辑提出了如何将局部动态与全局动态相衔接的问题。这尤其体现在逻辑极限行为中,即反复进行观察和断言。如前所述,公共声明的极限模型可以是“自我实现的”或“自我反驳的”。在第一种情况下,所断言的属性成为所有主体的共同知识,而在第二种情况下,它最终在现实世界中变为假。随着似真模型的软更新,出现了第三种情况,即无限振荡,甚至发散(Baltag & Smets 2009)。迄今为止,尚无关于这些现象的普遍逻辑理论,但请参见 van Benthem (2011) 关于不动点逻辑在极限模型中的应用、Miller and Moss (2005) 关于有限迭代公告的公共公告逻辑的高复杂性,以及 Klein and Rendsvig (2017) 关于产品更新的极限行为。

极限行为的主题还提出了一个问题,即局部动态代理逻辑与第 4.2.4 节中讨论的全局时态逻辑之间的关系。为了阐明这种联系,van Benthem、Gerbrandy、Hoshi 和 Pacuit (2009) 展示了如何将动态认知逻辑视为更具表达力的时态逻辑的可判定片段。 Baltag、Smets 和 Zvesper (2009) 讨论了相关主题,即动态表征如何通过将信息从时间域转移到动态事件来降低复杂性。

5. 游戏中逻辑与概率的接口

概率是博弈论的核心,它发挥着两个重要的作用。首先,它们构建了玩家对博弈各个方面的不确定性,包括自然状态、面临的对手类型以及其他玩家过去、现在和未来的行动。其次,自博弈论诞生以来(冯·诺依曼和摩根斯特恩,1944),概率随机化就一直致力于扩展智能体的可能行动空间。虽然对此类混合策略的解释一直存在广泛争议(Sugden,1991),但毫无疑问,随机化行动能够显著增加博弈分析的深度。事实上,混合策略的概念对于经典博弈论中的许多开创性成果至关重要,包括有限不完全信息博弈中纳什均衡的存在。

(本章完)

相关推荐