博弈分析逻辑(四)

虽然允许代理缺乏各种信息,但上述分析对玩家做出了一个结构性假设:他们始终知道在给定节点上可以采取哪些行动。在信息不完全的扩展博弈中,这转化为一个要求:每当两个状态对某个代理来说无法区分时,它们在其可能行动的集合上是一致的。 从完美信息到不完美信息的转变对战略推理具有重大影响。在上图中所示的博弈中,玩家 A 无法区分自己处于 m 点还是 m′ 点。当她处于前一个位置时,据她所知,她可能处于 m′ 点。因此,A 的决策需要考虑这两种可能性;她不能基于任何仅在其中一个位置成立的属性来做出选择。具体而言,A 没有可用的策略来保证她最终进入 winA 节点。由于 E 也无法确保获胜,因此没有玩家拥有获胜策略。这与有限完美信息博弈的核心区别在于,有限完美信息博弈中保证其中一名玩家拥有获胜策略,参见 2.4 节。 3.6.2 不完美信息逻辑 关于不完美信息的推理需要扩展语言,用于具有认知模态的扩展形式博弈。对于每个玩家 i,模态 Kiφ 表示 i 的知识。认知逻辑的通常语义将其与不确定性联系起来,由玩家的不可区分关系编码: M,m⊨Kiφ,所有状态 m′ 且 m−−−−im′ 满足 M,m′⊨φ 这种语言可以用上面的博弈树来最好地说明。为此,可以将这棵树解释为一个经典的儿童游戏,其中玩家 A 需要猜测她的对手 E 在哪只手中藏了一些小标记。一旦 E 将令牌藏在右手中(hR 步),猜牌玩家就拥有了制胜的策略:她应该选右(pR)。然而,由于令牌是秘密放置的,她可能不知道选右是制胜的策略:玩家没有制胜的策略。这可以用以下公式表示: M,m⊨[pR]winA∧¬KA[pR]winA。 在博弈论中,Horty 和 Pacuit(2017)以及 van Benthem(2001)研究了“策略”与“策略”的区别。 鉴于这些考虑,许多定义策略的逻辑都涉及认知要素。要求智能体不能基于之前发生的所有事情来选择策略,而只能基于他们已知的信息,即当前信息,这似乎是合理的(Pacuit、Parikh 和 Cogan,2006)。由此产生的统一策略(Maubert 2014)可以通过 Fagin 的知识程序来定义,Halpern 等人 (1997)。进一步的限制是可能的,例如,赋予代理有限的记忆,使其只能追溯固定数量的移动次数 (Gutierrez, Harrenstein, & Wooldridge 2015)。 认知行为语言可以表达不完美信息博弈中的许多其他现象。以下博弈即为例证。 这是一个博弈树图。扩展描述(链接见图注)将描述该树。 图 11. ⓘ 一旦玩家 E 到达节点 n,她就无法区分该节点与节点 n′ 的实际情况。然而,E 必须事先掌握区分 n 和 n′ 的信息:要到达 n,她必须首先选择 a,而只有在选择 b 之后才能到达 n′。因此,只有当 E 忘记了自己之前的操作时,她才能在这两个节点之间犹豫不决。 认知行为语言可以区分此类存在记忆丧失和不存在记忆丧失的场景。完美回忆的性质表明,棋手能够完整地记住他们观察到的所有棋步。这可以用以下公理方案来表达 (Halpern & Vardi 1986; Bonanno 2004): Ki[a]φ→[a]Kiφ。 该方案的逆命题也有一个自然的解释: [a]Kiφ→Ki[a]φ。 “无奇迹”的性质表明,棋手只能通过观察棋步来学习,而不能通过任何其他与游戏无关的方法来学习。 当然,逻辑并不预设所有棋手都拥有完美记忆,也不预设他们无法从游戏进程之外获取任何信息。认知行为语言同样可以用来分析上述公理不成立的更普遍的场景。尤其是在动态认知版本中,认知逻辑可以生成修改版本,其涵盖范围比本文所述更多 (van Benthem 2014)。此外,认知逻辑中的其他模态也是有意义的,特别是那些用于理解玩家群体中共同或分布式知识的模态(Fagin、Halpern 等人,1995;Meyer & van der Hoek,1995)。 具有算子 Ki 的认知组件与许多博弈逻辑视角相契合。具体而言,认知扩展与粗逻辑(例如前面提到的[movei]设置,每个玩家只有一个移动模态)兼容,也与精细逻辑(其中每种单独的行动类型都由不同的模态表示)兼容 [a]。事实上,在第 2.6 节中,认知算子被用于分析战略形式的博弈,其中模态自然地与其他玩家策略的不确定性相关。 3.6.3 关于选项和偏好的不确定性 在更一般的场景中,不确定性并不仅仅局限于对手的信息状态。在国际关系或经济谈判中,玩家的动机和偏好也并非为所有相关方完全了解。在相应的扩展形式博弈中,博弈者可能不确定对手的偏好和战略选择,不确定对手是否能够承担特定行动,或者是否真正掌握了他们威胁要透露的信息。显然,对偏好或可用选项的不确定性会影响博弈均衡的推理。战略博弈者甚至可能试图利用这种不确定性,例如假装拥有他们并不拥有的选项。 在第一次博弈中,这种不确定性可以通过引入自然作为假设博弈者来表达,第一步行动将决定所有博弈者的偏好和可用选项。一个简单的例子如下图所示的博弈。开始时,A 不确定 E 能否通过下 e 来回应 A 的 f 步。同样,她也不知道 E 是更喜欢 O3 还是 O4,反之亦然。 这是上一段的博弈树图。扩展描述(链接见图题)将描述这棵树。 图 12. ⓘ 从逻辑角度来看,大自然这神奇的初始举动并非必要。标准认知模型可以通过上面介绍的不可区分关系来表示上述场景以及许多更复杂的场景。从技术上讲,这需要超越标准的不完美信息树,转向所谓的认知森林(van Benthem、Gerbrandy、Hoshi 和 Pacuit,2009),即由认知关系链接的树集。具体来说,上面的博弈树可以转换为 这有两个博弈树图。扩展描述(链接见图题)将描述这棵树。 图 13. ⓘ 树的认知行为语言在认知森林中同样有效。然而,在表达能力合适的语言中,森林的逻辑性弱于树的逻辑性,因为 n 人树类的有效性集合是 n 人森林有效性的严格超集。 3.6.4 不完美信息和信念 逻辑框架的进一步丰富为代理的不确定性添加了语义结构。当无法确定确切情况时,参与者可以根据似然性对选项进行分类。为此,认知模型已为参与者 i 配备了似然性排序 ≥i (Boutilier 1994; Stalnaker 1968; Baltag & Smets 2008)。 在前面的例子中,似然性排序可能按如下方式工作: 这有两个博弈树图。扩展描述(链接见图题)将描述该树。 图 14.ⓘ 这种更丰富的结构体现在引入新的代理信念模态,这些模态由最可信的状态决定: M,w⊨B i φ φ 在 i 的认知范围内所有≥i个最大ψ状态成立。 条件信念对博弈中的玩家规划至关重要,可以用相同的方式解释: M,w⊨B ψ i φ φ 在 i 的认知范围内所有≥i个最大ψ状态成立。 这些子句旨在在有限和无限环境中发挥作用。然而,在无限情况下,可能需要进行类似于条件逻辑中的细微修改。这些修改已在各种替代方案中提出。值得注意的是,这种丰富的认知-信念逻辑允许除了迄今为止所阐述的解释之外,进行进一步的、不太标准的解释。例如,“强信念”表示所有相关的φ状态都比所有相关的¬φ状态更可信;“安全信念”表示φ在所有至少与当前状态同样可信的状态下成立。参见van Benthem和Smets (2015)对可信语义及其与条件逻辑、信念修正理论、动态认知逻辑以及一系列哲学和技术问题的联系的概述。 3.7 高阶不确定性与类型空间 在各种场景中,代理不仅会推理对手的偏好或可接受的行动,还会推理他们对游戏及其中其他人行为的信念。事实上,这种高阶推理会对游戏玩法产生重大影响。一个典型的例子是3.3节中的逆向归纳法,其中最佳行动关系的构建关键依赖于理性的共同知识。更一般地说,代理的最佳行动通常取决于他们对其他人行动的预期。这种现象在同时移动游戏中尤其明显,它既出现在协调场景(Skyrms 2003;Lewis 2002)中,也出现在竞争场景(Hotelling 1929)中。更多详细信息,请参阅“认知博弈论”条目。 任意的一阶及更高阶的知识和信念水平都可以用上述关系模型来表示,这是认知逻辑和信念逻辑的标准工具。对于扩展形式博弈中的信息,可以将状态的认知信念视角与移动关系相结合,其方式与之前描述的完全相同。结果就是认知信念树或森林,它们可以表示玩家可能拥有的关于博弈的大多数类型的知识或信念,包括博弈的确切形态、先前的移动、对手的偏好,或对手对以上任何一项的一阶及更高阶信念。 除了逻辑之外,高阶信息也在经典博弈论中被建模。定量框架将信息表示为给定事件空间上的概率分布。在这种情况下,高阶信息对应于正确类型的概率分布上的概率分布。更具体地说,n阶信息对应于(n-1)阶信念空间上的概率分布。正如Harsanyi (1967-1968) 所指出的,指定越来越高的信息级别的极限可以表示为一个类型空间,其中每个主体的类型是自然状态和其他参与者类型的概率分布。在下面将要讨论的抽象意义上,这些类型对应于模态逻辑标准模型中的状态。 除了标准模态模型之外,逻辑还有一个与概率类型空间直接类似的类型:逻辑类型空间。在Fagin、Geanakoplos等人(1999)首次提出的形式化框架中,n 型是一个序列 fn=⟨f0,f1…,fn⟩,其中 f0 指定自然状态,即记录哪些原子命题为真或为假的估值,f1 列出所有参与者认为可能的自然状态。然后,当 m≥0 时,fm 为所有参与者指定他们认为哪些 (m−1) 型,即序列 ⟨g0,…,gm−1⟩ 是可能的。通过这种方式,n 型将参与者的高阶信念固定到 n 级。当然,这些类型要符合一致性条件:代理对不同 k 的 k 型必须契合。例如,每当某个代理认为 k 型 fk 可能时,她也必须认为其中 k′n,则 Kiφ 在类型 fn 上为真。 或者,n 类型的集合可以自然地解释为关系模型,其可达性关系定义为: ⟨f0,…fn⟩Ri⟨g0,…gn⟩ 对于所有 m≤n,gm−1∈fm(i) 成立 将 n 类型的集合解释为关系模型,可以得到在逻辑类型空间上评估认知语言的第二种方法。对于模态深度小于 n 的公式,这两种解释是一致的。因此,在有限深度以下,类型空间及其相关的关系模型是对同一信息情境的两个视角。 为了固定所有代理的信念,分析转向类型 f=⟨f0,f1,…⟩,其中包含每个自然数 n 对应的 fn。在这个扩展框架中,情况变得更加复杂。所有这些类型的空间在以下意义上都是普适的:每个关系模型都可以通过将每个状态映射到代理对应的一阶和高阶信息态度的完整描述,以保真方式映射到所有类型的空间。然而,这种映射通常不是模态互模拟。事实上,类型构建过程可以无限持续,从而产生一个相互不相似的超限类型空间层次结构 (Heifetz & Samet 1998)。当认知语言富含共同群体知识的模态时,这种超限类型就会变得有意义,在这种情况下,所有可表达态度的完整描述都涉及无限的高阶信息层次结构 (Fagin, Geanakoplos et al. 1999)。Bjorndahl 和 Halpern (2017) 近期发表了一篇关于类型空间及其概率结构的逻辑研究。 类型空间和关系模型之间的紧密联系与可能施加于玩家心理状态的额外假设相兼容。Fagin、Geanakoplos 等人 (1999) 描述了类型空间何时产生 S5 模型,而 Galeazzi & Lorini (2016) 则对多智能体 KD45 信念模型进行了同样的描述。 虽然关系模型和逻辑类型空间表示完全相同的信息,但它们的主要区别在于视角。关系模型以第三人称的鸟瞰视角看待可能世界。它们的起点是一组足够丰富的世界,足以包含相关智能体认为的所有可能状态,以及用于建模玩家信息的可达性关系。从那里,可以读取智能体在各个世界中的一阶信念,随后还可以读取所有更高级别的信息。相比之下,逻辑类型空间假设第一人称视角。他们将对一阶和高阶信念的完整描述视为原始的,并将不可区分性视为一种派生关系。 最后,需要注意的是,类型空间假设博弈的视角是静态的。它没有明确地表示移动或策略,也没有纳入随着博弈以扩展形式展开而发生的知识和信念更新,参见第4节的讨论。因此,类型空间与早期用于扩展博弈的认知-信念森林模型之间存在一定距离。作为填补这一空白的第一步,已经证明了类型空间如何适应动态认知逻辑的乘积更新(Klein & Pacuit 2014)。 3.8 推理、有限代理和玩家类型 除了偏好和信念的差异之外,玩家的第三个关键方面是他们的信息处理、决策和推理风格。真正的认知主体在信息处理方面是有限的,因为它们的记忆和推理能力都是有限的。具体来说,玩家可能无法代表他们所处的整个游戏,也无法在游戏结束前进行推理。Grossi 和 Turrini (2012) 以及 Turrini (2016) 已经研究了这种短视现象。此外,在现实生活中的迭代社交互动中,收益是在游戏过程中产生的,并且可能事先并不明确 (Axelrod & Hamilton 1981)。在这种情况下,就短期收益而言的最佳策略不一定是长期最优的,但有限代理可能会错过这个更长远的视野 (Klein, Marx, & Scheller 2021)。 关于有限代理的逻辑文献过于广泛,本文无法一一列举。有关博弈论的一些研究方向,请参阅 Fagin 和 Halpern (1987) 以及 Heifetz, Meier,以及Schipper (2006) 关于具有意识的认知逻辑的研究,Artemov (2008) 关于论证逻辑的研究,van Benthem 和 Pacuit (2011) 关于证据逻辑的研究,以及 Hansson (1998) 和 Lorini (2018) 关于具有计算可处理信念基的信念逻辑的研究。 在博弈论文献中,有界代理通常被表示为有限状态机 (Gutierrez, Harrenstein, & Wooldridge 2015; Binmore & Samuelson 1992)。推理能力或内存大小的限制转化为机器大小的限制。由此产生的层次结构允许对信息处理、推理以及不同类型的有界参与者进行细粒度的分析。这种观点与计算机科学中对代理的逻辑研究非常契合 (Grädel, Thomas, & Wilke 2002; Wooldridge 2009)。 从综合视角来看,偏好、信念和推理风格都可以归入博弈论中“玩家类型”的概念。因此,为了推理博弈的未来走向,玩家通常会考虑彼此类型的信念。一个简单的例子是逆向归纳法,玩家始终假设所有对手都是完全理性的。在更复杂的环境中,个体行为者可能会尝试将观察到的各种举动合理化,并通过考虑更广泛的选项来预测对手的未来行为。这类玩家可能首先假设对手是一台简单的机器,只有在证据需要时才会转向更复杂的观点。尤其需要注意的是,没有理由假设玩家或观点的一致性。在给定场景中,可能存在多种类型的玩家(Liu 2009;Liu & Wang 2013;Paul & Ramanujam 2011;Ghosh & Verbrugge 2018;Bergwerff et al. 2014)。有关最常见玩家类型的一些博弈论提案,请参阅 Camerer (2003)。 3.9 玩家的薄模型和厚模型 本节概述了将玩家和主体性融入游戏形式的各种方法。这些方法的丰富程度各不相同,从带注释的博弈树到认知森林、类型空间,再到更抽象的游戏模型。 在较薄的一端,重点关注游戏的结构方面,包含玩家的偏好,但不一定包含他们的信念。此类框架通常仅够丰富地表示均衡或逆向归纳路径,并能够根据行动和偏好的逻辑对其进行推理。薄模型会遗漏许多关于玩家知识、信念或其行为方式的信息,并且较少关注游戏玩法的实际动态。 在较厚的一端,游戏模型拥有丰富的世界,编码了玩家的偏好、信息、信念,甚至可能是他们的完整类型,包括记忆和推理能力。这类典型模型可见于 Stalnaker (1998) 和 Halpern (2001) 的著作中。当应用于扩展博弈而非战略博弈时,厚模型可以预测在一个庞大的时间域中可能发生的任何事情,从而能够全面预测博弈的进展。 厚逻辑模型和薄逻辑模型之间的区别在应用逻辑中似乎只是民间传说。事实上,这种区别在前面提到的单步模态局部逻辑和基于完整历史域的时间逻辑之间的选择中已经出现。然而,似乎并不存在唯一的最佳视角。相反,厚模型和薄模型之间的选择通常取决于所追求的具体目标。这种权衡的核心考量在于逐步博弈的动态应该位于何处:厚模型预先编码了此类动态,而薄模型则允许外部动态逻辑进行更新(Baltag、Smets 和 Zvesper,2009)。下一节将重点介绍几种通过行动和更新的表征,用博弈动态信息补充薄视角的方法。
(本章完)

相关推荐