分析游戏的逻辑(六)
在早期的BI分析中,既不是为了以信仰占据主导地位,所以没有搬迁。 现在考虑每个玩家的两种可能的策略简介,并计算NASH均衡:
(左,右)不是纳什均衡,因为A扮演权利会更好,但(左,左)是。
这说明了对战略和广泛的游戏的逻辑视角的差异。 前者的原始元素策略是后者的游戏树中的复杂对象,不能在单独的单个节点的级别完全识别。 经典博弈理论中的连接视角的相关点引起了Sumgame Perfect Nash equilibria的概念(Selten 1975)。
进一步的情景在审议方面铸造游戏解决方案使其成为内部心理过程:通常对手不会坐在一起,提前讨论他们的游戏,但对对手可能的行动和考虑的原因。 然而,上面介绍的审议技术也适用于真正的会话情景。 与游戏理论有关的一个例子是分歧的主题,首先由AuMann 1976年的大型概念意识到不同意结果。 Dégremont和Roy(2012)调查了这个主题,具有动态逻辑技术,在Geanakoplos和Polemarchakis(1982)的古典结果上。 在此框架中,代理程序不断遵循它们是否认为某种公式φ在极限模型中的协议中,任何对话,那么更新不再具有任何效果。 简要说,代理商不能不同意,至少在不同的艰难信息时,同时共享良好的合理秩序。
4.2信息流动,知识和相信在游戏期间
游戏游戏是一种动态过程,玩家反复获得有关其他玩家的新信息。 信息收集的某些方面是硬链接到游戏的结构,例如观察移动,或者在不完美观察的设置中,从一个信息状态转换到另一个信息。 其他更新可能是无关的,例如关于对手类型的信号正在处理。 截至目前,没有一般逻辑理论包含所有这些现象。 然而,存在指导样本。 第一个要解决的主题涉及球员的知识,第二个主题。
4.2.1认知更新和不完美的信息
在一个视角下,使用不完美信息单元的游戏可以解释为记录实际播放的过程。 但是,不完美的信息树不足以完全指定真实游戏的迹线。 这提出了关于如何挑剔真正发生的事情的问题。 一种分析涉及动态认知逻辑的技术。 在这种方法中,玩家被认为有完美的召回,他们曾经忘记任何事情,他们曾经知道过,同时也不满足奇迹:观察实际的游戏播放是他们唯一的信息来源,(参见第3.6节第3.6节)。
在第一个近似时,每次移动都会触发公开公告,通知所有玩家刚刚发生的事情。 然而,许多游戏包括部分可观察的动作,其中一些玩家仅仅要了解已经进行了行动,但不一定是这样的。 在这种情况下,信息处理需要从动态认知逻辑(CF.Baltag&Moss 2004)的产品更新,允许适当的知识和不确定性混合。
用更新装饰游戏树的示例。
下图的左侧显示了游戏的裸行动结构,而无需任何关于可观察性的信息。 然而,在移动时,玩家可以区分自己的行为,但并非所有的对手都会举动。 他们的精确观察力由个人移动的事件模型描述(参见Van Ditmarsch,Van der Hoek,&Kooi 2007)。
这是一个游戏树图和说明示例的事件模型。 扩展描述(图标题中的链接)将描述树。
图18.ⓘ
可能移动的观察结构是通过相应节点之间的关系编码的,如对于不完美信息的游戏(第3.6节)所述。 以下是在树中创建不确定性链接的连续更新:
这三个图表表示更新。 扩展描述(图标题中的链接)将描述树。
图19.ⓘ
由此产生的注释树是以下不完美的信息游戏:
这是说明示例的游戏树图。 扩展描述(图标题中的链接)将描述树。
图20.ⓘ
类似的分析适用于无限的树以及认知森林(参见第3.6节)。 更一般地,从信息更新可能会出现任何不完美的信息结构,提供的玩家满足完美的召回,没有奇迹,并且在游戏中移动具有控制其可用性的逻辑可定义的前提。 精确的配方和证据可以在Van Benthem,Gerbrandy,Hoshi和Pacuit(2009)中找到。 在Dégremont,Löwe和Witzel(2011)中提供了没有假设同步性的游戏播放的概括。
没有奇迹和完美的召回是游戏理论中大多数类型代理的典型假设。 但是,某些情况需要修改,(参见奥斯本和鲁比斯坦1994年“醉酒司机的方案”)。 此外,如果玩家代表为有限自动机,(参见第3.8节),完美的召回失败,并且可能的不确定性模式变得可能。 可以在Liu(2011)中找到无内存和内存有限播放器的特征结果。
除了在游戏设置中内置的观测限制之外,产品更新还可以模拟外部通信或与实际播放并行的其他信息流。 一些这样的情景将在下面的进一步方向下列出。
4.2.2信仰修订和前锋归纳
某些类型的信息可以判断不确定或不完全可靠。 虽然不适合推进知识,但这些信息可能会提示代理商来改变他们的一些信仰。 此类不确定的证据往往涉及对对手的球员类型的预期。 抛开误测可能性的可能性,可以假设所有动作都是由故意的战略考虑来引起的。 通过解释对手的过去的动作,代理商可以推断他们的信仰,偏好,风险态度或推理类型。 当然,大多数此类观察都没有完全决定。 因此,相应的更新无法删除任何备选方案。 相反,它们只是改变了不同选项之间的代理人的合理性排序≤i。 正式地,这可以通过引入后向感应的合理性更新来处理。 但是,解释不同。 在这里,这些更新不代表在Pregame审议中的步骤,而是在游戏期间的实际移动结果。 除了上面介绍的激进升级外,在BALTAG和SMET中定义了反映对所获取的信息不同态度的许多进一步更新策略(2008)。 在游戏中的系统合理性更新中可能出现的认知合理模式已经在Dégremont(2010年)中,使用了早期完美召回的两个对应物,没有奇迹属性:'合理启示'和'合理性传播'。
这些结果是指在比赛中信仰的一个方面。 还有其他人。 进一步类型的信仰描述了过去经验或审议生成的比赛的态度。 另一个是指基于在比赛期间的先前观察的游戏树中的代理人的信念。 为了使这些概念分开,可以区分在比赛中的比赛和未来导向的“期望”期间更为局部的“信仰”。 例如,由后向归纳创建的合理性订单描述了关于未来游戏播放的期望。 这些不是基于目前游戏中已经制造的观察,并且显着地未能满足合理性启示和传播的性质。 这是一个特定的逻辑信念及其修订,即独立的游戏理论兴趣。
前瞻性诱导假设某些玩家偏离了她在游戏前审议中计算的后向感应策略。 其他人是什么? 文献中提供的答案范围从解释偏差作为错误,没有任何未来的影响(AUMANN 1995)以各种方式视为重要(Bicchieri 1993)。 在后一静脉中,偏差可能是合作(可信或不)的信号,资源有限的标志,或者它可以揭示有关玩家类型的其他相关信息。
更明确地,情况有以下方面。 在游戏的任何阶段,玩家都有几种类型的信息,包括他们之前对游戏如何进行的预期,也许沿途的令人惊讶的观察。 如果游戏是继续进一步的,就像在标有下面标记的状态一样,代理商需要将两者都集成到对未来游戏过程中的期望。
这是说明前一段的游戏树图。 扩展描述(图标题中的链接)将描述树。
图21.ⓘ
合理化没有独特的最佳方式来集成各种信息。 然而,自然选择是保持对手的假设,以前的意义拍摄。 假设偏好是共同的知识,观察到的动作因此提供有关对手信仰的新信息。 更具体地说,这些信念有两个组成部分:对其他玩家的期望,以及对自己未来行动的意图。 然后是驾驶原理
通过演奏举措合理化,一个理性的球员会传达这一举措不会对她严格主导。
显然,只要玩家没有选择在所有情况下严格统治的举措,只能维持合理化。 在这种情况下,人们必须提升对对手的进一步假设的阶梯,包括她犯错误的可能性。
上述类型的推理政策称为前向诱导。 Battigalli和Siniscalchi(2002)和Brandenburger(2007年),根据其已知的紧密联系,以迭代删除战略形式游戏中的弱势统治策略,分析了广泛形式的游戏的前锋诱导。 以下示例涉及明确推理来自佩雷(2012年)。
示例是前向感应方案。
这是说明示例的游戏树图。 扩展描述(图标题中的链接)将描述树。
图22.ⓘ
在Matrix游戏中,没有任何举措占据任何其他。 因此E应考虑所有可能的结果。 在这种情况下,剩下的是对她来说比正确更安全,因此应该在开始时留下。 但是,如果e合理化,并观察到对,她在她的选择节点上有额外的信息。 在理性假设之后,期望做得好比3更好,只有在他打算在矩阵游戏中发挥作用。 现在,这告诉E要继续矩阵并在其中播放左列。 E的结果比她的原始安全选项中的2个更好的回报。
从逻辑的角度来看,前向诱导的研究需要具有三元世界依赖合理关系的认知 - Doxastic模型,结合上述公共公告更新或合理性升级(第4.1.2节;参见。van Benthem 2014)。 到目前为止发布了对前向感应的明确逻辑分析。
4.2.3后游戏后的合理化
在游戏之后,文学中的文献中已经支付了相对较少的关注。 然而,这些后续活动往往是至关重要的,例如为了建立一般的经验教训,可能对未来的游戏游戏可能是有价值的。 这种解释在小型或隔离群体中尤其突出,在未来可能会再次遇到同一对手。
在简单级别的游戏之后的偏好变化,游戏后活动可以在设置或改变时包括,第二个输入参数在信仰之外的理性选择:玩家的偏好。 几种民间传说结果与此选项有关。 例如,当与具有已知偏好的另一个玩家的给定策略进行播放时,可以通过在结果中选择合适的偏好来合理地进行任何策略。 刘(2011)讨论了使用偏好变化的动态逻辑的基于初始合理化算法。
在游戏期间也会发生偏好变更。 玩家可能会收到有关游戏终端状态及其属性的新信息。 他们也可能遵循权威的命令或建议,建立偏好或逆转前一位。 相关的,玩家可以在游戏中改变他们的外部目标,或者他们可以根据“酸葡萄”(ELSTER 1983)的现象来调整他们的偏好。
4.2.4在长期的时间视角下播放
本节的主要焦点是在单一游戏期间和之后发生的局部动态。 还有更广泛的时间的时间,其中所有这些活动都嵌入了扩展的时间宇宙中,足够大以包括游戏的所有可能的轨迹,有限或不含无限。 在进化博弈论中,特别是无限游戏通常会因迭代的有限游戏发挥,刘易斯的信令游戏(2002)是哲学中突出的例子。
假设延长的无限时间透视提出了有关球员战略远见和适应的其他问题(克里斯托夫2016)。 在这方面,各种长期视角急剧差异,从进化博弈论典型的最小合理假设到预期他们选择的长期影响的代理商的高推理复杂性。
在第2.10节简要暗示无限游戏形式的同时,无限播放,无限游戏随着时间的推移而侧重于代理。 已经提出了这一结束的一系列时间逻辑,包括解释系统(Fagin,Halpern等,1995),认知时间逻辑(Parikh&Ramanujam 2003),Stit(Belnap&Perloff 1988; 2002年Horty&Belnap 1995),Atl(Alur,Henzinger,&Kupferman 2002; Van der Hoek&Wooldridge 2003)和其他人。 这些系统中的许多组合了多种方式。 因此,它们的复杂性可以非常高(不可透明,非公正,甚至非算术),因为Halpern&Vardi(1986)在结合时间和知识的情况下表现出开创性的研究。 调查此领域超出了本入口的范围,CF。 在时间逻辑上的条目。 在Van Benthem和Pacuit(2006)中介绍了各种范式之间的联系的统一视图。
这是树图。 扩展描述(图标题中的链接)将描述树。
图23.ⓘ
就像有限的游戏一样,必须指定参与者的偏好,以便在潜在无限游戏中学习均衡。 在缺乏结论节点或最终时刻来附加偏好,因此在球员的目标方面自然地想到,表示为属性,游戏的历史应该满足。 这种目标可能是某些特定时刻的当地命题事实。 但是,目标还可以涉及历史的全局性质,例如避免或达到相同的位置一些指定的次数,或者更加抽象地,在某种适当的意义上实现安全性或公平性。 所有此类属性都可以以时间逻辑指定。 对于Linear Temporal Logic(LTL)的情况,Gutierrez,Harrenstein和Wooldridge(2015)的“布尔游戏”(2015年)已经开发了基于时间目标的深度方法。 值得注意的是,此框架验证了迭代游戏的“民间定理”的逻辑版本,CF. 奥斯本&鲁宾斯坦(1994年):在目标的自然条件下,迭代游戏可以在基础游戏的纳什均衡上具有新的均衡而不稳定。 颞逻辑连接博弈论与信仰修订理论的进一步重大用途(Battgalli&Bonanno 1999; Perea 2012; Stalnaker 1998)。
进化博弈论和动态系统突出的迭代游戏发生在进化博弈论中(Maynard Smith 1982; Hofbauer&Sigmund 1998; Gintis 2000),这是一个在生物学中具有许多应用的框架,正式社会学,但也是语言学和哲学(Lewis 2002; Skyrms 2010;亚历山大2007; Clark 2012)。
迄今为止,沿着本入口尺寸的进化游戏的逻辑分析,已经完成了一点工作。 事实上,进化游戏与此处追求的分析风格之间存在突出的概念差异,这可能被称为高度理性的导向。 而不是纳入故意,战略演员,通过动态系统的时间进展,而是由衍生自与他人的游戏遭遇的个人的健身价值的动态系统的时间进展。 在这样的系统内,行为不是由信仰更新或复杂的战略考虑因素驱动。 相反,玩家通常会显示出某些硬连线策略的“低合理性”。 然后,大部分进化系统的动态受到策略类型的组成的变化。
即便如此,进化博弈论确实邀请与逻辑的连接。 简单策略的进化成功如山雀 - TAT(Axelrod&Hamilton 1981)提出了刚刚基于复杂的高合理性策略的问题,这些问题可以通过同样有效的替代方案更换,以便通过自动机或类似型号扮演有界代理人(格拉德尔,托马斯和Wilke 2002)。 在更高级别的抽象中,还存在初期研究逻辑和动态系统之间的连接,是分析进化游戏的标准工具。 该股线包括双峰拓扑逻辑的时间(克雷梅勒和薄荷和薄荷2007),振荡的固定点逻辑(Van Benthem 2015),以及在公制的动态认知更新逻辑和动态系统之间的系统联系空间(Klein&Rendsvig 2019; 2020)。 在许多冷却水平中,一个重要的进化游戏都是发信徒游戏(Lewis 2002; Cho&Kreps 1987; Osborne&Rubinstein 1994; Skyrms 2010:Van Roy 2004),代理商发送和接收关于状态的信号世界。 信号游戏自然地与播放期间的信息流的早期动态逻辑相匹配。
4.3结论:游戏理论
本节中讨论的主题在文献中的标准较低,而不是之前的部分。 在正统阅读中,解决的各个方面都不被认为是博弈论的一部分。 此处随访的扩展议程已由Van Benthem,Pacuit和Roy(2011)作为逻辑的更大计划,并在“戏剧理论”下。 潜在的推理线是游戏没有完全确定其结果,因为它们允许各种各样的戏剧。 因此,它可能是播放本身的过程,包括玩家类型以及它们如何随时间变化,这可能是了解互动的最佳重点,而不是仅仅是游戏或游戏形式。 在计算的基础上,可以在建议的基础上找到类似的论点,其中应该是行为的基本主题(Abramsky 2008)。
4.4进一步方向
相信修正和学习理论在重复游戏中的信仰修正具有自然相似,以限制正式学习理论的学习(Kelly 1996)。 Baltag,Gierasimczuk和Smets(2011)分析了初始认识性 - Doxastic模型的学习,其中信号的有限历史触发学习者来修改信仰,表示为认知可访问性或合理性顺序的变化。 事实证明,如上所述的迭代公告和迭代的激进升级是普遍学习方法,但只有后者在输入流中存在(有限许多)错误的情况下只能保持此属性。
到目前为止,偏好和目标的目标动态和意图已被假定固定和普遍已知,这绝不是必要的。 Van Otterloo(2005)呈现了一个有关战略权力的动态逻辑,可以在比赛期间公布有关播放器意图和偏好的信息。 ROY(2008)使用意图公告来获得战略游戏的简化解决方案程序。 在Parikh,Taşdemığr和Witzel(2013)中找到了更具体的外来信息流程,代理在游戏期间操纵他人的知识。
游戏变化在许多现实生活中,玩家不知道他们正在玩的完整游戏树。 即使他们这样做,也可能在剧中改变。 或者,至少,玩家可能会尝试改变游戏。 在4.1.1节中的游戏树提供了一个具体的例子。 在那里,通过有希望的不留下,可以避免效率低下的向后感应结果(1,0)。 当绑定(例如通过强加一项罚款)时,本公告消除了历史,并且因此,新的后向感应结果(2,2)结果。 因此,通过限制一个人的自由,可以更好地完成两个玩家。 博弈论具有这种情况的复杂分析,包括对“廉价谈话”(Osborne&Rubinstein 1994)的分析,何时询问这些公告是可信的。 在逻辑方面,这表明了对信号游戏的分析(Van Roy 2004)。 我们不知道在这个方向上完成的任何逻辑工作。
真正的游戏在游戏的规范和游戏现实之间的差异在真正的游戏中特别引人注目,其中任何一个“自然”游戏中的普通游戏(Van Ditmarsch&Kooge 2015),或者在实验实验实验实验中发现的人工博弈论(Camerer 2003)。 逻辑学家在这个领域中完成了一点工作,尽管对游戏的计算分析具有广泛的传统(Schaeffer&Van der Herik 2002; Kurzen 2011)。 任何充分的逻辑分析都明确需要纳入第3节讨论的有限机构的考虑因素。