分析游戏的逻辑(四)
3.5目标
概括胜利或失败的概念,可以在游戏中分配他们追求的目标。 限制每个代理人的单一目标保留了二进制视角:达到目标。 但是,目标允许额外的灵活性。 除了纯粹的竞争中,这些除了在Win-Lase比赛中,这些还可以表达纯粹的协调游戏,每个人都追求相同的目标,或混合动机游戏,不同的球员的目标之间的部分重叠。
目标函数的概念在布尔游戏的逻辑框架中尤为突出(Harrenstein 2004)。 在那里,每个代理人都控制着一些原子命题,允许她自由地决定他们的真实价值。 然后将目标制定为所有参与者原子集的命题公式。 至关重要的是,玩家的目标配方可能涉及不在她控制下的原子。 在迭代广泛的布尔游戏中,目标公式也可能指在时间逻辑中定义的游戏历史(Gutierrez,Harrenstein,&Wooldridge 2015)的属性
3.6知识,信仰和信息限制
有各种类型的信息玩家可以拥有或缺乏游戏。 首先,玩家可能不确定他们面临的对手类型:他们的偏好,他们对游戏的推理以及他们对游戏如何展开。 其次,代理商的不确定性可以延伸到游戏本身。 球员当然'不会知道他们的对手在同时移动游戏中选择。 此外,代理商还可能有有关过去移动和事件的有限信息。 这种不确定性可以从游戏结构中避免某些观察,但也无法正确记录过去的信息。 在更加极端的情况下,代理商甚至可能不确定对手的动作。
鉴于他们的知识的各种局限性,玩家可以招待信仰来构建他们的不确定性。 这种信念可以自然地随着时间的推移而变化,因为玩家沟通或观察游戏展开。 在斯塔纳克(1998年)中强调了信仰对游戏逻辑分析的重要性,他是第一个强调信仰修订在分析游戏解决方案的推理中的作用。
3.6.1移动的不确定性
在一种不确定性的感觉中,即使是高度理想的代理商也可能有但是到目前为止发生了什么信息。 在某些情况下,游戏的结构可能会限制他们对手移动的一些球员的观察力。 在其他情况下,代理人可能会在认知限制下受到限制对游戏的看法的影响。 或者,有时候,代理商可能只会记录自己或其他人所做的一些动作。
在具有不完美信息的广泛游戏中,所有此类案例都是由欺诈性关系表示的----状态M,M,表示代理A无法区分M和M'。 值得注意的是,这并不排除玩家在游戏中以后学习他是否已经在M或M'。
示例一个具有不完美信息的游戏。
这是说明示例的游戏树图。 扩展描述(图标题中的链接)将描述树。
图10.ⓘ
在允许代理商缺乏各种信息的同时,上述分析对玩家进行了一个结构假设:它们总是知道在给定节点上可用的动作。 在具有不完美信息的广泛游戏中,这转化为要求两种州对某些代理人无法区分时,它们恰恰在可能的行动方面重演。
从完美到不完美信息的举动对战略推理具有重大影响。 在上面描绘的游戏中,玩家A不能区分在M和M'之间。 当在前者时,她可能会因为她所知道的,而不是M'而不是。 因此,A的决定需要考虑两种可能性; 她不能将她的选择基于任何只有这些地方持有的财产。 特别是,A没有可用的策略,保证她最终在WinA节点中结束。 由于E要确保赢得胜利,因此没有玩家具有胜利策略。 这是一个带有有限完美信息游戏的中心区别,保证其中一个玩家有一个获胜战略,CF。 第2.4节。
3.6.2不完美信息的逻辑
对不完美信息的推理需要扩展与认知方式的广泛形式游戏的语言。 对于每个玩家I,模态Kiφ代表了我的知识。 常见的认知逻辑的语义将这与不确定性的不确定性相关,因为参与者的诽谤性关系编码:
m,m⊨kiφ所有状态m'带m ---- im'满足m,m'⊨φ
这种语言最好用上面的游戏树说明。 为此,将树解释为经典的儿童游戏,其中一个玩家,一个,必须猜到她的对手,e,隐藏一些小象征。 一旦e隐藏了令牌,说,她的右手(移动人力资源),猜测的球员都有一个获胜的举动:她应该选择权利(公关)。 然而,随着令牌的秘密被置于秘密,她可能不知道采摘权利是一个获胜的举措:玩家没有赢得战略de dicto。 这表达了:
是,m⊨[pr]wina∧¬ka[pr]维纳。
在游戏理论上,通过Horty And Pacuit(2017年)和Van Benthem(2001)研究了De Re与De Dicto Sectionction。
根据这些考虑,用于定义策略的许多逻辑涉及认知元素。 要求代理商无法基于他们之前发生的一切的战略,但只有他们所知道的,即他们目前的信息(Pacuit,Parikh,&Cogan 2006),这似乎是合理的。 由此产生的统一策略(Mahbert 2014),可以由Fagin,Halpern等人的知识程序定义。 (1997)。 进一步限制是可能的,例如授予代理有限的内存,只达到固定数量的移动(Gutierrez,Harrenstein,&Wooldridge 2015)。
认知动作语言可以在不完美的信息游戏中表达许多进一步的现象。 以下游戏是插图。
这是一个游戏树图。 扩展描述(图标题中的链接)将描述树。
图11.ⓘ
一旦玩家E到达节点N,她就无法辨别来自节点N'的实际情况。 但是,E必须先拥有关于N'的信息,从N'区分:到达N,她必须像她一样扮演过她的第一选择,而N'只能在发挥B之后达到。 因此,如果她忘记了她自己以前的行动,这两个节点之间只能不确定。
认知动作语言可以区分这种情况,内存丢失和那些没有。 完美召回的属性指出,玩家保留了他们所观察到的所有动作的全部内存。 这可以由以下Axiom方案表示(Halpern&Vardi 1986; Bonanno 2004)
ki [一个]φ→[一个]kiφ。
此计划的匡威承认自然解释:
[一个]kiφ→ki [一个]φ。
这没有奇迹属性表达球员只能通过观察移动,而不是通过任何其他方法来学习。
当然,逻辑不会预先假定所有玩家都有完美的记忆,或者他们无法在戏剧进展之外拿起任何信息。 认知动作语言同样可以采用以分析上述公理不持有的更通用情景。 特别是在动态认知版本中,认知逻辑可以产生修改的版本,该版本涵盖了比此处所述的更多案例(Van Benthem 2014)。 此外,认知逻辑的其他方式是有意义的,特别是参与者组(Fagin,Halpern等,1995; Meyer&Van der Hok 1995)。
与运营商KI的认知组件适合游戏中的许多逻辑视角。 特别地,认知扩展与粗逻辑一样兼容,例如早期的[MOVEI] - 每个玩家的单个移动模态 - 与单个逻辑一样,其中每个单独的动作类型由不同的模态[A]表示。 事实上,在第2.6节中,认知运营商被用于以战略形式分析游戏,其中方式与其他球员战略的不确定性有关。
3.6.3选项和偏好的不确定性
在更常规的环境中,不确定性不会停止对手的信息状态。 在国际关系或经济谈判中,也没有涉及的各方都不完全了解球员的动机和偏好。 在相应的扩展表格游戏中,玩家可能不确定他们的对手的偏好和战略选择,无论他们是否能够提供一定的举措,还是他们是否实际上拥有他们威胁要揭示的信息。 显然,偏好或可用选项的不确定性将影响关于游戏的均衡的推理。 战略玩家甚至可能会尝试利用这种不确定性,例如通过假装有选择,他们不拥有。
在第一次通过中,这种类型的不确定性可以通过将性质作为假设的播放器引入自然来表示,第一步是确定所有玩家的偏好和可用选项。 一个简单的例子是下面描绘的游戏。 在开始时,A不确定E通过播放e是否可以回复A的移动F. 同样,她缺乏关于E是否更喜欢O3的信息,反之亦然。
这是前一段的游戏树图。 扩展描述(图标题中的链接)将描述树。
图12.ⓘ
从逻辑的角度来看,不需要这种神奇的初始初始迁移。 标准认知模型可以代表上面的场景,并且通过上面介绍的难以区分关系来代表上述情景和更多复杂的情景。 从技术上讲,这需要超越标准的不完美信息树,以所谓的认知森林(Van Benthem,Gerbrandy,Hoshi,&Pacuit 2009),由认知关系联系的树木。 特别是,上面的游戏树转换为
这有两个游戏树图。 扩展描述(图标题中的链接)将描述树。
图13.ⓘ
树木的认知动作语言在认知森林中也运用。 然而,以适当的表达语言,森林的逻辑比树木的逻辑较弱,因为N-Player树上的一套有效性是N型球员森林的有效性的严格超集。
3.6.4不完美的信息和信仰
逻辑框架的进一步富集为代理商的不确定性增加了语义结构。 当无法确定确切的情况时,播放器可能会对合理性分类选项。 为此,事实上的模型已经配备了合理的排序≥为玩家I(Boutilier 1994; Stalnaker 1968; Baltag和Smets 2008)。
在前面的示例中,Plausibility顺序可能如下工作:
这有两个游戏树图。 扩展描述(图标题中的链接)将描述树。
图14.ⓘ
通过为代理人的信念引入新的方式来反映这种更丰富的结构,由最合理的状态决定:
是,w⊨b
一世
φφ在I的认知范围内存在于所有≥I最大状态。
有条件的信念,对于游戏中的玩家规划很重要,可以以相同的方式解释:
是,w⊨b
ψ
一世
φφ在I的认知范围内存在所有≥Im最大的ψ状态。
这些条款旨在在有限情况下工作,以及无限设置。 但是,在后一种情况下,可能需要轻微的修改,类似于条件逻辑的修改。 这些已在各种替代方案中提出。 值得注意的是,这种丰富的认知 - Doxastic逻辑允许进一步,更少的标准解释,超出到目前为止所示的那些。 例子是“强烈的信念”,表达所有相关的φ-州比所有相关¬φ状态更合理,或者“安全信念”说φ保持在所有状态,至少与当前的所有州。 参见梵洁和SMET(2015)以概述合理性语义及其与条件逻辑,信仰修订理论,动态认识逻辑以及广泛的哲学和技术问题的联系。
3.7高阶不确定性和型空间
在各种场景中,代理商不仅是关于对手的偏好或可接受的动作,而且还会关于他们对游戏的信念以及其中的其他人的行为。 事实上,这种更高级的推理可能对游戏的影响可能产生重大影响。 主要示例是第3.3节的后向感应过程,其中建立最佳的移动关系至关重要的是依赖于合理性的共同知识。 更一般地说,代理商的最佳动作频繁依赖于他们期望的其他人。 这种现象对于同时移动游戏特别突出,在协调场景(Skyrms 2003; Lewis 2002)以及竞争者(Hotelling 1929)中发生。 在认知博弈论的条目中可以找到更多细节。
任意的第一和高阶的知识和信念可以用上述关系模型来表示,所以认知和Doxastic逻辑中的标准工具。 出于广泛的形式游戏中的信息,在各州的认知性 - Doxastic透视可以与之前描述的方式的移动关系相结合。 结果是至少可以代表大多数知识或信仰玩家可能对游戏的森林或森林,包括其确切的形状,以前的动作,对手的偏好或对手的首先和更高阶的信仰。
在逻辑之外,高阶信息也在古典博弈论中建模。 定量框架代表了给定的事件空间上的概率分布。 在该设置中,高阶信息对应于合适类型的概率分布的概率分布。 更具体地,第n个订单信息对应于(n-1)订单信仰的空间上的概率分布。 如Harsanyi(1967-1968)所示,指定更高和更高级别的信息的极限可以表示为类型空间,其中每个代理类型是自然状态和其他玩家类型的概率分布。 在下面讨论的抽象意义上,这些类型对应于模态逻辑标准模型中的状态。
除标准模态模型外,逻辑还具有概率类型空间的简单模拟:逻辑类型空间。 在Fagin,Geanakoplos等人首次介绍的正式框架中。 (1999),n型是序列Fn =⟨f0,f1 ...,fn⟩,其中f0指定自然状态,即原子命令是真实的或假的估值记录,以及所有球员的F1列表自然界他们认为可能。 M≥0的FM然后指定所有(M-1)型,即序列⟨g0,...,gm-1⟩的所有玩家都认为可能。 通过这种方式,将玩家的高阶信仰固定在级别n级。 当然,这些类型受到相干条件:不同k的代理的K型必须合适。 例如,每当某些代理考虑可能的K型FK时,她还必须考虑k' n,则kiφ为真。
或者,该组N类型允许自然解释为具有可访问关系的关系模型
⟨f0,...fn⟩ri⟨g0,...gnə为所有m≤n持有gm-1∈fm(i)
解释作为关系模型的N-Type集产生了一种在逻辑类型空间上评估认知语言的第二种方式。 对于少于N的模态深度的公式,两种解释一致。 因此,达到有限的深度,型空间及其相关的关系模型是相同信息情况的两个视角。
为了解决所有代理的信念,分析移动到类型F =⟨f0,f1,......,包含一些自然数n的fn。 在这个扩展框架中,情况变得更加复杂。 所有此类类型的空间在以下意义上是普遍的:通过将每个态发送到代理对应的第一和高阶信息态度的完整描述,每个关系模型都可以以真实的方式映射到所有类型的空间。 然而,该地图通常不是模拟的模拟。 事实上,型型结构的过程可以无限期地继续,产生相互非双歧格式空间的经细制层次结构(Heifetz和Samet 1998)。 当认知语言丰富了共同群体知识的方式时,这种转翼类型可以变得相关,在这种情况下,所有可表达态度的完整描述涉及高阶信息的无限层次结构(Fagin,Geanakoplos等。1999)。 最近对包括其概率结构的型空间的逻辑研究可以在Bjorndahl和Halpern(2017)中找到。
空间和关系模型之间的紧密连接与可能对玩家心理状态施加的额外假设兼容。 Fagin,Geanakoplos等。 (1999)表征何时型空间带来S5型号,而Galeazzi&Lorini(2016)对多智能剂KD45信仰做同样的事情。
虽然关系模型和逻辑类型空间代表完全相同的信息,但它们的主要差异是透视图。 关系模型在可能的世界中占据了第三人的眼睛视野。 他们的起点是一组富有足够丰富的世界,可以包含相关代理人认为可能的所有国家,以及可访问性关系建模玩家信息。 从那里,可以读出各种世界的代理人的一阶信念,随后,也可以读出所有更高层次的信息。 相比之下,逻辑类型空间假设第一人称视角。 他们将第一和高阶信仰的完整描述为原始的,并将无法区分作为派生关系进行治疗。
最后,应该注意的是,类型空间在游戏中假设静态透视图。 没有明确代表举措或战略的任何规定,也没有用于纳入知识和信仰的更新,以广泛的形式展开,参见 在第4节中的讨论,类型空间与早期的血型森林模型之间存在一定的距离。 作为填补这一差距的第一步,已经显示了空间型如何容纳动态认知逻辑(Klein&Pacuit 2014)的产品更新。
3.8推理,有界机构和球员类型
除了偏好和信仰的变化之外,玩家的第三个关键方面是他们的信息处理,决策和推理方式。 实际认知代理在其信息处理中界定,因为它们的存储器和推理能力都有限。 特别是,玩家可能无法代表他们进入的整个游戏,也不能理由直到比赛结束。 Grossi and Turrini(2012年)和Turrini(2016年)已经研究了这种短视的这种现象。 此外,在现实生活中迭代社会互动中,游戏产生的收益,可能不会清楚地清除(Axelrod&Hamilton 1981)。 在这种情况下,在短期收益方面,最佳策略在长期不需要最佳状态,但有界的代理人可能会错过这个更长的地平线,(Klein,Marx和Scheller 2021)。
有界机构的逻辑文学过于广泛才能在这里进行调查。 对于一些与游戏相关的研究线,请参阅Fagin和Halpern(1987)和Heifetz,Meier和Schipper(2006)以认识,Artemov(2008)在理由逻辑,范·宾恒麦和花型(2011)关于证据逻辑,汉森(1998)和Lorini(2018年)在具有计算贸易基地的Doxastic逻辑上。
在游戏理论文献中,有界代理商通常代表为有限状态机(Gutierrez,Harrenstein,&Wooldridge 2015; Binmore&Samuelson 1992)。 接受能力或内存大小的限制然后转换为机器尺寸的边界。 生成的层次结构允许对信息处理,推理和因此不同类型的有界玩家进行细粒度分析。 这种观点与计算机科学的机构的逻辑研究非常适合(格拉德尔,托马斯,威尔克2002; Wooldridge 2009)。
在综合的视角,偏好,信念和推理风格都可以在玩家类型的游戏理论上括起来。 由于推理未来的游戏过程,玩家将常常享受对彼此的类型的信仰。 一个简单的例子是向后归纳,玩家在整个对手完全合理地占据。 在更复杂的环境中,各个演员可能会尝试通过考虑更广泛的选项来试图将观察到的各种动作和导出对对手的未来行为的预测。 这些玩家可以通过假设反击者成为一个简单的机器来开始,并且仅在证据需要时才能移动到更复杂的视图。 特别是,没有理由承担玩家或观点的统一性。 在给定的情况下,可能存在多样性的玩家类型(刘2009;刘王2013; Paul&Ramanujam 2011; Bergwerff等,2014)。 对于一些关于最常用的播放器类型的一些游戏理论建议,请参阅Camerer(2003)。
(本章完)