分析游戏的逻辑(五)
3.9玩家薄而厚厚的模型
本节概述了将玩家和代理商纳入游戏形式的各种方法。 这些来自丰富的等级,从注释的游戏树到认知森林,型空间,或更抽象的游戏模型。
在更薄的结束时,重点是游戏的结构方面,结合了玩家的偏好,但不一定是他们的信仰。 这种框架通常只是足够的富裕来代表均衡或向后感应路径,并在动作和偏好的逻辑中推理这些。 薄型留下了有关玩家知识,信仰或其Modus Operandi未指明的更多信息,并减少了对游戏的实际动态的重视。
在较厚的端,游戏模型具有编码播放器的偏好,信息,信仰,以及甚至它们的完整类型,包括内存和推理能力的豪华世界。 这种典型模型在Stalnaker(1998)和Halpern(2001)中找到。 当应用于广泛的游戏而不是战略形式的游戏时,厚模型可以预测一个大型时间宇宙中可能发生的任何东西,允许从完全预测如何进行播放。
厚薄的逻辑模型之间的区别似乎是应用逻辑的民间传说。 事实上,它已经发生在本地逻辑之间的早期选择中,单步模型与历史完全宇宙中构建的时间逻辑。 然而,似乎并没有成为一个独特的最佳视角。 相反,厚和薄型之间的选择通常取决于所追求的确切目标。 在此权衡中的中央考虑因素是逐步播放的动态所在的位置:厚模型预编码了这种动态,而薄型允许外部动态逻辑进行更新(BALTAG,SME和ZVEVER 2009)。 下一节将突出多种方法来补充与游戏发挥动态信息的薄透视,通过动作和更新的表示。
3.10特殊主题
故事偏好与义务和许可密切相关。 这尤其显示在正式方面,其中静态和动态变体中的偏好逻辑(Hansson 1990; Van Benthem,Grossi,刘2014)具有明显的语义逻辑。 此外,文学和游戏理论观点引起了许多富有成效的联系。 在一个方向上,考虑到代理的信息和义务(Kooi&Tamminga 2008; Anglberber,Gratzl,&Roy 2015),文学观念可以被视为最佳动作的高级描述。 相反,代理人的目标和意图可能来自他们的义务(Klein&Marra Marra Marra)。 更一般地说,游戏解决方案程序可以丰富出版概念(Başkent,Loohuis和Parikh 2012; 2018霍尔特2018)。 游戏与故障的连接也可能突出显示新主题,例如在个人和集体偏好之间的关系(Duijf,Tamminga和Van de Putte 2021)之间的关系。 最后,在人工智能中,出现在跟踪与其目标相关的分布式系统的行为时出现的文主,(Ågotnes&Wooldridge 2010)。
包含玩家的数学基础提出了关于游戏等价的新问题。 当代理事项时,对等价的足够概念不能停止保护基础游戏形式的属性。 相反,球员依赖的等价性也需要保存玩家的信仰,偏好或推理类型。 结合这种附加参数使得两个游戏更加困难,这是一个等同的游戏,因为新的变化空间进入了播放。 另一方面,代理限制也可能创建新的更简单的游戏等效命,可以通过此条目的工具进行研究。
4.分析游戏
术语“博弈论”表明,所有感兴趣的信息都以比赛的格式捕获,其移动和结果是。 考虑额外的结构,目前的条目重新组装了这种观点。 第3节提供了第一部分,将球员的性质视为自己的权利。 本节在第二个主题上投放了一个宽度的游戏。
在逻辑和游戏中的文献中的许多主题落入三个阶段,这些阶段连接到播放。 某些活动已经在实际游戏之前已经进行。 例子正在评估对手或形成计划。 然而,大多数相关的选择和决定在比赛期间发生 - 至少否则在预设策略后盲目地思考作为自动机构的球员。 最后,也是在比赛发生重大活动之后。 这些涉及学习对手类型,确定所做的至关重要的错误,或者合理化所采取的动作。 在下文中,将显示每个阶段的例子。
4.1游戏解决方案和拼注审议
将游戏视为静态结构时,可以在玩家信仰,偏好和选择或意图之间的一致性方面定义合理性(ELSTER 1988)。 然而,合理性也描述了与玩家如何行为的行为质量或者在审议游戏时的利益。 在将游戏解决方案程序解释为普遍审议的风格时,可以制作两个观点之间的关系。 要遵循是对静态属性的表征定理不同的反向感应(CF.第3.3节)的动态分析。如常识或共同信念等静态属性。 在动态分析中,这些组属性不被认为是前提条件。 相反,它们是通过审议的逻辑制作的。
4.1.1通过公开公告向后寄存
后向感应算法通常以定量设置呈现,其中每个结果与所有玩家的实用程序值相关联。 (莱顿 - 棕色和Shoham 2008)。 然而,相同的算法也在定性设置中起作用,其态度由结果之间的偏好关系表示。
向后感应向后感应计算为玩家的最佳动作。 更具体地,在广泛形式游戏的每个选择节点上,可用移动中的一个或多个标记为最佳。 对于每个玩家,这组最佳动作通常在通常的游戏理论系中形成策略,即,选择唯一动作的函数以接受她的每个选择节点。 然而,存在退行的情况下,后向归纳仅创建关系策略,限制可用的动作,同时仍将某些选择留给玩家。
驱动后向感应算法的原理是没有玩家应该选择一个由同一时刻可用的另一个移动的移动。 占主导地位以递归方式工作。 移动主导移动B如果相应的播放器更喜欢从A通过后向感应移动到从B通过后向感应移动到达的每个结果的最终结果。
公告合理性的一个视角,向后归纳可以被理解为前往审议的过程,由思维与和谐进行的球员执行。 审议步骤是重复公告(!RAT)的理性 - 节点:
大鼠
没有通过严格主导的移动到达当前节点的玩家
这里的统治是一项举动后可用的结果之间的关系。 在一个解释中,一些移动A主导另一个动作B如果在B移动之后仍然可以获得的每个结果,则优选任何结果。 然而,存在动态扭曲:至关重要的是,考虑的游戏树,并且因此可用的结果,在审议过程中发生变化。
公告更新的语义通过修剪模型工作。 !φ将型号m转换为由满足φ的M中的所有这些点组成的子模型M |φ,同时删除所有¬φ节点。 M |φ的关系是从M的继承的关系。缺失可能会改变公式的真实值:宣布之后!φ,M |φ中的一些节点可以满足¬φ。 具体地,在游戏树中的M个点集合,该组可用历史可以随着所做的连续通知而继续缩小。 因此,重复公告!大鼠有意义。 在有限的游戏中,此过程始终达到限制,一个最小的子轨迹,没有移动的载体。
示例通过迭代的理性断言解决游戏。
考虑以下游戏,已在第1.1节中介绍。 迭代公告!大鼠删除只能通过主导移动达到的节点,只要这可以完成。 此程序的迹线是:
这有三个游戏树图,示出了示例。 扩展描述(图标题中的链接)将描述树。
图15.ⓘ
这里,向后感应溶液逐步出现。 程序的第1阶段规定了用(2,2)标记的叶子,作为RAT失败的唯一点。 然后将E级选择节点排列为RAT失败的新节点。 在得到的游戏树中,大鼠始终保持在内。
更一般地,让(!φ,m)#是在重复发布φ下的m的极限(即,第一个固定点),只要它仍然是真的。 在任何游戏树中,固定点(!RAT,M)#在整个方面都是真实的。 其节点包含由后向感应算法(Van Benthem 2014)计算的实际播放。
限制行为合理性是“自我实现”的极限:如果玩家在审议中致力于足够长,他们会修剪所有非理性的举动,而Fortiori,所有与合理性的共同信念不相容。 最终结果是每个观点都有合理发挥的模型,这是一种合理性的共同知识。 但是,迭代公告也可以产生不同类型的限制行为:自我驳斥。 这是一个典型的例子是经典的泥泞儿童拼图(Gierasimczuk&Szymanik 2011),在那里反复沟通无知导致了解到最终。 同样在博弈论中,一些情况存在(可信)未来的非理性的通知可以让一些球员比向后进一步解决方案更好(Leyton-Brown和Shoham 2008)。 在Baltag,Bezhanishvili&Fernández-duque(2022年)中研究了无限游戏中公告的限制行为,与Cantor的级拓扑结构联系起来。
4.1.2通过信仰修订向后触发
迭代信仰修订。 在信仰而不是知识方面,在信仰而不是知识方面被欣赏不同的审议视角。 这里的驱动力是信仰的理性:
大鼠*
玩家从来没有选择任何借鉴另一个举措,鉴于他们的信仰如何开始播放。
在此设置中,游戏树本身在审议期间仍然不变:没有删除或排除历史。 可能改变的是发生的播放器分配给终端节点的相对合理性,或者在无限游戏中历史。
在合理性语义(第3.6节简要介绍)中,代理人认为,在她合理顺序中最大的那些以最大的那些认可的世界中保持正确的命题。 审阅的相应动态不会按点删除进行操作,但通过软更新修改代理的合理性排序。 对于后退归纳,“激进升级”⇑φ就足以使所有φ-世界上高于所有¬φ-世界状态,同时保持在这两组内的排序(BALTAG和SMET 2008)。
以下是该机制如何在游戏环境中工作。 从所有终端节点开始,所有返回者都能均匀。 由于升级通过公开公告进行,所有球员将在整个球员中分享同样的信念。 在执行的过程中,如果在代理代理商的合理性排序中,移动x的移动x是以相同选择节点的移动y主导的主导,而在y之后的最合理的最合理的终端节点比与移动兼容的每个最合理的终端节点都更好x。 现在执行类型的激进升级
⇑rat*
如果y以x主导地位,则使所有终端节点都会比x更合理于y之后。
示例向后归纳,软版本。
以下是前面示例中的新程序的阶段,其中字母x,y,z代表游戏的终端节点或历史:
这有三个游戏树图,示出了示例。 扩展描述(图标题中的链接)将描述树。
图16.ⓘ
在最左边的树的顶部节点中,右边的右边不是左边的玩家A的信仰。 因此,大鼠*只影响E的转弯,⇑rat*的激进升级比(0,3)比(2,2)更合理。 在这种变化之后,走向右边已经在顶级节点的信仰中占主导地位,并且发生了一个新的升级,使得一个最符合的升级。
使用RAT *迭代升级*始终稳定到固定的合理顺序,这对所有玩家都是一样的。 用其结束节点识别游戏的每个历史允许对后向感应的信念分析(范生日和Gheerbrant 2010)。 在有限的树上,历史历史,当所有球员诉诸其向后诱导策略时完全对应于由迭代激进升级创建的最合理的最合理的终端节点,其具有信念的理性升级。 一种替代的动态认知表征后向诱导,在不同的混合物中使用类似的想法,可以在Baltag,Smets和Zvesper(2009)中找到。
稳定不能被视为理所当然。 对于其他断言φ,迭代升级⇑φ可以导致振荡或发散的合理性订单。 然而,这种分歧是有限的。 虽然有条件的信念可能发生循环,但每个真正的迭代序列最终稳定所有命题信念(Baltag和Smets 2009)。
固定点逻辑以更高技术的角度来看,向后感应策略可以定义为在每个非终端节点上具有至少一个继承关系的总移动关系的最大次级,同时满足动作和偏好之间的汇合属性:
cf(s)
∀x∀y((Turni(x)∧xsy)→∀z(xmovez→∃u∃v(eND(u)∧end(v)∧ys*v∧zs*u∧u≤iv))))
这一事实是证明后退归纳在第一订单修订点逻辑LFP(FFO)中可定义的基础(FFO)(Van Benthem&Gheerbrant 2010)。 导致这一研究系列连接游戏解决方案和游戏 - 理论均衡,具有固定点逻辑的计算。 在简单的设置中,例如Zermelo的定理中提到的Zermelo的定理,模态固定点逻辑类似于μ-微分的足够。
4.1.3迭代删除严格主导的策略
可以使用迭代更新的逻辑分析进一步的游戏解决方案概念。 特别是,迭代的更新不限于广泛的形式游戏,而且还可以为战略形式的游戏提供见解。 迭代范式算法迭代严格主导的策略(sd∞)。 在此设置中,如果存在另一个对对手的行为产生严格更高的回报,则认为策略被认为是主导的。
例如迭代删除严格主导的策略(sd∞)。
考虑以下矩阵。 像往常一样,对首先是一个效用,E的第二个。
e
一个b c
一个。天。2,3。2,2。1,1
e 0,2。4,1。1,0
F。0,1。1,4。2,0
首先删除右侧列,即E的动作C,其由A和B中的任何一个主导。 使用C被删除,A的动作F已被严格主导。 拆除后,E的行动B变得严格主导,之后,A的行动e。 在过程结束时,迭代删除留下,除了国家(d,a),游戏独特的纳什均衡。 通常,得到的游戏矩阵在所有删除后得到保证包含原始游戏的所有纳什均衡,但也可能包含进一步的策略组合。
在此设置中,形式的动态设备涉及适合于第2节矩阵游戏的断言。实际上,可以在矩阵游戏的逻辑中定义各种不同类型的合理性。 这是两个玩家游戏的插图,涉及“弱合理性”的公告:
wr
每个球员都认为,与每个可用的替代行动相比,她目前的举措可能对她来说可能至少适合。
这句话是对每个玩家的否定,她目前的行动强烈占主导地位。 当然,这种性质可以用合适的认知动作方式正式表达。 然而,即使它代表所说,也很明显,可以宣布薄弱的合理性来修剪策略概况,并以迭代的方式。 战略游戏将在宣布较弱的合理性时改变,发起逐步过程,类似于早期的迭代公告的反向归纳的合理性。 如在那里所观察到的,最终始终达到公开公告的限制,因为模型只能变小。 为了宣布弱合理性,这些限制符合sd∞的结果(van Benthem 2007)。
类似的分析方式可以扩展到其他合理概念。 例如,仔细考虑到“当前玩家的行动我最适合她对抗对手的所有动作”,以下公式可能被称为强烈的理性性SR
⟨e⟩be∧⟨a⟩ba
简而言之,公式表达了两名球员都有合理的希望做得很好。 这种意义上的强烈合理性与游戏解决方案的合理化计划(Pearce 1964; De Bruin 2005)有关,如果在所有情况下存在更好的反应,则丢弃措施。 强烈的理性,也推动了一个游戏解决方案方法。
具有强大合理性的迭代通知(SR)的示例更新。
考虑前一个例子的略有变化。 以下是迭代通知强度合理性的更新顺序(SRΩ)
2,3。2,2。1,1
0,2。4,1。1,0
1,1。3,4。2,0
2,3。2,2
0,2。4,1
1,1。3,4
2,3。2,2
0,2。4,1
2,3
0,2
2,3
如前所述,每个框都可以被视为认知游戏模型。 同样,每一个公告都会增加球员的知识,直到达到固定点,构成每个玩家尽可能多地知道的均衡。
强烈的理性是一种比弱合理性更苛刻的条件。 虽然SR意味着WR,但可以有足够弱但不具有强烈的合理性的移动。 这在当前和前一个例子之间的以下差异中显示。 在本矩阵中,在消除动作C之后宣布弱合理性停止。 原因是,在第二个矩阵中,行播放器的底部移动并不严格地由任何其他动作主导,因此此行仍然在重新播放WR之后。 然而,在任何可能的情况下都是行球员的底部行为最适合她。 这与强烈的合理性相矛盾,因此该行被下一个SR公告所淘汰。 更一般地,由(SR)∞产生的游戏矩阵是由(WR)∞产生的子矩阵。 值得注意的是,这并不完全明显,因为两种更新序列可能产生满足不同公式的不同的认知模型。 举例凭证在van Benthem(2014)中可以找到。
就像在后退归纳一样,迭代通知和定点逻辑之间存在连接。 在模态μ-Calculi(Kozen 1983; Venema 2008)中,可以定义生存迭代强度合理性的策略概况的策略概况集。 如果公告概括为任意公式,则需要所谓的放气定点逻辑来研究限制行为(Ebbinghaus&Flum 1995; Dawar,Grädel,&Kreutzer 2004)。
进一步的游戏解决方案概念已经在类似的动态更新样式中进行了分析。 例如,Halpern和Pass(2012)的迭代遗憾最小化已在迭代公告(Cui&Luo 2013)方面被捕获。
应该指出的是,还有更多的演绎概念,连续推动是上面的语义更新的角色。 在De Bruin(2005)中可以发现关于溶液的游戏理论推理的系统证明性观点。 最后,可以在APT(2005)中找到替代分析强大和弱的合理性以及其他游戏解决方案概念的计算逻辑的重写格式。
题为:跨代表水平比较不同的迭代公告程序导致不同的游戏分析。 此外,当比较不同框架的各种程序时,可能会发生惊喜。 为了一个插图,回到归纳。 它的动态分析在广泛的形式游戏中产生了新的“最佳举动”关系或合理性顺序。 由此产生的策略轮廓可能与相关战略形式游戏的纳什均衡分析不同:
示例后向感应和纳什均衡。
考虑以下游戏。 e在任何结果之间没有偏好,但是,与实用价值观标记的那样。
这是说明示例的游戏树图。 扩展描述(图标题中的链接)将描述树。
图17.ⓘ