博弈论的认知基础(七)

在上述游戏中,后向感应分布是(I1i3,I2)导致结果O4,其中两个玩家接收3.考虑具有单个态W的识别模型,其中σ(w)=(o1i3,o2)。 这不是后向感应配置文件,因此,由Aumann的定理(定理4.7)在态W的A和B中不能是常见的,并且B和B都是显着的理性的。

回想一下,播放器的策略我指定了所有决策节点的选择,即使是那些不可能达到策略规定的前方的节点。 因此,如果他们有机会在他们的每个决策节点上移动,策略包括关于玩家会做什么的“反事实”的信息。 在单一州认知模型中,B知道A遵循策略O1i3。 这意味着B关于游戏中的一个选择行为的两件事。 首先是A最初选择O1。 第二个是,如果在v3赋予v3的机会的地方,那么她会选择i3。 现在,鉴于B的知识是关于什么在做的事情,有一种有意义的是在v2上选择的任何b,他的选择是合理的。 这使得自从她在W战略规定的初始选择以来,这使得B无法移动。 如果我在根据策略简档σ(w)中可以到达的所有决策节点v∈vi,则在游戏的识别型模型中,播放器I在游戏的认知模型中是重要的。 我们已经看到B是微不足道的理性。 此外,由于她知道B正在选择O2(即,S-A(W)= {O2}),因此A是重大的理性。 因此,OUTA(V1,O1,S-I(W))= {O1}和OUTA(V1,OI,S-I(W))= {O2}; 因此,A在V1处选择O1使她在W的实质性合理性。 Aumann和Stalnaker之间的争论的主要争论点归结为单一州认知模式是否包括足够的信息,了解关于在评估B在v2处O2的假设选择的合理性的v3时对V3的选择。

根据AUMANN的说法,B不是实质性的理性:因为S-B(W)= {O1I3},我们有

outb(v2的,氧气,s-b(w))= {氧气}

outb(v2的,i2,s-b(w))= {o4};

因此,B在V2中的B不合理(注意,UB(O4)= 3>1 = UB(O2))。 Stalnaker表明,球员应该赋予信仰的修正政策,该政策描述了他们将恢复到哪种信息状态,以防他们遵守与他们对其对手的战略所了解的措施不一致的动作。 如果B确实得知他实际上可以移动,那么他已经学会了一些关于A战略的事情。 特别是,他现在知道她不能遵守任何规定她在v1上选择的策略(因此,特别是她不能遵循战略O1i3。)假设B是关于A令人惊讶的信息对策略选择的反应,如下:在学习时A不是遵循她在v1中选择O1的策略,他得出结论,她是遵循战略I1O3。 也就是说,B的“信仰修订政策”可以概括如下:如果是一个“非理性的举动”,那么她将再做一次。 Stalnaker解释了这一信念修订政策与他的知识之间的表观紧张,如果赋予V3选择的机会,那么她将选择I3如下:

要思考这种信仰和信仰修订政策的结合不连贯的事情是将困境与因果关系混淆 - 这就是认为,因为我相信,如果莎士比亚没有写哈姆克特,那么就没有任何人写的,因此,我必须被征得得出结论,哈姆雷特从未写过,我要了解莎士比亚实际上不是它的作者。 (Stalnaker 1996:152)

然后,关于B的适当更新了关于A在V3的选择的知识(根据他的指定信仰修订政策),他的策略O2实际上是合理的。 根据Stalnaker,在节点达到该节点的情况下,应评估节点V在节点v的选择的合理性。 假设A知道B正在使用上面描述的信仰修订策略,那么A知道B在Stalnaker的感觉中具有显着理性。 如果该模型包括有关播放器信仰修订政策的明确信息,那么可能存在实质性合理性的常见知识(在斯塔纳克斯的意义上)然而,球员的选择不符合后向感应配置文件。

4.3常见的强烈信仰和前锋归纳

在上一节中,我们认为球员在广泛的游戏中解释对手与预期游戏中的偏差(例如,从后向感应路径偏离),以指示玩家将在未来的决策节点中选择“非理性”。 但是,这只是信仰修订政策的一个例子。 并没有表明这是玩家应该采用的信念修正政策。 Stalnaker的核心索赔是,广泛的比赛型号应包括一个组件,该组件应该在游戏中描述玩家的性格来改变他们的信仰,这可能因模型而异或甚至在单一模型中的球员中变化:

面对令人惊讶的行为在游戏过程中,玩家必须决定那么相信。 他们的策略将根据他们的信仰如何修订,这反过来依据他们的认知优先事项 - 是否应将意外行动视为孤立的错误,从而阐述与后续行动的信仰独立于信仰,或者是否揭示,故意或无意中,关于玩家的期望,以及她在未来可能表现的方式。 球员必须决定,但理论家不应该 - 至少他们不应该试图概括有关在所有情况下适用于任何理性代理人的认识优先事项。 (Stalnaker 1998:54)

在认知博弈论文献中广泛讨论的一个信仰修订政策是合理化原则。 Battigalli(1997)介绍了此信仰修订政策,如下:

合理化原则,玩家应该始终试图解释她的对手行为的信息,假设他们没有实施“非理性”策略。

这种信念修订政策与所谓的前瞻性诱导推理密切相关。 为了说明,请考虑以下不完美的信息游戏:

[排列的三个圆圈图

三角形。 顶部的圆圈标记为v_1并附包文本

'a',底部的两个圆圈标记为v_2和v_3,每个圆圈

包裹文本'b'。 标有“L_1”的实线连接V_1和

v_2和标记为'r_1'的另一个实线连接v_1和v_3。 v_2

并且v_3通过未标记的虚线连接。 至左侧

v_1并通过标有实线的实线连接为“e”是一个圆形的

矩形标记为O_1并包含文本'2,0'。 低于v_2是

两个圆角矩形在左侧标记为O_2并封闭'0,2'

并在右侧标记为O_3并封闭“3,1”。 实线

标记为“L_2”将V_2连接到O_2和标有“R_2”的实线

将v_2连接到O_3。 以下v_3以下是标记为O_4的两个圆角矩形

在左侧并封闭“0,1”并在右侧标记为O_5

封闭'1,2'。 标记为“L_2”的实线将V_3连接到O_4和

标记为'r_2'的实线将V_3连接到O_5。]

图19

在上述游戏中,A可以最初退出游戏(通过选择e)以获得2的保证支付2或决定使用B的不完美信息进行游戏。请注意,R1严格地由E占主导地位:无论B在V3中选择什么,A更好地选择e。 这意味着如果a遵循一个合理的策略,那么她将不会在v1处选择r1。 根据合理化原则,B被允许相信A如果他有机会移动,则不能选择R1。 因此,假设B根据合理化原则来了解游戏的结构并修改他的信念,他唯一的合理策略是在他的信息细胞中选择L2(由{v2,v3}组成)。 如果可以预测这种推理,那么她唯一的合理策略就是在V1处选择e。 这是上述游戏的前向感应结果。

Battigalli&Siniscalchi(2002)在广泛的比赛中制定了对前瞻性诱导推理的认知分析(参见,斯巴纳制造1998年,第6章)。 他们建立了斯塔纳克(1998,1996)的想法,以表征在普通的强烈信仰方面表现出福置求解概念。 我们讨论了2.4节“强烈信仰”的定义。 Battigalli&Siniscalchi(2002)的信仰的数学表现不同,尽管潜在的想法是相同的。 一个球员强烈相信一个事件e,只要在游戏开始时,她认为e是真的(从意义上,她分配概率1到e)并且继续相信e,只要它没有被证据伪造。 广泛游戏中的玩家可获得的证据包括对与游戏树-i-i.e的结构一致的先前动作的观察。,通过游戏树的路径。 完全讨论这种方法超出了进入的范围。 咨询Battigalli&Siniscalchi(2002); Baltag等人。 (2009); Battigalli&Friedenberg(2012); Bonanno(2013); 佩雷(2012年,2014年); 和van Benthem&Gheerbrant(2010)讨论了这种方法和替代认识的向后和前向诱导的认识分析。

5.发展

在本节中,我们介绍了许多结果构建了上一节中呈现的方法。 我们讨论了纳什均衡的表征,将弱势优势的考虑纳入球员的推理,并使玩家不知道,而不是不确定,关于游戏的某些方面。

5.1纳什均衡

5.1.1结果

迭代消除严格主导的策略是一个非常直观的概念,但对于许多游戏而言,它不会讲述玩家将或应该选择的东西。 例如,在协调游戏(图1)例如,所有档案都可以在合理性和合理性的共同信念之下。

在图1中再次看,如果鲍勃知道(这是正确的信仰)安的战略选择? 直观地,很明显,他的理性选择是与她协调。 如果他知道她扮演它,那么播放L显然是他唯一的理性选择,而且,如果他知道她扮演B,那么R是唯一的理性选择。 ANN的情况是对称的。 例如,如果她知道鲍勃扮演l,那么她唯一的理性选择就是选择t。 更正式的是,ANN是理性的唯一状态和她的类型知道(即,是正确的,并分配概率1到)BOB的策略选择,鲍勃也是理性的,他的类型知道ANN的策略选择是他们扮演(T,L)或(B,r),纯策略纳什均衡的比赛。

纳什均衡是一个简介,没有玩家对单方面偏离他的战略选择的动力。 换句话说,纳什均衡是(可能混合的)策略的组合,使得它们在鉴于其他人的策略选择,他们都发挥着最佳反应。 再次,(t,l)和(b,r)是上述协调游戏的唯一策略均衡。 纳什均衡及其众多改进可以说是游戏理论解决方案概念,这些概念最多用于游戏理论(Aumann&Hart 1994)和哲学(例如,在Lewis 1969中着名)。

Aumann&Brandenburger 1995的精髓结果在策略选择的相互知识(以及游戏结构)方面提供了纳什均衡的认知表征。 另请参阅早期陈述的Spohn(1982)。 在说明定理之前,我们讨论了Aumann&Brandenburger(1995)的一个例子,说明了关键的想法。 考虑以下协调游戏:

b

一种

l r

u 2,2 0,0

d 0,0 1,1

图20

两个纯策略纳什均衡(U,L)和(D,R)(也有混合策略均衡)。 像往常一样,我们修复了这场比赛的信息背景。 假设具有以下类型功能的每个播放器TA = {A1,A2,A3}和TB = {B1,B2,B3}的游戏的类型空间,具有以下类型功能:

l r

b1的0.5 0.5

b2的0 0

b3的0 0

l r

b1的0.5 0

b2的0 0

b3的0 0.5

l r

b1的0 0

b2的0 0.5

b3的0 0.5

λa(a1)λa(的a2)λa(3号)

l r

a1 0.5 0

的a2 0 0.5

3号0 0

l r

a1 0.5 0

的a2 0 0

3号0 0.5

l r

a1 0 0

的a2 0 0.5

3号0 0.5

λb(b1的)λb(b2的)λb(b3的)

图21

考虑状态(D,R,A3,B3)。 A3和B3都正确地相信(即,分配概率1至),结果是(D,R)(我们具有λa(a3)(r)=λb(b3)(d)= 1)。 这一事实并不是普通知识:A3为B2型鲍勃分配0.5次概率,B2型分配0.5概率到ANN演奏L. 因此,安不知道鲍勃知道她正在玩R(这里,“知识”被确定为“概率1”,因为它在Aumann&Brandenburger 1995中)。 此外,虽然Ann和Bob都是理性的,但它们是理性的。 实际上,A3型为B2型和选择R分配0.5个概率 然而,这是不合理的,因为B2认为ANN的选择同样可能。

上面的例子是存在对球员选择的相互了解的情况。 实际上,在2人游戏G的任何类型空间中,如果(s,t)是一个播放器我选择si的相互知识的状态,那么,s构成了一个(纯策略)纳什均衡。 关于混合策略均衡有更通用的定理。 回想一下,为玩家I的猜想是对她对手的策略选择的概率措施。

定理5.1(AUMANN&Brandenburger 1995:定理A)假设G是一个2人的战略游戏,(P1,P2)是玩家1和2的猜想,而T是G的型空间。如果(s,t)是一个状态在T的地方I = 1,2,TI分配概率1到事件(a)两个玩家都是Rational(即,最大化预期实用程序),(b)游戏是g和(c)对于i = 1,2,播放器i的猜想是pi,那么(P1,P2)构成纳什均衡。

这一结果的一般版本,任意有限数量的代理和允许混合策略,需要常见的猜想知识,即,每个球员在另一个选项中的概率信念。 有关早期版本,请参阅Aumann&Brandenburger(1995年:定理B),并再次,Spohn(1982)。 参见,也是Perea(2007)和Tan&Werlang(1988),用于纳什均衡的类似结果。

5.1.2哲学问题

纳什均衡的这一认知表征需要相互知识和而不是信仰。 当代理人讨论其他人的战略选择时,结果失败了。 例如,这使一些作者批评了这一认知表征:例如,参见Gintis(2009)和Bruin(2010)。 玩家怎么能知道其他人正在选择什么? 它与游戏的想法是否不相反,玩家可以自由选择他们想要的任何东西(Baltag等,2009)?

对此批评的一个受欢迎的回应(Brandenburger 2010; Perea 2012)是上面的结果告诉我们一些关于纳什均衡作为解决方案概念的事情,即它减轻了战略性的不确定性。 实际上,返回第1.3节中引入的术语,纳什均衡的认识条件是与信息披露的前后状态相对应的那些,“当所有人说并完成”,以比喻上的方式。 当玩家达到全面了解其他人要做的事情时,就没有任何东西可以考虑其他球员作为理性,审议代理人。 现在每个玩家行动的后果都确定。 剩下的唯一任务是计算所采用的选择规则建议的禁止的任务,这并不涉及有关其他玩家信仰的任何特定信息。 毕竟,他们的选择是固定的。

这里的想法不是为了拒绝纳什均衡的认知表征,即它依赖于不切实际的假设,而是为了将其视为关于纳什均衡本身的课程。 从认知的角度来看,其中一个人专注于战略推理,了解别人要做什么并在思考的情况下,这种解决方案概念可能会有较少的兴趣。

从这个认知表征结果中抽出另一教训。 博弈论“假设合理性常识”的广泛思想,也许与游戏理论分析中的均衡概念的广泛使用相结合,导致纳什均衡需要常见的理性知识,或者合理性的常见知识足以根据纳什均衡来玩。 可以肯定的是,游戏理论模型确实假设游戏的结构是常识(尽管,见第5.3节)。 尽管如此,上述结果表明,这两个想法都不正确:

合理性的常见知识既不是必要的也不足以用于纳什均衡。

事实上,正如我们刚刚强调的那样,纳什均衡可以在充分的不确定性下发挥作用,并且在高阶的不确定性下,关于他人的合理性的更高级的不确定性。

5.1.3关于纳什均衡的“模态”表征的备注

近年来,已经提出了许多所谓的“模态”表征纳什均衡,主要使用来自模态逻辑的技术(详见Hoek&Paeuly 2007)。 这些结果通常设计了一种模态逻辑语言来描述战略形式的游戏,通常包括玩家行为和偏好的方式,并且表明概况是纳什均衡语言的概念是可定义的。

这些特征中的大多数都不是认知,因此落后于此条目的范围。 在本条目的背景下,重要的是要注意,这些结果中的大多数结果旨在与我们在本节讨论的内容表征不同的东西。 这些逻辑语言主要开发,这些逻辑语言已被用于验证多代理系统的属性,而不是向该解决方案概念提供认识的基础。 然而,请注意,近年来,纳什均衡的许多逻辑表征明确使用认知概念(例如,Van Benthem等,2009; Lorini&Schwarzentruber 2010)。

5.2纳入可否受理和“谨慎”信仰

在没有独特的“理性选择”的情况下,不难找到游戏和信息的信息并不难。 Rational Player应该如何包含一个以上一个行动被归类为“选择值”或“合理允许的”(根据某些选择规则)的信息的信息? 在这样的情况下,要求玩家不能排除她对手将选择“值得选择”选项的可能性是自然的。 更一般地说,球员应该是“谨慎”,他们排除了哪些对手的选项。

假设球员的信仰是“谨慎”的自然与弱优势有关(召回弱优势的表征,第3.2节,其中策略弱统治IFF,它不会最大化与任何全面支持概率措施的预期效用)。 认识博弈论中的一个关键问题是迭代脱击策略的迭代清除的认知分析。 许多作者指出了围绕这种分析的谜题(Asheim&Dufwenberg 2003; Brandenburger,Friedenberg&Keisler 2008; Cubitt&Sugden 1994; Samuelson 1992)。 例如,Samuelson(1992)显示(以及其他事情),定理4.1的模拟对于迭代剥夺弱统治策略而不是真实。 以下游戏说明了主要问题:

(本章完)

相关推荐