博弈论的认识论基础(七)

3.2.3合理性的常见知识和贱民完美均衡

有关合理性常识是否意味着玩家将在广泛的形式游戏中与完美的信息一起发挥他们的分组完美均衡的组成部分。 在本节中,我们从争论开始讨论的讨论是常见的合理性知识足以让玩家选择它们的子级偏好平衡的组件。 然后,我们转向认为,常识的合理性知识,或者更准确的常识未来合理性,需要参与者将在完美的信息游戏中选择他们的SupgeS完美均衡的组成部分。 这些显然矛盾的观点在不同的假设上依赖于玩家在观察来自诸如Sumgame完美均衡路径的偏差时改变主意的不同假设。

合理性的常见知识不足以让SumgAly完美均衡

在完美信息游戏中,对Supgeame完美均衡合理合理性的常识的论点可以分为两组。 第一个组认为,合理性的常见知识在不对SupgAly完美均衡路径上的节点中不连贯。 第二组捍卫认为,尽管常见的合理性知识是连贯的,即使在不上的节点上不受诸如完美均衡路径的节点,也与不形成SumgEme Edentium的策略的概况相一致。

第一组的论据由Bicchieri(1988B),Basu(1990)和肾脏(1988,1993)开创。 它们是最好的说明的。 考虑图17中的蜈蚣游戏。我们首先争论,如果

两个玩家都是理性的,

。b 知道 a 是理性的,

。a 知道 b 是理性的,并且

。a 知道 b 知道她是理性的,那么玩家将扮演子博弈完美均衡中他们自己的部分。

。具体来说,a 将在她的第一个决策节点 (v1) 选择 O1。无论她相信或知道什么,如果 a 是理性的,那么 a 永远不会在她的最终决策节点 (v3) 扮演 I3。由于 b 知道 a 是理性的,并且她在 v3 处的唯一理性选择是 I3,因此 b 知道 a 会在 v3 处选择 I3。因此,如果他是理性的,那么他将在他的决策节点 (v2) 扮演 O2。因此,根据假设 (iii) 和 (iv),a 知道 b 会在 v2 处选择他唯一理性的选择 O2,因此,由于 a 是理性的,a 将在她的第一个决策节点 (v1) 选择 O1。

。 Bicchieri (1988b) 和 Reny (1988, 1993) 认为,如果我们只增加一个理性知识层次,这种推理就会失效,更何况我们假设理性就是常识(参见常识条目 3.4 节)。假设除了我们看到的导致 a 和 b 采取子博弈精炼均衡策略的假设 (i)-(iv) 之外,b 还知道 a 知道的事情。也就是说,他知道 a 知道自己是理性的,他也知道 a 知道 a 是理性的。那么 b 也知道 a 在第一个节点的唯一理性选择是 O1。由于他知道 a 是理性的,他也知道决策节点 v2(他计划在该节点采取 O2 策略)将无法到达。与上式相反,如果b知道v2已经达到(即a在v1时选择了I1),那么考虑到他所知道的关于a所知信息的其他信息,他必然得出结论,a在前一个节点的选择是非理性的,因此理性的常识不成立。因此,b不可能同时知道理性是常识并且v2已经达到。

。关键在于,b知道a所知道信息这一附加假设赋予了他过多的知识:这似乎破坏了通往子博弈精炼均衡解的推理。Reny(1992)通过论证理性的常识仅在每个节点都达到子博弈精炼均衡的平凡博弈中一致,从而强化了这一观察。 Basu (1990) 以及后来的 de Bruin (2008) 给出了类似的结果,所有这些结果都可以解释为表明,在玩家做出偏离子博弈精炼均衡路径的选择的状态下,理性常识不可能成立。

。然而,这些不可能性的结果可以被重新解读,使得一些作者能够为以下观点辩护:理性常识可能与玩家在子博弈精炼均衡中选择其组成部分并不矛盾,但这对于玩家做出这些选择来说也是不够的。其主要思想是,观察到偏离子博弈精炼均衡策略的行为可能会引发一些玩家对其他玩家在博弈后期行为的预期发生变化。反过来,这可能会使偏离子博弈精炼均衡概况的行为合理化。这种思路至少可以追溯到 Binmore (1987) 和 Bicchieri (1988a),并在后续文献中得到阐述(Bonanno 1991、Aumann 1998、Stalnaker 1996、1999)。为了说明这一思想,我们以图 18 所示的扩展博弈为例。该博弈由 Halpern (2001) 开发,旨在阐明 (Stalnaker 1999) 中报告的结果。子博弈完美均衡曲线为 (I1,I3,I2),导致结果 o4,双方博弈者均获得 3 的收益。

图表:链接至下方扩展描述

图 18:扩展博弈(图 18 的扩展描述见附录。)

例 3.11(图 18 中游戏的认知模型)假设状态集为 {w1,w2,w3,w4,w5},其中 σ 定义如下:

σ(w1)=(O1I3,O2)

σ(w2)=(I1I3,O2)

σ(w3)=(I1O3,O2)

σ(w4)=(I1I3,I2)

σ(w5)=(I1O3,I2)

假设 a 始终知道自己处于什么状态:对于所有 i∈{1,2,3,4,5},ΠA(wi)={wi}。在状态 w1,w4 和 w5 下,b 知道自己处于什么状态(ΠB(wi)={wi},对于所有 i∈{1,4,5}),但 b 无法区分状态 w2 和 w3(ΠB(w2)=ΠB(w3)={w2,w3})。

。博弈者在观察到偏离子博弈完美均衡解的情况后可能会改变主意,这种想法已被多种方式捕捉。在本节的其余部分,我们将遵循 Stalnaker (1996, 1999) 和 Halpern (2001) 的观点,在定义 3.8 的认知模型中添加一个选择函数。有关表示博弈者如何在扩展形式中修改信念的类似方法,请参阅 Bicchieri (1988a)。

。假设 G=⟨N,T,Act,τ,(ui)i∈N⟩ 是一个具有完全信息的扩展形式博弈,M=⟨W,(Πi)i∈N,σ⟩ 是 G 的一个模型。M 的选择函数为函数 f:W×V→W,其中 V 是 T 中的决策节点集,将由状态 w∈W 和节点 v 组成的对 (w,v) 从 T 映射到状态 f(w,v)∈W。直观地说,f(w,v)=w′ 意味着如果玩家通过策略剖面 σ(w) 到达状态 v(我们称 v 在状态 w 下到达),那么玩家会将他们的知识从状态 w 下描述的内容转变为状态 w′ 下描述的内容。当然,并非所有这样的选择函数都能捕捉到理性的信念修正策略。 Stalnaker (1996) 受古典信念修正理论 (Alchourrón、Gärdenfors & Makinson 1985) 的启发,对选择函数 f 提出了以下三个假设。

。(成功):在 f(w,v) 中到达节点 v。

。(中心化):如果 v 在 w 中可达,则 f(w,v)=w。

。(最小值):对于从 v 开始的子树,σ(f(w,v))=σ(w)。

。其关键思想是调整实质性理性的定义(定义 3.10),以考虑到参与者可能会根据观察到的选择改变对其他参与者的了解。

。定义 3.12(具有选择函数的实质理性)假设 G=⟨N,T,Act,τ,(ui)i∈N⟩ 是一个具有完全信息的扩展形式博弈,M=⟨W,(Πi)i∈N,σ⟩ 是 G 的一个模型,f 是 M 的选择函数。对于所有决策节点 v∈Vi,玩家 i 在状态 w 下是实质理性的,i 在状态 f(w,v) 下在 v 下是理性的。

。对于示例 3.11 中描述的模型,存在一个满足上述三个假设的唯一函数 f。至关重要的是,我们有 f(w1,v2)=w2 和 f(w1,v3)=w4:从 w1 的角度来看,如果达到了 v3,那么 a 仍然会玩 I3,这将是常识(因为 ΠA(w4)=ΠB(w4)={w4})。然而,如果在 w1 时达到了 v2,那么 b 仍然会选择 O2。观察到这个选择对 b 来说并非非理性。原因是 f(w1,v2)=w2,而在 w2 时,b 不确定 a 在 v3 时会做什么:由于 ΠB(w2)={w2,w3},他认为 a 可能会选择 I3 或 O3。在这种情况下,b 选择 O2 并非非理性。现在,由于 ΠA(w1)=ΠB(w1)={w1},根据定义 3.12,在 w1 时,双方在所有节点都是实质理性的,这是常识。然而,σ(w1) 不是该博弈的子博弈完美均衡。

这个例子代表了许多论证,表明理性的常识不足以让玩家选择子博弈完美均衡的组成部分。这些论证的关键在于明确地建模偏离子博弈完美均衡路径如何引发信念变化。然而,需要注意的是,这些论证并不一定排除理性的共同知识可能意味着玩家将遵循子博弈完美均衡路径,这与玩家采用完全子博弈完美均衡策略相反(例如,参见Bonanno 1991和Aumann 1998)。此外,加强对玩家信念修正策略施加的理性约束,可以促使玩家采用完全子博弈完美均衡策略(Rich 2015)。

。理性的共同知识足以实现子博弈完美均衡

。玩家在完全信息博弈中选择子博弈完美均衡组成部分的主要论点基于对当前和未来理性的共同知识。为简便起见,我们将其称为“未来理性的共同知识”。这一概念意味着,玩家将到达的任何节点都视为新博弈的起点,而忽略到达该节点之前必须发生的一切。另一种论证子博弈精炼均衡路径而非完整均衡路径的方法,使用了扩展形式可合理化的概念,这是一种前向归纳推理,已在3.4节中简要讨论过。

关于未来理性的共同知识意味着玩家会选择子博弈精炼均衡的组成部分,这一观点已由 Aumann (1995) 证明,并随后在不同的框架中得到形式化,例如,(Balkenborg & Winter 1997; Stalnaker 1998; Asheim 2002; Clausing 2003, 2004; Asheim & Perea 2005; Feinberg 2005; Perea 2007b, 2014a; Samet 2013; Baltag, Smets, & Zvesper 2009)。有关这些论证的详细概述,请参阅 Perea (2007a) 和 Kuechle (2009)。

。我们使用示例 3.11 中描述的具有上述选择函数的认识论模型来说明这些论证的主要思想。关键的观察结果是,关于未来理性的共同知识在状态 w1 时失效。回想一下,在v3阶段,a的唯一理性选择是I3,而这一事实是常识,因为a在v3阶段的选择与她对b的了解无关。然而,如果在w1阶段达到了v2,那么b认为如果a选择I2,他有可能选择O3。这使得他在f(w1,v2)阶段选择O2合理化,但与未来理性的常识相矛盾。

。关注未来理性的常识可以绕过上面提出的不可能性结果。回想一下,这些不可能性结果表明,在决定偏离子博弈精炼均衡路径的节点时,博弈者需要假设已经到达偏离路径的节点,但理性的常识排除了这一假设(Bicchieri 1988b;Basu 1990;以及Reny 1988、1993)。未来理性的常识可以避免这个问题。它不要求玩家对他们如何到达特定节点有任何特定的信念,尤其是关于先前选择的理性。所有关于未来理性的共同知识都意味着玩家知道,从现在开始,所有玩家都将是理性的。

在扩展博弈中,关于未来理性的共同知识可以看作是一种有限的、甚至可能难以置信的信念修正策略。事实上,我们已经看到,一些关于其他玩家在过去节点的理性的假设,在不在子博弈完美均衡路径上的节点不再成立。例如,在图17所示的博弈中,我们论证了b无法同时知道v2已达到并且理性在v1时是共同知识。然而,b可以坚持这样的假设:从v2开始,理性是并且将一直是共同知识,这足以确保他在该节点遵循他的子博弈完美均衡策略。对于遵循单一观察到的偏差的b来说,这个假设可能是可以接受的,但在这种偏差频繁发生或系统性出现的博弈中,它变得不那么直观。重要的是,它忽略了早期文献中关于子博弈精炼均衡的信念变化,在子博弈精炼均衡中,博弈者会根据他人的过去行为调整未来策略(Binmore 1987 和 Bicchieri 1988b)。

。在结束本节之前,我们来提一下奥曼(Aumann,1995)对子博弈精炼均衡的刻画。这一著名结果是首次从理性共同知识的角度对子博弈精炼均衡进行认知刻画之一。奥曼的结果明确地回应了上一节中提出的不可能性结果,并且确实假设了博弈中所有节点(过去、现在或未来)都存在理性共同知识。这怎么可能呢?答案是,在奥曼的模型中,博弈者会思考“如果”到达某些偏离路径的节点他们会怎么做,同时他们也拥有这些节点确实无法到达的共同知识。例如,在我们的例子中,这归结为评估b在w1所描述的知识状态下,在v2时所作选择的合理性,其中,回想一下,v2尚未达到是常识。

。尽管在数学上一致,但关于奥曼模型中所描述的知识的性质存在一些争议。奥曼本人将偏离子博弈精炼均衡的选择描述为“实质性条件”,他声称这些条件既不是实质性的也不是反事实的。佩雷亚(2007b)从前瞻性理性的角度重新诠释了偏离路径的选择,而德布鲁因(2008)则将其描述为对博弈者在扩展博弈中所了解内容的“一次性”解释。根据这些解释,奥曼的模型描述的是博弈者在博弈开始前对不同节点将发生什么的认知,而不是在观察博弈中的步骤后对特定节点将发生什么的认知。

。更概括地说,奥曼(1995)意义上的理性常识与我们上一节所提出的模型之间的差异,可以看作是一种量词转换。奥曼意义上的理性常识遵循一种“存在-所有”模式:每当存在一种知识状态(即博弈的认知模型中所描述的状态),使得对于所有节点v(无论σ(w)是否到达),参与者在v处的选择就知识状态而言都是理性的,则该常识在状态w成立。允许参与者的信念或知识状态偏离子博弈精炼均衡路径,归根结底就是切换到一种“存在-所有”模式。例如,斯塔尔纳克(1999)关于理性常识的概念在状态w成立,每当对于所有节点v,存在一种知识状态(用状态f(w,v)描述),在该状态下参与者在该节点的选择是理性的。我们已经看到,f(w,v)所描述的知识状态可能会在未到达w的节点上发生变化。

3.3 纳什均衡

。纳什均衡是一种策略配置,其中任何参与者都没有动机单方面偏离其策略选择。换句话说,纳什均衡是多种策略(可能是混合策略)的组合,使得所有参与者在给定其他参与者的策略选择的情况下都会做出最佳反应。例如,在图1所示的协调博弈中,(u,l)和(d,r)是唯一的纯策略均衡。混合策略中也存在一种均衡,其中Ann和Bob都以相同的概率采用各自的纯策略。有关纳什均衡的更详细介绍,请参阅Osborne(2004:第2-4章)。

3.3.1 均衡博弈的认识论特征

。许多作者已经观察到,均衡博弈涉及玩家对其他玩家的选择拥有正确的信念,甚至了解他们的选择,但不一定了解他们的理性。Armbruster & Böge (1979)、Spohn (1982) 和 Tan & Werlang (1988) 的早期论述可以找到。Aumann & Brandenburger (1995) 对这一结果有一个著名的论述。在阐述他们的结果之前,我们先讨论一个能够说明关键思想的例子。考虑以下协调博弈,通常称为“HiLo”博弈。

B

l r

A u 2,2 0,0

d 0,0 1,1

图 19

该博弈有两个纯策略纳什均衡:(u,l)和(d,r),其中(u,l)优于(d,r)(两个玩家都严格偏好结果(u,l)而不是结果(d,r))。此外,还存在一个混合策略均衡,其中 a 和 b 分别以 1/3 的概率扮演 u 和 l(我们将 a 的混合策略表示为(1/3u,2/3d),将 b 的混合策略表示为(1/3l,2/3r))。假设 T 是博弈的类型空间,每个玩家有三种类型 TA={a1,a2,a3} 和 TB={b1,b2,b3},其类型函数如下:

λA(a1)

l r

b1 0.5 0.5

b2 0 0

b3 0 0

。 λA(a2)

。 l r

。 b1 0.5 0

。 b2 0 0

。 b3 0 0.5

。 λA(a3)

。 l r

。 b1 0 0

。 b2 0 0.5

。 b3 0 0.5

。 λB(b1)

。 你d

。 a1 0.5 0

。 a2 0 0.5

。 a3 0 0

。 λB(b2)

。 你d

。 a1 0.5 0

。 a2 0 0

。 a3 0 0.5

。 λB(b3)

。 你d

。 a1 0 0

。 a2 0 0.5

。 a3 0 0.5

。图 20

考虑状态 (d,r,a3,b3)。a3 和 b3 都正确地认为(即赋予概率 1)结果为 (d,r)(我们有 λA(a3)(r)=λB(b3)(d)=1)。这一事实并非常识。a 的类型 a3 赋予 b 属于类型 b2 的概率为 0.5,而 b 的类型 b2 赋予 a 选择 l 的概率为 0.5。因此,a 不确定 b 是否确定她会选择 r。此外,虽然 a 和 b 都是理性的,但他们是理性的并非常识。事实上,类型 a3 赋予 b 属于类型 b2 并选择 r 的概率为 0.5。然而,这是一个非理性的类型-策略对,因为 b2 认为 a 的两个选项发生的概率相同。

上面的例子是,双方都了解对方的选择,双方都是理性的,并且他们达成了纳什均衡。纳什均衡源于前两个事实。回想一下,理性可以归结为在给定对方策略选择的信念的情况下做出最佳反应。如果这些信念是正确的——即另一个玩家实际上正在玩对手认为她会玩的游戏——那么我们就恢复了纳什均衡在相互最佳反应方面的定义。

这一观察结果也适用于混合策略,尽管至关重要的是,双方(请注意,我们只考虑两个玩家的情况)都必须根据对对方的正确信念做出最佳反应。例如,如果 Ann 有概率

2

3

Bob 会玩 r,那么她对纯策略或混合策略都无所谓。换句话说,任何策略选择都是对安的这一信念的最佳回应,而不仅仅是她在混合策略纳什均衡 (1/3u,2/3d) 中对应的组成部分。然而,如果鲍勃对安行为的信念也是正确的,并且 (1/3l,2/3r) 是对此的最佳回应,那么她必然会采取 (1/3u,2/3d)。例如,u 的任何更高概率都会使鲍勃更倾向于采取他的纯策略 l。

(本章完)

相关推荐