博弈论的认识论基础(八)
虽然我们专注于本文中的完整信息游戏,但事实上还持有不完整信息的情况。 参见,例如,AUMANN&Brandenburger(1995)和Bach&Perea(2020年)了解详情。
将此结果扩展到三个或更多的球员引发了并发症(Tan&Werlang 1988; Bicchieri 1995)。 战略选择的合理性和相互了解不再足以确保纳什均衡。 任意有限数量玩家的结果使用常见的策略知识,并假设存在共同的先前信念。 我们在下一节返回后期假设,在那里我们讨论了混合策略纳什均衡的认知解释。 有关早期版本,请参阅Aumann&Brandenburger(1995年:定理B),并再次,Spohn(1982)。 参见,也是佩雷利亚(2007B)和Tan&Werlang(1988),Bach&Tsakas(2014),Barelli(2009)和Brandenburger&Dekel(1987),用于纳什的类似结果或替代表征均衡。
当玩家可能弄错了纳什均衡的两个玩家和N播放者特征不再持有其他人的战略选择。 例如,假设在我们的示例中,ANN中,将概率1分配给Bob播放R,Bob概率1到Ann玩U. 它们各自的最佳反应(d,l)确实不是纳什均衡。
在纳什均衡的认知表征中使用相互正确的信念导致纳什均衡作为解决方案概念的批评。 问题是玩家有史以来如何具有如此正确的信仰或常识关于其他玩家正在选择的常识(参见Skyrms 1990)。 这似乎违背了战略形式的比赛的想法,玩家同时选择,而不知道其他玩家的选择。 Tan&Werlang(1988)是第一个表达这一关切之一的人,这在认知博弈论中越来越普遍(例如,参见,例如,2009,De Bruin 2010和Perea 2012)。 然而,人们可以通过引用外源性因素来证明强烈的正确性假设,例如游戏所在的更广泛的历史,进化或文化背景,特别是对于协调游戏。 Bicchieri(1995)提供对这一论点的富有识别和谨慎的讨论和纳什均衡的认知表征。
从纳什均衡戏剧的认知表征中,还有另一教训。 博弈论认为博弈理论具有共同的合理知识,可能与游戏理论分析中的均衡概念的广泛使用相结合,导致纳什均衡需要常识的理性知识,或者合理性的常见知识足以让玩家根据纳什均衡(参见Bicchieri 1995讨论这一点)。 上面的结果表明,这两个想法都是不正确的。 合理性的常见知识既不是必要的,也不足以用于纳什均衡效果。 事实上,正如我们刚刚强调的那样,纳什均衡可以在完全不确定性下进行播放,并且在高阶的不确定性下的FortioRI,关于他人的合理性。
3.3.2混合策略均衡的认知解释
博弈论的精髓结果是,战略形式的每个有限游戏都有纳什均衡(NASH 1951)。 这对此结果至关重要,允许玩家采用混合策略。 实际上,找不到没有纯战略纳什均衡的游戏并不难。 图21是零和游戏的众所周知的示例,其中没有纯策略纳什均衡(该游戏称为匹配便士)。
b
l r
一个u 1,-1 -1,1
d -1,1 1,-1
图21:匹配的便士游戏
不难看出,其中a采用分配概率0.5至u和b的混合策略的混合策略简档采用了分配0.5至l的混合策略是纳什均衡:既不是一个单方面的动力偏离他们的混合策略。[15]
对混合策略纳什均衡的解释,特别是在一次拍摄游戏中的辩论。 对混合策略纳什均衡的传统解释是正品随机化。 当一个玩家采用混合策略时,她致力于使用某种类型的随机化装置,该装置采用了混合策略指定的概率。 概率。 可以在von Neumann和Morgenstern中找到这种解释的一个经典辩护:随机化允许玩家对他们的对手混淆他们的选择。[16] 虽然这个想法是对零和游戏的意义,例如图21所示的匹配便士游戏,但当玩家不直接竞争时,它的引人势越少。 例如,在图19的协调游戏中,玩家似乎有动力揭示他们对其他球员的选择,以确保有益的结果。 此外,许多作者已经表达了关于将一个人选择委托给随机化设备的想法的保留(咨询Rubinstein 1991,Icard 2021和Zollman 2022,以获取关于此问题的不同观点)。
部分地出现了混合策略的认知解释,作为对担心传统解释作为真正随机化的担忧的反应。 对混合战略纳什均衡的认知解释的想法可以追溯到三个来源:Harsanyi(1973)净化定理,Aumann对相关均衡的工作(Aumann 1974,1987))和早期工作在认知博弈论中(Armbrester&Böge1979; Spohn 1982; Tan&Werlang 1988)。 从20世纪90年代中期开始,大致与(AUMANN&Brandenburger 1995)的出版物相对应,其中认识到突出的解释是突出的,但在认知博弈论文献中已被广泛采用的混合策略的认知解释。
(Aumann&Brandenburger 1995)所呈现的混合策略均衡的认知解释包括三个索赔:
球员没有随机化;
混合策略的概率代表了员工会做什么的不确定性;
玩家的混合策略的概率我是其他玩家的主观归信,了解我将要做什么玩家。
鉴于这一点,混合策略纳什均衡被解释为与所有球员对这些期望发挥最佳反应的财产的一系列常见知识。
首先声明是玩家只选择纯策略。 这一索赔本身不需要导致对混合策略的认知解释。 一种流行,非认知解释混合策略纳什均衡,稳态解释,观点混合策略,反映了球员大群体中纯策略的分布(Weibull 1995)。 在这种解释上,玩家也不是随机化,但混合策略不会被解释为主观概率。
认知解释的核心是第二个声明,球员的混合策略代表了对球员将要做的事情的不确定性。 Harsanyi(1973)净化定理是本发明索赔最早配方之一。 本定理将混合策略解释为在“扰动的游戏”中表达收益不确定性,在那里由于每个球员的“心情”所观看的外源因素,球员的公用事业可能会略微波动。 每个玩家都知道他或她自己的心情,而不是其他球员。 因此,扰动的游戏是不完整信息的游戏(参见1.4节)。 根据定理,对于几乎所有的混合策略纳什均衡在战略形式游戏中,人们可以构建一个不完全信息的扰动游戏序列,所有均衡涉及纯策略,这些均衡会聚到混合策略均衡支付扰动的大小为零(参见莫里斯2006,概述了这一重要定理的概述)。 本定理的结果是,纳什均衡中的混合策略代表了每个玩家私人倾向选择一个动作的不确定性。[17]
Harsanyi的净化定理提供了通过增加与收益相关的因子-i.,通过从完整信息游戏转变为不完整的信息游戏来通过增加游戏的潜在描述来提供混合策略纳什均衡的认知解释。 AUMANN(1974)使用外源但收益不相关信号制定了类似的混合策略的解释。 这个想法是,玩家将他们的战略选择在一些私有的外部信号上。 由玩家接收的信号来自普通已知的概率分布,并且在每个玩家知道她自己的信号但不是由其他玩家接收的信号的意义上是私有的。 Aumann(1974,1987)表明,如果玩家是合理的,并且每个玩家接收的信号是独立的,那么玩家的各自纯策略上的概率分布是自然地构造的,自然地构造出来的信号和玩家的条件策略的分布是混合的战略纳什均衡。 在更常规的情况下,当信号可以相关时,玩家将最终播放相关的平衡(参见Vanderschraaf,2001,用于对此和相关结果的良好讨论)。
到达当代认识的混合策略的最初认知解释的最后一步是消除外源性组件,如“情绪”或“信号”,并专注于球员的战略不确定性。 这是由Tan和Werlang(1988)-Who也是通过Credit Armbrester&Böge(1979)实现的,为两名球员,并通过Aumann和Brandenburger(1995)的三名或更多球员推广。 第一个关键的想法是在游戏模型中以中生成,在来自Aumann(1974,1987)的玩家信号的常见概率所扮演的角色。 这通常是通过假设玩家在型空间或认识性(-probability)模型中的底层状态上具有共同的先前信仰来完成。 然后,通过在玩家的私人信息之前调整这个常见的常见阶段来计算Player的后验,这通常包括她的类型和她选择的纯策略。 第二个关键的想法是让其他球员的主观债务的概念意识到玩家的纯战略选择。 在两位玩家游戏中,这不是一个问题,因为只有一个对手,我们可以从混合策略中读取主观职业。 然而,由于两个以上的球员,任何原则都没有任何东西可以防止不同的对手对一些玩家将会做些不同的对手,即使他们是一个共同的先前信仰。 因此,有两个以上的球员,其他玩家的信件的概念没有意义。 假设在常见的先前,常见概率通常是众所周知的,避免这种困难(Aumann 1976)。 把所有东西放在一起,我们有以下定理,捕捉到混合策略的认知解释(Tan&Werlang 1988; Aumann&Brandenburger 1995)。
我们首先需要一些符号。 假设g =⟨n,(si)i∈n,(ui)i∈n⟩是战略形式的游戏。 为玩家I的猜想是对其他玩家的策略的概率:即,播放器I的猜想是Δ(×isj)的一个元素。 假设P�δ(×isj)是玩家I的猜想。 然后,对于每个玩家J≥I,猜想P通过SJ(正式地,通过拍摄关于SJ的边缘的概率,所述概率表示由P引起的j的猜测。 我们可以将状态W与游戏G(认识概率模型或类型空间)相关联,为播放器I表示由φW表示的播放器I(如此φW,i∈δ(×j≥Isj))。 对于所有玩家,我和各国在游戏模型和所有球员J∈I中,让φ
j
w,我
是我对φw诱导的j猜测,i(如此φ
j
w,我
∈δ(sj))。
定理3.13设法以战略形式的游戏,W是G的一个状态,用于g的模型(认识概率模型或类型空间)。 假设
在游戏模型中的一组状态上存在共同的先前(即单个概率测量),假设所有玩家的选择是独立的,
所有球员都在W,
所有玩家都将概率1分配给其他玩家在W的其他玩家中,
球员在W关于其他玩家的猜想是常识(即,每个玩家的猜想是φw的事件,我是常识),
然后,对于所有玩家J,每个玩家的诱导猜测关于j是相同的(即,对于所有玩家i,j和k,如果k∈I和k j,那么p
j
w,我
= p
j
w,k
)。 此外,关于由其他球员猜测的每个玩家的猜想形成混合策略纳什均衡。
如果我们解除了普通的先前信念的假设,那么关于由其他玩家猜想引起的每个玩家的猜想形成混合策略相关的平衡(Brandenburger&Dekel 1987),以及举起共同的先前假设完全我们获得了关于其他玩家猜想引起的每个玩家的猜想构成合理化的混合策略(参见第3.1.2节)。
重要的是要强调这种结果不是均衡效果的表征。 回想一下,在混合策略中,纳什均衡在支持这种混合策略方面的任何策略都是对其他人发挥的混合策略的最佳反应。[18] 因此,在旨在满足上述定理的假设的游戏模型中的任何状态下,对于其他玩家对她选择的信仰的支持,任何策略都是对她的选择的最佳反应是我对其他人的信念的反应。 例如,如果在图19中的HILO游戏中,ANN认为鲍勃将以概率1/3播放L,然后她在U和D之间漠不关心,而且类似于鲍勃。 因此,可以构建上述定理持有的条件的状态,而ANN播放U和BOB播放R,这不是游戏的纳什均衡播放。 一些作者认为,这已经提出了纳什均衡作为解决方案概念的预测力量(参见Bicchieri 1995; Rubinstein,1991)。
3.4迭代弱势主导和谨慎的信念
认知博弈论的基本定理(第3.1节)是对迭代迭代灭亡策略的战略概况的认知表征。 博弈论中的另一个重要迭代程序是迭代地去除弱统治战略的策略。
定义3.14(弱优势)假设
g =⟨n,(丝)i∈n,(ui)i∈n⟩
是战略形式和Xïs-i的游戏。 让m,m'∈δ(si)是玩家i的两个混合策略。 该策略M弱占主导地位的X.提供的X
对于所有S-i∈x,UI(M,S-I)≥UI(M',S-I),和
有一些s-i∈x,使得UI(M,S-I)> UI(M',S-I)。
我们说m是弱统治,提供了一些弱占主导地位的m'∈δ(si)。
Lemma 3.2有一个类似物,说明游戏中的策略是严格主导的,只有,如果这一策略不是对其他玩家选择的任何概率的最佳反应。 给定SET X说,如果P为X(即,对于所有x∈x,p(x)> 0)为每个元素分配正概率,则概率测量p∈δ(x)具有完全支持。 让Δ> 0(x)是X上的全部支持概率措施集的集合。S-I的完全支持概率意味着玩家我没有完全排除(从某种意义上,她分配零概率)对手的任何策略概况。
LEMMA 3.15假设G =⟨n,(si)i∈n,(ui)i∈n⟩是战略形式的游戏。 关于x⊆s-I IFF的策略s∈si是弱主导的(可能是由混合策略),没有完全支撑概率测量p∈δ> 0(x),使得Si是关于p的最佳响应。
这种引理的证据比LEMMA 3.2的证据更涉及:见伯恩姆(1984:附录A)进行证明。
迭代消除弱统治战略进行如下:迭代地从游戏中删除所有弱统治策略,直到没有弱统治的策略(参见迭代消除3.1.2节的严格统治战略的定义)。 显然,由于严格的主导地位意味着薄弱的主导地位,在迭代删除严格统治战略中删除的任何策略也被删除删除弱势统治战略。 但是,没有难以找到的游戏,其中没有生存迭代迭代脱模的弱势策略,但他们确实存活了迭代的删除严格统治策略(例如,图22中的游戏,其中没有严格的策略在整个游戏中占主导地位,唯一生存迭代攻击弱统治策略的唯一策略是(U,L))。
迭代剥夺弱势策略的迭代差异有三个至关重要的差异,并迭代严格占主导地位的策略。 第一区别是迭代消除严格统治策略是秩序无关的,但迭代地去除弱统治策略并不无关。 这意味着与迭代严格的优势相比,消除弱统治策略的顺序可以对最终结果产生差异。 也就是说,有些游戏在其中策略简介幸存下来迭代删除一些弱统治策略的序列,但如果以不同的顺序删除弱统治策略 关于令人迭代程序的认知表征的秩序独立性意义(Trost 2014)有一个有趣的问题。 为避免这种并发症,重要的是,所有球员的所有弱统治战略都在迭代程序的每个步骤中删除。
弱和严格的优势之间的第二个差异对迭代消除弱统治策略的迭代消除的认识表征存在着兴趣问题。 比较Lemma 3.2中严格统治的特征,在雷玛3.15中的弱势统治中的表征对对手策略的任何完全支持概率。 因此,避免对X的弱统治策略要求玩家对他们的对手进行谨慎的信念,这些对手不会排除X.的任何策略概况。
第三种差异是,没有观察结果3.3对于弱优势。 如果战略严格统治,则仍然存在,如果玩家获得更多关于她的对手(可能)的信息。 但是,如果策略S对X弱主导,则不需要是S对某些X'ūx弱主导的情况。
许多作者指出,弱势和严格的优势之间的这些差异为迭代脱击策略的迭代删除的认识表征产生了困难(Samuelson 1992; Asheim&Dufwenberg 2003; Brandenburger,Friedenberg&Keisler 2008; Cubitt&Sugden 1994)。 为了说明拼图,请考虑以下游戏(Samuelson,1992):
鲍勃
l r
人工神经网络u 1,1 1,0
d 1,0 0,1
图22:来自Samuelson的游戏(1992)。
在这个游戏中,D由你弱统治。 如果鲍勃知道她没有选择弱统治的策略,那么他就可以排除她的演奏。 在较小的游戏中,R现在严格主导L用于鲍勃。 如果安知道鲍勃是理性的,那么鲍勃都知道她没有选择弱统治的策略(等等,排除了选项d),那么她可以排除选项r。 假设上述推理对ANN和BOB都透明,常识是ANN将扮演U和BOB将发挥L. 但是现在,鲍勃排除了安会扮演D的可能性是什么? 他知道安妮知道他会玩L,U和D都是L的最佳回应。 问题是假设球员的信仰与迭代删除弱势战略的逻辑是谨慎的冲突。 这个问题很好地描述在着名的微观经济学教科书中:
[T]他对删除球员的弱统治战略的论点我认为,他考虑了他对竞争对手的每个策略组合的可能性,以积极的概率发生。 然而,这种假设与迭代删除的逻辑冲突,这假设恰恰是预计不会发生消除的策略。 (Mas-colell,whinston,绿色1995:240)
萨缪尔森(1992)表示这种紧张的程度,萨摩尔森(1992)说明了上述游戏的概率概率模型[19],一方面,常见的知识,玩家不选择迭代弱统治的策略另外,另一方面,玩家不知道的那样。 第二个要求是加强上述谨慎信念的概念。 不知道其他人不选择弱统治策略意味着,对于萨缪尔森(1992)而言,如果两个策略对球员的预期效用相同,她的对手无法知道她将选择哪种选择[20]。 在图22中描绘的游戏中,如果ANN知道鲍勃正在选择L,则ANN在U和D之间无动于衷。 所以根据这种强烈的谨慎信仰鲍勃的概念,不能知道安在选择你。 这表明游戏模型的额外约束。 假设W是游戏G(认识概率模型或类型空间)模型中的状态,我是G的玩家,S是玩家I的策略。 如果S在州W对于播放器i是合理的,那么对于所有玩家J∈I,j无法知道我不选择s(即,j不能将概率0分配给播放器我选择s的事件。 该物业被Cubitt和Sugden(2011:8)所谓的“隐私”(2011:8)以及“Asheim和Dufwenberg(2003年)的”无关紧要“。[21] 因此,萨缪尔森(1992)表明,在没有生存弱势统治战略的常见策略和具有强大的信仰谨慎情绪的策略之间存在基本的张力与包括绑架的隐私(见Cubitt&ugden 2011,讨论)。