博弈论的认识论基础(六)

3.1.3关于相关选择的信念 lemma 3.2的证明需要两个至关重要的假设。 第一个假设是球员认为他们的选择是独立的。 众所周知,当存在采取行动状态依赖时,选择严格主导的行为可能是理性的(参见Schervish,Seidenfeld,&Kadane 1990)。 为了说明,考虑所谓的囚犯在图15中描绘的困境(参见囚犯困境的完整讨论,参见图15中所示的囚犯困境(参见科书Kuhn 1997)。 鲍勃 c d 人工神经网络c 3,3 0,4 d 4,0 1,1 图15:囚犯的困境 在囚犯的困境中,C对于两名球员而言,C严格主导。 根据Lemma 3.2,没有对鲍勃的选择没有概率,使C成为最佳反应。 但是,如果安娜认为鲍勃的选择与她的选择相关联(即,如果她确实和选择d,鲍勃会与她选择C的选择和选择D),并且她的选择对BOB透明,那么C可能是一个合理的选择信仰(参见兄弟1975;戴维斯1977; Capraro&Halpern 2016; Halpern&Pass 2018)。 因此,LEMMA 3.2仅在假设每个玩家认为其他玩家的选择不依赖于玩家自己的选择时。[13] LEMMA 3.2证明所需的第二个假设涉及超过两名球员的游戏。 有三名或更多的球员,LEMMA 3.2只有持有球员可以相信其他玩家的选择是相关的(Brandenburger&Dekel 1987; Brandenburger&Friedenberg 2008)。 来自Brandenburger和Friedenberg(2008)的以下示例说明了这一点。 考虑以下三个人游戏,Ann的策略是SA = {U,D},Bob的策略是SB = {L,R},Charles的策略是SC = {x,y,z},并且它们在相应的每个结果中给出了它们的各自的偏好单元格(其中Ann的实用程序是第一个组件中的数字,Bob的实用程序是第二个组件中的数字,Charles的实用程序是第三个组件中的数字): x l r u 1,1,3 1,0,3 d 0,1,0 0,0,0 y l r u 1,1,2 1,0,0 d 0,1,0 1,1,2 z l r u 1,1,0 1,0,0 d 0,1,3 0,0,3 图16 请注意,Y不严格为查尔斯占主导地位。 从LEMMA 3.2预期,很容易找到概率测量p∈δ(SA×SB),使得Y是对P的最佳响应。 假设p(u,l)= p(d,r)= 0.5。 然后, 欧盟(x,p)= 3 * 0.5 + 0 * 0.5 = 1.5 = 0 * 0.5 + 3 * 0.5 =欧盟(z,p) 而欧盟(y,p)= 2。 然而,没有概率测量p∈δ(SA×SB),使得Y是对P和P(U,L)= P(u)⋅p(1)(即,Charles认为Ann和Bob的选择是独立的最佳响应。 要看到这一点,假设P是表示Charles对Ann和Bob的选择的任何概率,使得α是分配给U的概率,并且β是分配给L和P(U,L)= P(u)p(l)=αβ的概率。 注意,这意味着:P(U,R)=α(1-β),p(d,l)=(1-α)β,p(d,r)=(1-α)(1-β)。 然后,我们有: X的预期效用是 欧盟(x,p)=3αβ+3α(1-β) =3α(β+(1-β)) =3α; Y的预期效用是 欧盟(y,p)=2αβ+ 2(1-α)(1-β); 和 z的预期效用是 欧盟(z,p)= 3(1-α)β+ 3(1-α)(1-β) = 3(1-α)(β+(1-β)) = 3(1-α)。 有两种情况: 假设1-α≤α。 然后, 欧盟(y,p)=2αβ+ 2(1-α)(1-β) ≤2αβ+2α(1-β) =2α <3α =欧盟(x,p)。 因此,由于欧盟(X,P)> EU(Y,P)以来,Y不是最佳响应。 假设α<1-α。 然后, 欧盟(y,p)=2αβ+ 2(1-α)(1-β) <2(1-α)β+ 2(1-α)(1-β) = 2(1-α) <3(1-α) =欧盟(z,p)。 因此,由于欧盟(Z,P)>欧盟(y,p)以来,y不是最好的响应。 在任何一种情况下,y都不是对p的最佳回应。 因此,虽然Y严格为查尔斯占主导地位,但没有关于ANN和BOB的选择的概率,使得ANN和BOB的选择是独立的,而Y是对该概率的最佳反应。 3.2贱场完美均衡 从同时移动游戏到顺序游戏的转变,玩家可以在自己制作之前观察到其他玩家的决定,在认知博弈论中提出了许多有趣的问题。 顺序游戏最着名的解决方案概念是Selten(1975)首次提出的Supgame完美均衡。 使用众所周知的向后感应算法计算这种平衡。 哲学家和游戏理论家在Binmore的工作 有关历史概述,请参阅PEREA(2007B)和Kuechle(2009)。 关于游戏的认知视角通过专注于假设在球员之间的合理性常识是足以使游戏的结果成为贱场完美均衡的问题。 已经给出了这一问题的众多,并且显然矛盾的答案。 事实证明,这些答案,在观察意外动作时休息有关玩家如何改变他们的信仰的不同观点。 3.2.1以广泛形式的游戏 顺序游戏,以广泛的形式称为游戏,描述了玩家移动的顺序。 在此条目中,我们专注于具有完美信息的游戏,其中没有同时选择,并且在游戏中提前做出的选择没有不确定性。 定义3.6(完善的信息游戏以广泛的形式)广泛形式的完美信息游戏是元组 ⟨n,t,法,τ,(ui)i∈n⟩, 在哪里 n是一套有限的球员; t是描述每个玩家的选择顺序的树:正式,T由一组节点和立即继承关系关系↣(即,如果V和V'是节点,则v↣v'表示V'是紧接在v后面的节点,称为V)的继任者。 假设z是终端节点的集合(即,没有任何继承人的节点),并且v是剩余的节点(称为判定节点)。 设v0表示初始节点(即树的根)。 从节点V到继承人节点V'的每个转换都由设置动作的动作标记。 我们写作(v)表示v可用的一组动作。 τ是将播放器分配给每个决策节点v∈v的转函数。 对于每个玩家i∈n,让VI = {v∈v|τ(v)= i}是我正在移动的节点集。 UI:z→R是为每个终端节点分配实数的播放器的实用程序功能。 战略是一个计划,告诉玩家在所有决策节点中做什么,即使是那些被战略本身排除的节点。 定义3.7(策略)假设g =⟨n,t,动作,τ,(ui)i∈n⟩是一种以广泛形式的游戏。 播放器I中的策略是函数s:vi→所有v∈vi,s(v)的行为,s(v)。 对于每个玩家I,让Si成为G的播放器I中的策略。一个策略配置文件,表示S,是s的,是×i∈nsi的一个元素。 鉴于战略简介S,我们为播放器我为S和S-I的组成部分编写了SI,用于所有球员的策略序列,除了我。 用于广泛的游戏G =⟨n,t,动作,τ,(ui)i∈n⟩的每个策略简介s都会生成一条路径,其中路径是节点V0,V1,...,VK的一系列,其中VK是终端节点,并且所有0≤j ui(出来(s)) 对于图17中的游戏,独特的Subgamame完美均衡是(O1O3,O2)。 所谓的向后感应算法可用于以广泛的形式计算完美信息游戏中的独特子播放完美均衡,其中没有玩家在两个不同节点处接收相同的回报。[14] 该算法如下所示: BI算法在终端节点,所有节点都标有播放器的实用程序。 在非终端节点V中,一旦标记了所有直接的继承者,节点就标记如下:找到具有最高实用程序的播放器τ(v)的直接继承人v'(其转弯它在v上移动的玩家)。 将v从v复制到V'。 重复此过程,直到所有节点都标有播放器的实用程序。 给定所有节点的广泛游戏,从游戏树的根v0引导到与分配给v0分配的实用程序的实用程序的实用程序导致的唯一路径称为后向感应路径。 向后感应算法为每个非终端节点定义从该节点到终端节点的路径。 这些路径可用于定义每个玩家的策略:在每个决策节点V中,选择与来自v的路径一致的动作。得到的策略组合是后向感应曲线(其中每个玩家跟随由后向感应算法给出的策略)。 此档案是SupgAlame完美均衡。 我们专注于广泛的游戏,在本节中没有完美的信息,其中没有玩家在两个不同的终端节点处收到相同的回报,但向后感应推理适用于更广泛的广泛游戏,其中信息可能是不完美的或甚至不完整的(参见,例如,Bonanno 2014; 2014年的佩雷替补;和Catonini&Penta 2022 [其他互联网资源])。 3.2.2以广泛形式的游戏模型 有很多方法可以通过广泛的形式描述游戏中的玩家知识和信仰(参见Battigalli&Bonanno 1999和Bonanno 2015进行调查)。 这些游戏模型通过描述玩家在游戏中的戏剧期间修改他们的信仰来修改玩家来建立第2节中讨论的那些。 查看Samet(1996); Stalnaker(1999); Battigalli&Siniscalchi(2002); Baltag,Smets和Zvesper(2009); 和Battigalli,Di Tiltio,&Samet(2013)用于描述不同方法,以描述在广泛的形式游戏中改变信仰的运动员。 在本节中,我们介绍了Halpern(2001)中使用的模型,以促进我们对假设在广泛的形式游戏中具有共同理解的含义的讨论。 我们首先将认知模型从定义2.1转移到广泛形式的游戏: 定义3.8(以广泛形式的游戏史历史模型)以广泛形式的游戏认知模型 g =⟨n,t,法,τ,(ui)i∈n⟩ 是一个元组⟨w,(πi)i∈n,σ⟩,其中w是一个非空的州; 对于每个i∈n,Πi是w上的分区; 和σ:W→×i∈nsi是分配给每个州W的函数,用于G的策略配置文件。如果σ(w)= s,则为S-i编写SI和Σ-i(w)的Σi(w)。 像往常一样,我们假设玩家知道自己的策略:对于所有w∈w,如果是w'πi(w),那么Σi(w)=σi(w')。 决策节点的策略的合理性取决于战略在所有未来决策节点以及玩家了解或相信其对手遵循的策略的原因。 由于我们正在使用非概率的知识模型,我们使用相应的理性选择的定性概念。 让S-I(w)= {Σ-i(w')|W'6πi(w)}是玩家我认为我认为在州W的对手的策略轮廓集。 然后,OUTI(v,s,s-i(w))是播放器我认为在节点v处可以遵循的策略级来开始的一组结果。 定义3.9(决策节点的合理性)假设g =⟨n,t,动作,τ,(ui)i∈n⟩是一个以广泛形式的游戏,具有完美的信息(参见定义3.6)和m =⟨w,(πi)i∈n,σ⟩是g的模型(参见定义3.8)。 播放器I在Node W中的节点v∈vi在州W中是合理的,因为所有策略S∈Σi(w),有终端节点o'∈outi(v,s,s-i(w))和oğouti(v,Σi(W),S-I(W)),使得UI(O)≥UI(O')。 因此,我在州W中的决策节点v∈vi在决策节点v∈vi中获得了一个玩家,但我不知道存在替代策略,总是会给她一个严格更高的回报。 定义3.10(实质性合理性)假设 g =⟨n,t,法,τ,(ui)i∈n⟩ 是一种以广泛形式的游戏,具有完美的信息,M =⟨w,(πi)i∈n,σ⟩是G.播放器I的型号,在为所有决策节点Vv∈vi提供的状态W处于实质性地,我在州W中是合理的。 注意播放器我在州W处于实质性地理性,当我在我的所有决策节点都有理性时,即使是那些在以前的播放器的决定节点中排除的那些,我也根据我的战略。 该播放器i具有实质性理性的事件定义如下:srati = {w|player i在州w}在实质性地理性}; 因此,所有玩家都是基本上理性的事件是srat =⋂i∈nsrati。 然后(实质性)合理性的共同知识如2.3节所定义。 在本节的其余部分中,“合理性常识”将表示实质性合理性的共同知识。
(本章完)

相关推荐