博弈论的认知基础(六)
4.1.2哲学问题
许多作者指出了前一节结果中共同的信念假设的强度(参见,例如,Gintis 2009; Bruin 2010)。 它要求玩家不仅相信其他人没有选择一种非理性战略,而且还相信每个人都认为没有人选择一个非理性的策略,每个人都认为每个人都认为每个人都认为任何人都认为没有人是选择非理性战略,等等人。 然而,应该指出的是,这种无界性的角色只是为了确保任意有限游戏的结果持有。 对于特定的游戏和一个模型,“每个人认为”的有限迭代足以确保幸存在迭代消除程序中的戏剧。
对批评普通信念假设的无限性本质的可能答复是,结果应该被视为对基准案例的分析,而不是对真正游戏的描述或有理玩家应该做的事项的处方(AUMANN 2010)。 实际上,普通知识/合理性的信仰长期以来一直被用作古典游戏理论分析潜在的理想化的非正式解释(Myerson 1991)。 以上结果表明,一旦正式化,这种假设确实导致了经典的解决方案概念,尽管有趣的是,但不可知的纳什均衡,正如通常在早期的比赛 - 理论文学中非正式声明的那样。 第5.1节介绍了纳什均衡的认知条件。
从上一节中取出结果的主要信息是:游戏中的战略推理涉及高阶信息。 这意味着,特别是
“贝叶斯理性”单独,即,预期效用的最大化 - 不足以确保在一般情况下迭代地签名的策略概况。
一般来说,一流的合理信念也不会做。 究竟需要多少级别的信念来保证游戏情况下的“合理游戏”仍然是许多辩论的主题(Kets 2014; Colman 2003; De Weerd,Verbrugge,&Verheij 2013; Rubinstein 1989)。 我们需要解决两个问题。
首先,代理商如何到达一个常见合理性的背景? 以上结果不回答该问题。 这是最近在动态认知逻辑的工作的主题(van Benthem 2003)。 在本文中,通过表明代理商可以消除关于彼此的合理性的所有高阶的不确定性来回答这个问题,从而确保没有播放任何策略,这不会通过反复和公开“宣布”它们不是不合理的。 换句话说,迭代公开的合理公告使得球员的期望会聚到足够的认识条件,以发挥迭代非主导的策略。 有关此动态视图的解决方案认知表征见Van Benthem(2003); Pacuit&Roy(2011); 范·贝森姆&gheerbrant(2010年); 和van Benthem,Pacuit,&Roy(2011)。
其次,当有两个以上的球员时,上面的结果只能持有,如果玩家可以相信他们的对手的选择是相关的(Bradenburger&Dekel 1987; Brandenburger&Friedenberg 2008)。 来自Brandenburger和Friedenberg(2008)的以下示例说明了这一点。 考虑以下三个人游戏,Ann的策略是SA = {U,D},Bob的策略是SB = {L,R},Charles的策略是SC = {x,y,z},并且它们在相应的每个结果中给出了它们的各自的偏好细胞:
l r
u 1,1,3 1,0,3
d 0,1,0 0,0,0
l r
u 1,1,2 1,0,0
d 0,1,0 1,1,2
l r
u 1,1,0 1,0,0
d 0,1,3 0,0,3
x y z
图16
请注意,Y不严格为查尔斯占主导地位。 很容易找到概率测量p∈δ(SA×SB),使得Y是对P的最佳响应。 假设p(u,l)= p(d,r)=
1
2
。 然后,欧盟(x,p)= eu(z,p)= 1.5,而欧盟(y,p)= 2。 然而,没有概率测量p∈δ(SA×SB),使得Y是对P和P(U,L)= P(u)⋅p(1)(即,Charles认为Ann和Bob的选择是独立的最佳响应。 为了看到这一点,假设A的概率分配给U,B是分配给L的概率。 然后,我们有:
Y的预期效用是
2ab + 2(1-一个)(1-b);
X的预期效用是
3ab +的3a(1-b)=的3a(b +(1-b))=的3a;
和
z的预期效用是
3(1-一个)b + 3(1-一个)(1-b)= 3(1-一个)(b +(1-b))
= 3(1-一个)。
有三种情况:
假设a = 1-a(即,a = 1/2)。 然后,
2ab + 2(1-一个)(1-b)= 2ab + 2a的(1-b)
= 2a的(b +(1-b))
= 2a的<的3a。
因此,y不是最好的回应。
假设一个> 1-a。 然后,
2ab + 2(1-一个)(1-b)<2ab + 2a的(1-b)= 2a的<的3a。
因此,y不是最好的回应。
假设1-a>a。 然后,
2ab + 2(1-一个)(1-b)<2(1-一个)b + 2(1-一个)(1-b)
= 2(1-一个)
<3(1-一个)。
因此,y不是最好的回应。
在所有情况下,y不是最好的回应。
4.2向后感应
第二个基本结果分析了在广泛的比赛中合理性和共同信念/理论的后果(即,树木而不是矩阵)。 在这里,最着名的解决方案概念是所谓的Subgame完美均衡,也称为完美信息游戏中的后向感应。 这种解决方案概念的认知表征是在“实质性合理性”方面,所有球员都具有实质性理性的常见信念(CF.也是Vanderschraaf&Sillari 2009:Sec。2.8)。 我们在本节中突出显示的要点,即现在在文献中被广泛承认,是:
信仰修订政策在广泛比赛的认知分析中发挥着关键作用
最着名的例证是通过对两个明显矛盾的结果的比较,了解在广泛的比赛中假设理性和合理性常识的后果。 AUMANN(1995)表明,这一认识的条件意味着玩家将根据后向入境解决方案播放,而Stalnaker(1998)认为这不一定是真的。 这两种结果之间的关键差异是他们模拟球员信仰变革的方式(假设)学习对手已经偏离了后向感应路径。
4.2.1广泛的游戏:基本定义
广泛的游戏在游戏情况下明确序列结构。 在本节中,我们专注于完美信息的游戏,在其中在游戏中没有关于早期选择的不确定性。 这些游戏由树状结构表示:
定义4.3(完美信息广泛的游戏)广泛的游戏是一个元组⟨n,t,行动,τ,{ui}i∈n⟩,在哪里
n是一套有限的球员;
t是描述游戏情况的时间结构的树:正式,t由一组节点和立即继承关系↣组成。 设Z表示该组终端节点(即,没有任何继承者的节点)和v剩余节点(称为判定节点)。 设v0表示初始节点(即树的根)。 决策节点v∈v处的边缘各自标有来自SET ACT的动作。 让ACT(v)表示在v的一组动作。让⇝是↣的传递关闭。
τ是将播放器分配给每个节点v∈v的转弯功能(对于播放器i∈n,让vi = {v∈v|τ(v)= i})。
UI:Z→R是我将实数分配给结果节点的播放器的实用程序函数。
战略是广泛游戏中的艺术术语。 它表示每种可能性的计划,它告诉代理人在她正在发挥的所有历史,甚至那些被策略本身排除的历史。
定义4.4(策略)玩家i的策略是一个函数si:vi→所有v∈vi,si(v)anact(v)的行为。 策略概况表示S的是πi∈nsi的一个元素。 鉴于战略简介S,让Si成为S和S-I的组件,而S-I为所有玩家的策略序列,除了我。
每个策略个人资料S通过广泛的游戏生成一条路径,其中路径是由直接继承关系排序的广泛游戏的节点的最大节点序列。 我们说v策略概况达到v是v在s生成的路径上。 假设V是广泛游戏中的任何节点。 泄露(v,s)是从节点v开始的终端节点,所有玩家根据个人资料s中的各自策略移动。 给出一个决策节点v∈vi是玩家I,一个策略SI for Player I,以及I的对手的策略概况的一个x⊆s-i,让OUTi(v,si,x)= {out(v,(si,s-i))| - i∈x}。 也就是说,OUTI(v,si,x)是可以达到的终端节点,如果从节点v,播放器开始,我使用策略si和i的对手使用来自x的策略配置文件。
以下完美信息广泛游戏的示例将用于说明这些概念。 游戏是着名的蜈蚣游戏的一个例子,在广泛的比赛中在认知博弈论文献中发挥着重要作用。
[图中,3个圆圈标记为v_1,v_2,v_3,下面的每个圆角矩形分别标记为O_1,O_2和O_3。 标记为O_4的第四个圆角矩形是V_3的右侧。 V_1连接到V_2,使用标有I_1和V_2至V_3的实线,使用实线标记为I_2和V_3至O_4,具有标记为I_3的实线。 实线还将每个圆圈连接到下面的圆角矩形,分别标记为O_1,O_2,O_3。 圆圈v_1和v_3括在文本'a'和v_2附上文本'b'。 O_1括在内,O_2 o_2封闭'0,2',O_3封闭'4,1'和O_4封闭'3,3'。]
图17:广泛的游戏
A和B的判定节点分别是VA = {V1,V3}和VB = {V2}; 结果节点是O = {O1,O2,O3,O4}。 上述树中边缘的标签是每个玩家可用的动作。 例如,ACT(V1)= {O1,I1}。 B的A和两个策略有四种策略。为了简化符号,我们通过每个决策节点的选择顺序表示玩家的策略。 例如,A的策略S
1
一种
定义为s
1
一种
(v1)= o1和s
1
一种
(v3)= o3由序列O1O3表示。 因此,一个人的策略是:s
1
一种
= O1O3,S
2
一种
= o1i3,s
3
一种
= i1o3和s
4
一种
= i1i3。 请注意,A的策略是的
2
一种
指定V3处的移动,即使较早的v1,o1的移动也意味着将不会在v3处移动移动的机会。 同样,鲍勃的策略将被S表示
1
b
= O2和s
2
b
= I2,给出B在他的决策节点上选择的动作。 然后,例如,(v2,(s
2
一种
,s
2
b
))= o4。 最后,如果x = {s
1
一种
,s
4
一种
}然后OUTB(v2,s
2
b
,x)= {o3,o4}。
4.2.2后向诱导的认知表征
在广泛的比赛中,有各种方法可以描述球员的知识和信仰。 游戏模型根据哪种认识态度(例如,知识和/或信仰的各种概念)而变化,并且正是在比赛中的戏剧中,玩家的性格如何倾向于修改他们的信仰。 咨询Battigalli,Di Tiltio,&Samet(2013); Baltag,Smets和Zvesper(2009); 和Battigalli&Siniscalchi(2002)用于文献中发现的不同类型模型的采样。
最简单的方法之一是使用第2.2节中引入的认知模型(参见Aumann 1995; Halpern 2001b)。 广泛的比赛的认知模型g =⟨n,t,动作,τ,{ui}i∈n⟩是一个元组,{πi}i∈n,σ⟩,其中w是一个非空的州; 对于每个i∈n,Πi是w上的分区; 和σ:W→πi∈nsi是分配给每个州W的函数W,来自G的策略配置文件。如果σ(w)= s,则为S-1写入Si和Σ-i(w)的Σi(w)。 像往常一样,我们假设玩家知道自己的策略:对于所有w∈w,如果是w'πi(w),那么Σi(w)=σi(w')。
决策节点策略的合理性取决于战略在所有未来决策节点上规定的行动以及玩家对其对手所关注的策略的了解。 让S-I(w)= {Σ-i(w')|W'6πi(w)}是玩家我认为我认为在州W的对手的策略轮廓集。 然后,OUTI(v,si,s-i(w))是播放器的一组结果,即我认为在节点v中可能在节点v如果遵循策略si。
定义4.5(决策节点的合理性)播放器I在Nodev∈vi提供的州W提供的播放器,对于所有策略SI,使得SIΣi(W),有一个o'∈outi(v,si,s-i(w))和o∈outi(v,Σi(w),s-i(w)),使得UI(O)≥UI(O')。
因此,我在州W中的决策节点v∈vi在决策节点上获得了一个玩家,但我不知道还有一种替代策略,可以给她一个更高的回报。
定义4.6(实质性合理性)播放器I在为所有决策节点v∈vi提供的状态W处于实质性理性,我在州W中的v在V.
我们可以定义播放器I具有实质性理性的事件是标准方法:Rati = {W | Waplayer I在州W}实质性地理性}; 因此,所有玩家都是基本上理性的事件是鼠=⋂i∈nrati。
在决策节点V下的合理性概念是在令人置信中,即它只考虑了从游戏中的那一点出现的可能性。 它不考虑前面的动作,导致V-I.E。,哪种选择具有或可能导致诉。我们将在下面的讨论中返回这一点。
这一点的重要结果是,仅在终端节点的节点处选择的选择的合理性与相关的玩家的知识无关。 如果所有V的立即接班人是终端节点,则呼叫节点V预终端。 在这样的节点中,玩家认为可能的策略是什么:如果V是终端节点和播放器,则我在游戏的认知模型中的所有态都在V,那么为所有策略Sińsi,outi(v,si,s-我(w))= {si(v)}。 这意味着例如,对于图17中的广泛游戏的认知模型中的任何州W的任何州W,W在W中的节点V3的唯一策略是在节点V3处规定选择O3的唯一策略。 因此,如果w∈rata,那么Σa(w)(v3)= o3。 无论什么是知识,要么知道B会做什么,如果游戏到达节点V3,那么A的唯一合理选择是O3。
关于终端前节点的玩家合理性的信息对于在游戏前面选择的玩家非常重要。 返回图17中的游戏,如果B知道A在游戏的认知模型中在州W处于实质性理性,则Πb(w)⊆rata。 鉴于上述参数,这意味着如果是w'πbb(w),则Σa(w')(v3)= o3。 因此,我们在游戏的认知模型中有任何州W,
outb(v2的,i2,s-我(w))= {o3};
当然,
outb(v2的,氧气,s-我(w))= {氧气}。
但是,(O2)是任何州W在V2处的B处的唯一策略(从UB(O2)=2≥1= UB(O3)之后)。 这意味着如果w∈ratb和πb(w)⊆rata,则σb(w)(v2)= o2。 最后,如果知道B知道a是显着的理性,那么
πa(w)⊆kbrata= {w'|πb(w')⊆rata}。
类似的参数表明,如果w∈rata和w∈ka(kb(rata)),则Σa(w)(v1)= o1。
策略简介(O1O3,O2)是图17中的独特纯策略子游戏完美均衡(Selten 1975)。此外,我们在前一段中经过的推理非常接近向后感应算法。 该算法可用于计算任何完美信息游戏中的子游戏完美均衡,所有玩家在每个结果都获得独特的回报。[13] 该算法如下所示:
BI算法在终端节点处,播放器已经具有标有其实用程序的节点。 在非终端节点V,一旦标记了所有直接的继承者,节点就标记如下:找到具有最高实用程序的直接继承性D,其用于玩家τ(V)(其转弯它在V)的玩家。 将d d d转到v。
给定标记的游戏树,从游戏树的根v0引导的唯一路径与匹配分配给v0的实用程序的实用程序的结果称为后向感应路径。 实际上,每个节点上的标记(甚至在后向感应路径上的节点)定义了通过游戏树的唯一路径。 这些路径可用于定义每个玩家的策略:在每个决策节点V中,选择与来自v的路径一致的动作。假设Lab表示所得到的后向感应曲线(其中每个玩家跟随由后向感应算法给出的策略)。
AUMANN(1995)表明,可以为任何广泛的完美信息进行以上推理。
定理4.7(AUMANN 1995)假设G是完美信息的广泛游戏,S是G的策略概况。以下是等同的:
在G的认知模型中存在一个状态W,使得σ(w)= s和w∈cn(大鼠)(常识所有玩家都是实质性的理性)。
S是一个次级游戏完美均衡的G.
该结果已被广泛讨论。 争论的标准基础是,这一论点中使用的合理性的常见了解似乎是自我挫败的,至少直观。 回想一下,我们询问B在节点V2下会在常识的合理知识下做些什么,我们得出结论,他会选择O2。 但是,如果游戏达到那种状态,那么,在上面的定理,B必须得出结论,无论是不是理性,或者她不知道他是。 两者都违反了合理性的共同知识。 这里有矛盾吗? 此条目不会在这个问题上调查广泛的文献。 读者可以参考Bruin 2010中的参考资料。我们在这里的观点是鉴于观察普通知识的“非理性”的举动,人们如何看待这一潜在的悖论铰链。理性。
4.2.3没有向后归纳的合理性的常见知识
Stalnaker(1996,1998)在后向归纳提供了不同的视角。 与Aumann分析的差异最好用以下示例说明:
[除了文本中的矩形之外,与前一个类似的图,矩形括号括号3个圆圈,在水平行中标记为v_1,v_2,v_3,每个圆角矩形分别标记为O_1,O_2和O_3。 标记为O_4的第四个圆角矩形是V_3的右侧。 V_1连接到V_2,使用标有I_1和V_2至V_3的实线,使用实线标记为I_2和V_3至O_4,具有标记为I_3的实线。 实线还将每个圆圈连接到下面的圆角矩形,分别标记为O_1,O_2,O_3。 圆圈v_1和v_3括在文本'a'和v_2附上文本'b'。 o_1包裹'2,2',O_2封闭'1,1',O_3封闭'0,0'和O_4封闭'3,3'。]
图18:广泛的比赛