博弈论的认知基础(四)
如果ANN被分配了T型
一种
1
然后,她认为鲍勃认为她会选择你。 请注意t
一种
1
标记为t的行中有一个
b
1
,所以她认为鲍勃是t型
b
1
,和t型t
b
1
相信Ann选择U(唯一一个出现的地方在U列下)。
如果ANN被分配了T型
一种
2
然后,安格认为,鲍勃认为,安格尔认为鲍勃会选择l。 请注意t型t
一种
2
“相信”鲍勃将选择l,而且
一种
2
相信鲍勃是T型
b
2
谁反过来相信Ann是T型
一种
2
。
我们可以使用以下概念将上述非正式观察正式化:修复了一个定性型空间⟨{ti}i∈n,{λi}i∈n,sō为(nonempty)的自然S和代理N.
A(全球)状态或可能的世界是一个元组(T1,T2,...,Tn,s),其中每个i = 1,...,n和s∈S。 如果S = XSI是一些游戏的策略配置文件集,那么我们将一个可能的世界写为:(t1,s1,t2,s2,...,tn,sn),其中每个i = 1,...,n。
类型空间描述了对其他玩家选择的玩家信仰,因此需要对代理商的事件的概念进行保留。 代理I的事件I是XJ≠ITJ×s的子集。 同样,如果s是一组策略配置文件(所以s = xsi),则代理i的事件i是xj∈i(tj×sj)的子集。
假设e是代理I的事件,那么我们说代理我认为e(t1,t2,...,tn,s)提供λ(t1,s)⊆e。
在上面的具体示例中,ANN的事件是一个集合e⊆tb×SB,我们可以定义相信此事件的对(TA,SA)集:
学士学位(e)= {(TA,sa)|λa(TA,sa)⊆e}
同样适用于鲍勃。 请注意,事件BA(e)是鲍勃的一个事件,反之亦然。 对类型空间的上述定义的小变化(定义2.7)允许我们代表概率信念(我们在此处提供未来参考的完整定义):
定义2.8(类型空间)自然S和代理的状态的(非空白)集的类型空间是一个元组⟨{ti}i∈n,{λi}i∈n,s⟩,每个i∈N,ti是一个非空的集合和
λi:首选的TI→δ(xj≠itj×s)。
其中Δ(XJ≠ITJ×S)是XJ≠ITJ×S上的概率测量集。
在λi下的类型及其相关图像编码有关其他人的信息的播放器(概率)信息。 实际上,每种类型都与信仰的层次相关联。 更正式地,回顾一组Ti的事件E是一组对(Σ-j,t-j),即所有其他玩家的一组策略选择和类型。 给定播放器I的事件E,让λi(ti)(e)表示λi(ti)分配给E.播放器的元素的概率之和。当λi(Ti)(e)= 1。 条件信念以标准方式计算:TI型认为,每当:
λi(首选的TI)(e∩f)
λi(首选的TI)(f)
= 1
类型结构中的状态是元组(σ,t),其中σ是策略简档,t是“类型配置文件”,类型的元组,每个播放器。 假设Bi(e)= {(Σ-j,t-j):ti认为E}是我认为E的事件(对于j),我认为代理j认为我认为eλj(tj)(bi(e))= 1。 我们可以以这种方式继续计算任何(有限)的此类高阶信息。
例如
再次返回我们的运行示例游戏,播放器1(ANN)有两个可用的操作{U,D}和播放器2(BOB)有两个可用的操作{L,R}。 以下类型空间描述了玩家的信息:ANN(T1)有一种类型,两个用于鲍勃(T2,T
'
2
)下面给出的相应概率措施:
λ1(t1的)
l r
t2的0.5 0
t
'
1
0.4 0.1
图10:安妮对鲍勃的信念
λ2(t2的)
u d
t1的1 0
λ2(t
'
2
)
u d
t1的0.75 0.25
图11:Bob对Ann的信念
在这个例子中,由于只有一个类型的ANN,鲍勃的类型都有一些关于ANN的信仰。 如果鲍勃是T2类型,那么他就是某些ANN选择你,而如果他是t
'
2
他认为她扮演了75%的机会。 ANN为BOB类型分配相同的概率(0.5); 所以,她认为这同样可能是鲍勃确信她扮演你,因为鲍勃认为她扮演了75%的机会。 以上类型的空间是球员信息态度的非常紧凑的描述。 认知 - 概率模型可以描述相同的情况(这里是我的PI = 1,2是玩家我的先前概率):
[阵列中的8个点的图2高
四个宽。 每个垂直对都被虚线封闭
每个水平的四组由实线括起来。 在顶端
左侧的第一个点有'(t_1,t_2,u,l)','p_1 = 0.25
p_2 = 0.1'下面; 下一个点有'(t_1,t_2 \ prime,u,l)'和
'p_1 = 0.2 p_2 = 0.3'下面; 上面的下一个'(t_1,t_2,u,r)'和'p_1 = 0
p_2 = 0.1'下面; 上面的最后一个'(t_1,t_2 \ prime,u,r)'和'p_1 = 0.05
P_2 = 0.3下方。 在底部行上,左边的第一个点有
'(t_1,t_2,d,l)''上方和下面的'p_1 = 0.25 p_2 = 0'; 下一个点有
'(t_1,t_2 \ prime,d,l)'上面和'p_1 = 0.2 p_2 = 0.1'; 下一个
'(t_1,t_2,d,r)''上方和下面的'p_1 = 0 p_2 = 0'; 最后
'(t_1,t_2 \ prime,d,r)'和'p_1 = 0.05 p_2 = 0.1以下']
图12
一些简单(但有意义的!)计算可以说服我们这两个模型代表了同样的情况。 更有趣的问题是这些概率模型如何与定义2.4的认知 - Doxastic模型有关。 这里的情况更复杂。 一方面,概率模型具有比例概念的信仰概念,比在认知 - Doxastic模型的背景下讨论的“全息”概念更细粒度。 另一方面,在一个认知的 - Doxastic模型中,条件认为为所有事件定义。 在上面的模型中,它们仅定义为分配非零概率的事件。 换句话说,认知 - 概率模型不会描述玩家可以相信学习某些东西“令人惊讶”的东西(当前分配的概率为零)。
在文献中讨论了对基本概率理论的许多延伸,这是解决这个问题的恰当。 我们不会在这里详细介绍这些方法(在Halpern(2010)中找到不同方法之间的一个很好的摘要和详细比较,而是绘制主要想法。第一种方法是使用所谓的popper函数,使条件概率措施是原始的。就是每个非空的事件e,有一个概率测量PE(⋅)满足通常的Kolmogorov公理(如E,所以PE(e)= 1)。第二种方法分配给每个试剂的有限序列概率测量(P1,P2,...,PN称为词典概率系统。这个想法是在f上的条件,首先找到未将零分配到f的第一个概率测量并使用该测量在f上的条件。可以在与级别中看到词典概率系统中的每个概率测量合理的订购。我们将在第5.2节中返回这些概念。
2.4常识
在游戏模型中的各州不仅代表了玩家对他们的对手将做什么的信念,而且还是他们对他们的对手在思考的高度相信的高度信仰。 这意味着在特定信息环境中确定为“理性”的结果部分将部分取决于这些高阶信仰。 游戏理论家和逻辑学家都广泛讨论了一个小组的知识和信仰的不同概念,例如共同的知识和信念。 在本节中,我们简要介绍了常识的标准定义。 有关相关文献的更多信息和指示,请参阅Vanderschraaf&Sillari(2009)和Fagin等,(1995:Ch.6)。
考虑声明“我知道的每个人都知道E”。 这正式定义如下:
ki(e):=
⋂
i∈i
ki(e)
我是任何非空的球员集。 如果e是群体的常识我,那么本集团中的每个人都不只知道e是真的,但这事实对集团的所有成员都完全透明。 我们首先定义k
n
一世
(e)通过诱导每个N≥0:
k
0
一世
(e)=N≥1,k的Eand
n
一世
(e)= ki(k
n-1
一世
(e)
然后,在AUMANN(1976)之后,e的常识被定义为以下无限结合:
ci(e)=
⋂
n≥0
k
n
一世
(e)
我们有解开定义
ci(e)=e∩kiφ(e)∩ki(ki(e))∩ki(ki(ki(e)))∩⋯
定义上面概述的常识的方法可以被视为定义普通(鲁棒/强)信念的配方(只需用适当的信仰运营商替换知识运营商Ki)。 有关普通信念逻辑的更多信息,请参阅Bonanno(1996)和Lismont&Mongin(1994,2003)。 虽然我们在本条目中没有讨论它,但Monder&Samet(1989)介绍了普通信念的概率变体。
3.选择规则,或最佳选择
决策理论中出现了许多哲学问题,但这不是我们这里的关注。 见乔伊斯2004,其中参考主要哲学问题。 本节提供了足够的决策理论背景,以了解本入口剩余的认知博弈理论的关键结果。
决策规则或选择规则确定每个单独的玩家将在给定的上下文中给出她的喜好和她的信息。 在认知博弈论文献中,最常用的选择规则是:(严格)支配,预期效用的最大化和可否受理(也称为弱优惠所)。 可以使用替代选择规则进行对游戏的认知分析,例如,Minmax遗憾(Halpern&Pass 2011)。 在这个条目中,我们只关注最常见的。
决策理论家区分在风险下的不确定性和选择下的选择。 在后一种情况下,决策者具有有关世界可能国家的概率信息。 在前一种情况下,没有这样的信息。 在两种类型的情况下有广泛的文献有关决策(见彼得逊2009年讨论和指向相关文献)。 在认知博弈论的设置中,“理性选择”的适当概念取决于用于描述游戏的信息背景的游戏模型的类型。 因此,通常,应根据给定选择规则读取“合理性”。 一般方法是从一个非理性选择的定义开始(例如,一个严格统治着一个人的信仰的一个),然后定义理性,不是不合理的。 最近一些作者最近研究了提升这种简化的假设的后果(Cubitt&Sugden(2011)和Pacuit&Roy(2011)的分类,而是超出了这个条目的范围。
最后,当合理性的潜在概念超出预期效用的最大化之外,一些作者保留了“最佳”一词,以限定符合后一种要求的决策,但不一定是合理性要求。 有关此内容,请参阅第5.2节中的备注。
3.1预期效用的最大化
预期效用的最大化是决策理论中最着名的选择规则。 鉴于代理人的偏好(表示为公用事业职能)和信仰(表示为主观概率措施),行动或期权的预期效用是由他们将发生的概率加权的行动结果的公用事业的总和(根据代理人信仰)。 该建议是选择最大化此加权平均值的操作。 这个想法是贝叶斯视图对实际合理性的看法,并且可以在型空间中直接定义。[12] 我们首先定义游戏中玩家的预期效用。
预期效用
假设g =⟨n,{si,ui}i∈n⟩是一个战略游戏。 为玩家i的猜想是我对手的策略概况的集合S-I的概率。 也就是说,对于播放器I的猜想是Δ(S-I)的元素,S-I上的概率测量集。 Sińsi相对于猜测p∈δ(S-I)的预期效用定义如下:
欧盟(SI,P):=
σ
s-i∈s-我
p(s-1)u(丝,s-1)
Sińsi战略最大化了对所有S提供的p∈δ(S-I)的播放器I的预期效用
'
一世
∈si,欧盟(Si,p)≥eu(s
'
一世
,p)。 在这种情况下,我们还说Si是对G游戏中P的最佳反应。
我们现在可以在型空间或认识概率模型中定义一个事件,其中所有玩家的“合理选择”,他们的选择最大化预期的效用以及他们的信仰。
类型空间中的预期效用
设g =⟨n,{si,ui}i∈n⟩是一个战略游戏,t =⟨{ti}i∈n,{λi}i∈n,s⟩g的一个类型空间。每个Ti都与概率相关联测量λ(Ti)∈δ(S-I×T-I)。 然后,对于每个ti∈ti,我们可以定义概率测量pti∈δ(S-I),如下:
pti(s-1)=
σ
t-i∈t-我
λi(首选的TI)(s-我,t-1)
然后,我选择合理选择的播放器的状态(对策略配置文件的对)被定义为:
RATI:= {(SI,TI)|它是对PTI的最佳回应}
所有球员都是理性的事件
鼠= {(s,t)|对于所有i,(si,ti)∈rati}。
请注意,此处类型与玩家相反,最大化预期的实用程序。 这是因为在型结构中,信仰与类型相关联(见上文第2.3节)。 熟悉决策理论的读者将认识到这只是预期效用最大化的标准概念,其中每个玩家的不确定性空间,即遵循她行动所依赖的可能后果的可能“世界的状态”是类型的可能组合和另一名球员的战略选择。
为了说明上述定义,请考虑图4中的游戏和图11中的类型空间。以下计算显示(U,T1)∈rat1(u是玩家1的最佳响应给定由t1定义的信仰):
欧盟(u,pt1)= pt1(l)u1(u,l)+ pt1(r)u1(u,r)
= [λ1(t1的)(l,t2的)+λ1(t1的)(l,t
'
2
)]⋅u1(u,l)
+ [λ1(t1的)(r,t2的)+λ1(t1的)(r,t
'
2
)]⋅u1(u,r)
=(0.5 + 0.4)⋅3+(0 + 0.1)⋅0
= 2.7
欧盟(d,pt1)= pt1(l)u1(d,l)+ pt1(r)u1(d,r)
= [λ1(t1的)(l,t2的)+λ1(t1的)(l,t
'
2
)]⋅u1(d,l)
+ [λ1(t1的)(r,t2的)+λ1(t1的)(r,t
'
2
)]⋅u1(d,r)
=(0.5 + 0.4)⋅0+(0 + 0.1)⋅1
= 0.1
类似的计算显示(L,T2)∈rat2。
认识概率模型的预期效用
合理性事件的定义在认知概率模型中类似。 为了完整,我们提供了正式的细节。 假设
g =⟨n,{丝,ui}i∈n⟩
是一个战略游戏和
是=⟨w,{~i}i∈n,{的PI}i∈n,σ⟩
是一个认识概率模型,每个PI是每州w∈w的先前概率测量
胚胎干,我= {w∈w|(σ(w)) - 我= s-我}。
然后,对于每个州w∈w,我们定义了测量pw∈δ(S-I),如下所示:
pw(s-1)= p(ES的-i|πi(w))
如上所述,
RATI:= {W|ΣI(W)是对PW}的最佳响应}
和
大鼠:=
⋂
i∈n
rati。
3.2优势推理
当游戏模式没有描述球员的概率信念时,我们在不确定性下的选择情况下。 该环境中“理性选择”的标准概念基于优势推理(Finetti 1974)。 两个占优势的概念是:
定义3.1(严格的主导地位)假设g =⟨n,{si,ui}i∈n⟩是一个战略游戏和Xïs-i。 让mi,m
'
一世
∈δ(SI)是玩家I的两个混合策略。 该战略MI严格占主导地位
'
一世
关于X提供的
对于所有S-i∈x,UI(MI,S-I)>UI(M
'
一世
,s-1)。
我们说mi严格统治,只要有一些m
'
一世
严格占据MI的△δ(SI)。
策略mi∈δ(si)严格占主导地位
'
一世
△δ(si)提供mi优于m
'
一世
(即,为玩家提供更高的回报)无论其他玩家所做什么。 还有一个较弱的概念:
定义3.2(弱优势)假设g =⟨n,{si,ui}i∈n⟩是一个战略游戏和x⊆s-i。 让mi,m
'
一世
∈δ(SI)是玩家I的两个混合策略。 策略弱占据米
'
一世
关于X提供的
对于所有S-i∈x,UI(mi,s-i)≥ui(m
'
一世
,s-1)
和
有一些s-i∈x,使UI(MI,S-I)>UI(M
'
一世
,s-1)。
我们说MI略微统治,只要有一些米
'
一世
∈δδ(Si)弱占主导地位的MI。
因此,混合策略MI弱占据了另一种策略
'
一世
提供的mi至少与m一样好
'
一世
无论其他玩家做什么,并且至少有一种情况,MI严格比m更好
'
一世
。
在我们利用这些选择规则之前,我们需要解决有关这些定义的两个可能令人困惑的问题。