博弈论的认知基础(一)
博弈论的基础工作旨在明确提出纪律基本概念的假设。 非合作博弈论是在战略互动的情况下对个人,合理决策的研究。 此条目提出了非合作博弈论的认知基础(这一研究领域被称为认知博弈论)。
认知博弈论观看游戏中的理性决策,与不确定性下的理性决策没有基本不同的东西。 与决策理论(Peterson 2009)一样,在游戏中选择合理选择是根据一个人的信仰或信息选择“最佳”行动。 在一个决策问题中,决策者的信念是关于自然的被动状态,这决定了她行动的后果。 在一场比赛中,一个人决定的后果取决于涉及情况的其他代理人的选择(以及可能是自然状态)。 认识到这个-i.e.,那个是与试图根据自己的信仰的光线选择最佳行动方案的其他代理商进行互动 - 将更高阶信息带入图片中。 球员的信仰不再是被动或外部环境。 他们涉及其他玩家的选择和信息。 一个人的对手的期望取决于人们认为其他人对她所期望的东西,以及给定的球员的期望是什么取决于他们对他们的期望是什么。
本条目概述了当一个广泛决策 - 在游戏中的理性决策中的决策学视图中出现的问题概述。 经过一些关于游戏中信息的一般性评论,我们提出了在认知博弈论和认识逻辑中发展的正式工具,这些工具已被用来了解高阶信息在交互式决策中的作用。 然后,我们在特定信息语境中,我们如何在合理的决策方面用于将这些工具的特征在于讨论的“解决方案概念”。 一路上,我们突出了这一领域出现的许多哲学问题。
1.奥运会的奥运会
1.1古典博弈论
1.2认知博弈论
1.3决策阶段
1.4不完整的信息
1.5不完美的信息和完美的召回
1.6混合策略
2.游戏模型
2.1一般问题
2.1.1各种信息态度
2.1.2可能的世界模型
2.2关系模型
2.2.1添加信仰
2.3 Harsanyi型空间
2.4常识
3.选择规则,或最佳选择
3.1预期效用的最大化
3.2优势推理
4.基本面
4.1迭代删除严格主导的策略
4.1.1结果
4.1.2哲学问题
4.2向后感应
4.2.1广泛的游戏:基本定义
4.2.2后向诱导的认知表征
4.2.3没有向后归纳的合理性的常见知识
4.3常见的强烈信仰和前锋归纳
5.发展
5.1纳什均衡
5.1.1结果
5.1.2哲学问题
5.1.3关于纳什均衡的“模态”表征的备注
5.2纳入可否受理和“谨慎”信仰
5.3结合不法
6.游戏模型中自我参考的悖论
7.结束语
7.1难以完成的认知博弈论是什么?
7.2最大化预期效用的替代品
7.3进一步阅读
参考书目
学术工具
其他互联网资源
相关条目
1.奥运会的奥运会
1.1古典博弈论
游戏是指涉及一群自我兴趣代理人或球员的互动状况。 游戏的定义特征是玩家从事“相互依存的决策问题”(Schelling 1960)。 经典上,游戏的数学描述包括以下组件:
球员。 在这个条目中,我们只考虑使用有限一套玩家的游戏。 我们使用n表示游戏中的一组玩家,我,j,...代表其元素。
每个玩家的可行选项(通常称为行动或策略)。 再次,我们只考虑与每个玩家有义上有很多可行的选择的游戏。
球员的偏好在可能的结果上。 在这里,我们将它们代表为von neumann-morgenstern实用程序UI为游戏的每个结果分配真实的实用程序。
游戏可以有许多其他结构性属性。 它可以表示为单次或多阶段决策问题,或者它可以包括同时或随机移动。 我们以战略形式从游戏开始,没有随机的举措,并将在进入中介绍更复杂的游戏。 在战略游戏中,每个玩家可以从一个(有限)设置的选项中选择,也称为操作或策略。 所有参与者选择的组合表示为S,称为战略配置文件或比赛的结果。 我们为我的组件编写SI,以及S-I,用于除了我以外的所有代理商的策略概况。 最后,我们为所有给定游戏的所有策略概要文件编写πi∈nsi。 把一切都在一起,一个战略游戏是一个元组,{si,ui}i∈n⟩是一组有限的玩家,每个i∈n,si是一个有限的动作和ui:πi∈nsi→r是球员我的效用功能。
图1中的游戏是战略形式的游戏的示例。 有两个玩家,ANN和BOB,每个玩家都必须在两个选项之间进行选择:n = {ann,bob},sann = {u,d}和sbob = {l,r}。 uann和ubob的值,代表它们对游戏可能结果的各自偏好,显示在矩阵的小区中。 如果鲍勃选择L,例如,ANN更喜欢她将通过选择D来获得的结果,选择D,但在鲍勃选择r中,这种偏好是颠倒的。 这个游戏在文献中被称为“纯粹的协调游戏”,因为玩家对协调他们的选择 - 即(U,L)或(D,R)有兴趣,但它们对他们协调其选择的方式无动于衷。
鲍勃
安
l r
u 1,1 0,0
d 0,0 1,1
图1:协调比赛
在一场比赛中,没有单一玩家在互动结束时将实现任何结果。 这取决于所有玩家的决定。 这种抽象的相互依存决策能够代表一系列社交情况,从严格竞争合作的社会情况。 有关古典博弈论和关键参考的更多详细信息,请参阅Ross(2010)。
古典博弈论的中央分析工具是解决方案概念。 它们提供了一种自上而下的观点,指定了游戏的哪些结果被视为“理性”。 这可以给出规范或预测性阅读。 纳什均衡是最着名的解决方案概念之一,但我们将遇到以下其他人。 例如,在上面的游戏中,所谓的“纯策略”中有两个纳什均衡。[1]这些是两个协调配置文件:(U,L)和(D,R)。
从规定的角度来看,解决方案概念是一组实用的建议 - 即,关于玩家应该在比赛中做些什么的建议。 从预测的角度来看,解决方案概念描述了玩家实际上在某些互动情况下做些什么。 再次考虑上述示例中的纯策略纳入均衡。 在规范性解释下,它单打了在游戏中应该做些什么球员。 也就是说,Ann和Bob应该播放它们的(U,L)或(D,R)的组件。 在预测解释下,这些简档是人们希望在该游戏的实际播放中观察的轮廓。
这种解决方案 - 在游戏的概念驱动的角度面临着许多基础困难,我们在这里没有调查。 感兴趣的读者可以咨询Ross(2010),Bruin(2010)和Kadane&Larkey(1983)进行讨论。
1.2认知博弈论
认知博弈论是一个广泛的研究领域,包括一些用于分析游戏的不同数学框架。 框架的细节是不同的,但他们确实分享了一个共同的视角。 在本节中,我们讨论了这种共同视角的两个关键特征。
(1)认知博弈论是关于战略情况的决策的广泛贝叶斯视角。
罗伯特·斯塔尔纳克斯坦解释了这个观点:
在结果取决于多个代理的行为的情况下,没有特殊的理性理念。 其他代理人的行为,就像机会事件,自然灾害和上帝的行为,只是一个不确定的世界的事实,即代理人的信仰和信仰程度。 其他代理商的公用事业与代理商有关,只有作为关于这些代理人的合理性的信息,有助于预测其行为。 (Stalnaker 1996:136)
换句话说,认知博弈论可以被视为试图将游戏中的决策理论带回其决策理论根系。
在决策理论中,决策单位是对他们行动可能后果的偏好的个人。 由于特定行动的结果取决于环境状况,决策者对环境状况的信念至关重要,以评估特定决定的合理性。 因此,决策问题的正式描述包括对环境的可能结果和国家,决策者对这些结果的偏好,以及决策者对自然状态的信念的描述(即决策者的Doxastic状态)。 决策理论规则可用于向决策者提出建议,了解她应该选择的内容(或预测决策者选择的)。 选择规则的标准示例是(主观)预期效用的最大化,贝叶斯理性的基础。 它假设决策者的偏好和信念分别可以分别由数值公用事业和概率代表。[2] (我们推迟了正式代表,以及其他选择规则,如弱势和严格的统治,直到我们在第2节中展示了比赛中的相信正式模型。)
从认知的角度来看,游戏的经典成分(球员,行动,结果和偏好)因此不足以制定关于玩家应该如何或者会选择的建议或预测。 需要指定(互动)决策问题,参与者在,即,相信玩家也对彼此可能的行动(和信仰)有关。 在常见的术语中,在认知博弈论中越来越受欢迎,游戏在特定的背景下播放(Friedenberg&Meier 2010,其他互联网资源),其中玩家对彼此具有特定的知识和/或信仰。 即使基本情况可能对应于相同的战略游戏,也可能不会转移到另一个语境的建议和/或预测。
(2)在认知博弈论中,对手战略的不确定性采取中心阶段。
玩家在游戏情况下有各种类型的信息。 例如,玩家可能有
关于游戏播放的不完美信息(已经播放了哪些动作?);
有关游戏结构的不完整信息(行动/收益是什么?);
战略信息(其他玩家会做什么?); 要么
高阶信息(其他玩家思考是什么?)。
虽然所有类型的不确定性可能在对游戏的认知分析中发挥作用,但是认知博弈理论的一个显着特征是一种坚持性的坚持,在玩家的偏好和对他们的对手将要做的事情方面评估了理性决策。 我们再次转向Stalnaker总结了这个观点:
......没有特别的理性规则告诉一个在没有信仰程度的情况下做什么[关于对手的选择],除了这个之外:决定你所相信的,然后最大化预期的效用。 (Stalnaker 1996:136)
上述游戏中的四种不确定性在概念上是重要的,但不一定令人彻底的,也不是相互排斥的。 例如,John Harsanyi认为,关于游戏结构的所有不确定性,就是所有可能的不完整性的信息,都可以减少到收益的不确定性(Harsanyi 1967-68)。 (这次被斯图尔特和***2002年正式化并证明)。 在类似的静脉中,卡达纳和拉基(1982)认为,只有战略性的不确定性才有于评估游戏情况下的决定。 当代认识博弈理论认为,尽管最终可能会降低战略性的不确定性,但制定高阶的不确定性明确可以澄清大量互动或战略理性手段。
与游戏的古典“解决方案”分析的关键差异是认知博弈论占据了自下而上的视角。 一旦指定了游戏的上下文,就得出了理性的结果,给出了玩家如何做出选择以及他们所知道和相信其他人如何选择的假设。 在本节的剩余部分中,我们简要讨论了一些关于在游戏中造成认识的角度的一般问题。 我们推迟讨论高阶和战略性不确定性,直到第3,4和5节。
1.3决策阶段
它是博弈论文献中的标准,区分了决策过程的三个阶段:EX Ante,Ex Interim和Ex Post。 在一个极端是前蚂蚁阶段,没有决定已经做出了。 另一个极端是公开披露所有玩家的选择的前柱阶段。 在这两个极端之间是球员所做的决定的前临时阶段,但它们仍然不知情地对其他玩家的决定和意图。
这些区别并不敏锐。 相反,它们在决策过程中描述了信息披露的各种阶段。 在前蚂蚁阶段,除了游戏的结构之外,谁是参与的游戏结构,可能(但不一定)的某些方面。 在邮局,游戏基本上结束:所有球员都做出了他们的决定,现在这些球员在开放中不可逆转。 这并不意味着所有不确定性被删除为代理人可能仍然不确定其他人期望她的期望。 在这两个极端阶段之间呈现了信息披露状态的整体渐变,我们松散地指的是“”前临时阶段“。 这些阶段的共同点是代理人做出决定的事实,尽管不一定是不可撤销的事实。
在这个条目中,我们专注于决策的前临时阶段。 这符合博弈论的认识基础上的大部分文献,因为它允许他们对他们对对手如何选择的期望来说直接评估代理人的理性。 专注于前临时舞台确实提高了一些有趣的问题,了解了一些有趣的问题,关于玩家战略选择之间可能的相关性,斯拉内克(1999)称之为“积极知识”,以及她有关他人选择的信息,她的“被动知识”(IDEM)。 球员如何应对的问题,最终会修改她的决定,因为学习她没有选择“合理”是一个有趣和重要的,但我们没有在进入中讨论它。 请注意,这个问题与代理人如何在学习其他人没有合理选择时修改他们的信仰之一。 第二个问题在游戏中依次选择的游戏中非常相关,并将在第4.2.3节中解决。
1.4不完整的信息
有关游戏情况的任何数学模型的自然问题是如果玩家对模型的一些参数不确定,分析会如何变化? 这一动机的哈斯尼迪的基本工作引入了游戏理论类型和定义了哈斯尼迪1967-68的贝叶斯游戏的概念。 使用这些想法,广泛的文献已经开发出来,分析了玩家不确定游戏的某些方面的游戏。 (咨询Leyton-Brown&Shoham(2008:Ch.7),了解目前的事态和指向相关文献的简明摘要。)人们可以自然地了解本文文献与本入体本入境中的文献之间的精确关系博弈论的基础。 实际上,我们在这里讨论的基本文学在很大程度上侧重于Harsanyi对更高阶信仰建模的方法(我们在第2.3节中讨论)。
贝叶斯游戏的文献与我们在本入口中讨论的文献之间存在两个至关重要的差异(参见Brandenburger 2010:SEC。4和5)。
在贝叶斯游戏中,玩家对游戏的收益不确定,其他玩家认为是正确的回报,其他玩家认为其他球员认为其他球员相信收益,这是唯一的不确定性的源泉。 也就是说,球员(高阶)关于游戏中收益的信念完全确定了关于游戏其他方面的(高阶)信念。 特别是,如果玩家来了解其他玩家的收益,那么该球员肯定(并正确地)其他玩家的可能(有理)选择。[3]
假设所有玩家都选择最佳地选择他们的信息。 也就是说,所有球员都选择了一种最大化他们的预期效用的策略,鉴于他们对游戏的信念,对其他玩家相信游戏的信念等等。 特别是,特别是,该玩家不会娱乐他们的对手可能选择“非理性”的可能性
请注意,这些假设在Harsanyi习惯于代表不完整信息游戏中代表球员信仰的形式主义并非固有。 相反,它们更好地描述为哈萨尼和后续研究人员的约定,以及学习贝叶斯游戏的惯例。
1.5不完美的信息和完美的召回
在具有不完美信息的游戏中(参见罗斯2010进行讨论),玩家可能无法完全了解他们的对手的动作或者偶然的偶然事件。 具有不完美信息的游戏可以如下图所示:
[具有单个圆圈的图,节点,
标记为\(d_0 \)顶部,线条从圆圈到两个
下面的圆圈,在中间水平,标记在左侧\(d_1 \)和上
右\(d_2 \)。 从这两个行中的每一条线都转到圈子
底部,下方\(d_1 \)标记为\(o_1 \)和\(o_2 \)和
在\(d_2 \)下圈子ALSE标记为\(o_1 \)和\(o_2 \)。 虚线
矩形括在中间级别的\(d_1 \)和\(d_2 \)。]
图2
解释是忘记了在第一节点(D0)的决定,因此决策者不确定是否处于节点D1或D2。 查看奥斯本(2003:Ch.9&10),了解具有不完美信息的游戏一般理论。 在本节中,我们简要讨论了在奥运会中出现的基础问题,不完美的信息。
Kuhn(1953)在与不完美信息中的游戏中介绍了完美和不完美的召回之间的区别。 粗略地,玩家提供完美的召回,因为他们记得他们所有的过去的动作(见Bonanno 2004; Kaneko&Kline 1995,用于完美召回假设的一般讨论)。 它是博弈论文学中的标准,假设所有玩家都有完美的召回(即,他们可能不确定他们对手或性质的先前选择,但他们记得自己的动作)。
正如我们在第1.3节中所指出的那样,决策过程有不同的阶段。 在广泛的游戏中,这些阶段之间的差异变得更加明显,其中对游戏有时间维度。 有两种方法可以在广泛的游戏中考虑决策过程(具有不完美的信息)。 首先是关注初始“规划阶段”。 即最初,球员在一个策略上定位了指定(可能随机)的策略,他们将在每个选择节点中发挥作用(这是球员的全球战略)。 然后,玩家开始进行各自的动作(遵循他们致力于在不重新考虑每个选择节点的选项的策略之后)。 或者,我们可以假设玩家在每个选择节点中为“本地判断”进行“本地判断”,始终选择最佳选择,给出当前可用的信息。 Kuhn(1953)的众所周知的定理表明,如果玩家有完美的召回,那么策略是全局最佳的,如果它只是当地最佳(见该经典结果的自我呈现的Brandenburger 2007)。 也就是说,两种思考广泛游戏中的决策过程的方式(具有不完善的信息)导致相同的建议/预测。
完美召回的假设对于Kuhn的结果至关重要。 这是通过众所周知的缺席驾驶员的Piccione和Rubinstein(1997A)的问题。 有趣的是,尽管没有新信息,他们的榜样可能会试图在初始计划阶段改变他的策略之一。 它们描述了如下示例:
一个人在晚上坐在一条午夜回家的酒吧里坐在深夜。 为了回家,他必须乘坐高速公路并在第二个出口下下车。 在第一个出口转向导致灾难性的区域(支付0)。 转到第二个出口产生最高奖励(支付4)。 如果他继续超越第二个出口,他就不能回到高速公路的尽头,他会在那里找到一个可以过夜的汽车旅馆(支付1)。 驾驶员缺席并意识到这一事实。 在一个十字路口时,他不能判断它是第一个还是第二个十字路口,他不记得他过去了多少(一个人可以通过参考第17个十字路口来使情况更加逼真)。 坐在酒吧时,他所能做的就是决定是否在十字路口退出。 (Piccione&Rubinstein 1997a:7)
缺陷思想的驱动程序的决策树如图所示:
[在“开始”这个词的图表
顶部和线路下降到标记为“x”和下方的圆圈
线路标记为“续”,另一个圆圈标记为“y”。 下面
'Y'是另一行,归结为标记为“C”和下方的圆圈
圈出数字'1'。 从第一个圆圈'x'标有标记的线
'退出'向右到圆圈标记为“A”的圈子,其中数字'0'
在右边。 从第二个圆圈'y'标有一条线
'退出'进入标有'B'的圆圈,右边的数字'4'
那是。 虚线矩形括在标有'x'和的圆圈
'y'。]
图3
此问题很有趣,因为它表明决策者在规划在栏中的决策者致力于做什么之间发生冲突以及他认为在第一个十字路口中最好的内容: