进化博弈论(二)

w

表示整个人口的平均适应性。 (这些数量可能随着时间的推移而变化;为了清晰的符号,已经抑制了时间依赖性。)鉴于这些假设,WC,WD和

¯

w

可以在人口比例和支付值方面表达,如下所示,其中F0代表在任何交互之前个人的基本健身级别:

wc = f0 +pcπ(c|c)+pdπ(c|d)

wd = f0 +pcπ(d|c)+pdπ(d|d)

¯

w

= pcwc + pdwd

其次,假设策略在下一代合作和缺陷之后的人口比例与根据以下规则的战略合作和缺陷的人口的比例有关:

p

'

c

=

pcwc

¯

w

p

'

d

=

pdwd

¯

w

这些过渡规则的理由如下:如果WC <

¯

w

然后,合作的预期适应性低于人口的平均适应性。 这意味着缺陷比合作更有利,所以我们期望一定比例的人口来切换。 个人交换机的速率与人口平均值更差的合作成正比。 (我们是故意模糊的,无论我们是否正在思考生物或文化演进,而且在这种抽象水平上,它会很大差异。)自从

wc

¯

w

<1,所以p

'

c

<PC,预期。

我们可以以下列形式重写这些表达式:

p

'

c

-pc =

PC机(wc-

¯

w

¯

w

p

'

d

-pd =

pd(wd-

¯

w

¯

w

如果我们假设从一代到下一个生成的策略频率的变化很小,则这些差分方程可以用微分方程近似:

德普

dt

=

PC机(wc-

¯

w

¯

w

dt

=

pd(wd-

¯

w

¯

w

这些方程由Taylor和Jonker(1978)和Zeeman(1979)提供,为进化博弈论提供连续动态,称为复制器动态。

由于是这种情况,对于PC和PD的任何值,WC<

¯

w

,未来的人口州将始终具有比以前更少的合作者。 这在图6的图中表示。

标记为“合作”的空圈子有一条带有导致封闭圈的箭头的导向线,标有“缺陷”。

图6:囚犯困境的复制器动态模型

该图被解释如下:最左侧点代表每个人缺陷的人口的状态,最右边的点代表每个人合作的状态,中间点代表包含两个合作者和缺陷的混合的状态。 (通过将群体的N%缩写到左侧最左侧点的N%缺陷的位置时,将群体的一个映射到图中的点。)线上的箭头表示进化轨迹随着时间的推移。 最右边点的开放圈代表了每个人配合的状态是一个不稳定的均衡,因为如果人口的一小部分(任何数量ε>0)偏离策略合作,那么进化动态将导致人口远离全面的国家。 最左侧点处的固体圆圈表示每个人缺陷的状态是稳定的平衡,从某种意义上说:如果某些部分的人口偏离战略缺陷,则进化动态将使人口驱逐回全缺陷状态。

虽然复制器动力学是在进化博弈论中使用的第一个动态,但是已经探讨了许多替代动态。 在如下,我们将完全从文化演进的角度讨论进化动态,这意味着什么比随着时间的推移而言,这一点不仅仅是相信(例如,战略)的变化。

在他综合的工作人口比赛和进化动态中,威廉桑霍尔姆提供了一个有用的框架,使我们能够将个人使用的特定学习规则与人口级别的人口级别的进化动态联系起来。 这可以被认为是提供进化博弈理论的“微焦”,类似于个人决策如何研究宏观经济学的微孔。

我们从框架的草图开始建模学习规则,然后给出几个个人学习规则的示例和导致人口级别的进化动态。 为简单起见,所有数学细节都在以下讨论中被抑制; 为了详细说明,请参阅Sandholm(2010)。 (Sandholm的框架,一般而言,允许具有多个非重超群体的游戏。这里的简化假设之一是只有一个人口。)假设我们有一个对称的游戏G使用N策略S1,...,SN。 (一个对称的游戏是播放特定策略的回报仅取决于其他玩家使用的策略,而不是谁在扮演什么策略。)此外,假设个人可以考虑的唯一可能的信息如下:(1)人口的当前状态,鉴于当前人口的现状,代表了对游戏的纯粹策略的分布,以及(2)每个策略的预期收益。

个人学习规则(或使用Sandholm术语,修订协议)可以表示为将这两条信息作为参数的函数表示,将它们映射到策略之间的条件开关速率的矩阵。 也就是说,矩阵的ijth-条目包含策略Si的追随者将切换到策略SJ的速率。 它被称为条件开关速率,因为Si→SJ切换率通常取决于 - 即条件开启 - 既有人口的状态和预期收益的向量。 请注意,该函数实际上可能无法使用其参数中包含的所有信息:某些学习规则可能比其他人更复杂。

由此,人口级进化动态可以优雅地衍生:策略SI的群体比例的瞬时变化率只是等于其他策略切换到SI的玩家的总速率,减去了SI切换电流追随者的总速率一些其他策略。 将单独的学习规则替换为以下等式模式,然后求解所得方程式,给出人口级动态。

DPI的

dt

=。(人们开始使用SI的速率)

- (人们停止使用SI的费率)

该一般框架允许人们在人口层面上调查特定学习规则与进化动态之间的关系。 这是三个例子。

复制器动力学。 假设每个玩家随机选择人口中的其他人(所有人同样有可能被选中),并在最后一轮比赛中比较了所选人员的收益。 如果选择的人收到更高的收益,那么玩家采用所选择的人员使用的策略,概率与支付差异成比例。 Schlag(1998)表明,该学习规则产生了复制器动态。

棕色纳什von neumann动态。 学习规则产生的一个关键假设,它产生了复制器动态,是模仿是未来收益的可靠指南。 由于两个原因,这可能是有问题的。 首先,策略的预期收益大于人口平均薪水的事实可能只是指示当前人口组成的特点,而不是任何特定的战略绩效。 这样的学习规则可能最终有大量的人口转移来采用策略,只有其瞬态的健身益处消失。 其次,如果一项策略根本不存在,则没有机会被模仿采用。

作为替代方案,人们可能会考虑一个学习规则,其中速率玩家切换到策略SI只取决于SI的预期收益是否超过了当前人口的平均薪水。 请注意,此类学习规则属于与生成Replicator Dynamics的学习规则的单个播放器更高的合理性。 为什么? 这种学习规则要求人们了解整个可能的策略以及相关的收益矩阵,以便他们可以确定目前缺乏人口的策略是否值得采用。 当该学习规则插入上述架构时,一个人获得棕色NASH-VON NEUMANN(BNN)动态(参见BROWN和VON NEUMANN,1950)。 与Replicator Dynamics不同,BNN动态可以将新的策略引入未代表的人群中。 当人口在每个人都播放岩石,纸张或剪刀的状态时,BNN动态最终将在所有策略所代表的状态下最终结束。

史密斯动力学。 生成BNN动态的学习规则的一个不寻常的特征是它比较了替代可能策略的预期支付,具有人口的平均薪水。 人们可能想知道为什么比人口平均值更好是一个明智的比较点,因为人口的平均薪水通常无法通过参与者提供的任何特定策略来实现。 相反,考虑学习规则,这些规则将目前的策略的预期支付与当前人口统州的预期薪酬相比,在目前的人口州,但只有那些具有更高的预期收益的替代战略都有非零所采用的概率。 当插入上面的Sandholm框架时,该学习规则产生了史密斯(1984)研究的进化动态,因此称为史密斯动态。

3.动态,稳定性和理性结果

考虑到不同类型的进化动态的数量,如第2.2节所示,以及进化稳定性的不同概念的数量,如第2.1节所示,第一个问题是两者之间存在的关系? 询问的第二个问题是进化动态的各个家庭之间存在的关系,以及可能认为是游戏的“理性”结果? 这些问题的答案结果更加微妙,复杂于一个可能首先预期。

一开始,一个并发症是,ASES是一种可能混合的策略,其满足某些性质。 相反,上面描述的所有进化动态都描述了个人只能纯粹的策略。 那么,我们如何联系两个概念?

一个自然建议是解释作为种群频率的进化稳定战略中出现的概率。 当以这种方式理解概率时,一个人谈到进化稳定的状态,以应对解释的差异。 然后可以在某种情况下提出特定的进化动态将收敛到进化稳定的状态。

在Replicator Dynamics的情况下,它立即显而易见的是,复制器动力学不需要收敛到进化稳定的状态。 这是因为,如前所述,如果最初缺席,则再用者动态无法将策略引入人口中。 因此,如果进化稳定的状态需要存在某些纯策略,并且那些纯策略不会出现在初始群体状态下,那么复制器动力学将不会收敛到进化稳定的状态。

这可以以上面的图6中的特别迹心看出。 在囚犯困境的情况下,如果人口在每个人合作的状态下,那么复制者动态将永远留在那个国家,因为无法介绍缺陷的策略。 这表明,在Replicator Dynamics下,可以存在甚至严格主导的策略将持续存在的情况。

也就是说,它也可以在图6中可以看出,每当存在人口中存在的缺陷比例的非零比例时,它们将增加数量并最终驱动灭绝。 (在限制中,因为Replicator Dynamics的另一个属性是没有在有限的时间内灭绝的策略。)这激励以下结果:

定理(Akin,1980)让G成为一个对称,双人游戏,让

p

(0)是初始群体状态,其中表示所有纯策略(即,出现频率大于零)。 然后,在初始状态开始的复制器动力学下

p

(0),所有严格统治的策略都会在限制下消失。

上述定理表明是什么,尽管存在严格统治策略可能在复制器动态下持续存在的情况下,但这种情况很少见。 只要所有策略都最初存在,无论多么少,复制器动力学都会消除严格统治的策略。

但是,同样的不适合弱统治策略。 据说策略A弱统治战略B如果A对抗所有可能的竞争对手,并且至少有一个案例,A严格更好。 发生这种情况时,策略B被称为弱统治策略。 弱统治策略可以出现在纳什均衡中,如下图7所示。 当两个玩家采用S2时,它既不是玩家的兴趣,因为它们继续获得100的收益 - 所以我们在两个玩家采用S2时都有纳什均衡。 然而,S1弱占主导地位的情况也是如此。

s1 s2的

s1(1,1)(100,0)

s2的(0,100)(100,100)

图7.一种游戏,其中脱模均衡策略(S2)出现在纳什均衡中。

可以显示(见Weibull,1995),弱统治策略永远不会成为ESS。 在图7中所示的比赛的情况下,这令人惊讶,因为由弱统治策略产生的平衡是Pareto最佳的,并且具有比任何其他纳什均衡更高的预期收益。 但是,它也是如此(参见Skyrms,1996),复制器动力学不需要消除弱统治的策略。 事实上,在社会合同演变的第2章中,Brian Skyrms表明,有一些游戏,复制器动力学几乎总是产生含有弱统治战略的结果! 这表明复制器动力学的进化结果可以存在相当大的分歧以及静态方法识别为进化稳定的策略。

进化动态的结果与普通博弈论认为是“理性”的潜在分歧,这是游戏的“理性”结果不仅限于复制器动态。 例如,考虑BNN动态和史密斯动态,在第2.2节中描述。 在这两种情况下,产生这些动态的潜在学习规则都有一些直观的合理性。 特别是,这些学习规则中的每一个都可以被视为采用略微更合理的方法对策略修订的问题而不是生成了复制器动力学的模仿学习规则。 然而Hofbauer和Sandholm(2011)表明,BNN动态和史密斯动力都不保证消除严格主导的策略!

考虑下面图8的游戏。 这被称为“带有微弱双胞胎的摇滚剪刀”的游戏。 在这场比赛中,双重策略与纸张相同,除了其所有收益均匀地减少一些少量ε>0(因此,“虚弱的双胞胎”)。 这意味着双重策略被纸张严格统治,因为绝对没有实例,其中合理优选播放双胞胎而不是纸张。 然而,在史密斯动态下,存在一个非初始条件的非初始条件,其最终被捕获在循环中,其中通过人群的非竞争部分发挥双策略。

岩石剪刀纸张双床间

岩石(0,0)(1,-1)(-1,1)(-1,1-ε)

剪刀(-1,1)(0,0)(1,-1)(1,-1-ε)

纸张(1,-1)(-1,1)(0,0)(0,-ε)

双床间(1-ε,-1)(-1-ε,1)(-ε,0)(-ε,-ε)

图8.摇滚剪刀 - 带有微弱双胞胎的纸张。

如果我们不使用连续群体模型模拟动态,ESSS和稳定状态在进化动态模型之间的连接将削弱。 例如,假设我们使用本地互动模型,其中每个人与他或她的邻居一起扮演囚犯的困境。 Nowak和5月(1992,1993)使用空间模型,其中在方格子上占据邻近节点的个体之间发生的空间模型,表明囚犯困境的稳定人口态取决于收益矩阵的具体形式。 [4](关于这一发现的有趣是,在所有情况下,缺陷严格占主导地位的缺陷仍然是正确的,因此游戏描述的基本潜在的战略问题没有改变。)

当群体的支付矩阵具有值t = 2.8,r = 1.1,p = 0.1和s = 0时,本地交互模型的进化动态与复制器动力学的进化动态同意,并导致每个人遵循策略缺陷的状态 - 这如前所述,是囚犯困境中唯一进化的稳定战略。 下图说明了一个这样的人口将如何汇集到每个人缺陷的状态。

一个主要的白方块,黑色斑点稀疏。一个适度充满小黑色方块的白方。白广场现在几乎完全填满,但仍然有一些白色斑块

一代1。一代2。一代3

白方块不是充满了几个小斑块的白色一个几乎完全是黑色的正方形,白色斑点一个完全黑色的广场

一代4。一代5。一代6

图9:囚犯的困境:所有缺陷

[查看此模型的电影]

然而,当支付矩阵具有T = 1.2的值时,r = 1.1,p = 0.1和s = 0,进化动力学将人群携带到两个状态之间振荡的稳定周期。 在该循环合作伙伴和缺陷共存中,其中一些区域包含“闪光器”振荡在缺陷和合作伙伴之间(如19和20代所知)。

一个主要的白方块,黑色斑点稀疏。Blackspecks更大,现在平衡了广场内的白色

一代1。一代2

一个大多数白方块,带有一些小黑点和线条一个主要是白方块,具有更多黑点和线条

生成19。一代20

图10:囚犯的困境:合作

[查看此模型的电影]

请注意,通过这些特定的回报值设置,本地交互模型的进化动态与复制器动态的进化动态显着不同。 在这些回报下,稳定状态在分类器动力学中没有相应的类似物,也没有在进化稳定的策略分析中。

当我们选择T = 1.61,r = 1.01,p = 0.01和S = 0的回收值时,发生更大的兴趣现象。 这里,局部相互作用的动态持续在磁通量下:在这些值下,由合作者主要占据的区域可以通过缺陷成功地侵入缺陷,并且主要由缺陷占据的区域可以由合作者成功侵入。 在该模型中,传统动态意义上没有“稳定战略”。 [5]

一个大多数白方形,黑色斑点小。黑斑点现在占据了大部分广场,但留下了一些白色的区域主要是黑色正方形,有一些白色的漂移

一代1。一代3。一代5

黑色正方形,白色漂移略大。一个正方形,黑色和白色的漂移。一个平方,具有更大的白色和更少的黑色漂移

一代7。一代9。一代11

一个大的白色漂样和较小的黑斑点一个正方形,黑色和白色的一些大而小的碎片

一代13。一代15

图11:囚犯的困境:混乱

[查看此模型的电影]

这些结果表明,虽然存在进化博弈论的静态和动态方法都同意进化游戏的预期结果,但两种分析模式的结果有足够的差异,以独立地了解每个计划的发展。

4.为什么进化博弈论?

虽然进化博弈论提供了许多对特殊的进化问题的见解,但越来越多的社会科学家对进化博弈理论感兴趣,希望它将提供用于解决传统游戏理论的若干缺陷的工具,其中三个在下面讨论的三个缺陷。

4.1均衡选择问题

自John Nash(1950)的介绍以来,纳什均衡的概念(参见博弈论)是游戏理论中最常用的解决方案概念。 如果每个代理人的战略是对由其他球员选择的策略是最佳反应,则据说一组代理人的策略选择是纳什均衡。 通过最佳回应,我们的意思是,除非至少还有一个其他单独的交换策略,否则没有个人可以通过切换策略来改善她的回报。 这并不意味着对每个人的回报在纳什均衡中是最佳的:实际上,囚犯困境的令人不安的事实之一是游戏的唯一纳什平衡 - 当两个代理缺陷都是次优。[6]

然而,利用纳什均衡作为游戏的解决方案概念,难以使用困难:如果我们限制玩家使用纯策略,而不是每场比赛都有纳什平衡。 游戏“匹配的便士”说明了这个问题。

头的尾巴

头(0,1)(1,0)

尾巴(1,0)(0,1)

图12:匹配便士游戏的回报矩阵。 (如果两个硬币不匹配,则赢得胜利,而第两枚硬币匹配则赢得胜利)。

虽然这是一个球员可以使用混合策略的每个非双偶游戏都有纳什均衡,但有些是对真实代理商的意义。 如果需要合理代理人只需要纯粹的策略(也许是因为实施混合策略的成本运行过高),那么游戏理论家必须承认某些游戏缺乏解决方案。

作为适当的解决方案概念调用纳什均衡的一个更重要的问题是出现的,因为有些游戏有多次纳什均衡(参见博弈论的条目中的解决方案概念和均衡部分)。 当有几种不同的纳什均衡时,如何确定哪个均衡的代理是“正确的”是“正确的一个”,以解决问题?[7]试图解决这个问题已经产生了许多可能的改进,每个可能的细化到纳什均衡的概念细化有一些直观的购买。 不幸的是,已经开发了许多纳什均衡概念的改进,这在许多具有多重纳什均衡的游戏中,每个均衡都可以通过文献中存在的一些细化是合理的。 因此,问题从选择多纳什均衡之间选择以选择各种改进。

(本章完)

相关推荐