游戏理论(七)

最后一点是我承诺指出的第二个复杂因素。为了在重复的 PD 中进行合作,玩家必须不确定他们的互动何时结束。假设玩家知道最后一轮何时到来。在那一轮中,玩家背叛将实现效用最大化,因为不可能受到任何惩罚。现在考虑倒数第二轮。在这一轮中,玩家也不会因叛逃而受到惩罚,因为他们预计无论如何都会在最后一轮叛逃。所以他们在倒数第二轮就叛逃了。但这意味着他们在倒数第三轮中不会面临惩罚的威胁,并且也会在那里叛逃。我们可以简单地在游戏树中向后迭代,直到到达第一轮。由于合作在这一轮中不是 NE 策略,因此在重复博弈中针锋相对不再是 NE 策略,我们得到了与单次 PD 中相同的结果——相互背叛。因此,只有在预期重复次数不确定的重复 PD 中才可能进行合作。 (当然,这确实适用于许多现实生活中的游戏。)请注意,在这种情况下,期望中的任何不确定性或双手颤抖的可能性都将有利于合作,至少在一段时间内是这样。当人们在实验中重复玩已知终点的PD时,他们确实倾向于合作一段时间,但随着经验的积累,他们会更早地学会背叛。

现在我们介绍第三种并发症。假设参与者区分背叛和合作的能力是不完善的。考虑一下我们的小部件卡特尔案例。假设玩家观察到小部件的市场价格下跌。也许这是因为卡特尔成员作弊了。或者可能是外部需求下降的结果。如果针锋相对的参与者将第二种情况误认为是第一种情况,他们就会叛逃,从而引发相互叛逃的连锁反应,并且永远无法恢复,因为每个玩家都会用叛逃来回应第一次遇到的叛逃,从而引发进一步的叛逃,等等。

如果玩家知道这种错误沟通是可能的,他们就有动力采取更复杂的策略。特别是,他们有时可能准备冒合作叛逃的风险,以检验他们的推论。然而,如果他们过于宽容,那么其他玩家就可以通过额外的背叛来利用他们。一般来说,随着策略变得更加复杂,游戏中的玩家会遇到更困难的学习挑战。因为更复杂的策略对于其他参与者来说更难以推断(因为它们与更多变化和复杂的可观察行为模式兼容),所以它们的使用增加了误传的可能性。但沟通不畅才是导致重复博弈合作平衡瓦解的首要原因。重复 PD 中围绕信息信号、筛选和推理的复杂性有助于直观地解释民间定理,之所以这么称呼是因为没有人确定谁首先认识到它,即在重复 PD 中,对于任何策略 S,都存在策略与其他策略的可能分布。玩家使得 S 和其他策略的向量是 NE。当批评博弈论在行为、社会科学和商业案例中的应用时,他们抱怨这些应用假设了人们令人难以置信的推理能力水平,这就是他们的想法。在第 5 节中,我们将考虑一种回应此类担忧的方法。

真实、复杂的社会和政治戏剧很少是简单游戏(例如PD)的直接实例。 Hardin(1995)对两个悲惨的真实政治案例(1991-95 年的南斯拉夫内战和 1994 年卢旺达种族灭绝)进行了分析,将其作为嵌套在协调博弈中的 PD。

当两个或多个玩家通过彼此做同样的事情来最大化效用时,就会发生协调博弈,并且这种对应关系对他们来说比任何事情都更重要,特别是他们都做的事情。道路规则中出现了一个标准示例:“全部靠左行驶”和“全部靠右行驶”都是 NE 的结果,并且两者都不比另一个更有效。在“纯粹”协调的博弈中,使用更具选择性的均衡标准甚至没有帮助。例如,假设我们要求玩家根据贝叶斯规则进行推理(参见上面的第 3 节)。在这些情况下,任何对 NE 中可用的混合策略向量做出最佳回应的策略都被认为是合理的。也就是说,玩家可以为其他玩家找到一组信念系统,使得沿着均衡路径的任何游戏历史都与该组系统一致。纯协调博弈的特点是合理化策略的非唯一向量。诺贝尔奖获得者托马斯·谢林(Thomas Schelling,1978)推测并实证证明,在这种情况下,玩家可能会尝试通过寻找焦点来预测均衡,即他们认为对其他玩家来说很重要的一些策略的特征,并且他们相信其他玩家也会相信对他们来说很重要。例如,如果两个人想在某个大城市见面,但无法联系对方安排具体的时间和地点,那么双方可能会明智地在中午去该城市最著名的市中心广场。一般来说,参与者越了解彼此,或者越频繁地观察彼此的战略行为,他们就越有可能成功找到协调的焦点。

事实上,协调是博弈论应用的第一个主题,引起了哲学家的广泛关注。 1969年,哲学家大卫·刘易斯(David Lewis,1969)发表了《公约》,其中博弈论的概念框架被应用于二十世纪认识论的基本问题之一,即管理语义学的公约的性质和范围及其与论证的关系。的命题信念。可以通过一个简单的例子来获得基本的见解。 “鸡”一词表示鸡,“鸵鸟”一词表示鸵鸟。如果“鸡”代表鸵鸟,“鸵鸟”代表鸡,我们的生活不会变得更好或更糟。然而,如果我们一半人用第一种方式使用这对词,一半人用第二种方式,或者如果我们所有人都随机地在它们之间随机地指代不会飞的鸟,我们的情况会更糟。当然,这种洞察力早在刘易斯之前就有了。但他认识到的是,这种情况具有协调博弈的逻辑形式。因此,虽然特定的约定可能是任意的,但稳定和维持它们的交互结构却不是。此外,名词含义协调所涉及的平衡似乎具有任意元素,只是因为我们无法对它们进行帕累托排序;但密立根(Millikan,1984)含蓄地表明,在这方面它们是非典型的语言协调。一般来说,它们肯定不是协调约定的典型,在这一点上,刘易斯因过分重视关于“约定”“含义”的“语义直觉”而被误导(Bacharach 2006,Ross 2008a)。

Ross & LaCasse (1995) 提出了以下现实协调博弈的示例,其中 NE 不是帕累托无差异的,但帕累托劣势 NE 更常见。在城市中,驾驶员必须在两个 NE 之一上协调他们在交通灯处的行为。要么所有人都必须遵循冲过黄灯(或琥珀色)的策略,并在红灯变为绿灯时暂停,然后再继续前进,或者所有人都必须遵循黄灯减速并在轮班时立即跳下的策略这两种模式都是 NE 的,因为一旦社区在其中一种模式上进行了协调,那么任何人都没有动力去偏离:那些在黄灯上放慢速度而其他人在冲他们的人会被追尾,而那些在黄灯上冲的人会被追尾在另一个平衡将面临与那些在果岭上直接跳下的人发生碰撞的风险。因此,一旦一个城市的交通模式达到这些平衡之一,它就会倾向于保持在那里。事实上,这是在世界城市中观察到的两种模式。然而,这两个均衡并不是帕累托无差异的,因为第二个 NE 允许更多的汽车在左舵管辖区的每个周期左转,而在右舵管辖区的每个周期右转,这减少了主要原因解决城市道路网络的瓶颈问题,让所有驾驶员都能获得更高的出行效率。不幸的是,出于我们只能推测的原因,有待进一步的实证研究和分析,更多的城市被锁定在帕累托下东北线,而不是在帕累托上线。

在这种情况下,协调博弈均衡的维持可能必须得到稳定的社会规范的支持,因为参与者是匿名的,并且经常有机会通过背叛支持普遍的均衡来获得一次性优势。正如许多作者所观察到的(但特别参见 Bicchieri 2006 和 Binmore 2005a),稳定的规范本身必须描述玩家在游戏均衡中所做的事情,否则至少有一个玩家会被激励去违反规范。但是,正如 Guala(2016)所说,为了在协调博弈中发挥特殊作用,帮助参与者共同找到平衡,规范必须不仅仅是平衡描述;通常它也必须发挥作用。 Guala 的意思是,它必须编码期望,玩家知道这些期望,相关社会中的哪些行为如果遵循就会受到社会认可的奖励,如果违反就会受到社会制裁(例如流言蜚语、排斥、起诉、私刑暴力)的惩罚人类的生物遗传使大多数人将一些规范内化,即学会在违反自己认可的规范时体验到不愉快的内疚或羞耻感,以及在遵守规范时的满足感因此,规范可以帮助人们在协调博弈中找到均衡,即使这些博弈中的某些个人选择没有被任何其他人观察到。

当然,规范远非完全可靠的机制。每个现实社会都有许多规范,有些人不认可,因此可能不会内化,因此只要他们认为可以不被遵守地这样做,或者作为回报,他们认为代价不太昂贵的惩罚,就可能会打破。这为任何复杂程度较高的社会环境中的冲突提供了无尽的火上浇油。此外,如果社会规范不随着技术和其他环境的变化而发展,社会就会发现自己陷入保守主义的困境,效率日益低下。但随着时间的推移,规范的演变意味着当时对规范的分歧,除非每个人同时改变规范。但这本身就需要解决通常不存在元规范的协调博弈!正如 Kuran (1995) 的实证回顾和模型一样,规范的改变通常通过偏好证伪和发现的循环来发挥作用。也就是说,越来越多的人可能私下里不喜欢某个规范,但继续公开支持和遵循它,因为他们认为大多数其他人仍然支持它,并且遵守它,甚至帮助执行它,是他们的均衡策略。在特定时间,大多数人可能会以这种方式行事,这使任何人都无法认识到没有规范或有相反规范的新均衡是可行的。然而,这种隐藏的偏好往往会泄露,并且迟早会公开可见对规范普遍不满的信号。这通常会产生这样的效果:随着均衡的翻转,整个社会突然而戏剧性地改变了主意。例如,在 20 世纪 80 年代中期的两年左右的时间里,北美的商业文化中,高管们从支持欢乐的“液体午餐”的规范转变为严格禁止在工作时间饮酒的规范。我们可以由此推断,许多高管在意识到这是大多数人隐藏的观点之前,在仍然参与午餐时认为酗酒是一件坏事。 (这种偏好伪造不应与表面上相似的“多元无知”现象相混淆。在这些情况下,许多人对行为模式的统计频率抱有错误的信念,并有动机使自己的行为符合所建议的规范由于这种错误的信念,多元主义的无知往往会慢慢地、逐渐地消失,因为统计认知的错误不会表现出偏好伪造所维持的均衡的不稳定。是一种直接的战略现象,因此在某些情况下,多元无知充其量只是一个衍生的博弈论元素。)

关于证据标准和科学理性的惯例,以及为刘易斯的分析奠定背景的科学哲学主题,很可能具有帕累托排序特征。正如托马斯·库恩的追随者提醒我们的那样,虽然在科学社会游戏中各种安排可能是NE,但所有这些都不太可能位于同一条帕累托无差异曲线上。这些在当代认识论、科学哲学和语言哲学中得到强烈体现的主题,至少都是博弈论的隐含应用。 (读者可以在 Nozick (1998) 中找到广泛的应用示例以及大量文献的参考。)

人们所玩的大多数社会政治协调博弈也都具有这一特征。不幸的是,对我们所有人来说,以帕累托劣势 NE 为代表的低效率陷阱在其中极为常见。有时,这种动态会导致所有反复发生的人类集体行为中最可怕的。哈丁对最近两起种族灭绝事件的分析依赖于这样一种观点,即人们将自己划分为种族和族裔群体的生物学浅层属性,在协调博弈中高效地充当焦点,而协调博弈反过来又在他们之间产生了致命的PD。

哈丁认为,南斯拉夫和卢旺达的灾难本来就不是PD。也就是说,在这两种情况下,无论是哪一方,大多数人一开始都不会优先考虑自己的排他性民族利益,而不是个人和多民族协会之间的普遍相互合作和规范竞争。然而,致命的协调逻辑,在自私的政客的故意怂恿下,动态地创造了PD。一些塞尔维亚人(胡图族)被鼓励认为,通过认同塞尔维亚(胡图族)群体利益,他们的个人利益才能得到最好的满足。也就是说,他们发现,他们的一些情况,比如涉及工作竞争的情况,在各自的族群内部具有协调博弈的形式。这促使越来越多的人向他们的少数民族同胞施加压力,要求他们采取协调策略。最终,一旦足够多的塞尔维亚人(胡图族)将自身利益与群体利益等同起来,这种认识几乎就变得普遍正确,因为(1)每个塞尔维亚人(胡图族)最重要的目标就是做其他所有塞尔维亚人(胡图族)大致会做的事情,以及(2)塞尔维亚人最独特的做法,即排除克罗地亚人(图西族),这标志着协调。也就是说,涉及此类排他行为的策略是由于拥有有效的焦点而选择的。这种情况使得个人——以及受到个人威胁的——克罗地亚人(图西人)的自身利益最好通过协调自信的克罗地亚人(图西人)群体身份来最大化,这进一步增加了塞尔维亚人(胡图人)协调的压力,因此请注意,本分析的一个方面并不是暗示塞尔维亚人或胡图族人开始了事情;而是表明是塞尔维亚人或胡图人开始了事情。这个过程本来可以(即使事实上不是)完全互惠的。但结果是可怕的:塞尔维亚人和克罗地亚人(胡图人和图西人)在团结起来进行自卫时,似乎对彼此的威胁越来越大,直到双方都认为必须先发制人,在被攻击之前发起攻击。如果哈丁是对的——这里的重点不是要声称他是对的,而是要指出确定哪些游戏代理实际上在玩游戏的重要性——那么仅仅外部执行者(北约?)的存在就不会产生影响。霍布斯分析改变了游戏规则,因为执法者不可能用比双方都担心对方更糟糕的东西来威胁任何一方。所需要的是重新调整利益评估,这(可以说)发生在南斯拉夫,当时克罗地亚军队开始取得决定性胜利,此时波斯尼亚塞族人认为北约维和人员的到来可以更好地服务于他们的自身/团体利益。卢旺达种族灭绝同样以军事解决方案结束,这次是图西族的胜利。 (但这成为 1945 年以来地球上最致命的国际战争,即 1998-2006 年刚果战争的种子。)

政治学家经常援引这种协调两极分化的动态来解释国家内部不断升级的冲突。它的基础不一定是种族。另一个例子是,在过去三十年中,人们广泛观察到美国政党政治身份两极分化的加剧,这一现象通常是用哈丁的博弈论逻辑来建模的。在美国这样的两党体制中,如果一党的支持者开始相信自己的政党执政比其在特定问题上的政策更重要,因此开始采取压倒性的战略和机会主义行为,这种行为就会激励另一党的支持者当事人也采取同样的态度。因此,所讨论的信念是自我认可的,这使得两派支持者的最高利益赌注在于他们自己派系的胜利。以党派归属为条件的无休止的零和竞争侵蚀了跨党派联系,早在 2009 年(Bishop 2009)在美国就观察到这种竞争导致美国人在地理和文化上分裂成不同的群体,这些群体主要通过与一个群体的对比来认识和定义自己。另一个人的符号和图标。一旦人们将政治偏好融入到自己的身份观念中,就很难向任何人提供有效的竞争性反激励措施;正如罗斯(Ross,2005a)所讨论的,大多数人将维持其社会身份置于其有效偏好顺序的附近或顶部,其原因可以用博弈论模型很好地解释:一个人的社会身份对其他人来说是不确定或不稳定的,他会很难找到协调伙伴。组建团队来开展团体项目是人类的基本生存策略。因此,博弈论的视角帮助我们看到,作为一个物种,我们生态成功的根源也是我们形成相互敌对的种族或纯粹文化部落的倾向的根源,而这反过来又是大规模、通常具有破坏性的人类冲突。

当然,并不是说大多数重复的游戏都会导致灾难。人和其他动物友谊的生物学基础部分是重复游戏逻辑的函数。在未来的游戏中通过合作实现回报的重要性使得那些希望在其中互动的人比当前游戏中的诱惑要少一些自私。事实上,这种平衡通过学习而变得更加稳定,这一事实赋予了朋友累积投资的逻辑特征,大多数人都非常乐于感伤。此外,培养共同的利益和情感提供了焦点网络,围绕这些焦点网络可以日益促进协调。协调又是合作和推动物质和文化创新的受控竞争的基础。

协调的一个关键子主题是团队内劳动的专业化。因为对这个话题的第一个扩展评论是由与严格经济学的起源相关的亚当·斯密(Adam Smith)给出的,所以劳动专业化在世界各地都与商业生产有着密切的文化联系。然而,自人类诞生以来,它一直是人类生活的一个基本特征。古经济学家 Haim Ofek (2001) 令人信服地认为,我们的前智人祖先之所以能够控制火,是因为他们学会了在专业的消防员和市场另一边的采集和狩猎者之间进行分工。烹饪极大地提高了食物消费的效率,并使原始人能够将时间投入到其他事情上,例如种植工具和丰富社会生活,这反过来又是人类大脑爆炸性增长的重要触发条件(Wrangham 2009),随后,正如 Planer 和 Sterelny (2009) 所说,语言的出现。因此,在奥费克看来,最狭隘、最字面的经济意义上的劳动协调专业化是人类职业生涯的基础。第一批维持消防站服务的人是第一批商业企业,他们用牺牲品和工具来交换客户。也许旧石器时代的消防站操作员会争夺顾客和通过头顶的岩石壁架或洞穴天花板来避雨的可进入场地;如果是这样,那么产业组织理论(被博弈论接管的第一个经济学子领域)的逻辑就可以应用于他们的战略制定。

在最简单的劳动专业化模型中,不同的角色可以随机分配。如果我们两个人做披萨,谁磨奶酪、谁切片蘑菇可能取决于谁恰好站得离哪个工具更近。但这种情况并不典型。更常见的是,角色分配是不同能力的函数。如果我们两个人划船,其中一个是右撇子,另一个是左撇子,那么谁应该坐在哪一边是显而易见的。在这种情况下,不应该要求就谁做什么进行战略讨价还价,因为尽快到达我们想去的地方所带来的利益是对称分享的。但这也是一个非典型案例。更常见的是,某些角色的执行成本比其他角色要低,或者可以获得更高的预期回报。每个组建过摇滚乐队的人都知道,不成比例的名气和额外福利往往会流向主音吉他手,而不是鼓手或贝斯手。摇滚乐诞生后的几十年里,成功乐队中明显缺乏女主音吉他手,女性音乐家和歌迷随后对“吉他英雄”常见的舞台态度中浮夸的大男子主义姿态进行了评论。 Sleater-Kinney 和 The Breeders 等乐队因反对这种文化比喻而闻名。这个例子引起了人们对劳动专业化一个更普遍、更重要的方面的关注,博弈论在这一方面提供了重要的启示。

如上所述,劳动专业化是人类进化和上升到生态主导地位的基础。在每个自然产生的人群中观察到的分配差异化角色的最普遍和最重要的基础是性别。几乎可以肯定,其最初的基础是不同任务的相对性能优势存在一些不对称,就像划船者的情况一样。肌肉较大的人可以更有效地狩猎大型动物。此外,狩猎需要机动性并且通常需要安静,因此最好不要在携带婴儿时进行。因此,在狩猎采集社区(包括幸存的当代社区)中,一种非常常见(尽管不是普遍)的专业化模式是,男性狩猎,女性采集并执行可以在家庭基地进行的任务,例如修补和食品加工。并与照顾孩子相结合。其后果在政治上是深远的。猎人成为武器大师。武器掌握者往往会行使不成比例的权力,特别是当他们所属的社区定期与其他群体发生暴力冲突时,就像在人类生态历史的后期阶段一样。人们早已认识到,男性政治和社会主导地位是人类历史和文化的主导模式,其根源在于这种古老的生产角色分工。

(本章完)

相关推荐