思想的联想主义理论(五)
10.2.5内容特异性
连接主义模型通过关联机制从其培训数据中的特定输入输出映射中学习。 因此,它们实现了特定于内容的计算:仅仅因为在输入和输出时表示的特定内容(SHEA 2023)而忠于内容的计算。 例如,训练图像的神经网络可能会学会将特定的边缘和纹理图案映射到标签“狗”,但这毫无疑问,它没有关于它应该如何分类猫或树木的图像。 同样,心理学中的纯粹联想过渡是特定于内容的(Quilty-Dunn&Mandelbaum 2019)。 相反,特定于非内容的计算是计算过程,其以相同的方式操作,而不管它所需的表示的特定内容如何。 例如,无论所涉及的具体概念如何,逻辑推理规则都相同; 因此,推理转换是特定于非内容的。
执行非内容特定计算的能力允许更灵活和更广泛的处理,并且传统上被带到elude连接仪模型,包括大多数R1系统。 然而,Shea(2023)认为,EpiSodic RL系统实施非内容特定的计算。 当一个ePiSodic RL系统遇到新状态时,它计算该状态与使用相同算法的所有先前存储的剧集之间的相似性,无论是否正在比较特定状态。 这是一个归属于古典联邦主义依赖于特定于内容的过渡,其中两个州之间的关系完全取决于他们的特定内容和学习历史。
EpiSodic RL系统的此特征解释了为什么他们可以灵活和高效地学习。 它们可以更快地适应新的情况,避免灾难性忘记的问题 - 其中新学习的关联覆盖了过去的学习剧集 - 这可以困扰更简单的神经网络架构专门针对特定于内容的转换。 然而,应该注意的是,该插曲R1仍然依赖于基于相似性的计算(使用相似度量来比较基于矢量的表示),而不是对表示表示的构成结构敏感的推动转换。 虽然插入型R1的过去经验的代表可能具有一些组成结构,但它通常缺乏通常采取的离散组成结构的种类更为受到更高的精神经转变,例如逻辑推理。[45]
10.2.6基于模型的RL
与联邦主义重新评估有关的另一个重要区别是无模型和基于模型的RL。 在无模型RL中,代理商直接从经验中学习,而无需构建其环境的显式模型。 这是我们描述的典型RL设置,其中代理通过试验和错误来学习策略,并根据观察到的奖励和状态转换更新其估计。 相比之下,基于模型的RL涉及学习环境的显式模型,包括状态之间的过渡概率和奖励函数。 然后,代理可以使用此模型来规划和制定决定(Daw等,2005)。
无模型和基于模型的RL之间的区别反映了术之间的基本折衷与效率。 无模型RL是计算地廉价的,但由于代理通常需要非常大量的相互作用来学习最佳政策,因此不是非常有效的或灵活。 基于模型的方法更具样本 - 高效灵活,因为代理可以使用其模型来模拟经验并提前计划,而无需实际在环境中采取行动。 但是,如果学习的模型是不准确的或者环境过于复杂,他们可能会努力奋斗。 融合证据证明人类利用无模型和基于模型的RL来平衡这些计算权衡(Lake等,2017; Botvinick等,2019)。 在这种观点上,基于模型的规划可以接管无模型学习,以便灵活地适应新型任务,尽管有足够的培训通过基于模型的RL获得的某些技能可以成为“习惯”,以减轻计算资源的非模型例程。
基于模型的RL超出了联想链接,通过利用了编码国家,行动和结果之间的关系的内部结构化的环境来实现,以便提前计划。 AI中的一些基于模型的RL系统具有混合架构,其中模型内置而不是由神经网络学习。 例如,alphago组合了两个神经网络组件 - 选择移动和“值网络”的“策略网络”,这些组件和“值网络”评估与Monte Carlo树搜索(MCT) - 传统搜索算法使用策略网络将搜索集中在有希望的搜索中移动(Silver等人,2016年)。 在该系统中,Go规则的模型被编码为手工制作功能。 相比之下,一些基于模型的RL系统学习具有神经网络的环境模型。 例如,Kaiser等人。 (2024)通过培训基于模型的RL系统,通过一个具有“世界模型”的模型的RL系统来实现了良好的样本 - 效率,该系统由一个神经网络组成,该系统学会预测游戏的未来帧和过去帧的预期奖励和可能的动作。 然后可以使用此“世界模型”来模拟游戏环境,并允许代理更快地学习最佳策略。
在现代RL引入的计算创新中,基于模型的方法可能是最明显应变从经典联合论遗传的关联概念的方法。 一方面,基于模型的RL系统,如Kaiser等。 (2024)atari演奏神经网络从根本上从行动,观察和奖励之间的关联中学习。 另一方面,它可能是误导性,以描述所产生的“世界模型”,作为包含非结构化的表示的非结构化配对。 FortiOri,依赖于alphago等内置规则的混合RL系统包含大量的显式结构。 虽然RL的算法创新和行为成功确实解决了联想主义学习理论的一些核心限制,但他们也放弃了后者的原始承诺。