思想的联想主义理论(四)

1951年,Marvin Minsky建造了第一个人工神经网络机器的随机神经模拟加固计算器 - 与Skinner Homself(Minsky 1952)密切咨询。 SNARC使用基于Hebbian原则的40个人工突触网络实现了一种RL形式。 它模拟跨迷带的大鼠,每个突触都维持信号传播的概率,可以通过手动交付的奖励通过加强来修改。 当模拟大鼠达到目标时,机械系统将基于操作性调节增强最近的有源连接。 这些早期努力通过钢筋通过试验实施机械学习有助于建立稍后将在现代RL算法中正式化的想法。

RL理论的发展具有业务化和扩展的联语主义原则。 虽然它维持了通过经验依赖协会修改学习的基本面的想法,但RL还引入了更复杂的学习机制,以解决简单的联想主义努力解释的挑战,并从其他领域的洞察纳入最佳控制理论的洞察力。 在下文中,我们将审查RL引入的一些关键创新,它们如何与传统联合论学习的局限性相关,以及他们更广泛的哲学含义。

10.1 RL概述

RL模型智能行为作为代理和环境之间的交互过程。 代理商 - 这可能是从国际象棋播放计划到机器人的任何东西,通过通过引导其环境的方面,采取行动和接受关于其后果的反馈来通过直接经验来学习。 环境代表了它可以交互的代理外部的所有内容,但其响应无法直接控制。 当代理采取动作时,环境通过转换到新情况并以奖励信号的形式提供评估反馈,这表明代理人达到其目标的进展情况。

代理人在任何时刻对其环境的看法是由国家概念捕获的。 各国可以完全可观察,代理商有关于其当前情况的完整信息,或部分可观察的信息,其中一些相关信息仍然是隐藏的。 例如,在国际象棋中,当前板位置是完全可观察的,而探索迷宫的代理只能观察到部分环境。 当前状态下可用的信息确定代理需要哪些操作。

代理商与其环境的互动通过行动发生,例如在迷宫中左或右移动或在国际象棋中选择移动。 在每个动作之后,环境向代理提供奖励信号 - 标量值,该标量值表示代理商的选择即时。 该奖励信号可以稀疏(不经常发生)或密集(经常提供),并且可能是正的或负面的。 它既是评价和顺序:它表明结果的可取性而不是确定正确的行动,并且在多个交互步骤后,行动的后果可能只会变得明显。 奖励信号是RL的基础,因为它定义了代理的成功:它允许后者了解哪些行动是有益的,而无需明确指导关于最佳策略的明确指导。

RL的另一个重要组成部分是策略,代表了代理人选择不同情况下的行动的策略。 更正式地,它将代理的“感知”状态(即,其对环境观察)映射到行动,无论是确定的吗?(总是在给定状态中选择相同的动作)或概率地(根据学习概率选择动作)。 策略可以通过各种方法实现,从简单的查找表到可以处理复杂状态表示的复杂神经网络。[40] RL的基本目标是发现一项策略,最大化代理人的累计奖励随着时间的推移。

为了做出良好的决策,代理人需要评估不仅立即奖励,而且需要进行行动的长期后果。 该评估由价值函数捕获,这估计代理可以在遵循特定策略时从给定状态或状态操作对中累积的总奖励。 价值函数占立即奖励和预期的未来奖励,未来奖励通常折扣以反映其不确定性和时间距离。 例如,在考虑国际象棋中的移动时,价值函数有助于代理商评估不仅仅是其立即的立即强度,而且还有其最终胜利的前景。 通过学习准确的价值函数,代理商可以做出优化长期成功而不是即时优势的决定。

RL在人工智能域中证明了非常成功的,例如游戏游戏和机器人控制。 例如,RL系统在越来越复杂的棋盘游戏中超越了人类专业知识。 早期的RL Systems掌握了类似的游戏和步步高(Tesauro,1994),而最近的方法在国际象棋和Go(Silver等人,2016,2018) - 后者鉴于游戏的战略复杂性特别重要。 此进度扩展到不完美的信息游戏,系统实现扑克中的专家级性能(Brown等,2019)和多人策略游戏,如星际争霸II(Vinyals等,2019)。 在街机式的视频游戏中,RL代理商学会了在人类水平的性能或更好的情况下玩数十间Atari游戏,只使用原始像素输入和游戏得分作为反馈(Mnih等,2015)。 在机器人学中,RL在机器人和操纵任务中启用了显着的进步。 QuadrupeDal机器人已经学会了导航困难的地形和保持平衡(Lee等,2020),而机器人臂已经掌握了精确的操纵任务,例如携手对象操纵(Openai等,2019)。

这些成就表明,当在复杂的计算系统中实施时,联合学习原则可以引起似乎目标导向和战略性的行为。 例如,在2016年3月与Go Champion Lee Sedol的比赛期间,Alphago令人惊讶和决定性的举动(移动37),没有人类的播放器将考虑制作。[41] 这一举措已被广泛讨论为RL培训允许游戏演奏者提出的原始战略决策,这些决定超越了人类的戏剧模式。 事实上,专业的人类去参与者通过研究基于RL的比赛计划的决策过程来提高自己的策略,包括赢得概率计算和不同可能的移动的预期最佳移动序列(Shin等人2021)。

然而,应该注意的是,一些游戏系统,如alphano,与传统的搜索算法相结合了神经网络,以便在提交操作之前探索和评估可能的移动序列。 这种混合架构表明,虽然RL对于学习战略模式很重要,但通过搜索增加明确的前向计划对于实现超出培训数据的创造性问题可能很重要。 因此,这些系统的产生原始动作的能力在很大程度上导致他们专门的GO模型中的巨大可能性空间,而不是允许人类和一些动物通过了解抽象因果原理创造性地解决新颖的问题的巨大的可能性空间(Halina 2021))。

纯粹的RL方法也传统上面临着几个挑战。 首先,RL代理商通常需要大量的学习剧集来学习良好的政策。 在Atari视频游戏中实现人力级性能,例如Mnih等人。 (2015)必须在5000万帧上培训他们的代理 - 相当于每场比赛的38天的演奏时间。 RL代理通常还需要为每个特定任务分开培训,能够在不同问题之间转移知识的能力有限; 例如,在一个Atari游戏中训练为Excel的代理通常不能在其他游戏中表现良好,而不会从头开始掠夺。 第三,RL系统通常限于与具有明确定义的规则和目标的游戏等相对简单和受限制的环境,并且处理现实世界任务的多维和非结构化性质更具困难。 正如我们将看到的,最近的研究取得了重大进展,以解决这些挑战,以更复杂的RL方法。 例如,RL系统现在可以在许多Atari游戏中实现人类的性能,而不低于两小时的比赛(Schwarzer等,2023)。 通过弥合所谓的“SIM-to-Real”的差距,机器人公司还取得了进展,使RL对现实世界的任务应用于现实世界任务,允许在模拟中培训的代理商将其技能转移到物理机器人(Ju等人。2022)。

10.2 RL如何扩展古典联语主义

RL分享联邦主义的基本前提是通过代理人的因果历史通过代理人的互动来学习。 正如联结主义提出的那样,精神状态通过经验丰富的突发事件变得相关,RL算法通过反复的环境互动通过各国,行动和奖励之间形成关联。 然而,RL提供了更精确的计算框架,以了解这些关联如何形成和影响行为。 事实上,现代RL算法以方向扩展了联结主义,这部分地解决了第9节中学习学习理论的一些局限性。

10.2.1预测和控制

像联邦主义一样,RL解决了学习的两个基本方面:预测(学习预期未来事件)和控制(学习适当的行为响应)。 在联想主义学习理论中,这些对应于古典(Pavlovian)调理,有机体学习刺激和仪器调理之间的预测关系,有机体学会基于其后果选择动作。 强化学习提供了实施和扩展两种形式的联想学习的精确计算机制(Sutton&Barto 2018)。

对于预测学习,称为时间差(TD)学习的RL方法正式确定了代理如何基于当前刺激(Sutton,1988)来预测预期未来事件。 TD学习允许代理通过与环境的直接交互来学习价值函数,而无需该环境模型。 关键的想法是TD学习基于时间上连续预测之间的差异来更新值估计,而不是等待最终结果。 具体地,TD学习使用当前奖励和下一个状态的估计值来更新当前状态的值估计(一个名为“引导”的过程)。 这意味着TD学习可以在线学习,在每个时间步骤更新估计,而不是等到直到学习集的结尾(用于相关问题,参见第10.2.6节)。

与古典调理一样,当实际结果与预期的结果不同时,TD学习更新预测。 然而,通过结合可以在预测性提示和结果之间建立时间间隙的机制,TD学习超出了简单的刺激刺激关联。 这允许TD学习解释像二阶调理一样的现象,其中先前调节的刺激本身可以作为增强器 - 这是一种简单的联语主义模型。

对于控制学习,RL实现了基于其后果的行为与情况相关联的联语主义原则。 然而,而不是仅仅形成简单的刺激 - 响应关联,RL代理商学习价值函数,以估计不同情况下不同行动的长期累积奖励。 这为行为控制提供了更复杂的行为控制机制,可以解释习惯性响应(通过无模型学习动作值)和目标定向行为(通过基于模型的规划,参见下面的第10.2.6节)。

10.2.2超出简单的恒星

古典协会主义的中央宗旨是时间续集 - 刺激或事件的接近时间接近 - 是形成关联所必需的。 这一假设面临着显着的经验挑战,特别是味道厌恶学习的现象,尽管刺激和后果之间长期延迟,但有机体形成强有力的协会(见第9.4节)。 RL提供了几种机制,解释了如何在没有严格的时间旁观性的情况下发生学习。

TD学习通过在连续时间步长的预测而不是等待最终结果的情况下,能够通过比较来学习时间差距。 与古典联邦主义对立即时间关系的要求不同,TD学习可以通过从中间预测“自动启动”来向后向后传播学习。 这允许系统弥合对传统联合论者理论提出问题的时间间隙。 Schultz等人。 (1997)表明,多巴胺神经元活性与TD预测误差紧密匹配,使TD学习的一些可信度作为由多巴胺信号传导 - 介导的生物学学习机制 - 尽管该假设仍然有争议(Namboodiri 2024)。

资格迹线提供了一种处理学习中的时间差距的另一种机制。 在古典调理中,船体的“刺激迹线”的概念是指即使在物理刺激结束后仍然存在于受试者的思想中的条件刺激的短期记忆,尽管在条件和无条件的刺激之间存在差距,但是尽管差距发生了学习。 在RL中,资格迹线作为追踪最近经历哪些州或刺激的独特机制,因此在不影响行为响应的情况下,“符合条件”的学习更新,可以更有效地学习时间延迟。 因此,资格迹线产生了在反馈最终到达时可以更新的过去状态和动作的时间扩展记录,其作为临时存储器的形式,允许将信用或责备分配给在时间上提前显着发生的事件。 这提供了用于在严格的邻接要求下难以解决的问题的额外计算机制。[42]

10.2.3信用分配问题

古典主义主义面临着我们所谓的“共同延伸问题”(第9.5节),也称为“信用分配问题”(Minsky 1961):当同时存在多种刺激时,系统如何确定哪些人应该与随后的相关联结果? 这个问题在空间上表现出来(多种并发刺激物质中的哪一个)和时间(过去的事件导致了当前的结果)。 现代RL提供计算解决方案来解决这两个信用分配挑战。

TD学习通过基于连续预测之间的差异来向后传播错误信号来解决时间信用分配。 当发生结果时,系统可以更新最近的事件,而且还可以通过资格迹线的时间距离来更新最近的事件,还可以进一步更新状态和动作。 这提供了一个原则性的机制,用于确定哪些过去事件促成了当前结果,但仅用于系统的假设空间内的事件。 TD学习并不本质地解决了共同关系的共同关系的特征选择方面,区分真正相关特征免受杂散相关性的。 现代RL通常通过归纳偏差来解决这一问题,尽管原因RL等一些最近的方法试图直接识别真正的因果关系(BareInboim等,2024)。

RL中的价值函数通过学习来帮助解决同时信用分配问题,以预测不同国家和行动的长期后果。 通过经验,系统了解目前情况的哪些方面是预测未来结果,有效地确定哪些刺激值得对结果的信誉。 虽然TD学习是生物学上的合理的,这可能有助于解释古典调理中的阻塞效果 - 当刺激未能获得联想强度,因为另一种刺激已经完美预测了结果。

10.2.4快速和逐步学习

传统的联合论学习理论暗示,关联只能通过反复接触刺激配对来形成慢,增量加强,相反,与个人学习往往快速和阶梯状。 现代RL在快速和逐步学习之间提供了新的视角。 一些RL方法而不是将其视为竞争账户,而不是将它们视为竞争账户,而是可以从快速学习能力出现并取决于较慢的学习过程。 例如,在元增强学习中,“缓慢”的学习外环逐渐通过许多相关任务的广泛体验逐渐调整神经网络的参数(Schweighofer和Doya 2003)。 这种慢速学习过程塑造了网络的动态,实现了“快速”的学习内环,可以快速适应熟悉的任务域内的新情况。 快速学习功能正是因为慢外环已经发现了在新情况下限制和引导学习的有用规律和归纳偏差。 这种类似于人类受试者在解决某种类型的许多难题之后的行为相似的同样快速地解决了同样的新谜题 - 而不是因为它们记住了特定的解决方案,而是因为他们已经学习了该领域的一般问题解决策略。 Meta-RL在建模灵活性行为挑战中的成功挑战联想学习本质上是不灵活的,无法考虑快速适应。

利用渐进和快速学习的另一种方法是episodic R1,它借鉴了生物显影记忆系统的灵感 - 特别是通过重播(Gershman&Daw 2017)的内存整合中的海马在内存中的作用。 EpiSodic RL将传统RL与情节内存系统相结合,以提高学习效率和性能。 它允许代理将过去的经历存储为离散剧集,通常表示为包含状态,拍摄,接收的奖励的集合,并导致下一个状态。 当代理遇到新情况时,它可以借鉴过去的经验,以基于类似状态的记录的动作值来计算可能动作的值。 虽然系统可以立即利用记忆来告知新情况的决策,但是该过程的有效性取决于逐渐学习了使有意义的相似性比较的适当表示。[43] 因此,在较慢的过程中,塑造过程的快速部署在较慢的过程中,塑造如何编码和比较。

IpiSodic RL通常与经验重放相结合,这允许代理在训练期间进行采样和重播过去的经验,以打破连续训练样本之间的相关性,并使代理能够更有效地学习。 这种方法在培训RL代理商培训符合Atari Games(Mnih等人2013,2015)匹配人类级别的rl代理商。 虽然基本体验重播样本在随机的经历,更高级的方法优先考虑重播的重播(Schaul等,2016)。

有人建议,Meta-RL和epiSodic RL与经验重播有助于解释有机体如何在熟悉的域中展示快速,一次性学习,同时仍需要大量的经验来掌握完全新颖的任务类型(Botvinick等人。2019)。[44] 两种方法表明,联想学习原则上可以在多个时间尺度上同时运行,具有较慢的过程,奠定了更快的学习形式的基础。 特别方案表明,联想学习原则可能不仅在形成特定的关联方面发挥重要作用,而是在塑造生物体如何学习学习(Sandbrink&Simmerfield 2024)方面发挥重要作用。 当有机体显示域内的新问题日益快速地学习时,这可以通过元学习过程来反映学习机制的逐步调整,而不是简单的刺激 - 响应关联。

(本章完)

相关推荐