4 Neural networks
在1980年代,联结主义(connectionism)出现了,作为经典计算主义的主要对手。联结主义从神经生理学而不是逻辑与计算机科学中汲取灵感。他们采用的是,显著不同于图灵式模型的神经网络(neural network)计算模型。一个神经网络就是一些相互连接节点的集合。节点可以分为三类:输入节点、输出节点以及隐藏节点(后者在输入与输出节点间起着中介作用)。节点带具有由实数给出的激活值。一节点可以与另一节点具有带——同样是实数给出的——权重的联系。输入节点的激活是外源性的:这些就是计算的输入。对一个隐藏或输出节点的总输入激活是,进入到该节点之激活的加权总和。一个隐藏或输出节点的激活是,关于其总输入激活的一个函数;这个特定的函数随具体网络的不同而不同。在神经网络计算过程中,激活波从输入节点传播到输出节点,这由节点之间的加权连接决定。
在一个前馈网络(feedforward network)中,加权连接将仅有一个方向。循环网络(recurrent networks)则带有反馈回路,在其中,从隐藏单元出发的连接将会循环回到隐藏单元中。相比于前馈网络,循环网络在数学上更难处理。然而后者在关于各种各样现象的心理学模型中起着至关重要的作用,例如涉及到某些类型的记忆的现象(Elman 1990)。
一个神经网络中的加权通常是可变的,其随着学习算法(learning algorithm)的变化而变化。文献中提供了多种多样的学习算法,但是基本思路常常仍是,通过调整权重以使得,相对于输入的实际输出更加接近于人们所期望的目标输出。反向传播算法(backpropagation algorithm)就是广泛使用了此种类型的算法(Rumelhart, Hinton, and Williams 1986)。
联结主义可以追溯到McCulloch and Pitts (1943),其中研究了相互连接的逻辑门(logic gates)网络(比如,AND-门,与OR-门)。人们可以将逻辑门的一个网络视为神经网络,其激活值是二值的(0与1),且激活函数被给定为真值函数。 麦克洛克与皮茨将逻辑门作为单个神经元的理想模型进行了深入研究。他们的讨论对计算机科学产生了深远影响(von Neumann 1945)。当代数字计算机就只是逻辑门网络。然而,在认知科学中,研究者通常更关注于那些元素更像是神经元而非逻辑门的网络。特别是,当代联结主义者通常强调的是模拟的神经网络,其节点接受连续的而非离散的激活值。一些学者甚至对其用了“神经网络”这个短语,因此就专指了这样的网络。
在1960年代到1970年代,认知科学家对神经网络的关注较少,因为在那时图灵式模型正处于统治地位。在1980年代,人们对神经网络的兴趣大为复兴了,特别是模拟的神经网络,两卷本的Parallel Distributed Processing(Rumelhart, McClelland, and the PDP research group, 1986; McClelland, Rumelhart, and the PDP research group, 1987)是这一事件的标志。研究者为各种各样的现象构造了联结主义式模型:对象识别、言语知觉、句子理解、认知发展,如此等等。许多研究者对联结主义印象深刻,总结道,CCTM+RTM不再是“这城里唯一的游戏”了。
在2010年代,一类被称为深度神经网络(deep neural networks)的计算模型变得颇为流行(Krizhevsky, Sutskever, and Hinton 2012; LeCun, Bengio, and Hinton 2015)。这些模型是有着多层(时常是数百层)隐藏节点的神经网络。深度神经网络通过一种或另一种学习算法(通常是反向传播算法)在大数据集上进行训练,其已在包括对象识别与战略游戏博弈的数个AI领域中取得了巨大成功。深度神经网络现已广泛应用在了商业中,并且也是学术界与工业界正在进行广泛研究的焦点。研究者们也已经开始用它们来建模心灵(比如,Marblestone, Wayne, and Kording 2016; Kriegeskorte 2015)。
关于神经网络,更详尽的综述见Haykin (2008)。对应用者比较友好的,特别强调其心理学应用的导论可见Marcus (2001)。而以哲学为导向的关于深度神经网络的导论见Buckner (2019)。
4.1 Relation between neural networks and classical computation
仅凭“感觉”的话,神经网络同经典(比如说图灵式)模型有着巨大不同。然而,经典计算与神经网络计算并不互斥:
• 人们可以在一个经典模型中实现一个神经网络。的确,任何物理上构建的神经网络都是在数字计算机中实现的。
• 人们可以在一个神经网络中实现一个经典模型。当代数字计算机是在逻辑门网络中实现的图灵式计算。或者说,人们也可以使用带有能接受连续激活值节点的模拟的循环神经网络来实现图灵式计算(Graves, Wayne, and Danihelka 2014, Other Internet Resources; Siegelmann and Sontag 1991; Siegelmann and Sontag 1995)。
虽然一些研究者认为在经典计算与神经网络计算间存在着根本对立,但看上去更准确的方式应该是将这两种传统定位为,它们在某些情况下有着重叠,但并不是所有情况下都是如此(cf. Boden 1991; Piccinini 2008b)。在这种关系的意义上,还值得提起的一点是,经典计算主义与联结主义式计算主义的共同起源都是麦克洛克与皮茨的工作。
哲学家们常称经典计算涉及到是“受规则支配的符号操作(rule-governed symbol manipulation)”,而神经网络计算则是非符号性的。这种直观来源于神经网络中的“信息”是全局性地分布在加权与激活上的,而不是集中于局部的符号上的。然而,“符号”的这个概念自身就要求一种澄清,所以学者们在将计算描述为符号性的VS非符号性时究竟意味着什么时常并不清楚。正如第一节中提到的那样,图灵形式系统对“符号”设置的限制条件非常少。关于初始符号,图灵只是简单假设了它们是有穷多的,并且可以被刻在读/写的存储位置上。神经网络同样可以在满足这两条要求的情况下操作符号:就像之前才提到的那样,人们可以在一个神经网络中实现一个图灵式模型。
许多关于符号/非符号二分法的讨论都采用了一个关于“符号”的更健全的概念。在这样一些更健全的进路下,一个符号就是一种能够去表征一个主题之类的东西。因此,某种东西是一个符号,仅当其拥有语义或表征性属性。如果我们采用这个关于符号的更健全的概念,那么,符号/非符号的二分就可以同图灵式计算与神经网络之分交叉在一起。一个图灵机并不需要在更健全的意义上使用符号。就图灵形式主义而言,图灵计算过程中所操作的符号并不需要具有表征性属性(Chalmers 2011)。反之,一个神经网络也可以操作带有表征性属性的符号。事实上,一个模拟的神经网络可以操作带有组合句法与语义的符号(Horgan and Tienson 1996; Marcus 2001)。
追随Steven Pinker and Alan Prince (1988),我们或许要去区分取消论的联结主义(eliminative connectionism)与实现论的联结主义(implementationist connectionism)。
取消论的联结主义将联结主义推向了经典计算主义的对立面,他们认为图灵式形式系统对心理学解释来说是不相关的。,他们通常但并非总是试图恢复心理学中的联想主义(associationist)传统,而后者则是CCTM曾强烈质疑的东西。同样的,他们通常但并非总是攻击由Noam Chomsky (1965)开创的心智主义(mentalist)天赋论语言学(nativist linguistics)。最后,他们通常但并非总是对心灵表征这一概念有着明显的敌意。但取消论的联结主义的决定性特征是,其使用神经网络来作为图灵式模型的替代。取消论的联结主义将心灵视作与图灵机截然不同的计算系统。一些学者明确地支持取消论的联结主义(Churchland 1989; Rumelhart and McClelland 1986; Horgan and Tienson 1996),而更多的其他人则倾向于此。
实现论的联结主义是一个更加具有覆盖性的立场。它允许图灵式模型和神经网络都发挥其潜价值,在不同的描述层次上和谐地运行。一个图灵式模型处在的是更高的层次,而神经网络模型则更低一些。神经网络阐明了大脑是如何实现图灵式模型的,就像用逻辑门来描述个人电脑阐明了其如何在高层的编程语言中执行程序的一样。
4.2 Arguments for connectionism
联结主义在神经网络与大脑间的类比关系使得许多学者感到非常兴奋。节点相似于神经元,而节点间的连接就相似于突触。这样,联结主义式的建模看上去就比经典模型有着更多的生物学似然性。关于一个心理学现象的一个联结主义模型很明显地(以一种理想化的方式)捕捉到了,相互连接的神经元如何产生出了该现象。
当从生物学似然性来评估该论证时,人们应该认识到神经网络同实际的大脑活动间有着有很大的差异。许多在联结主义著作中十分重要的网络都在生物学上不那么合理(Bechtel and Abrahamsen 2002: 341–343; Bermúdez 2010: 237–239; Clark 2014: 87–89; Harnish 2002: 359–362)。一些例子:
• 真正的神经元相比于典型的联结主义神经网络中那些可交换的节点竟会更加异质。
• 真正的神经元会释放出离散性的脉冲(动作电位(action potentials))作为输出。但许多著名的神经网络中的节点却有着连续性的输出,包括最著名的深度神经网络。
• 反向传播算法要求节点间的权重可以在兴奋性与抑制性之间变化,但实际中的突触并不能发生这样变化(Crick and Asanuma 1986)。此外,由算法假设的目标输出是外源性地由,知道理想答案的建模者提供的。在这种意义上,学习是受监督的。在实际的生物系统中,只有很少的学习涉及到与此类似的,受监督的训练。
另一方面,一些神经网络具有更多的生物现实性(Buckner and Garson 2019; Illing, Gerstner, and Brea 2019)。比如说,存在一些用更加现实的学习算法来替代反向传播的神经网络,例如,一个强化学习算法(reinforcement learning algorithm)(Pozzi, Bohté, and Roelfsema 2019, Other Internet Resources),或者是无监督学习算法(unsupervised learning algorithm)(Krotov and Hopfield 2019)。还有一些神经网络,其节点输出的离散脉冲,大致类似于大脑中真正神经元释放出的脉冲(Maass 1996; Buesing, Bill, Nessler, and Maass 2011)。
即便一个神经网络不是生物学似然的,但它仍然可能比经典模型在这方面做得更好。比起图灵式模型,神经网络确实看上去更接近于神经生理学描述。许多认知科学家担心,CCTM反映了,将数字计算机的结构强加给大脑,这样一种错误的尝试。一些人怀疑大脑是否真的实现了某种类似于数字计算机的东西,即,在离散的数字配置上进行的计算的东西(Piccinini and Bahar 2013)。其他人则怀疑,大脑是否表现出了,在中央处理器与读/写记忆间,清晰的图灵式分离(Dayan 2009)。神经网络在这两方面都表现得更好:它们不需要在离散的数字配置上进行计算,并且,它们也不假设在中央处理器与读/写记忆间存在一个清晰的分离。
经典计算主义者的回应通常是,鉴于我们对神经、计算以及认知科学层面描述,这三者间的关系还知之甚少,因此根据生物学似然性来得出结论还为时尚早(Gallistel and King 2009; Marcus 2001)。利用细胞记录和功能性磁共振成像(fMRI)等测量技术,并通过借鉴物理学、生物学、人工智能、信息论、统计学、图论和动力系统理论等不同学科,之于大脑,神经科学家们已在不同粒度层次上积累了大量知识(Zednik 2019)。我们现在已对单个神经元;神经元在神经群体中如何互动;心理活动在皮层区域(如视觉皮层)的定位;以及皮层区域之间的相互作用有了相当多的了解。然而,对于神经组织如何完成它肯定会完成的任务,我们仍有大量的知识需要学习:感知、推理、决策、语言习得如此等等。鉴于我们目前对此仍相对无知,那么坚持大脑没有实现任何类似于图灵计算的东西将会有些轻率。
联结主义者提供了更多的论证,以试图说明我们应该采用联结主义模型而不是采用经典模型或者是只将前者作为后者的补充。对此的概述见词条 connectionism。在此,我们将会再提供两条将会有关本词条的论证。
第一个论证强调了学习(Bechtel and Abrahamsen 2002: 51)。大量的认知现象涉及到从经验中进行的学习。通过反向传播或者其他调整节点间权重的算法,许多联结主义式模型明确地旨在为学习建模。作为对比,联结主义者时常抱怨不存在关于学习的,优秀的经典模型。经典计算主义者可以援引联结主义学习模型已被观察到的缺陷(例如,反向传播对监督学习的严重依赖)来回应这个抱怨。经典计算主义者同样可以援引贝叶斯决策理论,这一理论将学习建模为概率更新。更具体地,经典计算主义者可以援引贝叶斯式认知科学所取得的成就,这一路径使用贝叶斯决策理论为心灵活动构建了一个数学模型(Ma 2019)。在过去几十年,贝叶斯认知科学已经在解释方面积累了许多成功。这条令人印象深刻的轨迹表明一些心灵进程是贝叶斯式的,或者至少近似于此(Rescorla 2020)。此外,第2节中提到的进展表明了,在各种各样的现实场景中,经典计算系统是如何执行,或者至少是近似地执行了贝叶斯更新。这些发展为,用经典计算来为学习的许多重要案例进行建模,这件事提供了希望。
第二个论证强调了计算速度。神经元显著地慢于基于硅芯的数字计算机。因此,神经元无法足够快地执行串行计算,以能够匹配人类在感知、语言理解、决策等等中的快速表现。联结主义者主张,唯一可行地解决方案就是将串行计算替换为“大规模的并行式”计算架构——恰好这就是神经网络提供的那种东西(Feldman and Ballard 1982; Rumelhart 1989)。然而这个论证只对那些坚持串行运算的经典计算主义者有效。如第3节中提到的那样,一些图灵式模型涉及到并行处理。许多经典计算主义者乐于接受“大规模的并行式”心灵计算,因此,这个论证无法反驳到这样一些研究者。虽然如此,这个论证还是强调了一个重要问题,对于任何计算主义者来说——无论是经典的、联结主义的,还是其他任何形式的,这些人都必须解释:由相对较慢的神经元组成的大脑,如何能够如此快地执行复杂计算?无论是经典的还是联结主义式的计算主义者都还没有令人满意地回答这个问题(Gallistel and King 2009: 174 and 265)。
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。