计算语言学(五)

这种概念表征往往在几个方面与逻辑表征不同。正如已经讨论过的,其中之一是 Schank 和其他多位研究人员(例如 Wilks 1978;Jackendoff 1990)强调“深层”(规范)表征和基元。一个经常被引用的关于基元的心理学论点是,人们很快就会忘记他们所读或所听到内容的确切措辞,而只记得“要点”;基元分解就是为了推导出这个要点。然而,这包含一个值得怀疑的假设,即在解释过程中,人们会忽略诸如步行去公园、漫步去公园或慢跑去公园之间的细微差别。而且如前所述,它忽略了这样一种可能性:看似无关紧要的语义细节会在短时间内从记忆中被抹去,而主要的蕴涵则会保留更长时间。

。在概念表征的理论构建中,另一个常见的问题是对逻辑表征和外延语义学的某种程度的缺乏自信。语言的相关语义学被认为是从语言话语到内部表征的转换,而内部表征的相关语义学被认为是它们在理解和思考中的运用方式。对于外部语言和内部(心理语言)表征,语义框架是否为它们提供形式真值条件被认为是无关紧要的。对逻辑语义学的拒绝有时可以概括为“人们无法用可能世界进行计算”。

。然而,似乎任何概念语义学和逻辑语义学之间感知到的冲突都可以通过认识到这两种语义学是截然不同的学科,其目的也截然不同来解决。当然,概念语义学专注于从语言到符号结构的映射(在大脑中,最终以某种神经集合或回路的形式实现),以及这些结构在理解和思考中的作用,这完全合理。但逻辑语义学同样也发挥着应有的作用,它既可以思考词语(以及更广泛的语言表达)与世界的关系,也可以思考内部语义表征的符号和表达与世界的关系。这种作用是元理论性的,因为它的目标不是假设可以被计算操纵的认知实体,而是提供一个框架,用于理论化人们使用的符号(外部语言和内部思维)与他们所生活的世界之间的关系。无可否认,话语至少有时旨在被理解为关于世界上事物、属性和关系的主张,因此至少有时是真或假的。如果语言和思想无法捕捉世界的真理,那么很难理解它们如何能够进化成为应对世界的有用手段。

此外,逻辑语义学揭示了某些句法操作如何从真值推导出真值,而与这些操作中涉及的符号的具体含义无关(这些概念可以扩展到不确定推理,尽管这方面的理解仍然非常有限)。因此,逻辑语义学为评估推理规则的合理性(或其他方面)提供了基础。尽管人类推理以及实际人工智能系统中的推理常常需要借助不合理的方法(例如溯因推理、默认推理、贝叶斯推理、类比等),但逻辑语义学仍然提供了一个重要的视角,可以从中对此类方法的属性进行分类和研究。一个强有力的证据表明,基于认知动机的语言概念表征与基于逻辑动机的语言概念表征是可以调和的,即所有提出的概念表征要么从一开始就有意借鉴了逻辑(例如在使用谓词、连接词、集合论概念,有时还有量词时),要么尽管基于认知动机,但仍然可以毫不费力地转化为逻辑表征。

联结主义方法

如前所述,20 世纪 80 年代,联结主义计算模型在主流认知科学理论中重新兴起(例如,Feldman 和 Ballard 1982;Rumelhart 和 McClelland 1986;Gluck 和 Rumelhart 1990)。我们在讨论联结主义解析时,已简要描述了联结主义模型。但联结主义范式被认为不仅适用于特定功能,还适用于广泛的认知任务,包括识别图像中的物体、识别语音、理解语言、进行推理以及引导身体行为。其重点在于学习,通过调整分层神经网络中单元间连接的权重来实现,通常通过反向传播过程将成功或失败输出的功劳或责任分配给参与生成输出的单元(Rumelhart 和 McClelland 1986)。

。一方面,对联结主义和神经建模兴趣的重新燃起,是努力将认知内容和功能的抽象概念阐释得更清晰,使其能够与脑理论和神经科学建立可检验的联系的自然步骤。但这也可以被视为一种范式转变,因为对亚符号加工的关注开始与一种日益增长的怀疑论联系在一起,这种怀疑论认为高级符号加工并非心智模型,而这种模型与早期基于语义网络和基于规则的架构息息相关。例如,Ramsay 等人(1991)认为,联结主义模型所展现出的执行认知相关任务的能力,削弱了当时将心智视为物理符号系统的主流观点。但其他人则继续捍卫符号加工的重要作用。例如,Anderson(1983, 1993)认为,虽然符号思维理论需要以神经可信处理为基础,亚符号过程非常适合利用环境的统计结构,但理解这些亚符号过程的相互作用需要符号层面的表征和行为理论。

。将话语的语义内容表征于神经网络中,使其能够进行推理性问答等,意味着什么?反表征主义(或“消除主义”)的观点认为,没有任何特定结构能够或需要被识别为编码语义内容。输入以分布式方式修改网络活动和各种连接的强度,从而使网络的后续行为有效地实现推理性问答。然而,这完全没有解释网络如何学习这种行为。最成功的神经网络实验旨在将输入模式映射到类别标签或其他非常有限的输出集合,并且它们需要大量带标签的样本(例如,数千张标有所描绘物体类别的图像)来学习其任务。相比之下,人类擅长“一次性”学习,并能基于这种学习执行复杂的任务。

斯莫伦斯基(1988)提出了一个与消除主义立场相对温和的替代理论,称为亚符号假说。该假说认为,心理加工无法用符号操作来完整准确地描述,而是需要在亚符号特征层面进行描述,这些特征在网络中以分布式方式表示。这种观点并不排除联结主义系统中单元的集合确实编码符号以及由符号构建的更复杂的实体(例如谓词和规则)的可能性。它只是否认了这些单元集合所产生的行为可以被充分建模为符号操作。事实上,过去二三十年来,许多神经网络研究都试图理解神经网络如何编码符号信息(例如,参见 Smolensky 等人,1992 年;Browne 和 Sun,2001 年)。

。分布式方案将一组单元及其激活状态与特定符号或值相关联。例如,Feldman(2006)提出概念由一组神经元的活动表示;代表概念、角色和填充符(值)的此类神经元簇的三元组通过三角形节点连接在一起,以表示对象的简单属性。语言理解被视为一种模拟,它将语言映射到更具体的物理动作或经验领域,并以时间贝叶斯网络形式的背景知识为指导。

。全局方案以重叠的方式在所有单元上对符号进行编码。一种可能的全局方案是将单元的激活状态(每个单元生成一个介于 -1 和 1 之间的实值)视为命题:如果状态 q 下每个单元 i 的激活 qi 满足 pi ≤ qi ≤ 0,或 qi = 0,或 0 ≤ qi ≤ pi,则状态 p 包含状态 q(等效地,p 至少与 q 一样具体),具体取决于状态 p 下该单元的激活 pi 是负数、零还是正数。然后可以根据这些状态解释命题符号,根据对网络状态执行的简单最大最小运算和符号反转解释真值函数。(参见 Blutner,2004;然而,Blutner 最终关注的是局部主义方案,其中单元表示原子命题,连接表示双条件。)全息神经网络方案(例如 Manger 等人,1994 年;Plate,2003 年)也可以看作是全局的;在最简单的情况下,这些网络使用一个“巨型神经元”,将一个分量为复数的输入向量乘以一个复值矩阵;所得复值输出向量的一个分量在极坐标中写为 reiθ,通过 θ 的值提供分类,通过 r 的值提供置信度。此类网络的一个显着特征是它们能够从部分或嘈杂的输入中对模式进行分类或重建。

。亚符号假设的地位仍有待争论和进一步研究。当然,尚不清楚符号方法如何能够匹配神经网络方法的某些特征,例如它们处理新实例的能力以及它们在出现错误或遗漏时的优雅降级。另一方面,一些用于存储知识和执行推理的神经网络架构已被证明(或被设计)与“软逻辑”密切相关,例如模糊逻辑(例如 Kasabov 1996;Kecman 2001)或“带权重注释的普尔系统”(Blutner 2004),这表明认知神经网络模型最终可能被描述为此类软逻辑的实现。一些更关心实际进展而非生物学上可信度建模的研究人员也探索了将符号方法和亚符号方法混合的可能性,以期获得两者的优势(例如 Sun 2001)。一个相当正式的例子是 d'Avila Garcez (2004),它借鉴了 Dov Gabbay 的思想。

最后,我们应该评论一些认知科学文献中表达的观点,即语言的心理表征主要体现在意象性上(例如,Damasio 1994;Humphrey 1992)。当然,有充足的证据证明心理意象的存在及其重要性(Johnson-Laird 1983;Kosslyn 1994)。此外,创造性思维似乎也常常依赖于视觉化,正如庞加莱(1913)和阿达玛(1945)在20世纪初所观察到的那样。但正如前文所述,符号表征和意象表征很可能共存并产生协同作用。此外,深入研究人类语言能力的认知科学家,例如史蒂芬·平克(1994,2007),或上文提到的任何表征主义或联结主义研究者,似乎都得出这样的结论:源自语言的内容(以及思想本身)在很大程度上是象征性的——除了那些完全否定表征的消除主义者。然而,不难看出,原始直觉如何可能导致“意义即图像”假说。生动的意识似乎主要与视觉皮层相关,尤其是V1区,该区域也与心理意象密切相关(例如,Baars 1997:第六章)。因此,大量非意象性的语言编码和处理完全有可能被忽视,而任何被唤起的意象性产物都会成为我们意识体验的一部分。此外,反思某个句子会引发何种意象(如果有的话)这一行为本身,或许能够促进意象的构建和对意象的认知。

3.3 统计语义学

广义上,统计语义学关注的是词语、短语、句子和文本的语义属性,这些属性由它们在大型文本语料库中的分布特征产生。例如,诸如“cheap”(开朗的)、“exuberant”(旺盛的)和“depressed”(沮丧的)等词可能被认为在语义上相似,因为它们往往出现在相同(或相似)的邻近词语的两侧。(出于某些目的,例如信息检索,文档的识别标签可用作发生上下文。)通过仔细区分各种发生上下文,还可以将相似性纳入更具体的关系中,例如同义词、蕴涵和反义词。(标准)逻辑语义关系与基于分布相似性的关系之间的一个基本区别在于,后者与程度有关。此外,底层抽象概念也大相径庭,因为统计语义学并不将字符串与现实世界联系起来,而只将其与出现的语境联系起来(这一概念类似于维特根斯坦的“意义即用途”概念,但范围更窄)。然而,统计语义学确实允许优雅的形式化表达。各种相似性概念和其他语义关系可以用向量代数来捕捉,通过将表达式的出现频率视为向量分量的值,每个分量对应于不同的出现语境。如此一来,我们便得到了一种基于向量空间中的度量和运算符的语义概念,其中向量运算符可以以各种方式模拟布尔运算符(Gärdenfors 2000;Widdows 2004;Clarke 2012)。

。但这与自然语言句子和文本的意义表征有何关系?本质上,统计语义学中句子的表征由句子本身构成。句子可以直接与分布式知识结合用作推理对象的想法相当新颖且令人惊讶,尽管它是由多年来基于大型文本语料库的问答工作所预示的。这个想法随着最近设计基于统计的文本蕴涵确定算法的努力而获得了关注,该项目由一系列识别文本蕴涵 (RTE) 挑战赛推动,这些挑战赛于 2005 年发起,由 PASCAL 卓越网络组织,最近由美国国家标准与技术研究所 (NIST) 组织。识别文本蕴涵需要判断一个给定的语言字符串是否蕴涵第二个语言字符串,这种蕴涵符合人类对自然推断的直觉(依赖于对词义的了解、诸如在公司分公司工作的任何人也在该公司工作的常识,以及偶尔众所周知的具体事实)。例如,“约翰能说一口流利的法语”在文本上蕴含着“约翰会说法语”,而“法国的美食之都是里昂”并不蕴含着“法国的首都是里昂”。有些例子的蕴含程度介于两者之间,例如,“约翰出生在法国”被认为会增加约翰会说法语的可能性,但并不完全蕴含法语(Glickman and Dagan 2005)。年度竞赛的初期结果并不理想(与随机猜测的分数相差无几),但已经稳步提升,尤其是在引入了一些基于本体论和一些关于词义、词类、关系和短语模式的一般公理的推理之后(例如 de Salvo Braz et al. 2005)。

值得注意的是,将句子视为意义表征的概念与 Montague 的语言即逻辑的论点相呼应。当然,Montague 将“句子”理解为无歧义的句法树。但文本蕴涵的研究似乎正朝着类似的概念发展,例如 Dagan 等人 (2008) 的研究,其中统计蕴涵关系基于句法树,并被推广到可以用类型变量替换子树的模板。Clarke (2012) 也提出了一个非常通用的统计语义学向量代数框架,其中句子的“上下文”可能包含句子的(多个)解析,甚至(多个)逻辑形式,并且统计句子意义可以由其各自的部分组合构建而成。在该框架中,一种解释蕴涵程度的方式是根据将前提句的每种可能的逻辑形式与所讨论的假设的每种可能的逻辑形式相关联的蕴涵概率。

3.4 实践中应用哪种语义学?

在调查了三种截然不同的语义学之后,我们面临的问题是,哪一种语义学在计算语言学实践中最为有效。从上文可以清楚地看出,语义“工具”的选择取决于实践者的计算目标。例如,如果目标是创建一个基于对话的问题解决系统,用于电路故障诊断、应急响应、医疗应急或假期规划,那么基于对话、潜在意图以及相关约束和知识的逻辑(或至少是符号)表征的方法是目前唯一可行的选择。在这里,符号表征是基于某种假定的语言逻辑语义还是某种心理表征理论并不重要——只要它们是可以推理的表征即可。亚符号和统计意义表征不适合此类用途的最重要局限性在于它们非常有限的推理范围和响应能力。它们提供的是分类或一次性推理,而不是推理链,并且它们不会生成计划、论证或扩展的语言响应。然而,神经网络技术和统计技术都可以帮助改进对话系统中的语义处理,例如通过消除词义歧义,或根据观察到的话语或动作识别正在提出或遵循的几个标准计划中的哪一个。

。另一方面,如果计算目标是在某种与语言相关的行为的生物学上可信(或生物学上有效!)的模型中展示类似人类的表现,例如学习将单词正确地应用于感知的对象或关系,或学习判断概念相似性,或评估话语片段的语气(潜在情绪),那么符号表示不需要在计算建模中发挥任何作用。 (然而,由于语言是符号性的,并且是一种认知现象,亚符号理论最终必须解释语言是如何产生的。)就统计语义学而言,基于大量文本资源的问答、检索与查询相关的文档或机器翻译等实际应用目前远远优于那些试图完全理解所面临的查询或文本以及它们在任务中运用的知识的逻辑系统。但是,上文在尝试将亚符号和统计表示与符号表示联系起来时指出的一些趋势表明,各种语义学方法正在逐渐趋同。

4. 语义解释

4.1 将句法树映射到逻辑形式

在接下来的几段中,我们将语义解释理解为从词流中获取意义表征的过程,并假设先前或并发的语法分析阶段的操作是理所当然的。换句话说,我们将句法树映射到逻辑形式(或任何意义表征)。因此,与将外部指称赋予符号的解释不同,这是一种“句法语义学”(Rapaport 1995)。

在程序主义范式的鼎盛时期,语义解释通常通过一系列规则来完成,这些规则将模式与句法树的各个部分匹配,并添加或修改输入句子的语义表征。完成的表征可能表达需要记住的事实,也可能本身就是可执行命令,例如对数据库的形式查询,或在机器人(模拟或真实)世界中将一个块放置在另一个块上的高级指令。

然而,在 20 世纪 80 年代初,当人们清楚地认识到,句法树可以通过使用与短语结构规则一一对应的组合语义规则映射到语义表示时,这种方法比纯程序主义方法更受青睐。在我们之前 3.1 节关于逻辑主义框架内的意义表征的讨论中,我们已经预示了逻辑形式计算的基本要素。在那里,我们看到了针对少量短语结构规则和词汇的示例解释规则。语义规则,例如 NP′ = Det′(N′),清楚地表明了应如何组合低级成分的逻辑形式以产生高级成分的逻辑形式。在下图中,句子“Thetis loves a mortal”是通过将之前的一组词汇和解释规则应用于短语圣诞树的节点,自下而上、从左到右进行解释的:

) 一棵树。父级是 S-prime =

。 NP-prime(VP) = ∃z)mortal(z) ∧ loves(z)(Thetis))。第一个节点是

。NP-prime = Name-prime = λPP(Thetis),其 Name-prime 节点 =

。λPP(Thetis) 包含一个节点 Thetis(粗体)。第二个节点是

。VP-prime = λxNP-prime(λyV-prime(y)(x)) = λx(∃z)mortal(z) ∧

loves(z)(x))),其第一个节点是 V-prime = loves,其包含一个节点

loves(粗体),第二个节点是 NP-prime =

Det-prime(N-prime)λQ(∃z)mortal(z) ∧ Q(z))),其本身包含一个左

。 Def-prime = λP λQ(∃z)P(z) ∧ Q(z))) 的节点有一个 a 节点(在

中以粗体显示),N-prime = mortal 的右节点有一个 mortal 节点

(以粗体显示))

图 4:图 1 解析树的语义解释

解释规则在第 3.1 节中的树节点处重复出现,并显示了应用组合规则(尽可能进行 lambda 转换)的结果。可以看出,Montagovian 将 NPs 作为二阶谓词处理会导致一些复杂情况,而当我们试图考虑量词范围歧义时,这些复杂情况会加剧。我们在第 3.1 节中提到了 Montague 对多重解析的使用、Cooper 存储方法和无范围量词方法来解决这个问题。

(本章完)

相关推荐