计算语言学(五)
(1991)认为,展示了要执行认知有趣的任务的连接主义模型的能力破坏了作为物理符号系统的思想的当时普遍的观点。 但其他人继续捍卫象征性处理的基本作用。 例如,安德森(1983年,1993)争辩说,虽然象征性思想的理论需要在神经可符号的加工中接地,但虽然次锁过程非常适合利用环境的统计结构,但是理解互动这些次锁定过程需要在符号级别的表示理论和行为。
在神经网络中表示的话语的语义含量是什么意思,例如,推论问题回答? 反参示人士(或“消除主义者”)视图是,没有特别的结构可以或需要被识别为编码语义内容。 输入修改网络的活动和以分布式方式的各种连接的强度,使得网络的后续行为有效地实现了推崇问题应答。 但是,这叶完全打开网络如何学习这种行为。 最成功的神经网络实验已经旨在将输入模式映射到类标签或其他非常受限制的输出集,并且它们需要许多标记的示例(例如,与所描绘的对象的类别标记的数千个图像,以学习其任务。 相比之下,人类Excel在“单次”学习中,可以根据这样的学习执行复杂的任务。
通过Smolensky(1988)提出了一种较少的消除主义者位置的替代替代因素,使得亚微门假设提出,以便在符号操纵方面无法完全准确地描述精神处理,而是要求在水平下描述亚闭曲面特征,其中这些功能以网络中的分布式方式表示。 这样的视图并不排除连接主义系统中的单位组件的可能性实际上编码符号和更复杂的实体,例如符号,例如预测和规则。 它只是否认这些组件所选择的行为可以被充分建模为符号操作。 事实上,过去两年或三十年的大部分神经网络研究都试图了解神经网络如何编码符号信息(例如,见Smolensky等人。1992; Browne和Sun 2001)。
分布式方案将一组单位及其激活状态相关联,具有特定的符号或值。 例如,费尔德曼(2006)提出了概念由一群神经元的活性表示; 代表概念,角色和填充物(值)的这种聚类的三元组通过三角节点连接在一起以表示对象的简单属性。 语言理解被视为一种模拟,以便将语言映射到更具体的物理行为或体验领域,以时间贝叶斯网络的形式引导。
全局计划以所有单位的重叠方式编码符号。 一种可能的全局方案是查看单位的激活状态,每个单元生成-1和1之间的实际值,因为命题:状态p需要状态q如果状态q中每个单元I的激活qi满足pi,则p至少与q的特定于q)≤qi≤0,或qi = 0,或0≤qi≤pi,具体取决于状态p中该单元的激活pi是否分别为负,零或正。 然后可以根据这些状态解释命题符号,并且在简单的MAX-MIN操作方面的真实函数和在网络状态上执行的符号逆转。 (参见Blutner,2004;然而,Bluter最终专注于一个地方的局部方案,其中单位代表原子命题和连接代表Biconditionals。)全息神经网络方案(例如,Manger等,1994;板块2003)可以也被视为全球; 在最简单的情况下,这些使用一个“巨型神经元”,该“巨型神经元”将其组件由复值矩阵复杂的矩阵乘以一个“巨大的神经元”; 由阳极坐标写入Reiθ的所得复值输出向量的组件,通过θ的值提供通过θ的值和置信水平的分类。 这种网络的独特特征是它们能够对部分或嘈杂输入进行分类或重建模式。
次锁假设的地位仍然是辩论和进一步研究的问题。 当然,目前尚不清楚象征方法如何匹配神经网络方法的某些特征,例如他们在面对错误或遗漏时应对新的实例和他们的优雅降级的能力。 另一方面,已经显示了一些用于存储知识和执行推断的神经网络架构(或设计)与“软逻辑”(例如模糊逻辑)密切相关(例如,Kasabov 1996; Kecman 2001)或“重量注释”Poole Systems“(Blutner 2004),暗示了认知神经网络模型的可能性最终可能是这种软逻辑的实现。 研究人员更关注的实际进步而不是生物合理的建模,也探讨了杂交符号和亚微通方法的可能性,以获得(例如Sun 2001)的优势。 这是一个相当正式的例子,通过DOV Gabbay绘制的想法是D'Avila Garcez(2004)。
最后,我们应该评论一些认知科学文献中表达的观点,即语言的心理表达主要是想象的(例如,Damasio 1994; Humphrey 1992)。 当然,心理图像的现实和意义有充分的证据(Johnson-Laird 1983; Kosslyn 1994)。 由于Poincaré(1913)和Hadamard(1945年),也似乎似乎依靠可视化的似乎依赖于可视化。 但是,正如以前所说,象征性和想象的表示可能会很好地共存和交互。 此外,详细探索人类语言教师的认知科学家,如史蒂文粉红色(1994年,2007年)或上面引用的任何代表性或联系人研究人员,似乎都达到了来自语言的内容(以及思想本身的东西)大部分符号 - 除非在消除否认表示的情况下。 然而,不难看出,原始直觉可能导致含义 - 图像假设。 似乎生动的意识主要与视觉皮层,尤其是区域V1相关联,这也是心理图像(例如,BAARS 1997:第6章)。 因此,它完全有可能没有注意到语言的大量非想象语编码和处理,而任何诱发的想象艺术品都会成为我们有意识的经历的一部分。 此外,通过给定的句子唤起什么样的图像的识别行为,如果有的话,可以促进图像的构建和其意识。
3.3统计语义
在最广泛的意义上,统计语义涉及由其在大型文本语料库中的分布特征的单词,短语,句子和文本的语义属性。 例如,可以在语义上认为如开朗,旺盛和凹陷的术语,其倾向于在附近的相同(或反过来类似)的相同(或反过来类似)。 (例如某些目的,例如信息检索,识别文件标签可以用作发生的上下文。)通过仔细区分,各种发生环境中,也可以将相似性与同义词,entailment和反义词等更具体的关系。 (标准)基于分布相似性的关系之间的一个基本差异是后者是一个程度的问题。 此外,潜在的抽象是非常不同的,因为统计语义没有将字符串与世界相关联,而只是对他们的发生的背景(类似于,而不是比,而不是较窄的概念,而且较窄的概念。 但是,统计语义确实承认优雅的形式化。 通过将表达的发生频率视为矢量的组件的值,可以通过对应于载体的组件的值,与对应的不同情况相对应的组件来捕获各种相似性和其他语义关系的各种相似概念。 通过这种方式,一个基于矢量空间中的指标和运算符到达语义的概念,其中矢量运营商可以以各种方式模拟布尔运算符(Gärdenfors2000; Widdows 2004; Clarke 2012)。
但这是如何涉及自然语言句子和文本的意义表示? 从本质上讲,统计语义中的句子的代表包括自己的句子。 句子可以直接与分布知识直接使用的想法,因为有推论的对象是一个相当近期和令人惊讶的,尽管它是基于大型文本语料库的多年的问题回答。 由于最近的努力设计了基于统计的算法来确定文本意外的努力,该想法已经获得了牵引,这是一系列识别2005年发起的一系列识别文本征征(RTE)挑战的一系列程序,由Pascal网络组织卓越,最近由国家标准与技术研究所(NIST)。 识别文本征征需要判断一个给定的语言字符串是否需要第二个,这是一个符合人类直觉的判断,这是一个关于一个人自然地推断的人(依赖关于词汇意义的知识,诸如任何人的一般知识为公司的分支机构工作也适用于该公司,偶尔着名的具体事实)。 例如,“约翰是一名流利的法语演讲者”文本需要“约翰讲”法国“,而”法国的美食首都是利昂“并不需要”法国首都是利昂“。 一些例子是中间的; 例如,“约翰出生在法国”被认为提高了约翰讲法语的概率,而不完全诱惑它(Glickman和Dagan 2005)。 年度竞争中的初始结果差(远远超过随机猜测标记),但稳步改善,特别是在基于本体的一些推理,以及一些关于单词,词类,关系和短语模式的一些通用公理的推理(例如,De Salvo Braz等人。2005)。
值得注意的是,句子的概念作为意义表征的概念回应了蒙特拉的争论,即语言是逻辑。 当然,Montague将“句子”理解为明确的句法树木。 但是在达坎等人的工作中举例说明,文本征必率的研究似乎正在朝着类似的概念迈进。 (2008年),统计着名关系基于句法树木,这些都是通过键入的变量替代子树的模板。 Clarke(2012)还提出了一个非常一般的统计语义的矢量代数框架,其中“句子的”上下文“可能包括(多个)解析甚至(多个)符号的逻辑表格,以及可以合成的统计句致盲含义他们的适当部分。 在该框架中限制素食程度的一种方法是涉及所谓的假设的每个可能逻辑形式的所谓逻辑形式的蕴涵概率。
3.4在实践中哪种语义?
调查了三个相当不同品牌的语义,我们留下了哪些品牌在计算语言惯例中提供的问题。 从上面所说的话应该是清楚的,即语义“工具”的选择将取决于从业者的计算目标。 例如,如果目标是为电路故障诊断,应急响应,医疗概况或假期计划创建基于对话的问题解决系统,那么基于对话,潜在意图和相关的逻辑(或至少符号)表示的方法制约因素和知识目前唯一可行的选择。 在这里,符号表示是否基于一些预定的语言逻辑语义或某些心理代表理论 - 只要它们是可以被推理的表示来说,是不太重要的。 对这些目的的含义的鉴别和统计表示的最重要的限制是它们非常有限的推论和响应能力。 它们提供分类或单次推理,而不是推理链,而且他们不会产生计划,理由或扩展语言反应。 然而,神经网络技术和统计技术都可以有助于改善对话系统中的语义处理,例如通过消除字感,或识别在观察到的话语或行动的基础上提出或遵循哪些标准计划中的哪个。
另一方面,如果计算目标是在具有某种形式的语言相关行为的生物学卓越(或生物学有效的!)模型中展示人类的性能,例如学习正确地应用单词以感知对象或关系,或学习判断概念相似性,或者为了评估话语段的基调(底层情绪),那么符号表示不需要在计算建模中发挥任何作用。 (但是,在语言象征性的程度上,并且是一种认知现象,亚马察理论必须最终解释语言如何才能发生。)在统计语义的情况下,基于大型文本资源的问答等实际应用,文件与查询或机器翻译有关,目前与尝试完全理解其面对的查询或文本的逻辑系统以及他们带来任务的知识的逻辑系统。 但是,一些趋势在尝试与象征性的统计和统计表示中指出的一些趋势表明正在发生各种方法的逐渐收敛。
4.语义解释
4.1映射句法树到逻辑表格
对于接下来的几段,我们将采取语义解释,以引用从单词流中获取意义表示的过程,以获得先前或并发解析阶段的操作。 换句话说,我们正在将句法树映射到逻辑形式(或者无论您的含义表示如何)。 因此,与分配外部表示到符号的意义上的解释不同,这是一种“句法语义”(RapaPort 1995)的形式。
在程序主义范例的鼎盛时期,通常用规则组成的语义解释,这些规则将模式与句法树的部分匹配并添加到或以其他方式修改输入句子的语义表示。 完成的表示可以表达要记住的事实,或者自己自己可以是可执行的命令,例如对数据库或高级指令的正式查询,或者在机器人(模拟或真实)世界中另一个块放置一个块。
然而,当在20世纪80年代初开始清楚时,通过使用与短语结构规则以一对一的方式相关的组成语义规则,可以将句法树映射到语义表示,这种方法逐渐受到纯粹的程序主义派对。 在3.1节中的早期讨论中,逻辑学家框架内的意义表示,我们已经预先预示了逻辑表单计算的必要性。 在那里,我们看到了少数短语结构规则和词汇表的示例解释规则。 语义规则,例如NP'= DET'(N'),清楚地表明应该如何结合逻辑形式的逻辑形式,以产生更高级别的成分。 在下图中,通过将早期的词汇和解释规则应用于自下而上的左右扫描的短语结构树的节点,将句子“Thetis喜欢致命”被解释为“Thetis喜欢致命”
[一棵树。 父母是s-prime =
np-prime(vp)=∃z[凡人(z)∧爱(z)(z)]。 第一个节点是
np-prime = name-prime =λpp(thetis)与名称 - prime =的节点
λpp(thetis),具有节点Thetis(以粗体)。 第二个节点是
vp-prime =λxnp-prime(λyv-prime(y)(x))=λx(∃z[凡人(z)∧
Loves(z)(x)])第一个节点V-Prime = Loves,它具有节点
喜欢(以粗体)和np-prime =的第二个节点
det-prime(n-prime)λq(∃z[凡人(z)∧q(z)])本身具有左侧
def-prime =λpλq的节点(∃z[p(z)∧q(z)]),其具有a的节点(in
粗体)和N-Prime =凡人的正确节点,其具有致命的节点
(以粗体)]
图4:图1的解析树的语义解释
从第3.1节的树节点重复解释规则,以及应用组合规则的结果(有可能的λ转换)。 可以看出,作为二阶谓词的NPS的蒙塔戈维亚治疗导致一些并发症,当我们试图考虑到量词范围歧义时,这些并发症会加剧。 我们提到了Montague在第3.1节中使用了多个解析,Cooper-Storage方法和未提交的量化方法。 在不太定量的方法中,通过动词的关系解释,图4中的叶节点(单词)的相应解释将成为Thetis,λyλx(Loves(x,y),λp<⟨∃p⟩>),凡人和尸体的人将成为喜欢(Thetis,⟨∃mortal⟩),唯一地划分(∃x:凡人(x)喜欢(thetis,x))。 很容易看出,当量化器被带到句子级时,多个未提出的量化器将产生量化顺序的多个置换。 因此,我们将在句子中有多个读数,例如“每个人都喜欢某个女人”。
4.2从属于语法的角色
此时我们应该暂停考虑一些不符合上述非常常见但不普遍采用的语法驱动方法的解释方法。 首先,Schank和他的合作者强调了词汇知识的作用,特别是动词分解中使用的原始行为,以及关于解释过程中的陈规定型行为模式的知识,几乎释放了语法。 例如,开始“John GOT ...”的句子将导致产生PTRANS概念化(因为GO以PTRANS的词汇方式解释),其中John填充了代理角色,并且在预期作为位置解释的短语,作为角色的一部分附加到PTRANS法案。 如果句子然后继续作为“......到餐馆”,期望得到了确认,在这一点上,在这一点上触发了餐厅脚本的实例化,对餐厅中的约翰和其他代理的可能行动序列产生了预期(例如,Schank和Abelson 1977)。 这些想法具有相当大的上诉,并导致了对某些段长故事的机器理解的前所未有的成功。 解释的另一种解释方法,以便将语法下属到语义是雇用域特定的语义语法(棕色和伯顿1975)的方法。 虽然这些类似于无与伦比的语法语法(可能以ATN的方式实施),但它们的成分被选中在所选择的应用程序域中有意义。 例如,电子辅导系统可能采用类别,例如测量,假设或晶体管代替NP,以及故障规范或电压规范而不是VP。 这些方法的重要性在他们认识到知识有力地塑造了对文本和对话的最终解释,即使在存在嘈杂,有缺陷和部分语言投入的情况下也能够理解。 尽管如此,大多数NL了解社区以来,自20世纪70年代以来已将句法解析视为理解过程的一个重要方面,部分原因是这种复杂过程的模块化被认为对可扩展性至关重要,部分原因是诸如卓越的Chomskian。争夺人类句法直觉的争论即使在没有明确的意义的情况下可靠地运作,就像他着名的句子“无色绿色想法疯狂地睡觉”。
统计NLP最近才开始关注可用于推导和问题应答的推导解释(并且如前一小节所指出的,这一领域的一些文献假定NL文本本身可以并应用作推理的基础)。 然而,有一些值得注意的努力来构建统计语义解析器,这些解析器在培训LF引号句子的培训后学会生产LFS,或者在学习被“接地”的问题和答案(或其他交流)上的问题和答案的语料库数据库或其他补充模型。 我们将提及这类工作的例子,并在第8节中评论其前景。
4.3应对语义歧义和缺点
我们早些时候注意到语言在各级句法结构中可能含糊不清,并且即使是语义内容也是如此,即使对于语法明确的单词,短语和句子。 例如,即使作为同一词汇类别的成员,也有多种含义,如银行,恢复和酷等单词; 标称化合物如冰桶,冰雕,橄榄油或婴儿油或婴儿油未指明标称值(如选区或目的)之间的潜在关系。 在句子水平,甚至为一个确定的解析有可能会量词范围的模糊性(“每个人钦佩一个特定的女人”-rosa公园与他的母亲); 习惯性和普通句子往往涉及时间/鸟类歧义(“赛马是(通常)Skittish”)等。
已经提出了许多技术来处理各种语义歧义,从心理上积极的原则,以知识的方法,启发式和统计方法。 心理上动力的原则是Quillian的传播激活模型(前面描述的)和在词感歧义中使用的选择偏好。 例如,在“工作花了五个小时”中可能会消除令人沮丧的时间,因为动词的感觉更喜欢时间补充,并且作业可能会消除任务(而不是说,职业),因为所以概念之间的直接关联链接任务及其时间需求。 基于知识的歧义的例子是基于雕塑可以从固体材料雕刻或构造的知识,或者基于知识的佩戴关系的人的歧义来歧义冰雕塑对本构造的歧义。帽子通常在头上磨损。 (可能首先使用有关通常由名义复合或通过修改的有限类型的关系的启发式缩小可能的含义。)范围消歧的启发式原理包括岛限制(如每一个,最多不能扩大它们的量子超出其本地条款的范围)和不同量子的宽范围趋势(例如,每个都是易于假设比某些更广泛的范围)。 统计方法通常在被认为影响所做选择的模糊的单词或短语附近提取各种特征,然后用已经在注释的文本语料库中训练的分类器进行选择。 所使用的特征可能是附近的语音或语音关系,句法依赖关系,形态特征等的特点。这种技术具有可读性和鲁棒性的优势,但最终将需要补充基于知识的技术。 例如,对比句子对形成诸如的句子对的正确范围