计算语言学(八)
这种话语的直接目的是改变听众的精神状态(特别是信仰,欲望和意图),而言语法案理论关注特定类型的语音作用直接或间接影响这种变化(奥斯汀1962; 1968年; Searle 1969)。 为了选择言语的行为,每个参与者还需要考虑另一个人的心理状态; 特别是,每个人都需要认识到另一个人的信仰,欲望和意图。 合作谈话中的话语惯例适用于促进此过程:发言者采用揭示其预期效果的区域,以及他们的致谢和转向巩固相互了解。 在这种方式,达到了混合倡议的对话和潜在的合作领域行动。
在先前对语言生成的内容规划讨论中,我们对此过程中的交际意图的形成毫无疑楚。 但在目的的对话的背景下,必须考虑对话代理人如何到达意图传达某些想法,例如episodic,教学或描述性信息,请求,确认和/或接受请求,一个问题的答案,支持结论等的一个论点
如在生成扩展描述,叙述,参数等的情况下,使用RST,这里的自然观点是围绕目标定向规划的一个。 事实上,这种观点在历史上的应用程序在延长了秘密的申请之前。 特别是,科恩和理由(1979年)提出了代表其先决条件和效应的推理,规划和计划表彰框架,即代表言论行为。 例如,一个简单的Inform语音动作可能具有以下先决条件(从第一人称扬声器的角度来配制可辨证性):
听众(我的对话伙伴)不知道某个命题x是否为真;
听众想要被我告知我是否是真的; 和
我事实上知道x是否为真。
实施通知作为话语的效果是听者知道x是否为真。 这种框架的一个重要特征是它可以考虑间接语音行为(艾伦和遗忘1980)。 例如,作为一周日期或日期的间接请求,可以被视为表明扬声器的认识,因为只有在满足该行为的知识 - 前提时,听者才能执行所请求的信息传达行为。 此外,由于听者认识到质疑潜在行为的前提是请求该法案的一个间接方式,然后(除非上下文提供相反的证据),听众会推断发言者希望听者能够执行信息传达的语音行为。 请注意,推理和规划框架必须允许迭代的方式,例如“我相信你想让我告诉你今天的日期”,或者“我相信(因为我刚刚制作的请求),你知道我希望你把盐摇摇者传给我”。 重要的是,还必须有额外的相互信仰和意图,因此可以作为上下文的一部分保持共同的地面,并且可以发生合作。 如果每个参与者持有这种信念,那么与会者相互相互相互遵守他们相互持有信仰的信念。 可以假设对话中参与者的相互知识包括出言权的公开内容和普通的一般知识,包括话语公约的知识。
由于对话的最终目的可能是在现实世界中完成某件事,而不仅仅是在参与者的头脑中,因此推理、目标导向的规划和行动也需要在领域层面进行。言语行为的目标本身并非目的,而是实现领域中其他目标的手段,这些目标可能通过物理动作(例如设备维修)来实现。因此,面向任务的对话往往以一种遵循或“呼应”领域实体的结构及其有目的地采取行动的方式构建。这些考虑促成了 Grosz 和 Sidner 的任务导向对话结构理论(Grosz and Sidner 1986)。他们的理论围绕着注意力转移的概念,这种转移是通过在堆栈中推送和弹出“焦点空间”来介导的。焦点空间包含所考虑领域操作的结构化表示。例如,设定将某个部件连接到某个设备上的协作目标,就会将相应的焦点空间推送到堆栈上。根据对物理任务的了解,参与者接下来可能会口头承诺使用螺丝刀和一些螺丝来实现目标,而对话的这一部分将通过将相应的子空间推送到焦点堆栈来进行调解。当一个子任务完成时,相应的焦点空间将从堆栈中弹出。
。
推理和规划框架的实现,既涵盖基于计划的对话行为所需的迭代模态,也涵盖任务领域的实际情况,已被证明对于受限领域的受限对话是可行的(例如,Smith 等人,1995),但当语言覆盖范围和话语域范围扩大时,很快就会遇到复杂性障碍。规划通常是NP难的,即使在命题规划形式主义中也是PSPACE完全的(Bylander,1994),并且即使所有可用于实现目标的计划都已预先知道,计划识别也会随着待识别目标的数量呈指数级增长(Geib,2004)。
。
。为了应对这一难题,致力于构建可用系统的研究人员尝试了各种策略。其中一种方法是预先为对话系统配备一个精心设计的层次结构,以适应待处理的对话类型(例如辅导、维修、旅行计划或日程维护),并选择 NLU/NLG 中使用的逻辑词汇,使其与规划运算符以及针对目标领域的表层实现模式顺利衔接。(作为此类方法的一个值得注意的例子,请参阅 Moore & Paris 1993。)通过这种方式,领域和文本的规划以及表层实现变得相对简单,至少与那些试图从头开始合成规划,或对世界、对话者、语境以及在表层层面表达想法的最佳方式进行广泛推理的系统相比是如此。但是,虽然这种方法对于旨在说明计划和意图在专门领域的作用的实验系统来说是完全可行的,但它留下了一个问题,即如何将大量的语言知识和世界知识纳入对话系统,并在规划交流(和其他)行动时进行推理。
。
。实现更接近实用表现的另一种策略是预先编码(并在某种程度上学习)更“被动”(而不是审议)的对话参与方式。反应技术包括(i)公式化的、基于模式的响应(让人想起 ELIZA),这种响应可能是合适的;(ii)基于规则的意图和计划识别;例如,面对省略输入“飞往奥兰多的航班”的自动旅行社通常可以假设用户希望在可能已经确定的时间范围内获得从用户当前城市到奥兰多的航班选项; (iii) 基于概率建模的领域规划统计识别,该概率建模通常用于对实现领域目标所采取的步骤序列进行建模;(iv) 通过将言语行为(或话语行为)和对话状态划分为相对较少的类型,并将对话状态之间的转换视为由当前状态和当前言语行为类型决定的事件,进行话语状态建模。例如,在对话系统没有直接义务的状态下,当用户提出问题时,系统会承担回答问题的义务,并转换到尝试履行该义务的状态。
。
。然而,主要依赖于反应式技术的系统往往缺乏深度理解和行为灵活性。本质上,基于知识的推理和规划被机械行为所取代,而机械行为又受当前话语状态的各种特征和外部观察结果的制约。此外,对于能够自主获得有效的目标导向计划和行为的智能体来说,深思熟虑的推理和计划综合似乎是必要的。虽然随机试错法(如强化学习)、监督学习和模仿学习也是其他学习选择,但其潜力有限。在语言和常识行为的庞大状态空间中,随机试错法往往不切实际;监督学习(基于语境特征做出适当选择)似乎最多只能引发死记硬背的计划识别和话语状态转换(上述(iii)和(iv)类型的反应行为);而模仿只有在向学习者呈现相关的、易于观察的示范行为时才有可能——而且模仿本身只会导致死记硬背的行为,而非理性的行为。
。
。未来或许可以将反应性方法与深思熟虑的推理和规划相结合,方法是将反应性方法得出的意图和行动视为暂定的,如果时间允许,可以通过更深思熟虑的推理进行验证和可能的修改。通过对相互信任的实现做出更强有力的假设,也可以避免使用迭代模态的过度推理。例如,我们可以假设说话者和听话者都会根据话语事件和共同知识自发地对世界和彼此的心理状态进行前向推理,并且这种前向推理直接成为相互知识(基于“志同道合”的假设),从而简化了许多模态嵌套的推理。
8. 获取语言知识
我们已经注意到,语言理解和使用依赖于大量关于世界、词汇和短语含义以及话语和对话结构和惯例的浅层和深层知识。如果机器要具备语言能力,我们需要将这些知识传授给它们。
理想情况下,机器最初的、预编程的知识应该仅限于那些被认为是人类与生俱来的知识(例如,物体的持久性、运动的连续性、生命和思维的基本模型、语言的普遍性、对世界进行分类/归类的方法、按时间组织事件的方法、从经验中抽象出来的方法,以及其他类似的知识和技能)。其余的知识将以类似人类的方式学习。不幸的是,我们还没有拥有类似人类感官和运动能力的具身智能体,也没有类似人类的先天心智能力;因此,除了机器人进行的最简单的语言学习(例如,对物体或动作进行语言标记,或使用空间介词或双词句)(例如,Fleischman 和 Roy 2005;McClain 和 Levinson 2007;Cour 等人 2008)之外,当前大多数知识获取研究使用(1)手工编码,(2)从文本语料库中提取知识,或(3)众包结合某种方法将收集到的、口头表达的“事实”转换为可用的格式。本节我们将重点介绍支持语言理解和生成所需的一般背景知识的获取,将语言知识获取的讨论留至第 9 节。
。
。8.1 手动知识编码
。最著名的手工创建的常识性知识体系是 Cyc 或 ResearchCyc 知识库(KB)(Lenat 1995)。它包含几十万个概念和数百万个事实和规则的本体,并由推理引擎支持。它已被应用于商业、教育和军事领域的分析、决策支持和其他类型的项目。然而,Cyc 本体和知识库内容主要出于知识工程方面的考虑(通常针对特定项目),而非应用于语言理解,这反映在其严重依赖于以英语单词串联形式表示的非常具体的谓词以及高阶运算符。例如,killing 和 dying 之间的关系使用谓词 lastSubEvents、KillingByOrganism-Unique 和 Dying 来表示,并且依赖于可以扩展为量化条件语句的高阶关系 relationshipAllExists。这种与语言的疏离感使得 Cyc KB 很难应用于语言理解,特别是如果目标是从该 KB 中提取相关概念和公理,并将它们与以更面向语言的表示形式化的概念和公理相结合(而不是全面采用 CycL 语言、Cyc KB、关于英语的公理和推理机制)(例如,Conesa 等人,2010 年)。
手写的知识库的其他示例是组件库(CLIB)(Barker等,2001),以及Hobbs和Gordon(2005)的勤杂战心理公理的集合。 CLIB提供数百个概念的广泛的上部(即,高级)本体,以及关于基本动作的公理(传送,进入,打破等)和结果变化。 但是,CLIB中使用的基于帧的KLEO知识表示不接近语言,并且英语词汇的覆盖范围是稀疏的。 霍布斯和戈登的心理公理在焦点(记忆,信仰,计划和目标)中自然狭窄,并且仍然可以看出它们是否可以与语言推导的逻辑形式(“扁平”类型有效地使用Hobbs而有效地使用)对于话语背景推断。
例如,从半形式化源的知识适应可以由提取言语和子类别信息以及来自适当词典的股票短语和习语组成。 它还可能涉及映射的HyperNym层次结构,MonyonMs(零件)或反义词,如WordNet这样的源代码,进入某些可用于消歧和推理的形式。 手动编码的词汇知识的主要局限性是在语言直觉上的基础,而无需直接考虑其在语言理解中的作用,以及鉴于无与伦比的词汇,术语和表达式的表达方式所有生物语言。
除了这些词汇知识的来源外,还有世界知识的来源,如半形式化形式,如各种各样的列表和宪公,以及在线知识资源(如Wikipedia)(例如,参赛作品)值得注意的人物包含一个具有摘要属性的框,例如出生日期,死亡日期,居住日,公民身份,种族,努力,奖项和其他领域)。 但是,在这种消息来源提供了在团制中提供知识,因此易于收集的形式,它们只针对命名实体(如人,组织,地点和电影)和一些实体类型(如生物物种和化学化合物)。 此外,我们对普通概念的许多知识,例如树的普通概念或驾驶汽车的知识,不容易以属性值对的形式捕获,并且通常不能以该形式提供。
8.2知识提取文本
近年来,无约束文本的知识提取被称为通过阅读的学习。 提取方法可以是直接的或间接的。 直接方法从某种可靠的源中获取信息势信息,例如WickNet中的WordNet中的字感或百核百科的百科百科的描述和叙述文本,并将这些信息映射到表达通用知识的(更多)正式语法中。 间接方法摘要(或多或少)来自杂项报告,故事,散文,博客等语言模式的正式通用知识。
通过直接方法可靠地提取知识需要相对深入的语言理解,因此远离成熟技术。 IDE和Véronis(1994)对从字典定义中获取知识的早期工作,以及该企业面临的困难。 对于以这种方式获得的大部分知识,迄今为止的数量低或质量(从推理角度来看)。 最近的工作表明承诺是摩尔多瓦和罗斯(2001年)的工作,旨在解释名义神器概念的Wordnet光泽,以及Allen等人。 (2013),旨在通过解释他们的Wordnet光泽来形成相关动词的小簇的逻辑理论(例如,睡觉,睡觉,醒来等)。
最近二十年的文本中最受欢迎的知识提取方法一直是间接的方法,从Marti听到据称的纸张开始,通过使用词典提取模式(听力1992年)。 例如,寻找由“例如”或“和其他”分开的名词短语的提取模式将与“海鸟等企鹅和信天磁带”或“豆类,坚果等豆类”的词序列匹配,导致假设那只海鸟是企鹅和信天翁的高血清,豆子和坚果是豆类的假魔。 通过查找近距离接近的已知的下透明的Hypernym对,赫斯特能够展开初始的提取模式集,从而展示一组假设。 从那时起,已经开发了许多变体,其改进如自动启动和模式发现方法,通常具有机器学习技术,其应用于感兴趣的relata附近的局部特征的选择,加权和局部特征的组合。 已经针对语言理解有关的Symonymy以外的关系包括部分关系,因果关系和电视关系(例如牛奶的使用是饮用它)。
虽然使用赫斯特样图案的知识提取狭窄地针对某些预定类型的知识,但其他方法旨在开放信息提取(OIE)。 这些寻求发现广泛的关系知识,在某些情况下包括不同关系之间存在的意外(在一个相当松散的意义上)。 这种类型的早期和相当成功的系统是Lin和Pantel的污垢系统(从文本中发现推理规则),它使用了搭配统计来构建“推理规则”的数据库(Lin和Pantel 2001)。 规则的一个例子可能是“x找到y≈x解决y”的解决方案 使用的统计技术包括基于它们在同一动词的相同参数位置发生的趋势,并找到类似的关系短语(例如“找到”和“解决”),基于它们的连接相同的趋势,因此或类似的,重组的名义。 许多规则稍后通过向变量添加类型约束来改进,通过Wordnet从特定名称从特定的标称值抽象(Pantel等,2007)获得。
Textrunner System(Banko等人2007)示出了设计用于最大速度的OIE的方法。 Textrunner是基于提取模式的,而不是采用调整到少数选定关系的模式,它使用一系列模式从语法解析的训练语料库中自动获得,通过贝叶斯机器学习方法加权,以提取逐句句子的杂项关系来自文字。 一种相当不同的方法,被称为“开放知识提取”(oke),从解析的句子中得出逻辑形式,并简化和摘要这些方法,以便他们倾向于反映世界的一般性。 这是针对Knext系统(来自文本的知识提取)(例如,Schubert和Tong 2003)。 例如,句子“我读了一个非常有信息的关于中国”的书,允许Knext到抽象的“因子”的影响,这是一个人偶尔读一本书的效果,那本书可能偶尔会有信息丰富的,并且可能偶尔会有一个国家。 (请注意,对扬声器和中国的具体提及已经抽象为课程。)另一个有趣的发展是通过成员方法从大公司的脚本状序列的提取(参见房间和Jurafsky 2009)。 例如,有关逮捕和起诉犯罪分子的众多新闻司令部可以挖掘摘要涉及的典型事件类型,按时间顺序排列,如逮捕,提案,辩护,审判等等。 所有这项工作的困难是,所获得的大多数知识都太模糊和不完整地制定了推理链接的基础(但是参见例如Van Durme等,2009; Gordon和Schubert 2010; Schoenmackers等。2010)。
8.3众包
收购一般知识的众群方法包括从大量网络用户征求口头表达的信息,或注释这些信息,有时使用小型财务奖励或参加简单游戏作为诱惑的挑战(Havasi等人。2007;冯艾恩2006)。 对于简单的注释/分类任务,众包已经证明了非常可靠(例如,Snow等,2008; Hoffmann等,2009)。 然而,非专家用户提供的一般知识通常比词典中的百科全书或字感彩色更少地仔细制定,并且如果要抽象正式陈述,仍需要自然语言处理。 尽管如此,开放思维常识项目已经基于全球贡献者的简单英语陈述,产生了一个非正式的致商知识(ConceptNet)的关系网络,这证明了改善语音识别和其他领域的解释(Lieberman等,2004; FAABORG等人。2005)。
出现的整体情况是,语言知识的大规模资源,无论是词汇还是世界,仍然太稀疏,允许窄幅域Nlu和对话系统扩大到广泛的覆盖理解。 但是,这些知识预计最终会在一般语言理解中证明至关重要,因此获取这种普遍知识的追求仍然是积极的。
9.统计NLP
“你听到的所有数千次听到条款 - 最终辅助动词无可争议地加强他们不允许收缩的可能性。” -geoff pullum(2011)
我们已经提到了各种计算任务中使用的杂项统计模型和技术,例如POS标记中的(第2节)HMMS,概率语法建模和解析,统计语义,语义歧义(Word感官,量化范围等),计划识别,话语建模和文本提取。 在这里,我们试图提供统计NLP中所处理的任务类型的简要,但稍微更系统的分类,以及近年来最常用的统计NLP的建模技术和算法的某些感觉,挑战传统的计算语言学观。
这种传统的观点侧重于导出意义,并依靠假设这种衍生中使用的句法,语义,务实和世界知识是“清脆”而不是概率的; 即,语言的分布属性仅仅是语言通信的副产品,而不是语言理解,使用甚至学习的基本因素。 因此,在这种观点中,强调是在制定非手术句法,语义,务实和KR理论上,以便在语言理解和使用中部署。 当然,歧义的问题一直是建立解析器和语言理解系统的局部问题,但普遍的假设是通过补充具有表达句法和语义的一些仔细制定的启发式的解释程序来实现模糊的解决方案偏好。
然而,经验透露,困扰所需映射的歧义太多,微妙,并且相互关联,以适应启发式仲裁。 相反,语言现象需要被视为有效的随机性,并且需要系统地利用这些随机过程产生的分布性能,以获得关于底层结构的合理可靠的假设。 (上面的Geoff Pullum Quote与这一点是相关的:承认我的第一个发生的侵犯了我在“我宁愿为我是谁讨厌,而不是因为我不是”而不是“而不是”任何语法原则都不容易归因于任何语法原则然而,基于积极的证据,成为我们英语使用知识的一部分。)因此,重点在于将NLP视为在随机设置中不确定的推断和学习问题。