计算语言学(十)
最早、最简单的翻译方法是基于词的。它基于以下模型,即如何从英语句子 e(如果目标语言是英语,我们希望恢复该句子)生成外语句子 f(例如法语句子):首先,根据某种简单的英语模型(例如基于二元语法频率的模型)生成 e。然后假设 e 中的单个单词以一定的概率生成 f 中的单个单词,允许任意的词序混乱(或以某种方式存在偏差)。在学习这种模型时,可以从平行的英法语料库中估计可能的对应关系和单词翻译概率,这些语料库的句子和单词已经通过手动或统计技术进行了对齐。然后,该模型可用于通过贝叶斯推理将给定的法语句子 f“解码”为英语句子 e——给定法语“编码”为 f,我们推导出具有最高后验概率的英语句子 e。这可以通过动态规划算法实现,并可能使用一个中间阶段,其中计算 e 的 n 个最佳选择(对于某个预先确定的 n),然后使用生成模型忽略的 e 和 f 的特征对其进行有区别的重新排序。
。
。然而,流行的 SMT 系统(例如谷歌翻译或雅虎!Babel Fish)是基于短语而不是基于单词的。这里的“短语”是指倾向于彼此相邻出现的单个单词或词组。其思想是将短语映射到短语,例如,将英语单词对 red wine 映射到法语短语 vin rouge、du vin rouge 或 le vin rouge。此外,与假设任意词序混乱不同,基于短语的方法使用重排序模型。根据该模型,在翻译过程中,给定的短语可能倾向于与左右相邻的短语交换位置,或与相邻短语发生位移。此外,与基于词的方法直接依赖贝叶斯模型不同,基于短语的方法通常使用对数线性模型,该模型不仅允许结合反映语言模型(例如三元组频率)、短语翻译模型(例如短语翻译频率)和重排序模型的特征,还允许结合其他特征,例如创建的单词数量、使用的短语翻译数量以及短语重排序的次数(位移越大,惩罚越大)。
。
。虽然基于短语的 SMT 模型已经相当成功,但它们仍然容易产生句法不流畅或语义奇怪的翻译,最近的许多研究都试图利用语言结构和意义模式来提高翻译质量。句法迁移的两种主要方法是基于短语的分层翻译和树到字符串 (TTS) 转换模型。基于短语的分层方法使用同步语法规则,这些规则同时扩展两种语言中对应句子的部分派生。这些规则是从对齐的语料库中自动导出的,最低的层级对应于短语到短语的翻译规则,类似于普通的基于短语的翻译规则。虽然这种方法相当成功,但它几乎不能保证生成的同步语法中的“短语”在语言学意义上是语义连贯的单位。TTS 模型通过使用在短语括号文本语料库(树库)上训练的解析器来获得更好的连贯性。将英语句子编码成法语(与我们之前假设的语言对保持一致)的概念是从一个已解析的英语句子开始,然后根据(学习到的)规则对其进行转换,这些规则逐步扩展原始或部分转换的短语和单词模式,直到所有叶子节点都变成法语单词。
。除了机器翻译之外,另一种重要的句子转换类型是语义解析,即将某个领域的句子映射到可用于问答的逻辑形式。(需要注意的是,上文讨论的语义角色标注也可以被视为迈向语义解析的一步。)这一相对较新的领域的一些研究采用了监督学习,基于标注有逻辑角色(LF)的训练语料库(例如,Mooney 2007;Zettlemoyer & Collins 2007),或者可能基于带有逻辑角色(LF)的句法树(例如,Ge and Mooney 2009)。典型领域包括地理问答(其中逻辑角色是数据库查询)、机器人足球问答或旅行预订问答。即使是无监督学习,也已被证明可以在一些特定领域实现,例如基于医学摘要的问答(Poon and Domingos 2009)或旅行预订领域(Poon 2013)。本研究的思路包括:像 Lin 和 Pantel 的 DIRT 系统一样,构建名词性术语和动词关系的同义词聚类,并为这些概念和关系创建逻辑名称(反映其词源);以及学习(通过马尔可夫逻辑,马尔可夫网络的泛化)基于旅行预订对话语料库(其中已知旅行社答案所需的数据位于数据库中)使用数据库实体、类型和关系注释依存分析树的节点。此类方法能否推广到限制较少的领域和语言形式还有待观察。最近创建的带有“抽象意义表示”注释的通用语料库 AMR 可能会促进该方向的进展(Banarescu 等人,2013)。
。
。本节中涉及的主题技术上比较复杂,因此我们的讨论必然比较肤浅。统计语言处理的一般参考文献是 Manning 和 Schütze 1999 以及 Jurafsky 和 Martin 2009。此外,统计 NLP 社区还为研究人员开发了非常全面的工具包,例如 MALLET(语言机器学习工具包),其中包含许多技术的简要说明。
。
。机器实现类似人类的语言学习的前景如何?人们越来越认识到,统计学习必须与世界的感知和概念建模联系起来。扎根语言学习领域的最新研究正朝着这个方向发展。例如,Kim 和 Mooney(2012)描述了使用句子与基于图的动作和上下文描述配对的方法,以假设 PCFG 规则将 NL 指令解析为动作表示,同时使用内外算法学习规则概率。然而,他们假设的领域非常有限,问题仍然是,感知、概念形成以及语义和情景记忆的建模需要在多大程度上支持不受限制的语言学习。就像机器获取世界知识的情况一样(见上一节),建模能力可能需要达到与新生儿相当的水平,能够用符号和图像语言对感知和想法进行编码,对实体类型进行分类,识别生命力和意向性,组织和抽象空间关系和事件的因果链等等。提供这样的能力,除了需要我们对认知架构理解的进步之外,还需要解决有关语言、语义和世界知识的表示和使用的问题,而这些问题一直是计算语言学的传统关注点。
...
10. 应用
。如开篇所述,计算语言学技术的应用范围很广,从对语言结构和含义依赖程度最低的应用(如文档检索和聚类),到在理解和使用语言方面达到一定能力的应用(如在个人日程安排、航班预订或服务台等特定领域提供帮助和信息的对话代理,以及智能辅导系统)。下面我们将列举其中一些应用。在一些情况下(尤其是机器翻译),我们已经提供了相当多的细节,但这里的目的是提供对最新技术的鸟瞰图,而不是技术阐释。
。
。随着普适计算的出现,对 NLP 应用进行系统分类变得越来越困难:基于关键字的文档(或片段)检索和数据库访问被集成到一些对话代理和许多基于语音的服务中;动画对话代理在辅导系统和游戏中与用户交互;聊天机器人技术被整合到各种有用或有趣的代理中作为后端;语言机器人虽然在视觉和动作与语言的结合方面独树一帜,但也正逐渐具备网络访问、问答能力、教程功能,并且毫无疑问最终会具备协作解决问题的能力。因此,接下来小节中的应用类别并非相互排斥,而是在实践中更加交织在一起。
。
。10.1 机器翻译(再次)
。最古老的机器翻译系统之一是 SYSTRAN,它是从 20 世纪 60 年代开始作为基于规则的系统开发的,并已被美国和欧洲政府机构广泛使用,也在 Yahoo! Babel Fish 和(直到 2007 年)谷歌翻译中使用。2010 年,它与统计机器翻译技术相结合。如前所述,谷歌翻译目前使用基于短语的机器翻译,英语是大多数语言对的中间语。微软的必应翻译将依存结构分析与统计机器翻译结合起来。其他非常全面的翻译系统包括 Asia Online 和 WorldLingo。此外,也存在许多针对小语种群体的系统,例如用于旁遮普语和印地语之间翻译的 Direct MT 系统,或用于几种欧洲语言之间翻译的系统(例如 OpenLogos、IdiomaX 和 GramTrans)。
翻译仍然容易出错,但其质量通常足以让读者掌握原文内容的大致意思。在许多情况下,例如国际网页浏览(几十年来机器翻译研究中几乎没有预见到这种应用),可能只需要掌握基本内容即可。此外,旨在帮助国际旅行者的手持设备上的机器翻译应用程序,对于某些特定用途(例如询问方向或紧急求助、与交通人员互动、购物或预订)来说,已经足够准确。当需要高质量的翻译时,可以使用自动化方法辅助人工翻译,但一些细微的问题仍然可能占用译员大量的时间。
10.2 文档检索和聚类应用
信息检索长期以来一直是信息科学的核心主题,涵盖结构化数据(例如关系数据库中的数据)和非结构化文本文档(例如,Salton,1989)的检索。这两类数据的检索标准并非毫无关联,因为结构化数据和非结构化数据通常都需要基于内容的检索。例如,员工数据库的用户有时可能希望通过员工的唯一姓名或ID检索员工记录,但有时他们可能希望检索特定职业类别的所有员工,并可能附加其他限制,例如属于某个薪资等级。这可以通过使用“倒排文件”来实现,这些文件本质上是根据实体的属性和值(而不是标识符)来索引实体。同样,文本文档可以通过某些唯一标签进行检索,也可以根据其与特定查询或主题标题的相关性进行检索。最简单的相关性概念是文档应该包含查询的术语(单词或短语)。但是,对于文档而言独特的术语应该赋予更高的权重。因此,对于给定的特定查询词,衡量相关性的标准是该词的 tf-idf(词频-逆文档频率)。该值会随着该词在文档中出现的频率而增加(例如,以对数方式增加),但如果该词在整个文档集中出现的频率较高,则其权重会降低。将查询词的 tf-idf 相加即可得出一个简单的文档相关性度量。
。
。该方法的缺点首先是,如果每个词在文档集中普遍出现,它会低估词的共现率(例如,对于查询“眼睛的视杆细胞和视锥细胞”,视杆细胞、视锥细胞和眼睛的共现可能很好地表征了相关文档,即使这三个词在非生理环境中都相当常见);其次,相关文档中查询词的出现次数可能很少,但包含许多语义相关的词。一些与文档聚类相关的向量方法可以用来缓解这些缺陷。我们可以使用LSA降低基于术语的向量空间的维数,从而获得一个更小的“概念空间”,在这个空间中,许多倾向于在文档中同时出现的术语将被合并到相同的维度(概念)中。因此,概念的共享,而不是特定术语的共享,成为衡量相关性的基础。
当需要组织大量文档以便于访问主题相关的项目时,文档聚类非常有用,例如在专利说明书、病史或摘要、法律先例或带标题的图像集合中,通常以分层的方式组织。聚类在探索性数据分析中也很有用(例如,在探索未知语言中的标记出现情况时),并且由于其在改进语言模型方面的实用性,它间接支持各种自然语言处理应用,例如,在数据稀疏的情况下,提供用于回退特定词汇的词簇。
聚类广泛应用于其他领域,如生物和医学研究、流行病学、市场研究、购物商品分组和推荐、教育研究、社交网络分析、地质分析等等。
文档检索和聚类通常作为信息提取 (IE) 或文本挖掘的初步步骤,这两个重叠的领域都涉及从文档中提取有用的知识,例如命名实体的主要特征(类别、与其他实体相关的角色、位置、日期等)或特定类型事件的主要特征,或推断关系术语之间的规则相关性(例如,购买一种类型的产品与购买另一种产品相关)。
我们不会尝试全面调查 IE/文本挖掘应用,但接下来的两个小节,关于摘要和情感分析,是这里特别感兴趣的子领域,因为它们强调文本的语义内容。
10.3 知识提取和摘要
。鉴于新闻媒体、各类组织和个人发布的文件数量激增,从非结构化文本中提取知识或生成摘要变得越来越重要。这种源源不断的信息流使我们难以概览与某些特定目的相关的项目,例如有关个人、组织和消费品的基本数据,或事故、地震、犯罪、公司收购、产品维护和维修活动、医学研究结果等的详细信息。
。
。知识提取和某些类型的“死记硬背”摘要中常用的一种方法是使用提取模式;这些模式旨在与作者通常用来表达感兴趣信息的传统语言模式相匹配。例如,可以通过输入已知的公司名称和术语(例如“Corp.”、“.com”、“总部设在”和“年收入”)以及词性和依存关系,并从文本语料库或新闻专线中挖掘公司信息,并将正则表达式模式与包含关键短语或位于关键短语附近的本地文本段进行匹配。再例如,地震报告摘要可以提取预期信息,例如地震的震中、里氏震级、事件的时间和持续时间、受影响的人口中心、死亡人数、受伤人数和财产损失程度、火灾和海啸等后果。提取模式通常可以被认为是针对预定属性值框架中的特定属性(例如,公司信息框架或地震事实框架),并且填充的框架本身可以被视为摘要,或者可以用来生成自然语言摘要。早期此类系统包括FRUMP(DeJong 1982)和JASPER(Andersen et al. 1992)。在数百种更现代的提取系统中,SRI的“Fastus”(Hobbs et al. 1997)在比赛中尤为成功。
请注意,基于模式的系统是被视为知识提取系统还是摘要系统取决于它所应用的文本。如果所有感兴趣的信息都捆绑在一个扩展的文本段中(例如地震报告的情况),那么提取的知识就可以看作是该段的摘要。相反,如果信息是从散布在大型文本集合中的杂乱句子中选择性地提取的,而忽略大多数与提取目的无关的材料,那么我们会将系统活动视为信息提取而不是摘要。
。
。当要摘要的文档不能假定为属于某个可预测的类别,并且内容的结构和表达方式具有刻板印象时,摘要通常通过从文档中选择和组合“中心句”来执行。一个句子的中心意义在于,文档中许多其他句子与其相似,这种相似性体现在共享词内容或一些更复杂的相似性度量上,例如基于词项的tf-idf度量,或降维向量空间中的余弦度量(因此,这就像我们将单个句子视为文档,并找出与其余句子“相关性”最高的几个句子)。然而,仅仅返回一系列中心句子通常无法得到充分的摘要。例如,这类句子可能包含未解析的代词或其他指称表达,其指称对象可能需要在非中心句子中寻找。此外,中心“句子”实际上可能是嵌入在包含不重要补充信息的长句子中的小句。需要运用启发式技术来识别和剔除多余的内容,并将提取出的小句流畅连贯地组合在一起。在其他情况下,复杂的描述应该用更简单、更抽象的方式进行解释。例如,“龙卷风卷走了当地农舍的屋顶,将其墙壁和里面的东西夷为平地”这样的句子,合适的浓缩形式可以是“龙卷风摧毁了当地农舍”。虽然目前的系统已经部分解决了其中一些问题,但要像人类一样进行摘要,需要比目前所能达到的更深层次的理解。该领域的另一个难点(甚至比机器翻译更大)是对摘要的评估。即使是人类的判断也存在很大差异,例如,这取决于评估者对语法缺陷和内容缺陷的敏感度。
。
。10.4 情感分析
。情感分析是指检测文章或博客作者对商业产品、电影、组织、人物、意识形态等的积极或消极态度(或更具体的态度,例如相信或蔑视)。由于其在产品营销和排名、社交网络分析、政治和情报分析、基于写作样本的性格类型或障碍分类等领域的潜在重要性,情感分析已成为应用计算语言学中一个非常活跃的领域。所使用的技术通常基于情感词典(用于对词汇的情感极性进行分类)以及监督式机器学习(应用于已提取词汇和短语特征并手动标记表达对某些主题的积极或消极态度的文本)。有时,可以使用现有数据来提供先验分类信息,而不是手动标记。例如,可以使用博主对消费品或电影的平均评分来学习对属于相同或相似类型的未评分材料进行分类。事实上,情感词汇类别和对比关系可以从这些数据中学习;例如,在有关高、中、低平均评分电影的博客中,经常出现“好电影”、“相当不错的电影”或“糟糕的电影”等短语,这可能表明“好”、“相当不错”和“糟糕”属于从非常积极到非常消极的对比光谱。这样的术语知识反过来可以提高通用情感词典的覆盖率。然而,基于词汇和短语特征的情感分析有明显的局限性,例如对讽刺和反讽的忽视(“这是自《德州电锯杀人狂》以来最微妙、最敏感的电影”),引用与作者相反的观点(“根据广告,Siri 是自 iTunes 以来最伟大的应用程序,但事实上……”),以及缺乏对蕴涵的理解(“你买一条羊毛内衣过冬比买这个要好得多”)。因此,研究人员正尝试将基于知识和语义的分析与基于肤浅的单词和短语的情绪分析相结合。
。
。10.5 聊天机器人和友好的对话代理
。当前的聊天机器人是 Weizenbaum 的 ELIZA 的后代(参见 1.2 节),通常用于娱乐(通常与动画“说话的头”角色一起)或吸引某些“网络公司”网站访问者的兴趣。它们可能配备大型手工制作的脚本(关键字索引的输入-响应模式),使它们能够回答有关公司及其产品的简单查询,并具有回应杂项主题以及交换问候和寒暄的能力。一种不那么恶意的应用是使用聊天机器人伪装成社交网站或互动游戏网站的访问者,目的是从不知情的人类参与者那里索取私人信息,或向他们推荐网站或产品。因此,许多社交网站也加入了其他针对机器人的网站的行列,使用验证码来阻止机器人登录。
。
迄今为止,友善对话代理(也称为关系代理)在很大程度上依赖于聊天机器人技术,即编写输入模式并输出相应的结果。但其目标是超越这些技术,创造出具有个性特征、能够表达情感和同理心的代理(通常带有会说话的头像或其他动画角色);它们应该具备语义记忆和情景记忆,能够长期了解用户并为用户提供服务。除了陪伴和支持之外,这些服务可能还包括:提供生活、健康和健身方面的建议、日程安排、提醒、问答、辅导(例如语言辅导)、游戏和互联网服务。Yorick Wilks 认为,理想情况下,这些角色应该类似于“维多利亚时代的同伴”,具有礼貌、谨慎、谦虚、开朗和博学等特征(Wilks 2010)。
。
。然而,由于语音识别、语言理解、推理和学习技术远未成熟,这些目标远未实现。值得一提的是,Pulman 等人(2010)的 HWYD(“How Was Your Day”)系统,该系统在自主代理会议上获得了最佳演示奖。该系统的自然语言处理相对复杂。浅层句法和语义处理用于查找大约 30 个“事件模板”的实例,例如“X 和 Y 之间在工作中争论”或“与 X 就 Y 会面”的实例。解释过程包括指称和省略号解析,依赖于对话管理器维护的信息状态表示。对话管理器生成的目标通过规划引导响应,规划涉及响应范式的实例化和排序。作者报告称,该系统能够维持超过 20 分钟的一致对话。