计算语言学(十一)

一些旨在提供临床依据充分的健康咨询的、类型截然不同的系统也正在开发中。例如,(Bickmore et al. 2011) 中描述的系统依赖于广泛且精心设计的形式化模型,该模型将经过临床验证的咨询策略和知识以描述逻辑 (OWL) 和目标导向的任务描述语言进行表达。事实证明,此类系统的表现堪比人类咨询师。然而,尽管对话是由计划驱动的,但它们最终是由脚本化的系统语句与提供给客户的多项选择列表组成的。

因此,同伴系统在处理对话主题、理解语言以及将大量常识带入对话的能力方面仍然受到很大限制,更不用说将这些知识用于推理了。

10.6 虚拟世界、游戏和互动小说

基于文本的冒险(探索)游戏,例如《龙与地下城》、《猎杀狼人》(其原始版本)和《降临》,于 20 世纪 70 年代初期和中期开始开发,通常以文字描述场景和玩家面临的挑战,并允许玩家通过简单的命令行输入来选择可用的操作(例如“打开盒子”、“拿起剑”或“阅读笔记”)。虽然场景描述(通常配有图片)可以非常精细,就像在冒险小说中一样,但玩家可用的输入选项过去和现在基本上都局限于简单的话语,这种话语可以由游戏程序员在发布前测试中预测或收集,并且可以手动准备响应。当然,更灵活地使用自然语言(“用剑击退小精灵!”,“如果我给你金子,你能帮我开门吗?”)将使玩家与游戏世界及其角色之间的互动更加活跃。在20世纪80年代和90年代,基于文本的游戏逐渐衰落,取而代之的是主要基于图形和动画的游戏,尽管多年来,一个在线互动小说社区不断发展,推动了高效的互动小说开发软件的发展。一个备受推崇的程序(在2000年)是艾米莉·肖特(Emily Short)的“Galatea”,它可以与动画雕塑对话。然而,这仍然是一个精心编写的脚本程序,只允许输入能够启发式地映射到各种预编程响应之一。许多此类游戏还使用类似聊天机器人的输入输出响应模式,以便衡量对意外用户输入的鲁棒性。

20 世纪 90 年代及以后最受欢迎的电脑电子游戏是罗宾和兰德·米勒合作的第一人称冒险游戏《神秘岛》(Myst)以及 Maxis Software 的生活模拟游戏《模拟人生》(The Sims)。《神秘岛》虽然依赖于书籍和期刊中的信息,但在很大程度上是非语言的;而《模拟人生》的首席开发者威尔·赖特巧妙地解决了自然语言对话的问题,让“模拟城市”的居民使用“模拟英语”(Simlish)进行交流,这是一种融合了乌克兰语、法语和他加禄语元素的无意义语言。

。商业冒险游戏和视觉小说仍然依赖于脚本对话树——本质上是分支出对话可以预期转向的备选方向,并由类似 ELIZA 的技术支持这些备选方向。各个研究实验室正在开发更复杂的用户与虚拟角色交互方法,例如宾夕法尼亚大学人类建模与仿真中心和南加州大学附属的创意技术研究所。虽然这些场景中的对话仍然基于精心设计的脚本,但对用户口语的解读利用了语音识别、对话管理和推理领域的一系列成熟技术。可以在 IVA(智能虚拟代理)、AIIDE(人工智能和交互式数字娱乐)和 AAMAS(自主代理和多代理系统)等领域追踪正在进行的研究。

10.7 自然语言用户界面

自然语言用户界面主题涵盖了各种各样的自然语言应用,从最低限度依赖理解的基于文本的系统到在基于文本或语音的交互中具有强大理解和推理能力的系统。以下小节简要概述了一系列传统和当前的应用领域。

基于文本的问答

基于文本的问答系统之所以实用,是因为所提出的问题类型可以在问答系统访问的文本语料库中的某个位置找到现成的答案。与几十年前相比,在当今互联网内容蓬勃发展的时代,这已经变得更加可行,尽管问题仍然需要简单明了、基于事实(例如“谁杀了林肯总统?”),而不是需要推理的问题(例如“叶卡捷琳娜大帝生活在哪个世纪?”,更不用说“大约需要多少个 8 英尺 2×4 的木板来建造一个 4 英尺高、15 英尺长的栅栏?”)。

。基于文本的问答从问题分类开始(例如,是非问题、谁的问题、什么问题、何时问题等),然后对已识别的问题类型进行信息检索,然后将搜索范围缩小到段落,最后是可能包含问题答案的句子。连续缩小范围通常采用单词和其他特征匹配,最终采用依赖项和角色匹配,可能还采用有限的文本推理来验证候选答案。例如,文本推理可以使用 WordNet 上位词知识来尝试确定给定的候选答案句子是否支持问题的陈述性版本的真实性。由于所选句子可能包含不相关的材料和首语重复,因此还需要提取相关材料(其中可能还包括支持性上下文)并生成格式良好且合适的答案。Bourne & Hahn (2003) 讨论了 1976 年之前的许多早期基于文本的问答系统。后来的综述(例如 Maybury (2004))倾向于涵盖所有问答方法,但 TREC 会议论文集 (https://trec.nist.gov/) 收录了大量关于基于文本的问答系统的论文。

在开放领域问答中,许多问题与命名实体的属性有关,例如出生日期、出生地、职业以及知名当代和历史人物的其他个人属性,各种公司的地点、所有权和产品,消费品信息,地理信息等等。为了回答这些问题,有必要将相关的事实预先组装成一个大型知识库,使用第 8 节中介绍的知识获取方法。华盛顿大学开发了一些包含大量命名实体事实的系统,将事实存储为文本片段,还有各种系统将收集的事实映射到 RDF(资源描述框架)三元组(参见其他互联网资源中的参考资料)。其中一些系统不仅从开放信息提取和有针对性的关系提取中获取知识,还从维基百科“信息框”和(受控)众包等来源获取知识。这里我们也扩展了问答的概念,因为前面提到的几个系统需要使用关键词或查询模式来检索事实。

。从一般用户的角度来看,鉴于谷歌和其他搜索引擎甚至能够快速回答诸如“哪些欧洲国家是内陆国家?”这样的问题,目前尚不清楚这种构建的知识库能带来多少额外好处。 (输入时不带引号——带引号时,谷歌会使用 True Knowledge 找到最佳答案)或“肯尼迪任命了多少位最高法院法官?”尽管如此,谷歌和微软最近都推出了庞大的“知识图谱”,其中包含数亿个实体之间的数千种关系。目的是为查询词和自然语言问题提供直接答案(而不仅仅是检索到的网页片段),并推断用户的可能意图,例如购买某种类型的商品或服务。

。数据库前端

。从 LUNAR(Woods 等人,1972 年)和 REL(Thompson 等人,1969 年;Thompson 和 Thompson,1975 年)等系统开始,数据库的自然语言前端一直被认为是 NLP 技术的一个有吸引力的应用。其吸引力在于,从关系数据库(或其他统一结构化数据库)检索和操作信息可以假定由现有的数据库查询语言和流程处理。这一特性严格限制了用户可能提出的自然语言问题类型,例如,旨在检索满足给定关系约束的对象或对象元组,或提供有关这些对象的概要或极值属性(最长河流、最低成本等)的问题。由于目标逻辑形式(正式的数据库查询)具有已知的精确语法,并由数据库管理系统自动执行,因此它还大大简化了解释过程和问答系统,只需将计算结果以适当的语言、表格或图形形式显示即可。

。此后,许多系统应运而生,其应用领域涵盖海军舰船数据及其部署(Ladder:Hendrix 等人,1978 年)、土地利用规划(Damerau,1981 年)、地理质量保证(Chat-80:Pereira & Warren,1982 年)、检索保险公司、石油公司、制造商、零售商、银行等公司的记录和产品记录(Intellect:Harris,1984 年)、汇编公司客户、服务、资产等方面的统计数据(Cercone 等人,1993 年)等等(例如,参见 Androutsopoulos & Ritchie,2000 年)。然而,此类系统的商业影响力仍然有限,因为它们通常缺乏传统数据库访问的可靠性和部分功能。

推论(基于知识的)问题回答

我们已经注意到基于文本的QA系统和NL前端的某些有限的推理能力,用于数据库,例如在涉及的条款之间使用简单的语义关系确认候选答案和问题之间的征询关系的能力,以及从数据库中排序或分类数据集的能力并计算平均值甚至创建统计图表。

然而,这种有限的专业推断方法远远缩短了基于象征知识的一般推理,这长期以来一直是AI问题的答案。 创建真正推理的QA系统的最早努力之一是L. Stephen Coles(Coles 1972)的Englaw项目。 Englaw旨在作为一种系统的原型,该系统可能被科学家和工程师使用,以获取有关物理法律的信息。 它为128个重要的物理定律提供了一kB的公理(一阶逻辑),借助参考文本手动编码。 问题(例如“在Peltier效应中,通过变换语法解析器的逻辑呈现为逻辑的热量依赖于电流的逻辑,以及将短语模式映射到逻辑表达式的逻辑中的逻辑。 该系统没有发展到实际有用的程度,但其推理和NLP技术的整合及其选择性地检索推理QA的公理的方法是值得注意的。

旨在实现实际目标的后续更大规模系统的一个例子是BBN的Janus系统(Ayuso等,1990)。 这是为了海军战役应用程序,可以回答有关船舶的地点,准备,速度和其他属性的问题,允许随着时间的推移而变化。 它将英文查询映射到一个非常富有表现力的初始表示语言,具有“内涵”运营商,以将公式与可能的世界相关联,而可能映射到NIKL描述逻辑,这证明了针对目标所需的大多数推论各种QA。

在时间上跳跃,我们注意到由Wolfram研究开发的基于Web的Wolfram | Alpha(或Wolframalpha)答案引擎,由1500万行的数学数学代码组成,用于策划数据库,模型和算法成千上万的不同领域。 (Mathematica是由英国科学家斯蒂芬Wolfram开发的数学上导向的高级编程语言。)该系统主要倾斜,主要朝向定量问题(例如,“,”法国的GDP是什么?“,或”表面是什么月亮区域?“)并且经常提供图表和图形以及更直接的答案。 使用Mathematica的模式匹配和符号操作能力来完成对应用于各种已知对象的函数的函数的解释。 但是,在撰写本文时,英语的理解并非特别强劲。 例如,“林肯在死亡时多大了?”,“在林肯死亡的时候?” 虽然在许多误区的情况下,虽然在许多情况下,但是,Wolfram | alpha显示足够的检索信息以允许推理答案。 相关的缺点是Wolfram | alpha的定量技能并未补充具有显着的定性推理技能。 例如,“苏格拉底是一个男人吗?” (再次,在撰写本文时)提示显示有关苏格拉特的摘要信息,包括图像,但没有直接回答问题。 仍然,Wolfram | Alpha的定量能力不仅在独立模式中有趣,而且还可用作搜索引擎(如Microsoft Bing)的增强和基于语音的个人助理(如Apple的Siri(见下文)。

另一个QA系统享有广泛的认可,因为它在危险中的电视胜利! 测验显示是IBM的“Watson”(Ferrucci 2012; Ferrucci等,2010; Baker 2011)。 像Wolfram | Alpha,这是一个感觉蛮力程序,由Java,C ++,Prolog和其他语言中的大约一百万行代码组成,由20名研究人员和软件工程师在三年内创建的。 该程序在Ninety IBM Power 750服务器上并行运行3000个进程,并从Wordnet,Wikipedia(及其结构衍生物Yago和Dbpeia),叙述,新闻版等来源访问200万页文章和文学文本,达到了几种人类知识。 (这转化为大约1010个氏块块 - 一个可能大约2个数量级大的数字大于任何人类所处的基本事实的数量。)

Watson而不是依赖于任何单个语言或语义分析,或者判断所检索的通道和文本“掘金的相关性和文本”掘金“的相关性,包括多种方法对问题和候选答案,包括问题分类方法,焦点实体检测,解析,块,词汇分析,逻辑形式计算,指导确定,关系检测,时间分析以及涉及双关语,anagram和其他曲款的曲折的讨论答案对的特殊方法! 不同的问题分析分别用于检索相关文件,并从这些文件中的段落和句子中获得,分析和分享潜在答案。 一般而言,产生了许多问题的候选答案,他们的分析提供了数百个特征,其权重由应用于过去危险语料库的ML方法学习了与相应的置信水平获得的排名答案! 问题和答案(或正式,答案和问题,根据Jeopardy的特殊思想!协议)。 Watson的摇头基于其潜在答案的置信水平和复杂的回归模型。

Watson如何适应我们的推论知识QA的标题? 它实际上是否了解它产生的问题和答案? 尽管对危险的表现令人印象深刻! 冠军,沃森的原因,并在仅限禁区中理解英语。 该计划利用了危险目标的事实! 问题通常是一个命名实体,如吉米卡特,伊斯兰堡或加尔各答的黑洞,尽管其他类型的短语是偶尔的目标。 Watson可能会发现多个句子提及所需类型的特定实体,其句法和语义特征接近问题的特征,从而使命名实体成为一个没有真实理解这个问题的合理答案。 例如,“最近的历史”问题要求美国向共产主义全面承认的总统(2012年Ferrucci 2012)可能会在这些判决中零零

虽然他是1978年与中国与中国完全外交关系恢复的总统,但Jimmy Carter从未访问过那个国家......(纽约时报,1981年6月27日)

要么

两国核科学家之间的交流在吉米卡特总统于1978年在吉米卡特正式认可的中国开始迈出。(纽约时报,2001年2月2日)

虽然这些句子之间的联系是间接的(例如,依赖于解决他和吉米卡特的解决方案,以及与认可和共产主义与中国共产主义和共产主义的外交关系的解决方案,但对这些链接的正确分析不是成功的要求 - 就足以呈现答案jimmy carter的群体(因为他们的单词和短语内容和许多其他特征)来提供比任何竞争的群集更大的净重。 这种类型的统计证据组合基于所存储的文本似乎不太可能提供一种甚至熟悉的理解的道路,即甚至一年级的人背叛回答简单的勤义问题,例如“在下雨时如何弄湿?”,或“如果你吃饼干,会发生什么到饼干?” 同时,以沃森的方式利用的庞大数据库可以弥补各种应用中的推理弱点,而IBM正在积极重新开发Watson作为医生的资源,应该能够提供甚至专家的诊断和治疗可能性可能没有触手可及。 然而,总而上,基于真正理解和基于知识的推理的开放式QA的目标在很大程度上是未实现的。

基于语音的Web服务和助手

基于语音的服务,尤其是在移动设备上,是一种快速扩展的应用区域。 服务范围从组织者(用于杂货名单,会议时间表,提醒,联系人列表等),到汽车“信息娱乐”(路由,交通状况,危险警告,iTunes选择,在附近的餐馆和其他场地等),到能够使用其他杂项应用程序,如电子邮件听写,拨打联系人,财务交易,预订,维基百科访问,帮助办公室服务,健康建议和一般问题回答。 其中一些服务(如拨号和iTunes选择)落入免提控制的类别,并且在运输(包括无人驾驶或飞行车),物流(资源部署)和制造业中,这种控制变得越来越重要。 此外,Chatbot技术和友好的对话代理(如第10.5节所述)正作为更具体的基于语音服务的普遍支持。

这些服务中的关键技术当然是语音识别,其准确性和适应性逐渐增加。 最便宜,狭义的系统(例如,简单的组织者)利用对用户输入来识别,解释和响应这些输入的强烈期望; 因此,它们类似于菜单驱动的系统。 更通用的系统,例如可以处理路由,音乐请求,搜索场地等的汽车讲话者等,依靠更高级的对话管理功能。 这些允许主题交换机,并且可能用于用户的注意力状态(例如,如果驾驶员需要参加驾驶员,则延迟回答驾驶员的问题)。 最新的“嗡嗡声”周围环绕着先进的语音助手,特别是iPhone的Siri(其次是Android的Iris,真实知识的EVI,谷歌现在和其他人)。 虽然以前的语音控制和检测系统,如Android的Vlingo,虽然是许多相同的功能,Siri增加了个性和改进的对话处理和服务集成 - 用户觉得它们与活泼的合成字符而不是应用程序进行交互。 除Nuance SR技术外,SIRI还包括由Calo(学习和组织的认知助理)从2003 - 2008年开展的Calo(认知助理)项目推动的复杂技术(Ambite等,2006年;卡洛[查看其他互联网资源])。 这些技术包括NLU,ML,目标导向和不确定推断,本体,规划和服务代表团的方面。 但是,虽然委派到Web服务,包括Wolfram | Alpha QA或Chatbot技术提供了相当大的稳健性,并且有关时间表,购买和其他有针对性的服务存在重大推理,但普遍了解仍然非常浅,因为用户很快发现。 严重误解的轶事例子是“叫我一个救护回答的救护车”,我会称你为“救护车”。 然而,这些早期(有点)智能化的用户社区的强烈兴趣和需求可能会加剧和加速对更生命的虚拟代理人的研究,并更有了解和常识。

10.8协作问题求解器和智能导师

我们讨论协作问题解决系统(也称为“混合倡议”或“面向任务为导向的”对话系统)和教程对话系统(即,对话中的辅导系统,因为这两者都是如此取决于他们旨在的域的相当深刻的表示或模型,以及他们与之互动的用户的精神状态。

然而,我们应该立即注意到协作问题解决系统通常处理比教程系统更少的可预测的域情况和用户输入,因此前者更加强调灵活的对话处理而不是后者。 例如,紧急疏散(Ferguson和Allen 1998,2007)的合作者需要处理一个动态变化的域名,同时处理可能发生的许多对话状态,具体取决于参与者的共享和私人信仰,目标,计划任何特定点的意图。 相比之下,在物理辅导(例如,Jordan等,2006; Litman和Silliman 2004)中,学习者可以通过具有撰写指示的学习目标网络,并对应于这些目标,有限状态可以设计对话模型,该模型将学生输入分类在对话中的每个点,并生成可能适合该输入的准备好的响应。

(本章完)

相关推荐