计算语言学(十)

10.2文档检索和聚类应用程序

信息检索长期以来一直是信息科学的中央主题,涵盖了两个结构化数据的检索,例如在关系数据库中找到以及非结构化文本文件(例如,Salton 1989)。 两种类型数据的检索标准不是不相关的,因为结构化和非结构化数据都经常需要定向的检索。 例如,虽然员工数据库的用户可能希望通过员工的唯一名称或ID检索员工记录,但在其他时,他们可能希望在某个就业类别中检索所有员工,可能具有进一步的限制,例如落入某个薪水括号。 这是通过使用“反转文件”来实现的,该“反转文件”基本上索引其属性和值下的索引实体而不是其标识符。 以同样的方式,可以通过一些唯一标签检索文本文档,或者可以符合其与某个查询或主题标头的相关性来检索它们。 最简单的相关性概念是文档应包含查询的术语(单词或短语)。 但是,对于文档具有独特的术语应更大。 因此,给定特定查询术语的标准相关性是该术语的TF-IDF(术语频率 - 逆文档频率),其增加(例如,对数),其中文档中术语的出现频率,但在其范围内折扣经常发生在整个文件集中。 求解查询条款的TF-IDF的概率会产生简单的文档相关性。

该方法的缺点首先是,如果每个术语通常在文档收集中发生(例如,对于眼睛的查询“杆和锥体”,则杆,锥体和眼睛的共同发生,则术语共同出现术语共同发生尽管所有三个术语在非生理背景下都发生了一致),而其次,相关文件可能几乎没有查询术语,同时包含许多语义相关的术语。 与文档聚类相关的一些矢量方法可用于缓解这些缺点。 我们可以使用LSA降低基于术语的矢量空间的维度,获得更小的“概念空间”,其中许多倾向于在文档中发生的术语将被合并为相同的尺寸(概念)。 因此,共享概念,而不是分享特定条款,成为测量相关性的基础。

当需要组织大量文档以便于访问局部相关项目时,文档群集非常有用,例如在专利说明,医疗历史或摘要,法律先例或标题图像中,通常以分层方式。 群集在探索性数据分析中也是有用的(例如,在探索未知语言中的令牌次数中),并且由于其在提高语言模型中的实用程序而间接支持各种NLP应用程序,例如在提供用于退出的单词群集时数据稀疏性的具体单词。

聚类广泛用于其他领域,如生物和医学研究和流行病学,市场研究和分组和购物项目的推荐,教育研究,社会网络分析,地质分析以及许多其他领域。

文档检索和群集通常用作信息提取(即)或文本挖掘中的初步步骤,有关从文档中提取有用知识的两个重叠区域,例如命名实体的主要特征(类别,与其他实体,位置,日期等相关的角色)或特定类型的事件,或者在关系项之间推断出的规则形状(例如,购买一种类型的产品与购买另一种产品相关)。

我们不会全面调查IE / Text Mining应用程序,但下一款关于总结和情感分析的小节,是亚马库斯特别感兴趣的子地位,因为他们重视文本的语义含量。

10.3知识提取和总结

鉴于从新闻媒体,各种组织和个人的组织发布的卓越的文件,提取知识或产生从非结构化文本的摘要是更重要的应用。 这种不断的信息流使得难以概述与某种特定目的相关的项目,例如有关个人,组织和消费者产品的基本数据,或事故,地震,犯罪,公司带领,产品维护和维修活动,医学研究结果以及医学研究结果依此类推。

知识提取的一种常用方法和某些类型的“死记硬背”概述依赖于提取模式的使用; 这些旨在匹配作者通常使用的传统语言模式,以表达感兴趣的信息。 例如,通过键入关于公司名称和“公司”,“.com”,“总部”,以及“年收入”,以及“年收入”,以及“年收入”,以及“年收入”,以及“年收入”,以及“年收入”,以及“年收入”,以及“年收入”,以及“年收入”,以及言论和依赖关系的部分,以及匹配常规表达式模式对包含关键短语或靠近它们的本地文本段。 作为另一个例子,地震报告的总结可能提取诸如地震的震中等预期信息,其对RESHTER规模的幅度,事件的时间和持续时间,影响人口中心,死亡人口的程度,伤害和财产损失,后果火灾和海啸等。提取模式通常可以被认为是在预定的属性值帧中瞄准特定属性(例如,用于公司信息的帧或用于大地震的事实的帧),并且填充框架可能本身可以被视为作为摘要,或可用于生成自然语言摘要。 这种类型的早期系统是FRUMP(Dejong 1982)和Jasper(Andersen等人1992)。 在数百种现代的提取系统中,竞争中特别成功的是SRI的“FASTUS”(Hobbs等人1997)。

请注意,是否将基于模式的系统视为知识提取系统或摘要系统取决于它应用于的文本。 如果感兴趣的所有信息在单个扩展文本段中捆绑在一起(如在地震报告的情况下),则可以将提取的知识视为段的摘要。 如果相反,则从散射通过大文本收集的杂项句子中选择性地提取信息,大部分材料被忽略与提取的目的无关,然后我们将系统视为信息提取而不是摘要。

当要总结的文档不能被假定落入一些可预测的类别时,内容以构造型方式结构化并以典型的方式表示,则通常通过从文档中选择和组合“中央句子”来执行概述。 一个句子是核心,即文档中的许多其他句子与其类似的程度,就共享词内容或一些基于术语的TF-IDF度量标准之类的一些更复杂的相似性度量,或者在维度减少的矢量空间中的余弦度量(因此好像我们将个别句子视为文件,并找到一些句子,其“相关性”对剩下的句子是最大的)。 但是,只需返回一系列中央句子,不会一般产生足够的摘要。 例如,这种句子可以包含未解决的代词或其他参考表达式,其引用可能需要在非中央句子中寻求。 此外,中央“句子”实际上可能是嵌入在包含不重要补充信息的冗长句子中的条款。 需要应用启发式技术来识别和消除额外的材料,并且提取的条款需要流利和完善地结合。 在其他情况下,复杂的描述应该更简单,抽象地解释。 例如,诸如“龙卷风落后于当地农舍的屋顶,并将其墙壁和内容物减少到瓦砾”可能是“龙卷风摧毁了当地的农舍。”的句子的适当冷凝 但是,虽然这些问题中的一些问题被部分地解决了当前系统,但人类的摘要将需要比目前所能更深刻的了解。 该地区的另一个困难(比机器翻译所以更进一步)是对摘要的评估。 即使人类判断均差异很大,例如,例如,关于评估者对语法缺陷的敏感,与内容的不足。

10.4情绪分析

情绪分析是指在商业产品,电影,组织,人物,意识形态等文章或博客作者中检测积极或负面态度(或更具体的态度,如信仰或蔑视),这已成为一个非常活跃的地区应用计算语言学,由于其对产品营销和排名,社会网络分析,政治和智力分析,人格类型或基于写作样本的分类以及其他地区的重要性。 所使用的技术通常基于思维词汇,该词汇分类词汇项目的情感极性,以及应用于从中提取单词和短语特征的文本的监督机器学习,并且已经将其标记为表达正或负态度一些主题。 而不是手动标记,有时可以使用现有数据来提供先验的分类信息。 例如,博主生产的消费产品或电影的平均数值额定值可用于学习对属于相同或类似类型的未分泌材料进行分类。 如果事实,情感词汇类别和对比关系可能会从这些数据中学习; 例如,频繁发生的短语,如大型电影或相当良好的电影或可怕的电影在博客上有关高,中等和低平均评级的电影可能很好地表明,很大,非常好,可怕属于对比度范围,从而从非常积极的频谱范围内极性。 这种术语知识可以又可以提高通用情绪词典的覆盖范围。 然而,基于词汇和短语特征的情绪分析具有明显的局限性,例如对讽刺和讽刺的讽刺(“这是自德克萨斯州萨默克雷以来最微妙和敏感的电影”),与作者对比的意见报价“据广告说,Siri是自信以来的最大应用程序,但实际上......”),缺乏对威胁的理解(“你会更好地购买一对冬天的羊毛内衣,而不是购买这个项目”)。 因此,研究人员正在尝试将基于知识和语义分析整合到基于肤浅和短语的情绪分析。

10.5聊天和友好的对话代理人

目前的聊天禁令是Weizenbaum的Eliza的后代(参见1.2节),通常使用(通常是有动画的“谈话的头部”字符)进行娱乐,或者将参观者的兴趣与某些“DOTCOMS”的网站一起使用。 它们可以配备大型手工制作的脚本(关键字索引的输入 - 响应模式),使他们能够回答有关公司及其产品的简单查询,并有一些能够应对杂项主题和交换问候和愉快的咨询。 良性良好的应用程序是使用聊天聊天作为社交网站的访问者,或互动游戏网站,目的是征求私人信息,从不知不用人类参与者或向他们推荐网站或产品。 因此,许多社交网站已经加入了使用CAPTCHA到箔片入口的其他BOT针对性网站。

伴随的对话代理(也称为关系代理商)迄今为止依赖于Chatbot技术,即撰写输入模式和相应的输出。 但是目标是超越这些技术,创造具有个性特征的代理(通常与谈话的头部或其他动画人物),并能够展示情感和同理心; 它们应该具有语义和焦虑的记忆,从长期学习用户并向用户提供服务。 这些服务可能包括除了陪伴和支持之外:在某些生活领域,健康和健身,安排维护,提醒,问题回答,辅导(例如,语言),游戏播放和互联网服务的建议。 Yorick Wilks建议,理想情况下,这样的角色将类似于“维多利亚同伴”,具有礼貌,自由裁量权,谦虚,快乐和知情人士(Wilk2010)。

但是,这种目标远远没有实现,如语音识别,语言理解,推理和学习都没有足够的进步。 作为本领域技术的值得注意的例子,我们可能会提及HWYD(“您的一天如何”)Pulman等人。 (2010年),它在一个自治代理商会议上获得了最佳示范奖。 该系统中的自然语言处理相对复杂。 浅句法和语义处理用于找到大约30个“事件模板”的实例化,例如用于“x和y之间的工作中的参数”或“与x yaby y之间的参数”的实例化。 解释过程包括引用和省略号分辨率,依赖于由对话管理器维护的信息状态表示。 对话经理生成的目标导致通过规划响应,涉及响应范式的实例化和测序。 作者报告了系统能够维持一致的对话超过20分钟。

针对临床良好的健康咨询的一种相当不同的系统,也在开发中。 例如,(Bickmore等人,2011)中描述的系统依赖于在描述逻辑(猫头鹰)和目标定向任务描述语言中表达的临床证明咨询策略和知识的广泛熟悉的咨询策略和知识。 这些系统证明,以与人类辅导员的方式执行。 但是,尽管对话是计划驱动的,但它们最终由与向客户端提供的多项选择列表配对的脚本系统话语组成。

因此,友好的系统在对话主题中仍然受到限制,他们可以处理他们对语言的理解,以及他们对谈话带来广泛的一般知识的能力,更不用说地使用这些知识。

10.6虚拟世界,游戏和互动小说

基于文本的冒险(Quest)游戏,例如Dungeons和Dragons,追捕Wumpus(其原始版本),并开始于20世纪70年代和中半年开发出来,并且通常会出现在球员面临的环境和挑战的文本描述,并允许从播放器中输入的简单命令行选择可用操作(例如“打开框”,“拿剑”或“读取注释”)。 虽然设置设置(通常伴随图片)可以非常详细,但在冒险小说中可以是多样性的,但播放器可用的输入选项,并且在很大程度上仍然存在,仅限于可以预期或收集的单词通过游戏程序员发布测试,以及可以手动准备哪些响应。 肯定更灵活地使用NL(“用剑击开了格雷梅林!”,“如果我给你金牌,你会为我打开大门吗?”)将激励玩家与游戏世界之间的互动和其中的字符。 在20世纪80年代和90年代的基于文本的游戏中拒绝了主要基于图形和动画的游戏,尽管在线互动小说界已经在传播有效互动小说开发软件的演变的年份中增长。 一项高度宣传的计划(2000年)是艾米丽短的“加拉西亚”,它使与动画雕塑的对话使能。 但是,这仍然是一个精心批读的程序,只允许对各种预编程响应之一启发式映射的输入。 此类型中的许多游戏还利用了聊天字的输入输出响应模式,以便为意外用户输入获得稳健性的衡量标准。

20世纪90年代及以后最受欢迎的PC视频游戏是Robyn和Rand Miller的Myst,一个第一人称冒险游戏,以及Maxis软件的SIMS,一个生命模拟游戏。 虽然依靠书籍和期刊的信息,但在很大程度上是非言语,而SIMS的首席开发人员将赖特,在SIMISL中居民居住的是一种废话的语言纳入乌克兰,法语和塔加拉诺的元素。

商业冒险游戏和视觉小说继续依靠脚本对话树 - 基本上分支的替代方向,可以预期对话转向,伊丽莎白的技术支持替代方案。 在各种研究实验室中正在开发用户和虚拟人物之间的更复杂的互动方法,例如在宾夕法尼亚大学的人类建模和仿真中心,以及USC附属创新技术研究所。 虽然这些方案中的对话仍然基于精心设计的脚本,但对用户说话的话语的解释利用了语音识别,对话管理和推理中的一系列良好创立的技术。 可以在诸如IVA(智能虚拟代理),AIIDE(AI和互动数字娱乐)和AAMAS(自主代理和多算系统)的场地进行持续研究。

10.7自然语言用户界面

NL用户界面的主题归入各种各样的NL应用程序,范围从基于文本的系统范围最小化地依赖于在文本或基于语音的交互中具有重要理解和推理能力的系统。 以下小节简要介绍了一系列传统和当前应用领域。

基于文本的问题回答

基于文本的QA是实际的,在某种程度上,可以预期的问题,可以预期在QA系统访问的文本语料中的某个地方占据了现成的答案。 这在蓬勃发展的互联网内容中变得更加可行,但几十年前仍然需要是直截了当的,事实上的问题(例如,“杀死林肯总统的”)而不是需要推动的人(例如,“凯瑟琳在哪个世纪伟大的生活?”,更不用说“大约有多少8英尺的2乘4S我需要建造4英尺高,15英尺长的纠察围栏?”)。

基于文本的QA以问题分类开始(例如,否问题,WHO问题,WHO - 问题,最疑问,时间问题等),其次是所确定的问题类型的信息检索,然后缩小到段落的搜索以及最终可能包含答案的句子和最终句子问题。 连续的缩小通常采用Word和其他特征匹配,最终依赖和角色匹配,并且可能有限的文本推断来验证应答候选。 例如,文本推断可以使用Wordnet HyperNym知识尝试确定给定的候选答案句子支持问题的声明性版本的真实性。 由于所选择的句子可能含有无关的材料和视力,因此它还仍有用于提取相关材料(也可以包括支持上下文)并产生良好形成的适当答案。 迄今为止,在Bourne&Hahn 2003中讨论了许多早期的基于文本的QA系统。后来的调查(例如,Maybury 2004)倾向于包括全谱的QA方法,但TREC会议程序(https://trec.nist.gov/)为基于文本的QA的实施系统提供了众多论文。

在开放式QA中,许多问题涉及名为实体的属性,例如出生日期,出生地,职业以及各公司的历史个人,地点,所有权和产品的其他个人属性,关于消费产品,地理事实和的事实依此类推。 为了回答此类问题,将相关的因素预先组装成大知识库,使用如第8节中的知识获取方法进行了预先组装成大知识库。包含关于命名实体的丰富的系统的例子是在华盛顿大学开发的几个,将事件储存为文本片段和各种系统将收获的因素映射到RDF(资源描述框架)三元组(参见其他因特网资源中的引用)。 这些系统中的一些不仅可以从开放信息提取和有针对性的关系提取而获得他们的知识,也可以从这些来源作为维基百科“infoboxes”和(受控)众包。 在这里,我们还延长了问题的概念,因为有几个系统需要使用关键词或查询模式来检索因素。

从一般的用户的角度来看,鉴于谷歌和其他搜索引擎的显着能力,甚至是“欧洲国家被内陆的欧洲国家的问题”,鉴于谷歌和其他搜索引擎的显着能力,鉴于“欧洲国家的内陆?”等问题,尚不清楚增加了多少益处 (没有引用的带引号,Google找到了使用真实知识的最高答案),或者“肯尼迪任命有多少最高法院大法官?” 尽管如此,谷歌和微软最近推出了众多“知识图表”,具有数千亿个实体之间的成千上万的关系。 目的是提供直接答案(而不是仅仅检索的网页片段)来查询术语和自然语言问题,并对用户的可能意图进行推断,例如购买某种类型的项目或服务。

数据库前端

用于数据库的自然语言前端已被认为是有吸引力的NLP技术应用,从作为月球(Woods等人)和Rel(Thompson等,1969; Thompson&Thompson 1975)的系统开始。 吸引力在于,可以假设来自关系(或其他统一结构的)数据库的信息检索和操纵,以便通过现有的DB查询语言和过程处理。 此功能急剧限制用户从用户预期的自然语言问题的各种问题,例如旨在检索满足主关系约束的对象或对象元组的问题,或者提供关于它们的摘要或极值属性(最长河流,最低河流,最低费用等)。 它还大大简化了解释过程和问答,因为目标逻辑表单形式的DB查询 - 具有已知的,精确的语法,并由DB管理系统自动执行,只留下在一些适当的语言中显示计算结果的工作,表格或图形形式。

从那时起,已经建立了许多系统,旨在船上的海军数据及其部署(Ladder:Hendrix等,1978),土地使用计划(Damerau 1981),地理QA(Chat-80:Pereira&Warren)1982年),公司记录和商品记录的保险公司,石油公司,制造商,零售商,银行等(智力:哈里斯1984),汇编有关公司的客户,服务,资产等的统计数据(Cercone等人1993),还有更多(例如,见Androutsopoulos&Ritchie 2000)。 然而,这种系统的商业影响仍然很少,因为它们通常缺乏传统数据库访问的可靠性和一些功能。

(本章完)

相关推荐