计算语言学(八)
理想地,最初的,预编程的机器的知识将仅限于想法的人类知识,以为天生(例如,对象持久性,运动连续性,动态和心灵的基本模型,语言普遍,分类/分类方式的手段在时间内组织活动,从经验中抽象,以及其他这样的知识和专业知识)。 其余的人将以人类的时尚学习。 不幸的是,我们没有体现具有人类感官和电机设备或人类的先天心理能力的特工; 所以除了通过最简单的口头学习,机器人,如口头标记物体或行动,或使用空间介词或两个单词句子(例如,Fleischman和Roy 2005; McClain和Levinson 2007; Cour等人2008),最新的知识获取工作使用(1)手工编码,(2)从文本语料库中提取(3)众包与一些转换方法的方法,口头表达“事实”到可用的格式。 我们专注于收购支持语言理解和生产所需的一般背景知识,将语言知识获取的讨论讨论第9节。
8.1手动知识编码
最着名的手动创造了致辞知识,是Cyc或Researchcyc知识库(KB)(Lenat 1995)。 这包含几十万个概念和几百万个事实和规则的本体,由推理引擎支持。 它已应用于商业,教育和军事领域的分析,决策支持和其他类型的项目。 然而,Cyc本体和KB内容主要由知识工程考虑(通常用于特定项目)而不是通过申请语言理解,这反映在其对非常特定的谓词中表示为英语单词的级联,以及高阶的依赖依赖。运营商。 例如,使用谓词的LastsubEvents,杀死冷漠 - 独特和死亡的谓词和染色之间的关系,并依赖于可以扩展到量化的条件陈述的高阶关系的关系。 语言的这种远程性使得难以将CYC KB应用于语言理解,特别是如果目标是从该KB中提取相关概念和公理并将它们与概念和公理集成在更直言不讳的代表中(而不是采用)Cycl语言,Cyc KB,关于英语的公理和推理机制批发)(例如,Conesa等,2010)。
手写的知识库的其他示例是组件库(CLIB)(Barker等,2001),以及Hobbs和Gordon(2005)的勤杂战心理公理的集合。 CLIB提供数百个概念的广泛的上部(即,高级)本体,以及关于基本动作的公理(传送,进入,打破等)和结果变化。 但是,CLIB中使用的基于帧的KLEO知识表示不接近语言,并且英语词汇的覆盖范围是稀疏的。 霍布斯和戈登的心理公理在焦点(记忆,信仰,计划和目标)中自然狭窄,并且仍然可以看出它们是否可以与语言推导的逻辑形式(“扁平”类型有效地使用Hobbs而有效地使用)对于话语背景推断。
例如,从半形式化源的知识适应可以由提取言语和子类别信息以及来自适当词典的股票短语和习语组成。 它还可能涉及映射的HyperNym层次结构,MonyonMs(零件)或反义词,如WordNet这样的源代码,进入某些可用于消歧和推理的形式。 手动编码的词汇知识的主要局限性是在语言直觉上的基础,而无需直接考虑其在语言理解中的作用,以及鉴于无与伦比的词汇,术语和表达式的表达方式所有生物语言。
除了这些词汇知识的来源外,还有世界知识的来源,如半形式化形式,如各种各样的列表和宪公,以及在线知识资源(如Wikipedia)(例如,参赛作品)值得注意的人物包含一个具有摘要属性的框,例如出生日期,死亡日期,居住日,公民身份,种族,努力,奖项和其他领域)。 但是,在这种消息来源提供了在团制中提供知识,因此易于收集的形式,它们只针对命名实体(如人,组织,地点和电影)和一些实体类型(如生物物种和化学化合物)。 此外,我们对普通概念的许多知识,例如树的普通概念或驾驶汽车的知识,不容易以属性值对的形式捕获,并且通常不能以该形式提供。
8.2知识提取文本
近年来,无约束文本的知识提取被称为通过阅读的学习。 提取方法可以是直接的或间接的。 直接方法从某种可靠的源中获取信息势信息,例如WickNet中的WordNet中的字感或百核百科的百科百科的描述和叙述文本,并将这些信息映射到表达通用知识的(更多)正式语法中。 间接方法摘要(或多或少)来自杂项报告,故事,散文,博客等语言模式的正式通用知识。
通过直接方法可靠地提取知识需要相对深入的语言理解,因此远离成熟技术。 IDE和Véronis(1994)对从字典定义中获取知识的早期工作,以及该企业面临的困难。 对于以这种方式获得的大部分知识,迄今为止的数量低或质量(从推理角度来看)。 最近的工作表明承诺是摩尔多瓦和罗斯(2001年)的工作,旨在解释名义神器概念的Wordnet光泽,以及Allen等人。 (2013),旨在通过解释他们的Wordnet光泽来形成相关动词的小簇的逻辑理论(例如,睡觉,睡觉,醒来等)。
最近二十年的文本中最受欢迎的知识提取方法一直是间接的方法,从Marti听到据称的纸张开始,通过使用词典提取模式(听力1992年)。 例如,寻找由“例如”或“和其他”分开的名词短语的提取模式将与“海鸟等企鹅和信天磁带”或“豆类,坚果等豆类”的词序列匹配,导致假设那只海鸟是企鹅和信天翁的高血清,豆子和坚果是豆类的假魔。 通过查找近距离接近的已知的下透明的Hypernym对,赫斯特能够展开初始的提取模式集,从而展示一组假设。 从那时起,已经开发了许多变体,其改进如自动启动和模式发现方法,通常具有机器学习技术,其应用于感兴趣的relata附近的局部特征的选择,加权和局部特征的组合。 已经针对语言理解有关的Symonymy以外的关系包括部分关系,因果关系和电视关系(例如牛奶的使用是饮用它)。
虽然使用赫斯特样图案的知识提取狭窄地针对某些预定类型的知识,但其他方法旨在开放信息提取(OIE)。 这些寻求发现广泛的关系知识,在某些情况下包括不同关系之间存在的意外(在一个相当松散的意义上)。 这种类型的早期和相当成功的系统是Lin和Pantel的污垢系统(从文本中发现推理规则),它使用了搭配统计来构建“推理规则”的数据库(Lin和Pantel 2001)。 规则的一个例子可能是“x找到y≈x解决y”的解决方案 使用的统计技术包括基于它们在同一动词的相同参数位置发生的趋势,并找到类似的关系短语(例如“找到”和“解决”),基于它们的连接相同的趋势,因此或类似的,重组的名义。 许多规则稍后通过向变量添加类型约束来改进,通过Wordnet从特定名称从特定的标称值抽象(Pantel等,2007)获得。
Textrunner System(Banko等人2007)示出了设计用于最大速度的OIE的方法。 Textrunner是基于提取模式的,而不是采用调整到少数选定关系的模式,它使用一系列模式从语法解析的训练语料库中自动获得,通过贝叶斯机器学习方法加权,以提取逐句句子的杂项关系来自文字。 一种相当不同的方法,被称为“开放知识提取”(oke),从解析的句子中得出逻辑形式,并简化和摘要这些方法,以便他们倾向于反映世界的一般性。 这是针对Knext系统(来自文本的知识提取)(例如,Schubert和Tong 2003)。 例如,句子“我读了一个非常有信息的关于中国”的书,允许Knext到抽象的“因子”的影响,这是一个人偶尔读一本书的效果,那本书可能偶尔会有信息丰富的,并且可能偶尔会有一个国家。 (请注意,对扬声器和中国的具体提及已经抽象为课程。)另一个有趣的发展是通过成员方法从大公司的脚本状序列的提取(参见房间和Jurafsky 2009)。 例如,有关逮捕和起诉犯罪分子的众多新闻司令部可以挖掘摘要涉及的典型事件类型,按时间顺序排列,如逮捕,提案,辩护,审判等等。 所有这项工作的困难是,所获得的大多数知识都太模糊和不完整地制定了推理链接的基础(但是参见例如Van Durme等,2009; Gordon和Schubert 2010; Schoenmackers等。2010)。
8.3众包
收购一般知识的众群方法包括从大量网络用户征求口头表达的信息,或注释这些信息,有时使用小型财务奖励或参加简单游戏作为诱惑的挑战(Havasi等人。2007;冯艾恩2006)。 对于简单的注释/分类任务,众包已经证明了非常可靠(例如,Snow等,2008; Hoffmann等,2009)。 然而,非专家用户提供的一般知识通常比词典中的百科全书或字感彩色更少地仔细制定,并且如果要抽象正式陈述,仍需要自然语言处理。 尽管如此,开放思维常识项目已经基于全球贡献者的简单英语陈述,产生了一个非正式的致商知识(ConceptNet)的关系网络,这证明了改善语音识别和其他领域的解释(Lieberman等,2004; FAABORG等人。2005)。
出现的整体情况是,语言知识的大规模资源,无论是词汇还是世界,仍然太稀疏,允许窄幅域Nlu和对话系统扩大到广泛的覆盖理解。 但是,这些知识预计最终会在一般语言理解中证明至关重要,因此获取这种普遍知识的追求仍然是积极的。
9.统计NLP
“你听到的所有数千次听到条款 - 最终辅助动词无可争议地加强他们不允许收缩的可能性。” -geoff pullum(2011)
我们已经提到了各种计算任务中使用的杂项统计模型和技术,例如POS标记中的(第2节)HMMS,概率语法建模和解析,统计语义,语义歧义(Word感官,量化范围等),计划识别,话语建模和文本提取。 在这里,我们试图提供统计NLP中所处理的任务类型的简要,但稍微更系统的分类,以及近年来最常用的统计NLP的建模技术和算法的某些感觉,挑战传统的计算语言学观。
这种传统的观点侧重于导出意义,并依靠假设这种衍生中使用的句法,语义,务实和世界知识是“清脆”而不是概率的; 即,语言的分布属性仅仅是语言通信的副产品,而不是语言理解,使用甚至学习的基本因素。 因此,在这种观点中,强调是在制定非手术句法,语义,务实和KR理论上,以便在语言理解和使用中部署。 当然,歧义的问题一直是建立解析器和语言理解系统的局部问题,但普遍的假设是通过补充具有表达句法和语义的一些仔细制定的启发式的解释程序来实现模糊的解决方案偏好。
然而,经验透露,困扰所需映射的歧义太多,微妙,并且相互关联,以适应启发式仲裁。 相反,语言现象需要被视为有效的随机性,并且需要系统地利用这些随机过程产生的分布性能,以获得关于底层结构的合理可靠的假设。 (上面的Geoff Pullum Quote与这一点是相关的:承认我的第一个发生的侵犯了我在“我宁愿为我是谁讨厌,而不是因为我不是”而不是“而不是”任何语法原则都不容易归因于任何语法原则然而,基于积极的证据,成为我们英语使用知识的一部分。)因此,重点在于将NLP视为在随机设置中不确定的推断和学习问题。
这种转变从哲学的角度来看很重要,而不仅仅是一个实用的角度:它表明传统的关于语言的思考可能已经依赖了内省。 内省的限制是我们在理解或考虑语言方面的大脑中发生的事情很少(参见例如Baars 1997中的“双通道实验”的讨论)。 我们有意识地注册了我们的理解和思维的结果,显然是以象征形式,但不是理解和思维过程; 和这些象征性的抽象,在他们缺乏定量或概率维度的程度上,可以引导我们假设潜在的处理也是不清的。 但统计NLP的成功以及认知科学的最新发展(例如,Fine等,2013; Tenenbaum等,2011; Chater和Oaksford 2008)表明语言和思维不仅象征性,而且深深地定量和特别是概率。
在前二十年左右,统计NLP的主要目标是使用在大型语言使用的大型电流上培训的统计语言模型来分配标签,标签序列,语法树木或转换为语言输入。 更完整地,所处理的任务类型可以大致分组如下(附加关键字指示典型应用程序):
文本/文档分类:作者,路透社新闻类别,情感分析;
在括号或更广泛的上下文中分类所选词语或短语:词感歧义,命名实体识别,多字expression识别;
序列标签:声学特征→手机→音素→单词→POS标签;
结构分配给句子:解析,语义角色标记,量化范围;
句子转导:MT,LF计算;
多句子文本的结构分配:话语关系,安差拉,计划认可;
大规模关系提取:知识提取,释义和征用关系。
这些群体似乎与随之而异,但随着我们将进一步讨论,某些技术和区别对于许多人来说很常见,特别是
在建模中:数字和离散特征,矢量模型,Log-Linear Models,Markov模型; 生成与判别模型,参数与非参数模型;
在学习数据时:最大似然估计,最大熵,期望最大化,动态编程; 监督与无人监督的学习; 和
在输出计算中:动态编程; 独特的输出与输出的分布。
我们现在试图向上面七组任务中涉及的最重要的技术和区别提供一些直观的洞察力。 为此目的,我们不需要在量词范围(第四组中)或第六和第七组中的任何项目都不进一步发表评论,因为这是本文其他地方覆盖的大部分。 在所有情况下,两个主要要求是将语言输入与所需输出相关的概率模型以及模型在将标签或结构分配给以前看不见的输入中的算法使用的概率模型的开发(帮助)。
文本和文档分类:在分类实质性文档中,所使用的功能可能是特定单词(或Word类)和标点符号的标准化发生频率。 特别是对于较短的文本,也可以包括各种离散特征,例如0,1值函数,其指示存在或不存在某些关键词或结构特征。 以这种方式,文档被表示为数字向量,其中具有高维空间中的值,其中具有单独的类,其单独的类别在该空间中形成有些分开的簇。 各种经典模式识别技术适用于学习将新文件(作为向量)分配给适当的类(例如,Sebestyen 1962; Duda和Hart 1973)。 也许最简单的方法(当特征是二进制时最容易应用的方法)是一个天真贝贝西亚人,它假设每个类生成彼此独立的特征值。 从训练数据估计生成频率,并且通过贝叶斯的规则(可以使用先前类概率的连续更新来计算未知文档(向量)的类成员资格概率。 选择具有最高结果后概率的课程然后提供决策标准。 用于实值特征的常见生成模型,允许特征交互,将任何给定类的已知成员视为多变量普通(高斯)随机变量的样本。 在这种情况下学习包括估计每个类的平均值和协方差矩阵(最大似然估计的一个例子)。
一种传统的歧视方法,在任何生成模型上之前不在,涉及计算从彼此分区已知类实例的群集的超平面(优化涉及课程和级别方差之间的某些度量); 新实例被分配给它们落下的分区的类。 Perceptrons提供了一个相关的技术,只要他们根据特征值的线性组合决定课程成员资格; 他们的特殊优势是,随着越来越多的训练数据可用,它们可以逐步学习(通过调整特征权重)。 另一种耐用的判别方法 - 不依赖于类的线性可分离性 - 是K最近邻居(KNN)方法,其将未知文本或文档分配给载体中的k(例如,1-5)最近邻居中最普遍的类别空间。 虽然所有先前提到的方法依赖于参数估计(例如,生成概率,高斯参数或分离平面的系数),但是KNN使用这种参数 - 它是非参数; 然而,找到合适的邻近或相似度量可能是具有挑战性的,并且难以避免在特征空间中占用的局部数据点配置引起的错误。 另一种值得一提的非参数鉴别方法是使用决策树,可以使用信息 - 理论技术来学习; 它们通过遵循根到叶路径来选择类,通过测试给定输入向量的特征选择分支。 一个潜在的有用的财产是,学习决策树可以提供深入了解最重要的特征(这种洞察也可以通过维度减少方法提供)。 然而,决策树倾向于融合到农民阶最佳(全局优化是NP-Hard),并且通过分裂数据,倾向于阻止特征相互作用的建模; 通过使用决策林,可以在一定程度上缓解这种缺陷。
提到了一些传统的分类方法,我们现在绘制自20世纪90年代以来在统计NLP中尤为突出的两种技术。 第一,与数学根约会到20世纪50年代,是最大熵(maxent),也称为(多项式)回归(例如,ratnaparkhi 1997)。 在这种情况下的特征是给定语言输入和可能类的任何所需的0,1值(二进制)功能。 (对于连续的特征,可以应用监督或无监督的离散化方法,例如基于熵的分区分为一定数量的间隔。)训练数据为这些功能提供出现频率,并且给定的类的条件概率导出分发。语言输入。 (因此,它是一种判别方法。)由于其名称意味着,该条件概率函数是最大熵分布,约束为符合在训练数据中观察到的二进制特征频率。 其形式(除恒定乘数)是指数的指数是给定输入和给定类的二进制特征值的线性组合。 因此,它是一个对数线性模型(其对数在特征中线性的分布)-A类型的模型现在在许多统计NLP任务中普遍存在。 注意,由于其对数是任何给定输入和任何给定的类的二进制特征值的线性组合,因此选择给定输入的最大概率等级,以便在某些经典方法中如线性决策; 然而,MaxEnt通常提供更好的分类性能,并且其提供的分类概率可以在进一步计算(例如,预期的实用程序)中有用。
在统计NLP的出现和成功中的另一种方法是支持向量机(SVM)方法(Boser等,1992; Cortes和Vapnik 1995)。 这种方法的巨大优点是它通常可以通过隐含地将原始向量突出到更高(或无限)的尺寸空间中的任意配置的类别来区分任意配置的类,其中类是线性可分离的。 该投影由内核函数 - 相似度量的相似度量,例如两个向量的点产品中的多项式。 粗略地说,如果它被扩展为原始,未膨胀对向量的特征的产品总和,则高尺寸矢量的组件对应于内核功能的术语。 但是没有执行实际扩展,此外,从给定的训练CORPU获得的分类标准仅需要计算给定特征向量的内核函数(表示要分类的文档)与某些特殊的“支持向量”配对,并比较了线性组合的比较产生阈值的值。 支持向量属于培训语料库,并定义两个并行超平面,以便尽可能多地分隔类(在扩展空间中)。 (因此这是一个“MAX-MARIMIN”鉴别方法。)SVM通常提供优异的精度,部分原因是它们允许非线性特征交互(在原始空间中),并且部分原因是MAX-MARIP方法专注于类别分离,而不是条件概率课程建模。 另一方面,MaxEnt分类器比SVM更快地培训,并且通常提供令人满意的精度。 涵盖我们勾勒出的分类方法的一般参考(Duda等人2001; Bishop 2006)。