计算语言学(九)

句子或更广泛上下文中所选单词或短语的分类:如前所述,示例包括WSD,命名实体识别和句子边界检测。 从文本/文档分类中唯一的区别点是它不是整个文本的块,而是在这种块的上下文中的单词或短语是被归类的。 因此,选择特征以反映目标词或短语(例如形态)的特征,以及它与其上下文的方式,例如,围绕单词或单词类别,(可能)局部句法依赖关系,以及具有更广泛范围的功能,如单词频率或文档类。 除此之外,如何选择特征,可以应用相同(监督)的学习和分类方法。 但是,足够大的培训基层可能很难构建。 例如,在统计WSD(例如,Yarowsky 1992; Chen等人,2009),由于三千个单词在Wordnet等源中有多个感官,很难构建一个含有足够许多事件的感觉注释的培训语料库所有这些感官都允许统计学习。 因此,注释通常仅限于少数多个多面词的感官,并且已经显示出所选择的单词的统计WSD是可行的,但是广泛的WSD工具仍然难以实现。

序列标签:前面的任务和序列标记之间存在稍微任意的线。 例如,很有可能将POS标记视为在与其上下文相关的文本中分类单词的任务。 然而,这种方法无法利用相邻词的分类是相互依存的事实。 例如,在句子中(从网络)“我不像大多数人钓鱼”,似乎不应该赞成鱼类作为动词的分类,这反过来应该赞美像介词的分类。 (至少这些偏好对宣言性句子有意义;通过“为什么”更换'我'将改变以下事项。)这种级联影响不容易通过连续的独立分类来捕获,并且它们激励诸如HMMS等生成序列模型。 对于POS标记,给定当前字的POS提供了标记的训练语料库可以为下一个单词提供任何POS的概率估计。 如果语料库足够大,则它还可以为一般文本中看到的大量单词,即,考虑到POS标签,它可以为大量单词提供一词“发射”概率的估计。 (使用平滑技术用于给定POS的未知单词填充非零概率。)我们之前提到了Viterbi算法作为一种有效的动态编程算法,用于将HMM应用于分配最大的任务 - 概率POS标记序列到文本的单词。 两个相关算法,前向和后向算法,可用于导出在每个单词位置I处可能标签的概率,这可能比为后续更高级别处理的“最佳”标签序列更有用。 效果(通过动态编程)的前向算法将所有标签序列的概率与单词位置I处的指定标签X结尾的位置I以及生成该字的输入。 向后算法和在位置I的标签X开始的所有标签序列的概率都总和,并且从位置I + 1生成输入到末端。 前向和向后概率的乘积,归一化,使得I总和在1的替代标签的概率,给出了I的X的概率,在整个输入上调节。

到目前为止所提到的所有学习方法都已监督学习方法 - 假设正确标记文本的语料库可用于推断模型参数。 但是已经为无人监督(或半监督)学习制定了方法。 发现序列标签的HMM模型的重要无监督方法是前后(或BAUM-WELCH)算法。 在POS标记的情况下,该算法的简单版本依赖于包含每个单词的可能标记的词汇(从标准Lexicon获得)。 然后基于训练语料库迭代地改进HMM转换和发射概率的一些初始,或多或少任意选择的值。 迭代过程的漫画是这样的:我们使用当前猜测HMM参数来标记培训语料库; 然后我们重新估计那些参数,就好像语料库被标记一样。 我们重复这两个步骤,直到收敛。 使用的实际方法在使用当前HMM参数的方式中更为微妙。 (这是一个特殊的EM期望最大化的情况。)而不是基于当前“最佳”标签序列中的发生频率重新估计参数,它使用了特定的连续状态(标签)的预期出现数量,除以预期的数量该对第一成员的发生。 考虑到训练语料库和当前HMM参数,通过标签序列的条件概率分布确定这些预期值,并且可以使用如上所述的前向和向后概率(因此,在整个语料库上调节)来获得。 可以计算任何X→W的修正发射概率作为在语料库中发生的所有位置的X-Labels的概率之和,除以所有位置的X-Labels的概率之和,再次使用前进的(产品)和向后概率。

不幸的是,EM不保证找到全球最佳模型。 因此,只有通过以“合理的”初始HMM开始,可以实现良好的结果,例如将非常低的概率分配给某些转换(例如确定器→确定器,确定器→动词,形容词→动词)。 半监督学习可能从一个相对较小的标记训练语料库开始,并使用相应的HMM参数估计作为从进一步的未标记文本的无监督学习的起点。

HMMS本身的弱点是马尔可夫假设(非邻居的独立性,鉴于邻居)被文本中的更长范围依赖性侵犯。 例如,在一个相对条款的上下文中(由该子句的名词发出信号),传递动词可能很好地缺乏NP补充(“我收集了他扔在桌子上的钱。结果,可以标记动词后面的单词错误地(作为名词)。 一种克服这种困难的判别方法是使用条件随机字段(CRF)。 与HMMS(它们已集成)一样,这些允许隐藏状态的本地相互依赖,但使用不仅依赖于这些状态的相邻对的特征,还依赖于整个输入的任何所需属性。 在数学上,该方法非常类似于MaxEnt(如上所述)。 特征系数可以通过梯度上升或通过与BAUM-Welch算法相关的增量动态编程方法来学习,称为改进的迭代缩放(IIS)(Della Pietra等,1997; Lafferty等。2001)。 CRF在POS标记之外的许多应用中取得了成功,例如句子和字边界检测(例如,用于中文),WSD,从文本中提取表,命名实体识别,以及NLP中的基因预测和计算机视觉之外。

对句子的结构分配:在第2节简要讨论了使用概率的无内容语法(PCFG)。PCFG的监督学习可以很多像POS标记的HMMS的监督学习。 如果使用短语包围(TreeBank)注释的大语料库(虽然POS→Word扩展概率的估计最佳补充有附加数据,则容易估计短语扩展的所需条件概率。 一旦了解到,PCFG可用于使用第2节中提到的图表解析方法为句子分配概率上加权短语结构。

此外,可以使用EM方法无法监督PCFG的学习。 这很重要,因为它相当于语法发现。 我们唯一从理论上开始的假设,就是存在一些最大数量的非缘符号,并且每个可以扩展到任何两个非终端或进入任何字(Chomsky正常形式)。 我们还与这些规则联系了一些或多或少的任意初始扩展概率。 基于当前PCG模型,使用可能扩展的发生频率的预期值来迭代地修改概率。 用于计算这些期望的前后算法的模拟是内外算法。 内部概率指定了从指定的非符号符号派生给定句子的某个适当段的概率。 外部概率指定了所有但是给定句子的某个段的概率将从开始(句子)符号中派生,其中“缺少”段仍然是从指定的非符号符号生成的。 内部和外部概率分别为嗯学习中的后向和前向概率进行类似的角色。 在概念上,他们需要对给定句子的令人指示的许多可能的解析树的总和,但实际上可以通过CYK算法(第2部分)有效地计算概率,并且还可以使用自上而下的递归“划分有效地计算外部概率。并征服使用先前计算的内部概率的算法。

以这种方式在学习语法中取得了适度的成功。 复杂性很高(训练语料库的大小的立方时间以及非终端数量),并且如上所述,EM通常找不到全局最佳模型。 因此,重要的是在初始语法上放置一些约束,例如,允许非态度生成任一对的非终端或单词,但不是两者,并且还严重限制了允许的非终端的数量。 优先于大型规则集的方法,而无需设置固定的上限,是使用Dirichlet进程,其将概率分布提供在无限数量的规则的概率上。 (此方法是非参数,从此没有提交到建模中的任何固定数量的构建块或参数。)如果要学习合理的,有意义的规则集,则必须仔细选择初始PCG的任何方法。 一种方法是从语言上动机的语法开始,并使用“符号分割”(也称为“状态分割”)以生成在其扩展规则和概率中不同的非终端的变体。 最近的频谱算法提供了一个相对较高的和全球最佳的替代品到EM(Cohen等,2013),它们可以与符号分裂组合。

像HMMS一样,PCFG是生成模型,并且喜欢它们遭受本地选择的敏感性不足到更大的背景。 CRF可以提供更大的上下文敏感性(如在POS标记和其他类型的序列标记中); 虽然它们并不直接适用于文本结构,但它们可用于学习浅扫描器,其将短语类型分配给非持久性短语(核心NPS,PPS,VPS等)(SHA和Pereira 2003)。

在当前的语法学习背景下,我们还应该再次提及连接主义模型。 这些模型已经显示出一些能力从一组训练示例进行解析,而是以这种方式实现全面解析仍然是一个挑战。 争议问题也是非敏捷NNS在无监督的学习中表现出系统性的能力,即,证明了从未经发布的例子概括的能力。 这需要例如接受或生成句子的能力,其中动词参数出现在与培训集中看到的位置不同的位置。 根据Brakel和Frank(2009)的说法,通过简单的经常性网络(SRN)可以实现系统的。 然而,计算演示通常被限制为非常简单,英语样的人造语言,至少当输入是未被公开的字流。

可以被视为朝向语义解释的步骤的结构分配任务是语义角色标记(Palmer等,2010)。 目标是将主题角色(如代理,主题,收件人等)分配给与动词相关的核心短语或短语头(也许是其他补码的单词)。 虽然这可以作为序列标记问题接近,但是实验证据表明,计算解析树并使用产生的角色分配的结构特征(或共同计算解析树木和角色)提高了精度。 用于此类工作的常用培训语料库是PenBank,Penn TreeBank的版本用“中性”角色arg0,arg1,arg2等。

句子转导:迄今为止迄今为止的最集中研究的统计句型类型已经统计MT(SMT)(例如,2010年5月,2012年5月)。 它的成功从20世纪80年代末和90年代初到了对NLP社区的惊人,这对自由议程(1960年)和Alpac报告报告(Pierce等人1966年)报告以来一直悲观。,负面评估美国政府在MT的主要战后资助的结果。 MT将被视为一个大型工程企业,直到它可以充分地与语义和基于知识的推断充分集成。 在20世纪70年代后期和80年代的“嘈杂的渠道”模型中成功地将“嘈杂的渠道”模型成功应用于语音识别之后,并通过机器学习的新发展以及大型机器可读语言信息的可用性增加,包括并行多种语言中的文本。

最早,最简单的翻译方法是基于Word的。 这是基于以下类型的外语句子F(如法语)(如法语)(如果目标语言是英语)生成的外语句子F(如法语)的影响:首先,根据一些简单的英语模型,例如基于Bigram频率的一个简单的英语模型生成。 然后假设e的单个单词以一些概率生成f的单个单词,允许任意字序列加扰(或以某种方式偏置)。 在学习这样的模型时,可以从并行英语 - 法语语料库估算可能的对应关系和字翻概率,其句子和单词已经通过手或统计技术对齐。 然后,这种模型可以被贝叶斯推理的英语句子将给定的法语句子F解码为贝叶斯推理 - 我们作为最高后概率的英语句子,给予其法国“编码”作为f。 这是用动态编程算法完成的,并且可以使用所在的中间阶段,其中计算E的N个最佳选择(对于一些预定的n),随后使用由生成模型忽略的e和f的特征来判别地重新排序。

然而,普遍的SMT系统(例如谷歌翻译或雅虎!Babel Fish)是基于短语而不是基于词的。 这里“短语”是指倾向于彼此相邻发生的单词或单词组。 这个想法是,短语被映射到短语,例如,英语单词对法国短语的红葡萄酒Vin Rouge,du Vin Rouge,或Le Vin Rouge。 此外,除了假设任意字令加扰,还使用重新排序模型,根据该重新排序的模型,在翻译过程中,根据该重新排序的模型可以倾向于用左或右相邻短语或从邻居移位。 此外,而不是直接依赖于贝叶斯模型,如在基于词的方法中,基于词组的方法通常使用对数线性模型,允许结合不仅反映语言模型(例如三重奏频率),短语翻译模型(例如短语)反映的特征翻译频率)和重新排序模型,还有杂项特征,如创建的单词数量,使用的短语翻译数量,以及短语重新排序的数量(具有更大的惩罚对较大的位移较大)。

虽然基于短语的SMT模型非常成功,但他们仍然容易发生句法失败或语义上奇数翻译,并且最近的研究已经寻求利用语言结构和意义的模式来提高翻译质量。 句法传输的两个主要方法是基于分层的基于短语的平移和树 - 串(TTS)转换模型。 基于分层的基于词组的方法使用同步语法规则,它同时扩展了两种语言的相应句子的部分推导。 这些自动从对齐的语料库引起,并且最低分层层对应于基于普通短语的转换中的短语转换规则。 虽然相当成功,这种方法提供了很少的保证,即所产生的同步语法中的“短语”是语义感觉的语义相干的单位。 TTS模型通过使用在短语包围的文本语料库(TreeBanks)上培训的解析器获得更好的一致性。 将英语句子的编码成法语(与先前假定的语言对保持)被概念化为以解析的英语句子开始,然后由(学习)规则转换,逐步扩展原始或部分转换的短语模式和单词,直到所有叶子都是法国词。

除了MT,另一个重要类型的句子转换是语义解析,在一些域中的映射句子中,逻辑表单可用于问题应答的逻辑表格。 (注意,上面讨论的语义角色标签也可以被视为对语义解析的一步。)在这个相对较近的地区的几项研究基于由LFS注释的培训基金(例如,Mooney 2007; Zettlemoyer&Collins 2007)或者也许是语法树木以及LFS(例如,GE和Mooney 2009)。 典型的域名是关于地理(如果LFS是数据库查询)的QA,关于Robocup足球,或关于旅行预订。 甚至无监督的学习都被证明是可以在限制域中进行可能的,例如基于医疗摘要(Poon和Domingos 2009)或旅行预订域(Poon 2013)。 在这项工作中使用的想法包括在林和佩特尔的污垢系统中形成名义术语和口头关系的同义词集群,创造了这些概念和关系的逻辑名称(反映了他们的词源); 和学习(通过马尔可夫逻辑,Markov网络的泛化)以利用数据库实体,类型和关系向树木解析树的节点,基于旅行预留对话语法(其中已知旅行代理答案所需的数据躺在数据库中)。 这些方法是否可以推广到较少的限制域,并且仍有待观察的语言形式。 最近创造了一般语料库,注释了“抽象意义代表”,AMR,可能会促进这种方向(Banarescu等,2013)。

我们在本节中触及的主题在技术上是复杂的,因此我们的讨论必须浅薄。 统计语言处理的一般参考资料是Manning和Schütze1999和Jurafsky和Martin 2009.此外,统计的NLP社区也为研究人员开发了非常全面的工具包,如槌(语言工具包的机器学习),其中包括许多人的简要解释技术。

在机器中实现人类语言学习的前景是什么? 越来越高的认可,统计学习必须与世界的感知和概念建模相关联。 最近在接地语言学习领域的工作正在进行这种方向。 例如,Kim和Mooney(2012)描述使用与基于图形的动作和上下文配对的句子的方法,以假设PCFG规则,以将NL指令解析为动作表示,同时使用内外算法学习规则概率。 然而,他们承担了一个非常受限制的领域,问题仍然需要采取对知识,概念形成和语义和脑内记忆的建模,以支持不受限制的语言学习。 与机器的世界知识获取一样(参见前一节),建模能力可能需要与新生儿的那些实现对等值,允许以象征性和想象的语言来编码传播人物,以便对分类实体类型进行编码和想法,认识到动画和意向性,组织和抽象的空间关系和因果关系,更多。 提供此类能力可能需要,以及我们对认知架构的理解,解决了关于语言,语义和世界知识的表示和使用的问题,这是一种在计算语言学中传统的焦点。

10.应用程序

如开始所示,计算语言学技术的应用范围从最小依赖于语言结构和含义的那些,例如文档检索和聚类,以获得理解和使用语言的某些能力,例如提供帮助和信息的对话代理人在有限的领域,如个人调度,航班预订或帮助书桌以及智能辅导系统。 在下文中,我们枚举其中一些应用程序。 在几种情况下(特别是机器翻译)我们已经提供了相当大的细节,但这里的意图是提供鸟瞰的现有技术,而不是技术阐释。

随着普遍存在的计算出来,提供NLP应用的系统分类越来越困难:基于关键字的文件(或片段)检索,数据库访问被集成到一些对话代理和许多基于语音的服务中; 动画的对话代理商与用户互动,包括辅导系统和游戏; Chatbot技术被纳入各种有用或娱乐剂作为后端; 启用语言的机器人,尽管在与语言中相结合的愿景和行动方面的独特机器人,逐渐被配备Web访问,QA能力,教程功能,并且最终毫无疑问地具有协作解决能力。 因此,在实践中,遵循的小节中的应用类别而不是相互排斥的应用程序类别。

10.1机器翻译(再次)

最古老的MT系统之一是Systran,该系统是在20世纪60年代开始的基于规则的系统,并被美国和欧洲政府机构广泛使用,也在雅虎! Babel Fish和(直到2007年)在谷歌翻译。 2010年,它与统计MT技术杂交。 如上所述,谷歌翻译目前使用基于短语的MT,英语用作大多数语言对的interlingua。 微软的Bing Translator与统计MT一起使用依赖结构分析。 其他非常全面的翻译系统包括亚洲在线和世界各地。 对于小型语言组的许多系统也存在,例如用于在旁遮普岛和印地文(直接MT系统)之间或几个欧洲语言(例如,OpenLogos,Idiomax和Gramtrans)之间进行翻译。

翻译保持容易出错,但它们的质量通常足以让读者掌握源内容的一般漂移。 在许多情况下,例如国际网络浏览(在几十年的MT研究中几十年来,申请几乎预期的应用程序)不仅仅是可能需要的。 此外,旨在帮助国际旅行者的手持设备上的MT应用可以充分准确,以获得有限的目的,例如询问有限或应急帮助,与运输人员进行互动,或者进行购买或预订,当需要高质量的翻译时,可以使用自动方法作为辅助对于人类翻译,但微妙的问题可能仍然可以吸收大部分翻译的时间。

(本章完)

相关推荐