计算语言学(二)

无上下文语法的典型(有些简化)样本片段如下,其中短语类型用特征值对注释:

s [vform:v]→。np [pers:p numb:n case:subj] vp [vform:v pers:p numb:n]

vp [VForm:v pers:p numb:n]→。v [subcat:_np vform:v pers:p numb:n] np [case:obj]

np [pers:3 numb:n]→。det [pers:3 numb:n] n [numb:n]

np [numb:n pers:3 case:c]→。名称[numb:n pers:3 case:c]

这里V,n,p,c是可以假设“过去”,'pres','基本','pastparticiple','(即各种动词形式),'1','2','3'(1st,2nd和第三个人),'唱','plur'和'subj','obj'。 Subcat功能表示动词的补充要求。 词典将提供诸如此类的条目

v [subcat:_np vform:pres numb:sing pers:3]→。爱

DEC [Pers:3 Numb:Sing]→。一个

n [pers:3 numb:sing]→。凡人

名称[pers:3 numb:唱绅:Fem case:subj]→。Thetis,

例如,允许句子“thetis喜欢致命”的短语结构分析(我们省略了用于简单的特征名称,只留下它们的值,并忽略案例功能):

[树图:顶部,

s [pres],一条线将顶部节点连接到首先,np [3 sing subj],哪个

连接,名称[3 sing subj],连接到

'忒提斯'。 来自顶部节点的第二行连接到

vp [pres 3 sing]又首先连接到v [_np pres 3 sing]

连接到“爱”。 其次,它连接到NP [3

唱歌]又会连接到def [3 sing](以及它到

'a')和n [3 sing](以及'致命')。]

图1:作为解析树的句子的句法分析

作为CFG的变种,依赖语法(DGS)也享有广泛普及。 与CFG的差异是通过直接将单词直接从单词(允许头单词的多个依赖)来实现分层分组,而不是短语。 例如,在图1的句子中,我们将分别使用依赖性链接标记为Subj和Obj的依赖性链接作为Loves的依赖性,并且确定器A又通过依赖链接MOD(用于修饰符)来对待LOVES的依赖性。 投影依赖语法是没有交叉依赖关系的语法(使节点的后代形成连续文本段),并且这些生成与CFG相同的语言。 显着地,轻微的非投射依赖语法语法,允许头单位主导两个分离的块,提供与某些语言所需的先前提到的轻度上下文敏感框架相同的生成容量(Kuhlmann 2013)。

如在本节开始时所述,传统的正式语法在他们的语法标准中证明过于有限,在他们的语法标准中过于僵化,为实际使用的自然语言的强大覆盖提供了基础,并且这种情况仍然存在,直到潜在的概率语法的出现从相当大的短语 - 括号(特别是Penn TreeBank)。 这种类型的语法的最简单示例是一个概率的无背景语法或PCFG。 在PCFG中,每个短语结构规则x→Y1 ... yk被分配了概率,视为x类型的构成概率将扩展为y1,...,yk的类型的一系列(立即)成分。 在最低级别,扩展概率指定给定部分的语音(例如det,n或v)的频率将被实现为特定字。 这种语法不仅提供了一种结构,而且提供了语言的分布模型,预测各种短语序列的发生频率,并且在最低级别单词序列中。

然而,这种类型的最简单模型不会非常准确地模拟实际语言语料库的统计信息,因为给定短语类型(或语音的一部分)x的扩展概率忽略了生成的成分的周围的短语上下文和更详细的属性(如头单词)。 然而,背景和详细的性质是非常有影响力的; 例如,在“她检测到与{双筒望远镜,行星}”修改的“她检测到一个星星”的最终介词短语是否非常依赖于单词选择。 这种建模不准确导致解析不准确性(参见下一个小节),因此生成语法模型以各种方式改进,例如(所谓的词汇化模型),允许在规则中规范特定的短语单词或(在树替代语法中)允许将非终结器扩展到深度2或更多的子树中。 尽管如此,似乎可能需要考虑语言的完全准确的分布建模,而是需要考虑通信中的语义内容,话语结构和意图,不仅是短语结构。 可能的建筑语法(例如,Goldberg 2003),它强调了根深蒂固的语言模式(包括普通短语结构,陈词滥调和成语)与其含义和话语职能之间的耦合将为建筑提供概念语言的统计模型足以实现更近乎人类的解析精度。

2.3解析

AI的早期自然语言分析倾向于依赖模板匹配,例如,匹配模板(例如(x有Y)或(有多少Y在x上)到要分析的输入。 这当然取决于具有非常限制的话语和任务领域。 到了20世纪60年代后期和70年代初期,正在采用相当复杂的递归解析技术。 例如,Woods的月球系统使用了一个自上而下的递归解析策略,以2.2节大致指示的方式解释ATN(尽管原则上的Atns允许其他解析风格)。 它还保存了一个表中的公认成分,就像我们即将描述的解析器类。 后来的解释者受到Jay Earleley(1970)和(分别)描述的高效和概念优雅的CFG解毒剂,并由John Cocke,Tadao Kasami和Daniel年轻(例如,年轻的1967年)。 后一种算法,称为三个单独作者的CYK或CKY算法特别简单,使用自下而上的动态编程方法首先识别和制表长度1的句子段的可能类型(非终端标签)(即单词),然后是长度2的可能类型的句子段,依此类推,始终构建先前发现的段类型以识别更长的短语。 该过程在句子的长度中以立方时间运行,并且可以在二次时间中从列表的成分构造解析树。 Cyk算法假设粗核正常形式(CNF)语法,只允许表格NP→NQ NR,或NP→W,即两个非锤子的产生或来自任何给定的非终端的单词的制作。 这只是一种浅表的限制,因为任意CF语法很容易转换为CNF。

如今,最常在完全分析的围绕结构中使用的方法是图表解析。 这是一个与刚才提到的算法密切相关的概念上简单有效的动态编程方法; 即,它首先将可能的分析分配给最小的成分,然后基于这些,直到找到跨越给定文本或文本段的顶级类别(通常是s)的实例。 有许多变体,具体取决于只有完整的成分是否被列入或不完整的组成部分(要逐步扩展),以及我们是否通过单词流或以其他方式进行左右(例如,一些看似最好的一阶)。 常见变体是左角图解析器,其中每当他们的“左角”时,部分成分被定位。,规则右侧的最左侧的成分已经到位。 新已完成的成员被置于议程上,并随着新的,更高级别的成分的左角,并延伸部分完成的成分,以外地取消议程。 同时,已完成的成员(或相当的类别)被放置在图表中,可以被认为是作为宽度n的三角形表和高度n(处理的单词数),其中指数(i,j)的小区,其中包含j>i,包含类别的类别到目前为止,所有完整的成分都验证到IN输入中的位置I到位置j。 该图表都使用图表,以避免已经构建的成分重复,最终重建一个或多个全局结构分析。 (如果构建了所有可能的图表条目,则最终图表将允许重建所有可能的解析。)图表解析方法基本上携带到PCFG而不发生变化,仍然在句子长度方面的立方时间内运行。 额外的任务是维持完成的图表条目的概率(也许在不完整条目的概率上进行修剪目的的概率)。

由于它们具有更大的表现力,标签和CCG在最坏的情况下(O(N6))比CFG和投影DGS(O(N3))更难解析(O(n3)),至少有当前算法(参见Vijay-Shankar&Weir 1994年基于自下而上的动态编程的标签,CCG和Lig解析算法)。 但是,它不遵循标签解析或CCG解析对于真实的语法和实际语言是不切实际的,实际上存在于对基于CFG的更多常见CFG的解析器具有竞争力的解析器。

最后,我们提到了解析的连接主义模型,它使用分层(人工)神经网(ANNS,NNS)执行句法分析(参见Palmer-Brown等人2002;梅尔布兰和Miikkainen 2008;和Bengio 2008进行调查)。 通常存在一层输入单元(节点),一个或多个隐藏单元层,以及输出层,其中每个层具有(兴奋性和抑制)连接到下一个层,通常向该层传送较高级别的成分的证据。 在隐藏层中也可能有联系,在替代方案中实施合作或竞争。 诸如特定类型的音素,单词或短语的语言实体可以通过该层(分布式表示)中的单位的激活模式或单个激活单元(局部表示)来表示在层内。

连接主义模型需要面对的问题之一是在时间上排序输入,以便为了组合成分部分,网络必须保留关于最近处理的部分的信息。 两种可能的方法是使用简单的经常性网络(SRNS),并且在局部网络中使用持续激活。 SRNS使用从隐藏的图层的一对一反馈连接到与上一层(通常是输入层或次级隐藏层)对齐的特殊上下文单元,实际上在这些上下文单元中存储其当前输出。 因此,在下一个周期,隐藏单元可以使用自己的先前输出,以及来自输入层的新输入,以确定其下一个输出。 在局部模型中,通常假设一旦一个单位(站立为特定概念)变为活动状态,它会在一段时间内保持活动状态,因此可以同时活动地保持与同一句子的多个部分的多个概念和它们的属性。 出现的问题是如何在给定的时间点处活动的实体的属性可以正确地绑定到该实体,而不是其他激活的实体。 (这是可变的绑定问题,它产生了各种方法 - 见布朗和1999年)。 一种解决方案是假设单元激活由全局固定频率发射的脉冲组成,并且彼此相位的脉冲列表对应于同一实体(例如,参见Henderson 1994)。 通过假设解析将语言短语结构分配给句子,以及处理符号语言约束(或偏差)的同时满足,从符号处理角度来看,通过符号处理透视图借鉴了许多符号处理透视图。 而且,正在探索更多的自由基形式的杂交和模块化,例如将NN解析器连接到符号堆栈,或者使用神经网络来学习统计解析器中所需的概率,或者将解析器网络互连单独的预测网络和学习网络。 有关连接句柄处理和某些混合方法的概述(请参阅CROKER 2010)。

2.4应对句法歧义

如果自然语言在结构上是一个全面,有效的语法的结构明确,但我们的解析技术可能会在前段时间大概已经获得了人类的准确性,而不是在大约90%的组成识别准确度下调平。 然而,事实上,语言对所有结构水平含糊不清:在语音的声音水平(“识别出言语”与“沉重的海滩”); 形态学(“未包装”与“unwrap-ped”); Word类别(圆形为形容词,名词,动词或副词); 复合词结构(野鹅追逐); 短语类别(名义上的“-子句与”他正在娱乐的想法“); 和修饰语(或补充)附件(“他击中了长棍面包的男人”)。 这里已经选择了括号的例子,使得它们的模糊性是易于显着的,但是含糊不余的比直观显而易见的更大,并且中等长句子的替代分析数量很容易遇到数千个。

当然,替代结构导致替代含义,如上述实施例表明,因此结构歧义是必不可少的。 如下所述,均匀的含义和话语功能的含义和话语功能的含糊不清的问题会加剧,如下所述(第4节)。 但在这里,我们只提到已经采用的一些结构偏好原则来实现至少部分结构消济歧义。 首先,建议的一些精神语言学原则是正确的关联(RA)(或迟到的闭合,LC),最小附着(MA)和词汇偏好(LP)。 以下示例说明了这些原则:

(2.1)

(ra)他买了我为玛丽选择的书。

(注意玛丽附加到选择而不是买的偏好。)

(2.2)

(马?)她带着玛丽杂货。

(注意尽管RA的偏好,玛丽而不是杂货的偏好。推定的MA效应实际上可能是LP样动词修改偏好。)

(2.3)

(LP)她描述了在农场作为牛仔队工作的人。

(注意偏好的偏好作为牛仔们描述,而不是工作。)

在文献中指出的另一种偏好是在协调中进行平行结构,如以下实施例所示:

(2.4)

他们要求喝茶和咖啡。

(尽管RA,请注意为[茶和茶和咖啡]的偏好]。)

(2.5)

约翰决定购买一本小说,玛丽,传记。

(部分被完全结合被理解为“玛丽决定购买传记”。)

(2.6)

约翰向编辑提交了短篇小说,也是诗歌。

(部分被完全结合被理解为“向编辑提交的诗歌”。)

最后,以下示例用于说明频率效应的重要性,但是这种效果难以从语义偏见从任何单句中的语义偏见解开(通过使用单词和短语频率解析的改进提供了更引人注目的证据):

(2.7)

空间中对象有什么自由度?

(请注意将相对子句附加到自由度的偏好,而不是自由,可归因于自由度的趋势,以作为“多字”发生。)

3.语义表示

语言有助于传达意义。 因此,句法结构的分析仅包括将该中心功能的机械化,以及特定方法对其效用的特定方法的优点,以及从要传达的含义产生语言。

这并不是说句法分析本身没有值 - 它可以在语法检查和统计MT等应用中提供有用的支持。 但是对于推断和表达语言含义的更雄心勃勃的目标,基本要求是语义表示的理论,以及如何与表面形式相关,以及它如何与背景知识的表示和使用方式。 我们将讨论逻辑学家方法,认知科学方法,(更简单地)出现意义代表的统计方法。

3.1逻辑家意义代表方法

大多数语言学学者,认知科学家和人类学家都会同意,在某种意义上,语言是一种心灵的镜子。 但是关于如何理解这一原则的有关如何字面或非字面意义的观点。 我们将术语逻辑观看的最重要的理解是将语言本身视为具有组合性的索引语义的语言本身 - 至少当我们添加了由解析树确定的括号,也许某些其他增强(变量),λ-运营商等)本身,这种观点没有关于心理陈述的承诺,而是在思想的剃刀和被推定的思想和语言的推出和思想和语言的应用中的应用,然后表明Mentalese本身就是语言。 “人类思维不是逻辑”的常见反对意见没有逻辑主义者的重量,因为逻辑含义表示表示绝不是妨碍不良的推理方式(归纳,绑定等); 逻辑家也不是由反对意见印象的,因为人们迅速忘记了口头传达的信息的确切措辞,因为输入的规范化和系统丢弃了所有,但主要征集可以解释这种遗忘。 还假设类似语言的,逻辑心理肯定并不排除其他表示和思想的模式,例如想象的模式,以及与这种模式的协同互动(Paivio 1986; Johnston&Williams 2009)。

将语言与逻辑相关联

由于理查德蒙塔图(特别是Montague 1970,1973),值得展示语言可以逻辑解释的大部分信用,让我们重新考虑图1中的句子结构和相应的语法规则和词汇,但这一次抑制功能而且表示可以在合成的方式获得蒙特拉文学性密集逻辑的(变体)中表达的逻辑解释。 我们稍微“扭曲”蒙塔古的类型系统,以便在符号或表达式的表示中,可能的世界论点始终是最后的,而不是首先。 例如,两个地方谓词将是类型的(e→(e→(e→t)))(连续应用于实体,另一个实体,最后一个可能的世界,以产生真相值),而不是蒙塔格的类型(s→(e→(e→t))),世界论点是首先。 这种蒙特拉尤的内涵(∧)和延伸(∨)运营商的许多应用分配,并且略微简化了真理条件。 为简单起见,我们还忽略了这里的上下文,以及将名词和vps视为真实或虚假的个人,而不是单个概念(因为蒙塔图所用而被认为是“温度为90和上升”的这种句子)。

s。→。NP vp; s'= np'(vp')

vp。→。v np; vp'=。(λxnp'(λyv'(y)(x))))

NP。→。det n; np'=检测'(n')

np→名称; np'=名称'

这里,Primed成分代表了相应的成分的强烈逻辑平移。 (或者我们可以将它们视为标识相应成分的设定理论表示的金属语言表达式。)应该注意几点。 首先,每个短语结构规则伴随着唯一的语义规则(通过EMMON BACH(1976)铰接为规则 - 规则假设),其中每个短语的表示由其直接成分的表示完全决定:语义是组成的。

其次,在S'-RULE中,假设主题是应用于VP(半代谓词)的二阶谓词,以产生句子内涵,而我们通常会将主题谓词语义视为另一个围绕的方式,使用vp antoot应用于主题。 但是蒙特拉的争论是他的治疗是正确的,因为它允许所有类型的对象 - 代词,名称和量化的NPS-均匀处理。 换句话说,NP始终表示二阶属性,或者(粗略地说)一组一定的属性(参见Lewis 1970)。 因此,例如,Thetis表示θ的所有属性集(某些上下文确定的个体具有该名称); (更准确地说,在本制定中,Thetis表示来自属性到句子强度的函数,其中针对特定属性获得的内涵产生了实体所提到的世界的真实性); 有些女人表示至少一个女人所拥有的所有物业的联盟; 每个女人都表示所有女性共享的一组属性。 因此,S'-RULE产生的句子内涵在给定的世界中,以防由主题映射由VP表示的属性映射到这种真实屈服的内涵的属性。

第三,在VP'规则中,假设变量x和y是类型e(它们将基本的个体作为值取值),并且转发动词的表示应该被认为是首先应用于对象的函数,然后从其函数世界到真理价值观 - 句子内涵)。 VP'-Rure中的Lambda - 抽象可以被理解为确保与任何NP相同的对象NP表示二阶属性,正确应用于普通属性(作为某个x的爱对象,并且结果是谓词关于(仍然开放)主题位置。 以下是解释的样本词汇表:

v→爱; v'=爱

检测→一个; DET'=。λpλq(∃x[p(x)∧q(x)])

(相比:

检测→每一个; DET'=。λpλq(∀x[p(x)⊃q(x)])

n→致命的; n'=致命

名称→忒提斯; 名称'=λp(p(忒提斯))

注意不确定的确定器(第2行)作为广义量化的解释,实际上在两个普通属性上产生二阶谓词,其中这些属性具有相交的真实域。

(本章完)

相关推荐