计算语言学(二)
上下文无关语法的典型(略有简化)示例片段如下,其中短语类型用特征值对进行注释:
S)vform:v) → NP)pers:p numb:n case:subj) VP)vform:v pers:p numb:n)
VP)vform:v pers:p numb:n) → V)subcat:_np vform:v pers:p numb:n) NP)case:obj)
NP)pers:3 numb:n) → Det)pers:3 numb:n) N)numb:n)
NP)numb:n pers:3 case:c) → Name)numb:n pers:3 case:c)
这里,v、n、p、c 是变量,可以取值例如‘过去’、‘现在’、‘原形’、‘过去分词’等(即各种动词形式)、‘1’、‘2’、‘3’(第一、第二和第三人称)、‘单数’、‘复数’以及‘主语’、‘宾语’。subcat 特征指示动词的补语要求。词典会提供诸如
V)subcat:_np vform:pres numb:sing pers:3) → loves
Det)pers:3 numb:sing) → a
N)pers:3 numb:sing) → mortal
Name)pers:3 numb:sing gend:fem case:subj) → Thetis,
例如,可以对句子“Thetis loves a mortal”进行短语结构分析(其中,我们为简单起见省略了特征名称,仅保留了它们的值,并且忽略了格特征):
) 树形图:在顶部,
S)pres),一条线将顶部节点连接到第一个,NP)3 sing subj),
连接到,Name)3 sing subj),后者连接到
‘Thetis’。从顶部节点开始的第二条线连接到
VP)pres 3 sing),后者又首先连接到 V)_np pres 3 sing)
连接到‘loves’。其次,它连接到 NP)3
sing),后者又连接到 Def)3 sing)(以及
‘a’)和 N)3 sing)(以及‘mortal’)。)
。图 1:将句子的句法分析视为一棵解析树
。作为 CFG 的一种变体,依存语法 (DG) 也广受欢迎。它与 CFG 的区别在于,DG 的层次分组是通过将词直接归属于词(允许一个中心词有多个从属项),而不是将短语归属于短语来实现的。例如,在图 1 的句子中,我们将 Thetis 和 mortal 视为 loves 的从属项,分别使用标记为 subj 和 obj 的依存链接,而限定词 a 反过来又会通过依存链接 mod(用于修饰词)成为 mortal 的从属项。投射依存语法没有交叉依存关系(因此节点的后代构成一个连续的文本段),它们生成的语言与 CFG 相同。值得注意的是,轻度非投射依存语法允许一个中心词主导两个独立的词块,其生成能力与前面提到的某些语言所需的轻度上下文相关框架相同 (Kuhlmann 2013)。
。
。正如本节开头所述,传统的形式语法覆盖范围过于有限,语法标准过于僵化,无法为实际使用的自然语言提供稳健覆盖的基础,这种情况一直持续到概率语法的出现,这种语法源于大量的短语括号语料库(尤其是宾州树库)。这类语法最简单的例子是概率上下文无关语法,简称 PCFG。在 PCFG 中,每个短语结构规则 X → Y1 … Yk 都被赋予一个概率,该概率被视为 X 类型成分扩展为 Y1, …, Yk 类型(直接)成分序列的概率。在最低层级,扩展概率指定了给定词性(例如 Det、N 或 V)实现为特定单词的频率。这种语法不仅提供了语言的结构模型,还提供了语言的分布模型,可以预测各种短语序列以及(在最低层级)单词序列的出现频率。
然而,这种类型的最简单模型不会非常准确地模拟实际语言语料库的统计信息,因为给定短语类型(或语音的一部分)x的扩展概率忽略了生成的成分的周围的短语上下文和更详细的属性(如头单词)。 然而,背景和详细的性质是非常有影响力的; 例如,在“她检测到与{双筒望远镜,行星}”修改的“她检测到一个星星”的最终介词短语是否非常依赖于单词选择。 这种建模不准确导致解析不准确性(参见下一个小节),因此生成语法模型以各种方式改进,例如(所谓的词汇化模型),允许在规则中规范特定的短语单词或(在树替代语法中)允许将非终结器扩展到深度2或更多的子树中。 尽管如此,似乎可能需要考虑语言的完全准确的分布建模,而是需要考虑通信中的语义内容,话语结构和意图,不仅是短语结构。 可能的建筑语法(例如,Goldberg 2003),它强调了根深蒂固的语言模式(包括普通短语结构,陈词滥调和成语)与其含义和话语职能之间的耦合将为建筑提供概念语言的统计模型足以实现更近乎人类的解析精度。
2.3解析
AI的早期自然语言分析倾向于依赖模板匹配,例如,匹配模板(例如(x有Y)或(有多少Y在x上)到要分析的输入。 这当然取决于具有非常限制的话语和任务领域。 到了20世纪60年代后期和70年代初期,正在采用相当复杂的递归解析技术。 例如,Woods的月球系统使用了一个自上而下的递归解析策略,以2.2节大致指示的方式解释ATN(尽管原则上的Atns允许其他解析风格)。 它还保存了一个表中的公认成分,就像我们即将描述的解析器类。 后来的解释者受到Jay Earleley(1970)和(分别)描述的高效和概念优雅的CFG解毒剂,并由John Cocke,Tadao Kasami和Daniel年轻(例如,年轻的1967年)。 后一种算法,称为三个单独作者的CYK或CKY算法特别简单,使用自下而上的动态编程方法首先识别和制表长度1的句子段的可能类型(非终端标签)(即单词),然后是长度2的可能类型的句子段,依此类推,始终构建先前发现的段类型以识别更长的短语。 该过程在句子的长度中以立方时间运行,并且可以在二次时间中从列表的成分构造解析树。 Cyk算法假设粗核正常形式(CNF)语法,只允许表格NP→NQ NR,或NP→W,即两个非锤子的产生或来自任何给定的非终端的单词的制作。 这只是一种浅表的限制,因为任意CF语法很容易转换为CNF。
如今,最常在完全分析的围绕结构中使用的方法是图表解析。 这是一个与刚才提到的算法密切相关的概念上简单有效的动态编程方法; 即,它首先将可能的分析分配给最小的成分,然后基于这些,直到找到跨越给定文本或文本段的顶级类别(通常是s)的实例。 有许多变体,具体取决于只有完整的成分是否被列入或不完整的组成部分(要逐步扩展),以及我们是否通过单词流或以其他方式进行左右(例如,一些看似最好的一阶)。 常见变体是左角图解析器,其中每当他们的“左角”时,部分成分被定位。,规则右侧的最左侧的成分已经到位。 新已完成的成员被置于议程上,并随着新的,更高级别的成分的左角,并延伸部分完成的成分,以外地取消议程。 同时,已完成的成员(或相当的类别)被放置在图表中,可以被认为是作为宽度n的三角形表和高度n(处理的单词数),其中指数(i,j)的小区,其中包含j> i,包含类别的类别到目前为止,所有完整的成分都验证到IN输入中的位置I到位置j。 该图表都使用图表,以避免已经构建的成分重复,最终重建一个或多个全局结构分析。 (如果构建了所有可能的图表条目,则最终图表将允许重建所有可能的解析。)图表解析方法基本上携带到PCFG而不发生变化,仍然在句子长度方面的立方时间内运行。 额外的任务是维持完成的图表条目的概率(也许在不完整条目的概率上进行修剪目的的概率)。
由于它们具有更大的表现力,标签和CCG在最坏的情况下(O(N6))比CFG和投影DGS(O(N3))更难解析(O(n3)),至少有当前算法(参见Vijay-Shankar&Weir 1994年基于自下而上的动态编程的标签,CCG和Lig解析算法)。 但是,它不遵循标签解析或CCG解析对于真实的语法和实际语言是不切实际的,实际上存在于对基于CFG的更多常见CFG的解析器具有竞争力的解析器。
最后,我们提到了解析的连接主义模型,它使用分层(人工)神经网(ANNS,NNS)执行句法分析(参见Palmer-Brown等人2002;梅尔布兰和Miikkainen 2008;和Bengio 2008进行调查)。 通常存在一层输入单元(节点),一个或多个隐藏单元层,以及输出层,其中每个层具有(兴奋性和抑制)连接到下一个层,通常向该层传送较高级别的成分的证据。 在隐藏层中也可能有联系,在替代方案中实施合作或竞争。 诸如特定类型的音素,单词或短语的语言实体可以通过该层(分布式表示)中的单位的激活模式或单个激活单元(局部表示)来表示在层内。
连接主义模型需要面对的问题之一是在时间上排序输入,以便为了组合成分部分,网络必须保留关于最近处理的部分的信息。 两种可能的方法是使用简单的经常性网络(SRNS),并且在局部网络中使用持续激活。 SRNS使用从隐藏的图层的一对一反馈连接到与上一层(通常是输入层或次级隐藏层)对齐的特殊上下文单元,实际上在这些上下文单元中存储其当前输出。 因此,在下一个周期,隐藏单元可以使用自己的先前输出,以及来自输入层的新输入,以确定其下一个输出。 在局部模型中,通常假设一旦一个单位(站立为特定概念)变为活动状态,它会在一段时间内保持活动状态,因此可以同时活动地保持与同一句子的多个部分的多个概念和它们的属性。 出现的问题是如何在给定的时间点处活动的实体的属性可以正确地绑定到该实体,而不是其他激活的实体。 (这是可变的绑定问题,它产生了各种方法 - 见布朗和1999年)。 一种解决方案是假设单元激活由全局固定频率发射的脉冲组成,并且彼此相位的脉冲列表对应于同一实体(例如,参见Henderson 1994)。 通过假设解析将语言短语结构分配给句子,以及处理符号语言约束(或偏差)的同时满足,从符号处理角度来看,通过符号处理透视图借鉴了许多符号处理透视图。 而且,正在探索更多的自由基形式的杂交和模块化,例如将NN解析器连接到符号堆栈,或者使用神经网络来学习统计解析器中所需的概率,或者将解析器网络互连单独的预测网络和学习网络。 有关连接句柄处理和某些混合方法的概述(请参阅CROKER 2010)。
2.4 应对句法歧义
。如果自然语言在结构上就某种全面、可有效解析的语法而言是无歧义的,那么我们的解析技术大概早就达到与人类相似的准确率了,而不是停留在 90% 左右的成分识别准确率。然而,事实上,语言在所有结构层面上都存在歧义:语音层面(“识别语音” vs. “破坏一片美丽的海滩”);形态层面(“un-wrapped” vs. “unwrap-ped”);词类层面(round 用作形容词、名词、动词或副词);复合词结构层面(wild goose chase);短语类别层面(名词性 that 从句 vs. “the idea that he is entertaining” 中的关系从句);以及修饰语(或补语)附着层面(“He hit the man with the baguette”)。这里选择括号中的例子是为了使其歧义显而易见,但歧义远比直观上看到的要多,对一个中等长度句子的替代分析数量很容易达到数千个。
自然,如上例所示,替代结构会导致替代含义,因此结构消歧至关重要。即使是句法上无歧义的单词和短语,其含义和话语功能也存在歧义,这会加剧这一问题,如下文(第 4 节)所述。但这里我们仅提及一些已用于实现至少部分结构消歧的结构偏好原则。首先,一些已提出的心理语言学原则包括正确联想 (RA)(或晚期闭合,LC)、最小依恋 (MA) 和词汇偏好 (LP)。以下示例说明了这些原则:
(2.1)
(RA) 他买了我为玛丽挑选的那本书。
(请注意,玛丽更喜欢将“选择”而不是“购买”附加到“选择”上。)
。(2.2)
。(MA?)她为玛丽拿了杂货。
。(请注意,尽管有 RA,玛丽仍然更喜欢将“拿”而不是“杂货”附加到“携带”。假定的 MA 效应实际上可能是一种类似 LP 的动词修饰偏好。)
。(2.3)
。(LP)她将在农场工作的男人描述为牛仔。
。(请注意,更喜欢将“牛仔”描述为“描述”,而不是“工作”。)
。文献中提到的另一个偏好是并列结构的平行,如下例所示:
。
。(2.4)
。他们要了加糖的茶和咖啡。
。(请注意,尽管有 RA,玛丽仍然更喜欢将“茶和咖啡”加糖分组。)
。(2.5)
。约翰决定买一本小说,玛丽决定买一本传记。
。 (部分省略的连接词可理解为“玛丽决定买一本传记”。)
。(2.6)
。约翰向编辑提交了短篇小说,还有诗歌。
。(部分省略的连接词可理解为“也向编辑提交了诗歌”。)
。最后,下面的例子可以说明频率效应的重要性,尽管这种效应很难与任何单个句子的语义偏差区分开来(通过使用单词和短语频率来改进解析提供了更有说服力的证据):
。
。(2.7)
。物体在空间中的自由度是多少?
。(请注意,倾向于将关系从句附加到自由度而不是自由度,这是因为自由度倾向于以“多词”的形式出现。)
。3. 语义表示
。语言用于传达意义。因此,句法结构分析只能帮助我们部分地实现这一核心功能的机械化,而特定句法方法的优劣取决于它们在支持语义分析以及从待传达的意义生成语言方面的效用。
这并不是说句法分析本身没有价值——它可以在语法检查和统计机器翻译等应用中提供有益的支持。但对于推断和表达语言意义这一更宏伟的目标而言,一个必不可少的条件是建立语义表征理论,以及它与表层形式的关系,以及它如何与背景知识的表征和使用相互作用。我们将讨论逻辑主义方法、认知科学方法以及(更简要地)新兴的统计学方法在意义表征方面的应用。
3.1 逻辑主义的意义表征方法
大多数语言语义学家、认知科学家和人类学家都同意,在某种意义上,语言是心灵的镜子。但对于应该如何从字面或非字面角度理解这一信条,人们的看法存在分歧。最字面意义上的理解,我们称之为逻辑主义观点,认为语言本身是一种具有组合语义和指示语义的逻辑意义表征——至少在我们添加了由解析树确定的括号,以及可能添加某些其他增强项(变量、lambda 运算符等)的情况下是如此。这种观点本身并不对心理表征做出任何承诺,但运用奥卡姆剃刀原理以及假定的思维与语言的共同进化,则表明心理语本身就类似于语言。“人类思维不合逻辑”这一常见反对意见对逻辑主义者来说毫无意义,因为逻辑意义表征绝不排除非演绎的推理方式(归纳推理、溯因推理等);逻辑主义者也不认同人们很快就会忘记口头传达信息的确切措辞这一反对意见,因为输入的规范化和系统性地丢弃除主要蕴涵之外的所有蕴涵都可以解释这种遗忘。同样,假设存在一种类似语言的逻辑心智语言,当然并不排除其他表征和思维模式,例如意象思维模式,以及与这些模式的协同互动 (Paivio 1986; Johnston & Williams 2009)。
将语言与逻辑联系起来
由于理查德·蒙塔古(尤其参见 Montague 1970, 1973)在证明语言可以被逻辑建构方面功不可没,因此让我们重新审视图 1 中的句子结构以及相应的语法规则和词汇,但这次隐藏一些特征,而是指出如何通过组合获得蒙塔古类型论内涵逻辑(的一种变体)中表达的逻辑解释。我们稍微“扭曲”了蒙塔古的类型系统,使得可能世界论证在符号或表达式的外延中总是排在最后,而不是最前面。例如,二元谓词将是 (e → (e → (s → t))) 类型(依次应用于一个实体、另一个实体,最后是一个可能世界以得出真值),而不是 Montague 的类型 (s → (e → (e → t))),其中世界论证在前。这省去了 Montague 内涵 (∧) 和外延 (∨) 运算符的大量应用,也稍微简化了真值条件。为简单起见,我们在这里也忽略了上下文指标,并将名词和 VP 视为个体的真或假,而不是个体概念(Montague 用它来解释诸如“温度为 90 度并且还在上升”之类的句子)。
S → NP VP; S′ = NP′(VP′)
VP → V NP; VP′ = (λx NP′(λy V′(y)(x)))
NP → Det N; NP′ = Det′(N′)
。NP → Name;NP′ = Name′
。这里,带撇号的成分表示相应成分的内涵逻辑翻译。(或者,我们可以将它们视为元语言表达式,代表相应成分的集合论意义。)需要注意几点。首先,每个短语结构规则都伴有唯一的语义规则(Emmon Bach (1976) 提出了规则到规则假设),其中每个短语的意义完全由其直接成分的意义决定:语义是组合性的。
。
。其次,在 S′ 规则中,主语被假定为二阶谓词,它应用于 VP(一元谓词)的外延以产生句子内涵,而我们通常认为主语-谓语语义应该反过来,即将 VP 外延应用于主语。但 Montague 认为他的处理方式是正确的,因为它允许统一处理所有类型的主语——代词、名称和量化 NP。换句话说,NP 始终表示二阶属性,或者(粗略地说)一组一阶属性(另见 Lewis 1970)。因此,例如,Thetis 表示 Thetis(具有该名字的某个由上下文确定的个体)所具有的所有属性的集合; (更准确地说,在目前的表述中,Thetis 表示从属性到句子内涵的函数,其中针对特定属性获得的内涵在所指实体具有该属性的世界中产生真值);some woman 表示至少一个女人拥有的所有属性的并集;every woman 表示所有女人共有的属性集。因此,S′ 规则产生的句子内涵在给定世界中为真,仅当主语表示的二阶属性将 VP 表示的属性映射到这样一个产生真值的内涵时。