计算语言学(三)
第三,在VP′规则中,变量x和y被假定为类型e(它们以基本个体作为值),及物动词的外延应被视为一个函数,该函数首先应用于宾语,然后应用于主语(产生一个从世界到真值的函数——句子内涵)。VP′规则中的lambda抽象可以理解为确保宾语NP(与任何NP一样,表示二阶属性)正确地应用于普通属性(即作为某个x的爱之对象),并且结果是关于(仍然开放的)主语位置的谓词。以下是解释后的示例词汇:
V → loves; V′ = loves
Det → a; Det′ = λP λQ(∃x)P(x) ∧ Q(x)))
(比较:
Det → every; Det′ = λP λQ(∀x)P(x) ⊃ Q(x)))
N → 凡人;N′ = 凡人
Name → Thetis;Name′ = λP(P(Thetis))
注意不定限定词(第 2 行)的解释为广义量词——实际上是两个普通属性的二阶谓词,其中这些属性具有相交的真值域。我们本可以使用原子符号来表示这个二阶谓词,但上述展开方式显示了广义量词与普通存在量词之间的关系。虽然这是一个相当不言而喻的问题,但我们将在 4.1 节中指出句子“Thetis loves a mortal”经过一些 lambda 转换后如何得到以下表示:
(∃x )mortal(x) ∧ loves(x)(Thetis)))。
。(这个英语句子还有一种通用的或习惯性的读法,“Thetis loves mortals in general”,我们在这里忽略它。)这种解释看起来相当古典,但仅仅是因为我们在上述规则中将广义量词简化为普通量词,并将其构建到不定式 a 的词汇语义中,而不是使用原子符号来表示它。Montague 特别感兴趣的是令人满意地处理内涵式语句,例如“John seeks a unicorn”。这并不要求独角兽的存在才能为真——John 与独角兽属性有某种关系,而不是与存在的独角兽有某种关系。因此,Montague 将所有谓词论证都视为内涵;即,他将“John seeks a unicorn”译为
。 seeks(λQ ∃x)unicorn(∧x) ∧ Q(∧x))) (∧john),
可以简化为将 unicorn 外延为 unicorn* 的版本:
seeks(λQ ∃x)unicorn*(x) ∧ Q(∧x))) (∧john).
但最终,Montague 对 NPs 的处理,虽然在某种意义上是他提出的“语言即逻辑”概念的核心,却并未在计算语言学中得到广泛采用。部分原因是后者并不确信自然语言语义学需要 omega-order 逻辑,认为对不同论元位置上的 NPs 进行较为复杂的处理,尤其是在多种句法分析方面对范围歧义的处理缺乏吸引力,并且专注于其他语义问题,例如充分表示事件及其关系,以及开发系统的名词和动词“本体”以进行广泛覆盖的自然语言分析。尽管如此,将语言构建为逻辑这一理念在计算语义学中留下了深刻的印记,通常将该领域引向组合方法,并且在一些方法(例如 CCG)中,为与类型论语义学紧密耦合的语法提供了基础(Bach 等人,1987;Carpenter,1997)。
。
。 Montague 基于语法的量词范围歧义处理方法的另一种替代方法是,将形式为 Det+N(或严格来说,Det+N-bar)的名词短语视为最初未限定范围的高阶谓词,其逻辑形式尚未明确指定,随后将被“提升”,以便应用于通过对空出的词项位置进行 lambda 抽象而获得的一阶谓词。例如,在句子“Everyone know a poem”中,如果对宾语进行存在性解释,我们将得到未明确指定的 LF
know⟨a(poem)⟩⟨every(person)⟩
(无需将限定词简化为经典量词),我们现在可以“提升”⟨a(poem)⟩ 得到
a(poem)(λy know(y)⟨every(person)⟩,
然后“提升”⟨every(person)⟩,得到
a(poem)(λy every(person)(λx know(y)(x))),
或
every(person)(λx a(poem)(λy know(y)(x))).
这样,我们得到一种解读,根据这种解读,有一首诗是每个人都知道的,还有另一种解读,根据这种解读,每个人都知道某首诗(不一定是同一首)。(更多关于范围消歧的内容将在第 4 节中介绍)。这种方法的一个系统版本,称为 Cooper 存储(参见 Barwise & Cooper 1981),将短语的含义表示为两部分,即 NP 解释序列(作为高阶谓词)和从中提取 NP 解释的逻辑矩阵。
但也可以采取更传统方法首先避免在谓词语义中使用“柯里化”(Schönfinkel-Church-Curry)函数,而倾向于使用关系解释,使用诸如loves′ = λyλx(loves(x, y))之类的词汇语义公式;其次,将无作用域的NP解释视为无作用域的限制量词(Schubert & Pelletier 1982)。因此,上述无作用域的LF将是knows(⟨∃poem⟩, ⟨∀person⟩),而量词及其限制符的作用域现在涉及“提升”量词以覆盖句子公式,同时引入变量。因此,与这两种替代作用域相对应的两个结果是
(∃y: poem(y))(∀x: person(x))knows(x, y),
和
(∀x: person(x))(∃y: poem(y))knows(x, y).
虽然这种策略背离了 Montague 语法的严格组合性,但它通常能够以最少的计算量实现令人满意的结果。目前颇受欢迎的一种处理逻辑形式和范围歧义的相关方法是最小递归语义 (MRS) (Copestake 等人,2005),它更进一步地将表达式中有意义的部分分割开来,目的是允许基于约束将这些部分逐步组装成无歧义的句子逻辑函数 (LF)。另一个有趣的发展是基于延续性 (continuations) 的方法,延续性是一个源自编程语言理论的概念(其中延续性是指程序执行状态,由当前指令之后仍需执行的步骤决定)。这种方法还可以统一描述量词的含义,并可以处理诸如“修饰语错位”之类的现象,例如“He喝了一杯咖啡”(Barker 2004)。
。
。逻辑语义学的一项重要创新是话语表征理论 (DRT) (Kamp 1981; Heim 1982),旨在系统地解释首语重复。部分目标是为名词短语作为首语重复代词的指称的(不)可及性提供语义解释,例如,在“约翰不开车;*他拥有它”与“约翰开车;他拥有它”等对比示例中。更重要的是,目标是解释涉及驴首语重复的句子的令人费解的语义,例如“如果约翰拥有一头驴,他会打败它”。不仅名词短语驴(if 从句的宾语)可以作为首语重复代词 it 的指称,这与传统的句法绑定理论(基于 C 命令的概念)相反,而且我们似乎获得了一种解释“约翰打败了他拥有的每一头驴”这种类型的句子,无法通过“提升”嵌入的不定式 a donkey 的范围来覆盖整个句子来获得。还有一种较弱的解读,即“如果约翰拥有一头驴,他就会打败他拥有的一头驴”,这种解读也无法通过任何范围分析获得。Kamp 和 Heim 提出了一种动态的句子解释过程,其中逐步建立了一个话语表征结构 (DRS)。DRS 由一组话语指称(变量)和一组条件组成,这些条件可以是对话语指称的简单谓词或方程,也可以是 DRS(而非条件)的某些逻辑组合。所考虑句子的 DRS 可以线性写成
): )x, y: john(x), donkey(y)) ⇒ )u, v: he(u), it(v), beats(u, v), u=x, v=y))
或图示为
) 一个带有水平线的框
将其分成两部分。上半部分约占
空间的六分之一,为空。下半部分并排包含另外两个框
并由一个双右箭头连接它们。左侧框也被
水平分成两部分;上半部分包含“x,y”;
下半部分有三行,分别包含“john(x)”、“donkey(y)”和“owns(x,y)”。
右侧框也被水平分成两部分;上半部分
包含“u,v”;下半部分有五行,分别包含
“he(u)”、“it(u)”、“beats(u,v)”、“u=x”和“v=y”。)
图 2:“如果 John 拥有一头驴,他会打败它”的 DRS
这里,x、y、u、v 分别是约翰、驴、他和它引入的语篇指称,而等式 u=x, v=y 表示他和它的指称解析结果。条件句前件中的语篇指称在后件中可访问,嵌入 DRS 中的语篇指称在嵌入 DRS 中可访问
从语义上讲,最重要的思想是语篇指称是动态评估的。我们将变量赋值视为一种状态,当我们从外到内、从左到右评估DRS时,这种状态会发生变化。例如(稍微简化一下),图4中的条件DRS为真(在给定模型中),如果每个使前件为真的域{x, y}的赋值都可以扩展为一个使后件为真的域{x, y, u, v}的赋值(新状态)。
从表面上看,DRT是非组合性的(尽管DRS构造规则与短语结构规则系统地相关);但它可以以组合形式重塑,当然仍然具有动态语义。与之密切相关的方法,动态谓词逻辑 (DPL),保留了经典的量化语法,但实际上将存在量化视为非确定性赋值,并提供了一种明显组合性的DRT替代方案 (Groenendijk & Stokhof 1991)。或许令人惊讶的是,DRT 对实际计算语言学的影响相当有限,尽管它确实已经并将继续在各种项目中被积极运用。原因之一可能是,驴首指代在迄今为止计算语言学家最深入研究的文本语料库中很少出现(尽管它在通用句子和通用段落中普遍存在且极其重要,包括在词典或诸如 Common Sense Open Mind 等来源中发现的——参见 4.3 和 8.3 节)。另一个原因是,非驴代词(和有确定名词短语)的指称消解很容易通过诸如存在句的 Skolem 化等技术来处理,因此随后出现的照应可以用前面介绍的 Skolem 常数来识别。事实上,事实证明,即使是驴照应,也可能存在显性和隐性的 Skolem 化变体,包括功能 Skolem 化(例如,在“如果每个人都有枪,很多人都会使用它”这样的句子中——参见 Schubert 2007)。最后,动态语义理论和其他动态语义理论影响有限的另一个原因可能恰恰在于它们是动态的:对一个公式的评估通常需要其前置和嵌入的语境,而这会干扰推理所需的知识模块性(在各种不同语境中使用任何给定知识项的能力)。这里需要注意的是,从动态理论理论 (DRT)、动态语言逻辑理论 (DPL) 和其他动态理论到静态逻辑的直接转换程序是存在的(例如,对于动态方法的非内涵版本,可以转换为动态语言逻辑理论 (FOL)),但如果出于实际目的需要进行这种转换,那么就会出现一个问题:从动态表征入手是否有优势。
主位角色和(新)戴维森表征
语言语义学中一个长期存在的问题是主位角色在动词论元结构和其他语言论元元素中的理论地位(例如,Dowty 1991)。许多语言中发现的句法标记格直观地对应于施事、主位、受事、工具、接受者、目标等主位角色;在英语中也是如此,句子的主语和宾语通常分别对应于动作的施事、主位或受事,其他角色可以作为间接宾语添加,或者更常见的是作为介词短语补语和修饰语添加。为了正式表达这些直觉,许多计算语言学家将源自语言的动词性(及其他)谓词分解为一个核心谓词,并辅以表示主题角色的明确二元关系。例如,句子
(3.1)
John 将球踢向栅栏
可以表示为(在指称对象确定之后)
∃e(kick(e) ∧ before(e, Now1) ∧ agent(e, John) ∧ theme(e, Ball2) ∧ goal-loc(e, Fence3)),
其中 e 被认为是踢球事件。这种表示被称为新戴维森式,承认唐纳德·戴维森 (Davidson) 所倡导的观点,即动词默认地引入了存在量化事件 (Davidson 1967a)。前缀 neo- 表示所有论元和修饰语都以主位角色 (thematic role) 的形式表示,这并非戴维森 (Davidson) 提议的一部分,但在 Parsons 1990 等文献中有所发展。(帕森斯将主位角色的概念归功于公元前 4 世纪的梵文语法学家波提尼 (Pāṇini)。)这种表示方式的一个优点是,它使解释规则的制定者免于区分动词补语(将并入动词的论元结构)和修饰语(用于添加修饰信息)的繁琐任务。例如,在 (3.1) 中,对于“到篱笆 (to the fence)”是否应被视为提供“踢 (kick)”的论元,或者它是否仅仅修饰了约翰踢球的动作,这一点并不明确。也许大多数语言学家会认为后者是正确的(因为踢物体可以不是为了将其推到目标位置),但直觉往往对诸如运球、踢、操纵、移动和运输等一组动词中的至少一个动词产生矛盾。
然而,主位角色也带来了新的困难。正如 Dowty (1991) 指出的那样,主位角色缺乏明确的语义定义。例如,虽然 (3.1) 清楚地涉及有生命的施事者对物理对象产生因果作用,并且 PP 显然提供了目标位置,但在 (3.2–3.4) 等(源自网络的)句子中,角色应该是什么,以及它们将承载什么语义内容,则不太清楚:
(3.2)
海浪将松动的石头拍打在我们的脚上。
(3.3)
他前面的一辆大卡车挡住了他对交通信号灯的视线。
(3.4)
警方使用嗅探犬嗅探嫌疑人的行李。
此外,在主题关系方面对补语和修饰语的统一处理并不意味着计算语言学家可以免除识别动词短语(以及类似的名词短语和动词后缀)的子类别成分的任务,从而指导解析和解释中的句法和语义预期。这些子类别成分与动词的补语紧密对应,不同于任何修饰语。尽管如此,主题角色表示仍然被广泛使用,部分原因是它们与基于框架的领域知识表示很好地融合。这些表示根据概念的类型(将其与继承层次结构中的超类型和子类型相关联)以及一组槽位(也称为属性或角色)及其对应的值来表征概念,并对值进行类型约束。例如,在购买领域中,我们可能有一个购买谓词,其父类型可能是 acquire,子类型可能是分期付款、赊购或现金购买,属性的类型值也可能是
、
、
、
,可能还有时间、地点和其他属性。与动词和名词相关义项相关的主题角色,例如 buy、sell、purchase、acquisition、take-over、pick up、invest in、splurge on 等,可以轻松映射到上述标准槽位。这引出了规范化的问题,我们将在下面的单独标题下简要讨论。
表达性问题
计算语义学中一个更重要的问题是所用语义表示的表达力,涉及事件和时间指称、非标准量词(如大多数)、复数、修饰、情态和其他形式的内涵性以及具体化等现象。这里不宜全面讨论这些现象,但有必要对每一种现象进行一些评论,因为语义解释和理解(以及生成)的过程显然取决于语义表示中可用的表达手段。
鉴于许多句子似乎在描述事件或情况,并且限定和指称它们,事件和情况指称至关重要。例如,在句子
(3.5)
莫莉昨晚叫了几分钟。这吵醒了邻居。
吠叫事件实际上被预测为昨晚发生并持续了几分钟,指示代词 this 显然直接指代它;此外,过去时态将事件置于说话时间之前的某个时间点(即使没有时间状语也会如此)。这些时间和因果关系很容易在上文提到的戴维森(或新戴维森)框架内处理:
(3.5′)
。吠叫(Molly,E)∧昨晚(E,S)∧之前(E,S)∧持续时间(E)=分钟(N)∧几个(N)。导致唤醒(E,邻居,E′)∧之前(E′,S)。
。然而,例子 (3.6) 和 (3.7) 表明事件可以通过否定或量化公式来引入,正如 Reichenbach (1947) 最初提出的那样:
。
。(3.6)
。一个月没有下雨,这导致了大面积的农作物歉收。
。(3.7)
。每个超级大国都用其核武库危及另一个超级大国。这种情况持续了几十年。
。 Barwise 和 Perry (1983) 在他们的情境语义学中重新概念化了这一思想,尽管这缺乏句子和事件之间的紧密联系,而这种联系对于捕捉语言中表达的因果关系而言无疑是必需的。Schubert (2000) 提出了一种解决方案,在 FOL 的一个扩展中加入了连接情境或事件与描述它们的句子的运算符。
关于像 most 这样的非标准量词,我们已经概述了 Montague 语法的广义量词方法,并指出了使用受限量词的另一种选择;一个例子可能是 (Most x: dog(x))friendly(x)。我们不必将 most 视为二阶谓词,而是可以通过与经典量词的类比来指定它的语义:样本公式在给定解释下为真,仅当满足 dog(x)(用作 x 的值时)的大多数个体也满足 friendly(x)。量化限定词,例如“少数”、“许多”、“很多”、“几乎所有”等,可以类似地处理,但最终也需要解决模糊性问题(这当然不仅限于量词,还包括谓词,甚至形式语义表征的各个方面)。模糊量词并非设定严格的量化界限,而是似乎在传达概率信息,仿佛在表述量化主张时使用了一种不太可靠的测量工具,而信息的接收者需要在更新信念时考虑到这种不可靠性。除了模糊性之外,本文讨论的量词并非一阶可定义(例如,Landman 1991),因此它们无法在FOL中完全公理化。但这并不妨碍实际推理,无论是在句子的逻辑表示中直接使用这些量词(一种符合自然逻辑精神的方法),还是在FOL框架内将它们简化为集合论或部分论关系。