类型逻辑语法(三)
对于模态扩展的句法源演算和语义目标演算LP之间的映射,我们有两种选择。第一种是将◊,□纯粹视为句法控制手段。然后设(◊A)′ = (□A)′ = A′,影响模态的推理规则在与推导相关的LP项中不留痕迹。第二种方法是实际为新类型提供指称域,并相应地扩展术语“语言”。对于◊,□的最小逻辑,可以参考Wansing (2002),他发展了最小时间直觉逻辑的集合论解释。未来可能性和过去必然性的时间模态在理论上和就其关系解释而言,与控制算子◊,□难以区分。Morrill (1990) 在内涵λ演算中给出了更强的S5模态的解释,该模态在框架语义层面上假设了普遍的可达性关系。在这种情况下,模态化公式A的指称是从指标(情境、参考点)到A指称的函数。
讨论。这里讨论的控制算子与 Stabler 在其极简主义语法代数表述(Stabler 1997, 1999)中使用的句法控制特征非常相似。这些特征,例如◊, □,以许可方“+f”和被许可方“-f”的配对形式出现,它们必须相互抵消才能使推导成功;移动由合适的许可方特征触发。关于极简主义和类型逻辑对结构控制观点的详细比较,请参阅 Vermaat (2004)。
是否需要模态控制结构规则的完整表达能力,尚有争议。Vermaat (2006) 坚定地认为,跨语言的位移可能性可以通过上述右分支提取假设及其从左分支提取的镜像来完全捕捉。根据这种观点,这与原始范畴系统的激进词汇主义相一致,该公设集固定在普遍语法的层面,而变异则被简化为特定语言的词汇,这些词汇决定了哪些可用的提取模式会被激活。
3.2 非连续性逻辑
Morrill 等人(参见 Morrill 等人,2007、2009)以及即将出版的专著(Morrill,2010)第六章开发的非连续 Lambek 演算扩展了结合型 Lambek 演算 L。我们看到,L 是由连接构成的字符串逻辑。非连续演算通过拆分字符串的概念丰富了本体论:由分离部分组成的表达式,例如成语“take — to task”。为了构造短语“take someone to task”,需要将非连续表达式包裹在其对象之外。在这个特定的例子中,只有一个不连续点,但也可以考虑具有多个分裂点的情况。这自然引出了两种不连续组合的概念:一种是确定性观点,其中包装针对特定的分裂点;另一种是非确定性观点,其中目标分裂点是任意的。对于具有单个分裂点的表达式,这两个概念是一致的。
DL(不连续兰贝克演算)的词汇表由一元和二元类型形成运算的剩余族组成。下面给出了一个代表性示例。对于二元情况,除了 L 的串联积和剩余斜线运算之外,还有一个不连续(包装)积 ⊙,其中包含剩余插入 ↓ 和提取 ↑ 运算。对于确定性解释,不连续类型形成运算具有索引形式 ↑k, ⊙k,↓k 明确地指向其解释项的第 k 个分裂点。一元运算的功能是控制分裂点的创建和移除。与二元运算类似,我们也有非确定性运算(桥接∧、分裂∨)和具有确定性解释的索引形式 (∧k,∨k)。
A,B ::= … | A ⊙ B | A ↓ B | B ↑ A | ∧A | ∨A
在模型论方面,深度学习的一个创新之处在于转向了多重排序解释。其关键概念是分阶代数:一个自由生成的代数 (W,·,1, ⎵),其中 L* 解释的幺半群 (W,·,1) 被一个称为分离符的特殊生成器 ⎵ 所增强。表达式 s 的类别 σ(s) 由其中分离符出现的次数给出。零元类型的表达式是 L 语言模型中常见的字符串。n > 0 类型的表达式是拆分字符串,其中 n 个位置被标记,其他表达式可以替换这些位置。
类型的解释现在被相对化为已排序域 Wi = {s | σ(s) = i},其中 i ≥ 0。相应地,框架是已排序结构 ({Wi}i∈N,Rbridge,Rwrap,·,{bridgek}k∈N*,{wrapk}k∈N*),其中 n 元类型形成运算具有非确定性解释,n 元运算(函数)具有 n + 1 元关系,n 元确定性词汇项具有 n 元运算(函数)。此处的运算 · : Wi × Wj → Wi+j 是 L 中连接运算的排序版本。
关系/运算解释
Rwrap ⊆ Wi+1 × Wj × Wi+j 是最小关系 s.t. Rwrap(u⎵w,v,uvw)
Rbridge ⊆ Wi+1 × Wi 最小关系 s.t. Rbridge(u⎵v,uv)
wrapk : Wi+1 × Wj → Wi+j wrapk(s,t) 是将 s 中的第 k 个分隔符替换为 t 的结果
bridgek : Wi+1 → Wi bridgek(s) 是将 s 中的第 k 个分隔符替换为 1 的结果
DL 的解释将 i 类原子类型与 Wi 的子集关联起来。新复杂类型的解释子句是标准的。根据下图,我们给出了非确定性桥接/拆分以及包装族的子句。类型的排序可以根据解释操作/关系的排序信息轻松计算出来。
s ⊩ ∧A 当且仅当 ∃t(Rbridge(t,s) 且 t ⊩ A)
t ⊩ ∨B 当且仅当 ∀s(Rbridge(t,s) 蕴含 s ⊩ B)
s ⊩ A ⊙ B 当且仅当 ∃s′s″(Rwrap(s′,s″,s) 且 s′ ⊩ A 且 s″ ⊩ B)
s″ ⊩ A ↓ C 当且仅当 ∀s′s(若 Rwrap(s′,s″,s) 且 s′ ⊩ A,则 s ⊩ C)
s′ ⊩ C ↑ B 当且仅当 ∀s″s(若 Rwrap(s′,s″,s) 且 s″ ⊩ B,则 s ⊩ C)
在证明论方面,一个切割消去定理DL 的后继表示建立了可判定性。DL 后继规则已被证明就预期解释而言是合理的;但目前尚未获得完备性结果。对于从句法源演算 DL 到语义目标演算 LP 的映射,一元类型形成操作被认为是惰性的:因此,这些连接词的推理规则在句法源演算中与推导相关的 LP 证明项中不会留下任何痕迹。其余的连续和非连续族的处理方式完全相同。具体而言,中缀和提取操作被映射到 LP 函数类型,例如斜线。
示例:DL 已成功应用于大量非连续依赖关系,包括显式和隐式类型。非确定性操作已用于对粒子移位和补集交替构造进行建模。第一种(单分裂点)确定性操作用于分析非边缘提取、不连续习语、间隙和省略、量词范围构造、反身化、花衣笛和荷兰语的跨序列依赖关系等。
我们用英语助词移位来说明DL的非确定性用法,并使用带标签的自然演绎格式来显示派生词,题项为“形式-含义:类型”。动词-助词组合“call — up”在词汇上可以归类为第2种类型的∨(np\s) ↑ np,它有一个内部分裂点和一个右边缘分裂点。消除非确定性提取操作↑后,可以选择回绕操作是影响第一个还是第二个分裂点。第一个选项如下所示。剩余的分隔符在∨的消去步骤中被移除,结果为进行时动词短语“call Mary up”或“call up Mary”。
called ⋅ ⎵ ⋅ up ⋅ ⎵ −phone : ∨(np\s) ↑ np Mary − m : np E↑
called ⋅ Mary ⋅ up ⋅ ⎵ − (phone m) : ∨(np\s) E∨
called ⋅ Mary ⋅ up − (phone m) : np\s
举一个涉及隐性不连续性的例子,考虑量词作用域的构造。DL 为广义量词表达式(例如“everyone”、“someone”)提供了统一的类型赋值:(s ↑ np) ↓ s。在句法源演算中,这种类型赋值允许量词短语 QP 占据任何可以被常规非量化名词短语占据的位置。从语义上讲,在语义目标演算 LP 层面上,↑ 引言规则的图像将一个 np 类型假设绑定在 QP(a − x : np 前提,其中 a 和 x 是 np 假设的结构和语义变量)所占据的位置上。↓ 消去规则的图像将代表 QP 含义的术语应用于此摘要。范围歧义源于源演算 DL 中的派生歧义。下面的推导结果为非局部读法“存在一个特定的 x,使得 Mary 认为 x 还剩下”。从结论向上看,应用的最后一条规则是 ↓ 消去规则,这意味着 QP 的范围在主句级别。另一种推导方法,产生局部范围读法,将“认为”的 / 消去规则:(np\s)/s 作为最后一步。
… a − x : np …
⋮
Mary ⋅ 认为 ⋅ a ⋅ 左 − ((认为 (左 x)) m) : s
↑I
↓E
someone − ∃ : (s ↑ np) ↓ s Mary ⋅ 认为 ⋅ ⎵ ⋅ 左 − λx.((认为 (左 x)) m) : s ↑ np
Mary ⋅ 认为 ⋅ someone ⋅ 左 − (∃ λx.((认为 (左 x)) m)) : s
讨论:深度学习扩展的基础是结合演算 L。正如我们上面所见,对短语结构的全局不敏感性是过度生成的一个根源,除非被显式的孤岛模态所阻止。在深度学习的发展中,似乎没有什么可以依赖于基系统的结合律:换句话说,将深度学习发展为非结合律基的扩展,从而允许表示成分结构信息,这似乎是完全可行的。在解释框架中,人们可以从分级群而非幺半群开始。深度学习框架能够轻松容纳基于字符串或树的视角,这一事实证明了该方法的多功能性。
3.3 对称范畴语法
我们在前几节中学习的句法演算的扩展都遵循一个“直觉主义”的限制:在语句 A1,…,An ⊢ B 中,先行词可以由多个公式组成(在非结合律的情况下配置为⊗树,(在 L、LP 的情况下,可以是列表或多集),后项是一个公式。
Grishin (1983) 在一篇比线性逻辑早五年的杰出论文中,提出了兰贝克演算的一系列扩展,这些扩展具有一个共同的特征:假设 A1,…,An(通过乘法合取连接)与多个结论 B1,…,Bm(通过乘法析取连接)之间具有可导性。近年来,对 Grishin 思想的语言学探索已经开始。在本节中,我们介绍一个已经得到充分研究的多结论范畴系统:LG(兰贝克-格里辛演算)。我们将介绍该系统的语法和关系语义;下一节将讨论它的计算解释。
预序定律 A ⊢ A
A ⊢ B B ⊢ C
A ⊢ C
(对偶)剩余定律)
A ⊢ C/B
A ⊗ B ⊢ C
B ⊢ A\C
B ⦸ C ⊢ A
C ⊢ B ⊕ A
C ⊘ A ⊢ B
相互作用原理
A ⊗ B ⊢ C ⊕ D
C ⦸ A ⊢ D / B
A ⊗ B ⊢ C ⊕ D
B ⊘ D ⊢ A \ C
A ⊗ B ⊢ C ⊕ D
C ⦸ B ⊢ A \ D
A ⊗ B ⊢ C ⊕ D
A ⊘ D ⊢ C / B
兰贝克-格里辛演算 LG
LG 由纯剩余逻辑 NL 的对称版本以及与合取运算和析取运算相关的结构保持交互原理组成。我们将依次讨论这些组件。为了实现对称性,类型形成运算的种类加倍:除了 NL 运算 ⊗,\,/(积、左除和右除)之外,还有第二个运算族 ⊕,⊘,⦸:余积、右差和左差。这两个运算族通过箭头反转对称性 δ 关联,该对称性根据下表转换类型公式。
δ
C/B A ⊗ B A\C
B ⦸ C B ⊕ A C ⊘ A
在可导性层面,我们有 A ⊢ B 当且仅当 δ(B) ⊢ δ(A):对于自然语言推理中的每个定理或规则,我们也能找到它在自然语言推理中的δ下的像。关于符号的说明:我们将 B ⦸ A 读作“B 除以 A”,将 A ⊘ B 读作“A 减去 B”,即减去的量放在带圆圈的(反)斜线下,就像在左除法和右除法类型中,分母放在(反)斜线下一样。本着公式即类型的精神,我们可以将除法运算称为蕴涵,将差运算称为蕴涵。
积族和余积族之间的通信需要在(对偶)剩余定律中添加交互原理。上述原理以推理规则的形式呈现,该规则由以下公式得出:在前提中,从 A ⊗ B ⊢ C ⊕ D 中选择一个积项和一个余积项;在结论中,同时引入剩余项运算。利用(对偶)剩余定律,可以从交互原理中推导出以下模式。或者,我们可以将 (P1)–(P4) 作为本原公设,并利用传递性和(对偶)剩余律,将相互作用原理推导出推理规则。
(P1) (A ⦸ B) ⊗ C ⊢ A ⦸ (B ⊗ C)
(P2) C ⊗ (A ⦸ B) ⊢ A ⦸ (C ⊗ B)
(P3) C ⊗ (B ⊘ A) ⊢ (C ⊗ B) ⊘ A
(P4) (B ⊘ A) ⊗ C ⊢ (B ⊗ C) ⊘ A
形式为 (P1)–(P4) 的可导性模式被称为线性分配原理——之所以说是线性的,是因为它们不重复任何所涉及的项。在LG中,除了线性之外,它们还遵循非交换、非结合的类型形成操作中编码的词序和短语结构信息。
示例:LG的交互原理提供了一种特别直接的方式来捕捉依赖于插入而非连接的现象。以下推导(使用单调性,(以及(对偶)剩余步骤)展示了如何使用相同的信息(相同的前提)在旋转栅门左侧引入蕴涵 B\C,或在右侧引入蕴涵 B ⊘ C。第一种选择引出了应用规则——标准兰贝克演算的中心复合运算。第二种选择引出了复合应用的变体。虽然这两个规则源于相同的前提,但它们之间存在一个重要的区别。当蕴涵 B\C 与其论元复合时,它必须位于 X 之外。在蕴涵复合的情况下,当 X 是因子 A1,…,An 的乘积时,相互作用原理的条件得到满足。这意味着蕴涵 B ⊘ C 将能够归结为短语 X,并与任何组成部分 Ai 关联成公式 (B ⊘ C) ⦸ Ai。
X ⊢ B C ⊢ Y
B\C ⊢ X\Y
X ⊗ (B\C) ⊢ Y
X ⊢ B C ⊢ Y
X ⊘ Y ⊢ B ⊘ C
X ⊢ (B ⊘ C) ⊕ Y
一般来说,类型为 (B ⊘ C) ⦸ A 的表达式在类型 B 的上下文中局部地表现为 A;然后,它充当将 B 转换为 C 的函数。我们以非局部作用域构造的例子进行说明,我们在上一节中已经对此进行了深度逻辑分析。关键在于对广义量词表达式的词汇类型赋值,将 (B ⊘ C) ⦸ A 实例化为 (s ⊘ s) ⦸ np。此推导的语义解释将在下文讨论。
np ⊗ (((np\s)/s) ⊗ (np ⊗ (np\s))) ⊢ s s ⊢ s
np ⊗ (((np\s)/s) ⊗ ( np ⊗ (np\s))) ⊢ (s ⊘ s) ⊕ s
⋮
np ⊗ (((np\s)/s) ⊗ (( (s ⊘ s) ⦸ np ) ⊗ (np\s)) ) ⊢ s
Alice 认为有人离开了
完备性,可判定性。LG 的关系模型由两种解释关系给出:R⊗ 表示乘法合取(合并,融合),乘法析取(裂变)的真值条件为 R⊕。余积和差分运算的真值条件如下。
x ⊩ A ⊕ B 当且仅当 ∀yz(如果 R⊕xyz,则 y ⊩ A 或 z ⊩ B)
y ⊩ C ⊘ B 当且仅当 ∃xz(R⊕xyz 且非 (z ⊩ B) 且 x ⊩ C)
z ⊩ A ⦸ C 当且仅当 ∃xy(R⊕xyz 且非 (y ⊩ A) 且 x ⊩ C)
Kurtonina 和 Moortgat 在 2010 年证明了 LG 对此解释的完备性。最小对称系统(不含相互作用原理)将裂变 R⊕ 和合并 R⊗ 视为不同的关系,且不对它们的解释施加任何限制。在交互原理存在的情况下,它们的解释与框架约束相关。例如,分配律原理 (A ⦸ B) ⊗ C ⊢ A ⦸ (B ⊗ C) 对应于这样的约束:对于每个 x,y,z,w,v,如果存在一个配置 R⊗xyz 和 R⊕vwy,则存在另一个内部点 t,使得 R⊕twx 和 R⊗tvz。对于可判定性,Moortgat (2009) 以显示演算的形式对 LG 进行了顺序表示,允许进行无截断证明搜索。
讨论。 LG 是一种比 CNL(经典非结合性兰贝克演算,de Groote 和 Lamarche 于 2002 年提出)更弱的逻辑。在后者系统中,与经典线性逻辑类似,我们有一个对合否定和德摩根对偶,将乘法的合取(乘法)和析取(乘法)转化为可相互表达的运算。就语言应用而言,可以将 LG 与 §3.2 中的不连续演算进行比较。后者对提取型和插入型的不连续性提供了统一的分析,而 LG 的分配性原理主要针对插入型。在这方面,值得一提的是,Grishin 1983 提出了第二组分配律原理——与上述原理相反。这些原理能否在显性置换的分析中发挥作用还有待观察。从形式上看,每一组分配律都是基本对称演算的保守扩展。但两者的结合(即作为可逆规则的分配律原理)会引发(余)积运算的部分结合性/交换性,即结构保持性丧失。
3.4 灵活的解释,延续语义
在前几节中,重点是扩展句法源演算的功能。在本节中,我们将探讨在源演算和目标演算之间的映射中引入更多结构化的发展。
如§2.2所述,句法-语义映射是刚性的:一旦我们确定了它对句法源演算的原子类型的作用,一切都固定不变。一旦我们有一类句法表达式对意义组装的贡献不一致,这种刚性就会成问题。名词短语就是一个很好的例子。将np映射到语义类型e,对于专有名词和定指类,其外延可以被视为个体,是合适的。但对于像“某人”、“没有学生”这样的量化表达式,仅仅解释类型e是不够的。因此,刚性的句法-语义映射迫使人们在句法中为这些表达式分配一个高阶类型,例如s/(np\s),以便获得一个具有正确外延的语义类型,作为翻译像(e → t) → t。如果想要避免这种语义驱动的句法复杂性,可以设np′ = (e → t) → t。但现在的结果是,简单及物动词 (np\s)/np,人们通常默认将其视为二元关系 e → e → t,却与三阶解释相关联。