概率因果（三）_数学联邦政治世界观

一组变量的定性因果结构。例如，我们可能会询问哪个DAG或者常规描述V = {s，t，w，x，y，z}中变量中的因果结构。或者我们可能对因果结构的某些特定特征感兴趣，例如x是否是Y的直接原因。这种类型的查询问题有时称为因果发现问题。

干预措施的影响。如果我们要在因果结构中进行干预并将x到x的值设置为x，那么y将遵循的值y是多少？例如，如果我们通过向患者提供药物，他会恢复的可能性是什么？

给定的问题也将具有一组输入。这些属于各种类别：

形而上学和方法论假设：这些是关于因果结构与概率之间关系的一般假设。这些假设的功能类似于概率的因果理论。特别是他们告诉我们，因果关系如何限制概率关系。我们将考虑的主要假设是马尔可夫条件（MC），最小的条件和忠诚情况。

关于因果结构的背景假设：特定的DAG或ADMG描述了一些变量上的因果结构，或者假设正确的图形或不包括来自X到Y的箭头。特别地，我们可能有时间顺序信息来限制可能的因果结构的时间顺序信息。例如，如果我们知道x涉及比y的时间令人担忧，那么我们可以排除因果关系的因果结构，从而影响X.

观察：关于V的变量概率分布P的信息。

在现实的科学案例中，我们从不直接观察到一组变量的真正概率分布p。相反，我们观察有限数据，当样本尺寸足够大时，近似真正的概率，并且观察协议被精心设计。由于我们的主要关注点是概率问题，概率问题如何确定或约束因果结构，我们不会解决这些重要的实际问题。据说可以识别可以从真实概率确定的查询的答案。例如，如果我们可以从V上的概率分布确定变量集V上的正确DAG，则DAG是可识别的。

3.3马尔可夫条件

连接V上的因果结构的最重要原理，如图表g所示，v上的概率分布p是Markov条件（MC）。让我们首先考虑G是DAG的情况。然后P如果只有它才满足这三种条件，则P满足Markov条件（MC）：

（McScreening_off）对于v的每个变量x，以及每组变量y⊆vde（x），p（x |pa（x）＆y）= p（x |pa（x））。

（McFactorization）设v = {x1，x2，...，xn}。然后p（x1，x2，...，xn）=πip（xi |pa（xi））。

（MCD分离）让x，y∈v，z⊆v{x，y}。然后p（x，ybez）= p（xbz）×p（ysz）如果z d-stat x和y在g中（下面解释）。

当G是DAG时，这三个条件是等同的。

让我们花一些时间来解释这些配方中的每一个。

McScreening_off说，来自所有其他变量的变量x屏幕X的父母，除了X的后代。鉴于x的父母的变量的值，y中变量的值（其中不包括x的后代），不做X将采用任何给定值的概率的进一步差异。

McFactorization告诉我们，一旦我们知道给父母的每个变量的条件概率分布，P（XI | PA（XI）），我们可以计算所有变量的完整联合分布。这捕获了Reichenbach的想法，即与原因和效果之间的概率关系导出的概率关系不相关的变量之间的概率关系。

MCD分离使用Pearl（1988）引入的D分离的图形概念。让x，y∈v，z⊆v{x，y}。如上所述，来自x到y的路径是变量⟨x= x1，...，xk =y⟩的路径，使得对于每个xi，xi + 1，从xi到xi + 1或来自g的xi + 1到xi的箭头有一个箭头。变量xi，1＜i＜k是在路径上的碰撞器，以防xi-1到xi的箭头和xi + 1到xi。也就是说，Xi是一个撞机，就是在两个箭头融合道路中的xi的情况下的路径上。 z d-statpate x和y只是在x到y的每个路径⟨x= x1，...，xk =y⟩中包含至少一个变量xi，使：（i）xi是碰撞器，xi（包括xi本身）的后代是z; 或（ii）xi不是撞机，并且xi是在z. mcd-分离状态，D-分离足以提供条件独立性。

请注意，MC为变量提供足够的条件，以概率自独立，条件在其他方面，但没有必要条件。马尔可夫条件涉及与Reichenbach的常见原因原则相同的筛选关系，以上2.3节讨论。以下是一些例子：

图5的字母图。 t有一个箭头到w向箭头向x和z x反过来有一个箭头到y。

图5

在图5中，MC意味着X屏幕从所有其他变量中屏蔽，并且从所有其他变量中关闭。从McScreening Off，最容易看到这一点。 W还从MCD分离中最容易看出的所有其他变量屏幕屏幕。 MC并不意味着从z（或从任何内容中的任何东西）关闭t屏幕。虽然y和z确实有一个常见的原因，但是截止了它们（w），并非所有常见的导致屏幕关闭（t不必），而不是屏蔽它们的一切是常见的原因（x屏幕关闭但不是常见的原因）。

3个字母的图。 x和y都有指向z的箭头。

图6

在图6中，MC需要X和Y将无条件独立，但不是它们在Z上是独立的条件。这是从MCD分离中最容易看出的。

MC预计不会抓住任意变量v，即使图形G准确表示这些变量之间的因果关系。例如，MC通常会在以下类型的情况下失败：

在EPR（Einstein-Podolsky-Rosen）设置中，我们在单线态中制备了两颗颗粒。如果x表示一个粒子上的旋转测量，则另一个旋转测量（在另一个方向上），然后x和y是完全反相关的。（在另一个是旋转的情况下，一个粒子将被旋转。）测量可以彼此足够远地进行测量，因此不可能对此产生任何结果。但是，可以表明，没有（本地）常见的原因Z筛分两种测量结果。

v中的变量不是适当的。例如，假设x，y和z是概率和因果关系的变量。现在定义u = x + y和w = y + z，让v = {u，w}。然后U和W将是概率依赖的，即使它们之间没有因果关系。

如果变量太粗糙，MC可能会失败。假设x，y和z是定量变量，z是x和y的常见原因，x和y都没有导致另一个。假设我们用粗糙变量替换z，z'只表示z是否高或低。然后我们不会指望z'从y屏幕x关闭。x的值可能很好地包含有关z超出z的z值的信息，这可能会影响y的概率。

如果存在潜在的常见原因，我们预计麦克塞伦敦和McFactorization如果我们以天真的方式应用它们会失败。例如，假设v = {x，y，z}上的真实因果结构由admg示出图7中。

三个字母图。 x向右指向Y的箭头向Z表示，这又有一个箭头到z; 双头弯曲箭头连接X和Z.

图7

Y是图表中唯一的父级，如果我们尝试应用McScreening_off，它告诉我们，y应该从z屏幕关闭。然而，即使我们在y的条件下，我们希望x和z是相关的，因为仍然存在普遍的原因。问题是图表缺少z的相关父级，即省略的常见原因。然而，假设概率分布使得如果添加潜伏原因L，则扩展变量集上的概率分布将满足MC相对于所得到的DAG。然后，事实证明，概率分布仍然可以满足图8的ADMG的MCD分离。这要求我们扩展D分离的定义，以包括双头箭头的路径。例如，z是路径Y→z↔x上的碰撞器（因为z指向它的两个箭头），但x不是路径y←x↔z上的撞机。因此，我们会说概率分布P在其满足MCD分离的情况下，相对于ADMG满足马尔可夫条件。

SGS 2000和PEARL 2009都包含一个称为因果马尔可夫条件（CMC）的原则的陈述，但它们意味着不同的东西。在珍珠的配方中，CMC只是数学定理的声明：珍珠和韦尔卡（1991）如果v中的每个变量是其父母的父母在v的确定性产品中，那么珍珠和verma 并且误差是彼此独立的概率; 然后，V的概率分布将相对于DAG G. Pearl以下列方式解释这一结果：宏观系统，他认为，是确定性的。然而，在实践中，我们从来没有访问影响宏观系统的所有因果关系变量。但是，如果我们在模型中包含足够的变量，以便排除的变量彼此概括，那么我们的模型将满足MC，我们将拥有一个强大的分析工具来研究系统。因此，MC表征了我们构建了完整系统的有用近似的点。

在SGS 2000中，CMC具有更高的实证的状态。如果v是宏观变量的一组，则易于选择，这意味着它们没有上述分数（ii）和（iii）中描述的缺陷类型; g是表示v的因果结构的图表; P是由这种因果结构产生的客观概率分布; 然后可以预期P相对于G.更准确地满足MC，如果G是指向的非环形图，P将满足所有三个版本的MC，如果G是具有双头箭头的常规，则P将满足MCD分离。 SGS以两种不同的方式捍卫这个经验：

凭经验，似乎是许多系统实际上满足MC。

许多实际上用于检测因果关系的方法默配地预先假定MC。特别是，使用随机试验预先提出了MC的特殊情况。假设实验者在随机确定哪些受试者将受试者接受用药物（D = 1）处理，并且其将接受安慰剂（d = 0），并且在该方案下，处理与恢复（R）进行概率地相关。随机化的效果是消除D的所有父母，所以MC告诉我们，如果R不是D的后代，则R和D应该是概率的。如果我们没有提出这个假设，我们如何从实验中推断出D是R的原因？

Cartwright（1993,2007：第8章）认为MC不需要坚持真正的不确定系统。 Hausman和Woodward（1999年，2004年）试图为不确定的系统保卫MC。

包括DAG和满足MC的概率分布的因果模型称为因果贝叶斯网（CBN）。包含满足MCD分离的ADMG和概率分布的因果模型称为半马尔可夫因果模型（SMCM）。

3.4最小性和忠诚的条件

MC指出了足够的条件，但不是条件概率独立的必要条件。因此，MC本身不能留出两个变量是有条件地或无条件地依赖的。最小性和忠诚的条件是两个原则，对概率独立提供必要条件。术语来自Spirtes等人。（2000）。珍珠提供不同术语的类似条件。

（i）最小的条件。假设可变SET V上的无循环指向图G相对于概率分布P满足MC.最小条件断言，除了P的情况下，没有G上V的子图也满足Markov条件。（G的子图是由v的图表从g的箭头删除。作为图示，考虑变量集{x，y}，让箭头从x到y箭头，并假设x和y根据概率函数p彼此相互独立。该图会满足M个关于p：不得授权的独立关系MC不存在（实际上，MC任务没有独立关系）。但是该图将违反最小条件相对于P，因为省略X到Y的箭头的子图也会满足MC。最小条件意味着如果存在从x到y的箭头，则x对Y的其他父母上的y，条件是of的概率差异。换句话说，如果z = pa（y）∖{x}，则存在z，y，x，x'这样的话

p（y = y|x = x＆z = z）≠p（y = y|x = x'＆z = z）。

（ii）忠诚的条件。忠诚情况说明，v中存在变量中的所有（条件和无条件）概率的独立性是MC所需的。例如，假设v = {x，y，z}。还假设x和y彼此无条件地独立，但是依赖于z.（其他两个可变对依赖于有条件且无条件。）图8中所示的图表不满足于该分布的忠实性条件（俗气，图表不忠于分配）。 MC，当应用于图8的图表时，并不意味着X和Y的独立性。相比之下，上面图6所示的图表忠于所述分布。注意，图8确实满足了分布的最小条件; 对于所述分布，没有子图满足MC。事实上，忠诚的条件严格强于最小的条件。

三个字母的图，其中x具有指向z和y的箭头，也是从z到y的箭头。

图8

忠诚的条件意味着一个变量在另一个因果路线上另一个变量的因果影响不会“取消”。在图8中，X沿两个不同的定向路径影响y。如果一个路径的效果是完全撤消沿其他路径的影响，则x和y将是概率的。忠诚的条件禁止如此确切的取消。这在因果关系与概率之间的连接时，这种“无取消”条件似乎是令人难以置信的。例如，如果一个基因码用于制备特定蛋白质，并且抑制代码相同蛋白质的另一基因，则第一基因的操作将与蛋白质的存在无关。 Cartwright（2007年：第6章）和安德森（2103）争辩认为违规是普遍的。

忠诚的条件是一种方法论原则，而不是形而上学的原则。给定x和y是独立的{x，y，z}的分布，我们应该推断因果结构是如图6所示，而不是图8所示。这不是因为图8是通过分布的结论，而是因为优选假设a意味着x和y的独立性而不是仅与独立符合的原因结构。

3.5因果结构的可识别性

Reichenbach的原始希望并支持的是对概率的原因减少。这种希望在多大程度上在因果建模框架内实现了？因果建模并未提供传统哲学意义的减少; 也就是说，它不提供对“X的X的分析”，如果只有......是......“的右侧，其中才能引用因果关系。相反，它提供了一系列关于因果结构如何限制概率的值的一系列假设。尽管如此，如果我们在v上有一组变量v和概率分布p，我们可能会询问p是否足以挑选一个独特的因果图G上V.

珍珠（1988：第3章）证明了以下定理：

（标识时间顺序）

如果

v中的变量是时间索引的，使得只有早期变量可能会导致更高的变量;

概率P为v中的变量的每个可能分配分配概率p;

没有潜在的共同原因，因此正确的因果图G是DAG;

并且概率测量P相对于G满足马尔可夫和最小条件;

然后可以在P的基础上唯一地识别G.

在许多方面，该结果成功地执行了上面第2节中描述的项目。也就是说，在时间索引和关于概率与因果关系之间的连接的实质假设的同样的假设，它建立了可以使用概率来识别因果结构。

如果我们没有关于时间顺序的信息，或者其他实质性假设限制V中变量中可能的因果结构，那么并不总是可以单独地从概率识别因果结构。通常，在v上给定概率分布p，只能识别Markov等效类的因果结构。这将是VAL的所有DAG的集合（以及MC）暗示了P. PC算法（SGS 2000：84-85）所包含的所有和只有条件独立关系，以其两个创建者命名（Peter Spirtes和Clark Glymour）是一种为任何给定概率分布生成Markov等效类的一种算法。

考虑两个简单的例子，涉及三个变量{x，y，z}。假设我们的概率分布具有以下属性：

x和y无条件地是依赖的，并且在z上有条件

y和z无条件地依赖，并且在x上有条件

x和z无条件地是依赖性的，而是在y上独立条件

然后马尔可夫等价类是：

x→y→z

x←y←z

x←y→z

我们无法从概率分布中确定，以及MC和忠诚，这些结构中的哪一个是正确的。

另一方面，假设概率分布如下：

x和y无条件地是依赖的，并且在z上有条件

y和z无条件地依赖，并且在x上有条件

x和z无条件独立，但在y上依赖条件

然后马尔可夫等价类是：

x→y←z

注意，{x，y，z}上的第一个概率分布是reichenbach的常见原因的特征。第二个分布反转X和Z之间的关系：它们是无条件独立的和有条件依赖的。与REICHENBACH相反，实际上是后一种依赖关系的模式，这些关系对于在图中取向因果箭头最有用。在所示的最后一个因果结构中，Y是来自X到Z到Z的路径上的撞机。MCD分离意味着侵占者引起了独特的条件独立关系，而所有三种类型的非碰撞者都会产生相同的条件独立性关系。已经开发的许多算法，用于通过搜索船员来推断出从概率工作的因果结构（参见，例如，SGS 2000：第5章）。

到目前为止讨论的可识别性结果都认为正确的因果图是一种表现。但是，常见的变量仍然存在，更常见的是，我们可能希望允许潜在变量的可能性（无论它们是否在那里）。如果我们允许正确的因果图可能包含双头箭头，我们仍然可以应用MCD分离，并询问哪些图表意味着相同的条件独立关系。 Markov等价类将比我们不允许潜在变量大于。例如，给定上面描述的最后一组概率关系，图形

x→y←z

不再是唯一与此分发兼容的。结构

x↔y↔z

也是可能的，就像其他几个一样。

3.6干预措施

条件概率，例如p（y = yax = x）给出了y将采用值y的概率，因为已经观察到x占用值x。然而，通常，我们有兴趣预测y的值，如果我们介入将x的值设置为等于某个特定值x。珍珠写p（y = y |do（x = x））来表征此概率。观察和干预之间有什么区别？当我们仅观察变量所需的值时，我们正在学习当以正常方式引起的变量的值，如我们的因果模型中所示。有关该变量的值的信息还将为我们提供有关其原因的信息，以及这些原因的其他影响。但是，当我们介入时，我们覆盖了正常的因果结构，强迫变量取值，如果系统单独留下，则可能没有拍摄。变量的值完全通过我们的干预确定，其他变量被完全被覆盖的因果影响。以图形为本，我们可以通过消除涉及变量的箭头来表示这种干预的效果。这种干预有时被描述为“破坏”那些箭头。

可以使用因果模型来预测这种干预的效果。假设我们有一个因果模型，其中概率分布P在变量集V = {x1，x2，...，xn}上满足MC上的MC。用于思考干预的MC最有用的版本是McFactorization（参见第3.3节），告诉我们：

p（的x1，x2的，...，xn）=

一世

p（xi|pa（十一））

现在假设我们通过将XK的值设置为XK来进行干预。后干预概率P'是改变分解的结果，如下所示：

p'（的x1，x2的，...，xn）= p'（xk）×

我≠k

p（xi|pa（十一）），

其中p'（xk = xk）= 1。 I≠k形式P（XI | PA（XI））的条件概率通过干预保持不变。

这种干预措施的治疗已经以许多方向扩展。 “操纵定理”（SGS 2000的定理3.6）概括了覆盖了更广泛的干预措施的公式，包括不会将所有箭头分解为介入的变量。珍珠（2009：第3章）开发一个公理系统，他称之为“do-commulus”，以计算可以应用于具有潜在变量的系统的干预概率。

（本章完）