因果模型(三)
McFactorization告诉我们,一旦我们知道给父母的每个变量的条件概率分布,P(XI | PA(XI)),我们可以计算所有变量的完整联合分布。 相对容易看到McScreening_off遵循McFortorization。 由于G是无循环的,我们可以重新标记变量上的下标,以便它们从“早期”中排序到“稍后”,只有更早的变量是后来的祖先。 它从概率微积分中遵循
p(的x1,x2的,...,xn)= p(的x1)×p(x2|x1)×...×p(xn|x1,x2的,...,xn-1)
(这是总概率定理的版本)。 对于每个术语P(XI |x1,X2,...,XI-1),我们的订购确保了XI的所有父母将包括在右侧,并且其后代都不会。 McScreening_off然后告诉我们,我们可以从右侧消除所有术语,除了Xi的父母。
MCD分离引入了D分离的图形概念。 如上所述,来自X到y的路径是变量⟨x= x1,...,xk =y⟩的一系列变量,例如,对于每个xi,xi + 1,有一个来自xi到xi + 1or的箭头来自xi + 1到xi的箭头。变量xi,1<i<k是在路径上的碰撞器,以防xi-1到xi的箭头和xi + 1到xi。 换句话说,xi是一个撞机,以防箭头在路径中的xi上汇聚xi。 让x,y和z差异为z d-statpate x和y的差分子集只是在x到y中的变量中的每个路径⟨x1,...,xk⟩中,其中y中的变量包含至少一个变量xi,使得:(i)xi是撞机,和没有XI(包括XI本身)的后代是Z; (ii)xi不是撞机,并且xi是在z.符合这种情况的任何路径被z被z阻塞。如果z不d离线x和y,则x和y通过z连接。
请注意,MC为变量提供足够的条件,以概率自独立,条件在其他方面,但没有必要条件。
以下是一些插图:
图:T有一个箭头指向北的W; W有一个漫长的箭头指向东北到Z; W还有一个指向西北到x的箭头; x有一个指向西北部到y的箭头
图6
在图6中,MC暗示从所有其他变量的所有其他变量关闭,以及从所有其他变量的所有屏幕z。 这是从McScreening_off最容易看出的。 W还从MCD分离中最容易看出的所有其他变量屏幕屏幕。 T不一定从z(或从任何内容中的任何内容)屏幕屏幕。
图:X有一个向东北指向y的箭头,z向西北指向同一个y。
图7
在图7中,MC需要X和Z将无条件独立,但不是它们在Y上是独立的条件。这是从MCD分离中最容易看出的。
让VI和VJ在v中是两个不同的变量,具有相应的外源误差变量UI和UJ,表示VI和VJ的原因,这些原因是从V的VI和VJ中排除。假设VI和VJ共享至少一个从V.的常见原因。在这种情况下,我们不会指望UI和UJ是概率的独立性,并且珍珠和verma(1991)的定理将不适用。 在这种情况下,V中的变量之间的因果关系不会被DAG适当地表示,但是需要一种带有双头箭头连接VI和VJ的非循环定向混合图(ADMG)。 我们将在下面的4.6节中更详细地讨论这种情况。
MC预计不会抓住任意变量v,即使DAG G准确代表这些变量之间的因果关系。 例如,(MC)通常在以下类型的情况下失败:
在EPR(Einstein-Podolski-Rosen)设置中,我们在单线态中制备了两颗颗粒。 如果x表示一个粒子上的旋转测量,则另一个旋转测量(在另一个方向上),然后x和y是完全反相关的。 (在另一个是旋转的情况下,一个粒子将被旋转。)测量可以彼此足够远地进行测量,因此不可能对此产生任何结果。 但是,可以表明,没有(本地)常见的原因Z筛分两种测量结果。
v中的变量不是适当的。 例如,假设x,y和z是概率和因果关系的变量。 现在定义u = x + y和w = y + z,让v = {u,w}。 然后U和W将是概率依赖的,即使它们之间没有因果关系。
如果变量太粗糙,MC可能会失败。 假设x,y和z是定量变量。 z是x和y的常见原因,x和y都不会导致另一个。 假设我们用粗糙变量替换z,z'只表示z是否高或低。 然后我们不会指望z'从y屏幕x关闭。x的值可能很好地包含有关z超出z的z值的信息,这可能会影响y的概率。
SGS(2000)和珍珠(2009)都包含称为因果马尔可夫条件(CMC)的原则的陈述。 该陈述实际上与彼此完全不同。 在珍珠的配方中,(CMC)只是上述数学定理的陈述:如果V中的每个变量是其父母在v的确定性产品,以及误差项; 并且误差是彼此独立的概率; 然后,V的概率分布将满足(MC)关于代表V.珍珠中的变量中的功能依赖关系的DAG G以下列方式解释这一结果:宏观系统,他认为,是确定性的。 然而,在实践中,我们从来没有访问影响宏观系统的所有因果关系变量。 但是,如果我们在模型中包含足够的变量,以便排除的变量彼此概括,那么我们的模型将满足MC,我们将拥有一个强大的分析工具来研究系统。 因此,MC表征了我们构建了完整系统的有用近似的点。
在SGS(2000)中,(CMC)具有更高实证的状态。 如果v是良好选择的宏观变量,这意味着它们没有上述类型的缺陷; g是表示v的因果结构的表现; P是由这种因果结构产生的经验概率分布; 然后可以预期p相对于g来满足MC.它们在(至少)两种方式中捍卫这个假设:
凭经验,似乎是许多系统实际上满足MC。
许多实际上用于检测因果关系的方法默配地预先假定MC。 特别是,使用随机试验预先提出了MC的特殊情况。 假设实验者在随机确定哪些受试者将受试者接受用药物(D = 1)处理,并且其将接受安慰剂(d = 0),并且在该方案下,处理与恢复(R)进行概率地相关。 随机化的效果是消除D的所有父母,所以MC告诉我们,如果R不是D的后代,则R和D应该是概率的。 如果我们没有提出这个假设,我们如何从实验中推断出D是R的原因?
Cartwright(1993,2007:第8章)认为MC不需要坚持真正的不确定系统。 Hausman和Woodward(1999年,2004年)试图为不确定的系统保卫MC。
一种因果模型,包括DAG和满足MC的概率分布称为因果贝叶斯网。
4.3最小性和忠诚的条件
MC指出了足够的条件,但不是条件概率独立的必要条件。 因此,MC本身不能留出两个变量是有条件地或无条件地依赖的。 最小性和忠实的条件是两个条件,为概率独立提供必要条件。 (这是使用Spirtes等人的术语。(SGS 2000)。珍珠(2009)含有略微不同的“最小条件”与此处描述的“最小条件”。)
(i)最小的条件。 假设变量集V上的DAG G关于概率分布P.最小条件断言,即G上V的小图也没有关于P.作为图示,请考虑变量集{x,y},让才能有一个从x到y的箭头,假设x和y彼此概括。 该图表将对MC相对于P:MC所要求的独立关系不存在(实际上,MC任务没有独立关系)。 但是该图将违反最小条件相对于P,因为省略X到Y的箭头的子图也会满足MC。 最小的条件意味着如果x到y的箭头,则x对Y的其他父母上的y,条件差异为x。换句话说,如果z = pa(y)∖{x},则存在z,y,x,x',使p(y = y |x = x&z = z)≠p(y = y |x = x'&z = z)。
(ii)忠诚的条件。 忠诚的条件(FC)是马尔可夫条件的歪曲:它表示,MC需要v中的变量中存在的所有(条件和无条件)概率的独立性。 例如,假设v = {x,y,z}。 还假设x和z彼此无条件地独立,而是依赖于y。(其他两个可变对依赖于条件且无条件地是相关的。)图8中所示的图表不满足于该分布(俗称)的FC(俗称来)图表不忠于分配)。 MC,当应用于图8的图表时,并不意味着x和z的独立性。这可以通过注意到x和z是d连接的(通过空集)来看:既不阻止路径x→z也不是x→z(通过空集)。 相比之下,上面图7所示的图表忠于所述分布。 注意,图8确实满足了分布的最小条件; 对于所述分布,没有子图满足MC。 事实上,FC比最小的状况更强。
图:x有一个向东北指向y的箭头,另一个箭头指向z; Y有一个向Z向东南指向的箭头。
图8
以下是其他一些示例:在上面的图6中,有一个路径W→X→Y; FC意味着W和Y应该是概率依赖的。 在图7中,FC意味着X和Z应该是依赖的,条件在Y上。
如果因果模型中的概率参数,则FC可能会失败。 在图8中,例如,X沿两个不同的定向路径影响Z. 如果一个路径的效果是完全撤消沿着另一条路径的影响,则X和Z将是概率的独立性的。 如果底层SEM是线性的,SPIRTS等人。 (SGS 2000:定理3.2)证明了违法的参数集具有LEBESGUE措施0.尽管如此,导致违反FC的参数值是可能的,因此FC似乎并不是一种形而上学或概念性在因果关系和概率之间的连接时约束。 它是一种方法,而是一种方法原理:给定x和z是独立的{x,y,z}的分布,我们应该更喜欢图7中描绘的因果结构,如图8所示。这不是因为图8是通过分布得出结论的最终排除,而是因为优选的是假设暗示X和Z的独立性的因果结构,而不是仅仅与独立符合的独立性。 有关FC的作用,请参阅Zhang和Spirtes 2016。
原则上通常可检测到FC的违规行为。 例如,假设真正的因果结构是如图7所示,并且X,Y和Z上的概率分布展示了MC所需的所有条件独立关系。 此外,X和Z是独立的,条件对Y.这种条件独立关系不是MC,因此它构成了违反FC。 事实证明,没有忠于这种概率分布的表现。 这让我们摆脱了违反了FC。 虽然我们无法推断出正确的因果结构,但我们将至少避免在这种情况下推断不正确。 有关详细信息,请参见2006年钢铁,Zhang&Spirtes 2008,Zhang 2013B。
研究人员探讨了采用多种假设的后果比Fc弱; 参见例如Ramsey等人。 2006,Spirtes&Zhang 2014和Zhalama等人。 2016。
4.4因果结构的可识别性
如果我们有一组变量v并知道v上的概率分布p,我们可以推断v上的因果结构是什么? 这一认识学问题与无论是否有可能降低概率的形而上学问题(如,例如,雷诺肯巴赫1956和3970所提出的)的形而上学问题密切相关。
珍珠(1988:第3章)证明了以下定理:
(标识时间顺序)
如果
v中的变量是时间索引的,使得只有早期变量可能会导致更高的变量;
概率P为v中的变量的每个可能分配分配概率p;
没有潜在的变量,因此正确的因果图G是DAG;
并且概率测量P相对于G满足马尔可夫和最小条件;
然后可以在P的基础上唯一地识别G.
看到为什么这持有它相对容易。 对于每个变量xi,它的父母必须来自具有较低时间指标的变量中,调用它们x1,...,xi-1。 这个小组中的任何变量不是XI的父母都将是XI的不列颠; 因此,他们将被父母(来自McScreening_off)从XI中筛选。 因此,我们可以从分布p(xi |x1,...,xi-1)开始,然后杂草从右侧摘除任何变量,对Xi的概率分布没有差异。 通过最小的条件,我们知道变量如此杂草不是xi的父母。 那些留下的变量是G的Xi的父母。
如果我们没有关于时间顺序的信息,或者其他实质性假设限制V中变量中可能的因果结构,那么并不总是可以单独地从概率识别因果结构。 通常,在v上给定概率分布p,只能识别Markov等效类的因果结构。 这将是VAL(与MC一起)的所有DAG的集合暗示了所有和只有P的条件独立关系换句话说,它将是所有DAG G的集合,使得P满足G. PC算法描述了PC算法SGS(2000:84-85)是一种算法,它为具有非空的Markov等效类的任何概率分布生成Markov等价类。
考虑两个简单的例子,涉及三个变量{x,y,z}。 假设我们的概率分布具有以下属性:
x和y无条件地是依赖的,并且在z上有条件
y和z无条件地依赖,并且在x上有条件
x和z无条件地是依赖性的,而是在y上独立条件
然后马尔可夫等价类是:
x→y→zx←y←zx←y→z
我们不能从概率分布和MC和FC确定,这些结构中的哪一个是正确的。
另一方面,假设概率分布如下:
x和y无条件地是依赖的,并且在z上有条件
y和z无条件地依赖,并且在x上有条件
x和z无条件独立,但在y上依赖条件
然后马尔可夫等价类是:
x→y←z
这是给定概率分布满足MC和FC的唯一DAG。
4.5具有关于功能形式的假设的可辨率性
假设我们具有内源性变量V和外源变量u的SEM,其中V中的每个变量由表单的等式确定:
西安= fi(尼龙(十一),ui)。
此外,假设我们在U上有一个概率分布p',其中所有UI都是独立的。 这将在v上诱导满足M个相对于V.换句话说,我们的概率SEM会诱导MC的概率分布P.换句话说,我们的概率SEM将产生独特的因果贝雷斯网。 前一节中描述的方法尝试从概率依赖和独立关系推断底层图G。 这些方法不能更好地识别马尔可夫等价类。 我们可以通过利用有关概率分布P的其他信息,超出依赖性和独立性的额外信息来做到更好吗?
有好消息,有坏消息。 第一个坏消息。 如果V中的变量是离散的,则我们没有对功能的形式作出任何假设,然后我们无法更多地推断出图表所属的马尔可夫等价物(Mequ 1995)。
更糟糕的消息:如果V中的变量是连续的,最简单的假设和最细节研究的那个是在那方面的线性与高斯(正常或钟形)误差的线性。 那是:
xi =Σjcjxj+ ui,其中j范围在pa(xi)的索引上,Cjs是常量
PR'为每个UI分配高斯分发
事实证明,通过这些假设,我们可以从概率依赖和独立性(Geiger&&Pearl 1988)中推断出v的原因图的马尔可夫等同类。
现在为好消息。 有相当一般的假设让我们更多地推断出更多的交易。 以下是一些相当简单的案例:
(Lingam)(Shimizu等人2006)
如果:
V中的变量是连续的;
功能是线性的;
误差变量UI上的概率分布不是高斯(或者最多是高斯);
误差变量UI在p'中概括地独立于p';
然后通过诱导的概率分布P在V上唯一地确定V的正确震颤。
(非线性添加剂)(Hoyer等,2009)
以下形式的几乎所有功能都允许通过诱导概率分布P上的v唯一确定v。:
功能fi是非线性的,并且误差是附加的(所以xi = fi(pa(xi))+ UI,用fi非线性);
误差变量UI在p'中概括地独立于p';
事实上,这种情况可以大大概括:
(非线性后的)(Zhang&Hyvärinen2009)
除了可以完全指定的五种具体情况下,以下形式的所有功能允许通过诱导的概率分布P唯一确定v的正确DAG .:
功能具有XI = GI(FI(PA(XI))+ UI)的形式,具有FI和GI非线性,并且GI可逆;
误差变量UI在p'中概括地独立于p';
另见Peters等人。 (2017)讨论。
虽然这些结果存在特定的假设,但它们仍然是显着的。 例如,它们仅介绍两个变量x和y的概率分布(定理的假设),我们可以推断x是否导致y或y原因x。
4.6潜在的共同原因
到目前为止的讨论集中在V的变量没有潜在的共同原因的情况下,并且误差变量UI可以预期概率概括。 正如我们在上面的2.3节中所指出的那样,我们代表了一个双向箭头的潜在共同原因。 例如,图9中的无循环定向混合图表示X和Z的潜在常见原因。更一般地,我们可以使用如图9中的符号,表示X和Z的误差变量不是概率自由的。
图:x有一个向东到Y的箭头,又有一个向东到Z的箭头; X和Z通过弯曲的双头箭头连接
图9
如果存在潜在的共同原因,如果我们以天真的方式应用它们,我们希望McScreening_off和McFactorization失败。 在图9中,y是图表中所示的唯一父级,如果我们尝试应用McScreening_off,它会告诉我们,即使我们将期望X和Z相关,即使我们在y上的情况下,我们也会被关联,这是由于延迟的常见原因。 问题是图表缺少z的相关父级,即省略的常见原因。 然而,假设{l,x,y,z}上的概率分布相对于DAG满足M个,该DAG包括L作为X和Z的常见原因。然后,概率分布仍将满足图9的ADMG的MCD分离。a包含ADMG的因果模型和满足MCD分离的概率分布称为半马尔可夫因果模型(SMCM)。
如果我们允许正确的因果图可能是ADMG,我们仍然可以应用MCD分离,并询问哪些图表意味着相同的条件独立关系。 Markov等价类将比我们不允许潜在变量大于。 例如,假设{x,y,z}上的概率分布具有以下功能:
x和y无条件地是依赖的,并且在z上有条件
y和z无条件地依赖,并且在x上有条件
x和z无条件独立,但在y上依赖条件
我们在第4.4节中看到了唯一只意味着这些(in)依赖性的DAG是:
x→y←z
但是,如果我们允许潜在的共同原因的可能性,则会有额外的常规,这也意味着依赖于这些(in)。 例如,结构
x↔y↔z
也在马尔可夫等价类中,就像其他几个一样。