因果模型(四)
潜在变量呈现进一步的并发症。 与误差变量UI是概率自独立的情况不同,除了关于功能形式的进一步假设的情况下,除了条件(IN)依赖关系之外,还可以意味着相关误差术语的SEM。 这意味着我们可以使用不同类型的概率约束来排除Markov等同类中的一些常规。
4.7干预措施
条件概率,例如p(y = yax = x)给出了y将采用值y的概率,因为已经观察到x占用值x。 然而,通常,我们有兴趣预测y的值,如果我们介入将x的值设置为等于某个特定值x。 珍珠(2009)写入p(y = y |do(x = x))来表征此概率。 表示法是误导的,因为DO(x = x)不是原始概率空间中的事件。 写入PDO(x = x)(y = y)可能更准确,但我们将在此处使用珍珠的表示法。 观察和干预之间有什么区别? 当我们仅观察变量所需的值时,我们正在学习当以正常方式引起的变量的值,如我们的因果模型中所示。 有关该变量的值的信息还将为我们提供有关其原因的信息,以及这些原因的其他影响。 但是,当我们介入时,我们覆盖了正常的因果结构,强迫变量取值,如果系统单独留下,则可能没有拍摄。 以图形为本,我们可以通过消除指向变量的箭头来表示这种干预的效果。 这种干预有时被描述为“破碎”那些箭头。 正如我们在第3.1节中所看到的那样,在SEM的上下文中,我们表示通过用新的一个指定x = x来替换x的等式来将x到x设置x到x的干预。
正如我们在第3.2节所看到的那样,干预措施和反事实之间存在密切联系; 特别是,结构反事件的前一种被认为是由干预措施实现的。 尽管如此,珍珠(2009)区分了关于DO运营商从反事件代表的干预措施的声明。 前者在指示性情绪中被理解; 他们涉及实际执行的干预措施。 反事实处于虚拟情绪,并关心假设干预。 这导致普通干预措施和反事实之间的重要识别差异:它们以与变量值的观察相互作用的方式表现不同。 在干预措施的情况下,我们涉及评估概率,例如
p(y = y|x = x,请(z = z))。
我们假设干预Do(z = z)正在实际的世界中执行,因此我们正在观察其他变量采取的值(x = x)在发生干预的同一世界中。 在反事实的情况下,我们观察到实际世界中各种变量的价值,其中没有干预。 然后,我们会询问是否在进行干预时发生了什么。 我们观察到的变量可能很好地接受在干预的假设世界中的不同价值观。 这是差异的简单说明。 假设我们有一种因果模型,其中药物治疗导致疾病恢复。 它们也可能还有其他变量和因果关系。
干预:
进行干预以治疗特定患者的药物,并观察到她没有恢复。
问题:考虑到干预和观察证据,她恢复的可能性是什么?
答案:零,琐碎。
反事实:
观察到患者没有从疾病中恢复过来。
问题:她是否被药物治疗过恢复的可能性是什么?
答:不动。 答案不一定为零,也不一定是p(恢复|治疗)。 如果我们知道她实际上是对待的,那么我们可以推断,如果治疗,她就不会恢复。 但我们不知道她是否被治疗了。 她没有恢复的事实给出了我们的部分信息:它使她实际上的可能性不太可能; 它还使她更有可能具有弱免疫系统,等等。 我们必须利用所有这些信息来试图确定如果在处理过的情况下恢复的概率。
我们将讨论本节中的干预措施,以及下文第4.10节的反事实。
假设我们有一个带有外源变量U和内源变量的无循环结构方程模型。我们具有表单的等式
西安= fi(尼龙(十一),ui),
和外源变量U. p'上的概率分布p'然后在V上引起概率分布p.表示将XK设置为XK的干预,我们用XK = XK替换XK的等式。 现在,P'在v(由于外源变量的设置中引起v(由于外源变量的设置,所以在干预之后会导致V的V中变量的不同值)。 P *是珍珠写入p(•| DO(XK = XK)的新概率分布。
但即使我们没有完整的SEM,我们通常可以计算干预措施的效果。 假设我们有一个因果模型,其中概率分布P在变量集V = {x1,x2,...,xn}上满足MC上的MC。 用于思考干预的MC最有用的版本是McFactorization(参见第4.2节),告诉我们:
p(的x1,x2的,...,xn)=
π
一世
p(xi|pa(十一))。
现在假设我们通过将XK的值设置为XK来进行干预。 干预后概率P *是改变分解的结果,如下所示:
p *(的x1,x2的,...,xn)= p'(xk)×
π
我≠k
p(xi|pa(十一)),
其中p'(xk = xk)= 1。 I≠k形式P(XI | PA(XI))的条件概率通过干预保持不变。 当后者可用时,这会给计算使用SEM的干预结果一样。 该结果可以推广到干预在V的某些变量子集上施加概率分布P∞的情况。为简单起见,让我们重新标记变量,以便{x1,x2,...,xk}是变量集我们介入了。 然后,后干预后概率分布是:
p *(的x1,x2的,...,xn)= p†(的x1,x2的,...,xk)×
π
k<i≤n
p(xi|pa(十一))。
SGS的操纵定理(2000:定理3.6)概括了该公式,以覆盖更广泛的干预措施,包括不会将所有箭头分解为干预的变量。
Pearl(2009:第3章)开发一个公理系统,他调用了用于计算可以应用于具有潜在变量的系统的干预概率的DO-Scaluals,其中V的因果结构由ADMG(包括双头箭头)表示而不是一个笨蛋。 该系统的公理显示在DO-COMPULUS上的补充中。 一个有用的特殊情况由
后门标准。 让x和y在v,z∈V∖{x,y}中是:
没有z的成员是X的后代; 和
X和Y之间的每个路径终止于箭头(a)包括z的非碰撞器,或(b)包括在z中没有后代的撞机;
然后p(Y | DO(x),z)= p(ysx,z)。
也就是说,如果我们能找到合适的调节器SET Z,则由X的干预产生的概率将与对应于X的观察的条件概率相同。
4.8。 干预主义决策理论
Jeffrey(1983)开发的排序的证据决定理论在Newcomb问题的变种中运行(nozick 1969)。 例如,假设Cheryl认为以下是:她定期患有贫酸钾。 这种状态产生两种效果,高概率:它导致她吃香蕉,她喜欢; 它导致她遭受衰弱的偏头痛。 在缺乏贫钾的日子里,她没有对这种国家的内省进入。 特别是,她不知道任何香蕉渴望。 也许她每天早上都赶紧上班,抓住手头的东西在她的通勤上吃东西。 Cheryl的因果模型由图10中的DAG表示。
与k有一个箭头指向西北部到b和东北到m的箭头
图10
K = 1代表贫钾,B = 1吃香蕉,M = 1偏头痛。 她的概率如下:
p(k = 1)= .2
p(b = 1|k = 1)= .9,p(b = 1|k = 0)= .1
p(是= 1|k = 1)= .9,p(是= 1|k = 0)= .1
她对世界的状态w≡{k = k,b = b,m = m}是u(w)= b-20m。 也就是说,她获得了一个用于吃香蕉的一个公用事业,但损失了20个单位才能遭受偏头痛。 她没有对钾缺乏的内在价值。
谢丽尔即将离开工作。 她应该吃香蕉吗? 根据证据决策理论(EDT),谢丽尔应该最大限度地提高证明预期的效用,在哪里
eeu(b = b)=
σ
w
p(w|b = b)u(w)
从给出的概率,我们可以计算:
p(是= 1|b = 1)≈.65
p(是= 1|b = 0)≈.12
由于常见的原因,吃香蕉与偏头痛强烈相关。 从而
eeu(b = 1)≈-12
eeu(b = 0)≈-2.4
因此,至少在最简单的形式中,建议从香蕉上弃权。 虽然谢丽尔喜欢他们,但他们提供了强有力的证据表明她会遭受偏头痛。
许多人认为这是不好的建议。 吃香蕉不会导致谢丽尔偏见; 这是一种无害的乐趣。 许多作者制定了因果决策理论(CDT)的版本,该理论(CDT)旨在纳入明确的因果考虑(例如,Gibbard&Harper 1978; Joyce 1999; Lewis 1981; Skyrms 1980)。 因果模型为CDT提供自然环境,这是一个由MeEk和Glymour(1994)提出的想法(1994),并由Hitchcock(2016),珍珠(2009:第4章)和船尾(2017年)开发。 中心观点是代理人应该将她的行为视为干预。 这意味着谢丽尔应该最大化她的因果预期效用:
细胞(b = b)=
σ
w
p(w|do(b = b))u(w)
现在我们可以计算
p(是= 1|do(b = 1))= .26
p(是= 1|do(b = 0))= .26
所以现在
细胞(b = 1)= -4.2
细胞(b = 0)= -5.2
这产生了吃香蕉的合理结果使谢丽尔是免费的效用单位。 通过介入,谢丽尔将箭头从k到b中断,并摧毁吃香蕉和患偏头痛之间的相关性。
更一般地,可以使用用于计算前一节中描述的干预效果的方法来计算计算因果预期实用程序所需的概率。 Stern(2017)扩展了这种方法,以允许在多个因果模型上分配其信用的代理人。 Hitchcock(2016)显示了干预措施和反事实之间的区别如何在下面的第4.10节中更详细地讨论,可用于将许多所谓的监控器偏转为CDT。
关于EDT和CDT之间的辩论,还有更多的信息。 例如,如果Cheryl知道她正在干预,那么她不相信自己要准确地描述图10中的因果结构。相反,她将相信自己能够实例化一个因果结构,其中k到b的箭头被移除。 在这种因果结构中,如果P满足MC,我们将具有P(W |b = B)= P(W | DO(B = B)),并且EDT和CDT折叠之间的差异。 如果有原因是审议代理将始终相信自己进行干预,则EDT将产生与CDT相同的规范建议,并避免像上述那样的反例。 价格对EDT(价格1986年)的辩护可能是沿着这些线条的合理重建。 因此,道德不一定是CDT是规范化的,而是可以效果采用因果模型来澄清与因果关系相关的决策理论中的问题。
4.9干预措施的因果发现
在上一节中,我们讨论了如何使用关于因果图G的结构的知识(或假设)来对干预措施的结果进行推断。 在本节中,我们探讨了匡威问题。 如果我们可以介入变量并观察后介入后概率分布,我们可以推断出潜在的因果结构是什么? 这一主题已经广泛探讨了Eberhardt和合作者的工作。 (参见,例如,Eberhardt&Scheines 2007和Hyttinen等,2013a。)如果我们能够执行干预措施,我们可以学到关于因果结构的更多信息,如果我们只能使被动观测只能进行干预措施。 但是,我们可以推断多少取决于我们可以执行的哪些干预措施,以及我们制作的背景假设。
如果没有潜在的共同原因,因此V的真正因果结构由DAG G表示,然后始终可以使用干预发现完整的因果结构。 如果我们一次只能在一个变量中介入一个变量,我们可能需要在唯一识别出原因结构之前单独干预除其中一个变量之外。 如果我们可以同时介入多个变量,我们可以更快地发现真正的因果结构。
如果存在潜在的共同原因,因此V的真正因果结构由ADMG表示,那么可能无法使用单可变干预措施发现真实因果结构。 (尽管我们可以在底层结构方程模型中的功能都是线性的特殊情况下执行此操作。但是,如果我们可以同时介入多个变量,那么可以发现真正的因果图。
Eberhardt和合作者也使用软干预探索了因果发现。 软干预会影响变量的值,而不将箭头分解为该变量。 例如,假设我们想知道假释的收入是否会导致累犯减少。 我们随机将受试者划分为治疗和控制条件,并向治疗条件的人提供定期的现金支付。 这不是对收入本身的干预,因为收入仍将受到通常的因素的影响:储蓄和投资,职业培训,家庭成员的帮助等等。 软干预促进因果推论,因为他们创造煤机,正如我们所看到的那样,煤机具有明显的概率签名。 违反直明,这意味着如果我们想确定x是否导致y是期望在y(而不是x)上执行软干预,以查看我们是否可以创建碰撞器i→y←x(我是干预的地方)。 软干预与乐器变量密切相关。 如果没有潜在的共同原因,我们可以使用软干预推断真正的因果结构。 实际上,如果我们可以立即介入每个变量,我们可以从这个干预确定正确的因果结构。 但是,如果存在潜在的共同原因,则使用软干预发现完整的因果结构是不可体态的。 (虽然如果我们假设线性,但这可以完成。)
4.10反事实
第3.3节上面讨论了确定性因果模型的背景下的反事实。 概率的引入增加了许多并发症。 特别是,我们现在可以有意义地谈论反事实的可能性。 反事实在奈曼(1923年)开创的因果模型的潜在结果框架中起着核心作用,并由Rubin(1974)和Robins(1986年)开发。
潜在结果框架中的反事实与刘易斯(1973B)框架的反事实不同的概率相互作用。 假设TED暴露于石棉和肺癌。 我们对反事实感兴趣:“如果TED没有暴露于石棉,他就不会发展肺癌”。 假设癌症发展的过程是真正的不确定性。 然后,说如果TED没有暴露于石棉,那么他肯定会发生肺癌; 这似乎同样错了,说他绝对不会发展肺癌。 在这种情况下,刘易斯会说,反事实“如果TED没有暴露于石棉,他就不会发展肺癌”是不确定的。 结果,这种反事实的客观概率为零。 另一方面,随后的客观概率的反应性可能是真的:“如果TED没有暴露于石棉,他的客观可能发生肺癌是.06”。 相比之下,在潜在的结果框架中,可能会拉出概率并施加到整个反事实的情况下:反事实的概率“如果TED没有暴露于石棉,他就会发展肺癌”.06。
如果我们有一个完整的结构方程模型,我们可以根据观察分配反事实的概率。 设v = {x1,x2,...,xn}是一组内源性变量,u = {u1,u2,...,un}一组外源性变量。 我们的结构方程具有:
西安= fi(尼龙(十一),ui)
我们在U上有一个概率分布p',它在u∪v上引起概率分布p。 假设我们观察到一些变量的值:xj = xj forj∈s⊆{1,...,n}。 我们现在想评估反事实“如果XK已经XK,那么XL将是XL”,其中K和L可能在S但不需要。 我们可以使用此三步过程评估此反事实的可能性:
通过在观察结果上调节概率p,以获得新的概率分布p(•||∩j∈sxj= xj)。 称呼对U P“的概率函数的限制”。
用XK = XK替换XK的等式。
使用修改的方程组在U上使用分布P“,以引起新的概率分布P *上的V.P *(XL = XL),然后是反事实的概率。
该过程与干预程序(第4.7节中讨论的步骤)不同,所以步骤1和2已经逆转。 我们首先更新概率分布,然后执行干预。 这反映了观察告诉我们关于实际世界的事实,其中没有(必然)发生干预。
如果我们没有完整的SEM,则通常不可能识别反事实的概率,而是仅设置上限和下限。 例如,假设我们认为石棉暴露会导致肺癌,因此我们分散了一个简单的表现:
一个→l。
还假设我们有类似于TED的人的数据,从而产生以下概率:
p(l = 1|a = 1)= .11,
p(l = 1|a = 0)= .06。
(我们正在过度简化,并将石棉和肺癌视为二元变量。)我们观察到TED实际上暴露于石棉,并且实际上发展肺癌。 反事实的可能性是什么:“如果TED没有暴露于石棉,他就不会发展肺癌”? 珍珠(2009)称之为概率,这表明了必要性的可能性。 它通常被称为因果关系,尽管这种术语是由于格陵兰和罗宾斯(1988)讨论的原因误导。 这个数量往往是侵权法的兴趣。 假设TED起诉他的雇主损害与他的肺癌有关。 他必须说服陪审团,他对石棉的接触导致他的肺癌。 美国民法要求“比不是”证据标准更有可能,它雇用了“但”但“或”反应性的反应性定义。 因此,如果他没有暴露,他必须说服陪审团,而不是他不会发展肺癌。
我们可以将人口成员分为四个类别,具体取决于他们的反事实是如此:
失业的个人无论如何都会发展肺癌
无论如何,免疫细胞将避免肺癌
敏感的个体将在暴露于石棉的情况下以防肺癌
反向敏感的个体将在不暴露于石棉的情况下,以防肺癌
最容易将人口视为分为四类,每个人都是这四种类型之一。 但是,我们不需要假设该过程是确定性的; 可能是每个人只有一定可能落入其中一个类别的可能性。
在数学上,这相当于以下内容。 让UL是L.UL的错误变量,每个UI的表单(U1,U2)的值为0或1.(1,1)对应于注定的,(0,0),以免疫,(1,0)敏感,并且(0,1)反向。 也就是说,第一个元素告诉我们如果一个人暴露于石棉,并且第二个元素如果没有暴露,那么如果单个未曝光,则将其值L将采用。 L的等式将是L =(×U1)+((1-A)×U2)。
让我们假设误差变量UL的分布与石棉曝光A无关A.观察到的肺癌概率与我们的四个反事物的两个概率分布兼容:
p1的(注定)= .06,p2的(注定)= 0,
p1的(免疫)= .89,p2的(免疫)= .83,
p1的(敏感)= .05,p2的(敏感)= .11,
p1的(反向)= 0的p2(反向)= .06
更一般地,观察到的概率与满足的任何概率P'兼容:
p'(注定)+ p'(senstive)= p(l|a)= .11;
p'(免疫力)+ p'(反向)= p(~l|a)= .89;
p'(注定)+ p'(反向)= p(l|~a)= .06;
p'(免疫力)+ p'(senstive)= p(~l|~a)= .94。