因果模型(一)

因果模型是代表各个系统或人口内因果关系的数学模型。 他们有助于从统计数据的因果关系推论。 他们可以教我们对因果关系的认识论,以及因果关系与概率之间的关系。 他们也已应用于哲学家感兴趣的主题,例如反事实,决策理论的逻辑,以及实际因果关系的分析。

1.简介

2.基本工具

2.1变量,逻辑和语言

2.2概率

2.3图

3.确定性结构方程模型

3.1 SEM简介

3.2结构反应性

3.3实际因果关系

4.概率的因果模型

4.1随机误差的结构方程模型

4.2马尔可夫条件

4.3最小性和忠诚的条件

4.4因果结构的可识别性

4.5具有关于功能形式的假设的可辨率性

4.6潜在的共同原因

4.7干预措施

4.8。 干预主义决策理论

4.9干预措施的因果发现

4.10反事实

5.进一步阅读

参考书目

学术工具

其他互联网资源

相关条目

1.简介

因果建模是一个跨学科领域,其起源于20世纪20年代的统计革命,特别是在美国生物学家和统计名缝合赖特(1921年)的工作中。 重要贡献来自计算机科学,经济学,流行病学,哲学,统计数据和其他学科。 鉴于因思路对许多哲学领域的重要性,在使用数学因果模型方面越来越富有哲学兴趣。 两个主要作品 - 柔软,甘肃,和Scheines 2000(缩写的SGS)和Pearl 2009-是特别有影响力的。

因果模型对系统的行为进行预测。 特别地,因果模型需要关于系统的反事实要求的真实值或概率; 它预测干预措施的影响; 它需要模型中包含的变量的概率依赖性或独立性。 因果模型还促进了这些推论的反比:如果我们观察到变量之间的概率相关性,或实验干预的结果,我们可以确定哪些因果模型与这些观察结果一致。 讨论将侧重于“原则”中可以做些什么。 例如,我们将考虑我们可以推断系统的正确因果结构的程度,了解有关系统中变量概率分布的完美信息。 这忽略了从有限样本数据推断出真正概率的真正问题。 此外,该条目将讨论因果模型对反事实逻辑的应用,因果关系分析和决策理论。

2.基本工具

本节介绍了因果建模中使用的一些基本正式工具,以及术语和符号约定。

2.1变量,逻辑和语言

变量是因果模型的基本构建块。 它们将由斜体大写字母表示。 变量是可以采用各种值的函数。 变量的值可以代表事件的发生或非发生,一系列不兼容的事件,个人或个人群体的属性,或者定量值。 例如,我们可能想要模拟Suzy抛出石头和窗口中断的情况,并且具有变量S和W这样:

S = 1代表Suzy扔摇滚; s = 0代表她没有投掷

w = 1表示窗口断裂; w = 0表示窗口剩余完好无损。

如果我们正在为美国收入的收入影响建模,我们可能会使用变量e和我,这样:

e(i)= 0如果个人我没有高中教育; 1如果个人已经完成高中; 2如果个人有一些大学教育; 3如果个人有学士学位; 4如果个人有硕士学位; 5如果个人作为博士学位(包括法律和医学中最高程度)。

我(i)= X如果个人我每年有税前收入。

变量的可能值集是该变量的范围。 我们通常会假设变量有义上很多可能的值,因为这将保持数学和博览会更简单。 然而,因果模型也可以具有连续变量,在某些情况下,这使得这是一个重要的区别。

一个世界是一个完整的因果模型规范; 细节将取决于模型的类型。 目前,我们注意到,除其他外,世界将包括将值分配给模型中所有变量。 如果变量代表人群中的个人属性,则世界将包括每个变量的数值为每个变量分配数量。 然后可以将变量被理解为域名是一组世界的函数,或者是一组世界和个人。

如果x是因果模型中的变量,并且x是x范围内的特定值,则x = x是原子命题。 否定(“不是”),结合(“和”),脱位(“或”),物料条件(“如果...然后...”)的逻辑操作(“......”),以及Biconditional(“如果且才有”)由“〜”,“&”,“∨”,“⊃”和“≡”分别。 任何原子命题和这些逻辑运营商构建的任何命令都将被称为布尔命题。 注意,当变量在人口中的个人上定义时,对个人的参考不包括在一个命题中; 相反,整个命题是人口中各种个人的真实或虚假。

我们将使用集合理论的基本符号。 设置将以粗体显示。

∅是空集(没有成员或元素的集合)。

x∈x表示X是SET X的成员或元素。

x⊆y意味着X是Y的子集; 即,X的每个成员也是Y的成员。注意,∅和y都是Y的子集。

x∈Y是从X中删除y的成员的集合。

∀和∃分别是普遍和存在量的量词。

如果s = {x1,...,xn}是x范围内的一组值,则x∈s用作表单x = xi的命题的分离的速度,因为i = 1,...,n。 粗体表示有序集或向量。 如果x = {x1,...,xn}是变量的矢量,并且x = {x1,...,xn}是值的矢量,每个值xi在相应变量xi的范围内,那么x = x是命题的结合表单xi = xi。

2.2概率

在第4节中,我们将考虑包括概率的因果模型。 概率是一个函数p,它在零和一个之间分配值,包容性。 概率函数的域是一组命题,该命题将包括上述所有布尔命题,但也许也许是其他的。

概率的一些标准属性如下:

如果A是矛盾,那么P(a)= 0。

如果A是Tautology,那么P(a)= 1。

如果p(a&b)= 0,则p(a∨b)= p(a)+ p(b)。

p(~a)= 1-p(一)。

一些进一步的定义:

给定B的条件概率写入p(a |b)是标准定义如下:

p(a|b)=

p(一个与b)

p(b)

我们将忽略P(b)= 0时可能出现的问题。

A和B是概率自独立的(相对于P),恰好在P(A&B)= P(a)×p(b)×p(b).a和b否则概率依赖或相关。 如果p(b)>0,则A和B将独立于(a |b)= p(a)。

变量x和y是概率自独立的,只是在表单x = x和y = y的所有命题都是概率的。

A和B在C(A&B | C)= P(a |c)×p(b |c)的情况下,在c上是概率自残的条件。 如果p(b&c)>0,则这相当于p(abb&c)= p(a |c)。 遵循Reichenbach(1956)的术语,我们还会说这些平等持有的C屏幕B. 变量之间的条件独立性类似地定义。

作为一种方便的速记,概率声明仅包含变量或一组变量,但没有值,将被理解为具有对变量的所有可能值的通用量化。 因此,如果x = {x1,...,xm}和y = {y1,...,yn},我们可以写

p(x|y)= p(x)

作为速记

∀x1...∀xm∀y1...∀yn[p(的x1 =的x1,...,xm = xm|y1 = y1,...,yn = yn)

= p(的x1 =的x1,...,xm = xm)]

其中每个变量的量化域将是相关变量的范围。

我们不会预先假定对概率的任何特殊解释(参见概率解释的条目),但我们将假设适当选择的样本中的频率提供有关潜在概率的证据。 例如,假设存在包括上面描述的变量E和I的因果模型,P(e = 3)=。25。 然后,我们预计如果我们调查大型,随机选择的美国成年人,我们会发现,其中大约四分之一有学士学位,但没有更高的程度。 如果调查产生的样本频率与此基本上不同,我们有证据表明该模型是不准确的。

2.3图

如果V是包括在因果模型中包含的变量集,则表示V中变量中的因果关系的一种方法是图形。 虽然我们将在第3节中介绍和使用图表,但它们将在第4节中发挥更加突出的作用。我们将讨论两种类型的图表。 首先是指向的非循环图(DAG)。 变量集V上的定向图G是V的一组有序的变量。我们通过在⟨x中绘制从x到y的箭头绘制箭头来表示这一点,而y⟩是在g中。图1显示了变量集v = {s,t,w,x的定向图。,y,z}。

一个图,其中箭头指向北至t; T有一个箭头指向西北到x和东北到y; y有一个向z指向东北的箭头; w有一个向北到z和西北的箭头到y

图1

定向图中的路径是具有共同端点的箭头的非重复序列。 例如,在图1中,有一个来自x到z的路径,我们可以写为x←t→y→z。 定向路径是路径,其中所有箭头指向相同方向; 例如,有一个定向路径S→T→Y→z。 定向图是无循环的,因此一个DAG,如果没有从变量到自身的定向路径。 这样的定向路径称为循环。 图1中的图形不包含循环,因此是DAG。

图中的关系通常使用谱系语言描述。 变量X是y的父级,以防x到y箭头。PA(y)将表示Y的所有父母的集合。在图1中,PA(Y)= {T,W}。 x是Y的祖先(并且Y是x的后代),以防万一从x到y的定向路径。然而,从族记类比略微偏离并限定“后代”,使每个变量略微偏离,使得每个变量是后来的本身。 de(x)表示x的所有后代的集合。在图1中,de(t)= {t,x,y,z}。

从y到z中的箭头表示y是z的直接原因。这意味着y的值对z的值进行了一些因果差异,并且y通过V.iftensne的任何其他变量中未调解的一些过程来影响z。直接性是相对于变量集的一些过程:y可以是z的直接原因,相对于可变集v,但不相对于变量集V',其中包括一些额外的变量,其中包括在z上介绍了y的影响。当我们更详细地开发了图形因果模型的账户,我们将能够更准确地说出来的意义变量是另一个的直接原因。 虽然我们不会定义“原因”,但因果模型预先概括了因果关系的广泛差异,而不是因果流程概念(Salmon 1984,Dowe 2000)或机械概念(Machamer,Darden和Craver 2000;格伦南2017年)。 我们将调用DAG中表示的直接因果关系系统,如图1变量集V的因果结构。

我们认为的第二种图形是无循环定向的混合图(ADMG)。 ADMG将包含双头箭头,以及单次箭头。 双头箭头表示潜在的共同原因。 变量x和y的潜在常见原因是不包括在变量集V中的常见原因。例如,假设x和y共享一个通用原因l(图2(a))。 变量集V = {x,y}上的ADMG将如图2(b)所示。

用l向箭头指向西北到x和东北到y的箭头图

(一)

x是y的右侧,双头弯曲箭头连接两个

(b)

图2

我们可以更精确。 当他们最接近普通原因时,我们只需要以这种方式代表缺失的共同原因。 也就是说,V的图表应该在X和Y之间包含X和Y之间的双头箭头,从V省略的变量L,使得如果L被添加到v,则将是X和Y的直接原因。

在ADMG中,我们扩展了一个路径的定义来包括双头箭头。 因此,x↔y是如图2(b)所示的ADMG中的路径。 定向路径保留相同的含义,并定向路径不能包含双头箭头。

我们将采用DAG和ADMGS两者代表直接因果关系和潜在共同原因的存在和缺乏。 例如,图1中的DAG表示W是y的直接原因,该x不是Y的直接原因,并且没有潜在的共同原因。 从图1中没有双头箭头不仅仅称我们选择不包括我们代表中的潜在共同原因; 它表明没有潜在的共同原因。

3.确定性结构方程模型

在本节中,我们介绍了确定性结构方程模型(SEM),推迟概率讨论,直到第4节。我们将考虑两个确定性SEM的应用:反事实的逻辑,以及实际因果的分析。

3.1 SEM简介

SEM表征具有一组变量的因果系统,以及描述每个变量如何取决于其立即因果的等式的等式。 考虑燃气烤架,用于煮肉。 我们可以使用以下变量来描述格栅的操作:

燃气连接(1如果是,则为0,如果否)

气旋(0为OFF,1小时,2个用于中等,3个高)

煤气水平(0 off,1小时,2个用于培养基,3为高)

点火器(如果按下,则为1,如果没有)

火焰(0为OFF,1小时,2个用于培养基,3为高)

肉(0否,1表示为)

肉煮熟(0原料,1罕见,2个用于中等,3次完成)

因此,例如,气旋= 1表示气体旋钮设定为低; igniter = 1表示按下点火器,等等。 然后方程式可能是:

气体级=气体连接×气旋

火焰=气体水平×点火器

肉煮熟=火焰×肉上

例如,最后一个等式告诉我们,如果肉没有放在烤架上,它将保持原始(肉煮熟= 0)。 如果肉被放在烤架上,那么它将根据火焰的水平煮熟:如果火焰低(火焰= 1),肉将是罕见的(肉煮熟= 1),等等。

通过惯例,每个等式在左侧都有一个效果变量,以及右侧的一个或多个原因变量。 我们还排除了任何变量的每个等式,这对效果变量的值没有区别。 例如,气体水平的等式可以被写为气体级=(气体连接×气旋)+(0×肉类); 但由于熟的肉类的价值没有与这种等式的气体水平值没有差异,因此我们省略了煮熟的变量。 如果可以订购变量,则SEM是无循环的,以便在右侧出现在等式之后的变量在等式的左侧。 我们的示例是无循环的,如上面给出的变量的排序所示。 在如下,除非另有说明,否则我们将假设SEM是无循环的。

我们可以将该系统代表为DAG(图3):

图:'天然气连接'有一个向东北指向“天然气级”的箭头; “天然气旋钮”有一个指向西北部的箭头到同一个“天然气级”; “天然气级”有一个向东北指向“火焰”的箭头; '点火器'有一个指向西北的箭头到同一个“火焰”; '火焰'有一个向东北指向'肉类'的箭头; “肉”有一个指向西北地区的箭头到同一个“肉煮熟”

图3

箭头从变量x绘制到变量y,以便x数字作为Y的等式中的参数。该图包含比等式的字母严格更少; 特别是,DAG为我们提供了有关哪些变量取决于其他变量的定性信息,但它不会告诉我们关于依赖的功能形式的任何内容。

模型中的变量通常取决于未明确包含在模型中的其他变量。 例如,火焰的水平也取决于氧气的存在。 假设在模型中明确表示的变量是固定的,以使方程式适当的值。 例如,在我们的气体烤架模型中,假设氧气以足够的量存在以维持强度从低到高的火焰。

在我们的示例中,变量气体水平,火焰和肉类是内源性的,这意味着它们的值由模型中的其他变量决定。 燃气连接,气体旋钮,点火器和肉类是外源的,这意味着它们的值在系统之外确定。 在我们将考虑第3节中的所有模型中,给出或以其他方式提供外源变量的值。

哈珀(2016)之后,我们将调用对外源变量的值分配一个上下文。 在无循环SEM中,唯一地确定模型中所有变量的值。 与上下文一起的无循环界限是一个世界(Halpern 2016叫“因果设置”)。 例如,如果我们添加设置

气体连接= 1

气旋= 3

igniter = 1

肉= 1

到了我们的三个方程,我们得到了一个天然气级= 3,火焰= 3和肉类= 3的世界。

SEM的独特因果或“结构”含量来自所代表干预的方式。 为了在变量上进行干预是通过覆盖通常的因果结构的进程来设置该变量的值,而不会干扰控制其他变量的因果处理。 更确切地说,在变量x上的干预覆盖X的正常方程,同时将其他方程保持不变。 例如,为了干预我们的示例中的变量火焰,是为了将火焰设置为指定水平,而不管是否按下点火器是否被按下或者气体级别是什么。 (例如,也许可以将煤油倒入烤架中并用匹配点亮它。)伍德沃德(2003)建议我们认为干预作为模型中的其他变量独立运行的因果过程。 随机对照试验旨在干预这种意义。 例如,用于测试药物用于高血压药物的功效的随机对照试验旨在通过诸如硬币翻转的随机方法确定每个受试者是否采用药物(而不是安慰剂)。 教育和健康保险等因素通常影响某人是否服用该药物不再在审判人群中的主题发挥这种作用。 或者,我们可以遵循刘易斯(1979)的方法,并思考一个小型“奇迹”的干预设置变量的值。

要在变量上表示干预,我们将该变量的等式替换为具有新的等式,该方程阐述了设置变量的值。 例如,如果我们介入以在低温下设定火焰水平,我们将通过替换方程式火焰=气体水平×点火器与火焰= 1.这产生了一种新的因果结构,其中火焰是外源变量; 图形方式,我们可以将干预措施视为指向火焰的“破坏箭头”。 然后可以解决新的方程式系统以发现其他变量是由于干预而采取的值。 在上述世界中,我们的干预将产生以下等式集:

气体连接= 1

气旋= 3

igniter = 1

肉= 1

气体级=气体连接×气旋

火焰=气体水平×点火器

火焰= 1

肉煮熟=火焰×肉上

我们击中了火焰的原始方程,以表明它不再是手术。 结果是具有改进的因果结构的新世界,气体级别= 3,火焰= 1,肉煮熟= 1.由于去除将火焰连接到其原因的方程,通过将火焰引入的任何改变将通过模型向后传播到后代火焰。 干预改变了煮熟的火焰和肉的值,但它不会影响其他变量的值。 我们可以以相同的方式代表多个变量的干预,替换所有变量的方程式介入的。

干预措施有助于将内容提供给相应的DAG中的箭头。 如果变量Xi是XJ的父级,则这意味着模型中所有其他变量存在一些设置,使得当我们通过干预将这些变量设置为这些值时,Xi上的干预仍然对XJ值进行差异。 例如,在我们原来的模型中,气体水平是火焰的父母。 如果我们通过干预将点火器的值设置为1,并将气体旋钮,燃气连接,肉类和肉类烹制到任何值的肉,那么干预气体水平的值对火焰的价值产生差异。 将气体水平值设置为1将产生1的值为火焰; 将气体水平设定为2产生火焰2; 等等。

(本章完)

相关推荐