科学结果的再现性(一)
1.复制,重复和再现科学结果
1.1社会科学的账户
1.2跨学科账户
1.3哲学账户
2.元科学:建立,监测和评估再现性危机
2.1再现性项目
2.2出版物偏见,低统计功率和膨胀假率
2.3可疑的研究实践
2.4过度依赖Null假设意义测试
2.5科学欺诈
3.与复制相关的认识论问题
3.1实验者的回归
3.2复制作为科学的区别特征
3.3正式化复制逻辑
4.开放科学改革:价值观,语气和科学规范
4.1方法和培训
4.2报告和传播
4.3同行评审
4.4奖励和评估
开放科学改革中的价值,音调和科学规范
结论
参考书目
学术工具
其他互联网资源
相关条目
1.复制,重复和再现科学结果
对重复性和相关概念的任何哲学探索的一个起点是考虑这些概念的概念问题。 根据一些(例如,Cartwright 1991),术语“复制”,“再现”和“重复”表示不同的概念,而其他人则互换地使用这些术语(例如,Atmanspacher&Maasen 2016a)。 不同的学科也可能对这些术语不同的理解。 例如,在计算学科中,再现性通常是指单独再现计算的能力,即它专门与共享和充分注释数据和代码(例如,彭2015年)。 在这些学科中,复制描述了重做整个实验(Barba 2017,其他互联网资源)。 然而,在心理学和其他社会和生命科学中,重现性可以指的是重做计算,或重做实验。 通过开放科学中心协调,重做整个研究,数据收集和分析的重现项目。 最近DARPA(美国国防高级研究计划机构)的资金计划公告可区分重复性和可重复性,前者指的是计算可重复性和后者在重做实验中。 在这里,除非显式描述其他作者的区别,否则我们使用所有三个术语“复制”,“复制”和“重复”,“再现”和“重复”。
在将研究描述为“可复制”时,人们可能会记住至少两个不同的东西。 首先,该研究原则上是可重新的,即它可以再次进行,特别是当以足够详细和透明的方式描述其方法,程序和分析时。 第二种是,该研究可以复制,因为它可以再次进行,并且当发生这种情况时,复制研究将成功地产生与原始结果相同或足够相似的结果。 在前一种意义上可能会复制一项研究,但在第二种意义上不可复制:人们可能能够复制研究的方法,程序和分析,但不能成功复制原始研究的结果。 同样地,当人们谈论“复制”时,他们也可以考虑两件不同的东西:复制研究的方法,程序和分析(无论结果如何),或者,或者,可以复制这些方法,程序和分析以及结果。
可以说,复制的大多数类型的类型在直接复制(密切关注原始研究以验证结果)和概念复制(故意改变研究的重要特征以概括调查结果或以概括调查结果进行概括的情况或测试新的方式)。 如图所示,这些术语可能并不总是知道这种区别。 例如,通过Keppel(1982)称为精确和不精确的复制的大致相同的区别; Sargent(1981)的具体和概念复制,Lykken(1968年)的文字,运营和建设性复制。 计算再现性最常是直接的(使用相同的代码和软件从相同的数据集中再现特定的分析结果),但它也可以是概念性的(分析与替代方法,不同模型或统计框架的相同原始数据集)。 有关概念计算再现性研究的一个例子,请参阅Silberzahn和Uhlmann 2015。
我们不会尝试解决这些纪律差异或创建一个新的复制类型,而是通过从奥马尔·施密特(2009),从奥马尔Gómez调查三个现有的类型,我们将提供有限的概念地形快照。Natalia Juristo,和Sira Vegas(2010)以及汉斯雷德。 施密特的账户在心理学和社会科学中一直有影响力和广泛引用,复制危机文学严重集中。 Gómez,法师和拉斯维加斯(2010)复制的类型基于多学科调查,对复制研究的18多个学术分类进行了多学科调查,这些复制研究共同含有超过79种复制类型。 最后,Radder's(1996,2003,2006,2009,2001,2003)类型在科学本身的哲学中也是最为闻名的。
1.1社会科学的账户
施密特概述了社会科学复制研究的五种功能:
功能1.控制采样误差 - 也就是说,要验证样本中的先前结果纯粹通过机会结果而无法绘制扭曲的现实情况
功能2.控制伪影(内部有效性) - 确保实验结果是对假设的适当测试(即,具有内部有效性),并且不会反映研究设计中的意外缺陷(例如,当测量结果时,说故障温度计的工件而不是物质温度的实际变化)
功能3.控制欺诈,
功能4.启用概括性,
功能5.启用潜在假设的验证。
修改Hendrik的(1991)阶级定义研究空间的变量,Schmidt(2009)呈现了四种变量,其可以被改变或保持常数,以便给定的复制研究以实现上述功能。 四个课程是:
类1.传达给参与者的信息(例如,他们的任务指令)。
类2.背景和背景。 这是一大类变量,它包括:参与者特征(例如,年龄,性别,具体历史); 研究的物理设置; 实验者的特征; 材料的偶然特征(例如,字体类型,房间的颜色),
3.参加者招聘,包括参与者选择和对条件的分配(如实验或控制条件),
4.课堂4.依赖可变措施(或在施密特术语中“依赖变量宪法的程序”,2009:93)
然后,施密特通过改变和/或保持不同的类或变量常数,可以通过各种功能来系统地进行系统地工作。 例如,为了满足对采样错误的控制功能(函数1),应该仅改变关于参与者招聘(第3类)的变量,试图将所有其他类中的变量保持在尽可能接近原始研究。 为了控制人工制品(函数2),应该改变关于上下文和依赖变量测量的变量(分别在等类和4中的变量),但保持1和3中的变量(传达给参与者和参与者招募的信息),尽可能接近原件。 像大多数其他作者一样,施密特就像这个领域的大多数作者一样,承认能够容纳一切恒定的实际限制。 对欺诈(功能3)的控制是由相同的布置,作为控制人工制品(功能2)。 在施密特的账户中,控制采样错误,人工制品和欺诈(函数1至3)通过确认原始研究结果的主题来连接。 函数4和5超出了这一概括的新人(功能4),它由参与者招聘(3类)的变化提供,并确认底层假设(函数5),该潜在的假设(函数5)由传达的信息的更改,上下文和依赖可变措施(类别分别为1,2和4)但与参与者招聘(第3级,虽然Schmidt承认,施密阶级变量持续,但随着其他所有东西,通常都是不可能的)。 仅尝试验证潜在的研究假说(即,履行功能5)是Schmidt在Rosenthal(1991)之后被视为概念复制。 尝试实现其他四个功能被认为是直接复制的变体。
总之,对于Schmidt,用于采样错误,工件和欺诈的直接复制控制,并提供有关先前实证工作的可靠性和有效性的信息。 概念复制有助于证实潜在的理论或实质性(而不是统计)假设,以及他们在新的情况和情况下概括的程度。 在实践中,直接和概念复制位于连续体上,复制研究与原始潜在大量的尺寸相比,更改或多或少。
1.2跨学科账户
Gómez,法里斯托和Vega的(2010)对18个学科的文献调查确定了79种复制类型,并非所有他们认为完全不同的类型。 它们确定了五种主要方式,其中复制研究可能来自初步研究。 与上面的四个课程有些相似之处:
复制实验的网站或空间位置:复制实验可以在与初始研究的位置不同的位置中进行。
进行复制的实验者可以与原始,完全不同的,或新的和原始实验者的组合完全相同
该装置包括设计,材料,仪器和其他重要的实验对象和/或程序可以在原始和复制研究之间变化。
所采用的运算可能不同,其中运营化是指变量的测量。 例如,在心理学中,这可能包括使用两种不同的抑制抑制尺度(作为从属变量)。
最后,研究可能会有所不同。
在复制研究中,这些元素的任何一个或组合的变化对应于该研究的不同目的,从而建立了不同类型的有效性。 像Schmidt等人一样。 然后系统地通过上述每个工作的变化来实现不同的认知功能。
功能1.结论对采样错误的有效性和控制:如果上述五个元素中的每一个在复制研究中不变,则复制的目的是控制采样误差,即验证样本中的先前结果是否未纯粹通过机会结果而获得使样品误导或不成绩。 这提供了对所谓的I错误所谓的保障措施:错误地未能拒绝零假设(即,在调查中,两种现象之间没有关系的假设)。 这些研究确定了结论有效性,即观察到的关系或现象的可信度或可信度。
功能2.内部有效性和用于人工的控制结果:如果对网站,实验者或装置的复制研究不同,那么其目的是建立先前观察到的结果不是特定装置,实验室等的伪影。 这些研究建立了内部有效性,即结果可以归因于实验操纵本身而不是外来变量的程度。
功能3.构建运营化的有效性和确定限制:如果复制研究关于操作的不同之处,则其目的是确定效果跨越操纵或依赖变量的衡量方向的程度(例如,效果没有的程度依靠特定的心理测量测试,用于评估抑郁症或IQ)。 这些研究履行了建立构建有效性的功能,因为它们提供了证据表明该效果在测量构建体的不同方式持有。
功能4.外部有效性和群体属性的限制:如果复制研究与其人口特性的不同之处,则其目的是确定结果普遍为主的不同人群,群体,其中在Gómez,法里科斯托和拉斯维加斯。“看法,关注主题和节目等实验对象。 这些研究强化了外部有效性 - 结果普遍为主的群体的程度。
1.3哲学账户
Radder(1996,2003,2006,2009,2012)区分三种类型的重现性。 一个是RADDER呼叫实验材料实现的重现性。 使用Radder自己的示例之一作为图示,两个人可以执行相同的动作来测量物体的质量。 尽管做了相同的行动,但人们认为自己是衡量物体的牛顿群众,而人们B将自己视为测量物体的精英块质量。 这里,可以再现实验程序的动作或材料实现,但其意义的理论描述不同。 然而,RADDED没有规定一个物质实现成为另一个物质的繁殖所需的东西,特别是因为雷德自己肯定的那样,因为任何其他繁殖都没有再现(1996:82-83)。
考虑到固定的理论描述,第二种类型的再现性是实验的再现性。 例如,社会科学家可能会进行两项实验来检查社会符合性。 在一个实验中,可能会指示一个幼儿,在一群其他孩子对前一个孩子未知的另一个孩子之前指示一个问题,指示对同一问题提供错误的答案。 在另一个实验中,可能会指示一个成年人,以便在一群其他成年人未知的其他成年人面前答案给一个问题,指示给出相同问题的错误答案。 如果孩子和成年人给出了错误的答案,符合他人的答案,那么社会科学家可能会将结果解释为举例说明社会符合性。 对于雷达,实验的理论描述可能是固定的,指出,如果参与者的周围环境中的某些人给出故意虚假的答案,那么真正的参与者将符合他们同行的行为。 然而,这些实验的材料实现与儿童和其他成年人的疑虑不同。 在此示例中,难以看出,至少,这至少是施密特或Gómez,法律和拉斯维加斯的不同之处在于为不同人群建立易于建立的(Schmidt [2009]和功能5;Gómez,法师,拉斯维加斯的[2010]方法5和功能4)。
第三种可重复性是雷达呼叫可重复性。 这是实验程序不同以产生相同的实验结果(否则称为成功复制)。 例如,尽管具有不同种类的温度计来测量该沸点(2006:113-114),但是,雷达可以获得多个实验可能获得结果“F型流体具有沸点B”的结果。
Schmidt(2009)指出,与对第一类的差异相比,雷达的第二和第三种重复性之间的差异很小。 因此,他建议他在直接和概念复制之间的替代区分,可能是打算概念复制来涵盖雷达的第二和第三种类型。
总之,虽然Gómez,法师和拉斯维加斯的类型学在施密特略有不同的地方,但它的目的可以说是同样的 - 解释复制研究中的改变符合不同的科学目标,如建立内部有效性或泛化程度等。 除了对物料实现的讨论外,还可以被视为施密特和Gómez等人所描述的较大范围内的其他两类的Radder的其他两类。,他们都承认在实践中,直接和概念的复制一个嘈杂的连续体。
2.元科学:建立,监测和评估再现性危机
在心理学中,再现性危机的起源通常与Daryl Bem(2011)文件有关,其中报告了“PSI”存在的经验证据,否则称为额外的感官感知(ESP)。 本文通过了标准的同行评审过程,并发表于高影响人格和社会心理学杂志。 调查结果的争议性质启发了三种独立的复制研究,每个研究都未能复制BEM的结果。 然而,这些复制研究从四个不同的期刊中被拒绝,包括最初出版BEM学习的杂志,理由是重复不是原始的或新的研究。 他们最终出版了Plos One(Ritchie,Wiseman,2012年)。 这在该领域创造了争议,并被许多人解释为展示如何出版物偏见受阻科学的自我校正机制。 在医学中,危机的起源往往归因于IANANNIDIS'(2005)纸“为什么大多数公布的发现是假的”。 本文提供了关于文献中的误报率的正式论据 - 当事实上没有(例如,当实际上时,消耗药物的索赔与症状缓解相关的声明存在关系)。 Ioannidis'(2005)还报告了来自Amgen的一套临床前试验复制的非常低(11%)的经验再现性率,后来由Begley和Ellis(2012年)独立出版。 在所有学科中,复制危机也与早期对零假假设意义检测的批评更普遍地联系起来(例如,Szucs&Ioannidis 2017),这指出忽略了统计权力(例如,Cohen 1962,1994)和未能充分区分统计和实质性假设(例如,Meehl 1967,1978)。 这将在下面进一步讨论。
为了响应上述事件,在过去十年中建立了一个新的现场标识为Meta Science(或Meta-Research)(munafò等,2017年)。 munafò等。 将Meta-Science定义为“科学本身的科学研究”(2017年:1)。 2015年10月,IOANNIDIS,FANELLI,DUNNE和GOODMAN确定了800多个月的META-科学论文,该论文于今年1月至5月出版,据估计,相关文献以约2,000的速度累计每年的论文。 引入与略微不同的术语,Ioannidis等人的工作组。 定义“Meta-Research”
一种不断发展的科学纪律,旨在评估和改进研究实践。 它包括关于方法,报告,再生性,评估和激励的主题领域(如何进行,报告,验证,正确和奖励科学)。 (2015:1)
现在存在致力于这项工作的多个研究中心,包括例如蒂尔堡大学在心理学中的斯坦福(指标)的Meta-Research创新中心和Ioannidis等人中列出的其他人。 2015(见其他互联网资源)。 STEGENGA 2018涵盖了医学领域的相关研究。
自我识别作为Meta-Science或Meta-Research的项目包括:
大型,人群源,直接(或关闭)复制项目,如心理学的再现性项目(OSC 2015)和癌症生物学(Errington等,2014)以及心理学的许多实验室项目(例如,Klein等人。2014);
计算再现性项目,即使用相同的原始数据集进行重做分析(例如,Chang&Li 2015);
书目研究记录不同科学领域的出版物偏见程度和随时间的变化(例如,Fanelli 2010A,2010B,2012);
调查研究人员中的可疑研究实践(QRP)及其对出版文学的影响(例如,John,Loewenstein,&Prelec 2016; Fiedler&Schwarz 2016; Agnoli等,2017年;弗雷泽等。2018);
调查科学期刊的方法和分析报告的完整性,正确性和透明度(例如,Nuijten等,2016; Bakker&Wicherts 2011; Cumming等,2007; Fidler等,2006);
研究人员对核心方法论和统计概念的理解的调查和面试研究,以及改善实践的真实和感知障碍(Bakker等,2016; Washburn等,2018; Allen,Dorozenko,&Roberts 2016);
评估改变行为的激励,从而提高重现性和鼓励更多的开放实践(例如,Kidwell等人2016)。
2.1再现性项目
这些项目中最着名的是毫无疑问的重现性项目:心理学,由夏洛茨维尔的现行开放科学中心协调(然后是开放式科学协作)。 它涉及在11个不同国家的64个不同机构中的270名人群资源研究人员。 研究人员试图在2008年在三个领先的心理学期刊上发表的100项研究的直接复制。每项研究只复制一次。 尽管有一些差异是不可避免的一些差异,但试图尽可能地遵循原始方案(例如,当原始研究使用美国样品时,使用欧洲样本进行了一些复制研究)。 在几乎所有病例中,复制研究使用了更大的样本尺寸,原始研究和因此具有更大的统计功率 - 即,当假设是假时正确拒绝零假设的更大概率更大概率(即,没有关系)。 报告了许多可重复性措施:
在原始和复制之间存在统计学意义的匹配的比例。 (这里,结果的统计显着性是给定零假设会发生的概率,并且P值是这种概率的常见措施。例如,如果它们都指定原始概率,则复制研究和原始研究将具有统计显着性的匹配给出零假设发生的复制结果小于5%-I.,如果两项研究的结果的P值低于0.05。)根据这项措施成功再现了39%(36%)的结果。
复制研究的效果大小的研究比例落入原始的95%置信区间(CI)内。 (这里,ES表示现象 - 一个玩具例之间的关系的强度,其是一种与症状浮雕相关的药物的强烈消耗 - 并且置信区间提供了复制研究的es的概率恰当地指示了靠近原始的次数研究。)根据这项措施成功复制了407%(47%)的结果。
原始ES与复制的相关性。 复制研究ESS大约是原始ESS大小的一半。
独立研究人员主观评级的研究比例表明复制与原件之间的匹配。 根据这项措施,39%(39%)被认为是成功的复制品。 该数字的近距离测量1表明评估者在判断中非常重视P值。