科学结果的再现性(三)
FEEST(2016)审查涉及关于心理学中莫扎特效应的辩论的案例研究(粗略地说,这是听莫扎特的效果有利地影响智力或大脑结构的某些方面)。 像柯林斯一样,她同意确定是否有冲突结果表明推定的复制实验不是一个正确的复制尝试,部分原因是莫扎特效应等科学概念是否在早期或更高的科学概念被适当地运作的不确定性实验背景。 不像柯林斯(在她的解释上),她不认为这种不确定性是出现的,因为科学家对关于莫扎特效应等概念的意义和应用的语言规则的知识不可避免地了解。 相反,不确定性出现,因为这种概念仍然是他们自己发展,并且由于对成功吸引推论所需的世界的假设。 然后,实验方法是为了揭示关于应用概念的应用和推论的合法性的先前默塞特假设,易于审查的假设。
例如,在她对莫扎特效应的研究中,她指出了莫扎特效应的复制研究未能发现莫扎特音乐对空间能力有益的影响。 Rauscher是第一个报告支持莫扎特效应的结果,表明后期的研究不适合她的研究(Rauscher,Shaw和Ky 1993,1995)。 她澄清了莫扎特效应仅适用于特定的空间能力(时空过程),并且后期研究在不同的空间能力(空间识别)方面运营莫扎特效应。 然后,在这里,难以确定是否将失败的复制结果解释为初始结果的证据,或者是复制研究不是适当的复制的指示。 由于默认知识或假设,对莫扎特效应概念的假设对不同种类的空间能力进行假设,关于世界是否使莫扎特音乐有关这种能力以及莫扎特的失败对其他的影响有关各种空间能力需要推理莫扎特效应不存在。 然而,对抗柯林斯,实验方法能够解释和测试这些假设,从而允许科学家克服解释性僵局。
在这个背景下,她的整体论点是科学家们往往是并且应该对彼此的结果持怀疑态度。 然而,这不是因为无法腐败的知识和认识结果的认识策略不可避免的失败。 相反,它至少部分地是改变的默契假设,研究人员对概念的含义,关于世界的意义,以及关于从中汲取推论的内容。 渐进实验有助于揭示这些默契假设,然后可以审查,从而导致知识的积累。
根据实验者的回归还有其他哲学文献,包括特里拉(2013)纸张争论特定的实验脱叠程序是根据合同主义观点的回归辩护,根据哪些自私科学家有理由采用良好方法论标准。
3.2复制作为科学的区别特征
普遍认为,科学与其他知识积累的努力不同,有些人建议复制区分(或至少是至关重要的)科学在这方面。 (另见科学和伪科学的进入。)。 根据开放式科学合作,“可重复的研究实践是在声音研究的核心和科学方法中。” (2015:7)。 Schmidt呼应了这一主题:“通过重复程序确认结果或假设是基于任何科学观念的基础(2009:90)。 Braude(1979年)概述了,再现性是“科学与无情的分界标准”(1979:2)。 同样地,鼻子,间谍和洋洋矩状:
[T]他的科学方法通过公开披露索赔的证据基础,将其自身与其他方法不同...... 原则上,开放分享方法意味着可以由任何人复制整个科学知识。 (2012:618)
如果复制在科学中发挥了如此重要或区别的作用,我们可能希望它成为科学史上的突出主题。 Steinle(2016)考虑到这是一个主题的程度。 他介绍了各种案例,从科学史上发挥了非常不同的角色,尽管他勉强了解“复制”,以便在不同的研究人员重新运行实验时。 他声称,实验复制中复制的作用和价值是“比简单教科书账户更复杂,使我们相信”(2016:60),特别是因为每个科学探究总是与可能影响复制重要性的各种语境考虑因素相关。 这种考虑因素包括实验结果与接受理论背景时的关系,对追求复制的实际和资源限制以及研究人员的信誉。 他声称的这些上下文因素意味着复制是在某些情况下,还有在某些情况下接受研究声明的关键或甚至覆盖的决定因素,但不在其他方面。
例如,有时复制足以接受研究索赔,即使它与接受理论的背景和左侧理论上未解决的理论问题发生冲突。 这样的情况是高温超导性,其中电流可以通过在相对高的温度下通过导体通过零电阻的效果。 1986年,物理学家Georg Bednorz和AlexMüller报道了在35个开尔文(-238摄氏度)的超导体中的材料。 世界各地的科学家成功地复制了效果,然后在宣布后一年内获得诺贝尔和穆勒的诺贝尔奖。 这种情况是显着的,因为它们的效果不仅在当时的效果与接受的物理理论相矛盾,但仍然没有现存的理论,充分解释了他们报告的效果(DI Bucchianico,2014)。
然而,作为对比示例,有时会接受任何没有任何复制的权利要求。 在1650年代,德国科学家Otto Von Guericke设计并操作了世界上第一个真空泵,可明显吸入较大的空间。 他用他的设备进行了实验到各种受众。 然而,他对他人的实验的复制是非常困难的,如果不是不可能的话 尽管如此,Steinle声称“他的结果没有提出疑虑”,可能是他“可以通过大量参与者目睹的公共表演”的结果(2016:55)。
斯坦尔采取这种历史案例来提供规范性指导,以便了解认识到的作为复制作为上下文敏感性:是否需要复制或足以建立研究索赔将取决于各种考虑因素,例如前面提到的各种各样的考虑因素。 因此,他避免了宽大的索赔,例如“这完全是关于可重复性”或“可重复性没有决定任何事情”(2016:60)的索赔。
3.3正式化复制逻辑
earp和trafimow(2015)试图将复制的形式正式化,他们使用贝叶斯框架来阐明从复制研究中汲取的推论。 它们在类似于柯林斯(1985年)的背景下展示了该框架,并注意到“很快不可能得出结论地说,复制结果”(Earp&Trafimow,2015:3)。 但是,虽然复制研究往往不是决定性的,但他们确实认为这些研究可以是信息性的,而他们的贝叶斯框架可以描绘它是如何的。
该框架与一个例子一起出发。 假设研究员A的AFICIONADO A非常有信心,研究人员A的任何事情都是真的。 其他研究员,研究员B,然后尝试通过研究人员A复制实验,研究人员B发现与研究人员A. eSP和TrafimoW的结果相冲突的结果,即Aficionado可能会继续在研究人员A的调查结果中充满信心,但是Aficionado的信心可能略微下降。 随着复制尝试失败的次数增加,AFICIONADO的置信度相应地降低,最终落在50%以下,从而对Replication Failures的比例置于研究人员A最初报道的结果中,因此对复制失败置于复制失败的速度。
然后,假设我们对研究人员A的原始结果给出了研究人员B的第一个复制失败,我们感兴趣。 earp和trafimow表示这种概率,其中p是概率函数的符号p(t |f),t表示原始结果为true的命题,f代表研究员b的复制失败。 根据贝叶斯的定理如下,这种概率可从Aficionado的置信度可计算,即在学习复制失败P(t)之前,原始结果是真实的,它们对原始结果是真实结果的条件的复制失败的期望程度(T |,以及他们无条件地期望在学习复制失败之前预期复制故障的程度P(f):
p(t|f)=
p(t)p(f|t)
p(f)
相关的是,我们可以对原始结果为真或错误的置信率来说,如果未能复制,我们可以感兴趣。 该比率是可表示的
p(t|f)
p(~t|f)
其中~t表示原始结果为false的命题。 根据标准贝叶斯概率微积分,该比率又与比率的乘积有关
最合适的结果是真实的
p(t)
p(~t)
和
对结果是真或假的条件的预期
p(f|t)
p(f|~t)
。
该关系在等式中表示:
p(t|f)
p(~t|f)
=
p(t)
p(~t)
p(f|t)
p(f|~t)
现在EARP和Trafimow将一些值分配给(2)的等式的右手的术语。 假设Aficionado对原始结果充满信心,它们设定了比率
p(t)
p(~t)
到50,这意味着Aficionado最初是50次相信,结果是真的,结果是假的。
他们还设定了比率
p(f|t)
p(f|~t)
。 关于复制失败的条件期望为0.5,这意味着AFICiOnado会相当不太自信,如果原始结果是真实的,则会有一个复制失败,如果它是假的。 他们指出,Aficionado不太自信的程度取决于关于复制实验的所谓辅助假设的质量。 在这里,辅助假设是如果在测试的理论是真实的情况下,如果真实的理论是真的,则能够使其能够观察到该特定事物的假设。 直观的想法是,关于复制研究的假设质量越高,如果原始结果是真的,则越期望观察成功复制。 虽然它们没有准确地指定在这种情况下使这种辅助假设具有高“质量”,但可能是这种质量涉及假设可能是真实的程度,并且复制实验的程度是对原始结果的准确性的适当测试假设是真的。
一旦等式(2)的右手的比率被设置为这样,就可以看到复制失败将减少一个人对原始结果的信心:
p(t|f)
p(~t|f)
=
p(t)
p(~t)
p(f|t)
p(f|~t)
=(50)(0.5)
= 25
然后,复制失败会减少AFICIONADO的信心,即原始结果是真实的,使得AFICIONADO将在失败给出的结果(根据)仅25倍
p(t|f)
p(~t|f)
)而不是50倍相信它是真的(如
p(t)
p(~t)
)。
然而,Aficionado可能仍然相信原始结果是真的,但我们可以看到这种信心如何随着连续的复制失败而减少。 更正式地,让FN以N复制故障⟨f1,F2,...,fn⟩序列中的最后复制失败。 然后,给定第n个复制失败的原始结果对Aficionado对原始结果的置信度在等式中表示:[3]
p(t|fn)
p(~t|fn)
=
p(t)
p(~t)
p(f1|t)
p(f1|~t)
p(f2|t)
p(f2|~t)
⋯
p(fn|t)
p(fn|~t)
例如,假设有10个复制失败,因此n = 10。 进一步假设复制失败的置信比率被设置为:
p(f1|t)
p(f1|~t)
p(f2|t)
p(f2|~t)
⋯
p(f10|t)
p(f10|~t)
=(0.5)(0.8)(0.7)(0.65)(0.75)(0.56)(0.69)(0.54)(0.73)(0.52)
然后,
p(t|f10)
p(~t|f10)
= 0.54
=
p(t)
p(~t)
p(f1|t)
p(f1|~t)
p(f2|t)
p(f2|~t)
⋯
p(f10|t)
p(f10|~t)
=(50)(0.5)(0.8)...(0.52)
此后,Aficionado对原始结果的信心减少,因此它们更加自信,这比这是真实的。 因此,在earp和trafimow的贝叶斯账户上,连续的复制失败可以逐步侵蚀一个人的信心,即使一个原始结果是真实的,即使在原始结果中最初是非常自信的,也是即使没有自身的单一复制失败是决定的。[4]
然后,earp和trafimow的账户的一些推定优点是它提供了一个正式化,即使他们没有得出决定,它也是信息的提供信息,而且,形式化为两种复制尝试以及辅助假设提供了一个作用。重复。
4.开放科学改革:价值观,语气和科学规范
上述元科学出土了一系列问题,这引起了重现性危机,开放的科学运动已经提出或促进了各种解决方案 - 或改革 - 对于这些问题。 这些改革可以分为四类:(a)方法和培训,(b)报告和传播,(c)同行审查进程,(d)评估新的激励结构(松散地遵循munafò等人使用的类别。2017和Ioannidis等。2015)。 在下面的第4.1-4.4小节中,我们在上述每个类别中提出了一个非详尽的举措列表。 这些举措是在开放科学运动中心的各种价值观和规范的反思,我们讨论了4.5的这些价值观和规范。
4.1方法和培训
打击偏见。 打击偏置的方法,例如,用于打击确认偏差的掩蔽或盲分析技术(例如,MACCOUN&Perlmutter 2017)。
支持。 为研究人员提供方法支持,包括公布的指导方针和统计咨询(例如,由开放科学中心提供)以及由Daniel Lakens开发的大型在线课程(参见其他互联网资源)。
合作。 促进合作与团队/人群源科学,打击低功耗等单一研究的方法论局限性。 再现性项目本身是一个例子,但是在心理学和集体复制和教育项目中有其他举措也是如此研究,并参见这两种互联网资源,参见munafò等人。对于更详细的描述,旨在增加本科教育的复制患病率。
4.2报告和传播
最高指导方针。 透明度和开放性促销(TOP)指南(ForekEt al.2015)与2018年5月底,近5,000个期刊和组织作为签字人。 在心理学中发展,最高指导方针已经形成了其他学科具体指导方针的基础,例如生态和进化(TTEE)的透明工具。 顾名思义,这些指南促进了更完整透明的方法论和统计实践的报告。 这反过来又使作者,审阅者和编辑能够考虑其样本规划和设计决策的详细方面,并清楚地区分确认(计划的)分析和探索性(后HOC)分析。
预先登记。 在其最简单的形式中,预注册涉及在收集,查看或分析之前进行公共,日期印章的预测和/或假设的预测和/或假设。 目的是区分从关键后的预测(ForeSk等,2018),或者其他地方被称为探索性研究的确认研究(Wagenmakers等,2012),也许是更常见的假设检测与假设检测相反的区别假设产生研究。 预测研究预先登记有助于控制Harking(Kerr 1998)和后视偏差,并且在频繁的空假设意义测试中,有助于将假误差率包含到集合alpha级别。 有几个托管预注册的平台,例如开放式科学框架(OSF.IO)和预测(ASPRedictE.org)。 开放式科学框架还举办了“预注册挑战”,为出版预注册工作提供了货币奖励。
具体的日记举措。 一些高影响的期刊,在科学媒体中被挑选为具有特别有问题的出版实践(例如,Schekman 2013),采取了特殊的措施来提高他们发布研究的完整性,透明度和可重复性。 例如,自2013年以来,自然和自然研究期刊从事一系列编辑活动,旨在改善其期刊上发布的研究的再现性(参见编辑公告,自然496,398,2013,2013年4月,DOI:10.1038 / 496398A)。 2017年,他们介绍了清单和报告摘要(以及与文章发布),以提高透明度和可重复性。 2018年,他们为自然人类行为和自然生态和进化产生了纪律特定版本。 在心理学中,期刊心理学科学(心理科学协会)是第一个采用开放科学惯例的,如下所述的COS开放科学徽章。 在2015年的生态和进化期刊编辑会议之后,这些领域的一些期刊在这一主题中运行了编辑,通常致力于TTEE指南(上文讨论)。 保护生物学有除此之外通过一个清单副编辑(帕克等铝。2016)。
4.3同行评审
注册报告。 注册报告转移对同行审查发生在研究过程中的点,以便打击对NULL(负)结果的出版物偏差。 仅在介绍,方法和计划分析的基础上提交,审核和出版决定,提交了手稿和发布决定。 如果被接受,那么作者然后有一个规定的时间段来执行计划的研究并提交结果。 假设作者遵循其原始计划(或与他们充分合理的偏差),期刊将履行其发布的决定,无论结果结果如何。 在心理学中,录取的报告格式由克里斯·姆伯斯(Chris Chambers)支持,Cortex Journal Cortex是第一个在Chambers编辑下采用格式的格式(2013年的Chambers 2017; Nostk&Lakens 2014)。 目前(2018年5月底),一系列生物医学,心理学和神经科学领域的108个期刊,提供了格式(请参阅其他因特网资源中的已注册报告)。
前打印。 在物理学等一些科学中成熟,使用预印刷服务器在生物和社会科学中的使用相对较新。
4.4奖励和评估
开放科学徽章。 最近审查了改进数据共享的举措,确定了开放数据和开放材料徽章作为最有效的计划(Rowhani-Farid,Allen,&Barnett 2017)。 一个这样的徽章方案是由目前授予三件徽章的开放科学中心协调:开放数据,开放材料和预注册。 徽章与遵循特定标准的文章遵守这些活动。 Kidwell等人。 (2016)评估徽章在期刊心理科学中的有效性,发现数据分享的大幅增加(从3到39%)不到两年的时间。 在同期没有徽章方案的类似期刊上没有发现这种增加。
开放科学改革中的价值,音调和科学规范
长期以来一直是哲学辩论关于什么角色值,应该在科学中发挥作用(教堂1948; Rudner 1953; Douglas 2016),并且重现性危机与关于这些价值之间的操作和互连的问题密切相关。 特别是鼻子et al。 (2017)争论真相与出版物之间存在紧张关系。 更具体地,出于上文第2节中讨论的原因,科学结果的准确性受到新颖性和积极成果的期刊的价值,并且因此,由重视职业成功的科学家们在这些期刊中努力出版这些结果。 除了ForeSk等人之外还有许多人。 (Hackett 2005; Martin 1992; Sovacool 2008)也接受了期刊和融资机构在新奇的价值作出问题。