科学结果的再现性(二)

对这个项目的实施和解释有异议,最值得注意的是Gilbert等人。 (2016年),他发出了复制研究确实是直接复制的程度。 例如,Gilbert等人。 突出显示“低保真协议”的6个具体例子,即复制研究在其视图中基本上不同于原始(在一个情况下,使用欧洲样本而不是美国参与者样本)。 然而,安德森等人。 (2016)在答复中解释的是,在这些案件的一半中,原始研究的作者已经赞同复制,直接或接近相关维度,而且,原始和复制研究之间的独立评价相似性未能预测复制成功。 其他人(例如,Etz&Vandekerckhove 2016)将贝叶斯·重新分析应用于OSC的(2015)数据,并得出结论,高达75%(而不是OSC的36-47%)可被认为是成功的。 然而,他们确实注意到,在许多情况下,这只是具有非常弱的证据(即<10)的疾病(即贝叶斯因子)。 他们太得出结论,未经复制的效果未经重现的效果是通过高估效果大小来解释的,本身是出版物偏见的产物。 一种可重复性项目:目前正在进行癌症生物学(也由开放科学中心协调)目前正在进行(Errington等,2014),最初试图复制2010-2012之间发表的癌症生物学中最高影响研究的50项。 该项目最近宣布只有18项复制研究将完成,因为太少的原件报告了足够的信息,以进行全额复制(Kaiser 2018)。 据报道,前10项研究的结果混合,只有5个被认为是“主要是可重复的”(Kaiser 2018)。

众多实验室项目(2014年Klein等,2014年)协调了36个经典心理学现象的36个独立复制(从12项研究,一项研究测试了两项效果),包括锚定,沉没成本偏见和引发,在其他众所周知的心理学效果中。 在匹配统计学意义方面,该项目证明了13个效果中的11个可能会成功复制。 它还显示出36个复制中许多效果大小的变化。

在生物医学研究中,还有许多大规模再现性项目。 Begley和Ellis早期(2012年),但在IOAnnidis 2005之前讨论过)试图复制56个标志性的前期临床试验,并报告的报告只有11%的令人惊叹的再现率,即56个结果中只有6个结果可以成功转载。 随后在该字段中进行大规模复制的尝试已经产生了更乐观的估计,但通常未能成功再现超过一半的发布结果。 Freedman等人。 (2015)通过独立研究人员进行报告五个复制项目,这些研究人员产生的重现性估算从22%到49%。 他们估计美国生物医学科学的不可替代研究的成本单独达到每年280亿美元的订单。 实验哲学的再现性项目是一般趋势的例外,报告70%的再现性率(Cova等人即将到来)。

最后,社会科学复制项目(SSRP)RedID 21在2010年至2015年期刊中发布的21个实验社会科学研究。根据所采取的措施,复制成功率为57-67%(Camerer等,2018)。

2.2出版物偏见,低统计功率和膨胀假率

我们提到的学科的原因在很大程度上是相同的。 这并不奇怪,因为它们源于统计方法的问题,出版实践和在“公布或灭亡”研究文化中创造的激励结构,所有这些都是在很大程度上分享的,至少在生命和行为科学中。

虽然复制通常随便被称为科学方法的基石,直接复制研究(因为他们可能会被从Schmidt或Gómez,法里斯托和Vegas的类型上面那样了解)是一些罕见的一些文学的活动科学学科,最重要的是生活和社会科学。 例如,这种复制尝试占发表的心理学文献的大约1%(Makel,Plucker,&Hegarty 2012)。 发表生态和演化文献中的比例甚至更小(凯利2017年,其他互联网资源)。

这种虚拟缺乏文学中的复制研究可以解释:许多科学期刊在历史上有明确的针对出版复制研究(Mahoney 1985)的明确政策来解释 - 从而产生“出版物偏见”。 79个社会科学期刊的70%以上的编辑表示,他们对复制和90%以上的新研究表明他们不会鼓励提交复制研究(Neuliep&Crandall 1990)。 此外,许多科学资助机构还仅基于“小说”,“原始”和/或“突破性”研究(Schmidt 2009)。

第二种类型的出版物偏见在再现性危机中也发挥了重要作用,即“统计学意义”或“阳性”结果的偏见。 与复制研究的偏见不同,这很少是一个明确规定的日志政策。 出版物偏见对统计上有重要的发现具有悠久的历史,并于英镑(1959年)首次在心理学中记录。 文本挖掘技术的发展导致更全面的估计。 例如,Fanelli的作品已经证明了各种学科的出版物偏见的程度,下面给出的统计上显着的结果的比例来自他的2010A纸。 他还记录了随着时间的推移增加了这一偏见(2012年)并探讨了偏见的原因,包括出版物偏见与发布或灭亡研究文化之间的关系(2010B)。

在许多学科(例如,心理学,精神病学,材料科学,药理学和毒理学,临床医学,生物学和生物化学,经济学和商业,微生物学和遗传学)统计上显着的结果比例非常高,接近或超过90%(Fanelli 2010A)。 尽管在许多这些领域中,平均统计功率低 - 即,研究将正确拒绝零假设的平均概率很低。 例如,在心理学中,统计上显着的公布结果的比例为92%,尽管该领域的研究平均力量检测中等效果大小(可争议地典型的纪律)大约是44%(Szucs&Ioannidis 2017)。 如果出版统计上显着的结果没有偏见,显着结果的比例应大致匹配学科的平均统计力量。 统计学意义的过量(在这种情况下,92%和44%之间的差异是指标偏差的强度。 对于第二个例子,在生态学,环境和植物和动物科学中,统计上显着的结果的比例分别为74%和78%,截然不二低于心理学。 然而,最近估计的统计力量,中等效果大小,生态和动物行为的估计是23-26%(史密斯,哈基,&Gamamell 2011)(早期更乐观的评估为40-47%,詹尼斯和Møller,2003年。)对于第三个例子,神经科学和行为中统计上显着的结果的比例为85%。 我们对神经科学统计学力量的最佳估计,最佳31%,下降估计为8%(按钮等,2013)。 关联的文件抽屉问题(Rosenthal 1979) - 在哪里研究人员将失败对他们的文件抽屉进行统计上的非重大研究,隐藏在公众视图中 - 长期以来一直在心理学和其他学科中建立,并且已知导致Meta分析中的扭曲(其中“Meta-Analysis”是一项研究,分析了多个其他研究的结果)。

2.3可疑的研究实践

除了创建上述文件抽屉问题之外,出版物偏差至少部分负责自我报告调查研究(John,Loewenstein,2012年John,Loewenstein,Harelec 2012中的可疑研究实践(QRP)的高普遍性。Agnoli 2017等人2017; Fraser等,2018年)和已经检测到的期刊研究,例如,P值的不寻常分布(Masicampo&Lalande 2012; Hartgerink等,2016)。 发布的压力,现在遍布学术机构,意味着研究人员往往不能只会向文件抽屉分配“失败”或统计上的非重大研究,所以他们可以将Hack和Cherry-Pick结果(如下所述)恢复到重要性,并回归进入发表的文学。 SIMMONS,NELSON和SIMONSOHN(2011)用模拟结果解释和证明了这些实践如何膨胀发表文献的假阳性误差率,导致可重复的结果较低。

“P攻击”是指一组实践,包括:在决定是否收集更多数据之前检查结果的统计显着性; 早期停止数据收集,因为结果达到了统计学意义; 决定是否仅在检查对统计显着性的影响之后排除数据点(例如,异常值)并未报告数据排除的影响; 调整统计模型,例如通过包括或排除协变量,基于所产生的利益的主要效果的强度; 并舍入P值以满足统计显着性阈值(例如,呈现0.053,如P <.05)。 “樱桃拣选”包括未能报告没有达到统计显着性或其他阈值和/或未能报告没有达到统计显着性或其他阈值的条件或治疗的关系。 “Harking”(结果后的假设是已知的)包括提出临时和/或意外发现,好像他们已被预测到(Kerr 1998); 并呈现探索性工作,尽管它是确认假设检测(Wagenmakers等,2012)。 最普遍的QRP中的五个如下表1所列(来自Fraser等,2018),普遍存在的普遍存在措施。

表1:一些共同的可疑研究实践的普遍存在。 报告至少一次使用QRP的研究百分比(具有95%的置信区间)(从Fraser等,2018)

可疑的研究实践。意大利心理学意大利

(Agnoli等,2017)心理学美国

(约翰,Loewenstein,&Prelec 2012)生态学

(Fraser等,2018)进化

(Fraser等,2018)

未报告未能达到统计显着性的响应(结果)变量#47.9

(41.3-54.6)63.4

(59.1-67.7)64.1

(59.1-68.9)63.7

(57.2-69.7)

在检查结果是否在统计上有重大意义后收集更多数据* 53.2

(46.6-59.7)55.9

(51.5-60.3)36.9

(32.4-42.0)50.7

(43.9-57.6)

舍入P值或其他数量以满足预先指定的阈值* 22.2

(16.7-27.7)22.0

(18.4-25.7)27.3

(23.1-32.0)17.5

(13.1-23.0)

在首次检查对统计显着性的影响后,决定排除数据点* 39.7

(33.3-46.2)38.2

(33.9-42.6)24.0

(19.9-28.6)23.9

(18.5-30.2)

报告意外发现,从开始时预测^ 37.4

(31.0-43.9)27.0

(23.1-30.9)48.5

(43.6-53.6)54.2

(47.7-60.6)

#cherry采摘,

* p攻击,

^ harking

2.4过度依赖Null假设意义测试

上面的空假设意义测试(NHST) - 上面的讨论 - 是当前复制危机的常识原因(参见Szucs&Ioannidis 2017)。 NHST在生活和行为科学中的无处不在的性质,最近由Cristea和Ioannidis(2018年)有很好的记录。 这是建立其作为原因作用的重要预先存在,因为如果实际使用是罕见的,它可能不是一个原因。 NHST的二分法性质促进出版物偏见(Meehl 1967,1978)。 例如,在假设检测中接受和拒绝的语言可以方便地接受和拒绝稿件,这是导致ROSNOM和ROSENTHAL(1989)摧毁的事实“当然,上帝喜欢.06几乎就像那样一样.05”(1989:1277)。 未能对二分阈值进行异化阈值的技术将在出版物偏见中努力努力。 例如,已经提出了使用效果尺寸和置信区间(上面介绍)的估计值不易用于出版物偏差服务(Cumming 2012,Cumming和Calin-Jageman 2017。

如已经提到的,各学科的平均统计力量很低。 不仅功率通常很低,而且几乎从未报道过; 不到10%的心理学报告统计权力甚至更少的生态(Fidler等,2006)。 对统计权力的广泛忽视的解释通常突出了与P值相关的许多常见的误解和谬论(例如,Haller&Krauss 2002;杰利策司机2018)。 例如,反向概率谬误[1]已被用于解释为什么这么多的研究人员未能计算和报告统计权力(奥克斯1986)。

2017年,一组72名作者提出的,在自然的人类行为纸上提出,统计显着性测试中的α水平降低至0.005(与目前的标准0.05),以提高公布研究的再现性率(Benjamin等,2018)。 来自其他88名作者的回复在同一期刊上发表,争论此提案和说明,而是基于上下文(Lakens等,2018)代替研究人员应该证明其alpha级别。 其他几个答复所遵循了,包括Andrew Gelman及其同事的呼吁,以放弃统计显着性(McShane等,2018,其他互联网资源)。 交易所在社交媒体上是已知的,作为alpha Wars(例如,在几乎没有几乎重要的博客,其他互联网资源中))。 独立地,美国统计会发布了关于其历史上第一次使用P值的声明,提醒其过度诠释,并指出他们提供的信息的限制(Wasserman&Lazar 2016)并致力于他们的协会2017年度归属于主题的“21世纪科学方法:超越P <0.05”(见其他互联网资源)。

2.5科学欺诈

最近近期的科学欺诈案件有很大贡献了科学的重现性危机的媒体数量。 通常这些情况(例如,心理学中的Diederik Stapel)被用作媒体覆盖的钩子,尽管危机本身与科学欺诈有关。 (还要注意,尽管有这种道德可疑的地位,上述的可疑研究实践通常不被视为“欺诈”甚至“科学不端行为”。)例如,方,赠款斯汀和Casadevall(2012年)估计43%的缩回文章由于欺诈,生物医学研究被撤回。 然而,每年出版大约五百万生物医学文章,只有400个被撤回(Oransky 2016,网站RetractionWatch的创始人),因此这增加了很少的文献比例(约0.1%)。 当然,许多药物公司对科学家和出版业的制药公司举办了对造成猜测有关在文献中可能仍有多少未被发药的(或未触觉)案件的造成猜测。 有了此同说,该领域的科学家之间存在广泛的共识,即目前的再现性危机的主要原因是目前科学的激励结构(出版物偏见,出版或灭亡,非透明统计报告,数据共享缺乏奖励)。 虽然这种激励结构可以推动一些科学欺诈,但它似乎是一个非常小的比例。

3.与复制相关的认识论问题

许多科学家认为复制在某种程度上是在某种程度上认识到的,也就是说,复制在提高关于现实的知识,理解或信仰方面有用的功能。 本节首先讨论了关于复制研究的认知价值的问题 - 称为“实验者回归” - 然后考虑了复制在区分科学探究时发挥着记者有价值的作用。 它最后审查了最近的尝试将复制逻辑正式中的贝叶斯框架中的逻辑。

3.1实验者的回归

柯林斯(1985)阐述了广泛讨论的问题,现在称为实验者的回归。 他最初在测量背景下提出问题(柯林斯1985:84)。 假设科学家正试图确定测量装置的准确性以及测量结果的准确性。 或许,例如,科学家正在使用温度计来测量液体的温度,并且它提供特定的测量结果,例如12摄氏度。

由于测量结果的准确性的相互依存性和测量装置的准确性的相互依赖性:要知道特定测量结果是否准确,我们需要针对先前已知准确的测量结果测试,但要知道结果是准确的,我们需要知道它已通过精确的测量装置获得,等等。 根据柯林斯的说法,这会创建一个“圆圈”,他指的是“实验者的回归”。

柯林斯更普遍地将问题扩展到科学复制。 假设实验B是对初始实验A的复制研究,并且B的结果明显与结果发生冲突。 这个看似冲突可能有两个解释之一:

a和b的结果将在调查下的假设的真实方面提供了真正相互矛盾的判决

实验B并非实际上对实验A的适当复制。

回归对如何在这些解释之间进行解决问题,如果没有以特定方式选择的理性接地,那么威胁复制研究的认知值的问题。 确定一个实验是否是另一个实验的特权,科学写作惯例通常省略实验方法的精确细节(Collins 2016)的确切细节,以及科学家要求执行实验的大部分知识是默契和“不能完全阐述或绝对建立”(柯林斯1985:73)。

在实验方法论的背景下,柯林斯写道:

要了解一个实验,需要了解它是否会产生正确的结果。 但要知道正确的结果是什么,人们需要做出良好的实验。 但要知道实验是否进展了......! (2016:66;省略号原装)

柯林斯认为,在所产生的结果发生冲突的情况下,科学家们倾向于分为两组,每个群体都持有反对解释结果。 根据柯林斯的说法,这样的群体“确定”和“争议竞争深度”(柯林斯2016:67),群体之间的争议不能通过进一步的实验来解决,因为每个额外的结果受实验者的回归所带来的问题。[2] 在这种情况下,Collins声称特定的非认识因素将部分确定哪种解释成为持久的观点:

科学家的职业生涯,社会和认知利益,他们的声誉和其机构,以及未来工作的感知效用。 (富兰克林和科林斯2016:99)

富兰克林是柯林斯最令人兴奋的对手,尽管两者之间的合作促成了一些协议(柯林斯2016)。 富兰克林展示了一系列验证实验结果的策略,所有这些策略都涉及认识到的“理性论证”(富兰克林1989:459; 1994)。 例子包括例如对测量装置的实验检查吸引或消除实验中的潜在误差来源(Franklin&Collins 2016)。 他声称这种策略在科学实践中证明的事实“反对那些认为理性论据的人争辩,如果有的话,如果有的话,如果有的话,那么在这种验证中(Franklin 1989:459),有柯林斯是一个例子。 他将柯林斯解释为解决结果验证辩论的策略是社会因素或“文化接受的做法”(富兰克林,1989:459),其没有提供基于理性信念的理由。 Franklin(1994)进一步声称,Collins在成功执行实验中难以证明实验已经执行的实验,Feest(2016)解释他说,虽然此类执行需要默认知识,但最终可以对战略提出吸引力证明实验结果的有效性。

(本章完)

相关推荐