特别是,以下主张受到了批评:
统计显着性检验的逻辑需要随机化(Fisher 1935)。罗纳德·费希尔 (Ronald Fisher) 引用了他著名的茶女思想实验,以证明显着性检验仅适用于随机分配。假设一位英国女士声称她能够辨别先将茶还是牛奶倒入杯子中,我们想测试这个断言。如果她在一系列八杯(四杯“先牛奶”和四杯“先茶”)中每次都正确,那么这个结果可能是由于她通常敏锐的味觉。但这也可能有无数其他原因:她可能知道前四个杯子中首先倒入牛奶,并正确地将前四个杯子识别为“牛奶先”; “牛奶优先”杯子的颜色或形状与“茶优先”杯子不同,或者具有任何其他视觉上可识别的特征;一名同伙记录了哪些杯子“先放牛奶”并向她发出信号;等等。费舍尔现在认为,只有当茶杯的分配是随机完成的时,这位女士正确地获得所有八个杯子的概率才被正确地识别为她在没有歧视能力的情况下猜测时获得正确结果的概率(这在本例中为 1/70)。因此,我们可以判断,她确实具有不寻常的辨别能力,或者一定发生了极不可能发生的事情(即概率为1/70的事件)。但这是不正确的。事实上,尽管她的味觉不太好,但她仍然有无数种方法可以得到结果。如果一个同伙向她发出正确答案的信号,那么无论她的辨别能力如何,她正确答案的概率都非常接近 1 (Worrall 2007a)。一个好的实验可以防止这种情况发生,但这与实验设计的其他方面有关,而不是随机化。
对所有已知和未知的混杂因素进行随机化控制(Fisher 1935;Giere 1984)。许多变量都会影响患者的康复概率:性别、年龄、合并症、遗传因素、治疗方案的依从性、心理因素等等。如果我们想判断治疗组之间观察到的恢复率差异是由于干预而不是其他因素造成的,我们必须确保不同组之间因果因素的概率分布是相同的。随机化应该可以确保这一点。然而,对于任何有限的测试人群规模(许多随机对照试验的患者数量确实相对较少),治疗组仍然可能不平衡:老年患者最终进入一组,年轻患者进入另一组,等等。 RCT 中的患者数量越多,各组在任何给定因素方面不平衡的可能性就越小,如果有许多可能的因素影响结果,那么实际上很可能其中一些因素不平衡。因此,在实践中,如果在随机化后发现两组在被认为影响结果的变量方面不平衡,则对组进行重新随机化或调整(Worrall 2002)
可以“证明”随机对照试验的结果是正确的(Cartwright 1989;参见 Worrall 2007b)。每个科学家在其职业生涯的某个阶段都会了解到,不能仅仅因为 X 和 Y 相关而判断 X 是 Y 的原因。根据一个著名的因果理论,即。在概率论中,因果关系毕竟是相关性的一种形式。非常粗略地说,概率理论认为,只要 X 和 Y 相关并且所有混杂来源都已得到控制,X 就会导致 Y(Reiss 2007)。现在可以证明,在概率理论和许多其他假设下(包括随机化已经成功的假设,因为治疗组在预后因素方面是平衡的),如果治疗状态变量与结果变量相关,那么治疗必定会导致结果(Cartwright 2007)。然而,基于这一推理而给予随机对照试验在循证医学中的特殊地位将犯逻辑错误。该论点只能表明,如果 RCT 背后的所有假设都得到满足,那么 RCT 将给出因果正确的结果。它并不表明随机对照试验是产生可证明正确结果的唯一方法。事实上,可以相对容易地证明,在某些假设条件下,识别所谓工具变量的观察性研究同样可以证明是正确的(Reiss 2005)。
最后但非常重要的问题是随机对照试验结果的外部有效性。即使在理想条件下(即,当医学研究人员有非常充分的理由假设 RCT 的假设得到满足时),RCT 也只能确定治疗在测试人群中有效。典型的测试人群或多或少系统地不同于目标人群(即为其开发治疗方法且最终将接受治疗的人群)。例如,许多随机对照试验将排除老年患者或患有合并症的患者,但治疗将向这些患者推销。出于财务原因,许多随机对照试验目前在发展中国家进行,而治疗方法主要或专门面向发达国家的患者。尽管进行随机对照试验的方案非常严格和详细,但当患者属于与进行随机对照试验的人群不同的人群时,没有良好的指导方针如何做出治疗决定(例如,Cartwright 2011)。
RCT结果的应用实际上存在两个外部效度问题。一方面,存在从测试到目标人群进行推断的人群层面的问题。另一方面,存在从总体到个体进行推断的问题。 RCT 为人群层面的主张提供了证据:“在人群 p(测试人群)中,干预措施 X 对治疗 Y 病症有效”。要使这一说法成立,治疗必须平均有效,这使得效果在人群中因人而异。事实上,干预措施可能平均有效(且有益),但对某些个体(即某些亚群体的成员)无效或有害。当 EBM 的支持者写道 EBM 时,他们在某种程度上夸大了他们的观点
不再强调直觉、非系统的临床经验和病理生理学原理……而是强调对临床研究证据的检验。 (循证医学工作组 1992 年)
因为从测试到目标人群以及从任何人群到接受治疗的个体的推论必然基于临床判断。
John Worrall 认为,归根结底,随机对照试验是控制选择偏差的有力手段,但仅此而已(Worrall 2002, 2007a,b)。当他使用这个术语时,当治疗组和对照组在某些预后因素方面不平衡时,就会出现选择偏差,因为医学研究人员已经选择了哪些患者将接受哪种治疗。这种意义上的选择偏差显然不会出现在随机对照试验中,因为随机对照试验中的分配是通过随机过程进行的。但同样清楚的是,随机化至多是足够的,但不是实现结果所必需的。可以使用大量替代设计来达到相同的效果:可以通过严格但非随机的协议进行分配;分配是由与治疗开发无关的非专家进行的,因此对结果没有期望;治疗组和对照组是有意匹配的(同样是由没有任何利害关系的人或根据某种协议);等等。
一个有争议的问题是机械知识的作用,即有关医疗结果(以及治疗效果)的生物和生理机制的知识应在循证医学中发挥作用。如上所述,RCT 为“在人群 p 中,干预 X 对治疗 Y 病症有效”形式的黑盒因果断言提供了证据。正如我们所看到的,循证医学的支持者也认为循证医学不再强调病理生理学原理(“机械知识”的不同术语)。尽管如此,一些医学哲学家指出,机械知识在循证医学中实际上很重要,或者应该受到更多关注。例如,Federica Russo 和 Jon Williamson 认为,因果主张需要统计证据以及有关将干预与结果变量联系起来的机制的证据才能成立(Russo 和 Williamson 2007)。其他人不同意(Reiss 2012)或限定该主张(Gillies 2011;Howick 2011a;Illari 2011)。此外,有人指出,机械知识在 RCT 的设计和准备以及 RCT 结果的解释和应用中发挥着重要作用(La Caze 2011;Solomon 2015)。尤其是当涉及到将一项测试的研究结果外推到另一个人群时,机械知识应该是至关重要的(Steel 2008;另见下一节)。另一方面,有关机制的知识通常存在很大问题,不应在应用程序中过分依赖(Andersen 2012)。
6. 动物模型
新疗法通常先使用动物模型进行试验,然后再进行随机试验进行人体测试。动物模型在确定某种物质是否对人类有毒方面也发挥着重要作用。例如,国际癌症研究机构 (IARC) 根据致癌性证据的质量将物质分为五类。每组的特征描述均参考了来自动物模型的证据(IARC 2006)。这就提出了这样的问题:这种从动物模型到人类的推断是如何运作的,以及它们的可靠性如何。
动物模型广泛应用于生物医学研究,因为对动物的实验干预比对人体的实验更容易进行且成本更低。这两种实验都涉及伦理困境,但从伦理角度来看,动物实验通常被认为比人体实验问题更少。无论如何,在生物医学研究中被杀死、致残或患病的动物数量远远高于在这项研究中受到不利影响的人类数量。
将任何模型(无论是人类、动物还是其他模型)中学到的知识转移到某些感兴趣的目标人群中都存在一个基本的推理问题,被描述为“实验者圈子”(Steel 2008)。问题本质是这样的。仅当模型在相关方面与目标相似时,模型的正确性才能被推定为目标的正确性。然而,我们首先在模型上进行实验的原因是,模型在重要方面与目标不同(如果动物就像人类一样,我们不会发现前者的实验在伦理上比后者的实验更容易产生问题) )。因此,只有在我们直接研究目标的能力存在重大限制的情况下,外推(从模型到目标的推论)才有价值。如果是这样,就没有充分的理由来决定模型是否适合目标。为此,我们必须调查目标是否与模型相关相似;但如果我们能做到这一点,那么一开始就没有理由研究这个模型。
这一推论问题导致一些评论家对我们在生物医学研究中使用动物作为人类模型的能力保持高度怀疑。 Hugh LaFollette 和 Niall Shanks 认为,动物模型根本不能可靠地用于外推,最多只能作为启发式的假设来源,必须在人类身上进行测试(LaFollette 和 Shanks 1997)。他们引入了两个术语来论证:因果类比模型(CAM)和假设类比模型(HAM)。前者可用于对感兴趣的目标人群做出可靠的预测;后者只是启发式的。他们认为生物医学研究中的动物模型充其量是 HAM 而不是 CAM,其论点的主要前提是,对于一个 CAM 模型来说,模型和目标之间不能存在因果相关的不相似性——动物模型很少满足这种条件。 (这也是我们首先在实验室研究动物的原因)。
Daniel Steel(2008:第 5 章)认为,LaFollette 和 Shanks 的可靠外推条件过于严格。他认为,关于模型的主张是否可以推断还取决于要输出的主张的强度。比如说,推理是一回事
人口 p 中 x% 的成员在摄入物质 S 后会出现中毒症状
到
人口 x% q≠p
�
≠
�
摄入物质S后会出现中毒症状,
从定量主张推理到定性主张(例如“物质 S 对 q 的成员有毒”)是另一回事。
斯蒂尔自己对生物医学中外推法的运作方式进行了重构,称为比较过程追踪。他假设原因C(例如医疗干预或有毒物质的摄入)通过一系列步骤或阶段带来效果E(例如症状的出现或症状的改善或恶化)。追踪因果过程意味着调查 C 通过哪一组阶段带来 E。当将 C 在一个物种或种群中带来 E 的阶段集与它所经历的阶段集进行比较时,过程追踪是比较性的(如果确实如此)在另一个。
如果为了知道 C 在目标物种或种群中引起 E,我们必须比较模型和目标之间过程的所有阶段,比较过程追踪将是徒劳的。这是因为为了做到这一点,我们必须知道 C 导致 E 的过程的所有阶段,但如果我们这样做了,我们就已经知道 C 导致 E。这让我们回到了外推器的循环。 Steel 现在认为,比较过程追踪通过要求过程仅在可能存在差异的阶段进行比较,并假设模型和目标之间的差异仅在它们获得的下游阶段进行比较,从而避免了外推器的循环。因此,如果我们将模型中获得的过程的中间阶段与目标中的该阶段进行比较,并发现它们相关相似,那么仍然可能获得的唯一差异将是该阶段的下游。因此,我们不需要了解目标中从 C 到 E 的整个过程,并且成功避免了外推器的循环。
比较过程追踪作为生物医学的一种外推方法有多有用,取决于只有下游差异对外推有意义的假设的可靠性、可以识别模型和目标之间可能存在差异的阶段的可靠性以及可靠性更广泛地了解我们的机械知识。比如说,如果我们假设 C 通过模型中的一系列阶段 X、Y、Z 导致 E,或者假设 X 和 Z 是模型和目标可能不同的阶段,那么,如果我们的理由不是很强,那么方法并没有落地。这个问题取决于特定案例的现有知识的质量,并且无法通过整个生物医学科学来解决。当然,有一些公认的因果断言的例子,其中只知道 C 导致 E,但因果过程的细节完全超出了我们目前的掌握(Reiss 即将发布-a)。
已提出的比较过程追踪的替代方法是通过因果能力的知识进行推断。如果 C 具有导致 E 的因果能力,那么 C 以某种稳定或不变的方式导致 E。具体来说,即使存在干扰因素,C 也会继续促进 E 的产生(Cartwright 1989)。因此,确定C具有导致E的因果能力意味着表明C导致E在某种程度上独立于C和E发生的背景。因此,如果 C 在模型物种或种群中导致 E,并且 C 具有导致 E 的因果能力,那么就有理由相信 C 在目标物种或种群中也会导致 E(关于防御,请参见 Cartwright 2011) )。
通过因果能力进行外推的方法的有效性取决于生物医学因素具有能力的程度。许多生物医学原因确实具有一定程度的稳定性。镰状细胞特征对轻度临床疟疾有 50% 的保护作用,对因疟疾入院有 75% 的保护作用,对严重或复杂的疟疾有近 90% 的保护作用(Williams 等,2005)。这些数字表明了这样的解读:
在存在镰状细胞特征(疟疾的预防/干扰因素)的情况下,疟原虫疟疾感染继续持续影响结果。 (赖斯 2015b:19)
但与其他因素也存在高度的相互作用。一种物质对生物体是否有毒取决于其代谢系统的微小细节,除非条件合适,否则生物体可能根本不受该物质的影响。因此,该方法的成功程度与比较过程追踪类似,取决于具体情况。
正如我们所看到的,从纯粹的认知(而不是伦理、经济或综合)角度来看,动物研究是否有价值这个问题没有普遍的答案。其他作者开发了一种基于实践的动物模式分类法,以便更准确地评估特定建模实践的认知优点和缺点以及预测能力(Degeling 和 Johnson 2013)。有大量证据表明,物种对物质产生毒性反应的敏感性存在巨大差异。因此,虽然对于任何一种毒素,很可能有一些物种可以预测人类的反应,但通常很难判断哪种毒素最适合任何特定毒素。一个物种能够很好地预测人类对一种物质的反应,但对于另一种物质来说可能是一个糟糕的模型。然而,一些作者认为,从动物模型中进行的推断至少在某些情况下是成功的(Steel 2008 讨论了有关黄曲霉毒素从 Fisher 大鼠到人类的致癌性的主张的推断;参见 Reiss 2010a 的批判性评估和 Steel 2013 的批判性评估)回复)。
7. 观察研究和病例报告
通常,在生物医学科学中,无法获得可靠的动物或其他非人类模型,并且出于伦理或实际原因,对人类进行随机对照试验是不可行的。在这些和其他情况下,可以使用观察方法建立生物医学假设。正如我们在第 5 节中所看到的,循证医学认为观察方法通常不如随机对照试验和其他实验方法可靠。这是因为观察性研究会受到许多混杂因素和偏见的影响,当通过精心设计和良好实施的随机对照试验来检验假设时,这些混杂因素和偏见是可以控制的。但观察方法并非不能提供可靠的结果。事实上,通过观察建立的医学知识很可能远远超过来自随机对照试验的知识。以下是一些被广泛认为有效但尚未通过随机对照试验验证其有效性的医疗干预措施的例子:青霉素治疗肺炎、阿司匹林治疗轻度头痛、利尿剂治疗心力衰竭、阑尾切除术治疗急性阑尾炎和胆囊切除术治疗胆石病。沃勒尔 2007a:986);自动体外除颤启动停止的心脏,气管切开术打开阻塞的气道,海姆立克急救法清除呼吸道阻塞,狂犬病疫苗和肾上腺素治疗过敏性休克(Howick 2011b,40)。
观察性研究通常首先报告感兴趣的医疗结果与一个或一组自变量之间记录的相关性:吸烟者群体中的肺癌发病率高于非吸烟者群体,倾向于吸烟的人群中肝癌发病率更高。举几个例子,人们食用被黄曲霉毒素污染的食物的比例高于食用未受黄曲霉毒素污染的食物的比例。吸烟会导致肺癌或黄曲霉毒素肝癌,这确实可以解释观察到的相关性。但其他各种假设也是如此。一般来说,如果两个变量 X 和 Y 相关,则可能是 X 导致 Y、Y 导致 X 或公因子 Z 导致 X 和 Y(或这些的组合)。在吸烟/肺癌案例中,所有三个假设都被引用作为数据的可能解释。罗纳德·费舍尔 (Ronald Fisher) 提出了一个著名的观点,即早期支气管癌可能会导致个体渴望吸烟,他提供了一些证据,表明吸烟行为和肺癌易感性具有共同的遗传基础 (Fisher 1958)。此外,相关性本身可能是虚假的——数据根据某种相关性度量(例如皮尔逊系数)相关,但潜在变量实际上在感兴趣的总体中并不相关。选择偏差通常被理解为当个体自我选择进入观察群体时获得的偏差,以及他们这样做的原因与结果变量相关。如果一项观察性研究仅检查住院患者,并且吸烟者更有可能因与肺癌无关的原因住院,那么吸烟和肺癌在数据中可能存在相关性,即使这些变量在一般人群中是独立的。错误测量和诊断错误提供了虚假相关性的另一种解释。假设在许多人不再吸烟斗转而吸烟之后的一代人左右,结核病呈上升趋势。然后,如果由于尸检技术不够发达而难以区分结核病死亡和肺癌死亡,那么即使人口变量不相关,数据也可能再次显示相关性。
回顾性观察研究的工作原理是事后排除诸如此类的替代假设,而不是像随机对照试验那样事前控制它们(Reiss 2015a)。在 RCT 中,不应出现错误测量,因为方案提前详细规定了结果变量的测量程序。不应出现选择偏倚,因为患者被随机分为治疗组。一旦分配到一个组,他们就无法在其他地方获得另一种治疗,研究人员确保患者遵守治疗方案。但在观察环境中也有类似的方法可以排除这些可能性。虽然癌症的早期阶段很可能会导致对香烟的渴望,但这一假设无法解释戒烟所具有的保护作用。在 20 世纪 50 年代中期的吸烟与肺癌争议时期,误诊确实是一个问题。然而,可以证明的是,为了解释所观察到的肺癌发病率的上升,老年人尸检时的诊断错误必须比年轻人的诊断错误高一个数量级(Gilliam 1955)。因此,也可以排除错误测量的情况。类似的考虑有助于排除其他替代假设(Cornfield 等人,1959)。
即使人们相信循证医学的支持者认为观察性研究通常不如随机对照试验可靠,但医学显然不能没有它们。由于伦理、财务和其他实际原因,有大量紧迫问题无法通过随机对照试验来解决。没有人会认真考虑通过随机对照试验来测试诸如“黄曲霉毒素导致(人类)肝癌”之类的命题。这不仅仅是因为为了医学进步而故意将人类暴露于潜在致癌物所涉及的直接伦理问题。这也是因为接触低水平的黄曲霉毒素可能需要很多年甚至几十年才能产生症状。研究人员长期控制一大群实验对象的食物摄入量的能力具有明显的实际财务和局限性。当研究人员或患者或两者都不能盲目时,也不能使用随机对照试验,并且许多医疗干预措施确实需要医生或患者了解有关干预措施的细节。
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。