此外,尚不清楚随机对照试验是否总是比观察性研究更可靠地回答两种方法都能解决的问题。一项研究是否可靠取决于是否实际上消除了混杂因素和偏见,而不是通过何种方法消除了它们。有关方法可靠性的问题可能与有关其解决生物医学科学家寻求回答的研究问题的能力的问题纠缠在一起。生物医学领域的随机对照试验和观察性研究通常用于测试有关医疗干预措施的安全性和有效性的相当复杂的假设。很可能某些问题用一种方法处理更可靠,而另一些问题用另一种方法处理更可靠。
2000 年代初,关于激素替代疗法 (HRT) 的益处和安全性的一个著名争议是观察性研究结果与随机对照试验结果相互冲突 (Vandenbroucke 2009)。在观察性研究中,HRT 似乎对冠心病有保护作用,而随机对照试验表明,在使用的头几年中,HRT 的效果有所增加。对于乳腺癌,随机对照试验显示联合激素制剂的风险低于观察性研究。最终事实证明,影响的时间尺度是造成影响的原因,并且由于它们通常的运行方式,观察性研究正确地解决了一些问题,而随机对照试验则解决了其他问题:
观察性研究发现了接近更年期女性的真实信号。在随机试验中,这一信号被稀释了,因为入组的接近更年期的女性较少……随机试验适用于冠心病,但未能充分关注接近绝经期的女性乳腺癌。造成差异的主要原因是不同时期HRT效果的变化……(Vandenbroucke 2009:1234)
病例报告在医学领域仍然非常受欢迎,无论是作为领域内交流的出版物还是出于教学目的。简而言之,病例报告描述了一名或多名患者经历的医疗问题,通常涉及疾病或类似疾病的表现,这些疾病或类似疾病在某种程度上难以根据现有对疾病的理解或对生理学和病理学的理解进行解释或分类。医学案例采用高度标准化的呈现形式,这些形式在医疗保健专业人员的教育过程中被灌输,许多人对其高度标准化的叙述结构及其认知和其他含义进行了评论(Hunter 1991;Hurwitz 2006)。病例通常提供有关患者疾病、诊断、治疗和结果的详细信息,重点是基于实践的观察和临床护理(而不是随机对照试验或其他实验方法的结果)。案例的目的之一是收集详细信息,包括可能不立即相关但可能证明是相关的事实(Ankeny 2011)。因此,案例中包含的信息以及案例本身从长远来看是有用的,特别是如果它可以系统地与其他案例组合成更大的数据集。
一些人认为单个病例作为一种证据形式是有问题的,尤其是在循证医学时代,因为它们往往关注疾病和疾病的极不寻常的表现,而不是可能支持普遍规则的典型或反复观察到的情况。这一特征导致一些人将医学描述为“细节科学”(Gorovitz 和 MacIntyre 1976),或者是一门艺术而不是科学(Pellegrino 1979),特别是在诊断过程中(参见第 9 节)。然而,EBM 的标准说明将病例系列作为一种证据,涉及具有相似属性(例如,接受相同治疗或疗法)的患者个体病例的汇总,这些患者使用描述性数据随时间进行跟踪,而不使用特定的数据。寻找因果证据的假设。 EBM 确实将病例系列置于其证据等级中相当低的位置,但尽管如此,人们承认病例具有潜在的用处,特别是在无法获得评级更高的证据形式的情况下,就像人类患者由于实际情况而担心的情况一样。或道德原因,或者更高级别的现有证据是以方法论或其他方面有缺陷的方式产生的。
案例可以用于其他目的:例如,案例分析可以提供关于偶然归因的工作假设,为因果关系的进一步测试奠定基础(Ankeny 2014),这反过来又允许使用更传统的方法,例如随机对照试验、队列研究等探索这些因果假设。在临床护理的背景下,病例可以让医疗保健提供者识别出可以操纵来治愈(或预防)相关病症的原因,以便治疗病人,即使在没有更严格形式的证据的情况下也是如此。
8. 诊断
诊断是临床医生确定患病或患有某种疾病的患者出现什么问题的过程。尽管它是医学实践的关键部分,但它在医学哲学文献中相对被忽视,特别是与其他领域基于统计的评估证据的方法相比(Stanley and Campos 2013)。在这种情况下出现的关键哲学问题涉及如何在考虑到与人类状况相关的大量不确定性和复杂性的情况下以准确的方式做出这样的决定,因此涉及逻辑、认识论和本体论问题。在临床环境中进行的通常方法是要求患者阐明他或她的病情,从而使用标准化的报告格式来详细说明代表疾病的主观表现的各种症状。此外,临床医生还进行各种测试和检查,以记录更客观的表现或体征,例如心率、血压和计数、反射等。医学哲学中的一个长期争论是症状和体征的构成以及它们实际上是否不同,这涉及到上面讨论的关于疾病状况的现实性的更深层次的问题(第 2 节)。
这个过程中棘手的部分是找到一种方法将这些症状和体征映射到特定的疾病状况上。有些人认为这个过程与科学哲学中基于证据的假设生成和检验的通常方法没有什么不同,并且这种类型的模型符合所谓的鉴别诊断。鉴别诊断涉及对特定情况的一组假设解释,这些解释根据证据以及收集的附加数据被排除(或排除),因此依赖于通过决策节点或算法路径进行推理的形式(Stanley 和坎波斯 2013)。然而,这种过程背后的推理规则的细节在很大程度上仍然没有明确阐明,可能有助于诊断推理的“隐性”知识的数量也是如此。
在临床环境中,诊断的教学和实施有多种方式:特别是在某些亚专业中,经常使用图形表示的“模式”识别似乎很常见,因此诊断是识别重复模式的一种形式。然而,鉴于常见疾病中有大量相似的模式,这种方法可能很危险,尤其是对于新手来说。一些人声称,做出诊断既是道义行为,又是可计算的,并且诊断只有在复杂的背景下发生时才是相对的,这反过来又使诊断成为一种社会实践(Sadegh-Zadeh 2011)。计算机辅助诊断技术已得到改进,并越来越多地在临床环境中使用; Kenneth Schaffner (1981) 提供了对理想诊断逻辑需要满足的标准的早期分析(有关最新的讨论,请参阅 Schaffner 1993、2010,有关此类诊断的局限性的争论,请参阅 Wartofsky 1986)。近年来,医学专业人士和医学信息学相关人员达成了相对共识,即医学诊断几乎肯定依赖于某种形式的“模糊逻辑”(例如,Sadegh-Zadeh 2000;Barro 和 Marin 2002)。
9. 临床医生的判断和专业知识的作用
正如我们在第 5 节中所看到的,循证医学中的证据层次将来自“系统”临床研究(例如随机对照试验和观察性研究)的研究结果排名高于“非系统”专家意见。 20 世纪 90 年代初发起正式 EBM 运动的流行病学家有充分理由对专家意见表示怀疑。当疗法接受系统测试时,传统和专家意见有时会被证明是有缺陷的。 John Worrall 讨论了三个例子:用于胶耳的索环、抑制恩卡尼或氟卡尼等物质用于心脏骤停的室性异位搏动,以及用于预防婴儿死亡的常规胎儿心率监测(Worrall 2007a:985)。在每种情况下,我们都有一个程序,其有效性通过常识和有关病理生理途径的知识来表明——胶耳是由于中耳内积液无法排出而产生的病症。例如,索环的作用是让空气进入中耳,从而平衡压力,但通过随机试验进行测试,结果证明,这种做法充其量是无效的,在最坏的情况下却是有害的。
纯粹出于认知原因对治疗效果的误判并不是人们对专家意见的唯一担忧。医学专家和患者之间存在经济学家所说的委托代理关系。委托人(在本例中为患者)希望提供某种商品或服务(在本例中为他的健康)。他指示代理人(在本例中为医生)使用它,因为他缺乏自己生产这种产品的专业知识。好的东西只能在不确定的情况下产生:没有一种疗法是 100% 有效的。此外,能否成功交付商品在一定程度上取决于代理人的努力。医生可能并不总是为患者选择最佳的治疗方法(我们可以假设为患者选择最佳的治疗方法需要花费一些努力),并且任何治疗都可以马虎实施。此外,由于缺乏专业知识,患者无法观察医生所付出的努力程度。因此,他无法设计一份根据努力程度(更不用说成功,因为成功部分受到任何一方之外的因素影响)付款的合同。控制)。因此,代理人有作弊的动机:不投入从患者的角度选择和提供最佳治疗所需的努力。
如果病人和医生完全理性,只受自身物质福利的驱动,在缺乏监管的情况下,医疗服务根本就没有市场。医生会选择最适合他们而不是患者的疗法,而患者会预见到这种行为并首先停止寻求医生的服务。在我们的世界里,病人和医生都不是特别理性,也不是纯粹出于自身利益的动机,有诸如现代形式的希波克拉底誓言之类的道德准则,而卫生部门是监管最严格的行业之一。然而,所有这一切并没有改变医生和其他卫生服务提供者运作的激励结构。因为他们而不是患者是专家,所以他们有动力选择符合他们最大利益而不是患者利益的治疗方法。
还有一个更复杂的情况。许多(可能是大多数)医生都以某种形式与制药行业有联系。根据一项研究,94% 的美国医生从制药行业获得经济利益(Bekelman 等,2003)。即使我们假设医生不会开出治疗方案,因为他们是有报酬的,但针对他们的营销努力也会影响治疗建议,即使只是因为他们比其他人更了解某些药物,或者因为某些治疗方法是他们的最佳选择。头。
出于所有这些原因,EBM 原则(治疗决策应基于系统研究中的最佳可用证据)并非凭空而来。比如说,如果有一项 RCT 或一项观察性研究报告 X 治疗比 Y 治疗更能有效缓解 S 症状,那么建议患有 S 的患者服用 Y 似乎很糟糕,因为他的全科医生不知道关于 X,不知道研究结果,个人从开 Y 处方中获利或不专心。然而,虽然这些都是根据研究结果推荐 Y 而不是 X 的糟糕理由,但可能有多种充分的理由。
正如第 5 节中所讨论的,随机对照试验和许多观察性研究都是人群水平的研究,它们产生的平均结果并不直接适用于个人。比如说,如果治疗 X 将人群 p 在一段时间内遭受某种不良事件的风险降低了 50%,即该治疗的风险比 (RR) 为 50%,那么可能没有个体p 对于谁来说,治疗可将风险减半。相反,RR 在 p 的亚群之间可能存在显着差异,并且对于某些亚群来说,Y 很可能比 X 更有效。
副作用也是如此。 Tonelli (2006) 讨论了一个案例,一名患有多发性硬化症的患者接受的治疗似乎确实减轻了她的症状,但自从她开始接受治疗以来,她一直受到严重抑郁症的困扰。临床试验结果表明该药物可有效治疗多发性硬化症,并且尚未报告不良精神影响。她的家庭医生和精神科医生现在正在争论是否继续治疗。临床研究没有显示出对心理健康影响的证据有多种原因:试验对象没有进行适当的抑郁症筛查;发现不良反应但未报告;不良反应在统计上并不显着,但对于某些亚群来说可能具有临床显着性;副作用仅出现在与试验人群不同的人群中。
这个案例表明,治疗在缓解疾病症状方面的有效性并不是做出治疗决定时的唯一考虑因素。治疗的目标是改善患者的健康,这一点得到了 EBM 支持者的充分认可。当然,患者的健康状况由很多因素组成,任何特定疾病的症状充其量只是决定其健康状况的一个因素。这是在制定治疗建议时必须进行临床判断的另一个原因。
不幸的是,专家——就像所有人一样——是出了名的糟糕决策者。认知心理学家已经确定了人类专家容易遭受的大量认知偏见:他们患有过度自信(例如,Dawes 和 Mulford 1996)和事后偏见(例如,Fischhoff 1975;Hugh 和 Dekker 2009);简单的机械算法通常表现不佳(例如,Grove 和 Meehl 1996);犯合取谬误(Tversky and Kahneman 1983;Rao 2009),以及许多其他谬误。
举一个表现优于专家的简单机械算法的例子,请考虑戈德堡规则,根据该规则,如果 x=(L+Pa+Sc)−(Hy+Pt)>45,则患者被认定为神经症患者
�
=
(
L
+
帕
+
钪
)
-
(
海伊
+
铂
)
>
45
(其中 L 是有效性量表,Pa、Sc、Hy 和 Pt 是明尼苏达多相人格量表或 MMPI 测试的临床量表),否则视为精神病。 Lewis Goldberg 在 861 名患者的 MMPI 档案上测试了该规则,这些患者均由医院或诊所的精神科工作人员诊断,发现该规则的准确度为 70%;临床医生的准确率范围为 55% 至 67%(Goldberg 1968;有关讨论,请参阅 Bishop 和 Trout 2005)。
没有一种策略可以处理影响临床医生判断的各种偏见和利益。大学更好的计算和统计培训有助于消除一些认知偏差(Gigerenzer 2014)。计算机辅助医疗诊断和决策可能会减轻其他问题。然而,任何培训或计算机程序都无法做出规范性判断,也无助于不利的激励结构和经济利益。这些困难也困扰着我们接下来要求助的医学专家委员会。
10. 医学界如何做出集体专家判断?
帮助克服专家偏见的一种方法是做出医疗决策,不依赖于个别专家的判断,而是让专家组做出某种形式的综合判断。例如,美国国立卫生研究院过去常常组织所谓的共识会议,旨在解决科学争议。小组成员从临床医生、研究人员、方法学家和公众中选出。联邦雇员没有资格,已经发表过相关主题或存在经济利益冲突的研究人员也没有资格(Solomon 2007)。这些排除旨在有助于控制政府的影响以及由于经济或智力利益而产生的任何偏见。
共识会议和其他达成集体判断的机制显然不是万能药。例如,Miriam Solomon (2015) 认为,共识会议往往会“错过认知机会之窗”,因为它们往往是在医学界已经解决了问题之后举行。在当前背景下,更重要的是观察到,虽然这些会议可能有助于控制某些形式的偏见,但它们在减少其他形式方面无效,并且可能导致引入新的偏见。一个担忧是,小组成员可能会选择性地阅读现有证据,例如,因为会更加重视重要的研究或他们可以获得的研究。另一个是群体思维(Janis 1982)和同伴压力等现象可能会影响结果。在美国国立卫生研究院的共识会议中,小组成员必须在仅仅两天的听证会和审议后做出裁决。在这种情况下,更直言不讳的小组成员或那些在极端压力下表现良好的人当然有可能对结果产生不当影响。此外,目前尚不清楚排除已就当前问题发表过文章的临床医生是否总是一个好主意。毕竟,那些积极致力于某个研究课题的科学家是最了解该课题的人,因此能够做出最明智的判断,这一说法并非不可信。由于这些和其他原因,所罗门(Solomon,2007,2015)探讨了判断聚合的后果。在此过程中,小组成员通常不会深思熟虑,而是发表自己的意见,然后使用某种预先确定的程序汇总这些意见。多数规则就是这种程序的一个简单例子。
使用机械程序(例如多数投票)进行集体判断有很多优点。首先,孔多塞陪审团定理可以说明认知上的优势。该定理表明,如果 (a) 判决涉及的命题可以为真或为假,(b) 陪审团成员的独立概率 >.5
>
.5
他们的判断是正确的,(c)个人判断通过多数票进行汇总,那么陪审团规模越大,就越有可能做出正确的集体判断。那么,在这些条件下,专家委员会可能会比单个专家做出更好的判断。此外,在没有经过深思熟虑和施加压力来达成一致结果的情况下,并且当投票是秘密进行时,群体思维、同侪压力等的影响就会减弱或消除。
当条件 (a)–(c) 不成立时,结果会更加模糊,甚至是否定的。当专家不可靠时,即个体做出正确判断的概率<.5
<
.5
,群体越大,达成正确群体判断的可能性就越小,最佳群体规模是单个专家。当结果可以有两个以上的值时,可能会获得不一致的结果。这可以通过一个示例轻松证明,其中存在三种可能的结果和三位专家。例如,假设专家组必须决定三种治疗方法 A、B 和 C 中哪一种对于治疗某种疾病最有效。各个小组成员的个人排名如下:
专家一:A>B>C
�
>
�
>
�
专家二:B>C>A
�
>
�
>
�
专家三:C>A>B
�
>
�
>
�
,
其中“>”表示“更有效”。现在,多数人认为 A 比 B 更有效(I&III),多数人认为 B 比 C 更有效(I&II),多数人认为 C 比 A 更有效(II&III)。更一般地,只要待决定的命题之间存在逻辑关系(在这种情况下:A>B
�
>
�
且B>C
�
>
�
意味着 A>C
�
>
�
),至少有三名小组成员,并且投票按照多数规则汇总,因此小组级别可能会出现不一致(Pettit 2001)。
当然,多数决定只是综合判断的一种方式。德尔菲法(例如,Dalkey 和 Helmer 1963;对于医学应用,请参阅 Jones 和 Hunter 1995)适用于任务是提供某些感兴趣变量的数值估计的情况(例如,新治疗方法造成的风险差异) )。专家们分多轮回答问卷。每轮结束后,主持人都会对上一轮专家的估计进行匿名总结,并给出其判断的理由。因此,应该鼓励专家根据其他专家的估计和理由修改他们之前的答案。在此过程中,估计的范围往往会缩小,希望小组能够向正确答案收敛。在达到预定的停止标准(例如轮数、达成共识、结果的稳定性)后停止该过程,并使用最后一轮估计的平均值作为结果。
Solomon (2011, 2015) 提出了一个关于群体判断的基本问题,该判断完全独立于所使用的具体方法。她认为,我们并不经常找到群体判断方法来确定自然科学中科学假设或变量估计的真实性(尽管参见 Staley 2004)。如果不确定两个替代假设中哪一个是正确的,或者一个自然常数有什么值,科学家们就会出去测试、实验、测量。换句话说,争议是根据证据而不是(个人或团体)意见来解决的。随着循证医学的进步,我们难道不应该期待同样的事情发生在医学上吗?因此,她建议更广泛地使用机械技术来合并证据,例如荟萃分析,以代替共识会议等。
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。