医学哲学（五）_数学联邦政治世界观

近年来，NIH 共识会议的频率确实明显下降（Solomon 2011，2015）。但这当然不是主张不再需要群体判断的理由。就 NIH 而言，共识会议可能是错误的工具，或者 NIH 可能对证据充分解决争议的能力有错误的看法。事实上，至少有两个理由相信群体判断程序将继续存在。

第一个原因是，正如我们上面所看到的，医疗决策总是部分地涉及规范问题。没有一种治疗方法是完全没有副作用的，因此，如果对疗效的判断具有实际指导意义，则必须包括收益（减轻疾病症状）与成本（遭受副作用）的权衡——即使经济成本和收益并不相同。予以考虑。其次，美国食品和药物管理局（FDA）等政府机构必须决定新疗法是否应获得上市许可。这些决定通常会产生重大后果，而民主国家往往更愿意让某人对做出这些决定负责。因此，药物批准不能根据某种机械算法以证据为基础来确定。

Biddle (2007) 在镇痛药 Vioxx 的案例研究中讨论了药物批准的认识论和道德问题。 Vioxx 于 1999 年获得 FDA 批准，但五年后由于安全问题被其制造商默克公司撤出市场。据估计，约有 55,000 人因服用该药而死亡（Harris 2005）。 Biddle 指出，FDA 没有足够独立于制药行业，无法做出公正的决定。 FDA药物审批委员会的许多成员存在经济利益冲突（通常表现为从待批准药物的制药公司获取利益），FDA的大量员工依赖于“用户”费用”行业支付的费用，以帮助支付药物审批的费用。为了解决这些利益冲突问题，比德尔建议建立一种对抗制度，由两组倡导者，一组制造商代表和一组独立科学家，在评审团面前就某种药物是否应该被批准进行辩论。允许投放市场。该模型的评审团也由独立的 FDA 或大学科学家组成。他认为，对抗性制度可以更好地承认这样一个事实，即越来越多的医学研究人员与制药行业有经济联系，将他们视为倡导者而不是公正的专家。（另请参阅 Reiss 和 Wieten 2015，Reiss 即将出版-b。）

11. 医学研究的价值

毫无疑问，医学研究受到各种外部价值观的影响，其方式类似于其他科学领域众所周知的价值负担（参见科学客观性条目）。其中许多价值观造成了与公平获得医疗保健等相关的各种道德困境。即使近年来医学研究变得更具包容性，这种趋势也带来了许多额外的哲学和伦理问题（Epstein 2007）。就我们的目的而言，我们将重点关注从研究中系统排除某些类型的个人、群体或疾病对未来研究以及临床医疗实践在所产生证据的有效性和基于该证据做出的决策方面的影响。

在传统医学研究中，人们普遍认为白人男性参与者可以作为概括的基础，进而可以推断到所有其他人群，包括少数族裔和女性（Dresser 1992）。文献综述表明，女性尤其被排除在外（尤其是老年女性），而且对女性的研究通常与生殖功能和能力有关（Inborn 和 Whittle 2001）。此类研究被认为无法实现高质量医学研究以及循证医疗保健的理想（Dodds 2008）。尽管近年来取得了一些进展，但在许多类型的医学研究中仍然存在某些形式的全面排除，例如育龄妇女或孕妇。这些类型的系统性排斥是非常成问题的，特别是因为有明确的证据表明，由于生物学和社会原因，男性和女性在接受治疗的一系列因素方面存在重大差异。

就美国非裔美国人等少数族裔而言，即使研究试验试图招募他们，一系列因素也可能导致他们不参与医学和其他类型的研究。其中包括由于历史和制度种族主义而产生的不信任，包括未经同意进行的研究；对研究和同意缺乏了解；社会耻辱；财务考虑；研究人员缺乏对文化敏感的招募方法（例如，Huang 和 Coker 2010）。医学研究中的这种差距可能会导致使用实际上可能对特定群体有害的治疗或疗法，并可能导致可能有益的疗法被取消。

医学研究也受到选择进行调查的病症或疾病的影响（Reiss 和 Kitcher 2008）：也许最臭名昭著的是“孤儿”疾病，这些疾病要么罕见，仅在少数人群中常见，要么仅存在于某些发展中国家或其他低收入国家社会经济背景下的药物和其他疗法的开发往往被忽视，因为人们认为，由于存在风险或受影响的人群，任何可能进行研究的产品都不会有可行的商业市场（因此此类潜在产品是经常被称为“孤儿药”）。在某些情况下，患者可能会追求“标签外”使用那些被批准用于治疗与他们所患有疾病不同的疾病的药物，因为由于成本和需求而不太可能批准“孤儿”疾病；然而，即使在医生的监督下，这种超说明书使用药物通常也会导致缺乏一致的证据收集，并且在批准药物用于特定用途时缺乏典型的风险效益监管考虑。

我们通过研究产生的医学知识可能受到价值观的不利影响的最后一种方式是通过与研究相关的资助模式。如上所述，制药公司赞助了相当一部分的药物试验，并且在这些投资中拥有多种利益，远远超出了收集特定产品有效性（或缺乏有效性）的证据。有一致的证据表明，负面研究结果在得到行业赞助时通常会被压制（Lexchin 2012a），从而导致报告内容存在偏差，从而导致可用于制定处方和治疗决策的证据存在偏差。在许多其他领域也发现了偏差：在研究本身中，研究问题或调查主题的选择、与所研究药物进行比较的剂量或药物的选择、试验的控制设计和方案的各种变化，以及提前终止临床试验的决定，以及数据的重新解释，以及数据的发布，例如限制出版权、使用假期刊、偏向期刊增刊和研讨会而不是同行评审场地、使用代写，以及结果和成果报告的细节（Sismondo 2008；Reiss 2010b；Lexchin 2012b）。所有这些问题都削弱了做出临床护理判断的证据基础，并且还导致对患者的潜在不利影响。

12. 衡量医疗结果

为了定量评估医疗结果，必须对其进行测量。旨在量化医疗结果的原因有很多。我们可能想要比较两种或多种治疗方法在缓解某些症状方面的功效或预防某种疾病导致的死亡的能力。当资源稀缺时，我们可能不仅希望投资于有效的治疗（即，它们确实改善了患者的发病率、死亡率或两者兼而有之），而且还希望投资于高效的治疗（即，相对于成本而言，它比其他治疗更有效）采购它）。对于国际比较、发展和国际正义问题，我们还希望有疾病负担的衡量标准：就发病率和死亡率增加而言，哪种热带病的成本最高？对于用于治疗 X 疾病的每一研究资金，我们可以期望减少多少该疾病引起的发病率和死亡率？

现在临床试验经常报告所谓的患者报告结果测量或 PROM。 PROM 是向患者提供的一份调查问卷，用于评估医疗干预后他们的生活质量、功能或健康状况的某些方面，而无需临床医生或其他人解释患者的反应。例如，它可能会问，髋关节手术后患者爬楼梯有多困难，或者癌症治疗是否有助于他们追求自己的爱好。 PROM 的主要目标是在患者最了解或从患者角度最好衡量医疗结果的情况下评估治疗益处或风险。

PROM 的长度和复杂性可能有很大差异，具体取决于所测量的概念。在简单、直接的情况下（例如，某种疼痛的强度），一个问题可能就足够了。在其他情况下，可能需要解决更复杂功能的几个方面，每个方面都有许多问题。无论哪种方式，调查问卷的设计都应确保该工具能够可靠地衡量兴趣概念。 FDA 区分了以下六种测量属性或“测试”（FDA 2009：11）：

重测或面试官内部的可靠性（“当兴趣概念预计不会发生变化时，分数是否随着时间的推移保持稳定？”）

内部一致性（“旨在衡量同一概念的响应之间是否存在高度相关性？”）

访谈者间的可靠性（“当 PROM 由两个或多个不同的访谈者管理时，回答之间是否一致？”）

内容有效性（“是否有证据表明该工具衡量了兴趣概念？”）

构建有效性（“是否有证据表明响应之间的关系符合预期？”）

检测变化的能力（“是否有证据表明该工具可以识别随着时间的推移，在兴趣概念方面发生变化的个人或群体的分数差异？”）。

尽管它们看似合理，但这些测试在方法论上并非无害。例如，内容效度是在定性研究的基础上进行评估的，这些研究以患者访谈、焦点小组和定性认知访谈的形式进行（后者是指要求受访者在回答问题时大声思考并描述他们的思维过程的方法）。仪器问题并涉及现场测试访谈中的后续问题，以更好地了解患者如何解释问题）。这项定性研究旨在提出患者和临床医生之间共享的具有标准化含义的问题。然而，可以说，对诸如“身体疼痛”或“举起手臂困难”等短语的解释总是存在差异，因为它们指的是患者的经历，并且这些会因患者而异，并且在特定患者中也会有所不同。，不时（Rapkin 和 Schwartz 2004）。此外，可能有充分的哲学理由允许对健康和生活质量表达足够多的合法观点，而不是坚持跨患者和环境的意义标准化（McClimans 2010）。同样，只有当概念相对简单并且不同的问题确实涉及同一概念时，内部一致性才是可取的。当疾病具有异质性时，它的相关性较小（McClimans 和 Browne 2011）。对于每项测量测试都可能会引发此类担忧。最后，当存在多个针对特定疾病或治疗的 PROM 时，就会出现问题。不同的 PROM 在不同的测试中得分不同，并且没有普遍有效的模式来衡量它们的相对重要性（同上）。

伤残调整生命年或 DALY 旨在衡量疾病负担。该衡量标准最初由哈佛大学于 1990 年为世界银行和世界卫生组织 (WHO) 制定，现已被卫生政策研究人员广泛用于国家之间和时间推移的比较，并作为政策制定的工具。它还可以用来衡量干预措施的有效性，尽管这些干预措施通常是卫生政策而不是狭义的医疗干预措施。世界卫生组织根据区域和全球层面的伤残调整生命年（DALY）定期对超过 135 种疾病和伤害原因进行全球疾病负担估计（Mathers 等，2002）。

DALY 背后的主要思想很简单。如果危地马拉的一名妇女在 63 岁时死于恰加斯病，这将使全球疾病负担增加 20 个伤残调整生命年 (DALY)，因为与日本的预期寿命相比，她的死亡“提前”了 20 年（日本的预期寿命被视为标准，因为日本是世界上最高的）宽的）。如果汉堡的一名男子发生事故，导致他余生只能坐在轮椅上，那么他剩余生命年的每个伤残调整生命年 (DALY) 都会贡献 0.57，因为截瘫的权重为 0.57。因此，每种疾病或损伤都会被赋予一个 0 到 1 之间的数字（其中 0 = 完全健康，1 = 死亡），使其与其他情况具有可比性。例如，失明的权重为0.43。由于失明对疾病负担的影响小于截瘫，这意味着失明被认为是两者中功能能力下降程度较轻的一个（Prüss-Üstün et al. 2003）。

然而，两次调整使这个简单的想法变得复杂。典型的疾病负担研究根据功能因疾病或残疾而受损的人的年龄对损害进行不同的衡量。例如，如果失明发生在 20 岁时，那么它对疾病负担的影响比发生在很小或年纪较大的时候更大（Prüss-Üstün 等人，2003 年）。此外，如果现在发生事故的男子预计将带着这种疾病生活 30 年，那么未来几年的残疾就会减少一个因素。残疾发生的时间越长，对疾病负担的影响就越小（同上）。

任何社会经济指标的充分性都必须根据其预期服务的目的进行评估（Reiss 2008）。例如，如果伤残调整生命年用来衡量日常概念“疾病负担”，我们可能会批评该指标未能考虑到疾病或残疾发生的社会、文化、气候和其他变化。例如，当社会花费更多的资源来使公共建筑和交通轮椅无障碍，对残疾人表现出更多的宽容，或者在比丘陵地区更平坦的社会中，截瘫的负担就会减轻。因此，可以说，伤残调整生命年衡量的是健康状况不佳而不是疾病负担（Anand 和 Hanson 1997）。同样，由于健康状况不佳是以百分比来衡量的，因此，与其他可比但非残疾人中发生的相同疾病相比，已经残疾的人中发生的疾病对测量的贡献较小。然而，如果伤残调整生命年用于做出公共卫生决策，那么最好优先考虑那些最不富裕的人，而不是那些相对富裕的人（同上）。

WHO 非常明确地指出，在构建 DALY 衡量标准时所做的众多选择都是基于价值的（Murray 1994；Prüss-Üstün 等人 2003）。显然，截瘫是否对人的功能能力造成比失明更严重的损害并不重要，更不用说它对疾病负担的确切程度了。由于过早死亡、年龄体重和时间偏好而损失的时间长度也是如此。尽管任何给定的选择由于其充满价值的性质都会引起争议，但世界卫生组织做出了一些努力来代表社会偏好，而不是先验的哲学论点。例如，2003 年世界健康调查中使用的残疾权重是基于 70 多个国家的大量代表性人口样本的健康状况评估（Prüss-Üstün 等人，2003 年：第 3 章）。同样，年龄权重基于实证研究，这些研究表明，社会普遍倾向于对年轻人的寿命比对幼儿或老年人寿命的评价更高（Murray 1996）。

（本章完）

医学哲学（五）

相关推荐

缪斯乐园

陶者碎文录

异兽笔记

久柉神识述世间百态

翔霖：旧爱拾起

余妄—春篇