分析与解释真实世界数据时的方法学考虑_临床医学_实用技巧

本文译自：Stürmer T, Wang T, Golightly YM, Keil A, Lund JL, Jonsson Funk M. Methodological considerations when analysing and interpreting real-world data. Rheumatology. 2020;59(1):14–25.

译者：张云静（感谢译者的分享）

摘要：由于缺少随机对照试验的相关数据，非实验性研究常被用于估计结局有临床意义的治疗效果。在利用大型医疗数据库（如索赔数据、电子健康记录以及医疗产品/疾病登记等）时，采用最先进的研究设计是最大限度减少偏倚的重要保证。

较为关键的设计环节包括反映目标干预和清晰时间线的新用药者（在治疗开始时随访）、活性药物对照组（比较相同适应症的治疗替代方案）以及对诱导期和潜伏期的考量。倾向性评分可用来对不同治疗方案间的协变量进行平衡，以控制测量混杂。在治疗组之间统一定义治疗开始和随访的时间点，可避免永恒时间偏倚。

本文旨在为研究设计层面的问题及其对策展开非技术层面的概述，同时强调研究设计的重要性，以最大限度减少使用真实世界数据开展非实验研究时产生的偏倚。

1. 背景

根据美国食品药品监督管理局（Food & Drug Administration, FDA）的最新定义，真实世界数据指“与患者健康状况相关，和/或从多种来源定期收集的医疗卫生服务数据”。

原始数据是基于研究目的，遵循预先指定的研究方案，应用强效措施来监控数据质量并确保全面的随访而收集的，例如诺福克关节炎登记中心（Norfolk Arthritis Register, NOAR）的数据评估了20年内患者的早期治疗与疾病进展之间的关联。

相比之下，二次健康数据是已存在的且并非为研究目的（包括管理目的）而收集的数据，如美国的Medicare等保险索赔数据，或是最初用于另一项研究的数据。这种医疗卫生数据库通常规模庞大，并且能够代表人群。

FDA将真实世界证据定义为“通过分析真实世界数据得出的、关于医疗产品使用及其潜在益处或风险的临床证据”。真实世界证据可提供关于医疗产品有效性及安全性的重要信息，并为患者护理和治疗开发提供证据。然而，若缺乏合理的方法学处理，真实世界证据可能导致有纰漏的结论。因此，我们接下来将讨论在分析和解释真实世界数据时重要的方法学考量。

2. 数据来源及数据质量

二次健康数据是真实世界证据的重要来源，因其减少有选择性地关注人群（如招募到随机对照试验或前瞻性队列研究中的志愿者），而是更多地针对全人群展开研究，如所有实际接受治疗的患者。在索赔数据库中，参保信息、人口学数据、医疗服务和药物信息以通用的患者识别码链接，从而产生不同来源医疗卫生数据汇总的纵向记录。

总体而言，索赔数据通常是“近乎理想的、适合研究在门诊环境中的处方药（即所使用的大多数药物）”的数据源。但索赔数据并不完美，因为缺乏有关非处方药、样品使用的信息，并且需要根据患者停止服药的天数来估计处方的结束日期。与暴露评估相比，疾病数据不够准确，通常需要算法来识别重要的协变量和结局。

随着医疗实践逐渐电子化，更多电子健康记录（electronic health record, EHR）数据可供研究使用。与索赔数据库相比，EHR数据库往往具有更有效的诊断数据，涵盖了包括实验室检测数据在内的诊断试验结果，并包含生活方式相关信息（例如吸烟、体重指数）。然而，EHR数据库通常不能捕获所有的医疗行为，因此缺乏纵向完整性（如无法观察到在定点医疗机构之外所接受的医疗行为）。

药物/器械登记中心、服务/治疗处理登记中心或疾病登记中心等的数据已被用于研究医疗干预措施的有效性和安全性。例如，英国风湿病学会生物制剂登记处提供了有关TNF抑制剂（TNFi）安全性和有效性的重要信息。然而，由于缺乏替代疗法的数据，注册登记类数据常受到限制。

通过适当的数据保密措施，越来越多的研究人员能将医疗卫生数据库（例如索赔数据与EHR数据）关联起来，以更全面地了解患者的健康和医疗保健情况。关联数据库在医疗干预相关的流行病学研究中具有独特优势，因为它们可围绕关注的人群，将索赔数据的纵向完整性与临床或登记数据的横截面丰富性相结合。

二次健康数据的主要局限性在于，在所有原始数据的收集过程中都应收集的重要数据（例如疾病活动评分）并未被系统地收集。然而，这一限制有时可通过数据库关联加以解决，或借助研究设计将其降至最低。

值得注意的是，仅凭可用数据的丰富性并不能为重要问题提供有效的答案；数据质量更加重要，与健全的研究设计、统计分析共同决定了结果的有效性，因此我们认为研究设计对观察性研究有效性的影响大于分析。

最后，虽然最先进的研究设计和分析将使我们能够在某些情况下有效地估计治疗效果，但这并不意味着其可以在所有场景下实施。

3. 研究设计

真实世界证据中，主要的三个流行病学研究设计是队列研究、病例对照研究和自身对照设计（如病例交叉）研究。队列研究招募参与者，在特定时间点接受治疗，并随着时间推移开展随访，以比较结局的发生率。病例对照研究确定感兴趣的病例后，从源人群中选择对照组（在结局的风险集中），比较病例和对照组之间的治疗史。自身对照研究通过观察同一个体内的不同治疗周期，基于间断治疗和短暂效应的前提，来比较个体内的治疗和结果，而非进行个体间的比较。本文将重点介绍队列研究。

在随机对照试验中，干预组和对照组中研究对象之间的特征差异应无统计学意义。相反，在非试验性研究中，接受治疗和未治疗的组通常在人口统计学和临床特征方面存在显著差异，进一步影响结局。因此，需要合理的研究设计来使这种差异最小化，并且通过统计方法来调整已测量特征中的剩余差异以估计治疗效果。

这些设计由因果模式提供信息，并且能在给定关键假设的情况下支持对结果的因果解释。换言之，虽然统计学关联通常不能被解释为因果关联，但依据因果框架可准确获知允许以上操作的场景。对因果效应的解释需要明确定义的治疗作为假设干预和潜在结局的概念（即不同治疗下同一个体真实和反事实的结局），以便将实际观察到的结局与反事实结果（采取实际未观察到的不同水平的治疗而可能观察到）进行比较。

3.1. 潜在偏倚

虽然每项具体研究都需要评估潜在的偏倚方向和程度，但也有一些常见的与研究设计相关的偏倚倾向于损害真实世界证据的内部有效性，其中的大多数与混杂/选择偏倚有关。有时，可能很难区分混杂和选择偏倚。对于同一种情况，流行病学家可以使用术语“混杂”（通过适应证）而统计学家或计量经济学家可使用术语“选择偏倚”。感兴趣于这二者之间区别的人，可参考Hernán等的研究。

3.2. 适应证混杂

在观察性研究中，适应证混杂是一个主要问题，因为治疗是医生根据患者特征所开具的处方而并非随机分配。例如，Raaschou等在肿瘤复发风险方面比较了TNFi初始用药者与未接受生物治疗（biologic-naïve）的患者。

作者指出，如果在临床指南警告不要在有肿瘤史的患者中使用TNFi后，如果仍给患者开TNFi，则可能存在选择偏倚。反过来，TNFi治疗的患者可能比未接受生物学治疗的患者具有更低的基线复发风险（更有利的肿瘤特征）。在这种情况下，可能无法估计TNFi对肿瘤复发的影响。

3.3. 因虚弱而产生混杂

利用基于人群的数据，特别是老年人的数据，虚弱作为混杂已被确定为真实世界证据的另一个潜在偏倚。由于虚弱者（接近死亡）不太可能接受多种预防性治疗，在比较治疗和未治疗时，虚弱会产生混杂。这种混杂会使治疗与虚弱相关的结局（如死亡率）之间的关联产生偏倚。

在这种情况下，未经治疗的队列中，虚弱者的患病率较高，因此无论治疗对死亡率的影响如何，未经治疗组的死亡风险都较高。这将使药物效果看起来过好（比实际情况更具保护性或危害性更小）。在这里，问题的症结在于虚弱难以测量，故难以控制。

3.4. 现用药者相关偏倚

另一个与设计相关的常见潜在偏倚源于允许研究对象在治疗开始后的某个时间进入队列。在药物流行病学中，这些参与者被称为现用药者，因其被纳入队列且仍未知或忽视治疗是否开始时，他们已经在接受治疗。

问题在于，现用药者设计会错过早期发生的事件。现用药者是治疗早期阶段的幸存者，因此排除了经历早期事件的个体可能会导致实质性偏倚。如果人时偏向后者，则将新用药者的和现用药者混在一起可能会掩盖早期伤害。此外，如果我们试图控制现用药者的混杂，则在治疗期间测量的混杂因素可能已经受到治疗本身的影响。

新用药者设计避免了这个难题。护士健康研究（Nurses' Health Study）是阐明现用药者和新用药者设计之间差异的事例之一。该研究报告，与未使用绝经后激素的女性相比，雌激素伴孕激素的现用药者女性患严重冠心病的风险降低。

妇女健康倡议随机对照试验的结果显示，与安慰剂相比，雌激素加孕激素组绝经后妇女患冠心病的风险增加。此后，对实施了新用药者设计的护士健康研究队列重新分析（将原始队列限制于先前“洗脱”期间的非激素治疗使用者，再建立激素治疗“开始使用者”或“未开始使用者”队列并开始随访）结果与妇女健康倡议试验相一致。这个例子表明，实施新用药者设计在减少观察性研究中的潜在偏倚方面起着关键作用。

3.5. 永恒时间偏倚

当根据某些未来事件（干预措施发生在研究起点之后）定义治疗，并且治疗开始前的随访时间被不恰当地归类为“治疗”时，就会产生永恒时间偏倚。“永恒”一词用于表示感兴趣的结果（例如死亡率），并强调了一个事实：从逻辑上讲，关注的结果不能在这一时期发生，因为暴露尚未被定义。

因此，将永恒人时添加到给定的治疗组中会导致该组的真实比率/风险被低估以及治疗的虚假有效结果。当治疗按特定顺序施用时（例如，仅在抗风湿合成制剂之后才使用抗风湿生物制剂），或者当治疗组和非治疗组在不同时间点开始随访时，通常会发生永恒时间偏倚。

偏倚通常很强，可能导致其被检测到，因为结果“好得令人难以置信”。然而，在许多情况下，永恒时间偏倚无法与预期的治疗益处区分开来，还可能掩盖实际的危害。一些做法降低了永恒人时的可能性，包括尽可能实施新用药者研究设计，并避免使用未来信息来定义队列（在收集数据的同时，前瞻性地分析数据）。

例如，在一项针对抗风湿性生物制剂对死亡率影响的队列研究中，从类风湿性关节炎首次诊断之日起随访患者，抗风湿生物制剂患者将拥有永恒时间，因为这些患者必须存活才能接受抗风湿生物制剂。如果患者在开始使用抗风湿生物制剂之前即发生关注的结局，则其人时和事件将归因于非抗风湿生物制剂组，这导致有利于抗风湿生物制剂的永恒时间偏倚。正确分配人时，比如通过将抗风湿生物制剂的初始用药者与尚未用药者相比较，随访将从开始日期始，就可避免永恒时间。

3.6. ACNU设计

在过去的二十年中，研究设计方面发展迅速，以最大限度地减少真实世界证据中的潜在偏倚。可以说，最具影响力的发展是新用药者研究设计。通过假设的干预（明确定义的治疗），新用药者研究设计确定了特定人群中的所有患者，即在一定未治疗时间后接受特定治疗的患者（洗脱期），并从治疗开始时间开始随访至该患者达到队列终点（T0）。

新用药者设计使治疗开始时间与随访开始时间保持一致，这是处理时变混杂的先决条件，并解决了现用药者和非用药者之间的可比性问题。

第二个有影响力的发展是将新用药者设计原则应用于队列中的所有个体，而不仅仅是接受了研究关注的治疗的个体。为此，我们确定了目标药物的初始用药者和相同适应症的替代治疗的初始用药者。

这种所谓的活性药物对照、新用药者（active-comparator, new-user, ACNU）设计通过将两个队列限制于具有相同治疗适应症且无禁忌症的患者，可以显著降低在某些环境中因适应症和虚弱而产生混杂的可能性，这是以前用于反对非随机化治疗比较的有用性的主要论据。由于ACNU对两个队列使用相同的时间线，故它也最大限度地减少了永恒时间偏倚的可能性，并明显避免了普遍存在的现用药者偏倚。

ACNU设计的实施取决于是否存在合适的活性药物对照治疗，且该治疗用于与相关治疗相同（或至少相似）的适应症。ACNU设计要求患者在洗脱期不暴露于关注的药物或对照药物。其他纳入和排除标准适用于任何其他队列研究或随机对照试验。然后对患者进行一段时间的随访，以确定感兴趣的结局。ACNU设计的一般算法显示在研究原理如图1。

图1 ACNU研究设计原理图

图A说明了为什么活性药物对照组设计（顶部）优于传统设计（底部），通过控制DAS的未测量混杂（简单起见，假设DAS不会影响依那西普和英利昔单抗之间的选择）。同样的逻辑也适用于因虚弱而无法测量的混杂。如果与治疗决策接近的DAS数据可用，显然可以对DAS进行分析控制。

图B详细描述了如何在索赔或其他医疗卫生数据库中确定药物A的新使用期（相同过程将适用于药物B）。同一个体可以有多个新使用期。该个体也可以先是药物A的新使用者，后又是药物B的新使用者（反之亦然）。通常，分析将仅限于新使用的第一个阶段。在处理后的分析中，中止（或切换或增加）的日期可用作删失日期。ACNU：活性药物对照组、新使用者。

虽然并不总是需要从治疗开始就研究患者或使用活性药物对照组（例如评估实验室检测后剂量变化的影响），但一般来说，与ACNU设计相比，非初始用药者或非活性药物对照设计更容易产生偏倚。非初始用药者队列通常难以确定明确且有意义的随访开始时间（T0），可能会引起严重的偏倚。

新用药者不一定必须未使用过药物：他们只需要在洗脱期（比如一年）未使用过对照治疗即可。ACNU的设计在以下情况下将不起作用：①一种治疗方法，如TNFi，通常在一线治疗（如甲氨蝶呤）之后作为二线治疗；②在许多患者从标准治疗转为新上市的治疗。从纯粹的方法学角度来看，在这种情况下，更好的设计可能是对比添加到甲氨蝶呤中两种不同的TNFi。

不可否认，ACNU设计往往排除了许多患者。最近提出的现新用药者设计，允许患者在关注的治疗开始之前接受药物对照组治疗，并将这些转变者与没有具有类似对照药物使用史的患者相匹配。

在实践中，样本量的潜在增加将取决于特定的治疗模式和数据可用性，并且可能比预期的要小。样本量的任何增加都需要根据解释治疗因果效应的困难程度进行权衡（是否从对照药物切换到关注的药物，与开始使用关注的药物或对照药物并不是同一个临床问题）；而且与坚持治疗的患者相比，在对照患者切换或添加治疗时混杂偏倚的可能性增加。

因此，ACNU设计仍然被认为是药物流行病学研究的现行标准。自2001年以来，ACNU设计的概念已被一些生物制剂注册商应用，例如BSRBR和RABBIT。

3.7. 开始后治疗转变

一旦确定了新用药者队列，就有必要决定如何应对治疗随时间的变化。与随机对照试验类似，有一般两种可能性：使用实际接受的治疗（实际治疗），即解释治疗变化；或忽略治疗改变（初始治疗）（如图2）。值得注意的是，二者都依赖于使用自治疗开始的时间作为基本的时间尺度，正如在随机对照试验中所做的那样。

0 (2).png

图2 实际治疗与初始治疗分析的风险期

图A中的时间表说明了实际治疗分析。a患者在以下情况下最早被删失：初始Rx改变后的迟滞期、登记结束、研究（数据）结束或死亡。如果治疗对结局的发生率有直接影响（即无诱导期），并且没有诊断延迟（即没有潜伏期），则随访可以开始于第一次处方的日期。同样，中止的滞后期可以设置为零，即如果生物遗留期很短并且没有潜伏期，则可以将停药（或切换或增加）的日期当作删失日期。

图B中的时间表展示了初始治疗分析。b患者将被随访固定的时间段（如2年），并在以下最早发生的事件中进行删失：标记日期后预定义时间长度的随访期、登记结束，研究（数据）结束或死亡。

实际治疗分析方法与随机对照试验中的符合方案分析相似，但不相同，因为没有预先指定的方案。对于实际治疗方法，第一个挑战是估计患者停止使用初始治疗的日期。由于这个日期在二次数据中很难获得，我们通常使用最后一次处方的天数加上宽限期，以允许不完全依从性，并假设治疗在这段时间结束时停止。其他治疗变化包括切换治疗组和增药（将对照治疗添加到初始治疗中）。

实际治疗方法的优点是，它考虑了由于治疗而面临实际风险的时期。缺点是，例如，删失的患者停止初始治疗可能会引入选择偏倚，因为改变治疗通常是由于原始治疗缺乏有效性或产生了副作用，很可能会对结局风险造成影响。因此，随着时间的推移，我们最终会选择一批在治疗中表现良好的病人，因此不再能代表所有最初接受治疗的病人。删失的逆概率加权可用于实际治疗分析，以解决信息删失中的选择偏倚。

在使用二次数据库的药物流行病学研究中，删失权重并未被广泛使用，是由于存在类似于驱动治疗决策的实验室数据或细微副作用等缺失数据，所以难以预测依从性。在我们的确拥有可实现预测治疗随时间变化的数据的情况下（例如，HIV患者的抗逆转录病毒治疗），应使用删失权重和其他方法来减少选择偏倚。这些方法，包括边际结构模型和g方法，将在下面讨论。

初始治疗方法与随机对照试验中的意向治疗分析相似但不相同，因为我们无法得知医生的意图。患者只会因死亡和数据库中的登记结束而删失。初始治疗分析的优点是它可避免只纳入连续治疗的患者而导致的选择偏倚。然而，由于随着时间推移，暴露错分越来越多，这将引入偏倚，往往会使效应估计值趋向于零（但并不绝对）。

虽然在比较治疗与不治疗（安慰剂）时，这被认为是较好的（因为它更严格），但在安全性和相对有效性方面令人担忧，因为它可能为了最大限度地减少暴露错分而无法发现差异，研究人员常将初始治疗分析限制在药物开始后预定义的持续时间（例如6个月、1年、2年）。

3.8. 风险期

新用药者设计的另一个优点是，我们可以定义与治疗开始相关的各种风险期。这些风险期通常取决于关注的疾病结局的生物机制和特征。拥有大量数据时也可根据经验推导出风险期。

如果治疗对结局的发生率有直接影响（即无诱导期）并且没有延迟诊断（即无潜伏期），则可以在第一次处方开具当天开始随访。否则，应谨慎考虑诱导期和潜伏期。开始用药后，应忽略诱导和潜伏期的人时和结局。治疗停止后，应增加等价于生物遗留效应（通常很短）和潜伏期相结合的时间段内的人时和结局，以便在停止治疗前允许诊断已存在的终点（尽管是亚临床的）（图2）。

通常，治疗开始和结束时的两个时期被设置为相同的持续时间，这导致所有时间滞后于风险，如6个月。举例而言，如果在开始使用关注的药物一周后诊断出关注的结局——类风湿性关节炎，则类风湿性关节炎不太可能由药物引起，因为疾病需要时间以发展和被诊断。在这种假设情况下，仅在开始用药后6个月开始随访更为合理。换言之，在前6个月内诊断为类风湿性关节炎的患者将被排除在外。类似地，由于治疗期间可能诊断发生发展的类风湿关节炎，故应在停止治疗后增加一段潜伏期（图2）。

3.9. 缺失数据

如果有关合并症、疾病活动度（如DAS28）、联合用药（如非处方阿司匹林的使用）、体重指数、吸烟/饮酒和实验室值（如C反应蛋白水平）影响治疗选择，并且独立影响由于残余混杂而导致关注的结局，则缺少这些数据会对效应估计产生偏倚。

除非关注的结局的所有风险因素都是已知的并（准确）测量，以便我们可以使用分析技术来控制各患者组间中这些因素的任何差异，否则我们减少潜在混杂偏倚的最佳选择是比较通常用于相同患者的治疗方法（由相同或不同的医生），即ACNU设计。

例如，使用来自两项外部验证研究的数据，Stürmer等表明，甘精胰岛素和人NPH胰岛素（两种替代的二线糖尿病疗法）的初始治疗者之间的体重指数已被很好地平衡，因此体重指数作为危险因素将不会成为结局比较的混杂。最近，Wang等证明，对于一小部分医疗保险收费服务受益项目（如血红蛋白A1c，血压，低密度脂蛋白胆固醇等），可使用的临床措施在肠促胰岛素治疗的初始治疗者和其他类似治疗（例如二肽基肽酶-4抑制剂与磺酰脲类）之间也得到了很好的平衡。

当内部验证数据可用时（即当我们拥有关于一部分患者的潜在混杂因素的附加信息时），我们可以借助处理缺失数据的方法使用这些信息，以调整主要研究中的混杂。多重插补可以说是最广泛使用、最易实现的方法，风湿病学研究者已经用其来处理缺失的数据。使用多重插补进行混杂控制的确需要有关验证研究中结局相关数据。

一般思路是，根据测量的协变量（预期值）、暴露和结局来拟合一个预测缺失协变量的模型。不使用单个预测值作为缺失协变量，而是通过从预测模型的后验分布中提取参数，在多个数据集中分别创建缺失协变量的值。然后，使用相同的分析技术单独分析没有缺失值的数据集。最后，通过使用一个简单的方差公式，取各次分析的平均估计值来估计治疗效果。

多重插补所需的最小假设是随机缺失的，即缺失与缺失数据的变量的未观察值无关。验证研究不必使用主要研究的随机样本，其绝对大小将比相对大小更为重要。上述研究还强调，多重插补不能取代选择好的活性药物对照组：如将胰高血糖素样肽-1受体激动剂启动剂与胰岛素启动剂（通常用于更严重的糖尿病）进行比较，发现HbA1c类别并不平衡，这导致即使在多次插补后仍会产生残余混杂。

3.10. 错分和测量误差

虽然在真实世界数据中，缺少有关治疗、协变量和结局等信息十分常见，但在索赔数据库中，通常假设没有缺失的数据，因为编码的存在用于定义病情的存在，而编码的缺失用于定义病情的缺失。在这种情况下，我们会担心错分。由于免费样品、自付费用（例如美国的4美元仿制药）和非药房配药（例如在住院期间、在疗养院住宿等），可能会发生药物治疗的错分。暴露错分的程度将取决于具体环境，当研究是基于处方时，对于药物来说通常很小。

结局错分很常见，理想情况下应在验证研究的基础上进行量化。因结局错分对治疗效果估计产生的影响将取决于关联强度大小（相对与绝对）以及是否由于暴露而存在差异性错分（分类误差取决于其他变量的实际值）或治疗队列之间普遍无差异。

当错分与暴露无关时，高特异度的定义或算法将是比率测量的首选，因为完美的特异度将产生无偏估计，即使伴有不完美的敏感度产生。然而，绝对措施将同时受到低敏感度和低特异度的影响。协变量错分通常会导致残余混杂。使用所有可用信息来定义混杂因素，即使存在差异，通常也会改善混杂的控制。

4. 分析方法

4.1. 倾向性评分（及以上）

倾向性评分（Propensity scores, PSs）作为多变量结局模型的替代方案，越来越多地用于流行病学和有效性比较研究，以控制已测量的混杂。PSs可以辅助识别不同处理之间“平衡”的研究人群，并且可以用作评估协变量平衡的诊断，即衡量其控制混杂的表现。

PSs根据患者自身测量的特征估计每个患者的接受治疗的概率（倾向），例如可以使用logistic回归进行预测。在预期中，具有相同PS的治疗和未治疗的患者（或用药物A与B治疗的患者）将具有相同的特征分布，用于估计PS（可“交换”），使我们能够直接比较治疗和未治疗患者之间的结局而不会产生混杂。这些方法仍然假设在已测量协变量平衡的条件下无未测量的混杂，这在上述ACNU设计中通常更合理。

4.1.1. PS实现

PS可以通过匹配、加权、分层和建模来实现。根据估计所得的PS将未经治疗的患者个体与每个接受治疗的患者相匹配可被概念化为反事实，代表了接受治疗的人如果没有接受治疗的经历。当所有患者亚组的治疗效果不相同时，能够在接受治疗者中估计这种所谓的治疗效果是有用的。

虽然PS匹配是直观且广泛使用的，但最近King和Nielsen认为它可能会增加协变量失衡并削弱因果推断联系。Ripollone等最近的一篇文章表明，King和Nielsen提出的问题可以重现，但与标准的药物流行病学环境几乎没有相关性。加权策略可与PS共同用于创建重新加权的伪群体，在该群体中治疗独立于测量的混杂因素。

与匹配类似，标化死亡比/发病比加权将未治疗患者与治疗患者的协变量分布“标准化”。PS匹配（假设我们可以为几乎所有接受治疗的患者匹配未经治疗的患者）和标化死亡比/发病比加权都试图评估治疗中的平均治疗效果，这回答了一个问题：“如果实际开始治疗的人，与事实相反，没有开始治疗，会发生什么”。

治疗的逆概率加权估计了协变量分布等于整个研究人群中发现的人群的治疗效果。治疗的逆概率加权使我们能够估计整个人群中的平均治疗效果，这回答了“如果每个人都开始治疗会发生什么，如果没有人开始治疗会发生什么”的问题。

其他加权方法包括未处理权重、匹配权重和重叠权重中的平均治疗效果。如果所有亚组患者的治疗效果一致（精度略有不同），这些不同的加权方法都将产生相同的治疗效果估计。然而，如果部分患者亚组有更多的受益或危害，估计值将有所不同。

4.1.2. PS修整

既往研究中已经观察到使用PS时强烈和难以置信的治疗效果异质性。这些研究表明，很可能接受治疗的患者（高PS）实际上没有接受治疗，而不太可能接受治疗的患者（低PS）但实际上得到了治疗，即与预测相反的接受治疗患者，具有高死亡率。在经验例子中，最合理的解释是虚弱造成的未测量的混杂导致医生根据已测量特征推翻了最可能的治疗方法。

基于这一假设，Stürmer等在一项大规模模拟研究中证明，修剪PS分布的尾部可以减少虚弱引起的未测量混杂的影响，并提出了一系列报告和讨论可采用的多种模式分割点（图3）。目前已经提出了各种修剪PS尾部的切点（或者相反，专注于在不同治疗之间具有更好均衡性的群体）。这个概念最近已经扩展到两种以上的治疗方法，并且正在努力为使用何种修剪方法和分割点提供指导。

0 (1).png

图3 不对称倾向性分数修整示意图

在未治疗组（红线）中，一小部分患者很有可能接受治疗（高倾向性评分），但实际上没有接受治疗。同样，在治疗组（蓝线）中，一小部分患者不太可能接受治疗（低倾向性评分），但实际上得到了治疗。修剪重叠倾向性评分分布的两个尾部将消除一些与治疗预测相反的患者，从而倾向于减少因虚弱而无法测量的混杂。

PSs不允许我们平衡未测量的协变量和混杂因素。与其他所有分析策略一样，它们需要与合理的研究设计（如ACNU设计）相结合，以限制无法测量的潜在混杂。

4.2. 时变治疗和混杂因素的具体方法

对于时变治疗和受先前治疗影响的混杂因素，混杂调整的标准方法可能导致偏倚。直观地说，如果暴露可能在未来影响混杂，那么将这些混杂因素放在与暴露相同的结局模型中的标准建模方法最终将控制因果中介变量，早已被证实会产生有偏的效果估计。

边际结构模型使我们可以通过治疗的逆概率加权来调整时变混杂因素，它将混杂控制与结局模型分开，从而允许人们获得治疗效果的有效估计。风湿病研究者使用边缘结构模型来处理良好控制了数据收集情况下的时变混杂因素。

另一组策略是（半参数）g估计和（高度）参数g公式。这些方法和治疗逆概率加权的根源在于使用标准化，从而避免调整由暴露相关时变因素的问题。G估计是一种基于估计方程的方法（类似于最大似然），用于估计结构嵌套模型的参数，其表征了极为短暂的治疗（blips）产生的效果。参数化g公式是一种将因果框架与预测模型和模拟相结合，使我们能比较同一人群在不同治疗方案下的健康结局的分析方法。

据我们所知，g估计和g公式都没有应用于风湿病学的分析问题，但二者都被应用于估计受时变混杂影响的职业暴露影响的问题、估计多重暴露对慢性病的影响、估计HIV治疗的总体效果可能随时间而变化或受到导致治疗调整的不良事件的影响，以及更多来自复杂纵向数据的示例。对这两种方法的完整解释可参考更详尽的教程论文（如Hernán等和Keil等），但在这里我们注意到，两种g方法的统计学机制都可以基于标准回归方法，例如结合标准数据处理和变量创建的广义线性模型。

已有一些软件包来将这些方法常规化为简单情况。简而言之，治疗的逆概率加权和g估计依赖于暴露和结局模型，而参数g公式依赖于混杂因素和结局模型。

我们注意到，在这三种方法中，g公式是最通用的，根据我们的经验，它提供了一套有价值的工具，可以拓宽我们对何时、何地以及如何治疗患者是怎样影响健康的理解。至关重要的是，这种方法能启发我们可以提出更多潜在的问题，而不仅仅是通过比较均值或回归系数所能提出的问题。

例如，我们之前使用g公式来问这样一个问题：“骨髓移植受者接受一种假设治疗（可完全消除移植物抗宿主疾病）对死亡率有何影响”。从观察性研究中获得这样的答案可以帮助未来研究针对此类治疗可能最受益的领域。与ACNU设计相比（通过设计限制了无法测量的混杂），混杂偏倚可能更难以使用治疗的逆概率加权或g估计来控制，因为我们通常拥有的治疗变化的驱动因素（缺乏有效性、副作用）数据有限，这使得治疗过程的建模复杂化。

所谓的双重稳健方法（如增强治疗逆概率加权或靶向最小损失估计）也需要治疗模型，因此在这种情况下也可能无法改善推断。参数g公式需要每个时变混杂因素以及每个结局的模型，尤其当存在多个时变混杂因素时，可能受制于更强的建模假设。

g公式中的这些建模假设可以通过使用机器学习算法来放宽。与简约的参数模型相比，机器学习分类技术或回归算法可以用来在关于模型形式的假设要少得多的情况下拟合g公式。至关重要的是，既往使用g公式的机器学习受到了机器学习算法对数据量需求更大的限制，但大型医疗卫生数据库（真实世界数据）的利用可以克服这一困难。目前在因果推断中机器学习的工作重点是提高因果估计数置信区间的有效性，这仍然是一个挑战。

5. 结论

真实世界数据通常是基于人群、未经选择、已收集，并且相对容易获得的，所有这些都为研究医疗干预措施效果提供了优势。然而，如果没有随机化，也没有可能收集分析解决混杂问题所需的患者特征数据，我们需要依靠研究设计来解决混杂问题，包括由适应症和虚弱造成的混杂，这可以通过在特定环境中的活性药物对照组、新用药者研究设计实现。

一个很有前景的活性药物对照组处于治疗平衡状态，即在调整之前，没有任何一种治疗的已知强预测因子会导致已测量协变量的轻微失衡。然后，PSs可用于解决治疗组之间残余的协变量不平衡。需要最先进的研究设计和分析方法来产生高质量的真实世界证据。每项研究都需要仔细评估潜在残余偏倚的影响。

参考文献（略）