相信很多朋友都经历过临床数据缺失,看着一个个空白的格子束手无策。
其实在临床试验中,病例脱落导致数据缺失是十分常见且难以避免的。在尽量避免不必要的数据缺失的同时,还应掌握了相应的缺失数据处理方法。
为什么会产生「缺失数据」?
临床试验中的缺失数据一般是由于受试对象在试验中因依从性差、不良事件或疗效不佳等原因提前退出试验造成的; 也可能是因为采集标本或测量过程中因样本量不足或灵敏度不够所造成的疗效指标缺失; 也可能是在数据记录或整理过程中造成的数据丢失等。
缺失数据有哪些类型?
1. 完全随机缺失(missing completely at random,MCAR)
是指缺失数据的产生完全独立于可观察到和不可观察到的数据,其发生的比例不会依赖于受试者的特点,理论上不会给试验结果带来偏倚,数据分析时可仅分析现存数据。
例:因受试者搬家或出差等所造成的失访脱落。
2. 随机缺失(missing at random,MAR)
是指缺失数据的产生独立于不可观察到的数据,但会与可观察的数据有关。
受试者在试验中因不良事件或因疗效不佳而脱落,而不良事件发生和疗效不佳并不是完全随机发生,可能与其他因素相关,这些可观察到的因素包括反应变量以及性别、年龄等协变量,数据分析时应注意其间的相关性。
例:药物对男性疗效不佳、对年老患者疗效不佳、女性患者更易出现并发症等。
3. 非随机缺失(missing not at random,MNAR)
是指缺失数据的产生不仅与已观察的数据有关,还可能与某些不可观察的或未知的数据有关。
受试者意外死亡、因其他原因造成的身体健康问题造成的脱落均属于这一类型。
统计分析时没有很好的处理办法,或假定没有非随机缺失,或进行敏感性分析探讨缺失数据对结果的影响,往往要根据数据缺失过程的概率分布来考虑数据观测过程和缺失过程的联合概率分布,较为繁琐。
例:吸烟调查中,吸烟的患者可能更倾向于不直接作答;高收入人群不填写收入等。
如何处理缺失数据?
1. 直接剔除法:
当脱落病例所占比例很小,且属于 MCARZ(完全随机缺失),可以考虑直接剔除脱落病例产生的缺失记录,形成一个新的完全数据集,仅对现有的记录完整的数据进行统计分析。
例:有一次患者因车辆限号没来随访,可直接删除该次记录。
2. 前一次观察数据向后结转(last observation carried forward,LOCF):
将缺失数据前一次的观测值直接拿来进行替代填补, 方法虽简单, 但是严格满足两个条件:
(1)缺失数据属于 MCAR;
(2)数据缺失之后的各时间点观测值均为能够访视到的最后一次时间点的观测值。若不满足第二条件,该方法的缺陷也显而易见,填充的数据会违背真实趋势(如图),而这一条件在实际工作中较难实现,往往需要病例脱落时已处于平台期。
例:
(1)满足条件 2:黄斑变性患者经抗 VEGF 治疗后视力提升至 0.4 后不再变化,随后失访,使用末次随访视力 0.4 作为后续全部访视数据,对结果无影响。
(2)不满足条件 2:葡萄膜炎患者经激素冲击治疗后,视力由 0.1 逐渐提高,但随后失访,使用末次随访视力 0.4 作为后续全部访视数据,而患者真实视力还在进一步变化(提高至 1.0 或跌至 0.1),严重误判了治疗效果。