科研星球

复发事件数据(recurrent event data)统计模型解析

我们都知道,在分析危险因素和结局的相关性时,如果收集了结局事件发生时间,在满足一定条件下可以使用Cox比例风险模型。该模型可以在调整其他协变量影响下得到所关注的危险因素和结局发生的关联强度-风险比(hazard ratio,HR)。通常情况下,如果对于纳入的个体来说,结局事件是单一的(即只发生一次),且不同个体之间事件的发生是独立的,那么Cox模型是合适的。


然而,在研究中通常还有一类数据,纳入的个体在观察期内会发生不止一次结局事件,且结局事件可以是一种(例如掉牙齿,从掉第一颗到掉光),也可以是多种(例如研究术后感染,结局可以是细菌感染、真菌感染、病毒感染等);事件之间可以有先后顺序(例如住院事件在前,死亡事件在后),也可以没有;不同类事件对应的基础风险可以相同也可以不同(例如急性心肌梗死患者出院后,罹患出血性卒中和缺血性卒中的风险不同)。最重要的是,同一个体的多个事件之间存在一定的关联,而且事件发生的风险可能随时间发生变化(例如某些疾病轻易不患,患了一次后更容易再发)。这类数据称为多失效事件数据(multivariate failure time data)。


其中,复发事件数据(recurrent event data)是比较特殊的一类,通常是有先后顺序,以某种事件的重复发生最为常见(也可以有多种结局事件分别重复发生的情况)。对于这类数据的分析,目前较为常见的做法有两种:1)仅利用首次发生的事件和时间信息做Cox模型;2)采用广义估计方程(GEE)和随机效应模型对事件数量进行建模。前者的问题是忽略了结局事件相关性,会导致估计值的置信区间不准确;后者虽可以解决相关性的问题,但未能充分利用时间信息。


本文将为大家介绍几种处理复发事件数据更为合适的方法,每种方法都有各自的前提假设、适用范围,希望能对大家解决这类实际问题有所帮助。

AG模型

(Andersen-Gill,AG)

AG模型可以简单理解为Cox模型在复发事件数据中的推广。它同样假设不同事件的基础风险函数相同,且同一危险因素对不同事件的影响也相同。该模型由两部分组成:1. 强度函数(intensity function):协变量如何影响具体时间点的事件风险;2. 时间依存(time-dependence):如果先前发生的事件对后续事件的发生有关联,那么这种关联被认为是由时间依存变量体现的;如果协变量不是时间依存的,则事件的复发风险不受过去事件的影响。因此,如果事件之间的关联可以认为是由于已测量的协变量引入的,即在调整了这些协变量之后事件的发生是独立的,就可以用AG模型来解决。换句话说,如果可以合理假设事件复发的风险和过去有无发生、或发生了多少次事件无关,可以使用AG。一般来说,如果研究只是希望得到危险因素对结局的总体影响(the overall effect on the intensity of the occurrence of a recurrent event),AG十分合适

PWP模型

(Prentice, Williams and Peterson,PWP)

PWP的主要思想是根据随访期间先前发生的事件数将可复发事件分层(strata)。认为所有个体都处于第一个strata发生的风险中,但只有在先前strata中有事件的那些个体才有下一个strata的风险(先有1才有2,只有发生过一次事件的人才有发生后续事件的风险)。它可以评估自研究开始(time=0)以来某危险因素对第k个事件的效应;也可以同时比较同一影响因素对不同结局事件的效应, 例如可以评估自研究开始(time=0)以来某危险因素对第k-1个事件的效应和对第k事件的效应;也可以评估自k-1个事件以来它对第k个事件的效应。如果假定事件的发生会改变后续复发的风险,或者危险因素对各个事件的效应不同时,PWP更为合适。例如,事件为重复发生的病毒感染,由于首次感染后免疫力的建立,后续感染的发生会受到前次感染的影响。


需要注意的是,在实践中,事件重复次数很多的个体通常会比较少,排序靠后的strata中的个体数量少,会使估计值不可靠。因此通常需要事先将复发事件数限制为特定数量,超过这个次数的不纳入分析。例如把分析限制在复发4次以内,超过第4次的事件不分析。

多状态模型

(Multi-state models, MSM)

MSM把事件发生看作是状态的一种“转移”,例如健康患病。这个模型用转移强度和转移概率两个指标来描述这种状态变化,且假设这两个参数都取决于之前所有发生的历史事件情况。MSM适合处理个体在一个有限数量(通常是少量的)的特定健康状况(包括死亡)所定义的状态间转移的情况(如下图)。复发事件可看做是个体在“健康”和“患病”两种状态间的转移,从而可以应用MSM方法。MSM的一个优势是,除了可以获得通常关注的危险因素和某个事件发生(如“健康患病”)的关系,还可以同时计算危险因素对多个不同事件(如“健康患病”,“患病康复”这两种状态转移)的不同影响。

“多状态转移”的一个示例。进行移植治疗的血液病患者,其后续健康状况可以假设有5种情况(痊愈、死亡、基本复发、严重不良事件、严重不良事件并恢复),这些状况之间可以进行“状态转移”。基于这些转移的设定,即可应用MSM模型。

均值/速率模型

(Marginal means/rates model)

均值速率模型把同一个体的所有重复发生事件视为一个单个计数过程,而不考虑个体内复发事件的时间依赖关系,较AG模型更为灵活简单。它适用于事件之间依赖关系的结构复杂且未知,并且我们不关心这种关系具体是什么时。均值速率模型得到的是危险因素和事件之间的率比(rate ratio,RR),而不是其他模型得到的HR。从数学推导上说,如果没有纳入时间依存的协变量用于考虑前期已发生的事件对未来复发的影响,均值速率模型和AG模型得到的点估计值是一样的,只是由于使用的方法不同,置信区间会不一样。

脆弱模型

(Frailty model)

脆弱模型是一种用来解决cluster数据非独立性问题的随机效应模型。脆弱(Frailty)是一个潜在的无法直接观察的东西,不同个体发生事件的风险(脆弱)不一样。该模型中,这些无法用协变量描述的因素被看作是随机效应。重复事件数据可以看做是一种cluster数据,每个个体是一个cluster。脆弱模型假设事件之间的关联是由协变量和随机效应导致的,最常见的一种是共享脆弱模型(shared frailty model;假设脆弱性在cluster间随机,cluster内相等)。应用时要注意个体数、事件数以及分布要求。当随机效应较大时,事件数可以少一些,否则,则需要较大的事件数才能获得稳定的估计。

 

总的来说,复发事件的分析是一个不算新、很实际、可选的方法比较多,但何种方法最优又没有特别一致结论的问题。一般来说,选择什么模型首先需要考虑的是需要解答什么样的科学问题,同时还要考虑事件数量、事件和事件发生的相关性假设、危险因素对事件的效应是否一致、符合生物学过程(biological process)的假设、事件之间的相关结构(dependence structure)等等。另外,不同模型的基础理论不同,前提假设不一,得到的结果也需要谨慎解读。

 

PS: 本文内容来源于2015年发表在International Journal of Epidemiology上的一篇文章“Modelling recurrent events: a tutorial for analysis in epidemiology”。文中列举了两个例子,一个是评估和安慰剂相比某种药物治疗对膀胱癌患者肿瘤复发的影响,另一个是探索影响儿童急性下呼吸道感染和恢复的因素。作者分别用五种模型进行了分析,并解读了不同模型得到的结果及区别。感兴趣的小伙伴可以下载原文(见参考文献[1])学习~

 

作者: 甜橙


参考文献:

[1] Leila DAF Amorim, Jianwen Cai. Modelling recurrent events: a tutorial for analysis in epidemiology. International Journal of Epidemiology, 2015, 324–333. doi: 10.1093/ije/dyu222

[2] Liesbeth C. de Wreede, Marta Fiocco, Hein Putter. mstate: An R Package for the Analysis of Competing Risks and Multi-State Models. Journal of Statistical Software, 2011,38(7)


相关推荐:
没有账号?