科研星球

一文搞懂重复测量资料分析

重复测量资料是指对同一研究对象的同一个结局指标在不同时间点或不同条件下进行多次测量得到的数据,其目的是(1)关注结局指标水平是否随着时间发生变化;(2)关注各处理组均数随时间变化的趋势是否相同;(3)关注各处理组所有时间点的总体均数是否相同。常见的基本假设检验方法比如t检验、普通的多因素方差分析或者回归模型均要求观察值相互独立,因此应对不独立的重复测量设计数据时可能增加统计推断错误风险。本文以“糖尿病患者血糖控制效果的实验性研究”为例,探讨重复测量资料的统计分析策略,供广大卫生科技工作者参考。

 
1.重复测量资料分析需要考虑的若干关键数据特征

不同特点的重复测量资料,统计分析策略不同。结局是否是定量数据。血糖的定量结局和血糖二分类结局(正常/异常)的分析策略不同。

(1)   结局变量数据是否呈正态分布。若对空腹血糖值进行分析,无论采用方差分析或者回归分析,一般要考虑残差是否正态的问题。正态分布与偏态分布数据采用的统计学方法不同。

(2)   重复测量结局资料是否包括基线值。基线值是实验性研究通常会采集的数据。对结局指标进行多次测量时,第1次测量发生在实验前(T0),得到的即为基线值(表1);由于基线值并不属于研究效应指标,一项研究是否存在着基线值将影响统计策略的选择。

0.png
3)重复测量次数2次或者更多次。3次及以上重复测量资料的统计策略相对复杂,而2次重复测量的情况相对特殊。若2次重复测量不包括基线值,亦须考虑复杂策略2次重复测量是自身前后(包括实验前和实验后),则统计方法相对简单。

2.包含基线值的2次重复测量资料的统计策略

举例:若开展随机对照研究研究评价药物二甲双胍的干预效果,将糖尿病患者随机分为两组(试验组和对照组),分别在实验前、后测量空腹血糖值。数据如表2。该研究虽为重复测量设计,但是结局指标应是实验后2周的空腹血糖而不包括基线血糖值,评价疗效时无需过于将统计方法复杂化。
0 (1).png
 类似的包含基线值的2次重复测量资料,根据结局是否定量,可考虑以下统计策略:

1)定量结局的分析。若该研究分析正态分布血糖值(定量数据),可考虑以下几种策略;①直接比较实验后的血糖值,采用t检验方法;计算实验前后的差值,开展t检验;③计算实验前后血糖值改变的比例,进行t检验;④开展协方差分析,纳入实验前血糖值作为协变量;⑤开展线性回归分析,同时纳入实验前血糖值和处理因素作为自变量。偏态分布资料可以考虑秩和检验或者进行数据转换后开展t检验。

2)定性结局的分析。若该研究分析“血糖控制是否有效(以7.0 mmol/L为界)”形成二分类定性结局,可考虑的方法包括①采用卡方检验方法直接比较实验后的数据;开展logistic回归分析,同时纳入实验前血糖值和处理因素作为自变量。
 
3.多次重复测量资料的统计策略

根据不同的研究目的,多次重复测量资料统计方法可分为纵向数据统计模型与基础统计学方法。统计模型主要包括重复测量方差分析、广义估计方程和(广义)线性混合模型。基础统计学方法,主要为常见的假设检验方法,包括t检验、F检验、卡方检验等。
 
3.1纵向数据统计模型

常见纵向数据统计模型包括重复测量方差分析、广义估计方程和(广义)线性混合模型。三类模型均可用于处理因素主效应、时间效应和交互效应分析。其中,重复测量方差分析针对定量变量数据,但受数据分布、缺失值问题、观测时间是否等距等情况限制。广义估计方程与(广义)线性混合模型,均可处理多类型结局资料(定量、二项、泊松分布等)、受缺失值影响小、可以处理观测不等距间隔的数据,是值得推荐的方法[2]。此外,(广义)线性混合模型可根据需要将部分因子设为随机效应因子,因此该方法更灵活。

基本统计策略如下:(1)定量数据:①可分别计算其它时间点测量值(非T0)与基线值(T0)的差值后,纳入基线值作为协变量构建纵向数据统计模型;或者直接纳入其它时间点的测量值构建统计模型,基线值作为协变量。(2)分类数据:二分类、有序多分类数据存在基线值时,直接将其它时间点的测量值作为结局构建广义估计方程或者广义线性混合模型,基线值作为协变量。
 
3.2基础统计学方法
多次重复测量资料分析,在以下场景中可以考虑基础统计学方法:①以某一个时间点的指标作为主要结局时。实验性研究多次测量结局指标时,往往差别对待各时间点的测量值,选择某一时间点的指标为主要结局,例如将4周的血糖值作为主要结局指标。统计学方法应考虑本文第2部分“包含基线值的2次重复测量资料统计分析”的推荐方法进行。存在时间与处理因素的交互效应时。当存在着交互作用时,重复测量方差分析、广义估计方程或者混合效应模型的主效应难以真实体现处理因素的效果,合适的方式是分别观察各时间点内的组间差异性(采用t检验、F检验、协方差分析等进行比较),探讨各时间点内的处理因素影响。

4.注意事项

4.1评价疗效时,基线值不能作为结局指标,只能用于计算差值或者作为协变量进入统计模型;

4.2存在着交互效应时,不宜直接将纵向数据统计模型的主效应作为分析结果进行讨论,应重点关注各观测时间点内的组间差异性。

4.3多个时间点内同时进行组间差异性比较时,建议采用一定的方式控制I型错误。比如将不同时间点的同个结局指标分为主要结局与次要结局,区别对待;或者采用Bonferroni等方法严格控制总的a值。


相关推荐:
QQ客服
电子邮箱
淘宝官店
没有账号?