为什么回归分析可以控制混杂偏倚？_统计与绘图_实用技巧

本讲介绍混杂偏倚的常见应对方法，特别是介绍利用回归分析方法来控制混杂偏倚。

1. 混杂偏倚控制的主要方法

医学研究混杂偏倚的控制方法，根据研究阶段可以分为两类，事先控制和事后控制。

事先：设计阶段控制：限制、随机分组和配对

事后：资料分析阶段的控制：分层分析、多因素分析、倾向得分方法等

限制(restrict)：

指在设计阶段对研究对象的纳入标准加以限制使研究对象选取限制在一定范围内，范围越窄，研究对象彼此的差别越小，越利于观察因素作出结论。

随机分配(randomized allocation)：主要适用实验研究，即将研究对象随机分配到试验组和对照组。随机分配可使研究对象的非处理因素和混杂因素在各组间趋于均衡，组间基线情况有良好的可比性，而使得处理因素的真实差别得以显示

配对或匹配(matching)：配对是控制混杂因素常用的方法。特别是在病例-对照研究中较常用。对病例组的每一个成员，选择具有相似特征(除了要观察的暴露因素)的对象为匹配的对照

分层分析：是资料分析阶段控制混杂因素常用的方法。即将观察对象按照相似性的特点，分成亚组后再进行试验组和对照组的比较。分层因素主要为与比较指标有关的因素，如年龄、性别、病情等。按某混杂因素分层后，再用相应的统计方法进行处理。

多因素分析方法：多因素回归是最常用，也是最成熟的混杂偏倚控制方法，特别是观察性研究。常用的多因素分析方法有多元线性回归、多元方差分析、协方差分析、logistic回归模型、对数线性模型、COX模型等

其他高级方法：工具变量法、倾向得分方法。上述两方法近年来越来越流行，学有余力的朋友可以拓展学习。

2. 案例分析

这是一项关于吸烟与经皮冠状动脉介入治疗的ST段提升的心肌梗死（STEMI）患者的关联性研究。所有患者均接受皮冠状动脉介入治疗，研究的暴露因素为最近吸烟状态，因此人群分为吸烟组和不吸烟组。研究主要结局为全死因死亡、住院、以及复合终点（死亡或者住院）。

由于研究结局是生存时间结局，作者采用了LogRank和Cox回归等方法开展分析。

首先，研究对象的特征情况

该研究是非随机的队列研究，2564例STEMI患者中，近期吸烟者1093例（42.6%）。吸烟者年轻10岁，合并症较少，在诸多的特征上均存在着统计学差异（队列研究往往分组不均衡）。

下载.jpeg

然后，开展简单关联性分析

采用logRank方法和单因素Cox回归分析的方法比较吸烟与不吸烟者主要结局，绘制生存曲线。结果显示，与不吸烟者相比，吸烟者的1年内全因死亡率（1.0% vs 2.9%；p<0.001，A图）和死亡或心衰住院率（3.3% vs 5.1%；p=0.009，C图）较低，两者的再梗死率相似（D图）。吸烟似乎是有利于预防死亡与住院。

下载 (1).jpeg

进一步，调整混杂因素的影响

在对年龄和其它危险因素进行调整（adjusted）后，与非吸烟者相比，吸烟者虽有相似的1年死亡风险（HR=0.92），但死亡或心衰住院风险增加49%，再梗死风险增加97%（见下图）。下图是森林图，描述的是分别调整年龄（age）和其它协变量变量(covariates）后，得到的HR值、置信区间和P值。其调整的方法是多因素Cox回归，控制了多个混杂因素的影响。

下载 (2).jpeg

不调整的分析（Unadjusted）和调整的分析（Adjusted）结果差异非常明显，甚至出现了完全相反且具有统计学意义的结果.这表明，混杂因素起到非常很强的干扰作用。

3.为什么回归可以控制混杂偏倚？

对于初学者，可能对“调整”两字，以及如何调整存在着一定的理解困难。目前，中外文文献，经常会成对出现以下的词组：

1	Unadjusted、Adjusted
2	未调整、调整
3	未控制、控制
4	Univariate、Multivariate
5	单因素、多因素
6	未校正、校正

6组词看起来说法不同，但绝大多数情况下，文献出现任何一组词组即意味着作者用了回归方法来控制混杂偏倚。

比如说，这句话“单因素分析结果显示，吸烟与患者生存结局的关联有统计学意义（P<0.05）;调整年龄、性别等变量后，结果显示吸烟与患者生存结局关联有无统计学意义（P>0.05）”，其实就是单因素回归与多因素回归的结果。论文同时呈现单因素回归和多因素回归的结果，来展示混杂因素到底有没有影响、有多大的影响。

因此，调整即控制混杂，调整常用的方法便是多因素回归。

很多人不理解，怎么一做多因素回归，就能控制混杂偏倚呢？我就本例吸烟与全死因死亡的关系做个介绍吧。

全死因死亡虽然和吸烟的关系采用Cox回归，但最终核心内容其实还是线性回归的拓展。

单因素回归公式如下：

Y=α+βX1+ε

具体到本案例，如果只纳入吸烟这一变量进行单因素回归分析

这里的β值为吸烟组的生存结局和不吸烟组生存结局的差别，但请记住，不仅是吸烟相对于不吸烟，其它效应（比如年龄）的效应也可能部分体现在β中。

多因素回归公式如下：

Y=α+β1X1+β2X2+…βnXn+ε

具体到本案例，如果同时纳入纳入吸烟与年龄：

下载 (4).jpeg

实际上，多因素回归的吸烟效应就从单因素的β变为多因素的β1，很显然，效应值发生了改变，而年龄造成的偏倚被剔除出去，最后得到了β1更准确地估计了吸烟对死亡的影响。

所以，多因素回归分析后，目标因素的效应值β，或者OR、RR、HR都被剔除了混杂偏倚，更能准确地反映原因变量和结局变量的指标。

只有多因素回归下，暴露因素对结局的影响，才被我们通俗地称之为“独立”的影响因素。

4. 回归分析两大目的

至此，系列课程已经介绍了回归分析的两大目的，探讨影响因素和控制混杂偏倚。两种目的采用的统计学方法一致，只是在解读上有所区别。我这里稍作比较。

案例4.1：某医师基于某医院开展病例对照研究，探讨冠心病发病有关的影响因素，收集新发冠心病患者作为病例组，收集同期医院非循环系统疾病患者作为对照组，研究的暴露因素是病人的年龄age、性别sex、心电图检验是否异常ecg、高血压hyper、糖尿病diabetes。

案例4.2：某医师基于某医院开展病例对照研究，探讨糖尿病状态对冠心病发病的影响，收集新发冠心病患者作为病例组，收集同期医院非循环系统疾病患者作为对照组，研究的因素是病人的年龄age、性别sex、心电图检验是否异常ecg、高血压hyper、糖尿病diabetes。

诸位可以研读下，两个案例的异同。

下载 (5).jpeg

两个案例数据相同，只是研究目的不同。第一个案例的目的是探讨影响因素。影响因素究竟有哪一些？影响因素分析用什么方法呢？我在之前的课程已经介绍过这个案例，采用的方法logistic回归。

第二个案例目的是探讨糖尿病对冠心病发生的影响。研究者不关心其它变量究竟是否影响冠心病的发生。在这种情况下，其它变量还需要纳入分析吗？当然也需要，它们可能是混杂变量哦。因此，也要采用多因素logistic回归分析的方法来进行。

因此，无论何种目的，采用的统计学方法都是一样的。

那么，区别在哪里？区别在于在两个案例中，变量的地位上，区别在于对结果的解读上。

对于案例1，分析影响发病的多个因素，年龄、性别、糖尿病、心电图异常情况、高血压、糖尿病等变量，它们地位平等。此时，多因素模型下，每个因素发挥独立性的作用；P<0.05时，是独立的影响因素。

本例在统计报告，可以如下所述“本例结果表明，性别、年龄、心电图表现、有无高血压变量对结果具有统计学意义（P<0.05）。”

对于案例2，目标是探讨糖尿病对冠心病发病的影响。年龄、性别、糖尿病、心电图异常情况、高血压、糖尿病等变量，它们地位不平等。糖尿病是主变量，而年龄、性别、心电图异常情况、高血压、糖尿病是从变量，我们把它们称之为协变量（covariate）。

协变量是做好事不留名，logistic回归在它们的帮助下，控制了混杂偏倚，得到了为真实的主变量效应。因此，很多时候，在一份统计报告中，我们不太介绍协变量到底是否对结局有无效应，可能只介绍主变量的效应。

比如本例可以如此书写结果：“在调整了年龄、性别、心电图异常情况、高血压后，结果发现，糖尿病与冠心病发病的关联存在着无统计学意义（OR=1.58,95%CI 0.62-4.03, P=0.338）”。

统计表方面，可按照下标陈列结果，

下载 (7).jpeg

但是由于其他变量不重要而且占篇幅，统计表的内容也可舍弃其它协变量的结果，只取主要暴露因素的分析结果

下载 (8).jpeg

一般来说，多因素回归可以实现主要起到三个研究目的，探讨影响因素，控制混杂偏倚，开展预测分析。这里介绍了前两个目的。它们手段相同，但是根据研究目的的不同，它所以起到的作用不同。

科研星球

为什么回归分析可以控制混杂偏倚？

标签