科研星球

如何用“病例对照研究”发BMJ杂志

题目取得可能有点标题党,但真实情况也差不多:相比随机对照研究与队列研究,“病例对照研究”的文章很难在顶级医学期刊发表。


病例对照研究是医学研究进行病因推断的重要方法。它在医学研究中,将研究对象分为病例组/ 对照组(更广泛来说是,阳性组/阴性组) ,比较发病/阳性事件发生前接触某暴露因素的状况,比较暴露水平的差异性,初步分析暴露因素与阳性事件之间的因果关系。

比如,历史上最有名的一个病例对照研究是,英国著名流行病学家Hill爵士在20世纪40年代发起的吸烟与肺癌的研究,他通过比较肺癌患者和非肺癌患者的过去的吸烟状况,发现肺癌患者吸烟比例远高于正常的人群,因此证明了吸烟(暴露因素)与肺癌(阳性事件)的因果关系。

下载.jpeg

但是病例对照研究存在着很多缺陷,导致这类研究的因果推断结论不那么可靠。

主要的问题有三点:(1)病例对照研究存在着回忆偏倚  (2)病例对照研究的暴露因素与结局的发生时间在顺序上可能无法厘清,可能会出现因果颠倒(先发生结果,再出现原因) ;(3)暴露因素与结局的关系可能存在着干扰因素,很多人把干扰因素直接认定为混杂因素,通过回归分析来控制。但实际上,很多干扰因素可能是中介变量,但病例对照研究很难区别中介还是混杂。

今天我要说的是12月初发表在BMJ的杂志的论文,它用一张图,成功地理清了暴露因素与结局、暴露因素与干扰因素的关系,当然最终赢得了审稿人的认可!

好,进入正题吧。


1
论文的概况与统计方法

2020年12月2日发表四大医学顶级医学期刊之一的BMJ (IF=30.223)发表了一篇病例对照研究 :“出生缺陷患者的癌症风险:基于北欧儿童、青少年和成人的病例对照大型研究” 。该研究就是研究“癌症----出生缺陷”两个变量的关系。

下载 (1).jpeg
为了探讨出生缺陷与癌症发生之间的联系,该研究收集了四个北欧国家、总共62295例癌症病例和724542例对照样本的出生缺陷和癌症诊断信息,以儿童、青少年和成人 (0~46岁) 为研究对象评估出生缺陷与癌症类型的关系,癌症发生风险是否随出生缺陷的数量而改变,并评估这些联系是否会持续到成年。

点评:这篇文章能发表,大样本量是关键的原因之一。

统计分析方法

对于病例对照研究,logistic回归是不二选择,同时计算OR值;由于癌症发生率很低,因此这里的OR值几乎等同于RR值。

下载 (2).jpeg



2
论文的分析结果

(1)癌症患者的出生缺陷发生情况
本研究收集了四个北欧国家 (丹麦、芬兰、挪威和瑞典) 1967至2014年间所有活产儿信息 (出生情况及出生缺陷信息等)、1943年以来的癌症患者信息 (Table 1)。总研究人数为62,295例癌症患者 (其中2160例患有严重出生缺陷,占3.5%),724542例对照样本 (其中15,826例患有严重出生缺陷,占2.2%)。
摘要:癌症患者,出生缺陷比例3.5%;对照组,出生缺陷比例2.2%,差别显著。

下载 (3).jpeg

(2)出生缺陷患者患癌症的总体风险
与没有严重出生缺陷的人相比,有严重出生缺陷的人总体患癌风险增加 (OR=1.74)。
患有严重出生缺陷的人群中,染色体异常患者的患癌风险最高 (OR=5.53),遗传综合征/微缺失综合征患者 (OR=5.44)、非染色体异常出生缺陷患者的癌症风险也较高 (OR=1.54)。此外,还观察到患有眼睛、消化系统、泌尿器官、心脏、生殖器和四肢先天缺陷的人患癌症的风险增加。
下载 (4).jpeg

(3)出生缺陷患者患特定癌症的风险
与没有严重出生缺陷的人相比,非染色体异常出生缺陷的人群患泌尿器官癌 (主要是肾癌,OR=2.7)、周围神经和自主神经系统癌 (OR=2.4)、中枢神经系统癌 (OR=2.3) 的相对风险最高。
◆ 染色体异常人群患淋巴组织癌和造血组织癌的风险增加,其中急性髓系白血病的风险最高 (OR=88)。



3
那幅图来了


那么,大家要那幅图是怎么回事?
其实,很多人采用logistic回归开展病例对照研究,一般是多因素logistic回归,而且最常见的方法是“先单因素后多因素”---先单因素logistic回归,将P值<0.2或者P<0.05的挑选出来,和出生缺陷一起开展多因素回归,探讨出生缺陷和癌症发生的关系。
logistic回归分析中,除了缺失缺陷之外,其它的自变量可能是干扰因素,一般我们人认为是混杂因素。现在用logistic回归控制了混杂因素,似乎结果相对可靠。

对不对?诸位一直以来,可能就是这么干的!



实际上,大家很多时候,忽视了一个重要的概念--中介变量,并在回归中错误地把它认为是混杂因素,并把它纳入回归分析中。

我在这里想告诉大家,回归分析时,千万记住一句话:回归分析,混杂变量一定要纳入模型,中介变量,一般不要纳入模型。

在本病例对照研究,干扰因素中,既有干扰因素又有混杂因素。比如:混杂因素包括母亲年龄、是否吸烟、是否试管婴儿;而中介变量,则包括出生体重,早产等。

所以作者也说:我们不把中介变量纳入到回归分析中。
下载 (5).jpeg

那么问题就来了,如何筛选混杂变量纳入模型呢?

于是作者就搞了一张大家想看到的图!DAG图(有向无环图)!
下载 (6).jpeg

图来了!
下载 (7).jpeg
Ancestor oucome 就是中间变量!

这张图阐明了作者因果推断的思维方式,向审稿人交代了作者如何筛选混杂变量。

这张图具有很重的份量,特别是对于病例对照研究,一个在充斥着各种中介和混杂变量的设计方法。


诸位,我在这里想说的是:病因推断研究时,无论是采用队列研究还是病例对照研究,我们首先得有个病因假设模型。任何直接上回归的方法都是不可靠的研究。

特别是,当心中介变量对观察性研究的干扰!



没有账号?