题目取得可能有点标题党，但真实情况也差不多：相比随机对照研究与队列研究，“病例对照研究”的文章很难在顶级医学期刊发表。

病例对照研究是医学研究进行病因推断的重要方法。它在医学研究中，将研究对象分为病例组/ 对照组（更广泛来说是，阳性组/阴性组），比较发病/阳性事件发生前接触某暴露因素的状况，比较暴露水平的差异性，初步分析暴露因素与阳性事件之间的因果关系。

比如，历史上最有名的一个病例对照研究是，英国著名流行病学家Hill爵士在20世纪40年代发起的吸烟与肺癌的研究，他通过比较肺癌患者和非肺癌患者的过去的吸烟状况，发现肺癌患者吸烟比例远高于正常的人群，因此证明了吸烟（暴露因素）与肺癌（阳性事件）的因果关系。

但是病例对照研究存在着很多缺陷，导致这类研究的因果推断结论不那么可靠。

主要的问题有三点：（1）病例对照研究存在着回忆偏倚（2）病例对照研究的暴露因素与结局的发生时间在顺序上可能无法厘清，可能会出现因果颠倒（先发生结果，再出现原因）；（3）暴露因素与结局的关系可能存在着干扰因素，很多人把干扰因素直接认定为混杂因素，通过回归分析来控制。但实际上，很多干扰因素可能是中介变量，但病例对照研究很难区别中介还是混杂。

今天我要说的是12月初发表在BMJ的杂志的论文，它用一张图，成功地理清了暴露因素与结局、暴露因素与干扰因素的关系，当然最终赢得了审稿人的认可！

好，进入正题吧。

论文的概况与统计方法

2020年12月2日发表四大医学顶级医学期刊之一的BMJ (IF=30.223)发表了一篇病例对照研究：“出生缺陷患者的癌症风险：基于北欧儿童、青少年和成人的病例对照大型研究” 。该研究就是研究“癌症----出生缺陷”两个变量的关系。

为了探讨出生缺陷与癌症发生之间的联系，该研究收集了四个北欧国家、总共62295例癌症病例和724542例对照样本的出生缺陷和癌症诊断信息，以儿童、青少年和成人 (0~46岁) 为研究对象评估出生缺陷与癌症类型的关系，癌症发生风险是否随出生缺陷的数量而改变，并评估这些联系是否会持续到成年。

点评：这篇文章能发表，大样本量是关键的原因之一。

统计分析方法

对于病例对照研究，logistic回归是不二选择，同时计算OR值；由于癌症发生率很低，因此这里的OR值几乎等同于RR值。

论文的分析结果

（1）癌症患者的出生缺陷发生情况

本研究收集了四个北欧国家 (丹麦、芬兰、挪威和瑞典) 1967至2014年间所有活产儿信息 (出生情况及出生缺陷信息等)、1943年以来的癌症患者信息 (Table 1)。总研究人数为62,295例癌症患者 (其中2160例患有严重出生缺陷，占3.5%)，724542例对照样本 (其中15,826例患有严重出生缺陷，占2.2%)。

摘要：癌症患者，出生缺陷比例3.5%；对照组，出生缺陷比例2.2%，差别显著。

下载 (3).jpeg

（2）出生缺陷患者患癌症的总体风险

与没有严重出生缺陷的人相比，有严重出生缺陷的人总体患癌风险增加 (OR=1.74)。

患有严重出生缺陷的人群中，染色体异常患者的患癌风险最高 (OR=5.53)，遗传综合征/微缺失综合征患者 (OR=5.44)、非染色体异常出生缺陷患者的癌症风险也较高 (OR=1.54)。此外，还观察到患有眼睛、消化系统、泌尿器官、心脏、生殖器和四肢先天缺陷的人患癌症的风险增加。

（3）出生缺陷患者患特定癌症的风险

◆与没有严重出生缺陷的人相比，非染色体异常出生缺陷的人群患泌尿器官癌 (主要是肾癌，OR=2.7)、周围神经和自主神经系统癌 (OR=2.4)、中枢神经系统癌 (OR=2.3) 的相对风险最高。

◆ 染色体异常人群患淋巴组织癌和造血组织癌的风险增加，其中急性髓系白血病的风险最高 (OR=88)。

那幅图来了

那么，大家要那幅图是怎么回事？

其实，很多人采用logistic回归开展病例对照研究，一般是多因素logistic回归，而且最常见的方法是“先单因素后多因素”---先单因素logistic回归，将P值<0.2或者P<0.05的挑选出来，和出生缺陷一起开展多因素回归，探讨出生缺陷和癌症发生的关系。

logistic回归分析中，除了缺失缺陷之外，其它的自变量可能是干扰因素，一般我们人认为是混杂因素。现在用logistic回归控制了混杂因素，似乎结果相对可靠。

对不对？诸位一直以来，可能就是这么干的！

实际上，大家很多时候，忽视了一个重要的概念--中介变量，并在回归中错误地把它认为是混杂因素，并把它纳入回归分析中。

我在这里想告诉大家，回归分析时，千万记住一句话：回归分析，混杂变量一定要纳入模型，中介变量，一般不要纳入模型。

在本病例对照研究，干扰因素中，既有干扰因素又有混杂因素。比如：混杂因素包括母亲年龄、是否吸烟、是否试管婴儿；而中介变量，则包括出生体重，早产等。

所以作者也说：我们不把中介变量纳入到回归分析中。

那么问题就来了，如何筛选混杂变量纳入模型呢？

于是作者就搞了一张大家想看到的图！DAG图（有向无环图）！

图来了！

Ancestor oucome 就是中间变量!

这张图阐明了作者因果推断的思维方式，向审稿人交代了作者如何筛选混杂变量。

这张图具有很重的份量，特别是对于病例对照研究，一个在充斥着各种中介和混杂变量的设计方法。

诸位，我在这里想说的是：病因推断研究时，无论是采用队列研究还是病例对照研究，我们首先得有个病因假设模型。任何直接上回归的方法都是不可靠的研究。

特别是，当心中介变量对观察性研究的干扰！

科研星球

如何用“病例对照研究”发BMJ杂志

2020年12月2日发表四大医学顶级医学期刊之一的BMJ (IF=30.223)发表了一篇病例对照研究：“出生缺陷患者的癌症风险：基于北欧儿童、青少年和成人的病例对照大型研究” 。该研究就是研究“癌症----出生缺陷”两个变量的关系。

标签

2020年12月2日发表四大医学顶级医学期刊之一的BMJ (IF=30.223)发表了一篇病例对照研究 ：“出生缺陷患者的癌症风险：基于北欧儿童、青少年和成人的病例对照大型研究” 。该研究就是研究“癌症----出生缺陷”两个变量的关系。

标签

2020年12月2日发表四大医学顶级医学期刊之一的BMJ (IF=30.223)发表了一篇病例对照研究：“出生缺陷患者的癌症风险：基于北欧儿童、青少年和成人的病例对照大型研究” 。该研究就是研究“癌症----出生缺陷”两个变量的关系。