科研星球

有向无环图(DAG):回归分析中自变量筛选的指导原则

基于DAG方法进行自变量的筛选


以探讨影响因素或者控制偏倚为目的回归模型,要求自变量和因变量往往存在着因果关系,所以自变量筛选首先需要考虑自变量能否纳入到模型,严格挑选自变量进入模型。


一、论理论假设的重要性


回归分析,很多时候,首先需要厘清变量的理论上的关系,特别是因果关系。


比如:探讨人群是否患有高血压病与运动直接的关系。很多人写文章采用这样的统计过程:首先对社区人群做了一个调查,调查是否高血压、运动频次,然后开展logisic回归;当P小于0.05时,则下结论认为运动影响高血压病的发生。。。。这样的分析逻辑难以令人信服。


为什么? 基于一个现况调查,真的能够明确高血压患病和目前运动状况的因果关系吗?到底是不运动引发了高血压,还是高血压促进了运动?(比如郑老师感觉最近感觉身体比较差,然后每天5公里跑步走起~~~)。


贸然然将运动作为因,高血压病作为果,显然是不合适的。


我继续分析类似的案例。


案例1:  基于调查调查人群的冠心病患病情况,同时调查相关因素:性别、年龄、红肉日均摄入量、吸烟、饮酒、血管弹性指数。研究目的是探讨这些因素对冠心病发生的影响。


如果采用的方法logistic回归,哪些因素可以放呢?


答案是:固有的因素,保持不变的因素,回顾性的因素,理论上和结局时间逻辑明确的因素可以开展多因素回归分析。


有哪些是呢?性别、年龄、血管弹性指数,其它则要谨慎考虑能否纳入。


为什么?因为吸烟、饮酒、红肉日均摄入量,是当前的饮食特征、跟冠心病发病因果关系搞不清楚。我们没法理清到底是吸烟饮酒导致了冠心病,还是冠心病导致了吸烟饮酒行为的改变了。


因此,在统计分析前,我们应建立一种正确的因果观,基于横截面调查的数据开展影响因素研究,须排除因果关系可能颠倒的变量,排除反映当前情况特征的暴露变量!千万不要任何变量,一股脑全部放进去。


在数据分析之前,建立因果关系,是以探讨影响因素或者控制偏倚为目的回归分析的首要工作。这一工作,最具体化的方式,是DAG方法。


我把DAG理论称之为新瓶旧酒,因为这种理念并不是新的思路,但是概念却是我们学者很少触及。现在需要思维革新了。


本篇通过虚构案例来介绍下DAG理论。


二、 构建DAG


DAG,有向无环图(Directed Acyclic GraphDAG)。这是一种理论驱动的自变量筛选方法,它基于理论的因果关系,构建因果关系网络,从而找到合适进入模型的自变量(本讲具有一定的理解难度)。


DAG是回归分析的灵魂所在,是最高指导方针。


我结合简单的结直肠癌案例来展示下DAG方法。该案例包括若干个变量,包括:病人性别、年龄、分期、入院前吸烟情况、有无转移、手术方式(人还是机器)、术后化疗方案,最终结局。

 

上述自变量都可能影响健康结局,而且它们之间还相互影响。我们用箭头来表各自的因果关系,箭头发出对象为因,箭头指向为果。比如,手术方式,它对结果的影响是直接影响生存结局,以及通过影响术后放疗的方式影响生存结局。因为可能不同的手术方式会影响到不同的化疗方案。


所有变量因果关系通过方向线形成的单向网络,该网络图即称之为有向无环图(Directed Acyclic GraphDAG)。如下图。

0.jpg


那么如果要探讨影响因素,若重点探讨手术方式对生存结局的影响,应该要放哪些因素进入模型呢?是不是所有的自变量都可以纳入呢?

 

三、几个必须了解的关键概念


学习DAG方法,最关键的是掌握几个重要的概念。


1. 中介变量


对于手术方式而言,术后化疗方式是它的中介变量。


可以通过下图可以看出,术后方式可以通过术后化疗影响结局,术后化疗处于手术方式与生存结局因果关系链上的中间变量或者中介变量。

0 (1).png


2.混杂变量

对于手术方式,分期、转移和年龄都是混杂因素

为什么,因为分期、转移和年龄三者即影响手术方式、又影响结果,而且不是手术方式的中介变量,因此是混杂变量(具体的概念本系列之前已经有详细的陈述)

0 (2).jpg


那么对于术后化疗来说,手术方式是什么呢?手术方式是混杂变量(如果能够理解,说明还不错)。


0 (1).jpg


对于术后化疗来说,年龄和和分期呢?

年龄和分期没有直接和术后化疗相连接,它们算不算混杂因素呢?算!比如年龄,就通过手术方式传导到影响术后化疗。


3. 相关变量

对于手术方式而言,吸烟这个变量算什么?它不会影响手术方式,也不会传导到手术方式。但是手术方式和吸烟都受年龄影响,因此两者是相关的,因此我称吸烟是手术方式的相关变量,它们不存在着因果关系。同时,由于吸烟又跟生存结局有关系,因此吸烟这一相关变量也是混杂因素。


0 (4).jpg


4.此外还有碰撞节点变量、工具变量。。。。不在这里讲述了,它们用的不多。上述四个变量,已经够喝一壶了。关于这几个概念,可以阅读《中国卫生统计》杂志的论文基于因果关系图进行多因素回归分析的变量筛选


0.png


四、利用DAG限制变量纳入


了解DAG几个基本概念之后,我们便可以理清不同变量的属性,在此基础上开展进行变量的纳入筛选。概括来说,基于DAG理论最重要的自变量筛选原则是:


1.    中间变量不能纳入

比如研究多因素影响生存结局,关注重点之一是手术方式。那么术后放疗方式是中介变量,是不能纳入的。为什么?现在需要评价手术方式的疗效。手术方式对结局的作用是从两个通路产生影响。一方面是直接影响,另外一方面是通过术后放疗产生的影响。如果同时回归模型将两者(手术方法和术后化疗)放入内,手术方式通过术后放疗这一路的对生存的影响全部被术后化疗截走了!或者说,手术方式的间接影响通路被堵死了!因此这样评价手术方式的效果是不全的!


这一点非常重要!也是当前研究者构建回归模型最忽视的地方。切记!

  0 (2).png


2.    混杂因素必须放入

多因素回归时候,一般要研究多个影响因素,但也有一些因素不是我们关心的,比如年龄、性别!许多同志构建了回归模型,发现年龄性别也有统计学意义,在讨论中大论年龄与性别对结局的影响。。。多余!谁都知道知道年龄、性别对癌症结局的影响。它们存在的意义是因为它们是混杂因素。一般需要放入到模型中来但无须讨论。


现在不妨思考下,如果现在重点探讨的术后化疗对结局的影响,以下的图中,哪些因素要放呢?

0 (3).jpg


是手术方式、分期、转移,他们都可能是混杂因素,此外,相关变量也可能是混杂因素,如果遇到,也需要纳入。


总之,构建回归研究影响因素的时候,必然有一些因素是我们比较关心的变量。我们同时也研究其它因素的对结局的影响,但是关心的核心变量对结局的影响,必须准确详实。因此特别要关心中介变量和混杂变量的问题。


对于结直肠癌案例,总结来说:

对于手术方式,那么术后化疗是中介变量,不能放!

对于术后放疗,那么手术方式是混杂因素,必须放!


若能明白这两句话,那就学到家了!


五、社会人口学特征为什么一般不作为解释变量?


我基于DAG方法做一个简单的分析,解决一个问题:社会人口学特征为什么一般不作为解释变量?


案例3:探讨糖调节受损者糖尿病发病的主要发病因素,假设待研究的包括自变量性别、年龄、家族糖尿病史、基线血糖水平,和因变量糖调节受损者转归结局(2年后)。


常规的方法是将上述所有自变量放在logistic回归模型中进行多因素回归分析。如果同时列入性别、年龄、家族史、基线血糖水平,logistic模型将得到以下结果(下表1):除了基线血糖水平,其他因素都没有统计学意义。那么如果根据这个结果,是否可以暂时认为性别、年龄、家族史对糖调节受损者的转归没有影响?


然而,如果去掉“基线血糖水平这个因素再重新建模,结果发现,三个因素都有统计学意义。

0 (3).png


理论上,上述变量的因果关系图较为明确(下图)。

0 (4).png


年龄、性别、家族史将先通过影响基线血糖水平从而影响糖调节受损者转归,但是在本例中发挥着非直接,而是间接的作用。基线血糖扮演的角色则是障碍点,是中介变量。若采用logistic回归分析,在基线血糖这个变量存在的情况下,年龄、性别、家族史的作用无法体现出来。在这种情况下,如果讨论年龄、家族史和性别的作用,那么就将得到错误结论。因此,考虑到混杂偏倚的情况,较为妥善的思路是,人口社会经济学特征只是作为协变量或者调解变量存在,在论文的讨论中不着墨分析。


总结:DAG 本身并不是完全统计学概念,而是因果关系的概念,理解困难,但是可以消化吸收。回归建模的第一步,就是要基于DAG思维来建立筛选自变量!


当然,DAG方法有些时候也不用扣得如此死板,在预测为主要目的的回归分析中,DAG原则可以淡化。



没有账号?