科研星球

样本量不够多,还能开展logistic回归吗?

样本量过小,就不能开展logistic回归吗?临床研究变量这么多,就得要要好几百的样本量吗?

医学研究样本量估算是令人头大的事情。近几年来,回归分析的样本量令人关注。无论研究影响因素,还是控制混杂,或者构建预测模型,总是有人发蒙,“我的样本量够不够!”

回归分析对样本量是有要求的,或者对自变量个数是有要求的。一定的样本量只允许一定数量的自变量进入模型,否则会出现超载情况,模型构建不成功!

回归分析到底对样本量有何要求呢?在回归分析中,存在着一个样本量是自变量个数10倍以上的概念,英文的意思是10 events per variable (10 EPV)。

什么是10 EPV?那就是回归分析的阳性事件数,不少于开展回归纳入模型自变量数的10倍。

这一概念广为流传,也深受国内外学者认可。近些年有大量的文章认为这种方法不严谨----的确,哪有这么绝对的说法。不过实际应用中,没有更简单的指导回归分析样本量计算的方法了,因此10 EPV仍然是最被认可的方法。



在这里,我在关于10EPV做一些关键点的介绍。

1.对于定量变量结局(特别是连续型数据),如需开展线性回归分析,有效样本量直接由总的观察对象数决定。比如一项研究如果总样本量200例,如果定量结局为血压值,那么开展线性回归分析时,将允许纳入同时20个自变量进入模型。

2.对于二分类结局,一般开展logistic回归分析。关于样本量,目前网络上流传的概念是logistic回归要求阳性事件数的5-10倍以上。其实这个概念不严谨的!真正有效样本量将根据二分类结局中两类结果观察数的最小值而定。比如基于200例研究对象开展分析,120例发生高血压,80例未发生高血压。本案例阳性数是120,但是实际上两类结果中,阴性数量才80,是较小值。因此有效样本量是80例,按照10 EPV原则,logistic只允许8个(而不是12个)自变量同时进入模型。

3.对于生存时间结局,则是另外的说法了。生存时间资料回归分析常见采用Cox回归,一般来说生存分析样本量测算是根据事件的发生数!这里的事件发生数则是一般意义上的阳性事件数。比如200例高血压患者,随访5年,其中120人发生心血管病患,那么回归分析时可根据120例的数据作为纳入自变量个数的标准。

4.除此之外,我在这里必须要介绍一下回归分析自变量的概念。一个自变量不等同于数据库一个变量,自变量个数会由于不同的回归模型而发生变化。比如需要哑变量,以及交互效应存在时,自变量个数有所增加。

第一,分类变量考虑设置哑变量时,情况要复杂一些。比如变量种族(分为白人、黑人、其他人种三个水平)一般回归模型需要设置哑变量。回归分析时,种族这一变量将转为2个自变量(是否是黑人、是否是其他人种)。如果一个分类变量类别越多,形成的自变量个数越多。

第二,如果要探讨交互作用,也要增加自变量的数量。如果,与设置哑变量的自变量产生交互作用,那么自变量数更要增加了。
0 (4).png

比如上表为logistic回归分析结果。种族是哑变量,同时和产妇年龄进行交互作用分析。此时,种族产生2个自变量,同时与产妇年龄的交互作用也产生2个自变量,1*2的结果。如果,两个都设置哑变量的变量开展交互作用分析,那么产生的自变量数排列组合一下,可能3*2、3*3或者更多了!

因此,回归分析的自变量数量不是原始变量的个数,而是回归分析将要呈现出来的数目。

5.回归分析不同的变量筛选方法对自变量个数或者对样本量有没有影响?
回归分析一般有向前逐步、向后逐步、双向逐步,一般来说,回归分析对自变量的个数不是建模成功的自变量数,而是候选自变量数,也就是准备纳入模型的、考虑了哑变量、交互项之后的自变量个数。当然有些时候实在没有办法--样本量真的不多--能否通过逐步回归法可以多一些变量进去呢?可以的,选择向前逐步和双向逐步,别选择向后逐步。简单的数据模拟分析显示,如果向前逐步和双向逐步两种方法在建模成功后保留在模型的自变量个数不多,回归分析可以多考虑一些候选自变量。因为,这两种方法建模过程中不是候选自变量一口气全部纳入,因此可以避免样本量过多而超载的现象。

6.有效样本量一般建议自变量数10倍以上,但这事不绝对。统计学者也提过5-10倍以上的概念,说明5倍以上也可能可以。所以,10倍以上的概念可作为参考,接近或者超过则较为妥当。

7. 很多时候会出现出现OR值特别大,或者特别小的原因
很多人咨询过我,logistic回归分析结果中某个自变量的OR值特别大(如>999.999)或特别小(<0.001),可信区间也特别宽(如<0.001~>999.999)。怎么回事?

对于此类问题,可能有以下原因:
(1)空单元格,如性别与疾病的关系,所有男性都发生了疾病或都没有发生疾病,这时候可能会出现OR值无穷大或为0的情形。
(2)该变量某一类的例数特别少,如性别,男性有100人,女性有2人,可能会出现这种情形。
(3)完全分离现象,对于某自变量,如果该自变量取值大于某一值时结局发生,当小于该值时结局都不发生,就会出现完全分离现象。如年龄20、30、40、50四个年龄段,如果40岁以上的人全部发生疾病,40岁以下的人全部不发病,就就产生了完全分离现象,也会出现奇怪的OR值和置信区间。
(4)多重共线性问题,多重共线性会产生大的标准误。

对于上述问题,肯定需要一个一个因素来回归探索分析,找到原因,对自变量要进行合并、删除、分组等方式来避免上述现象,造成多重共线性的自变量,要排除在外。

8. 样本量不够大,还能开展logistic、线性等回归吗?
没有问题,合理筛选自变量个数进入模型。

9.针对小样本多自变量,如何进行自变量筛选呢?
对此,常规的方法就是先单因素后多因素。这估计很多人都知道,我也不多说了。反而,我要说的是,先单因素后多因素策略不是所有回归分析都要采纳的。这种理念的出现是因为小样本量而多自变量数,如果是大样本量但自变量数也不多,没有必要采用单因素后多因素,直接多因素回归分析即可。

对于小样本多自变量数的研究,我认为是主流的方法是纳入必要的自变量进入模型。必要的自变量指的是理论上是研究结局的原因变量才纳入进来。建立回归分析之前,必须认真考虑,哪些是结局可能的原因变量,哪些可能是混杂变量,哪些又可能是中介变量。不能什么都不考虑,一股脑全放进来,或者一股脑先单因素再多因素。

10. 样本量不够大,logistic回归到底结果可以被认可吗?

采用先单后多的回归法方法,应该淘汰了大量的自变量,剩下的在开展多因素回归的时候,样本量已经不多了,应该可以勉强开展logistic回归了

那么结果可以被认可吗?那就看结果吧!如果结果确实得到了我们想要的结果,又没有什么过大的OR值或者离谱的置信区间。只要都合理,那作为探索性分析的结果,还是可以拿出来说说的。不用过分担心,无论是中文还是英文论文,都有不少没有满足10 EPV甚至5EPV 还得到了认可的结果

11. 如何回复审稿人、毕业论文答辩人的拷问?
面对本文开题的质疑,“论文审稿人认为,我的文章样本量只有56,自变量有15个,做logistic回归的结果不行”。我觉得可以这么回答,1. 这是探索性研究;2.自变量进行了筛选才开展多因素回归;3.结果的OR值和置信区间较为正常 ;4. 模型的拟合优度结果显示模型建模是成功的;5.这个结果确实存在着一定不稳健性,不过指标特征结果与同类研究相比,具有一定相似性,应该还算可靠。

12. 样本量不够大,回归分析都是阴性结果怎么办?
如果单因素结果,都是阴性结果,那么真的凉菜了!如果单因素也有若干个有统计学意义,多因素一个也没有,那么当务之急,是看看究竟什么原因造成的,再挑选合适的变量开展多因素回归分析。这一过程,我之前的文章有所说明,有兴趣可以看看。


没有账号?