科研星球

如何预防医学实验(临床试验)中途样本量不够?

我想,我们现在都强调无论动物实验还是人群实验,都需要事先进行研究设计,研究设计最重要的是进行样本量的计算。


现在问题来了。我做好了样本量计算,到最后由于一些困难,比如经费紧张,比如实在招募不了这么多病人,或者病人失访太严重,或者招募病人速度太慢而我快要毕业了!!!。。。。等等,反正样本量不够。


不够怎么办?


第一,说起来,一般都是听天由命。看运气!这个也是可以的,等下和大家讲讲,怎么样测算自己的运气!


第二,投机取巧法,一个研究不设主要结局,然后把有效果的指标拿出来大讲特讲。这样的方式其实很多见,我们很多人搞临床研究,开展随机对照研究都没有实现设定哪个是主要结局,反正哪个指标是阳性就哪个作为干预措施有效的证据。


第三,统计学方法。有一些统计学方法是可以提高检验效能,也就是促进阳性结果的产生。


我们今天来看篇文章,样本量没有达到预期,那么最后结果还是阳性的,是什么原因呢?


上面三种原因,到底是哪一种呢?我们来看看


第一部分:研究论文介绍


2021年8月份,JAMA子刊刊登了一篇文章,运动对局限性前列腺癌患者疾病进展的影响。

1.png


这个研究,称之为ERASE试验,主要探讨12周高强度间歇训练是否能够改善心血管健康,延缓前列腺癌进展,研究者评估了高强度间歇训练(HIIT)对适合接受积极监测的低危至中危前列腺癌患者的影响。

这是一项2期试验,患者被随机分成两组,一组进行HIIT(每周在他人监督下运动3次,持续12周),另一组接受常规治疗。本试验允许患者在12周时跨组。由于该研究主要是探讨高强度的运动的心血管病的获益,因此主要结局是分级运动试验期间的峰值耗氧量( peak V̇o2;次要结局是前列腺特异性抗原(PSA)参数的变化。

在20个月期间,56名男性被随机分组,他们的中位年龄是63岁。HIIT组的依从率为96%。与常规治疗组相比,HIIT组的峰值耗氧量显著改善(调整均差1.6 mL/kg/min; 95% CI, 0.3-2.9; P =0 .01),并且总PSA水平降低,PSA升高速率减缓 (调整均差−1.1 μg/L; 95% CI, −2.1 to 0.0; P =0 .04);类似的结果包括PSAV,也具有统计学意义(P=0.04)。

2.png


第二部分:该研究的样本量


诸位,不妨看上述的表格,可以多个指标P值靠近0.05,有惊无险!这个和该文的样本量有很大的干系!


本文样本量是不足的。理论和实际足足差了1/3!


本文设计的样本量!

The originally planned sample size of 66 participants (33 per group) was estimated to provide 80% power using a 2-tailed α<.05 to detect a statistically significant between-group difference of 1 metabolic equivalent task (3.5 mL/kg/min) on the primary outcome of peak V̇o2, assuming an SD of 5.6 mL/kg/min, a 10% dropout rate, and an adjustment for baseline value and other prognostic covariates.


本文实际的纳入分析的样本量是52例

A total of 52 male patients were randomized to the HIIT group (n = 26) or the usual care group (n = 26) 


而由于数据缺失,最后主要和次要疗效分析的样本量只有46-49例!


第三部分:样本量不足,怎么办?


这么多的样本量缺失,造成什么结果?


我们临床研究的结果很多时候,都是听天由命,命总体还是把握在自己手里。因为我们设置了较高的把握度(Power),也就是检验效能。一般检验效能值都在80%以上。这个研究检验效能就是80%,因此按照66例的设计样本量么,有80%的可能性获得阳性结果。但是如果样本量大量缺失会怎么样?


现在样本量是46例,那么把握度是多少呢?可以通过样本量计算软件反推他的把握度!


最终结果多少呢?!接近60%的检验效能,意味着这个项目如果按照常规的t检验进行数据分析,只有60%的可能性获得阳性结果!


所以这个研究,也是听天由命,运气还真 不错呀 !


那么,这个研究有没有采用第二种方法,即投机取巧法,改了主要结局指标呢?哪到没有,否则JAMA子刊是不会让它发表的。


然后,有没有统计学方法可以帮助改善检验效能呢?有。本文的协方差分析在一定程度上可以改善检验效能,把P值将小一点。


一般的两组定量数据的比较,比如本文的o2, PSA或者PSAV,传统上都可以采用t检验来进行。


但是如果本文采用t检验,会是什么结果呢?郑老师我重新测算了下。


o2, 论文中的P值0.01,干预后o2差值的t检验P值0.031

PSA论文中的P值0.04,干预后差值的t检验P值0.216

PSAV论文中的P值0.04,干预后差值的t检验P值0.218


诸位可以看出,采用t检验的P值都比较大,甚至没有统计学意义,但是为什么论文报道是有统计学意义呢?因为采用了协方差分析!!!


Analyses of covariance were performed for the primary and secondary outcomes to determine the between-group mean differences at the postintervention period after adjusting for covariates. Covariates were selected a priori and included the baseline values of the outcome and other variables that were unbalanced between groups. 


协方差分析,是非常好的一种方法,它可以在一定程度上提高检验效能!


第四部分:小结


实验做着做着,发现样本量不够了怎么办?在唉声叹气,听天由命,或者调换主要结局指标的同时,也可以想想统计学的一些方法。


特别是做动物实验的童鞋们,协方差分析你要用起来,你们的统计分析不仅仅是方差分析和t检验!!!!!


没有账号?