如何预防医学实验（临床试验）中途样本量不够？_临床研究_实用技巧

我想，我们现在都强调无论动物实验还是人群实验，都需要事先进行研究设计，研究设计最重要的是进行样本量的计算。

现在问题来了。我做好了样本量计算，到最后由于一些困难，比如经费紧张，比如实在招募不了这么多病人，或者病人失访太严重，或者招募病人速度太慢而我快要毕业了！！！。。。。等等，反正样本量不够。

不够怎么办？

第一，说起来，一般都是听天由命。看运气！这个也是可以的，等下和大家讲讲，怎么样测算自己的运气！

第二，投机取巧法，一个研究不设主要结局，然后把有效果的指标拿出来大讲特讲。这样的方式其实很多见，我们很多人搞临床研究，开展随机对照研究都没有实现设定哪个是主要结局，反正哪个指标是阳性就哪个作为干预措施有效的证据。

第三，统计学方法。有一些统计学方法是可以提高检验效能，也就是促进阳性结果的产生。

我们今天来看篇文章，样本量没有达到预期，那么最后结果还是阳性的，是什么原因呢？

上面三种原因，到底是哪一种呢？我们来看看

第一部分：研究论文介绍

2021年8月份，JAMA子刊刊登了一篇文章，运动对局限性前列腺癌患者疾病进展的影响。

这个研究，称之为ERASE试验，主要探讨12周高强度间歇训练是否能够改善心血管健康，延缓前列腺癌进展，研究者评估了高强度间歇训练（HIIT）对适合接受积极监测的低危至中危前列腺癌患者的影响。

这是一项2期试验，患者被随机分成两组，一组进行HIIT（每周在他人监督下运动3次，持续12周），另一组接受常规治疗。本试验允许患者在12周时跨组。由于该研究主要是探讨高强度的运动的心血管病的获益，因此主要结局是分级运动试验期间的峰值耗氧量（ peak V̇o₂）；次要结局是前列腺特异性抗原（PSA）参数的变化。

在20个月期间，56名男性被随机分组，他们的中位年龄是63岁。HIIT组的依从率为96%。与常规治疗组相比，HIIT组的峰值耗氧量显著改善（调整均差1.6 mL/kg/min; 95% CI, 0.3-2.9; P =0 .01），并且总PSA水平降低，PSA升高速率减缓（调整均差−1.1 μg/L; 95% CI, −2.1 to 0.0; P =0 .04)；类似的结果包括PSAV,也具有统计学意义（P=0.04）。

第二部分：该研究的样本量

诸位，不妨看上述的表格，可以多个指标P值靠近0.05，有惊无险！这个和该文的样本量有很大的干系！

本文样本量是不足的。理论和实际足足差了1/3！

本文设计的样本量！

The originally planned sample size of 66 participants (33 per group) was estimated to provide 80% power using a 2-tailed α<.05 to detect a statistically significant between-group difference of 1 metabolic equivalent task (3.5 mL/kg/min) on the primary outcome of peak V̇o₂, assuming an SD of 5.6 mL/kg/min, a 10% dropout rate, and an adjustment for baseline value and other prognostic covariates.

本文实际的纳入分析的样本量是52例

A total of 52 male patients were randomized to the HIIT group (n = 26) or the usual care group (n = 26)

而由于数据缺失，最后主要和次要疗效分析的样本量只有46-49例！

第三部分：样本量不足，怎么办？

这么多的样本量缺失，造成什么结果？

我们临床研究的结果很多时候，都是听天由命，命总体还是把握在自己手里。因为我们设置了较高的把握度（Power），也就是检验效能。一般检验效能值都在80%以上。这个研究检验效能就是80%，因此按照66例的设计样本量么，有80%的可能性获得阳性结果。但是如果样本量大量缺失会怎么样？

现在样本量是46例，那么把握度是多少呢？可以通过样本量计算软件反推他的把握度！

最终结果多少呢？！接近60%的检验效能，意味着这个项目如果按照常规的t检验进行数据分析，只有60%的可能性获得阳性结果！

所以这个研究，也是听天由命，运气还真不错呀！

那么，这个研究有没有采用第二种方法，即投机取巧法，改了主要结局指标呢？哪到没有，否则JAMA子刊是不会让它发表的。

然后，有没有统计学方法可以帮助改善检验效能呢？有。本文的协方差分析在一定程度上可以改善检验效能，把P值将小一点。

一般的两组定量数据的比较，比如本文的V̇o₂, PSA或者PSAV，传统上都可以采用t检验来进行。

但是如果本文采用t检验，会是什么结果呢？郑老师我重新测算了下。

V̇o₂, 论文中的P值0.01，干预后V̇o₂差值的t检验P值0.031

PSA论文中的P值0.04，干预后差值的t检验P值0.216

PSAV论文中的P值0.04，干预后差值的t检验P值0.218

诸位可以看出，采用t检验的P值都比较大，甚至没有统计学意义，但是为什么论文报道是有统计学意义呢？因为采用了协方差分析！！！

Analyses of covariance were performed for the primary and secondary outcomes to determine the between-group mean differences at the postintervention period after adjusting for covariates. Covariates were selected a priori and included the baseline values of the outcome and other variables that were unbalanced between groups.

协方差分析，是非常好的一种方法，它可以在一定程度上提高检验效能！

第四部分：小结

实验做着做着，发现样本量不够了怎么办？在唉声叹气，听天由命，或者调换主要结局指标的同时，也可以想想统计学的一些方法。

特别是做动物实验的童鞋们，协方差分析你要用起来，你们的统计分析不仅仅是方差分析和t检验！！！！！

科研星球

如何预防医学实验（临床试验）中途样本量不够？

标签