我们该如何描述随机分组？_统计与绘图_实用技巧

在临床研究中，混杂因素(confounders)的控制是至关重要的一步。在条件允许的情况下，随机分配则是首选的方法。

关于随机分配方法的优势，我们曾多次介绍。简单来说，其过程不受任何“人为”因素影响，而仅仅基于“Chance”，因此能够使基线时潜在混杂因素在各个组之间相似，真正实现各组间均衡、可比。相比通过分层分析、回归、标准化等统计学方法控制混杂因素，通过随机分组控制混杂因素更加简单、有效。

作为RCT最重要的步骤之一，若随机分组过程失败，便可能会产生RCT中最大的偏倚。无论是随机化过程失败、或是分配隐藏失败，都可能有意或无意地选择特定类型的受试者接受某种特定的治疗，而使治疗结果的比较发生偏差，导致选择偏倚(selection bias)的产生。

在对一篇RCT文章进行质量评价时，人们通常会通过文章中“随机分组”过程的描述来判断是否存在偏倚。然而，Sally Hopewell等人的研究发现，仅有34%的研究恰当地描述了随机分配序列的产生方法。在中文文献中，这种情况更为普遍。

即使随机分组过程非常完美，但是你没有在文章中写出来，读者还是会认为你可能存在种种缺陷。

我们该如何描述随机分组？

——CONSORT的要求

在CONSORT声明(2010)中，其对于随机对照试验中的“随机化”的报告要求如下：

对于随机分配序列的产生，只要合理实施，很多序列的生成方法都满足“随机”的要求，例如我们曾讲过的简单随机化和限制性随机化（包括区组随机化、分层随机化、适应性随机化等）。我们应提供充足的信息，让读者能够评价生成随机分配序列的方法、以及分组过程中产生偏倚的可能性。

对于这一部分CONSORT要求如下：

1. 明确写出序列生成的方法，如随机数字表或计算机随机数字生成程序等；

2. 明确写出是否使用了限制性随机化

可以直接表明没有使用限制性方法（直接说明使用了“简单随机化”），否则应该指出使用了限制性随机化，并说明使用了哪一种限制方法。

如果使用了区组随机化，应写出如何产生区组（例如，计算机随机数字生成程序）、区组大小、是固定区组大小还是随机改变的、试验人员是否知道区组大小。

如果使用了分层随机化，应该说明按照什么分层（例如，招募地点、性别、疾病阶段）、分层的截断值(cut-off)、限制的方法。如果使用了其他方法，也应尽可能详细得说明所使用的方法。

文献中的描述是什么样子的？

——举几个不太规范的例子

在很多中文文献中，很多文章对于随机分组的描述并不全面、准确，甚至有的文章认为只要分组后两组可比（没有显著差异）就可以了。我们一起来看几个例子。

【原文1】选取××市××医院2015年3月至2016年2月收治的2型且伴肥胖的糖尿病患者64例为研究对象，随机分为对照组和试验组，各32例。两组患者一般资料比较，差异无统计学意义（P>0.05），具有可比性。（《中医中药》2016年发表）

【原文2】病例概况：本试验随机选择住院病人125例，包括肝病16，手术病人67例，非手术病人42例。其中试验组65例，男47，女18例；对照组60例，男40例，女20例。试验组与对照组在年龄、性别及体重等差异无显著性。（《现代医药卫生》2003年发表）

【原文3】招募贫血的育龄妇女74名，年龄21-45岁，按血红蛋白随机分成干预组和对照组，每日分别口服一包铁营养包(主要成分为焦磷酸铁和富马酸亚铁，含铁元素8mg)和安慰剂，连续服用6个月观察效果（摘要）。

2009年2月到2010年3月间通过海报及医院体检中心招募到来自于医院、研究所、学校等单位的符合标准的育龄妇女74名(21-45岁，平均34岁)，随机分成干预组和对照组，两组Hb、年龄等无统计学差异（正文）。（《卫生研究》2012年发表）

分析：

原文1对于随机化的描述仅仅用“随机”两个字。

原文2的文章标题明确了该研究为“随机盲法平行对照”，但是原文中仅仅说明研究对象是随机选择的，但是却并未提及是否进行了随机分组。

原文3摘要部分表明研究对象是按照“血红蛋白”随机分为了两组，可能是根据血红蛋白含量的高低采用了随机区组的方法；但是正文中却描述为随机分为干预组和对照组，是简单随机的方法，显然摘要和正文的描述并不一致，由于原文缺乏详细的介绍，因此难以判断究竟是如何进行的“随机”。

3篇文章均没有对随机分组的过程及方法进行必要的介绍，是不合理的，容易让读者怀疑是否真的做到了随机。

实施随机的目的是为了减少任何选择性分组可能引起的选择偏倚或混杂偏倚，从而实现组间的可比。虽然作者都在原文中写明“不同组之间的一般资料无差异”，证明不同组之间具有可比性（按照CONSORT标准，这部分内容也不应该放在这一部分，而应该放在结果的部分，并且不应进行显著性检验。之后的文章中我们也会讲到这个问题）。

但并不代表组间具有可比性可以取代随机过程，因为作者仅仅是对年龄、性别等资料进行了组间比较，并不能对其他所有可能影响结局的因素都进行比较。特别是原文2，研究对象年龄跨度大，且包含了13类接受不同手术的患者，这是否会影响到患者接受何种治疗方法？是否真的做到了随机分组？这些是值得考虑的。

怎样的文章描述符合要求？

——看一些优秀的例子

【原文4】The participants were randomly assigned to use either the contraceptive ring or patch for four continuous cycles beginning with the next menses. Research staff at the study site opened the next sequentially numbered opaque envelope that contained the product assignment. An individual unassociated with the clinical portion of the study prepared the envelopes. Randomization sequence was created using Stata 9.0 (StataCorp., College Station, TX) statistical software and was stratified by center with a 1:1 allocation using random block sizes of 2, 4, and 6.

分析：这篇文章使用了区组随机化，区组的产生使用了Stata软件，区组大小分别为2、4、6，是随机改变的。

【原文5】Patients were assigned to undergo stenting or endarterectomy in a 1:1 ratio. Randomisation was computer generated centrally by the Oxford Clinical Trials Service Unit, Oxford, UK, and allocations were obtained by telephone or fax from staﬀ who were not involved in other parts of the trial. Randomisation was stratiﬁed by centre with minimisation for sex, age, side of stenosis, and occlusion of the contralateral carotid artery. Patients and investigators were not masked to treatment assignment.

分析：这篇文章使用了分层随机化（写明了根据中心分层“stratiﬁed by centre”）以及最小化法（写明了控制了变量“sex, age, side of stenosis, occlusion of the contralateral carotid artery”）。

参考文献

1. BMJ. 2010;340:c723.

2. 陕西医药杂志. 2014;43(20):2482-3.

3. PLoS One. 2017;12(1):e0168757.

4. Obstet Gynecol. 2008;111(2 pt 1):267-77.