随机对照试验设计的原理_临床研究_实用技巧

随机对照试验之所以区别于其他流行病学研究方法，在于它特有的控制偏倚的措施。下面将逐一讨论每种措施的原理、原则和方法。

一、对照的原理

（一）影响疾病转归的因素

长期以来，病人接受治疗后病情的好转一直被视为显示治疗有效的最直接最有力的证据。然而，大量研究发现，受治病人病情的好转不等于治疗一定有效，它可能完全是治疗特异作用以外的非特异因素导致的，即与治疗无任何关系，因为没有接受任何治疗的病人也有可能好转甚至痊愈。除治疗的特异作用外，影响治疗后疾病转归的因素有很多，主要包括疾病自然转归的作用（受年龄、性别和病情等因素的影响）、回归中位作用、治疗的非特异性的安慰作用（见图3）。

图3 影响受治病人病情变化的因素

1. 疾病自然转归的作用

影响疾病转归（prognosis of disease）的一个重要因素是疾病发生、发展和转归的自然趋势，又称疾病的自然史（natural history of disease），它与致病因素、病人个体状况以及周围环境等有密切关系，有相当一部分患者在与疾病的斗争中会自然好转和痊愈。例如急性丙型肝炎患者中约30%病情会自发好转，80%的急性腰痛患者在三个月内症状会明显减轻。再以感冒为例，即使没有任何治疗，大部分病人会在两周左右痊愈，如果某新药能使90%的感冒病人在两周内痊愈，并不能说明此药在缩短病程上具有任何价值。

2. 回归均数作用

回归中位（regression to the mean）作用十分常见，体内任何随时间波动的指标如血压、体温、血糖、血清胆固醇等都受到它的影响。比如，一个人的长期平均或真实血压并不高，如果测量的那一刻他的血压刚好处于较高的水平，被误诊为高血压，这样的“高血压”病人，即使不接受任何治疗，几个月后再测量时，血压会倾向于“回归”到平时的正常水平，表现出血压降低的假象，这种现象就是回归中位作用的结果（见图4），这主要由测量指标本身的自然变化以及测量的随机误差引起。例如，在初次筛查血清胆固醇含量后，回归中位作用可以解释17个月后胆固醇下降的50%。

图4 一个人的舒张压随时间

围绕其中位血压波动的情况

3. 治疗的非特异性安慰剂作用

很多干预措施对病情都有一种非特异的安慰作用（placebo effect），安慰作用的产生与很多因素有关，比如病人和医生对治疗的信心和期望、医生在治疗过程中的态度、治疗环境、疾病特征等。安慰作用一般来说主要有改善病情的良性作用，但在某些情况下，比如患者对治疗持怀疑和悲观态度时，也会对疾病预后产生不良影响。安慰作用与治疗的实质无关，是无特异治疗作用的“假”治疗或安慰治疗。比如，由淀粉制作的在大小、形状、颜色甚至味道等方面都与真实药片相同的安慰剂，会产生与真实治疗同样大小的安慰作用。

安慰作用的大小因情况不同变化很大，有时其作用的显著程度令人吃惊。例如，在接受假的磨牙治疗后，64%的面肌功能失调性病人疼痛会完全或几乎完全缓解；腰背痛的病人在接受假的电刺激仪治疗后，疼痛程度、频率以及功能评分均可改善20%～40%。安慰作用主要发生在主观性比较强的结局上，如疼痛、眩晕、失眠、瘙痒、乏力等，对多数客观测量指标影响较小，如影像和病理等器质性结局。

（二）对照组的必要性

由此可见，治疗的特异作用、非特异安慰作用、疾病自然转归作用以及回归中位作用，交织在一起，共同影响疾病的转归。在一组受治病人中，无法将这些因素的作用彼此区分开。为了确定治疗特异作用的存在和大小，只有通过对照的方法，设立相对于治疗组的无治疗对照组，使两组非特异作用大小相当，相互抵消，那么组间临床结局之差才能真实反映治疗特异作用的大小（见图5）。对照是准确测量治疗作用大小的基础。

图5 治疗组和安慰对照组的差别

反映治疗特异作用的大小

（三）对照的含义和要求

随机对照试验中的对照（control）可有两层含义：一是指施加于不同比较群组的干预措施间的对比或比较；二是为此目的而形成的可比的比较群组，即对照组。可比的对照组是比较的基础，是所有临床试验都必须遵循的科学原则，而不同组干预措施的对比则完全取决于具体的研究目的，因研究目的不同而不同。

通常情况下，试验会用一种干预措施（也可以是安慰治疗或无治疗）作为比较的标准或参照，接受该措施的研究对象则被称为对照组。理想的对照群组必须与干预组完全可比，也就是说除评估的干预措施外，在研究的自始至终，所有可能影响有关临床结局或疾病转归的因素在各比较组间可比或没有差别，从而在各组都不施加干预措施时，组间临床结局不存在差别。只有这样，在组间施加不同干预时，组间临床结局的差别才能归因于不同干预措施效果的差别。

二、随机分组的原理和方法

（一）随机分组的原理

影响转归的因素在组间可比是准确估计和比较干预效果大小的前提。要获得组间的可比性，分组的程序必须与任何已知和未知的可能影响病人转归的因素无关，这种分组方式就是常说的随机分组。随机分组是在人群研究中获得组间可比性最可靠的方法，是随机对照试验重要的科学基础之一。

随机分组（random allocation或 randomization）意味着所有的受试者具有相同的（或一定的）概率被分配到试验组或对照组，分组不受研究者、治疗者和受试者好恶的影响。随机分组可以用抽签、掷硬币、抛骰子等方法，更科学、更可靠的是使用随机数字（random number）进行分组。

尽管随机分组看上去非常简单，还是经常会有误解和误用。比如，按照出生日期、病案号码或受试者参与试验的时间的单双数，交替将病人分配到不同研究组的方法，它们经常被用作随机分组的方法，但是都无法使受试者有相同的机会进入不同的研究组。因此，这些方法不是严格意义上的随机分组，属于假随机分组（pseudo-randomization）或类随机分组（quasi-randomization）。

（二）简单随机分组举例

假如我们要把20个病人随机分为A、B两组，并希望两组各得10人（因为两组人数相等时统计效率更高）。具体的做法是，按照病人的入选顺序（序号见表1），利用随机数字，参照以下步骤进行：

1. 取得与需分配的病人数相等的随机数字

随机数字可以从有关书籍中得到，也可以用计算器和计算机程序获得，尤其是采用复杂的随机分组方法时，计算机有其独特的优点。假如我们通过计算机获得了以下20个随机数字，它们依次是 61、28、98、94、61、47、03、10、67、80、84、41、26、88、84、59、69、14、77、32。随机分组需按照这个顺序使用这些数字。

2. 将随机数字分组

将这20个随机数字分成两组的方式有很多种，最简单的方法是将奇数分入A组，偶数分入B组，本例将采用这种方法，A组给以评估的治疗，B组给以安慰剂对照。当然，也可将尾数为0～4的随机数字分到A组，尾数为5～9的数字分到B组；也可将尾数为0、1、4、5、8的随机数字分到A组，尾数为2、3、6、7、9的数字分到B组。

3. 将随机数字分配给病人并决定每个病人的治疗方案

将随机数字分配给每个病人时，必须按照预先制定好的随机数字的排列顺序，依次分给病人，然后按照随机数字对应的治疗方案，将病人分组，随机数字分配的过程至此完成。表1的最下两行是分组的结果，比如，编号为1号的60岁的满族女性病人，随机数字为61，分到A组，将接受评估的治疗。又如，编号11号的58岁的汉族男性病人，随机数字为84，分到B组，将接受安慰剂治疗。

表1 20例病人的随机分组情况

（三）随机分组可以获得比较组间所有转归因素的可比

随机分组的主要目的是获得所有可能影响转归的因素在比较组间的可比性（comparability）。随机分组完全独立于任何疾病转归因素，也不受任何人为因素的影响，因此随机分组能够真正实现比较组的可比，从而减少了任何其他选择性或随意分组可能引起的偏倚。由于这类偏倚是由于不恰当的选择性分组造成的，往往称作选择偏倚。从另一个角度看，这个偏倚是由于组间的不可比造成的，更确切地应该叫做混杂偏倚。

在观察性流行病学研究中，如队列研究，比较组间暴露的不同往往是研究对象人为选择的结果。比如，吸烟与否是一个人为的选择，男性更容易有吸烟的习惯，因此在研究吸烟与肺癌的关系时，必须采取一系列复杂的措施，控制除吸烟外其他可能影响癌症发病的因素在吸烟者和不吸烟者之间的不同造成的混杂，这些因素如年龄、性别、职业等。控制混杂首先需要知道可能的混杂因素有哪些，然后通过特殊的研究设计方法（如配对和限制），来控制部分混杂因素，更切实有效的方法是收集混杂因素的资料，在分析资料时通过统计分析进行调整。由于预先知道和收集所有可能的混杂因素是不可能的，因此即使设计和分析都很严谨的观察性研究，也不能使所有的混杂因素都完全得到控制。

在比较不同治疗措施效果的干预研究中，由于研究对象还没有接受所比较的治疗，干预需由研究者施加，研究者有可能通过一定的分组方法，使比较组可比，避免观察性研究中由于选择性暴露引起的混杂。随机分组正是利用了干预研究的这个特征所采取的控制混杂的有效措施。

随机分组的一个重要特点是简单有效，它根本不需要知道可能影响转归的因素有多少、是什么，更不需要收集相关资料和进行统计调整。由于随机分组对疾病转归因素的平衡是无选择性的，因此可以无选择地平衡比较组间所有已知和未知的因素，这样获得的比较组在所有已知和未知的因素方面都是可比的。因此，不同于队列研究，随机分组获得的组间可比性是完美无缺的，因而对混杂的控制是全面、彻底的。

（四）分组隐匿的原理和必要性

上述随机分组方法存在着一个致命的缺陷。当审核病人入选条件的研究人员知道下一个（随机数字所对应的）病人治疗方案时，研究者可能会根据下一个病人的特征和自己对不同治疗方案的好恶，人为地决定入选或排除该病人；病人也会因此人为地决定是否参与研究。这样的分组会受疾病转归因素的直接影响，与非随机的分组方式无异，甚至更糟糕，不能实现随机分组的根本目的，无法起到控制选择偏倚的作用。

为了防止征募病人的研究人员和病人在分组前知道随机分组的方案，一种防止随机分组方案提前解密的方法叫随机分组治疗方案的隐匿，或简称分组隐匿（allocation concealment），采用分组隐匿的随机分组叫隐匿随机分组（concealed random allocation）。没有分组隐匿的随机分组，是有缺陷的，不能起到预防选择偏倚的作用。研究表明，与采用隐匿分组的随机临床试验比较，没有采用隐匿分组的随机对照试验会高估疗效达40%。

随机分组联合分组隐匿，才是真正意义上的随机分组，否则，随机分组将和随意分组没有任何区别。分组隐匿不同于盲法，前者在分组完成时结束，后者则在分组完成时开始。盲法不能用于所有的随机对照试验，如比较外科手术与药物治疗的临床试验，但是任何随机对照试验都必须使用分组隐匿。当然，在使用安慰剂对照的随机对照试验里，分组隐匿和盲法将成为不可分割的两个环节。

因此，进行随机分组时，必需特别注意以下四个原则：(1)随机数字的分配必需在确定纳入一个病人以后才能进行；(2)随机分配方案必需隐匿；(3)一个病人随机数字的分配必需一次完成，一旦确定绝对不能更换；(4)一个病人的分组时间应尽可能接近其治疗开始的时间。

（五）小样本时随机分组可能出现的问题

根据表1可以计算出上述简单随机分组的例子中随机分组后两组的人数和可比性。从表2可以看出，出乎意料的是，A组有11人，B组只有9人，两组人数不但不等，更重要的是，A组22%为男性，而B组45%为男性，两组差别很大，平均年龄和民族构成在两组也不一致，没有实现随机分组欲达到组间可比和人数相等的初衷。其实这样的结果并不令人惊讶，完全是由于样本量太小所致，当样本量足够大时，这两个问题会同时迎刃而解。例如，一项比较不同药物治疗心肌梗塞效果的6,010人的大规模随机对照试验，随机分组后，两组在人数、年龄、性别、体重、心肌梗塞史、吸烟史和平均收缩压等方面几乎完全一样（表3）。

表2 一项20人随机分组的例子中

随机分组后两组的比较

0 (2).jpg

表3 一项6,010人的临床试验

随机分组后对照组和实验组的比较

以上例子说明了随机对照试验中一个往往被忽略的重要特征：样本量不但与研究的把握度（power）有关，同时也是保证组间可比的重要因素，只有当样本量足够大时，随机分组才能真正有效地起到控制组间不可比所引起的混杂作用。

随机分组具有以下几个特点：

(1) 分到哪一组完全由随机数字决定；

(2) 分组隐匿是随机分组不可缺少的组成部分；

(3) 每个病人在分组前有同等或特定的机会被分配到任何一组；

(4) 随机分组可无选择地平衡所有可能的混杂因子；

(5) 样本越大，组间可比性越好；

(6) 无需知道混杂因素，无需收集混杂因素的资料，无需做统计调整控制混杂。

（六）复杂的随机分组方法

当样本量比较小时，简单随机分组可能不能有效地保证组间可比和组间人数相当，但是小样本的临床试验又经常需要，这时可以考虑采用更复杂的随机分组方法。这类分组方法大致可以分为两类，一类是保证组间人数相等或相当的分组方法，如固定终末比例随机分组（random allocation rule）、重抽式随机分组（replacement randomization）、区组随机分组（blocked randomization）、固定偏比例随机分组（biased coin randomization）和变动偏比例随机分组（urn randomization）。另一类是保证已知影响疾病转归因素组间可比的方法，如分层区组分组法（random permuted blocks within strata）和最小差异法（minimization）。关于复杂随机分组方法的原理和方法，请参考有关临床试验的专著。

（七）应该避免的非随机分组方法

非随机分组不能达到比较组间的可比性，在临床试验中应尽量避免。比如，研究者按照病人的病情，将重型病人分到A药组，将轻型病人分到B药组，即使两个药物的疗效无任何区别，也会得出B药优于A药的错误结论。明显的非随机分组的方法还包括按性别、年龄、有无合并症、付款能力和病人意愿等分组方式。

还有一类貌似合理的分组方法，常见的有按照病人的出生日期、就诊时间、住院日期、住院编号和婴儿出生时间等交叉分组。这些似乎和病人未来转归无关的事件，却可能存在着某种关联。比如研究发现，夜间、周末和假期出生的婴儿围产期死亡危险高于其他时间出生的婴儿。又如，在工作日和夜间就诊病人的病情一般比周末和白天就诊的病人更重一些。另外，根据病人特征决定分组，医生和病人都会预先知道下一个病人将会接受的干预，从而引入人为因素对分组的干扰（见分组隐匿部分），造成比较组之间事实上的不可比。广义地讲，当影响疾病转归的因素可能影响或决定分组的结果时，都不可能真正保证组间的可比性。

三、盲法和安慰剂对照的原理

随机分组只保证了研究开始时组间的可比性，研究过程中可能会发生一些事件，如退出、失访和组间治疗替换等，这些事件的发生往往不是随机的，可能与治疗组别有关，从而会破坏组间的可比性，当这些事件同时又与临床结局相关时，偏倚便会产生。

例如，病人可能会不满自己被分配到无治疗组，从别处寻求额外的治疗，或者完全退出研究；病人也可能会因为治疗组明显的副作用或安慰剂组病情无改善而退出研究；医生可能会因为同情安慰剂组的病人，给予他们更多精神上的关怀，从而在该组引入更多的安慰作用；资料收集者可能会因为知道治疗的分组情况，有意无意地对治疗组病人的询问和检查做得更仔细，甚至有意地引入测量上的误差。

盲法（blinding或masking）会在一定程度上帮助降低这些事件在组间发生的不均衡性，从而维持组间可比。盲法是一种蒙蔽治疗分组的措施，就是在治疗和追踪随访期间，保密每一个研究对象的治疗分组，使参与研究的人员（包括研究对象、医生、资料收集人员和统计分析人员）不知道分组情况。使用盲法时需注意以下几个方面：（1）盲法在使用主观结局（如疼痛）时尤其重要，应尽可能使用；（2）应尽可能“蒙蔽”所有参与研究的人员；（3）与无治疗比较时，需使用安慰剂对照；（4）比较两种不同药物时也应该使用盲法；（5）即使是不完美的盲法，也应尽可能使用，如安慰针灸；（6）当蒙蔽医生和病人不可行时，如比较外科和药物治疗，应尽可能对数据收集者采取盲法。

安慰剂对照特指给予对照组的无效的安慰治疗。安慰治疗除不具有特异治疗作用之外，其他各方面都应尽可能与治疗一致。比如，安慰剂药片，在大小、形状、颜色甚至味道等方面都与真实药片相同，但可能是由无任何治疗作用的淀粉制作的。安慰剂一方面可以达到蒙蔽试验参与人员，实现盲法；另一方面可以产生安慰作用，在估计疗效时，排除治疗的安慰作用。研究表明，无双盲的试验有可能夸大17%的疗效。虽然安慰对照试验有其特殊的用途，由于伦理的原因，安慰对照试验正逐渐减少，并由采用现行有效治疗措施作为对照的临床试验所替代。

四、提高依从性和随访率的重要性

依从性（compliance）指研究对象按照研究目的对治疗的要求实际进行治疗的程度。依从性是实现治疗效果的前提，病人没有吃药，就无法从治疗中获益，研究就无法显示治疗的效果。依从性降低通常会造成低估治疗的真实效果。在评估药物效果的试验中依从性的高低十分重要。可以试想，当依从性为零时，即治疗组和无治疗组在治疗上的差别将等于零，两组在疾病转归方面的差别将也会等于零，显示药物无效。更糟糕的情况是，治疗组病人都放弃了治疗，而安慰剂组病人都接受了其他有效的治疗，导致安慰剂比治疗更好的错误结论。

病人失访会造成研究对象转归资料的缺失。失访（loss to follow-up）首先会造成样本量的流失，降低研究的统计把握度。失访的原因多种多样，研究对象可能移居它地，可能不愿继续参与研究，可能在资料收集前已经去世，或由于其他任何原因而失去了联系，造成这些病人结局资料的缺乏。其实，丢失已经收集到的资料的后果与失访无异，区别在于与研究对象没有完全失去联系，丢失的资料有机会补上。这一点应特别引起注意。任何有结局资料的研究对象都不属于失访，任何结局资料缺失的病人都属于失访。

有些病人自始至终根本没有接受治疗（不依从的一种），在估计疗效时剔除这些病人似乎是合理的。失访对象由于缺乏结局资料，分析资料时人们可能觉得不得不剔除这些研究对象。然而，由于不依从和失访事件不可能是随机发生的，剔除这些研究对象势必造成各组余下病人的不可比，从而破坏了随机对照试验最重要的组间可比性原则。如果这些事件与转归有关，就形成了典型的混杂条件，从而造成效果估计的偏倚。解决这些问题的根本方法是做好病人的筛选、依从和随访工作，最大限度地降低这些事件发生的机会。

五、维持原随机分组分析的原理

然而，无论研究者尽多大努力，失访和不依从等事件仍会发生，如果这些事件发生的比例不大，可以在统计分析时采用维持原随机分组分析（intention to treat analysis, ITT）的方法，以减少这些事件导致的组间不可比而引起的偏倚。在进行维持原随机分组分析时，应遵循以下三个原则：(1) 不能剔除任何随机分组分配的病人；(2) 不能更换任何随机分配的病人的组别；(3) 结局资料缺失时，尤其是使用安慰剂对照时，应做该病人治疗失败的假设。

维持原随机分组分析又叫意向分析，即随机分配所决定的治疗意向其主要目的是，保持随机分组获得的组间可比性。由于上述第三个分析原则，维持原随机分组分析一般会低估治疗的效果。一般来讲，与高估的效果相比，低估的效果更利于医学决策。当效果低估时，实际效果一定更大，干预措施是否可取尚可考量。然而，当效果高估时，实际效果一定比观察的小，或者根本无效，甚至有害，这时，等于对疗效没有确定的把握，将很难决策。当ITT分析展示治疗无效时，也可剔除不依从和失访的病人进行分析，这种分析可以看成是ITT分析的补充，试图检查治疗在依从性高时是否可能有效，但其结果不能排除偏倚的可能性，往往需要未来试验的验证。

原文出处：唐金陵江宇. 主编推荐阅读章：随机对照试验. 见：李立明主编. 流行病学. 第6版. 北京：人民卫生出版社，2007：128-163. （文字略有改动）

作者：

唐金陵，广州市妇女儿童医疗中心临床研究总监、香港中文大学荣休教授

江宇，北京协和医学院公共卫生学院副院长、流行病与卫生统计学教授

科研星球

随机对照试验设计的原理

标签