总结：临床研究常见统计方法与统计问题_统计与绘图_实用技巧

本文非常系统、高度地凝练总结了临床研究的统计学方法，并对常见的统计问题进行了解释。文章有点长，但值得学习！看不懂就收藏并手动分享吧，也许有一天你会用得着！

开展临床研究时，一般不会直接选择目标人群的总体进行研究，而是先根据合适的样本量计算公式计算出足够的样本量，再采用合适的随机抽样方法进行抽样调查，最后应用统计学原理和方法进行从样本到总体的假设检验和统计推断。生物统计学则贯穿于临床研究的整个阶段：试验设计（样本量确定和随机分组）、数据管理、统计分析计划制定、试验数据处理和统计分析报告。统计分析报告不仅用于科学论文的撰写，而且还是取得新药或器械等注册申请的法规材料。只有进行科学合理的统计分析，才能根据临床研究得出正确可靠的结论。为规范我国临床研究的统计，2005年国家食品药品监督管理总局颁布了《化学药物和生物制品临床试验的生物统计学技术指导原则》[1]，对生物统计学在临床试验的各个阶段提出初步要求；2016年颁发了《药物临床试验的生物统计学指导原则》[2]，进一步细化和加强生物统计的内容和职责。由此可见，生物统计学在临床研究中起着不可或缺的核心作用和地位。本刊今年1~10期已对临床研究相关的方针政策、理论知识和实践工具等进行了介绍[3-12]，本文主要总结临床研究中常用的统计学方法，并对探讨临床研究中常见的统计问题。

1. 临床研究统计中的常用统计方法

1.1 描述统计方法

描述统计一般在统计分析报告中首先进行汇报，且不可缺少。逐一对临床研究和样本人群的特征对应的单变量进行概括描述，但不对总体特征进行推断。在随机对照试验等涉及多组试验中可作为基线特征可比性的参考。正确使用描述统计的前提是必须了解临床研究中数据类型。对于定性变量（包括二分类变量、顺序变量和名义变量），一般采用频数和百分比描述，其中等级资料可采用中位数和四分位间距进行描述[13]。对于定量资料，先进行正态性检验，如果变量近似正态分布一般采用均数和标准差，偏态分布需采用中位数和四分位间距[14]。均值和标准差对离群值的比较敏感[15]，在临床试验的统计汇报中，对主要结局指标通常会采用多种形式进行综合描述：均值、标准差、中位数、最小值和最大值或范围、变异系数。对于包含时间的生存资料，对于小样本或大样本未分组的生存资料常采用Kaplan-Meier法，而对例数较多的分组资料采用寿命表法，对生存时间进行中位数及上下四分位间距的统计描述，同时绘制生存曲线直观反映生存情况。

1.2 推断统计方法

1.2.1一元定性资料的差异性检验

单组设计的定性资料常用于样本率的参数与总体的已知率之间差异性检验。例如对于有些无法设计对照组的临床试验，采用单组设计的目标值法进行统计分析，常见于医疗器械临床试验[16]。资料整理构成一维列表，基于数据的二项分布原理和总体进行比较，大样本（n＞30）时按近似正态分布基于Z分布进行计算，小样本（n＜30）时采用ClopperPearson精确法或Blyth-Still的二项式比例计算。在优效、等效和非劣的实验设计中，单个样本的二项比例的可信区间的计算直接关系到结果，需要正确选择方法[17]。成组设计的定性资料中若响应变量是二分类，则构成常见的四格表。在横断面研究中根据不同的条件选择卡方检验或Fisher精确检验，评价组间构成比的差异。在病例-对照研究和队列研究的四格表可用于计算OR和RR及其可信区间，同时采用Mantel-Haenszel卡方对OR和RR进行统计检验。在临床试验中，常用于安全性指标（不良事件是否发生）发生率的组间评价，样本例数较少时，直接指定Fisher精确检验。若响应变量是多值有序变量，可采用Wilcoxo秩和检验（两组）和Kruskal-Wallis检验（两组以上）。若行和列的属性构成配对结构时，可用McNemar检验或Kappa检验对一致性分布进行定性和定量的检验。若分组变量为有序多分类，而响应变量为二分类时，除了可用卡方检验外，还可使用Cochran-Armitage趋势检验来检验率和有序多分类变量之间是否存在线性趋势。

1.2.2一元定量资料的差异性检验

单组设计的定量资料和单组设计的定性资料的应用范围类似，但样本估计的参数是均值或中位数，根据正态性检验的结果选择统计方法。符合正态分布时，采用单样本t检验，均值的可信区间基于正态分布计算。不满足正态分布时，采用符号秩检验，中位数的可信区间基于非参数方法计算[18]。

对于成组设计的定量资料，若两组定量资料是配对关系，则计算差值后采用单组设计的统计方法。若组间的资料独立，则需根据各组的正态分布检验和方差齐性检验选择独立样本的t检验和Wilcoxon秩和检验（两组），或方差分析和Kruskal-Wallis检验（两组以上）。对于两组以上的检验，如果差异有统计学意义，可能需要根据研究设计选择合适的方法进行事后的两两比较分析。呈现结果时，需要呈现差异值（均值或中位数）及其95%可信区间。t检验和方差分析可根据t分布或正态分布进行可信区间的估计。而非参数检验不基于概率分布，差值中位数的可信区间估计需采用Hodges-Lehmann估计或bootstrap估计。

1.2.3相关分析和回归分析

相关分析常用于衡量两个变量之间的线性关系的强度和方向。如果满足正态分布条件，可采用Pearson相关分析，否则采用Spearman非参数相关分析。对于数据中出现的离群值，Spearman相关分析的结果更稳健。相关分析的结果描述的是两个变量的相关关系，没有时间顺序，不能用于因果推断。值得注意的是，对于两个连续变量的一致性评价，不能采用相关分析，而应采用Bland-Altman分析法[19]。回归分析在生物统计中占有非常重要的作用，可用于探究一个因变量与一个或多个自变量的关系，通过拟合的回归系数直观的定量解释因变量随着自变量变化的变化，从而评价自变量对因变量的独立作用。在临床研究中回归分析主要用于影响因素的研究和预测模型的建立，在前瞻性研究设计中甚至可用于自变量和因变量之间因果关系推断。根据自变量与因变量之间的关系可分为线性回归和曲线回归，根据连接函数的不同，可将线性回归进一步分为一般线性回归和广义线性回归。在临床研究中常用的回归分析是多重线性回归（连续型变量）、Logistic回归（二值变量、多值有序变量和多值名义变量，二项分布）、Poisson回归（计数型变量，Poisson分布）、负二项回归（计数型变量，负二项分布）和COX模型回归（生存资料），在实际应用中根据不同的结局指标类型选择合适的回归模型。此外，一些基础统计方法和回归分析之间可相互转化，例如卡方分析和t检验仅能定性评价组间差异，回归分析对自变量的统计检验和回归系数拟合能定性定量的评价组间差异，回归分析能提供更多的信息，所以在复杂的模型中推荐使用回归分析。在临床研究中对主要连续指标会在实验开始前测量，称为基线值；在研究干预效果时，基线作为特殊的协变量必须要纳入考虑，协方差分析是回归分析和方差分析的结合，扣除基线值对因变量的影响之后，再研究分组的修正均值的差别，该方法在多重线性回归中实现。在干预型临床试验中一般会设立对照组并进行试验前后的测量，协方差分析仅能有效检验试验后组间的差异，不能用差异来衡量干预效果，双重差分方法使用越来越广泛[20]，其思想是实验组前后的变化值减去对照组前后变化值得到真正的干预效应。在回归分析的操作中，将前后差值作为因变量，基线值作为协变量，分组变量作为分析因素，同时纳入两者的交互作用，得到各组的前后差值和组间的双重差值，同时能对组间的差值进行差异性统计检验，定性定量的评价干预效果。

1.2.4生存资料的分析

临床研究的观测结果需要做长期随访才能确定，所以评价影响因素或干预效果时，不仅需要分析感兴趣的重点事件是否发生，还要考虑到达终点时经历的时间长短。生存分析是将终点事件是否发生和所经历的时间结合起来的统计分析方法。生存曲线的组间比较常采用的是Log-rank检验（对远期差异敏感）和Wilcoxon检验（对近期差异敏感）。生存资料的回归分析可建立多个因素对生存资料的回归模型，以便了解各个因素的独立作用。一般可分为参数模型的回归分析和半参数COX回归分析。若确定生存资料服从某特定分布（Weibull分布、指数分布、对数正态分布或Gamma分布等），需使用相应的参数模型拟合，能得到更准确的结果。若生存资料的准备分布无法获得时，可采用COX等比例风险模型，其不依赖特定分布的特点，在随访研究中得到非常广泛的应用。COX模型的使用需要满足风险等比例的前提假设，对分类协变量可检验生存曲线是否交叉，对连续协变量需拟合偏残差与生存时间的关系。若不满足前提假设，需采用含时依协变量的COX模型，此外某些协变量在随访过程会发生改变，也需要采用该模型进行分析[21]。一般的生存资料假定受试者在随访时间内最多经历一次随访事件，然而受试者可能经过多次相同或类似的结局事件（复发），针对该类生存资料需要采用Anderson-Gill强度模型，该模型假定每次事件类型相同且相互独立[22]。

1.2.5重复测量数据

在纵向资料中可能会对结局指标进行多次测量，构成重复测量的数据，该实验设计在临床研究中应用广泛。由于数据的非独立性，不满足一般回归的前提假设，常用的统计方法有重复测量的方差分析、混合效应模型和广义估计模型。重复测量的方差分析的思想是总变异分解成个体内变异和个体间变异，需要满足正态性、方差齐性和球形的前提假设，但数据中存在缺失时，分析会将存在缺失的研究对象数据全部删除，有效样本量大大降低。混合效应模型和广义估计模型采用纵向数据格式，能有效利用样本的信息，根据不同的协方差矩阵结构保证分析结果更加准确保守，同时能对时变因素进行多重比较[23,24]。所以针对重复测量数据应主要采用混合效应模型和广义估计模型。混合效应模型考虑随机效应，是对个体水平值的估计，而广义估计模型主要考虑固定效应，是对总体平均水平值的估计，在分析时根据需求选择。

1.3辅助统计方法

1.3.1样本量估计和检验效能分析

临床研究不会选择总体目标人群而是选择合适的具有代表性的样本进行研究。根据假设检验原理，样本过小，无法检验出真实存在的差别，得到的结论缺乏充分的依据，样本过大，会造成人力、物力和时间的不必要浪费，甚至会因为投入不足而导致研究质量下降，此外临床研究的对象大部分是人，而在研究过程中可能会对研究对象造成不同程度的损伤，所以正确估计样本量是临床研究中的非常重要的前提工作。样本量的大小与很多因素有关，如试验设计类型、检验水准、把握度、期望的效应值和标准差等。选择合适的参数并借用正确的计算公式，进行样本量的估计。检验效能，即把握度，是根据Ⅱ型错误概率（假阴性率）的大小决定。当假设的统计检验结果为阴性时，不能拒绝原假设，需要检查样本量和检验效能是否偏低，保证“阴性”结论的正确和可信。

1.3.2匹配

在非随机对照实验中，由于没有事先对研究对象进行随机分配，某些已知或未在的重要混杂因素在组间分布可能不均匀，使得对比组间缺乏可比性，从而无法真实评价分组因素的真实作用。传统控制混杂可使用回归分析进行调整，但当混杂因素过多时不太适用，近几年匹配在大样本的观测性研究中得到广泛应用。常用的匹配方法有个体匹配、多元匹配和倾向得分。个体匹配是将协变量相等或相近的个体作为一对，这样保证组间完全均衡，但是当控制变量较多时，效率不高，在大样本或协变量条件苛刻（基因研究）中使用。多元匹配是根据协变量之间的马氏距离按照最近原则进行匹配。倾向得分是根据已知协变量计算研究对象进入研究组的概率，最常用的模型是Logistic模型和判别分析。倾向得分可直接作为协变量进行模型的调整校正，或根据倾向得分分层后进行分层分析。倾向性得分匹配根据倾向性得分进行匹配，是最常用的方法，一般指定卡钳值进行最近匹配。

1.3.3敏感性分析

敏感性分析常用于评估主要分析的结果和结论的稳健性。在临床研究，特别是临床试验中使用越来越多[25]。临床研究的设计和分析常基于一定的假设，如果假设不满足可能会带来一定影响，敏感性分析通过改变研究假设、统计分析方法和模型等方法来检验研究结论是否一致，常见场景有缺失值、离群值、研究方案违背、研究结局的不同定义、基线不均衡等。主要分析结果和敏感性分析的一致性能巩固研究结论，使研究发现更可信。临床试验中，需在方案中提前定义，结论不一致时需讨论并合理解释。

1.3.4期中分析

期中分析是指在临床试验中按照方案在研究结束前对有效性和安全性进行评价，常用于尽早确认药物的有效性、样本量的重新估算和检测试验的安全性。若以有效性评价为目的时，多次期中分析（假设检验）会增加假阳性率，所以需要调整检验水准，常用的方法有O’Brien-Fleming法和Lan-Demets的α消耗函数法，前者要求每次分析时间间隔相等，后者没有此要求而更灵活。期中分析一般要求独立的第三方统计分析单位进行，并严格审核。

1.3.5自助法

自助法（Bootstrap法）是以现有样本为基础再抽样的随机模拟方法，特别适用于难以用常规方法计算或分布未知的参数的可信区间估计和假设检验。基本思想是从现有样本中有放回的抽样，形成样本量相同的新样本，计算该样本的参数。重复N次，得到N个样本参数，并计算样本参数的标准误用于假设检验，一般取2.5%~97.5%分位数作为该参数的可信区间。自助法要求原样本具有代表性，例数不能太小，同时重复次数尽量取1000以上。

2. 临床研究统计中的常见问题

2.1选择合适的数据集

是否正确选择统计分析集会直接影响分析结果的可靠性。在临床试验实施中要保证所有受试者满足纳入排除标准、严格遵守试验方案，并且没有任何失访和数据缺失是很难实现的。意向分析（ITT）原则要求纳入所有随机化后的受试者，按其随机分到的组进行分析，保证组间的可比性，从而避免破坏随机化而引入偏倚，使得统计学检验结果的可靠[26]。但在实际中可能会发生随机化的受试者违反主要入组标准，或未服用一次药物，或随机化没有任何数据，所以一般采用全分析集，它是最接近意向分析原则的理想受试者集。符合方案集纳入对试验方案依从性良好的受试者集，是全分析集的子集。ITT集/全分析集属于“现实场景”，结果趋于保守，符合方案集属于“理想场景”，结果倾向于有意义。我国国家药品食品监督总局和美国食品药品监督局对临床试验要求对ITT集/全分析集和符合方案集同时进行分析，如果两者分析结果一致，可增加试验结果的可信性，如果不一致，则需要进行解释。另外，根据不同数据集的特性，对优效、等效和非劣设计的临床试验中数据集的选择要求有所不同，优效试验要求ITT集/全分析集作为主要分析集，而等效和非劣设计将符合方案集作为主要分析集。

2.2标准差和标准误

标准差（SD）和标准误（SE）均用于测量变异程度。标准差属于描述统计指标，主要衡量变量本身的离散程度。标准误属于推断统计指标，是由抽样导致的样本统计量（如均值、标准差等）与总体参数或其他样本统计量间的差异，反映研究的可信性和可靠性，常用于计算可信区间。两者之间关系为，从关系可见，标准误总会小于标准差，研究者可能会误用标准误来取代标准差进行统计描述，从而可能误导读者对结果的理解[27]。因此，需在描述统计和推断统计中正确使用以上变异指标。

2.3 组间可比性

在随机对照试验中随机化包括随机选择目标总体重样本和随机分配受试者两大部分，目的是保证样本能很好的代表总体人群，同时组间具有最大程度的可比性。可比性描述各试验组之间除了处理因素不同外，其他非处理因素，如人口学特征和预后指标等尽量能一致并均衡。假设检验是在一定检验水准下对偶然性的检验，如果随机化过程正常，任何观测到不均衡可能只是一种偶然现象，此时对基线指标进行组间比较的假设检验显得不必要[28]。而在很多包含基线的组间比较的文献中，很少报道有基线有统计学差异结果，这是不正常的。因此，如果能保证科学正确随机化，在结果的第一部分我们仅需要使用表格呈现各组样本的特征，在进行最终模型分析时，指标是否组间均衡不应作为纳入协变量的标准。如果不均衡指标可能是未知的预后影响因素，我们可以把协变量纳入这些指标进行敏感性分析。

2.4协变量的选择与调整

有效性的评价除了受分组因素的影响外，可能受受试者的人群特征的影响，如性别、激素水平等，这些影响变量称为协变量或混杂因素。为了避免偏倚得到合理的统计学推断，必须在统计分析过程中校正与结局相关的协变量。对协变量的选择一般有三种方法：第一种方法是基于协变量组间比较的假设检验，例如选择P值小于0.2或0.1的协变量，该方法一直以来被很多研究者使用，正如前面组间可比性的差异来源偶然性的描述，该方法已受到很多质疑而不再推荐使用。第二种方法是基于协变量对结局指标的影响程度，检验协变量与结局指标之间的相关分析，例如皮尔森相关系数，选择合适的系数界值选择协变量，或者根据估计值改变策略（Change in estimation，CIE）计算添加或删除某一协变量后关注变量的估计值（回归系数、OR、HR等）的变化百分比，一般以全模型为标准采用后退法进行计算，例如：ΔOR=|ORi-ORfull|/ORfull，选择变化百分比超过10%作为界值筛选协变量。第三种方法是基于前人研究基础选择已经证实对结局指标有影响的协变量。协变量的调整可在研究设计阶段和统计分析阶段实施。在随机对照试验中采用区组随机法（一个协变量）、分层随机法（一个或以上少数协变量）或最小化法的动态随机法（多个协变量）保证关键协变量组间的均衡性，在病例-对照研究中采用匹配技术对两组的进行精确或模糊匹配。统计分析时采用多因素回归模型取代单因素分析方法，调整协变量不均衡带来的偏倚，值得注意的是，研究设计阶段的协变量也需要纳入最终模型中。在确证性的临床试验中一般会在方案中规定纳入哪些协变量，并提供相应依据，事先未规定校正的协变量，一般不进行校正。

2.5交互作用与亚组分析

交互作用是显示不同变量之间对结局指标的联合效应，常体现为变量A对结局指标的作用在变量B的不同水平下表现不同，一般可对效应一致性检验或模型中的交互项的假设检验来判断交互作用是否存在。亚组分析是对交互作用的“剖析”，将数据集在变量B的不同水平分割形成亚组，分别对变量A的效应进行分析，例如证实某种药物有效后了解不同人群是否疗效不同，或者总体疗效无统计学意义，寻找可能有意义的亚组人群。亚组分析可分为预先定义和事后两种情况。事后亚组分析一般属于敏感性分析，评估结论的稳健性，但临床研究一般采取抽样调查，样本量有限，对总体效应分析有足够的检验效能，分亚组后样本量减少，检验效能降低（Ⅱ类错误），同时，对同一效应进行多次检验增加假阳性率（Ⅰ类错误），特别是当总体效应无统计学意义时[29,30]。在随机分组实验中，亚组分析会破坏随机化的作用，结果解释需谨慎。在临床试验中，若总体效应无统计学意义时，发现某亚组有统计学意义，只能为下一步研究提供假设依据，不能作为批准药物在该亚组人群中使用的依据。所以，亚组分析一般作为探索性分析，而不是验证性分析。例如药物效果，在不同特征的人群中可能有不同，预先定义的亚组分析能为临床试验提供更丰富的信息，需要在临床试验方案中提前声明，并在计算样本量和随机化分组时考虑亚组变量的影响，确定研究的假设检验和统计方法，这样结果才可信，才能为针对特定人群的药物上市提供依据。

2.6多中心研究的问题

同一临床研究在不同的研究地点或机构同时进行，能在较短时间内收集较多的样本，提高效率，同时病例招募范围比单中心广，样本更具代表性，提高研究结论的外推性，在新药Ⅱ、Ⅲ期的临床试验常常采用该方法。多中心研究的样本量和统计效能计算通常基于各中心的效应一致，然而各中心的研究条件可能不完全相同，对研究方案的理解可能存在一定偏差，结论可能不一致，差异较大时直接合并各中心资料进行统计会导致结论出现严重偏差。因此，在统计分析时必须考虑中心效应是否存在，同时采用合适的统计方法扣除中心效应再进行效应分析。在临床试验中，还需要检验中心和治疗分组是否存在交互作用，若存在则表明不同中心的效应不同，统计分析结果的解释需要非常谨慎，甚至可能需要重新进行临床试验。当中心数较多，大部分中心的样本量较少时，可以根据方案预先的规定合并部分中心或者统计分析时不考虑中心效应。在同一个中心的研究对象有内部相似性，在实际统计分析时更关注扣除中心效应后分析结果，推荐使用能处理非独立数据的多水平混合效应模型，并在模型中纳入相关的交互项。

2.7缺失值的处理

数据缺失在临床研究中普遍存在，是潜在的偏倚来源。数据缺失的机制分为完全随机缺失、随机缺失和非随机缺失三种机制。在统计分析时需正确处理缺失值，减少偏倚。缺失机制根据完整数据一般难以区分，所以常常基于不同的假设进行敏感性分析，检验结果的稳定性。常用于处理数据缺失的方法有使用完整数据、缺失归类和数据填补三种方法：①若采用完整病例时，实际样本量减少，导致检验效能降低，同时缺失的数据可能与研究变量或结局指标有关，统计分析会得到偏倚结果。在随机对照实验组中删除缺失样本可能会破坏随机性（样本的代表性和组间可比性），同时也违背了意向分析的原则，所以忽略缺失值的方法一般仅在探索性研究中使用，在验证性研究中可作为敏感性分析部分来检验结果的稳定性。②缺失指示法是指将缺失值进行标示，对于分类变量，将缺失值处理成独立的一类属性，对于连续变量，将缺失值设置为固定值，例如0，然后再添加一个1/0的标示是否缺失的哑变量，在模型中同时纳入。该方法能保留全部样本，但可能会引入其他混杂。③数据填补可分为单次填补和多重填补，单次填补是对缺失值仅填补一次，常选择末次访视结转、基线观测值结转、平均值填补、最差病例填补和最好病例填补等，单次填补没有考虑缺失值的不确定性，低估或高估数据的变异，会导致估计值的标准误过小或过大。多重填补为每个缺失值提供m个填补值，产生m个完整数据集，分别分析后再合并效应，该方法考虑缺失值的不确定性，提供无偏倚有效的估计，逐渐成为处理缺失值的标准[31]。此外，针对重复测量数据的缺失可以采用混合效应模型或广义估计模型，数据被转化为纵向结构，保证每个病例的信息得到充分利用，可得到估计值的无偏估计[32]。在实际统计实践中，通常会选择完整病例和多个填补方法的统计结果构成敏感性分析，检验结果的一致性和可信性。尽管在统计分析阶段可采用恰当的方法减少缺失带来的影响，但应在研究设计和数据收集阶段减少缺失发生的可能性，例如统一培训或数据质量审查，对于无法避免的缺失，应详细记录缺失的原因，用于对结果的解释，从根本上减少数据缺失的影响[33]。

科研星球

总结：临床研究常见统计方法与统计问题

1. 临床研究统计中的常用统计方法

2. 临床研究统计中的常见问题

标签