临床医生写Meta分析的技术和指南_临床研究_实用技巧

随着外科学领域文献数量的快速增长，越来越需要对现有证据进行总结和评价，使其能够更适于临床应用。循证医学即是慎重、清晰、明智地应用可获得的最佳研究证据来指导卫生保健决策。临床决策应当基于现有的全面证据，而非基于任何单一研究结果。

现代循证外科方法中的正规全面文献汇总评价(无论是否伴有额外统计分析)对于外科医生临床实践而言是非常重要的。这些文献汇总评价为外科医生提供不断更新的诊断、预后和健康干预效益知识。

系统评价和Meta分析虽然日趋普及，但仍有一定的局限性。外科医生在临床上直接应用其结论之前，必须谨记其局限性。系统评价和Meta分析的质量不仅源于原始研究的质量，还取决于系统评价制作的严格程度。

一项制作较差的系统评价和Meta分析往往采用了可信度较差的制作方法和统计分析，这可能会得出错误的结果和结论。当针对某一临床问题的高等级临床试验很少时，系统评价的结果解释就比较困难。

但是，如果采用严格的评价方法，就可以将偏倚风险降到最低，并可能得出有用的结论。这些评价方法包括：全面的文献检索、原始研究质量评价、恰当的统计分析、对估计值和偏倚风险的信度评估。

因此，本文的目的是：

总结外科学领域的系统评价和Meta分析的重要特征；
强调几个未广泛应用的统计学方法，与传统的两两对照数据合成相比，这些方法可能会开阔更广泛有趣的视野；
为全面分析和结果撰写提供一个指南。

1 构建临床问题

在检索文献之前，必须先构建好既清晰准确又适于做系统评价或Meta分析的临床问题。为了改善现有临床认知、实践、指南和决策，仔细评估临床问题的意义和适用性是非常重要的。

构建临床问题有一个公认方法就是采取PICO格式。PICO即清晰地定义研究人群(P)，干预(I)，对照(C)，结局(O)。

例如，在最近一篇无缝合主动脉瓣置换的系统评价和Meta分析中，研究人群定义为需要进行外科主动脉瓣置换的患者(P)，干预是微创主动脉瓣置换(I)，对照是传统主动脉瓣置换(C)，结局包括围手术期死亡率和并发症(O)。

构建一个好的临床问题的难点在于定义研究人群和干预方式的范围。为了确定问题的范围，评价者必须充分理解现有的文献证据、潜在不足和不确定因素，并了解系统评价或Meta分析或许可以补充哪些不足、回答哪些问题。

范围综述(scoping review)有助于探索现有证据的范围并帮助确定临床问题的范围。当构建临床问题时，需要考虑现有证据的等级和研究设计。

例如，如果有足够的可以纳入的随机对照试验(randomized controlled trial，RCT)，则可将系统评价的范围限定为仅纳入RCT，这样可以避免非随机研究带来的选择性偏倚。相反，如果可纳入的RCT较少，而证据主要局限于观察性研究时，评价者则可以考虑将范围扩展到同时纳入RCT和观察性研究。

为了分析非随机设计对结局效应量的影响，可以进行二次分析，即亚组分析和敏感性分析。当进行Meta分析时，问题可能会更窄，例如仅纳入对比两种干预方式的试验。

相似的逻辑也适用于设定研究人群、干预、对照及结果的范围。

例如，如果人群定义得过宽，则众多的危险因素会影响结局效应估计值，进而产生错误的趋势和结论。再如，年轻患者(<50岁)和老年患者(>70岁)因为潜在并存病及手术风险不同，所以植入的主动脉瓣耐用度方面也存在着差异。因此若合成所有年龄患者的无再手术率数据，则会所得出一个不准确的全年龄组瓣膜耐用度。

一个清晰的问题应该既有临床意义又有严格定义的研究人群、干预方式、对照和结局指标。当问题不清晰时，系统评价就会模糊、结构差、异质性强，此时会产生一系列风险，并且得出无效的结果。我们推荐在制作系统评价之前先写或发表一个研究计划书。此研究计划书应充分定义纳入排除标准、研究对象、干预、结局指标和统计分析策略。

2 文献检索

作者应根据要回答的临床问题预先设定纳入及排除标准，并在最终文稿中写明。此标准可能包括：拟纳入研究的设计(RCT还是所有研究类型；仅对照研究)、研究人群特点(性别、年龄、疾病)、研究发表语言以及发表时间(比如纳入2000年以后发表的研究)。

排除标准包括但不限于：低级证据(如仅有摘要)、会议论文、社论及专家观点、重复随访报道同一组人群的研究、每组少于10个样本的研究等。应该考虑到纳入及排除标准所引起的潜在偏倚，并与系统评价结果一同讨论。

为了全面系统地检索原始研究，推荐检索多个数据库。经典的电子数据库包括MEDLINE，EMBASE，PubMed，Cochrane Central Register of Controlled trials和ACP。如果仅检索一个数据库，则很可能存在漏检，因此是不推荐的。非常重要的是，评价者应该根据其预设的临床问题使用关键词、MeSH词以及布尔逻辑符，比如“AND”“OR”和“NOT”。

根据(preferred reporting items forsystematic reviews and Meta analyses，PRISMA)指南，在系统评价中需至少提供一个检索策略。文献检索应该至少由两个评价者分别独立完成。两人对最终纳入文章的任何不一致意见都应该讨论和协商解决。而且，需要进行附加检索，包括检索注册试验、纳入研究的参考文献、外语文献和与领域内专家交流等。在终稿中，应该按照PRISMA流程图标明整体检索策略。

3 研究质量评价

纳入研究的内在偏倚风险会影响最终结果的真实性(validity)。因此，需要依据Cochrane或MOOSE指南对纳入研究进行质量评价。

Cochrane

许多不同的清单和工具可以用来评估研究内部偏倚。荷兰Cochrane协作组的Review Manager软件内置有RCT质量评价工具，其包括如下方面：随机序列生成、分配隐藏、受试者盲法、结局评估盲法、不完整结果数据、选择性报告结果及其他偏倚来源。

RCT常被认为是系统评价和Meta分析该纳入的最佳高质量研究。但是，不同的RCT在方法学和报告质量上有差异。因此，对所有纳入的RCT进行质量评估是非常重要的。高质量RCT应该遵循随机对照试验报告规范(CONSORT)，CONSORT标准包括22个清单条目和流程图。

MOOSE

也有许多清单可以评估观察性研究，其中一个是荷兰Cochrane协作组建立的，而另一个常用清单是STROBE。MOOSE工具的主要方面包括:

清晰定义研究人群；
清晰定义结局以及结局评估；
独立评估结局参数；
足够的随访；
随访时无选择性失访；
识别重要混杂因素和预后因素。

强烈推荐采用这些清单来严格评估纳入研究的质量。完整清单应该以文中表格或者补充表格形式出现在系统评价中。应该由至少两个评价者独立进行偏倚风险评估，而且任何差异都应该通过讨论达成共识。

表1是最近发表的外科领域系统评价中的风险评估表单。对于不符合预先设定的质量要求的研究，需要谨慎考虑是否在进一步的统计分析中纳入，比如可以通过敏感性分析识别异质性或通过累积Meta分析来识别时间对效应量的影响。

表1 （点击查看大图）

4 数据提取

数据提取应该基于预先做好的提取表格进行，此表格内容包括预先定好的人口学数据、手术参数和结局指标等。数据提取应该至少由两个评价者独立进行，并通过协商解决不一致意见。这样可以降低评价者偏倚风险、错误和主观性。

5 统计学方法

5.1 概括统计量

需要基于系统评价类型和可用数据选择统计方法。当系统评价研究某外科干预而没有对照组时，可以采用描述性统计方法报道连续性变量的均数、标准差及范围。如果研究间的人群特点或纳入/排除标准足够相似，则可以进行加权率的Meta分析，即采用随机效应模型合并单臂队列研究。此类Meta分析的一个例子就是采用加权合并分析无缝合主动脉瓣置换术(SU-AVR)后随访12个月的瓣周漏发生率(图1)。

图1 单臂研究的率的Meta分析采用随机效应模型报道了无缝合主动脉瓣置换术的瓣周漏率结果。加权瓣周漏率是3.0%，95%置信区间为1.0%~5.8%。存在显著异质性(I2=72%,p<0.001)。SU-AVR：无缝合主动脉瓣置换术。

对于基于对照研究的系统评价和Meta分析，概括统计量的最佳表达形式就是森林图。森林图包括每个纳入研究效应量的加权合并，也能够提示研究间的异质性。图2是微创主动脉瓣置换时采用胸骨小切口还是胸廓小切口对比的Meta分析森林图。在森林图中，以方块表示其每项研究的效应量均数，以水平线表示每项研究的效应量95%置信区间。方块大小代表该研究在Meta分析中所占的权重比例。黑色菱形代表Meta分析的合成效应量，其宽度是整体置信区间。如果此菱形方块全部在中心垂直实线的一侧，则说明两干预方式对比的效应量差异具有统计学意义。

图2 MIAVR与CAVR的体外循环持续时间对比森林图，采用加权均数差作为统计量。采用了亚组分析比较胸骨小切口和胸廓小切口两种MIAVR方法。所有亚组存在显著的异质性。MIAVR：微创主动脉瓣置换术；CAVR：传统主动脉瓣置换术。

点估计的典型概括统计量为描述二分类变量的相对危险度(relativerisk，RR)或优势比(odds ratio，OR)和描述连续数据的加权均数差(weighted mean difference，WMD)。

Meta分析的统计模型可以为固定效应模型或随机效应模型。前者假设纳入研究间的真实效应相似，后者则假设纳入研究描绘的是效应量的随机样本。随机效应模型最适用于当效应量存在异质性时。

为了评估纳入研究间的效应量是否存在一致性，需要对异质性进行量化评估。常用的评估异质性的检验有两种。Q检验可以判断该效应量异质性的有或无。而I2 统计量表示变异的量级，0%说明任何变异都源于机遇(chance)，I2值越高则说明无法解释的变异越大。通常来讲，I2值大于50%说明该效应量存在显著的异质性。

当存在显著异质性时，需要解释异质性的来源。一些方法可以用来识别异质性的潜在来源。首先就是亚组分析。对不同亚组的结局进行相同的统计分析，并在亚组间作交互式检验来识别亚组间是否存在显著性差异。如果p<0.05，则很大可能在个别亚组和目标结局之间存在相关性。另一个可以评估异质性的方法是下面要说的Meta回归。

5.2 Meta回归分析

Meta回归分析是另一个评估异质性的方法。Meta回归分析判断自变量与应变量间是否存在显著的关联性。自变量为研究或者干预的特点(如年龄、研究时间点、手术时间)，应变量为结局指标。构建回归模型时可以采用p值和回归系数(r)评估相关性的强度。显著关系表明研究变量可能是观察到的变异性的来源。

6 发表偏倚

系统评价的另外一个先天不足是发表偏倚。相对于得出阳性结论的研究，那些得出阴性结论的研究文章常常更难被发表，导致阴性结果的研究更容易“丢失”，这常常会使得Meta分析结果偏移，并得出错误的结论。

因此，在系统评价或Meta分析中，评估发表偏倚的潜在影响是非常重要的。评估发表偏倚最常用的方法是漏斗图法。漏斗图标明了处理效应的精确度和大小，其形似倒漏斗。水平轴表示干预效果，垂直轴表示标准误。

理想情况下，当发表偏倚很小时，漏斗图的点围绕平均效应值对称分布。非对称分布表明可能存在潜在的发表偏倚，而发表偏倚会破坏结论的真实性(validity)。Begg和Egger检验可以一起用来在统计学上判定漏斗图是否存在不对称。

7 结果解释

当对系统评价和Meta分析的结果进行解释时，需要考虑一下几个因素：

第一，评价者应该评估结果的临床意义。例如，如果两种干预方式的手术时间具有统计学差异，相差5 min，那么这会显著影响患者的结局吗?既往研究曾建议，在临床试验的计划和结果解释中应该包含治疗或者干预方式的最小临床意义变化值(MCID)。

第二，评价者应该在讨论部分讨论和解释异质性的潜在来源。这可能包括亚组分析或Meta回归来判定哪些因素影响目标结果。

第三，系统评价应该讨论其相对于既往系统评价(如果有的话)的优点以及此评价的不足。不足之处可能包括但不限于如下：纳入非随机研究(可能会导致偏倚风险)、较小的患者样本量、比较队列间人群基线的显著差异，随访时间短、纳入研究间采用外科干预的异质性等。

8 结果撰写

下图是系统评价和Meta分析的整体过程。

系统评价和Meta分析制作流程图概览

为了辅助外科医生严格制作系统评价和Meta分析，我们推荐撰写结构化的结果。

9 结论

系统评价和Meta分析可以合成研究数据和评估现有证据质量，因此在外科领域越来越重要。但是，外科医生应该注意系统评价的质量。较差的系统评价质量可能会严重破坏结果和结论的真实性。

为了获得高质量系统评价及可靠的结论，必须严格执行标准化的制作过程。本文中我们对系统评价制作过程进行了概述，以确保优化系统评价和Meta分析的质量和结果。

科研星球

临床医生写Meta分析的技术和指南

标签