科研星球

临床医生如何解读Meta分析论文?

作者:朱熠冰,李卫*

单位:北京协和医院阜外医院医学统计部

通信作者:李卫

文章来源:协和医学杂志,

2020,11(3):314-319.


Meta分析是翻译自英文meta-analysis,其中“Meta”一词源于古希腊文,意指将事物综合起来观察


Meta分析的概念最早由Light和Smoth于1971年提出,是一种对不同研究结果进行合并分析的方法[1-2]


在医学研究中,Meta分析常用于研究结果的合并,最常见的是随机对照试验(RCT)结果的合并,该方法逐渐发展为循证医学的主要研究手段之一。



Meta分析的基本步骤


  • 明确研究问题

  • 制定检索策略

  • 筛选纳入文献

  • 提取数据信息

  • 评估研究质量和偏倚风险

  • 采用Meta分析方法合并数据

  • 报告结果[1]




2009年的一项报告显示,每年新发表的系统综述数量在2500篇以上,其中1/3为Meta分析,此后10年的发表速度提高了近10倍 [3-5]。系统综述和Meta分析汇总医疗行为的获益与危害证据,为医疗决策提供依据。


随着循证医学的发展,通过阅读Meta分析获取前沿信息已成为临床医生必须掌握的一项重要技能[3]。但Meta分析质量良莠不齐,其结果和结论能否直接应用于临床,需进行鉴别和评估,这对读者提出了更高要求。


Meta分析文献是对Meta分析过程的完整展示,读者可根据论文提供的信息还原研究过程,进而独立、客观地评价入选文献的质量及合并分析的合理性,确定论文提供的证据能否采信,能否用于指导临床实践。



1.通过读图初步理解Meta分析


Meta分析的数据合并结果通常以森林图展示,其他如偏倚评价,有时也以图的形式报告。


森林图用于展示数据的合并,通过四边形和竖线的组合展示合并结果的效应值和置信区间,及其与界值的关系,令读者一目了然;


偏倚风险评价图用于展示纳入研究的方法学质量,绿、黄、红3种颜色分别代表低、中、高风险,相对于表格更为直观;


漏斗图用于评估发表偏倚,纳入研究至少为10项时可以使用。


以下将结合实例对3种图进行详细解读。



1.1 森林图


解读Meta分析可从森林图开始,通过森林图可迅速获取纳入数据的分析结果,但是纳入数据及分析必须科学规范,否则结果无法采信。


首先,初步解读森林图,第一时间获取最直观的信息,迅速了解作者传递的Meta分析结果。


其次,深入解读森林图,通过森林图中的信息对数据分析进行验证和重复,进一步解读并判断其方法和结果。


可绘制森林图的软件有多种,如Review Manager、Stata、R software等,不同的绘图方法所呈现出的参数和视觉效果会有所区别,但只要掌握森林图的核心信息及读图方法,这些差异将不会成为读图的障碍。


Reviw Manager软件绘制的森林图[6]包括左侧的数据部分和右侧的图形部分。


图1是连续变量为结局指标的森林图,用于展示连续变量的合并统计量,包括均数差(MD)和标准化均数差(SMD)。



下载.jpeg

图 1 使用Review Manager软件绘制结局为连续变量的森林图[6]

Terlipressin:特利加压素(试验组);Control:对照组;Mean Difference:均数差;Study or Subgroup:研究组或亚组;Mean:均数;SD:标准差;Total:总样本量; Weight:权重;IV:逆方差加权法;Random:随机效应模型;95% CI:95%置信区间;Heterogeneity:异质性;Favours[experimental]:有利于试验组;Favours[control]:有利于对照组;Test for overall effect:总体效应的检验


从图1左侧部分可读出的信息包括:

①纳入7篇文献,从文献ID可推测出作者姓氏及发表年份。

②每项研究中试验组(Terlipressin)和对照组(Control)的均数(Mean)、标准差(stan-dard difference,SD)、样本量(Total)。

③通过软件计算出每项研究的权重(Weight)、MD、95%置信区间(95% confidence interval,95% CI)和试验组与对照组汇总后的样本量、MD、95% CI。

④效应指标的估计值与95% CI或P值同时报告。图1中可见两个P值,分别位于左下角第一行“Heterogeneity Tau2=1.52;Chi2=16.60,df=6(P=0.01);I2=64%”中和左下角第二行“Test for overall effect:z=1.38(P=0.17)”中。


第一行代表异质性检验(Heterogeneity),通过χ2检验观察结果差异是否由机遇导致。I2是对异质性进行量化的统计量,df为自由度,该公式描述了异质性而非抽样误差所致的干预估计值变异的百分比[7]


第二行代表合并干预效应(overall effect)检验,获得干预效应的点估计值、95% CI和P值。根据森林图中提供的信息,读者可通过95% CI计算标准误(standard error,SE),SE=(上限-下限)/3.92;也可通过干预效应估计值和z值计算,SE=干预效应估计值/z[7]


从森林图右侧部分可读出的信息包括:

采用随机效应模型而非固定效应模型;

竖线左侧(Favours [experimental])代表试验组获益,右侧(Favours [control])代表对照组获益;

每个方块代表一项研究,方块大小与权重大小对应,方块位置对应点估计值,横线两端对应95% CI的下限、上限;

菱形块代表汇总数据的点估计值和置信区间,跨越竖线提示无统计学意义,与P>0.05对应。




下载 (1).jpeg

图 2 使用Review Manager软件绘制结局为二分类变量的森林图[6]

Study or Subgroup、Control、Total、Weight、95% CI、Heterogeneity、Test for overall effect、Favours[experimental]、Favours[control]:同图1;Experimental:试验组;Events:事件数;M-H:分层分析法;Fixed:固定效应模型;Risk Ratio:相对危险度



图2为二分类变量的森林图[8],对应图1中的信息逐项分析如下:

图1的“Mean Difference”变为图2的“Risk Ratio”,二分类变量Meta分析常用的合并统计量包括比值比(OR)、相对危险度(RR)和危险度差(RD)。

森林图右侧的竖线界值由“0”变为“1”。MD和SMD为两组差值,差值为0表示两组点估计值无差异,效应界值为0;而RR和OR为两组比值,比值为1表示两组点估计值无差异,界值为1。

“随机效应模型(random effects model)”变为“固定效应模型(fixed effects model)”。效应模型的选择需根据临床异质性、方法学异质性、统计学异质性进行综合判断,确定是否需要得出更保守的结论。当研究间不存在异质性时,随机效应模型和固定效应模型结果相同;当存在异质性时,随机效应模型得出的95% CI较固定效应模型更宽。如干预效应与样本量存在相关性,则干预效应的点估计值也可能改变[7]

“逆方差加权法(IV)”变为“分层分析法(M-H)”。若数据为连续变量一般采用IV法,若为二分类变量则选择两种方法均可,Review Manager软件默认固定效应模型采用M-H法。M-H法根据效应指标的不同(如OR、RR、RD)采用不同的加权方式,当事件发生率低时,M-H法较IV法对估计效应值的SE具有更好的统计性能,其他情况下两种方法差异很小[7,9]


森林图的结果仅代表纳入数据的合并结果,但这些纳入的文献质量是否符合要求,是否存在高异质性不适合合并,是否存在偏倚使得结果偏离真实,均需客观解读和验证。



1.2 偏倚风险评价图


偏倚是系统误差引起的错误,导致Meta分析结果偏离真实情况,从而产生一定的误导。在阅读Meta分析文章时,对偏倚的警惕、评估和解读至关重要,不能盲目相信Meta分析的结果和结论[10]


图3为Reviw Manager软件绘制的考克兰(Cochrane)偏倚风险评价图[6]


下载 (2).jpeg
图 3 使用Review Manager软件绘制的偏倚风险评价图[6]

Random sequence generation (selection bias):随机序列生成(选择偏倚);Allocation concealment (selection bias):分配隐藏(选择偏倚);Blinding of participants and personnel (performance bias):受试者和研究人员的盲法(实施偏倚);Blinding of outcome assessment (detection bias):结果评价的盲法(测量偏倚);Incomplete outcome data (attrition bias):不完整的结果数据(随访偏倚);Selective reporting (reporting bias):选择性报告(报告偏倚);Other bias:其他偏倚


绿色代表低风险,红色代表高风险,黄色代表风险不明确。


研究者评估纳入文献的每一项方法学特征,将评估结果输入软件,生成偏倚风险评价图。


图中每一行代表一种偏倚风险,这些偏倚风险贯穿整个临床试验,反映临床试验的方法学质量。


Meta分析的研究者根据纳入文献中方法学的报告和描述来评估各项偏倚风险。除考克兰偏倚风险评价图外,也可通过其他评估手段,如Jadad评分或改良Jadad评分来评价偏倚风险[11]



1.3 漏斗图


漏斗图的本质为散点图,横轴为各研究的效应值,纵轴为样本量。


漏斗图是识别发表偏倚常用的可视化方法。假设在无发表偏倚的情况下,散点会形成大致对称的倒漏斗[7],但目测漏斗图对称与否存在主观性,不同的读者可能会作出不同的判断[10]


导致漏斗图不对称的因素较多,可能是发表偏倚以外的原因,如治疗效应真实的异质性[7]。因此,读者应在理解漏斗图含义的基础上,谨慎解读结果。


下载 (3).jpeg

图 4 使用Review Manager软件绘制的漏斗图[6] 

        MD:均数差;SE:标准误


图4 为Reviw Manager软件绘制的漏斗图[6]。图中的空心圆圈代表纳入Meta分析的各项研究,圆圈在顶部较为集中,提示研究精度较高;圆圈在中线左右两侧不对称,提示存在发表偏倚。


除Review Manager软件可绘制漏斗图外,Stata软件可进行Egger's Test和Begg's Test检验,也可用于评估发表偏倚。



2.对汇总结果进行再评价


针对临床问题进行Meta分析可为临床实践提供循证医学证据,但Meta分析结果是否真实可靠,是否适用于临床实践,需读者进行批判性思考,作出客观判断。可以从Meta分析报告中寻找以下问题的答案:


  • 纳入的研究异质性高吗?如果异质性很高,这个结果很可能不适用于临床。

  • Meta分析的结论稳健吗?去除某项纳入的研究,结论是否会立即改变?

  • 该样本量足以得出当前的结论吗?如果出现新的研究,现有结论是否会立即改变?




2.1异质性


异质性系指研究间任何的变异[7]。异质性分为:


  • 临床异质性,如受试者、干预措施和结局的变异;

  • 方法学异质性,如研究设计和偏倚风险的多样性;

  • 统计学异质性,即干预效应间的差异超过仅由随机误差所致的差异[7]




2.1.1 临床异质性


读者需查看纳入的文献特征,通常在Meta分析报告中表1的位置。观察表中纳入的各项研究特征,如人口学资料、基线特征、疾病种类、疾病严重程度、干预方法、对照方案、评估工具、结局指标等是否具有异质性。临床异质性的判断无定量标准,需要临床医生结合自身的专业知识和临床经验进行判断。


以预防ICU患者应激性溃疡的Meta分析[12]为例,需判断不同药物选择(质子泵抑制剂、H2受体拮抗剂、硫糖铝)、不同给药途径(口服、静脉)、不同临床科室(内科ICU、综合ICU)是否均为引入临床异质性的因素,根据这些因素进行亚组分析,处理临床异质性的来源。



2.1.2 方法学异质性


Meta分析纳入的研究类型是否均为RCT或队列研究或两者均有?如果两者均有,不同研究类型的数据合并将会明显提高异质性,应通过亚组分析降低异质性。如果纳入研究均为RCT,是否全部为高质量RCT,亦或质量参差不齐?这时可参考Meta分析中的偏倚评价图或质量评价表。


如部分RCT质量高,盲法、分配隐藏、随机、随访等充分可信,而另一部分质量很低,甚至自称RCT但并未真正做到RCT,那么把这两类数据直接合并是不合理的,同样也需通过亚组分析降低异质性。


仍以预防ICU患者应激性溃疡的Meta分析[12]为例,纳入的7项RCT中,与盲法相比,非盲研究可能会引入偏倚;与大样本研究相比,小样本的研究设计可能与干预效应的高估相关[13],这些均会产生方法学异质性。



2.1.3 统计学异质性


通过解读I2可大致评价统计学异质性:I2在0~40%时异质性可能很小,30%~60%时存在轻度异质性,50%~90%时可能存在实质性异质性,75%~100%时存在高度异质性。


I2界值是判断的参考,存在重叠区域,对I2的解读需要结合效应值的大小和方向,以及异质性证据的强度进行判断[7]


森林图中可以显示统计量I2,即使部分森林图略去这一信息,文中也会进行描述。


如统计学异质性高,研究者在数据合并时不宜使用固定效应模型,而应选择随机效应模型,从而得出更保守的结论。



2.2 稳健性


Meta分析结果的稳健性是指该结果是否受个别研究的影响较大,新出现的RCT结果是否会轻易改变目前的结论。


稳健性是Meta分析的重要品质,如果一项Meta分析的结果稳健,意味着该临床问题已在证据金字塔的顶端得出权威结论,可以指导指南制订和临床实践;反之,则提示该项Meta分析只是运用统计学方法进行了一次数据合并而已,意义非常局限,甚至会误导临床实践。


Meta分析的所有异质性均会影响其结果的稳健性。一项稳健的Meta分析应具备以下特征:


  • 在敏感性分析中,剔除个别研究,结论无明显方向性改变;

  • 如果进行了试验序贯性分析(trial sequential analysis,TSA),其结果应提示纳入的样本量足以得出目前的结论;

  • 纳入的研究质量较高,且研究之间的异质性较低。




2.3 把握度和样本量


把握度和样本量是解读Meta分析时难度较大的领域。把握度,即检验效能,指检出真实存在的效应有统计学意义的概率[7]


多数Meta分析中研究者并未考虑并报告这一问题,因此在阅读Meta分析报告时读者未必能找到相应的信息。


如果一项Meta分析的样本量很大,这个样本量真的足够吗?另一项Meta分析的样本量较小,需要继续做RCT积累数据吗?这些问题可以通过TSA定量进行解决。


TSA给出的界值代表Meta分析得出当前结论所需的样本量,综合了先验信息、统计信息、纳入数据等多种信息,校正了Meta分析由于多次合并数据而增加的Ⅰ类和Ⅱ类错误风险,给出了预计需要的样本量[14]


但TSA亦存在局限性,其先验信息需研究者输入,算法需研究者选择,不同的信息和算法会得出不同的结果,即研究者的选择将影响TSA的结果。



3. 小结


临床医生在阅读Meta分析报告时,首先要掌握森林图的读法,迅速获取最直观的信息;在读懂图表和描述性信息后需对结果进行再评价和深入解读,以判断结果是否真实可靠并适用于临床实践。完成上述两个步骤,才能全面掌握该项Meta分析证据。


Meta分析是数据合并的方法,但由于存在异质性、偏倚风险和由于多次合并数据而导致Ⅰ类和Ⅱ类错误风险增加等局限性,临床医生在阅读、研究和撰写Meta分析论文时需要更加关注其质量。


目前Meta分析论文良莠不齐,需要研究者在透彻理解Meta分析方法学的基础上,撰写和发表更多高质量的Meta分析研究。




参考文献


[1]彭晓霞.Meta-分析的方法学局限性及其适用领域[J].协和医学杂志,2017,6:381-386.

[2]Smith ML,Glass GV.Meta-analysis of psychotherapy outcome studies[J].Am Psychol,1977,32:752-760.

[3]Moher D,Liberati A,Tetzlaff J,et al.Preferred reporting items for systematic reviews and Meta-analyses:the PRISMA statement[J].BMJ,2009,339:b2535.

[4]Ioannidis JP.The mass production of redundant,mislead-ing,and conflicted systematic reviews and Meta-analyses[J].Milbank Q,2016,94:485-514.

[5]Vetter TR.Systematic Review and Meta-analysis: Some-times Bigger Is Indeed Bette[J].Anesth Analg,2019,128:575-583.

[6]Zhu Y,Huang H,Xi X,et al.Terlipressin for septic shock patients: a Meta-analysis of randomized controlled study[J].J Intensive Care,2019,7:16.

[7]Higgins JPT,Green S.Cochrane Handbook for systematic reviews of interventions version 5.1.0[M/OL].The Cochrane Collaboration.2011.https://training.cochrane.org/handbook.

[8]Huang HB,Xu B,Liu GY,et al.Use of noninvasive ventilation in immunocompromised patients with acute respira-tory failure:a systematic review and Meta-analysis[J].Crit Care,2017,21:4.

[9]Wang M,Williamson JM.Generalization of the Mantel-Haenszel estimating function for sparse clustered binary data[J].Biometrics,2005,61:973-981.

[10]张天嵩,钟文昭,李博.实用循证医学方法学[M].湖南:中南大学出版社,2014.

[11]Olivo SA,Macedo LG,Gadotti IC,et al.Scales to assess the quality of randomized controlled trials: a systematic review[J].Phys Ther,2008,88:156-175.

[12]Huang HB,Jiang W,Wang CY,et al.Stress ulcer prophylaxis in intensive care unit patients receiving enteral nutrition:a systematic review and Meta-analysis[J].Crit Care,2018,22:20.

[13]Zhang ZH,Xu X,Ni HY.Small studies may overestimate the effect sizes in critical care Meta-analyses:a Meta-epidemiological study[J].Crit Care,2013,17:R2.

[14]Wetterslev J,Thorlund K,Brok J,et al.Trial sequential analysis may establish when firm evidence is reached in cumulative Meta-analysis[J].J Clin Epidemiol,2008,61:64-75.


没有账号?