标准均值差(SMD)、Z-score详解_统计与绘图_实用技巧

标准均值差SMD：

Cohen’ d，Hedge’ G，Glass’ Δ

在医学研究文献中，组间的平均差异通常被报告为原始测量单位的未标准化差异，例如收缩压的平均差异为15mmHg，因为这些单位具有内在的医学含义。

但是在心理学或社会科学等其他研究领域，量表通常没有内在的计量单位。因此，效应量大小通常以标准均值差（SMD）的形式进行报告，使用Cohen’ d，Hedge’ G，Glass’ Δ。SMD为两组之间均值（或比例或等级）的差异除以标准差。

简单地说，SMD为1表示两组的均值相差1个标准偏差。SMD计算根据所使用的标准差类型不同而不同，组间的合并标准差是最为常见的。

虽然在医学研究文献中，未标准化的差异，例如以平均值或比例差异表示的治疗效果更为常见，但也经常会用到SMD。例如，在Meta分析中，当纳入研究的结果使用不同的量表进行测量时，通常使用SMD来汇总数据。

而在医学研究中，SMD最常用的地方可能是在随机对照试验中，或进行倾向性评分匹配或加权前后，来评估两组组间基线资料的均衡性。

Cohen最初提出以0.2、0.5和0.8作为SMD的划分界值，分别对应效应量的小、中、大。这种解释在文献中被广泛接受。在评估组间的均衡性时，SMD<0.1通常表示均衡性较好，可以认为研究组之间的差异很小。

标准分数Z-score

Z-score以标准偏差为单位，描述了数据点与平均值之间的距离。换句话说，Z-score为0表示平均值，Z-score为2表示高于平均值的2个标准偏差，Z-score为−1表示低于平均值的1个标准差。虽然医学文献中通常没有明确报告Z-score，但在大多数医学研究中都隐含使用了Z-score。

从样本到总体进行推断时，我们非常依赖于类似的Z统计量及相关的t统计量，因为它们构成了各种假设检验中统计推断的基础。这些统计量检验的是样本均值之间的距离（或均值差异）以及零假设（通常为0）。

回归分析的结果偶尔报告标准化回归系数，如果在分析之前将模型中的所有变量转换为Z-score，则可获得标准化回归系数。

虽然Z-score在理论上可以取无限值，但实际上观察到Z-score绝对值>5的的概率基本为0，甚至大于3的值也都不太可能，因为当数据呈正态分布时，99.7%的数据点都在均值±3个标准差以内。

一般来说，绝对值越高，观察到至少该量级的值的概率就越低。因此，Z-score是评估某一特定数据点与同一样本中的其他数据点进行比较或与参考总体进行比较正常或异常程度的一种便捷方法。

例如，Z-score通常用于生长和体重图表，以确定儿童发育异常，以及年龄调整后的BMI，Z-score>±2分别被解释为超重或体重不足。类似地，许多实验室检测的参考范围被定义为包含中间95%的健康参考人群，对应的Z-score大约为-2到+2。根据一般解释，Z-score绝对值< 2表示在某些“正常”范围内，并且≥3的发生概率很低，因此我们通常将Z-score绝对值≥2作为异常值，≥3为高度异常值。

然而，需要注意的是，在−2和+2之间并不一定意味着观察结果是“正常的”。例如，BMI比均值高1个标准偏差（对应的Z-score=+1）表明儿童具有超重的风险。此外，即使实验室检测值仍在“正常”范围内，但如果检测值从一次测量到另一次测量出现显著升高或降低的变化，例如随着时间的推移，血红蛋白值下降，也是临床需要关注的问题。

相反，Z-score>±2也并不意味着这些值就自动代表某些异常。事实上，在正态分布中，Z-score>±2也是完全正常的，因为大约5%的数据点不会位于Z-score从− 2到+2之间。

此外，当检查多个数据点的异常值时，例如当对一名患者同时进行多个实验室检测时，偶然观察到至少出现1个异常值的概率将会显著增加。临床医生需要谨慎使用基于健康患者的正常范围。

值得注意的是，当根据正常或健康患者的Z-score确定人群的“参考”或“正常”范围时，不应该假设+2和−2用作区分“正常”和“异常”患者的切点，因为95%的“正常”患者将在该范围内。

相反，为了更好的区分“正常”和“异常”患者的切点，必须将正常和异常患者的数据分布以及他们的重叠部分结合起来。这需要通过诊断试验来完成的，可以选择一个使敏感度和特异度最大化的切点。

表1、统计指标的界值和解释说明