为什么方差分析后两两比较不能直接用t检验？_统计与绘图_实用技巧

为什么两两比较不能用t检验

在医学研究中，方差分析，卡方检验，秩和检验等方法都会碰到多组数据的比较，多组均数、多组率、多组中位数的比较。多组数据比较紧跟着的是两两比较。

很多人对为什么两两比较不能直接用t检验、直接用两样本率的卡方检验，直接用两样本秩和检验表示困惑。现在我以方差分析后的两两比较为例，做一些通俗易懂的介绍。

但凡学过《医学统计学》的朋友，可能都了解一些，多组均数往往采用方差分析，而方差检验只能说明多组之间总体均数不全相同，不能说明任何两组之间存在着统计学差异。可在此基础上开展多重比较的方法（俗称两两比较），以探索两组两组之间有没有统计学差异。

怎么比较？两组均数比较，我们之前讲过用t检验，这里多次两两比较可以直接用t检验吗？

不能！多组数据两两比较用t检验会增加一类错误α，也就是假阳性错误。这意味着本来你的研究应该是阴性结果，但如果两两比较用t检验，您的结果可能就是阳性。

一般情况下，我们一项研究的一类错误α值设定为0.05，因此，我们才有P<0.05,有统计学意义的结论。但是这个结论存在一定的风险，或者说，我们的结论可能5%的可能性是错误的，是假的阳性结论。

5%的假阳性是公认的可以被接受的，但是如果一个项目多次两两比较，假阳性的概率可不是5%的概率了。

原理如下：当有k个均数需作两两比较时，同时比较的次数共有c= k(k-1)/2。设每次检验所用Ⅰ类错误的概率水准为α，累积Ⅰ类错误的概率为α’，则在对同一实验资料进行c次t检验时，在样本彼此独立的条件下，根据概率乘法原理，其累积Ⅰ类错误概率α’与c有下列关系： α’＝1－(1－α)^c 例如，设α＝0.05，c=3(即k=3)，其累积Ⅰ类错误的概率为α’＝1－(1-0.05)³=1-(0.95)³ = 0.143

本来假设检验假阳性错误是5%，现在有14.3%，太多了。容易把阴性结果说成阳性！虽然，可能发表文章是很有利的，但是这是不合适的。

通俗的案例说明多重比较的假阳性问题

举个例子，我希望比较不同班级的医学统计学期末考试成绩。

我们首先假如1班和2班成绩平均成绩都是80分，然后实际上我们每班各抽出10名来作为样本来比较。虽然总成绩80分，但是样本得到的成绩可能不一样，当然，大多数都是一样，如果我们进行100次这样的抽样比较，大部分成绩差不多，至少少数会出现差别有点大的情况，如果开展t检验，100次抽样比较，95次P>0.05，还有5次P值<0.05。

所以我会发现，即使2个班级总体均数一样，也会出现5次的假阳性结果。这个假阳性结果的界值就是水准为α，一般为0.05。当然假阳性不可避免，5%的假阳性我们是可以接受的，所以一般检验水准α=0.05。

下载.jpeg

现在，我们假如1班和2班、3班成绩平均成绩都是80分，际上我们每班也各抽出10名来作为样本来比较。然后1班比2班，2班比3班，3比1班。也采用t检验，P<0.05 为有统计学意义。

这样会出现什么情况？1vs2班出现了5次的假阳性，1vs3班出现了5次的假阳性，2vs3班出现了5次的假阳性，最多100次抽样活动会出现15次的假阳性，这个假阳性率太高了。

下载 (1).jpeg

假阳性太高，对写文章其实是有利的，3次t检验，只要一次有阳性结果，你可以和审稿人说，你看我的文章有阳性结果，谁和谁比较有差异哦。岂不知，你的结果很可能是假的、虚的阳性。

用中医的话说，叫做“虚阳上亢”。

这种“虚阳上亢”的情况随着比较次数的增加，会更为严重，比如，10组数据的两两比较，假阳性高达50%！

那么怎么解决呢？那就是严格控制总的假阳性错误率，控制在0.05。具体怎么做呢？最容易理解的就是a分割。两组均数比较仍然可以做t检验，但是每次t检验的α不再是0.05，而是等于α/比较次数。比如三组数据两两比较，那么新的α=0.05/3=0.017

下载 (2).jpeg

这样一来，结果就相对来说，假阳率这个错误概率就低很多了。

但是另外问题来了，多次两两比较，从总的局面来看，假阳性率是控制了，但是对某个单个比较来说，是不利。比如12班的比较，P<0.017才有统计学意义，这就很难得到了（因为原先是P<0.05就被认为有统计学意义了）。

这样的困境，一个解决办法就是采用挑选若干组别进行分析。大概有两种方案，第一种，以某一组作为对照，比如都是以1班作为对照，2班和1班，3班和1班比，那么P<0.025就有统计学意义了；

第二种，如果比较的组数不再3组，而是4组5组，以某一组作为对照情况下，比较次数也很多，a分割也得很小了。那么可以有目的的挑选若干组别比较。比如四组人群，我就比较12、14两次，那么这个时候P<0.025也可以被认为有统计学意义了（本例四组比较若两两比较总共10次，P<0.005才有统计学意义）

对于第二种方法，那么有人就会说，那么我能不能分析时候，专挑P值较小的拿过来比较？

这是绝对不行的！有目的的挑选比较组别，必须在研究设计时候，就定下来，或者在数据开始整理分析之前，必须确定！否则是一种不规范的行为。

以下内容是上述通俗版介绍的详细说明，有兴趣请继续学习

如何进行多重比较

到处飘阳的虚假繁荣，场景很多见，在医学研究上包括以下几类：

1）多组数据两两比较

2）多个结局指标比较

3）临床试验的期中分析

4）亚组比较

上述这些场合下，普通的假设检验比如多次t检验直接分析（α=0.05），均会增加一篇论文总体的一类错误α值。

为此，本文介绍基本的控制一类错误的方法，包括基本统计算法、a分割法、人工规避法。

α分割法：多重比较次数较多时，可对α进行分割处理。比较n次，新的检验水准α’=α/n，比如三组数据两两比较，α’=0.05/3=0.017，在此基础上仍然可以进行两组两组均数比较的t检验。

统计算法或者通俗来说是软件法：这一类其实是泛泛归类，特指基于数据进行统计量和α值全面调整的方法，这些方法软件自动分析，其中SPSS软件列出14种算法，如LSD、Tukey方法等

人工规避法：通过人为预先设定，控制比较的次数。比如，三组数据多重比较时，不再两两比较，只比较第一组和第二组；通过降低比较次数甚至只比较一次，那便无需通过校正α值就可以控制假阳性了。

多重比较如何选择方法

多重比较还是太复杂，估计你还是不懂。我这里提供给几条做法。这些做法为本人习惯，并非100%正确，请谨慎使用。

1. 多重比较可以采用a分割，也可以采用统计软件算法。初学者当然使用软件自带的LSD， Bonferroni等方法了。

2.Bonferroni是保守的方法，但是我还是蛮喜欢用，实际上临床研究最为认可；但如果你希望你的结果容易得到一些阳性结果，那么采用最灵敏的LSD方法。折中的办法是Turkey 和Scheffe法。如果比较的各组样本量相等，Tukey法效率较高，所以样本量相似的时候，可以采用Tukey方法；如果样本量不同，则推荐Scheffe。

3.如果你不想完全两两比较，采用dunnet 方法，它以某一组作为对照。

4.a分割即你的统计方法不变，两组定量数据比较仍然可以采用t检验，但是P值不再小于0.05就被认为有统计学意义，而是P<0.05/比较次数。懂了一点多重比较的理论的同学可以使用。

5.超过4组数据多重比较时，不要全部进行两两比较（全部两两比较要进行10次。此时，你想要某一个感兴趣的比较出现阳性结果会很难）。

比如，4组比较，我感兴趣的是1 和 4组有没有差别，但是如果采用全部两两比较时，很难得到1 和 4的差别，因为单次比较的P要小于0.005才有统计学意义。那么怎么办呢？

这时，可以挑选若干组进行比较，采用α分割法控制一类错误。比如，4组比较，我就比较1 vs 4，1 vs 3，那么比较两次α=0.05/2=0.025，即这个时候可以采用t检验，当P<0.025便具有统计学意义。不过注意是，这种挑选比较的方式，必须在数据分析之前甚至在科研设计之前，就事必须先设定好，而不是谁有阳性就挑选谁？

来源：医学论文与统计分析

科研星球

为什么方差分析后两两比较不能直接用t检验？

标签