科研星球

为什么方差分析后两两比较不能直接用t检验?

为什么两两比较不能用t检验


在医学研究中,方差分析,卡方检验,秩和检验等方法都会碰到多组数据的比较,多组均数、多组率、多组中位数的比较。多组数据比较紧跟着的是两两比较。


很多人对为什么两两比较不能直接用t检验、直接用两样本率的卡方检验,直接用两样本秩和检验表示困惑。现在我以方差分析后的两两比较为例,做一些通俗易懂的介绍。



但凡学过《医学统计学》的朋友,可能都了解一些,多组均数往往采用方差分析,而方差检验只能说明多组之间总体均数不全相同,不能说明任何两组之间存在着统计学差异。可在此基础上开展多重比较的方法(俗称两两比较),以探索两组两组之间有没有统计学差异。


怎么比较?两组均数比较,我们之前讲过用t检验,这里多次两两比较可以直接用t检验吗?


不能!多组数据两两比较用t检验会增加一类错误α,也就是假阳性错误。这意味着本来你的研究应该是阴性结果,但如果两两比较用t检验,您的结果可能就是阳性。


一般情况下,我们一项研究的一类错误α值设定为0.05,因此,我们才有P<0.05,有统计学意义的结论。但是这个结论存在一定的风险,或者说,我们的结论可能5%的可能性是错误的,是假的阳性结论。


5%的假阳性是公认的可以被接受的,但是如果一个项目多次两两比较,假阳性的概率可不是5%的概率了。


原理如下:当有k个均数需作两两比较时,同时比较的次数共有ck(k-1)/2。设每次检验所用Ⅰ类错误的概率水准为α,累积Ⅰ类错误的概率为α,则在对同一实验资料进行c次t检验时,在样本彼此独立的条件下,根据概率乘法原理,其累积Ⅰ类错误概率αc有下列关系: α1(1α)c   例如,设α0.05c=3(k=3),其累积Ⅰ类错误的概率为α1(1-0.05)3=1-(0.95)3 = 0.143

 

本来假设检验假阳性错误是5%,现在有14.3%,太多了。容易把阴性结果说成阳性!虽然,可能发表文章是很有利的,但是这是不合适的





通俗的案例说明多重比较的假阳性问题


举个例子,我希望比较不同班级的医学统计学期末考试成绩。


我们首先假如1班和2班成绩平均成绩都是80分,然后实际上我们每班各抽出10名来作为样本来比较。虽然总成绩80分,但是样本得到的成绩可能不一样,当然,大多数都是一样,如果我们进行100次这样的抽样比较,大部分成绩差不多,至少少数会出现差别有点大的情况,如果开展t检验,100次抽样比较,95次P>0.05,还有5次P值<0.05。


所以我会发现,即使2个班级总体均数一样,也会出现5次的假阳性结果。这个假阳性结果的界值就是水准为α,一般为0.05。当然假阳性不可避免,5%的假阳性我们是可以接受的,所以一般检验水准α=0.05。


下载.jpeg


现在,我们假如1班和2班、3班成绩平均成绩都是80分,际上我们每班也各抽出10名来作为样本来比较。然后1班比2班,2班比3班,3比1班。也采用t检验,P<0.05 为有统计学意义。

这样会出现什么情况?1vs2班出现了5次的假阳性,1vs3班出现了5次的假阳性,2vs3班出现了5次的假阳性,最多100次抽样活动会出现15次的假阳性,这个假阳性率太高了。


下载 (1).jpeg

假阳性太高,对写文章其实是有利的,3次t检验,只要一次有阳性结果,你可以和审稿人说,你看我的文章有阳性结果,谁和谁比较有差异哦。岂不知,你的结果很可能是假的、虚的阳性。


用中医的话说,叫做“虚阳上亢”。


这种“虚阳上亢”的情况随着比较次数的增加,会更为严重,比如,10组数据的两两比较,假阳性高达50%!


那么怎么解决呢?那就是严格控制总的假阳性错误率,控制在0.05。具体怎么做呢?最容易理解的就是a分割。两组均数比较仍然可以做t检验,但是每次t检验的α不再是0.05,而是等于α/比较次数。比如三组数据两两比较,那么新的α=0.05/3=0.017


下载 (2).jpeg

这样一来,结果就相对来说,假阳率这个错误概率就低很多了。


但是另外问题来了,多次两两比较,从总的局面来看,假阳性率是控制了,但是对某个单个比较来说,是不利。比如12班的比较,P<0.017才有统计学意义,这就很难得到了(因为原先是P<0.05就被认为有统计学意义了)。


这样的困境,一个解决办法就是采用挑选若干组别进行分析。大概有两种方案,第一种,以某一组作为对照,比如都是以1班作为对照,2班和1班,3班和1班比,那么P<0.025就有统计学意义了;


第二种,如果比较的组数不再3组,而是4组5组,以某一组作为对照情况下,比较次数也很多,a分割也很小了。那么可以有目的的挑选若干组别比较。比如四组人群,我就比较12、14两次,那么这个时候P<0.025也可以被认为有统计学意义了(本例四组比较若两两比较总共10次,P<0.005才有统计学意义)


对于第二种方法,那么有人就会说,那么我能不能分析时候,专挑P值较小的拿过来比较? 


这是绝对不行的!有目的的挑选比较组别,必须在研究设计时候,就定下来,或者在数据开始整理分析之前,必须确定!否则是一种不规范的行为。



以下内容是上述通俗版介绍的详细说明,有兴趣请继续学习




如何进行多重比较


到处飘阳的虚假繁荣,场景很多见,在医学研究上包括以下几类:

1)多组数据两两比较

2)多个结局指标比较

3)临床试验的期中分析

4)亚组比较


上述这些场合下,普通的假设检验比如多次t检验直接分析(α=0.05),均会增加一篇论文总体的一类错误α值


为此,本文介绍基本的控制一类错误的方法,包括基本统计算法、a分割法、人工规避法。


α分割法:多重比较次数较多时,可对α进行分割处理。比较n次,新的检验水准α’=α/n,比如三组数据两两比较,α’=0.05/3=0.017,在此基础上仍然可以进行两组两组均数比较的t检验。


统计算法或者通俗来说是软件法:这一类其实是泛泛归类,特指基于数据进行统计量和α值全面调整的方法,这些方法软件自动分析,其中SPSS软件列出14种算法,如LSD、Tukey方法等


人工规避法:通过人为预先设定,控制比较的次数。比如,三组数据多重比较时,不再两两比较,只比较第一组和第二组;通过降低比较次数甚至只比较一次,那便无需通过校正α值就可以控制假阳性了。




多重比较如何选择方法


多重比较还是太复杂,估计你还是不懂。我这里提供给几条做法。这些做法为本人习惯,并非100%正确,请谨慎使用。


1. 多重比较可以采用a分割,也可以采用统计软件算法。初学者当然使用软件自带的LSD, Bonferroni等方法了。


2.Bonferroni是保守的方法,但是我还是蛮喜欢用,实际上临床研究最为认可;但如果你希望你的结果容易得到一些阳性结果,那么采用最灵敏的LSD方法。折中的办法是Turkey 和Scheffe法。如果比较的各组样本量相等,Tukey法效率较高,所以样本量相似的时候,可以采用Tukey方法;如果样本量不同,则推荐Scheffe。


3.如果你不想完全两两比较,采用dunnet 方法,它以某一组作为对照。


4.a分割即你的统计方法不变,两组定量数据比较仍然可以采用t检验,但是P值不再小于0.05就被认为有统计学意义,而是P<0.05/比较次数。 懂了一点多重比较的理论的同学可以使用。


5.超过4组数据多重比较时,不要全部进行两两比较(全部两两比较要进行10次。此时,你想要某一个感兴趣的比较出现阳性结果会很难)。


比如,4组比较,我感兴趣的是1 和 4组有没有差别,但是如果采用全部两两比较时,很难得到1 和 4的差别,因为单次比较的P要小于0.005才有统计学意义。那么怎么办呢?


这时,可以挑选若干组进行比较,采用α分割法控制一类错误。比如,4组比较,我就比较1 vs 4,1 vs 3,那么比较两次α=0.05/2=0.025, 即这个时候可以采用t检验,当P<0.025便具有统计学意义。不过注意是,这种挑选比较的方式,必须在数据分析之前甚至在科研设计之前,就事必须先设定好,而不是谁有阳性就挑选谁?


来源:医学论文与统计分析

没有账号?