科研星球

想要一篇高分SCI,这些临床统计的诀窍你要知道

做科研为什么要讲究统计?无非是因为人对周遭世界的理解会有主观偏倚。用数据说话,则显得更客观。


然而,医学统计,无论何时都是科研狗心中的痛,每一位科研狗都曾在医学统计的阴影下活的战战兢兢。


面对文献里五花八门的统计学名词、层出不穷的测试和模型,真是悔不当初!若是当初没在统计课上睡大觉,又何至于在解读研究数据结果时有种无从下手的感觉!


临床医生的时间宝贵,怎能在此处原地踏步?但医学统计的方法辣么多,到底哪一个才是自己真正要用的呢?


本文就来整理一下各个统计方法的选择方式,让大家再也不用担心迷失在统计的世界里。


其实,选择统计方法,是从了解自己的数据特征开始的。先要决定做什么类型的分析,是描述还是推论;其次判断数据类型;再次看变量多少,以及各变量的设计特征,就可以做出决策了。


而在得到数据的第一件事就是要分辨这个数据是计量资料还是计数资料——


计量资料指连续的数据,通常有具体的数值,如身高、体重、血压、血红蛋白、胆红素和白蛋白等。


计数资料则是对每组观察单位只研究其数量的多少,而不具体考虑某指标的质量特征,属非连续性资料。如将研究人群按照血型分为O型、A型、B型和AB型来统计各型的人数。



计量资料


两组样本数据


计量资料分析有两种:单因素和多因素。首先来说下简单的单因素比较,当要比较两组样本均数时首先要进行正态分布检验,之后才能进一步分析。


1)在样本与总体比较时,适用单样本t检验。

2)当设计数据是一一对应(配对资料),研究者关注个对的差值时,可以用配对t检验(变量的差值要服从正态分布)。

3)若两个样本的数据是完全随机化设计的,要用独立样本t检验(两样本都服从正态分布,且方差齐)。

4)只有服从正态分布的数据才能使用t检验!


如果样本数据不服从正态分布的话,那就只能用非参数检验,但其检验效能低于参数检验。


1)样本数据为配对资料时,用符号秩和检验。

2)样本数据为完全随机资料时,用Wilcoxon秩和检验。

3)只在不服从正态分布时使用,检验效能较低。


多组样本数据


当有两个以上样本的数据时,就不能再使用t检验了。这时候就要用到F检验,也就是SPSS里面的方差分析(ANOVA)。ANOVA应用的条件也和上面t检验一样,需要各组样本均服从正态分布,各样本的方差齐。


1)要比较多组完全随机的数据之间有无差异,可以用单因素方差分析(one-way ANOVA)。

2)多个完全随机数据组两两比较时,常用q检验(Nweman-Keuls test)。

3)多组数据是配对资料时,用两因素方差分析(two-way ANOVA)。


同样的,多组样本数据有一组不服从正态分布或不满足方差齐性时,就不能用ANOVA,也要使用非参数检验


1)多组完全随机样本用Kruskal-Wallis秩和检验。

2)多组配对样本用Friedman秩和检验。


多因素分析一般都用回归分析,包括直线回归和Logistic回归。



计数资料


计数资料里最常见的2×2表资料和R×C表资料。


2×2表资料


2×2表资料的统计分析是用卡方检验,但是需要根据不同的情况来做不同的处理。这里n代表表内的样本量,T代表理论数


1)当n≥40,所有T≥5时,可以直接用卡方检验。

2)当n≥40,且有1≤T<5时,用连续性校正公式计算。

3)当n<40,或T<1时,要用Fisher法计算。


R×C表资料


R×C表资料也是用卡方检验,不过还有几点注意事项。

卡方检验的理论数T不能太小(<1),且1≤T<5的格子数不超过格子总数的1/5


1)多个构成比的比较所得结论为有统计学差异,也只能说各组的构成比与总的构成比不全相等,并不说明各组之间也有差异。若要进行多重比较,需要用x2分割法检验。

2)对于有序R×C表资料属于等级资料,如临床检验结果分为-、+、++、+++,疼痛等症状的严重程度分为0(无疼痛)、1(轻度)、2(中度)、3(重度)等。就不宜使用卡方检验,宜选用秩和检验中的Kruskal-Wallis检验。


最简单来说就是下面这张图。




除了上述两类数据类型,还有生存资料和诊断试验资料,这两种数据则属于特定的分析方法,其数据特征和分析目的有其固定的特征——


生存分析:将终点时间的出现与否和达到终点所历经的时间结合起来分析的一类统计分析方法,需考虑每个研究对象出现某一结局所经历的时间长短,同时考虑时间的观察和随访时间。


诊断试验:对疾病进行诊断和鉴别诊断的试验方法,一般根据其目的可分为两类:准确度检验和一致性检验。



生存分析


生存分析一般有3类方法:


寿命表


使用用于分段统计的资料,即将整个观察时间划分成很多小的时间段,然后统计各时间段内发生终点时间(如死亡)和失访的数目。


Kanplan-Meier  


资料为各研究对象出现终点事件的具体时间或发生失访的具体时间,研究目的为比较两组或多组的研究对象生存曲线,一般需要同时绘制生存曲线。


Cox回归


其因变量(结果变量)为观察时间以及到达该观察时间时终点事件是否发生,而自变量(解释变量)可有多个变量(如连续变量、等级变量和分离变量)。



诊断试验资料


诊断试验统计分析中应用最广泛的是ROC曲线和Bland-Altman图


ROC曲线


要求资料为连续变量或等级变量,以金标准为分组依据,图示灵敏度和特异度来探讨该方法的准确性,也可以探讨多种试验诊断方法的检测效果。


Bland-Altman图


要求两种检测方法的检测结果为连续变量,用图表示两种检测方法的一致性。如果一致性较好,则两种方法可以相互替代。


至于其他那些花样繁复的统计学方法名称,已经不用管了,顺着这条路走,就能在各种统计软件的菜单中找到它们了。



更多统计相关干货技巧……

相关推荐:
QQ客服
电子邮箱
淘宝官店
没有账号?