科研星球

连续变量转为二分类变量的最佳截断值,该如何确定?

作者:赵天业;审稿:龚志忠


在分析生存资料时,很多研究者会常规进行单因素生存分析。生存资料中经常含有连续型变量,而最常用的单因素生存分析方法——Kaplan–Meier法要求协变量为分类变量。


为了绘制 Kaplan–Meier曲线、进行Log-rank检验,可以将连续型变量分为“高”、“低”两组,转为二分类变量,这就需要确定截断值


本文将介绍一种基于Jamovi软件的零代码实现的确定连续型变量转化为二分类变量的最佳截断值的方法


需要指出的是,在医学研究中,草率地将连续型变量转为二分类变量,意味着大量信息的丢失,不仅会降低统计效能,还会产生新的偏倚[1-2]。另外,不管如何分组,都不可忽视分组方案的可解释性。

 

1、软件简介


Jamovi是一款基于R、由网络社群维护的免费统计软件。Jamovi为用户提供交互式界面,对用户较为友好,并可以加载扩展模块。目前在官网有四十多个扩展模块可供下载,涵盖贝叶斯统计、聚类分析、中介效应分析、结构方程等诸多方法


本期内容介绍的方法使用的就是由土耳其的病理科医生Serdar Balci博士开发的扩展模块Survival Module of ClinicoPath。

 

2、安装步骤


首先,https://www.51xxziyuan.com/45/7615.html  )下载并安装Jamovi(图1)。

 

0.jpg

图1 Jamovi下载页

 

在官网的resources-jamovi library

(https://www.jamovi.org/library.html)(图2)找到SURVIVAL MODULE OF CLINICOPATH FOR JAMOVI(图3),下载“jsurvival”模块(Survival Module of ClinicoPath)的jmo文件。


0 (6).jpg

图2 jamovi library


0 (1).jpg

图3 下载Survival Module of ClinicoPath

 

运行Jamovi,在Analysis选项卡,点击右侧的Modules(加号图标),点击jamovi library,在弹出窗口中切换到Sideload选项卡(图4)。

点击上传图标,加载jmo文件。也可以在这个弹出窗口的Available选项卡一键下载、加载“jsurvival”模块。


0 (2).jpg

图4 加载Survival Module of ClinicoPath

 

也可以访问ClinicoPath jamovi Module项目主页(https://www.serdarbalci.com/ClinicoPathJamoviModule/)了解如何安装Survival Module of ClinicoPath(图5)。


0 (4).jpg

图5 ClinicoPath jamovi Module项目主页

 

3、操作演示


加载“jsurvival”模块后,在Analysis选项卡点击Survival,会出现Survival Analysis for Continuous Variable的选项(图6)。


0 (8).jpg

图6 Survival Analysis for Continuous Variable

 

这里以数据集“mayo”为例进行演示,文末附有数据集下载链接。这个数据集(图7)来自R package survivalROC,有312个观测,四个变量分别是time(生存时间)、censor(是否发生结局事件)、mayoscore5(一个使用五项指标计算的评分)、mayoscore4(一个使用四项指标计算的评分)。


mayoscore5是一个连续型变量,我们寻找这个变量转为二分类变量的最佳截断值。

 

0 (9).jpg

图7 mayo数据集

 

将csv文件导入Jamovi,选择Survival Analysis for Continuous Variable,设置参数 :


Time Elapsed选择变量time,Outcome选择变量censor,Event Level选择“1”,Continuous Explanatory Variable选择变量mayoscore5,勾选下方Finding Cut-off下的Cut-off for Continuous Explanatory和Survival Plot(图8)。


在右侧的结果(Results)区域可以看到连续型变量mayoscore5的最佳截断值(图9)为6.63,标准化的Log-rank检验统计量为11.3,以及按照最佳截断值分组的Kaplan–Meier曲线(图10)。


还可以在Median Survival Summary and Table中看到mayoscore5高、低两组的中位生存时间分别为1000天和4191天。


Cox Regression Summary and Table中展示了单因素Cox回归分析的结果,但没有提供Log-rank检验的统计量和P值。Jamovi中的数据和统计分析结果可以保存为omv文件,图片可以以pdf、png、svg或eps格式导出。


0 (5).jpg

图8 参数设置

 0 (7).jpg

图9 最佳截断值


0 (3).jpg

图10 按照最佳截断值分组的Kaplan–Meier曲线

 

获得截断值后,可以在SPSS中将连续型变量转为二分类变量(图11)。导入数据后,转换-重新编码为不同变量,选择变量mayoscore5,设置新变量的变量名,选择“旧值与新值”。“范围,从最低到值”(≤)6.63,新值设为2;“范围,从值到最高”(>)6.63,新值设为1。即可生成二分类变量,用于绘制 Kaplan–Meier曲线和进行Log-rank检验。

 

0 (10).jpg

图 11 在SPSS中将连续型变量转为二分类变量


4、原理解释


Survival Module of ClinicoPath是如何确定连续型变量的最佳截断值的,经过对底层函数的验证,可以推测Survival Module of ClinicoPath通过Maximally Selected Test Statistics,选择Log-rank检验的统计量最大(相应地,P值最小)的截断值,将其认定为“最佳截断值”,是一种以结果为导向的方法[3] 。

 

这种确定最佳截断值的方法已被一些研究者使用,例如2021在《Biomed Research International》(影响因子:3.411)上发表的一篇文章[4]在Results中提到:


Using the maximally selected test statistics from R package survminer, we determined the best cutoff points for survival analysis of the above four genes.

 

但是,除了将连续型变量转为分类变量导致的信息损失,Maximally Selected Test Statistics的方法并不是被公认的“最优方案”。事实上,近年仍有学者在开发在医学研究中如何确定最佳截断值,从而将连续变量转化为二分类变量的新方法[5-6],研究者或许可以进行更多的尝试。

 

数据集下载

链接: 

https://pan.baidu.com/s/1ERt0Co_I18if8Maz2Ixxvg?pwd=szya 

提取码: szya 


参考文章:

[1] ROYSTON P, ALTMAN DG, SAUERBREI W. Dichotomizing continuous predictors in multiple regression: a bad idea[J]. Stat Med, 2006, 25(1):127-141. DOI: 10.1002/sim.2331.

[2] NAGGARA O, RAYMOND J, GUILBERT F, et al. Analysis by categorizing or dichotomizing continuous variables is inadvisable: an example from the natural history of unruptured aneurysms[J]. AJNR Am J Neuroradiol, 2011, 32(3):437-440. DOI: 10.3174/ajnr.A2425.

[3] surv_cutpoint: Determine the Optimal Cutpoint for Continuous Variables. https://www.rdocumentation.org/packages/survminer/versions/0.4.9/topics/surv_cutpoint

[4]  JI Q, CAI Y, SHRESTHA SM, et al. Construction and Validation of an Immune-Related Gene Prognostic Index for Esophageal Squamous Cell Carcinoma[J]. Biomed Res Int, 2021, 2021:7430315. DOI: 10.1155/2021/7430315.

[5]ASSAREH H, SMITH I, MENGERSEN K. Change point detection in risk adjusted control charts[J]. Stat Methods Med Res, 2015, 24(6):747-768. DOI: 10.1177/0962280211426356.

[6]ELLENBERGER D, LAUSEN B, FRIEDE T. Exact change point detection with improved power in small-sample binomial sequences[J]. Biom J, 2021, 63(3):558-574. DOI: 10.1002/bimj.201900273.


没有账号?