科研星球

R语言统计与绘图:双基因生存曲线

前几天看文献的时候看到一个双基因联合分组的生存曲线的图,觉得挺有意思的。今天我就以TCGA库中的乳腺癌(BRCA)为例,教大家怎么画双基因的生存曲线~

下载.jpeg


一、安装和加载所需的包

RTCGA是一系列根据数据类型分离的包,相当于要先下载这些离线数据R包之后再直接从离线数据包里面获取TCGA的所有数据。最新的版本可以加载下图所有的包,可谓是非常强大了。

640.jpeg


下载 (1).jpeg


infoTCGA看到各种肿瘤的各种数据那是相当的丰富。

640 (1).jpeg



二、从TCGA数据库上获取乳腺癌

的临床数据

640.png


至此便获得了乳腺癌的临床数据。从图可以看出该数据集一共有1098个样本。

下载 (2).jpeg



三、从TCGA数据库上获取乳腺癌

相关基因的表达数据并整合

加载基因表达数据所需要的包。选择需要的GeneA和GeneB整合到之前的生存数据上。值得注意的是这里的%>%是一个管道符号,作用是将前一个计算得到的结果作为第二个函数的第一个参数。dplyr包是 Hadley Wickham (ggplot2包的作者,被称作“一个改变R的人”)的杰作,他将原本plyr 包中的ddply()等函数进一步分离强化,专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口。
下载 (3).jpeg



此时得到的exprSet如图:

640 (2).jpeg


四、开始生存分析
下载 (4).jpeg


下面便是全文的关键。如何分组仁者见仁智者见智。我这里新建了一列用来标记基因表达高低。应该是比较通俗易懂的方法。


下载 (5).jpeg


此时由于整合的缘故,数据框只剩590个样本。如图,最后一列为分组的标志。

下载 (6).jpeg


最后就是常规的ggsurvplot画图。小伙伴们也可以用help命令仔细阅读该包的使用方法,做出你所需要格式的图片,这里就不再赘述。

下载 (7).jpeg


至此,双基因的生存曲线就画完了。总的来说,双基因的生存曲线和单个基因的差别不大,重要是分组的思路。


没有账号?