科研星球

从肿瘤患者基因特征到治疗,nature protocols数据库使用指南

对于医学研究而言,除了要了解疾病的进展,其中重要的一个部分还是通过我们的研究来指导临床治疗。这样才能让临床患者可以受益。目前在在肿瘤治疗方面,基于基因特征的个性化治疗指南方案越来越多。但是目前研究的个性化治疗方案还是有很多需要解决的问题。基于这个想法,所以就有了OCTAD(http://octad.org/)这个数据库。


0 (7).jpeg

这个数据库综合了患者基因组学的数据和药物治疗组学的数据。进而可以在输入患者的基因特征来预测出患者的用药。


0.jpeg



背景数据集


通过以上的介绍,我们知道如果要进行这样的数据就需要两种数据集。一种是患者基因特征的数据集。另外一个则是药物治疗靶点的数据集。


在患者基因特征特征,目前患者特征最全的就是TCGA数据集了。同时大型的综合测序数据库还有TARGET、GTEx以及Met500(一个肿瘤转移相关的数据集,具体的可以看我们明天的帖子)。因此这个数据库就把这些样本都包括了。


0 (1).jpeg


同时在治疗靶点的数据集上,这个网站主要还是使用了LINCS数据集。简单来说LINCS是一个NIH旗下一个通过各种方式来处理细胞(比如:药物处理),进而来观察细胞处理前后基因特征变化的数据库。


0 (2).jpeg



数据计算原理


数据库计算的原理主要是是通过基于某一个特定肿瘤样本的和正常对照组织进行差异表达分析,得到差异基因。基于这些差异基因,在不同的药物处理组当中进行特征排序,进而选择那些也影响这些类似差异基因的药物。这样就说明这些药物可能影响这类患者的治疗。

0 (6).jpeg

在这个计算过程中,作者提到了一个RGES得分(the Reversal Gene Expression Score)。基于这个得分来说明这些分组相关的基因和药物表达谱的关系。例如一个负的RGES(例如,-0.4)代表基于特定分组的癌症和正常分析的上调基因在这个特定的药物表达谱当中下调或者下调的基因在药物表达谱当中上调。

需要注意的是,在网页版使用当中,在差异基因计算当中,对照组只能是正常组织。如果我们想要分析比如转移肿瘤和非转移肿瘤的话,那可以使用OCTAD的R语言版本进行分析



数据库使用


在理解了背景数据集和计算原理之后,对于数据库的使用,倒是十分的简单了。我们只需要1) 选择特定样本;2) 选择对照样本数,4) 即可预测出这个特定人群可以用什么药。


例如,我们想要分析影响肺癌TP53突变患者的药物的话。那就是

在病例组界面选择特定的分组的样本。


0 (3).jpeg


选择多少对照样本。在确定对照样本之后,数据库会根据不同组织的基因表达的相关程度来选择样本。


0 (4).jpeg


选择差异表达分析的算法。这里提供了edgR和limma两种算法。同时可以观察差异基因的热图。


0 (5).jpeg


选择药物预测的数据库。


0 (8).jpeg


最后就获得了,具体的药物以及这个药物的靶点是什么。

0 (9).jpeg



总的来说


以上就是这个数据库的主要内容。如果有用到从肿瘤特征表达到基因药物预测的话,可以尝试一下数据库。不过就是数据库的反应有时候会慢很多。如果会用R语言版本的话,可以尝试使用R语言。关于R语言的分析代码,在作者的文献当中都有讲解,感兴趣的可以去看一下的。


没有账号?