科研星球

如何将你目的基因和研究的疾病联系起来,这个网站可以帮到您

科学研究比较特殊,是建立在过往发现上的一门学问,不论科学的哪一分支的研究人员,其实都站立在巨人的肩膀上。过去的发现承载着各种各样的信息,对于现在的我们来说,无时无刻不处在一个信息过载的世界里。我们需要从海量信息里去伪存真,这也是我一直向大家推荐文本挖掘工具的原因。

今天给大家推荐的这个工具名字是TIN-X。这个网站的特别之处在于,他提供的信息有两个维度,一个是Importance,一个是Novelty。这也是我们科研工作中最看重的,两者兼具最好,两者兼具还没有人做过就更好了。那么到底还有没有这样的蛋白留给我们呢?下面就要靠你自己去挖挖看了。

TIN-X

https://www.newdrugtargets.org/

0.png

从网址就能看出这个网站建立的目的是什么?TIN-X是一个交互式可视化工具,用于发现疾病和潜在药物靶点之间的有趣关联。

进一步解释一下:利用自然语言处理来识别PubMed摘要中的疾病和蛋白质。利用这些数据,得出两个指标:新颖性重要性。新颖性衡量的是关于一个给定概念(如目标或疾病)的特定文献的相对稀缺性,而重要性衡量的是两个概念之间关联的相对强度。然后建立网络工具,使用户能够探索潜在药物靶点的新颖性和它们对疾病的重要性之间的关系。

具体的标准有三个:(1)在许多摘要中提到的靶点,如果也提到了某种特定的疾病,则很可能对该疾病具有重要意义;(2)在较少的摘要中提到的靶点或疾病则更新颖;(3)只提到少数靶点和疾病的摘要比提到许多靶点和疾病的摘要更特异,应给予更大的重视。

下面我们来看具体的例子。

0 (2).png

我们选择了Cancer作为疾病,看一下哪些蛋白在肿瘤中最为重要。从上图可以看出来,TIN-X允许用户查询、浏览和显示以下蛋白家族的疾病靶点关联:离子通道、G-蛋白偶联受体(GPCRs)、核受体(NRs)和激酶。如图所示,最重要的蛋白就是TP53,左上方代表着该蛋白在肿瘤研究中发表的文章最多,从侧面显示出其重要性,但是新颖性就没这么高了。我们最为关心的右上方并没有蛋白显示,可见真正又重要又新颖的蛋白真的是凤毛麟角。

0 (1).png

上图给出了太多的蛋白,我们可以根据自己的研究进一步的优化。比如我们找到肠癌,再进一步局限到肠腺癌,就剩下1702个,再去找找哪些基因研究的比较少,是不是有课题思路了?


没有账号?