科研星球

基因注释神器UCSC Genome Browser使用教程

近期,笔者接触到了一款神仙工具——UCSC Genome Browser,它可以帮助我们可视化某个基因的相关信息。


在 Wiki 百科上,这款工具的介绍是:

UCSC Genome Browser 是由加州大学圣克鲁斯分校(UCSC)托管的在线且可下载的基因组浏览器。它是一个交互式网站,可以访问来自各种脊椎动物和无脊椎动物物种的基因组序列数据,并集成了大量对齐注释。

浏览器也是一个图形查看器,优化后可以支持快速交互性能,可以快速可视化、检查和查询数据。并且,基因组浏览器数据库、浏览工具、可下载的数据文件和文档都可以在 UCSC 基因组生物信息学网站上找到

0.png
图片来源:网页截图

这个软件的优势是,如果你对某个基因或者突变感兴趣,可以通过它找到更多关于这个基因或者突变的信息,比如有哪些疾病和这个基因相关,在各个生物之间哪些序列是高度保守的。方便你进一步设计实验,或者提出其他的研究假说。

那么,这个软件如何使用?

笔者也是在某课程上学到的,当时老师以 KLF4 基因为例,提出了以下几个问题在下文中,笔者也会根据这些问题,具体介绍一下这款工具的操作方式)

1、描述 KLF4 基因外显子和内含子的结构?

2、KLF4 基因编码什么样的蛋白质?

3、找出 KLF4 基因上一个高度重复的非同义体突变;

4、说出和这个基因突变相关的癌症类型;

5、推测一下这个突变可以如何影响 KLF4 的功能。

首先,这个工具的网址是「http://genome-asia.ucsc.edu」,进入后点击「Genome Browser」。

0 (3).png
图片来源:网站截图

进入如下页面后,在搜索框中输「KLF4」,并选择「Homo sapiens」(人类)

0 (2).png
图片来源:网站截图

然后,我们就可以看到以下页面:

0 (1).png
图片来源:网站截图

我们依次来看一下每个部分分别代表什么意思。

下图代表了 KLF4 基因在染色体上的具体位置。选择「zoom in」(缩小)和「zoom out」(放大)可以将相关染色体的长度缩小和放大,进一步探索感兴趣的位置。

0 (5).png

图片来源:网站截图

(点击图片,可放大查看)


蓝色的黑色方块(用红色圈出)和箭头(用黄色圈出)分别代表外显子和内含子,将鼠标移动到相应位置,会显示外显子和内含子的名字,点击后可以查看到更多的信息。

由此,我们就回答了第一个问题——描述 KLF4 基因外显子和内含子的结构

0 (4).png
图片来源:网站截图

下面的柱状图代表了 KLF4 基因在 54 种组织中的表达量,每个颜色的柱子代表不同的组织,移动鼠标可查看组织的名字,点击进去有更详细的箱线图。

0 (6).png
图片来源:网站截图

以下是点击后显示的箱线图。

0 (7).png
图片来源:网站截图

下面的部分代表了 ENCODE(Encyclopedia of DNA Elements)记录的顺式调控元件(cis-regulatory element)候选者。

点开后可以看到 ENCODE 的具体方法,以及不同颜色的方块代表什么意思。比如这里出现的黄色,代表远端增强字样特征。

0 (9).png
图片来源:网站截图

点开这一部分后,会进一步解释 ENCODE 的数据来源和方法。

0 (8).png
图片来源:网站截图

紫色的部分表示组蛋白标记的富集情况,点击后,会显示关于组蛋白标记的详细解释,组蛋白会影响转录和染色质。

0 (10).png
图片来源:网站截图

以下蓝色的峰值图展现了 100 个脊椎动物用 PhyloP 方法分析得到的保守区域,可以看到外显子对应的区域相对来说保守程度高。

0 (11).png
图片来源:网站截图

以下黑色的图表,展现了恒河猴、小鼠、大象、鸡、青蛙、斑马鱼对应片段的保守区域,可以看到外显子对应的区域 DNA 相似度较高,较为保守。
0 (12).png
图片来源:网站截图

下面这个部分展示了单核苷酸多态性的情况。

0 (13).png
图片来源:网站截图

然后,下面的表格有各种模块和选项,可以挑选感兴趣的项目展示出来。

0 (14).png
图片来源:网站截图

让我们回到第二个问题,KLF4 基因编码什么样的蛋白质?

点击代表外显子的小方块,跳转出的页面中会介绍 KLF4 基因编码什么样的蛋白质。

0 (15).png
图片来源:网站截图

这个基因编码的蛋白质是属于 Kruppel 家族的转录因子。

再看第三个问题,找出 KLF4 基因上一个高度重复的非同义体突变。

0 (16).png
图片来源:网站截图

作为 TCGA 的一部分,可以从肿瘤的全基因组测序中找到体细胞突变。在Phenotype and Literature一栏,选TCGA Pan-cancer,选择full或者除hide」以外的模式,图表中就会显示 lollipop(棒棒糖)

0 (17).png
图片来源:网站截图

图表中出现的棒棒糖。

0 (18).png
图片来源:网站截图

另外 COSMIC 的模块也能找体细胞突变。在「Phenotype and Literature」一栏,选COSMIC Regions,也能得到体细胞突变的位置。

0 (19).png
图片来源:网站截图
0 (20).png
图片来源:网站截图

0 (21).png
图片来源:网站截图

再看第四个问题,说出和这个基因突变相关的癌症类型。

可以在「Phenotype and Literature」中选择Cancer Gene Expr模块,并选择show选项。

0 (22).png
图片来源:网站截图

0 (23).png
图片来源:网站截图

出现以下图表,每一种颜色的柱子代表着某种癌症,柱子的高度代表在所有样本中这个基因的中位表达量。把鼠标移动到一个柱子上,会出现具体癌症的名称,点开后也有更加详细的箱线图。

0 (24).png
图片来源:网站截图

下面看第五个问题,推测一下突变可以如何影响 KLF4 的功能。

在「Phenotype and Literature」中选「Variants in Papers」,选择「show」,就会出现文献中报道的变异的情况。

0 (25).png
图片来源:网站截图

0 (26).png
图片来源:网站截图

点击感兴趣的变异会跳转到介绍页面。

0 (27).png
图片来源:网站截图

点「Protein change and link to details」,能获得更多细节,包括以前发表的相关文献。

0 (28).png
图片来源:网站截图

以上就是今天分享的内容。

UCSC Genome Browser 还有很多其他功能,笔者也在不断探索中。如果想知道某个功能怎么用,建议可以看 UCSC Genome Browser 的教学资料或者视频,也可以在谷歌搜索框直接搜索关键词「UCSC Genome Browser+具体功能的英文」,一般都能找到答案。



本文作者:Sid,科研论文时间


没有账号?