研究转录因子与非编码RNA的神器，ChIPBase数据库超详细使用指南_数据库使用指南_实用技巧

ChIPBase数据库网址为
http://rna.sysu.edu.cn/chipbase/，推荐大家使用的时候使用Google浏览器哦，会避免很多不必要的bug。

使用数据库的同时请记得引用参考文献：
ChIPBase v2.0: decoding transcriptional regulatory networks of non-coding RNAs and protein-coding genes from ChIP-seq data. Zhou KR, Liu S, Sun WJ, Zheng LL, Zhou H, Yang JH*, Qu LH*. Nucleic Acids Res. 2017 Jan 04;45(D1):D43-D50.

一、ChIPBase数据库基本介绍

输入网址http://rna.sysu.edu.cn/chipbase/，进入ChIPBase数据库主页面：

ChIPBase数据库是由中山大学生命科学院曲丽恒教授团队开发的一个在线工具，网页右上角标明了中山大学的校徽。数据库中还有一个中山大学开发的神器，即Encori数据库（原Starbase数据库）。需要提醒一下大家的就是，这两个数据库能不能使用全看缘分，有时会被禁止访问，如果大家进不去，说不定过段时间就好了。主页右侧的“Release notes”显示了该数据库的更新日志，最近一次更新时间是2016-11-23，目前是2.3.4版本。ChIPBase数据库收集了来自10个物种共10200个数据集的chip_seq数据，整理出了转录因子和各种基因之间的转录调控网络，还包括了组蛋白修饰数据。我们将页面下拉看看大致分析流程：

0 (1).png

简单来说，就是从转录因子的chip_seq数据中分析得到转录因子结合位点的区域，称之为peak；通过peak可以进一步分析结合区域的motif；还可以通过基因注释得到转录因子和各种基因之间的调控关系；最后通过分析近10000个肿瘤样本及9100种细胞系和组织，得到转录因子和各种RNA之间的共表达关系。

二、ChIPBase数据库功能介绍

接下来我们看一下ChIPBase数据库的具体功能有哪些。

0 (2).png

主页上方的菜单栏列出了网站的各功能模块，包括用于检索转录因子调控的lncRNA、miRNA、其他非编码RNA以及蛋白质的“LncRNA”, “miRNA”, “OtherNcRNA”, “Protein”。这些模块的使用极其类似，我们以LncRNA为例进行介绍，其他类型的非编码RNA大家可以举一反三。

已知转录因子，检索受其调控的LncRNA/miRNA/OtherNcRNA/Protein

点击菜单栏的“LncRNA”，进入以下界面：

0 (4).png

该页面需要用户在检索前进行多项选择，我们依次来看一下。

0 (3).png

Clade只能选哺乳动物；

0 (5).png

Organism可以选择人或小鼠，此处我们以人为例；

0 (6).png

Assembly参考基因组版本选择hg38；

0 (7).png

Factor type（因子类型），可以选转录因子、转录辅助因子、染色质重塑因子、DNA结合蛋白以及组蛋白修饰，可见网站的功能还是很丰富的。由于本次介绍的重点在于转录调控，此处我们选择转录因子。

0 (8).png

Protein factor/modifications选择目标转录因子。这里只能从已有ChIP-seq实验数据的转录因子中进行选择，此处我们以CTCF为例。

0 (9).png

接下来选择细胞系，细胞系也是在有限的范围中进行选择。此处我们以第一条HUMHG00994细胞系为例；

0 (6).png

接着是选择分析的区域，默认是上下游1KB的区域，可选范围是转录起始位点上游30KB到下游10KB。Motif即DNA上结合转录因子的基序，可以选All、Yes或No，一般就选All。注意，上述这些选项的含义在网页下方About LncRNA module这块都有说明，小伙伴们若有疑问也可自行查看：

0 (5).png

接下来到最后一步：

此处可以输入某一个特定LncRNA，检索其与转录因子的调控关系，也可以不输入任何分子，显示受该转录因子调控的所有LncRNA。这里我们就不输入了，直接点击右侧“Submit”，跳转到如下界面：

0 (9).png

我们来阅读一下当前页面的内容。最上方的蓝色标签栏显示了人类hg38基因组上，在HUMHG00994细胞株中，转录因子CTCF调控的LncRNA，查看的是LncRNA宿主基因转录起始位点上下游1kb的区域。表格从左往右依次为LncRNA名称，位于上游1kb内的结合位点总数（U1kbS），位于下游1kb内的结合位点总数（D1kbS），位于上游1kb内的含有motif的结合位点的数量（U1kbM），位于下游1kb内的含有motif的结合位点的数量（D1kbM）。

结合位点与基因的转录起始位点（TSS）上游的最近距离（U1kbD），是结合位点与基因TSS下游的最近距离（D1kbD），转录起始位点在基因组中的位置（TssPosition），LncRNA的Ensembl ID和类型。右上角的Search框可以通过搜索过滤结果。

0 (1).png

页面下拉，可以看到本次样本的详细信息，包括细胞株、处理情况、峰值程序、参考文献、GEO数据库来源等。最下方提供了上述表头的注释。

0 (7).png

现在我们点击第一个LncRNA“LINC00273”查看一下结果：

0 (8).png

可以看到有共表达统计（Co-expression statistics）和共表达模式（Co-expression Patterns）两个菜单。在co-expression statistics菜单下可以看到该条lncRNA在不同肿瘤类型中的情况。包括样本数、Person相关系数和p值。点击download可以下载结果文件，有CSV和excel两种格式。

点击co-expression patterns，查看转录因子与我们选择的lncRNA在不同条件下的表达相关性：

0 (2).png

不同条件指可以通过下拉菜单选择研究来源，TCGA或GTEx项目；还可以选择不同的组织或细胞株。在chart type下，可以选择将数据以散点图、箱式图或柱状图的形式展现；Data Scale可以选择log2 scale或FPKM。

现在返回lncRNA列表：

0 (4).png

刚才我们查看了第一条lncRNA的信息，现在我们看第二列的“3”，这个3表明转录因

子CTCF在该lncRNA上游1kb范围内有三个结合位点。点击“3”。可以看到结合位点的具体信息，包括在染色体上的具体位置、长度等。数字“0”表示相应的区域没有结合位点：

0 (3).png

miRNA、otherNcRNA、Protein的检索方式与LncRNA一样，就不一一演示了。

已知目的基因，检索可以与之结合的转录因子

我们接下来看Regulator模块。该模块可以检索给定基因的转录起始位点附近-30KB到10kb区域内的DNA结合蛋白或组蛋白修饰，并提供相关结合位点的实验、文献证据。前面介绍的四个模板是通过转录因子找下游靶基因，这个模块就是找调控目的基因的转录因子了。

0 (10).png

我们以TP53为例，点击search后显示结果：

0 (11).png

表格展示了TP53基因的一些基本信息，包括别名，各种官方命名。我们这里重点关注的是Factors，为TP53基因附近 DNA结合蛋白和组蛋白修饰的数量。共388个。我们点击看一下：

0 (12).png

页面刷新后，可以通过上方的四个下拉菜单选择性地显示388个中的部分结果。如type of factors，默认的是transcription factor转录因子，还能选择转录辅助因子、组蛋白修饰等。旁边upstream、downstream用来界定查找的范围，最大范围是-30kb到10kb。Motif选择Y是提供motif序列的。下方的表格显示的是基于上面条件过滤后的结果。第一列为转录因子名称，第二列为别名，第三列为全称，第四第五列为支持相应区域结合关系的样本数量，第六第七列为相应区域的结合位点数量。页面最下方有对最后四列的注释。表格最后一行可通过search进一步过滤结果。

现在我们选择一个转录因子，如CTCF：

0 (13).png