科研星球

国家生物信息中心在核酸研究发表单细胞DNA甲基化数据库—scMethBank

DNA甲基化是表观遗传研究的一个重要层面,且与发育、衰老和疾病的发生发展密切相关。为了更好地利用已公开的海量甲基化数据,此前,中国科学院北京基因组研究所国家基因组科学数据中心(以下简称基因组数据中心)已经发布了一个DNA甲基化的综合性数据库MethBank(https://ngdc.cncb.ac.cn/methbank/),涵盖了多物种高质量的全基因组单碱基精度甲基化图谱、健康人参比甲基化组以及人工审编的甲基化分析工具集。这里,我们介绍基因组数据中心最新发布的单细胞甲基化数据库——scMethbank(https://ngdc.cncb.ac.cn/methbank/scm/)。

该项研究成果以“scMethBank: a database for single-cell whole genome DNA methylation maps”为题于2021年9月在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。

0 (8).png

scMethBank主页 scMethBank是第一个致力于单细胞全基因组DNA甲基化数据收集、整合、分析和可视化的综合性数据库,当前版本包括来自15个公共单细胞数据集的亚硫酸氢盐测序数据和人工审编的元数据8328个,涉及个物种(人和小鼠),9 种细胞类型和两种疾病。

数据库核心功能及操作演示


1. 数据浏览与检索

scMethBank使用标准流程对来自不同数据集的数据进行统一处理后录入数据库中,浏览模块提供四个层面的来自人工审编及处理后数据信息。

0.png

数据集信息包括文章题目,发表年份,PubMed ID,包含的细胞类型和数目,以及详细的实验设计信息和到对应细胞类型的单细胞转录组数据的链接。用户可以选择感兴趣的数据集进行进一步的筛选、使用和下载。

GSE56879为例,在样本浏览界面提供了样本多种生物条件的高效搜索,包括物种、数据集ID、发育阶段、疾病状态、处理方法、年龄、性别等。用户可以使用多个条件进行筛选,比如Series指定GSE56879,细胞类型指定为MII oocyte,在筛选结果页面可以点击列表More Details列的+显示数据处理的详情信息,并通过左上方按钮进行批量下载。

0 (9).png

如果用户关注两种细胞类型之间的甲基化差异,scMethbBank也提供了一个预先计算的差异甲基化区域(DMR)的集合。仍然以GSE56879中的MII卵细胞与胚胎干细胞为例,通过在DMR浏览页面中勾选数据集以及对应的两种细胞类型,页面将展示两种细胞类型中存在的差异甲基化区域。同时为了进一步解读,数据库为这些区域提供了初步分析,包括在染色体和基因组区域上的分布情况、对应的基因以及这些基因注释的通路等。

0 (3).png

用户可以点击差异甲基化区域对应的基因链接跳转至基因浏览界面,这一功能同样可以通过用户对预先感兴趣的基因进行搜索实现。比如在搜索页面中我们指定遗传性乳腺癌相关基因BRCA1,通过表格最后一栏跳转至基因页面,页面展示了数据库中各种人类细胞类型在该基因上的平均甲基化水平,并可在JBrowse中进行交互式浏览和查看。

0 (1).png


2. 甲基化模式区域可视化及细胞分群展示

单细胞甲基化数据与bulk数据不同,具有稀疏性和独特的二值性,即非甲基化(0)和完全甲基化(1)两种状态,因此尽管可以通过计算区域内甲基化水平查看不同细胞之间的差别,但这种方式往往也会掩盖单细胞甲基化模式的复杂性。scMethBank构建了TB级存储的单细胞全基因组甲基化数据池,允许用户从8000多个不同样本中以单碱基精度检索甲基化图谱。通过指定感兴趣的基因或者任何基因组区域后,数据库会快速响应展示该区域样本上的甲基化状态,这里数据库网页提供了两种可交互的可视化模式,仍然以GSE56879数据集中的几个样本在brca1基因上的甲基化模式展示为例:

0 (4).png

          棒棒糖图,该图中展示所有样本每个CpG位点上的甲基化状态,对于浏览已知DMR区域的甲基化pattern以及直观展示区域内差异状态都很实用

0 (2).png

热图,热图展示的也是在区域上的甲基化模式,相对于棒棒糖图在更大尺度上直接展示单碱基上的甲基化状态,并且可以同时显示启动子与基因体区。

此外,来自不同数据集的所有单细胞样本的t-SNE 分析结果显示在cell cluster模块中,点的不同颜色代表不同的细胞群,并可以通过下拉选项指定着色方式和点的大小等。

0 (7).png


3. 在线工具

最后介绍一下scMethBank中提供的工具。目前已发表的单细胞甲基化数据分析工具非常少,scMethBank提供了一系列用于下游分析的绘图与富集分析工具。

LollipopPlotter,用来进行单细胞甲基化的Lollipop绘图。使用起来非常简单,三步即可。通过输入文件,设置甲基化阈值以及调整绘图设置,就可以快速获得单细胞甲基化文献中我们经常看到的棒棒糖图(黑白点图或者糖葫芦图)。

0 (6).png

富集分析工具可以直接对用户上传的基因集合进行在线富集分析和可视化展示,也可以对分析得到的差异甲基化区域进行基因注释以及富集分析。

0 (5).png

scMethBank数据库提供了数据的打包下载和ftp下载两种批量下载方式,更多的细节及详细使用方式可以在网页在线帮助文档中获得。



参考文献

  1. Li R, Liang F, Li M, ZouD, Sun S, Zhao Y, Zhao W, Bao Y, Xiao J, Zhang Z. MethBank 3.0: a database ofDNA methylomes across a variety of species. Nucleic Acids Res. 2018 Jan4;46(D1):D288-D295. doi: 10.1093/nar/gkx1139. PMID: 29161430; PMCID: PMC5753180.

  2. Zong W, Kang H, Xiong Z, Ma Y, Jin T, Gong Z, Yi L,Zhang M, Wu S, Wang G, Bao Y, Li R. scMethBank: a database for single-cellwhole genome DNA methylation maps. Nucleic Acids Res. 2021 Sep 27:gkab833. doi:10.1093/nar/gkab833. Epub ahead of print. PMID: 34570235.


没有账号?