科研星球

单细胞神器,重量级数据库:EBI数据库使用指南

数据库背景介绍

首先这里有一个挺有意思的地方,我们如果在必应搜索“EBI数据库“显示出来的官方网址点击进入后会出现以下这个界面


0 (1).png


相信一开始不了解EBI数据库架构的小伙伴们会发懵,所以晨曦在这里解释以下:


EBI(European Bioinformatics Institute)是指欧洲生物信息学研究所,是非盈利性学术组织EMBL的一部分。


也就是可以这样理解,EBI类似于NCBI是一个大型机构,所以里面会有很多类型的子数据库,如果我们直接在浏览器里键入EBI,大概率会转移到总数据库这里,我们这里进入scRNA-seq数据库的方法有两个


 第一:直接输入以下网址进入 

Home < Single Cell Expression Atlas < EMBL-EBI


 第二:通过总数据库进入(分为三个步骤)


步骤一

0.png


步骤二

0 (3).png


步骤三

0 (2).png


那么讲解完如何进入这个数据库以后,我们来浏览一下这个数据库的数据规模

这个数据库最近更新是在2021年5月16日。


目前来看这个数据库包含了217个scRNA-seq研究、总计7,723,982个细胞,经过质控后得到来自18个不同组织共计5,312,183个细胞。


那么数据量介绍完毕后,下面开始介绍这个数据库的基本使用以及正文部分啦~


干货来袭预警

首先我们来到主页部分,看到下面这个界面就证明我们停留在主页部分


0 (6).png


这里你可以使用Gene search box进行搜索,这里我们以Gene:CFTR为例子

搜索结果如下(搜索得到目标基因在某个细胞类型中的表达情况


0 (4).png


以上是加载的新界面,其中包含了目标基因表达的所有实验


EBI的单细胞数据库不像是panglaoDB数据库是以数据集为单位把数据存储起来,而是更像是按照实验或者研究为单位存储单细胞数据


回到正题

我们通过使用左边筛选栏对展现的结果进行筛选,比如说筛选条件从上到下分别是


1. 目标基因作为亚群的marker基因

2. 物种筛选

3. 限定目标基因所表达的细胞亚群类型

4. 限定目标基因所表达的组织类型


然后接下来我们进行结果正文部分的解读,我截取了我们检索结果的第一个


0 (8).png


第一列为物种信息

第二列为目标基因作为marker基因所在的细胞亚群(K代表亚群数量,前面的数字则是代表在编号为多少的亚群中表达)

这里其实可以映射到scRNA-seq基本流程中的resolution参数

第三列为题目

这里再一次印证EBI数据库是以项目为单位整合的scRNA-seq数据

因为你可以在后续结果页面解读部分看到这部分信息(通过点击文章链接即可以达到文章界面)


0 (5).png


第四列为该项目中的变量条件

第五列为数据的数量

然后我们点击进入结果展示页面,会出现下面这个展示效果(展示图的右上角可以提供下载链接


0 (7).png


这里我们分别解释一个画蓝色框选项卡里面的选项信息


 t-SNE Perplexity 

tSNE是一种2D图中可视化高度复杂数据的一种方法,尽管亚群和亚群之间大小和距离信息并不是十分有用的信息,但是你可以通过调节这个参数来达到重新展现可视化的目的

官网解释原文如下:


These are found in the t-SNE plots tab under Resultst-SNE plots are a useful way of visualising highly complex data in a 2D space. Although the size and distance between clusters is not very informative, manipulating the t-SNE perplexity value allows you to re-display the data in different ways.


 Colour plot by 

这里通过调整K值可以达到调整亚群数量的效果

这里需要注意一点,这里是基于Scanpy clustering algorithm算法来进行调整的

同时这个选项里还可以选择运用元数据集为集群着色,每组细胞的颜色图例显示在tSNE图层的底部,用于为集群着色的元数据集信息可以是:分组信息、前面提到的项目变量信息、组织来源信息等等。


提问:什么是scanpy?

回答:scanpy 是一个用于分析单细胞转录组数据的python库,文章2018发表在Genome Biology。其实它的许多分析思路借鉴了以seurat为中心的R语言单细胞转录数据分析生态的,scanpy以一己之力在python生态构建了单细胞转录组数据分析框架


小总结

这个数据库更像是把一个个单细胞研究,每一个研究弄成一个数据库,并且数据库与数据库之间的架构保持一致,这样做的好处在于,我们可以通过找到与我们研究相似的研究来获取数据,这里的相似可以是细胞亚群相似,也可以是组织来源相似。


回到正题,我们继续往下探索


我们将鼠标停在单个数据点上,会出现一个小弹框,如下:


0 (9).png


显示的相关信息会在弹框中显示~


都是很直接的概念,这里就不过多赘述啦~


然后让我们把目光聚焦到Gene expression,展示图如下


0 (10).png


搜索框支持我们搜索Gene是否包含在细胞表达谱中及其表达情况


表达情况通过CPM值进行了四个维度的划分
1. Grey spot: expression level is below cutoff (0.1 CPM) or undetected
2. Light blue spot: expression level is low (between 0.1 to 10 CPM)
3. Medium blue spot: expression level is medium (between 11 to 1000 CPM)
4. Dark blue spot: expression level is high (more than 1000 CPM)

这一部分讲解完毕~




我们停留在结果界面会发现,tSNE展示结果左边有一个垂直的切换栏,展示图如下

0 (12).png

刚才我们停留的都是在t-SNE plots界面,下面我们切换界面到Marker Genes界面,展示如下:

0 (13).png

展示了作为marker gene的细胞亚群热图

这里思考一下,这里选择marker基因的标准是什么?

通常来说scRNA-seq筛选marker基因是通过对对比其它亚群进行差异分析得到的结果
我们获得marker基因的目的其实是为了细胞注释或者阐述我们的目的基因
官网对于如何筛选也没有提供详细的描述,所以我们可以理解为是参考常规获得的marker基因

官网原文:Genes which comprise part of the specific expression profile for a cell population (cluster) are defined as marker genes. These are displayed - 5 per cluster in the Marker Genes tab under Results



这一部分讲解完毕~




然后我们继续切换我们的界面,界面如下:

0 (14).png

这次我们首先选择Experiment Design,界面如下

0 (15).png

这个界面是展现实验设计文件——样本元数据以及实验变量的简化表格

样本特征通常是帮助我们理解每个样本的内在元数据
实验变量通常是描述由研究目标定义的实验组的多个特征
可以按行进行浏览,也可以点击感兴趣的属性标题来对每一列进行排序
通过在底部设置栏可以设置展现的行数,以及切换下一页

这一部分讲解完毕~




然后我们继续切换页面,这次我们切换到Supplementary Information tab,界面如下:

0 (16).png

在这里您可以看到应用于原始数据的分析方法以获得聚类和基因表达结果。

这一部分讲解完毕~




最后我们就到了最激动人心的环节,也就是数据的下载

再好的数据库,我们如果无法把数据下载下来,那么对于我们来说也就没有任何意义
我们继续切换界面,切换到Downloads tab,展示界面如下

0 (17).png

包含两部分文件

  1. Metadata files:
    1. SDRF file (Sample to Data Relationship Format) - Creating an SDRF
    2. IDF file (Investigation Design Format) - Creating an IDF
    3. Experiment design file containing the sample characteristics and experiment variable summary table
  2. Results files:
    1. Clustering file: output of Scanpy analysis for clustering of filtered cells for the different k values (Scanpy clustering algorithm)
    2. Filtered quantification file: provides the measured gene expression in CPMs for each filtered cell alongside gene and cell ID
    3. Marker gene files: expression values for each marker gene per cluster
    4. Normalised counts files
    5. Raw quantification files


这里可能会有小伙伴对于SDRF文件有一些问题,我这里简单解释一下


该文件SDRF(样本和数据关系格式)描述样本特征以及样本、阵列、数据文件等之间的关系。SDRF 中的信息被组织起来,使其遵循功能基因组学实验的自然流程。它以描述您的样品开始,并以从实验结果分析中生成的数据文件的名称结束

SDRF文件组织流程如下
0 (18).png
需要更加理解SDRF的学习链接:Creating a SDRF < Help < ArrayExpress < EMBL-EBI


这一部分讲解完毕~





做一个小总结:晨曦这里介绍的的整个数据库最为关键的结果展示部分
让我们再次汇总一下我们这个官网定义为实验页面中都看到了哪四个部分?

1. 结果:您可以在此处可视化 t-SNE 图(聚类和基因表达)以及数据的标记基因热图
2. 实验设计:您可以在此处找到实验的简化示例元数据
3. 补充信息:在这里您可以找到数据分析方法和相应的文档
4. 下载:原始数据文件的链接,分析结果和样本元数据文件

那么下面我们继续跳转到另一个界面,其实本质上来说,只是换了一个进入实验页面(结果界面)的方法

这个数据库其实有很多方法可以进入到同一个界面

比如我们这次通过Gene Symbol进入,我们前面说过EBI数据库以实验项目流程来储存数据,那么我下次直接访问这个实验流程是不是也可以呢?

没错,这回我们回到主界面点击Browse experiments(Ps:刚才进入的是Gene serach,其实到最后结果部分是相似的

0 (19).png

点击以后界面如下

0 (20).png

此页面显示了单细胞表达图谱中当前可用的所有实验的更新列表
该表格允许您快速浏览、过滤和下载实验数据
Searchable headers:输入您的物种或感兴趣的关键字以过滤表格结果
Download datasets:单击您感兴趣的数据集旁边的复选框,然后单击表标题上的下载链接以下载这些数据(具体下载的数据如黑色框提示)
实验标题:点击标题可直接跳转至实验页面的结果标签
这一部分讲解完毕~




我们继续进行这个数据库最后一部分的讲解,点击Release notes

0 (19).png

点击后界面如下:

0 (21).png

展示的是EBI中scRNA-seq数据库中的版本更新情况
并且所包含的实验以及新增的实验都标注的很清楚~
至此EBI数据库介绍完毕
使用此数据库别忘了引用数据库文献哦~

本文来源:挑圈联盟


没有账号?