科研星球

写SCI值得挖掘的公共数据库,ArrayExpress使用指南

      有了原始数据,我们才可以基于公共数据试着做进一步的分析挖掘。但是在进行数据分析的过程中,很多人都不知道怎么在海量的数据中找到有价值可分析的数据。

单细胞测序的火热趋势大家都知道,但是大部分人都是没有没有自己的测序/芯片数据。所以今天给大家推荐一个类似于GEO的数据库--ArrayExpress,用这个数据库做单细胞测序数据挖掘,新的研究思路分分钟上头!




ArrayExpress介绍



网址:https://www.ebi.ac.uk/arrayexpress/


ArrayExpress是欧洲生物信息协会(EMBL-EBI)下属的功能基因组数据库,收集整理基于芯片和测序的基因组学实验的数据,以支持可重复的研究。


ArrayExpress与Geo数据库类似,里面都存储了大量的芯片表达数据。它的数据来源于两个部分,第一部分是由科研工作者提交的数据,第二部分是从GEO数据库自动导入的数据,在该数据库中,数据以实验experiments为单位,每个实验对应一个唯一的编号,如下图所示。



存储在GEO数据库中的单细胞测序数据结果相对比较零散,没有专库专用的特点。ArrayExpress相当于实在GEO的数据基础上再做了数据补充!


01.png

ArrayExpress有什么呢?mRNA、miRNA、lncRNA等数据。

ArrayExpress能做什么呢?mRNA、miRNA、lncRNA差异表达分析、meta分析等等。


02.png


用ArrayExpress进行数据下载

进入网页后,首先在搜索栏进行数据的检索,这里我们以“lung cancer”为例。检索后,可以看到有1575个实验的研究。如果你不想在这么多研究结果中筛选,可以通过左侧黄色栏目“Filter search results”,加过滤条件来限定减少实验研究的数量。

设置完过滤条件之后,点击“Filter”出现结果。搜索出来的结果对应的每个字段的意思分别是:


Accession(芯片的数据库编号)

Title(题目)

Type(实验类型)

Organism(物种)

Assays(芯片样本数)

Released(上传日期)

Processed(处理过的数据,包括矩阵数据和单样品数据)


Raw(原始数据链接,打开即可下载数据)
03.png

这里我们点击E-MTAB-8861条目,进入详细的页面查看。
点击进入条目后,信息包括:


Status(状态)

Organism(物种)

Samples(样本数)

Array(数组)

Protocols (协议)

Description(描述)

Experiment types(实验类型)

Contact(联系方式)

Citation(引用)


Files(文件)
04.png05.png

下图圈出的红框内标记的两个部分,是通常会关注的两大部分:

第一部分展示该实验包含的样本详细信息,点击之后可以查看样本相关的metadata。

第二部分用于下载数据,包括调查描述、样本和数据关系、原始数据、处理过的数据和阵列设计,在这里可以下载到你所需要的数据。


06.png


以上,当我们有了原始数据之后,就可以进行后续的分析,做进一步的数据挖掘了。



该数据库还配套了对应的API和R包,可以批量化,流程化地检索和下载数据,在没有数据的情况下,也可以基于ArrayExpress的公共数据进行深入挖掘。



没有账号?