科研星球

GEOexplorer使用指南

GEOexplorer数据库(https://geoexplorer.rosalind.kcl.ac.uk/)于2022年5月份发布在Nucleic Acids Research杂志,基于GEO数据库芯片和RNA-seq数据或者上传个人数据集,提供探索性数据集分析、基因表达差异分析和功能注释及可视化等功能,产生丰富的交互式可视化结果,无需要编程即可产出发表级图表,为生命领域研究人员尤其是缺乏生物信息学技能的研究者高效利用公共数据集挖掘重要信息提供极大便利。

0.png


菜单栏Tutorial部分提供数据库介绍及详细的数据库使用指南。其中Introduction部分可见数据库提供以下功能:数据集检索、数据集探索性分析、多个数据集整合及批间差校正、基因表达差异分析、差异基因功能富集和可视化等。除在线网站之外,用户还可以选择安装GEOexplorer R包进行基因表达差异及功能注释相关分析。

0 (5).png


0 (1).png


数据库核心功能及操作演示

 1 

GEO Search功能

GEO Search功能模块支持以关键词检索感兴趣的数据集或样本,以哮喘(Asthma)为例,结果显示相关数据集或样本有14464个,结果界面不大方便进行数据集筛选,因此这个功能略显鸡肋,大家仍旧可以在GEO检索到感兴趣的数据集之后,再来借助GEOexplorer数据库进行后续系列分析。

0 (4).png




 2 

据分析功能

借助GEOexplorer数据库进行数据分析有四步:(1)Dataset Information,查看数据集基本信息;(2)Exploratory Data Analysis,探索性数据分析;(3)Differential Gene Expression Analysis,基因表达差异分析;(4)Gene Enrichment Analysis,基因富集分析。

0 (6).png

0 (2).png


这里跳过GEO检索数据集过程,新手小伙伴感兴趣的话可以学习单元课《GEO数据集使用教程》,或参加GEO数据库挖掘成长营。以PMID: 34336929文献提供的哮喘数据集GSE4302, GSE43696, GSE63142, GSE67472和GSE41861为例。


图片


单个数据集分析


首先,检索并加载目标数据集。在GEO Search检索目标数据集并点击load加载,或直接在数据分析功能页面选择单个数据集、选择芯片或测序数据、输入目标数据集及平台号,以GSE4302为例,点击Analyse提交分析任务。注意如果是RNA-seq数据需要判断是否需要log转换,简单的办法就是看基因表达谱是否有小数,如果有则已经过log转化,则不建议用GEOexlporer继续分析。

0 (8).png


0 (7).png



1)Dataset Information:数据集基本信息

Experiment Information提供GSE4302数据集基本信息,我们看一下Abstract可以了解作者做了什么工作;Experimental Conditions Information提供样本及其分组信息;Gene Expression Dataset为基因表达谱。

0 (4).png


0 (9).png


0 (10).png



2)Exploratory Data Analysis:探索性数据分析

事实上就是数据预处理和质控环节,重点关注Box-and-Whisker Plot、PCA Variables Plot和Heatmap Plot图,查看数据质量。箱图展示各样本均数不在同一水平,大概率是数据集尚未进行标准化处理;若PCA图分的比较开、热图按组别聚类,基本上数据质量可以,而本例样本太多导致PCA和热图很难辨别聚类情况。

0 (11).png


0 (12).png


0 (13).png


3)Differential Gene Expression Analysis:基因表达差异分析

点击Set Parameters设置参数:选择Group1与Group2纳入的样本进行比较,以基线哮喘和健康对照为例;再选择P值校正方法、是否强制标准化、是否应用limma vooma,及显著性水平截断值。在Tutorial部分有说明:对原始RNA-seq数据需要强制标准化和limma vooma处理,对芯片数据如果在前述箱图展示样本均线不齐、组间差异比较大或是密度图密度曲线不呈正态分布时,建议强制标准化和进行limma vooma处理。

0 (14).png


0 (15).png


0 (16).png


0 (17).png


点击Analyse获得表达差异分析结果:Top Differentially Expressed Genes表格展示Top表达差异基因信息;提供表达差异基因Volcano Plot和Heatmap Plot。

0 (21).png


0 (18).png


0 (19).png



4)Gene Enrichment Analysis表达差异基因富集分析

点击Set Parameters设置参数:选择Gene symbol列,双击空白处手动填补;选择需要分析的数据库。点击Ananlyse获得分析结果。

0 (20).png


0 (22).png


0 (33).png


查看富集分析结果,以表格和柱状图形式展示,鼠标悬停在柱子上可以查看具体基因、通路信息和P值。可以选择上调、下调或全部基因。

0 (24).png


0 (25).png




图片


两个数据集分析


同样的方法,检索并加载目标数据集。直接在数据分析功能页面选择多个数据集、选择芯片或测序数据、输入目标数据集及平台号,以GSE4302和GSE4302,其他参数默认,批间差校正的方法选择贝叶斯,点击Analyse。结果基本类似。

0 (31).png


重点来看Exploratory Data Analysis,其中Expression Density Plot图、Box-and-Whisker Plot图、聚类热图和PCA图均显示出明显批次效应,即样本是按照批次进行聚类的而不是按照实验分组来聚类。因此上一步选择贝叶斯方法进行批次效应校正是有必要的。

0 (27).png


0 (28).png


0 (29).png


0 (30).png


接下来的Differential Gene Expression Analysis和Gene Enrichment Analysis分析基本与前述类似,不再赘述。

0 (31).png


0 (32).png




 3 

上传数据准备

有些GEO数据集无法检索加载到数据分析功能模块,需要手动下载和整理。菜单栏处点击Example Datasets下载示例基因表达谱文件,Excel打开,即基因探针列+样本列,打开GSE4302表达谱,复制红框部分数据到示例文件中即可。

0 (33).png


0 (34).png


0 (35).png


 总结 

GEOexplorer提供基于GEO数据集或上传个人数据集的探索性数据分析、基因表达差异分析和功能注释及可视化等功能,产生丰富的交互式可视化结果,无需要编程即可产出发表级图表,为生命领域研究人员尤其是缺乏生物信息学技能的研究者高效利用公告数据集挖掘重要信息提供极大便利。

以上就是GEOexplorer数据库全部内容,开发并维护数据库不易,小伙伴们使用时别忘记引用以下文献哦~!

Hunt GP, Grassi L, Henkin R, Smeraldi F, Spargo TP, Kabiljo R, Koks S, Ibrahim Z, Dobson RJB, Al-Chalabi A, Barnes MR, Iacoangeli A. GEOexplorer: a webserver for gene expression analysis and visualisation. Nucleic Acids Res. 2022 May 24:gkac364. doi: 10.1093/nar/gkac364. Epub ahead of print. PMID: 35609980.

文章来源:挑圈联盟


没有账号?