科研星球

高通量数据分析和可视化平台,NASQAR使用指南

由于下一代测序(NGS)技术的快速发展,近年来基因组数据经历了巨大的增长。因此,用于数据集分析和可视化的软件和工具的数量也在不断增加。目前多数基因组数据分析工具需要编程/脚本语言(R、Python、shell等)的知识和经验,满足软件/硬件需求和解决软件依赖关系,但缺乏图形用户界面(GUI),对于大多数研究人员不太“友好“。


今天为大家介绍一个最新的基因组数据分析平台NASQAR(Nucleic Acid SeQuence Analysis Resource:http://nasqar.abudhabi.nyu.edu/)。

它将目前多种测序数据流行的高级分析和可视化工具封装在直观的web界面中,具有以下特点:


① 用户友好,降低生物信息学分析和可视化操作门槛。平台可以进行数据质量控制和探索性分析,生成可发表级数据文件(如标准化数据)和图形文件(PCA、热图、密度图和UMAP / t-SNE图等等)。


② 集成多种开源软件包,无需安装即可在个人电脑上使用。

③ 模块化设计,可以单独使用数据预处理、RNA-Seq分析、基因富集分析等功能。


虽然现在有许多基于web的生物信息学分析工具,但大多数只专注某一种数据类型的分析(单细胞RNA-seq、宏基因组等),如START、DEApp、TCC-GUI、Shiny-seq、GENAVi、 is-CellR和Shaman。


之前我们介绍过GENAVi,它采用多种R包简化了RNA-Seq从预处理一直到基因富集的分析流程。这种方法通常是可取的,但也限制了用户只需要执行一种功能的需求(如基因富集)。NASQAR集成了上述工具的所有分析功能,每一个分析模块可以作为独立的单元访问,使用开源R数据分析包,还可以进一步的开发(如下图)。


下面为大家详细介绍NASQAR分析平台的功能及使用方法。功能包括合并基因计数、基因id转换、mRNA差异表达分析、宏基因组数据分析和功能富集分析。

NASQAR集成的应用主要为R包,包括使用DESeq2、limma和EdgeR进行基因差异表达分析,使用Seurat进行单细胞RNAseq分析和可视化(包括数据过滤、标准化、PCA降维、聚类和UMAP/t-SNE等),使用clusterProfiler进行基因集富集分析(GSEA)和过表达分析(ORA)等。





一、GeneCountMerger


GeneCountMerger主要用于数据的预处理,可以合并单个原始基因计数文件(如htseq-count和featureCounts)。选项包括:

•合并单个样本计数文件到一个矩阵

•合并多个原始计数矩阵

•将Ensembl id转换为基因名

•选择可用基因组

•添加pseudoCounts

•重命名样本名

•下载合并counts文件(csv格式)

•合并转录组分析结果(Seurat Wizard分析单细胞数据;DESeq2Shiny或START分析RNA数据)。


640.png






二、Seurat wizards


Seurat wizards使用Seurat包对单细胞RNAseq数据进行质控和分析。允许用户调整可视化中间步骤的输出和状态参数。Seurat wizards相比大多数scRNA-seq分析的web工具,如IS-CellR和SCHNAPPs,使用更为灵活。同时Seurat wizards通过绘制小提琴图检查细胞的分布情况,用户选择相应的截止阀值即可对细胞进行过滤。Elbow/Jackstraw图可以帮助用户在决定是否使用非线性降维。这两种功能都会对后续细胞集群和基因差异分析产生重大影响。





三、DESeq2Shiny


DESeq2Shiny模块封装了DESeq2,用于对RNA-seq数据执行差异表达分析。它提供了数据标准化、转换(用于聚类的rlog和vst转换)以及估计离散度和差异倍数(fold-change)功能。分析结果提供csv格式文件下载,数据可视化包括火山图、热图、密度图、基因表达箱线图和主成分分析图。


640 (1).png






四、ClusterProfilerShiny


ClusterProfilerShiny集成了clusterProfiler包,实现了基因组坐标、基因和基因簇的功能的分析和可视化。用户可以使用上游的DESeq2Shiny导入分析数据。允许对GO和KEGG通路进行快速、简单的过表达分析(ORA)和基因集富集分析(GSEA)。分析结果包括点图、词云图、类别网图、基因富集图、GSEA图和KEGG路径图(Pathview包)。


640 (1).png


NASQAR功能还在持续增加,如新冠Covid-19流行病学数据分析工具。用户可以浏览NASQAR所有应用程序的功能/工作参数及过程代码,同时分析结果便于下载使用。用户还可以记录和分享整个工作流程所使用的特定命令和参数,分析具有可重现性。

640 (2).png


简而言之,NASQAR平台为转录组数据(包括单细胞RNA数据)、宏基因组学等多种数据提供了一个公共、综合的交互式生物信息学和可视化分析平台,方便不精通编程的研究人员使用。NASQAR目前通过NYU(与Docker/Swarm合作)和AWS Cloud(与Kubernetes合作)提供在线服务,可以有效保护数据隐私。同时NASQAR还在不断进行开发,为用户提供更多、更强的数据分析功能。


没有账号?