科研星球

Genome Biology | 用于单细胞RNA-seq和ATAC-seq数据的多视图分析的深度生成模型

2022年1月12日,同济大学生命科学与技术学院生物信息系刘琦教授课题组在Genome Biology杂志上发表了题为A deep generative model for multi-view profiling of single-cell RNA-seq and ATAC-seq data 的论文发布了多模态深度学习分析框架scMVP(single cell Multi-View Profiler)(图1),该框架整合了多模态生成模型,弱关联学习的Transformer模型,以及循环学习模型,利用共隐层嵌入 (Joint embedding layer) 和生成层 (imputed layer)实现单细胞RNA及ATAC共测序多模态数据的整合、去批次、降维、聚类、差异、轨迹分析等各种下游分析,并同时保证了算法的高准确率及高运算效率。


0.png


0 (3).png

图1. scMVP算法框架


相对于过去分别测取不同组学的单细胞组学,单细胞多组学共测序技术可以同时获取一个细胞的多个组学状态,避免了多次实验中细胞难以整合配对,存在批次效应等问题,实现了真正的“单”细胞“多”组学。但是,相对于普通单细胞组学数据,单细胞多组学共测序技术普遍存在着通量低,数据高度稀疏的问题,其平均测序通量仅达到普通单细胞测序的1/10到1/5。并且同一个细胞的不同组学测序的质量经常存在较大的差异和波动,不同组学所体现的细胞信息也存在着较大的异质性。这些问题阻碍了该类技术在临床转化中的广泛应用。


在单维度单细胞组学分析中,深度生成模型能够帮助单细胞数据进行降维、聚类等分析,同时,相对于Seurat等常规分析方法能够在生成过程中对单细胞数据进行信号增强,对缓解单细胞数据处理中的数据集稀疏性问题有着一定的帮助。近年来,在单细胞多组学整合领域内发表了一系列应用于单细胞多个组学数据的通用(Universal)整合算法,以及专门应用于单细胞多组学共测序技术(Paired only)的整合算法。作者团队通过对已有单细胞多组学通用和专用算法进行系统的基准研究,发现当单细胞多组学共测序数据集中两个组学数据一致性较高,且数据质量都很好的情况下,通用整合算法中仅多模态深度学习算法Cobolt表现接近单细胞共测序专用整合算法;但是当数据集组学质量不平衡时,所有通用整合算法均会受到质量较差组学的影响,导致其整合结果无法反应真实生物学细胞类型和状态 (图2)

0 (1).png

图2. 单组学、多组学通用整合算法和专用算法在多组学共测序真实数据集的性能比较


为了解决上述问题,作者团队提出了全新的多模态深度学习算法scMVP。该算法包含了组学特异性生成学习模块、多模态学习模块和循环学习模块(图1)。其中,针对scRNA和scATAC设计的组学特异性生成学习模块能够针对不同组学数据特点实现各组学数据信号的同步增强,大幅提升模型在稀疏数据集的性能;多模态学习模块和循环学习模块能够实现多模态数据信号同步增强的数据整合,有效解决了常规多模态深度学习中数据质量不平衡对生成模型的不良影响。


该工作中,作者首先将该算法及其他同类算法在sci-CAR, Paired-seq和SNARE-seq三个平台的多组学单细胞测序的细胞系数据上进行基准研究。基准分析结果表明,scMVP能够有效发现了仅在单个组学中存在的低质量细胞亚群(图3),并对相近细胞类型实现了准确区分和多组学表达量生成,相对于其他单组学算法及多组学算法均有着更高且更稳定的性能。进而,在SHARE-seq, 10X Multiome和SNARE-seq三个平台的非细胞系真实数据集上,该算法相对于现有多组学整合算法及单组学算法表现出更高的准确性及更稳定的性能,对任意维度的组学数据稀疏均实现了稳定的性能(图2)


综上所述,scMVP提供了一个专门面向单细胞共测序数据分析的有效算法框架,其性能超越了Seurat 的WNN等主流算法和同类深度学习算法,可以有效解决该类数据通量低,数据高度稀疏,不同组学测序质量差异大等痛点,并可以应用于单细胞共测序多组学数据的下游分析和整合分析,帮助研究者通过单细胞多组学共测序发现新的生物学知识。

0 (2).png

图3. scMVP算法发现了在仅在单个组学(cisTopic, scATAC)中存在的第三类细胞亚群



本次工作是刘琦教授课题组继以上系列工作之后在单细胞测序数据的多模态整合领域的又一有益探索。该论文第一作者是同济大学生命科学学院刘琦教授课题组和同济大学医学院王平教授课题组联合培养的李高阳博士和刘琦教授课题组博士生傅沙镠,通讯作者是刘琦教授和王平教授。


原文链接:

https://doi.org/10.1186/s13059-021-02595-


没有账号?