科研星球

生信多组学整合工具的比较研究

今天给大家要分享是昆士兰科技大学Sathyanarayanan在Briefings in Bioinformatics(IF: 8.990)杂志上发表的论文。作者比较了九种不同的多组学数据整合工具,对多阶段整合工具从基因、功能和通路水平进行评估,对元维度整合工具则从样本分类性能进行评估。此外还研究了数据表示样本大小信号噪声等因素对整合工具的影响。


0 (1).png



研究背景


细胞基因组成的改变可能导致癌症的发生,尽管有些改变机制很容易被理解,但对于肿瘤发生的研究仍然面临两大挑战。第一个挑战是鉴定出驱动疾病进展的基因和畸变,第二个挑战是对样本或患者进行分层。
多组学数据整合允许对多种组学数据类型进行联合分析,以提供生物系统的全局视图和不同数据集层之间相互作用性质的见解。而通常采用的多组学整合策略大致可分为两类:多阶段整合方法元维度整合方法




数据与方法流程


表1是五个多阶段整合工具(CNAmet, iGC, PLRS, Oncodrive-CIS和MethylMix)
0 (2).png

表2是四个元维度整合工具(SNF, BCC, iClusterPlus和mixOmics)
0 (3).png

图1展示了该论文使用的具体数据和处理流程
0 (4).png

图2是多阶段整合工具的评价指标
0 (5).png

图3是元维度整合工具的评价指标
0 (6).png



结果展示


1.多阶段整合工具分析
1.1 拷贝数和基因表达整合
在间皮瘤、胰腺癌、结肠癌和黑色素瘤数据集中,从基因、功能通路来评估拷贝数和基因表达整合工具的性能。利用这些工具鉴定出的3000个基因进行评估,如表4所示强的重叠关系显示出该工具在识别癌症相关基因、GO功能和通路方面的高度敏感性

0 (7).png

其中PLRS显示出最高的敏感性,在11/20的测试中与CCGL有最高的重叠。OncDrive CIS和iGC分别在6/20和2/20测试中有最高的重叠。所有工具在相对较小的间皮瘤数据集上的性能都很差。总之随着数据样本量增加,所有工具的性能都呈现增长趋势。

作者又展示出评估水平的结果维恩图。在上述四种数据集中,iGC、PLRS和Oncodrive CIS工具在基因水平上高度一致(图3)。iGC、PLRS和OncDrive CI分别使用t检验、分段线性回归样条曲线和Z检验,这些统计方法的高度相似性导致相关基因的高度重叠

0 (8).png

1.2 甲基化和基因表达整合
MethyMixCNAmet也筛选出3000甲基化驱动基因,与CCGL进行20次重叠测试,结果显示MethyMix要优于的CNAmet(表5)。维恩图显示CNAmet与MethyMix的基因平均重叠为54.73%(图4)。

0 (9).png
0 (10).png

2.元维度整合分析
2.1 HPC数据集的二分类和多分类
在HPC数据集中,除iClusterPlus外所有工具的二分类准确度都大于0.9mixOmics在多分类分析中有着最高F1平均分数准确度SNF在多分类分析中实现了次优分类

0 (11).png

2.2 整合工具在小样本和大样本尺寸中的准确度
小样本数据集有60个样本,而大样本数据集有150个样本。iClusterPlus和mixOmics工具在大多数数据集中获得了比SNF和BCC工具更准确的分类(图6)。其中BCC、iClusterPlus和mixOmics在大样本数据集中的分类准确度有所提高(图5A和图6)。

0 (12).png
0 (13).png

2.3 整合工具在噪声下的性能
作者首先比较了工具在小样本组小噪声组中的准确度(图7A)。SNF、BCC和mixOmics对噪声缺乏鲁棒性,其中mixOmics在数据集C中的最大降幅为43.75%

然后作者又对大样本大噪声组进行评估,发现随着样本量的增加这些工具表现出更强的鲁棒性。所有工具在大噪声组的平均F1得分下降幅度最小(图7B)。iClusterPlus工具对噪声的抵抗力最强,在几乎所有据集中性能都没有下降

0 (14).png

3.多阶段和元维度整合工具的运行时间
在多阶段工具中,Oncodrive CIS花费时间最长,其次是CNAmet。iGC和MethylMix不到1分钟就可完成分析。而PLRS、iGC和MethylMix对用户更为友好,只需最少预处理就能轻松操作

在元维度工具中,iClusterPlus在真实数据集平均运行35小时,模拟数据集平均35分钟。SNF在不到1分钟就完成元维度整合。



研究结论


本文为多组学研究中整合工具的选择使用提供了恰当的建议,多阶段整合工具可以有效地捕获了组学数据类型之间的关联,而元维度整合工具则使用大样本量可以更准确地识别肿瘤和患者群体,并降低噪声的不利影响。特征选择参数优化等因素也至关重要,可以提高多阶段和元维度整合工具的集成度



个人点评


最近纯生信分析的论文很难发表到高质量的杂志上,本论文则从独特的角度切入分析各种整合组学数据类型的工具,从各个方面综合的分析各种工具的优劣,是一篇立意很独到的文章,其中论文的构思和套路性的东西值得我们深入学习和体会,特此分享给大家,如有不足之处请批评指正。

本文作者:奋斗者一号,医学方

参考文献:Anita Sathyanarayanan, Rohit Gupta, Erik W Thompson, Dale R Nyholt, Denis C Bauer, Shivashankar H Nagaraj, A comparative study of multi-omics integration tools for cancer driver gene identification and tumour subtyping, Briefings in Bioinformatics, Volume 21, Issue 6, November 2020, Pages 1920–1936, https://doi.org/10.1093/bib/bbz121.


没有账号?