科研星球

Nat Rev Cancer重磅综述: 基础和转化癌症研究中的大数据

0.png

背景

历史上,癌症研究的主要焦点一直是对一些基本途径和基因的分子和临床研究。近年来,随着高通量技术的突破,大规模癌症组学数据迅速积累。数据的快速增长催生了癌症大数据概念的发展,对其分析需要大量的计算资源,并可能为基本问题带来新的见解。事实上,大数据、生物信息学和人工智能的结合已经使我们对癌症生物学的基本理解和转化取得了显著的进步。更大的进步需要数据科学家、临床医生、生物学家和政策制定者的共同努力。

简介

2022年9月5日,来自美国美国国立癌症研究所癌症研究中心癌症数据科学实验室的Peng Jiang教授课题组在Nat Rev Cancer(IF: 69.8)杂志上发表题为“Big data in basic and translational cancer research”的文章[1]。在本文中,作者回顾了利用大数据推进癌症研究和治疗的现状和未来的挑战。

主要结果

常见的数据类型

在癌症研究中有五种基本数据类型:分子组学数据、扰动表型数据、分子相互作用数据、成像数据和文本数据。分子组学数据描述细胞系统和组织样本中分子的丰度或状态。这类数据是癌症研究中从患者或临床前样本中生成的最丰富的类型,包括DNA突变(基因组学)、染色质或DNA状态(表观基因组学)、蛋白质丰度(蛋白质组学)、转录物丰度(转录组学)和代谢物丰度(代谢组学)等信息。早期的研究依赖于大量样本的数据,通过使用精心设计的计算方法,提供对癌症进展、肿瘤异质性和肿瘤进化的洞察。随着单细胞技术的发展和测序成本的降低,目前的分子数据可以在多样本和单细胞水平上生成,并以更高的分辨率揭示肿瘤的异质性和进化。此外,基因组和转录组读数可以包括空间信息,揭示不同区域内的癌症克隆进化和与克隆特异性畸变相关的基因表达变化。

0 (3).png

图1 在转化应用和基础研究中使用大数据的考虑

数据库和分析平台

我们提供了癌症研究的关键数据资源的概述,分为三类。第一类包括来自系统生成数据的项目的资源;例如,TCGA为超过10,000个癌症基因组生成了转录组学、蛋白质组学、基因组学和表观基因组学数据,并匹配了涵盖33种癌症类型的正常样本。第二类描述了展示上述项目中处理过的数据的存储库,例如基因组数据共享(Genomic data Commons),它托管TCGA数据供下载。第三类包括跨不同项目系统集成数据并提供交互分析模块的Web应用程序。例如,TIDE框架系统地收集了来自免疫肿瘤研究的公共数据,并提供了交互式模块来研究肿瘤免疫逃避和免疫治疗反应的途径和调节机制。

一体化分析

交叉队列数据聚合。整合来自多个中心或研究的数据集可以获得更可靠的结果和潜在的新发现,特别是当单个数据集是嘈杂的、不完整的或带有某些人工制品的偏倚时。跨队列数据聚合的一个里程碑是发现TMPRSS2-ERG融合和较少出现的TMPRSS2-ETV1融合是前列腺癌的致癌驱动因素。一项包含10486个微阵列实验的132个基因表达数据集的概要分析首先确定了ERG和ETV1是6个独立前列腺癌队列中的高表达基因,进一步的研究确认了它们与TMPRSS2的融合是ERG和ETV1过表达的原因。另一个例子是一项跨许多临床数据集的肿瘤免疫逃避的综合研究,该研究揭示了SERPINB9表达始终与瘤内T细胞功能障碍和免疫检查点阻断耐药相关。

交叉模式数据集成。不同数据类型的跨模式集成是最大化从数据中获得的信息的一种有前途和有成效的方法,因为嵌入在每种数据类型中的信息通常是互补和协同的。跨模式数据整合的例子是TCGA等项目,它提供了同一组肿瘤的基因组、转录组、表观基因组和蛋白质组数据。

0 (2).png

图2 以组学数据为指导的前瞻性临床研究用于使用超说明书药物

数据丰富的转化研究

许多临床诊断和决定,如组织病理学解释,本质上是主观的,依赖于翻译员的经验或标准化诊断命名和分类的可用性。大数据方法可以提供系统和客观的补充选项,指导诊断和临床决策。

从数据队列训练的诊断生物标记。癌症转化大数据研究的一个主要焦点是用于预测疾病风险的基因组学测试的开发,其中一些已经得到美国食品和药物管理局(FDA)的批准,并商业化用于临床使用。与通过生物机制和经验观察发现的生物标志物不同,大数据衍生检测分析来自许多患者和队列的基因组尺度基因组数据,为临床分析生成基因特征。这些预测指标主要帮助临床医生确定所需的最小治疗力度,以减少不必要的治疗和副作用。

以分子数据为指导的临床试验。全基因组和多模态数据已经开始在前瞻性多臂临床试验中发挥作用,特别是在研究精确疗法的临床试验中。例如,WINTHER试验基于实体肿瘤活检数据的DNA测序(A部分,通过Foundation One检测)或RNA表达(B部分,通过Agilent寡核苷酸阵列将肿瘤组织与正常组织进行比较)前瞻性地将晚期癌症患者与治疗相匹配。这种组学数据匹配的治疗通常会导致超适应症药物的使用。WINTHER研究得出结论,这两种数据类型对改善治疗建议和患者预后都有价值。此外,DNA测序和RNA表达之间在提供临床疗效方面没有显著差异,这被后来的一项研究证实。

数据驱动癌症诊断的人工智能

基因组学数据集,如基因表达水平或突变状态,通常可以在基因维度上彼此对齐。然而,临床诊断中的数据类型,如成像数据或文本报告,可能不会以任何明显的方式直接跨样本对齐。基于深度神经网络的人工智能方法是将这些数据类型集成到临床应用中的一种新兴方法。

0 (4).png

图3 数据驱动的人工智能支持癌症诊断

挑战和未来展望

尽管许多大数据的进步令人鼓舞和印象深刻,但在癌症研究和临床应用大数据方面仍存在相当大的挑战。组学数据经常受到队列之间测量不一致、显著的批处理效应和对特定实验平台的依赖的影响。这种一致性的缺乏是临床翻译的主要障碍。对于每一种数据类型,肿瘤组学数据的测量、校准和规范化的共识将是至关重要的。除了这些技术挑战,结构性和社会挑战也存在,并可能阻碍整个癌症数据科学领域的进步。

癌症数据科学的一个关键挑战是数据和代码的可用性不足。最近的一项研究发现,在生物医学领域,基于机器学习的研究与其他领域的公共数据和源代码可用性相比差得多。有时,即使在安全和隐私问题已经解决的情况下,伴随出版的癌症基因组数据的临床信息也不提供或不完整。造成此瓶颈的一个可能原因与数据发布策略和数据管理成本有关。尽管许多期刊要求公开发布数据,但由于知识产权和其他各种考虑,通常通过将数据存入存储库来满足这些要求,存储库需要作者和机构的访问许可请求。此外,沉积的数据可能缺少关键信息,如单细胞测序数据或组织病理学数据中的低分辨率图像缺少细胞条形码。

如前所述,癌症治疗可用的数据集远远小于其他领域可用的数据集。造成这种差距的一个原因是,医疗数据的生成依赖于受过专业训练的科学家。为了缩小数据规模的差距,将需要更多的投资来自动生成至少某些类型的带注释的医疗数据和患者组学数据。罕见癌症尤其缺乏临床前模型、临床样本和专项资金。此外,生物医学数据的可用性通常受到人群遗传背景的限制。例如,可操作突变的频率在东亚、欧洲和美国人群中可能不同。

0 (1).png

图4 利用生成人工智能模型设计新的激酶抑制剂

结论和展望

数据科学和人工智能正在通过各种应用改变我们的世界,包括自动驾驶汽车、面部识别和语言翻译,以及在医学领域对放射学和病理学图像的解读。我们已经有了可用的肿瘤数据,可以通过跨模式集成、跨队列聚合和数据重用促进癌症的生物医学突破,在生成和分析这些数据方面正在取得巨大进展。然而,大数据在该领域的现状是复杂的,在我们看来,我们应该承认,癌症领域的大数据还没有那么大。全球研究界未来对扩大癌症数据集的投资至关重要,这将使更好的计算模型能够推动基础研究、癌症诊断和新疗法的开发。

原文链接:

https://www.nature.com/articles/s41568-022-00502-0

参考文献:

[1] Jiang P, Sinha S, Aldape K, Hannenhalli S, Sahinalp C, Ruppin E. Big data in basic and translational cancer research. Nat Rev Cancer. 2022 Sep 5:1–15. doi: 10.1038/s41568-022-00502-0. Epub ahead of print. PMID: 36064595; PMCID: PMC9443637.


没有账号?