科研星球

蛋白质宇宙来了!AlphaFold把几乎所有已知蛋白质的结构预测完了

原文作者:Ewen Callaway

DeepMind的AI工具AlphaFold确定了约2亿个蛋白质的结构,范围覆盖地球上几乎所有已知生物。

从现在起,确定几乎所有已知蛋白质的3D结构就和用谷歌(Google)搜索一样简单了。


研究人员用AlphaFold——革命性的人工智能(AI)网络——预测了100万个物种体内约2亿个蛋白质的结构,范围几乎囊括地球上所有已知蛋白质。


这些转储数据将在DeepMind和欧洲分子生物学实验室欧洲生物信息研究所(EMBL-EBI)共同建立的一个数据库中免费公开。负责开发AlphaFold的 DeepMind是谷歌位于伦敦的一家AI公司;而EMBL-EBI是位于英国剑桥近郊的一个政府间组织。


本质上,你可以理解为它覆盖了整个蛋白质宇宙,”DeepMind的CEO Demis Hassabis在新闻发布会上说,“我们正处在数字生物学新时代的开端。

0.jpg

图中为AlphaFold预测的蛋黄前体——卵黄蛋白原蛋白的结构。来源:DeepMind

蛋白质的3D构象或称结构决定了它在细胞中的功能。大部分药物的设计都需要用到结构信息,而构建蛋白质氨基酸的准确排列图谱往往是发现蛋白质如何工作的第一步。


DeepMind利用名为深度学习的AI技术开发了AlphaFold网络,一年前上线的AlphaFold数据库共有35万个预测结构,覆盖了来自人、小鼠和19种其他被大量研究生物的几乎全部蛋白质。在那之后,这个数据库扩大到了约100万个结构。


伦敦大学学院计算生物学家Christine Orengo说:“我们都在等待这个宝贵资源的公开。”Orengo利用AlphaFold数据库寻找新的蛋白家族。“把所有数据都替我们预测好简直不能再棒了。”

高质量结构

就在去年AlphaFold的公开在生命科学领域引发轰动后,领域内的研究人员纷纷开始利用这一工具。AlphaFold能对蛋白质的3D结构进行非常准确的预测。它还能对它的预测结果进行评估,让研究人员知道哪些信息是可靠的。传统上,科研人员一直在用X射线晶体学和冷冻电镜这种耗时且成本高昂的实验技术解析蛋白质的结构。


EMBL-EBI表示,在这些逾2.14亿个结构预测中,约35%的预测结果被认为准确度很高,即和实验解析的结构一样可靠。另有45%的预测被认为置信度足够高,在很多情况下都能使用。


AlphaFold预测的许多结构都很可靠,能在很多情况下替代实验解析的结构。其他情况下,研究人员会用AlphaFold的预测结果验证和解读实验数据。不可靠的预测结果一望即知,其中一些源于蛋白质固有的无序性质,这种无序意味着蛋白质本身没有固定的形状,至少在没有其他分子的情况下是无序的。


几天前发布的这2亿个预测结构基于UNIPROT数据库中的序列。科学家可能对这些蛋白质中的一些形状已经有概念了,它们不是在实验解析结构的数据库中,就是与这类数据库中的其他蛋白类似,巴塞罗那Josep Carreras白血病研究所的计算生物学家Eduard Porta Pardo说。


0 (1).jpg

DeepMind的CEO Demis Hassabis说AlphaFold的新数据覆盖了“整个蛋白质宇宙”。来源:Jung Yeon-Je/AFP/Getty


但Porta表示,这些结构一般集中在人、小鼠,和其他哺乳动物的蛋白质上,而AlphaFold的数据覆盖了更多不同的生物体,所以将极大地增进我们的认知。Porta说:“这个资源太无敌了。我会在公布的第一时间下载它。”


由于AlphaFold公开已有一年,所以研究人员已经能够预测他们想要的任何蛋白质的结构。但很多人也表示,把预测的结构集中到一个数据库可以节省研究人员不少时间、金钱和麻烦。“这是可以去除的另一个准入门槛,”Porta说,“我用过很多AlphaFold模型,但我从来没有自己运行过AlphaFold。”


EMBL在德国汉堡的结构建模师Jan Kosinski过去一年一直在运行AlphaFold,他已经等不及看到这次的扩展了。他的团队用三周时间预测了一个病原体的蛋白质组——蛋白质组是指某个生物体的全部蛋白质集合。他在发布会上说:“现在我们只要把所有模型都下载下来就可以了。”

23TB

把近乎所有已知蛋白都收入数据库也能推动新的研究。Orengo的团队之前就在用AlphaFold的数据库寻找新的蛋白质家族,他们现在将把这个研究放到更大的尺度上。她的团队还将利用这个扩展后的数据库理解具有有益性质的蛋白质的演化,比如消化塑料的能力,或是具有能诱导癌症一类的有害的性质。在数据库中找出这些蛋白质的远亲可以了解这些性质的源头。


首尔大学计算生物学家Martin Steinegger协助开发了AlphaFold基于云的版本,他对数据库的扩大感到十分激动。但他说,研究人员可能仍然需要自己跑AlphaFold。越来越多的人将AlphaFold用来确定蛋白质的相互作用,而数据库中并不包含这类预测信息。对从土壤、海洋和其他“宏基因组”来源的遗传物质进行测序从而确定的微生物蛋白也不包含在该数据库中。 


Steinegger说,对扩展后的AlphaFold数据库的一些更高级的运用可能也需要下载它全部23TB的内容,而这对许多团队来说是不切实际的。基于云的储存也很烧钱。Steinegger与人共同开发了一个软件工具,名为FoldSeek,可以快速找到结构相似的蛋白质,这应该能大大减少AlphaFold的数据量。


即使AlphaFold数据库已经包含了几乎全部的已知蛋白,但它仍需要根据新发现的生物体进行更新。AlphaFold的预测准确度也会在获得新的结构信息后进一步提升。Hassabis说,DeepMind承诺会长期维护该数据库,他说他每年都能看到更新。


他希望AlphaFold数据库能给生命科学带来持久的影响。“这将需要我们彻底转变思考方式。

原文以‘The entire protein universe’: AI predicts shape of nearly every known protein为标题发表在2022年7月28日《自然》的新闻版块上


没有账号?