科研星球

Nature 子刊:麻省理工学院研究团队成功地将图像和文本编码为 DNA 保存

进入21世纪以来,人类世界的数据信息急剧增长,目前,全世界每天产生的邮件、照片、推文、视频等等数字文件超过250万G,而全世界总数字文件更是高达10万亿G。这些数据大多被保存在巨大的数据中心中,一个存储量为10亿G的大型数据中心,占地可达数个足球场,建设和维护成本高达10亿美元


随着数据量级越来越大,在可预见的未来,基于传统硅基储存介质的储存方式将不可避免地陷入资源枯竭的困境。于是,开发新的储存技术就显得尤为重要。

在数据储存的发展方向中,DNA 存储技术是一个诱人且富有希望的选项。众所周知,DNA 是自然生物储存遗传信息的载体——在细胞核尺度的空间里,就能储存一个物种所有的遗传信息。DNA 存储的数据密度高到难以想象,一个装满 DNA 的咖啡杯,足以存下全世界所有数据。而且,一旦合成了这些用于存储的 DNA ,它就不会再消耗任何能量,能够永远存储。

在此之前,科学家们已经在证明能够在 DNA 中写入图像和文本文件,但是虽然该技术一直在发展,但距离真正的普遍应用还有很长的路要走。其中一个关键挑战就是,如何从大量 DNA 存档中快速识别和检索文件。毕竟,文件保存后,还要找得到、能读取才行。

2021年6月10日,麻省理工学院的 Mark Bathe 等人在 Nature 子刊 Nature Materials 期刊发表了题为:Random access DNA memory using Boolean search in an archival file storage system 的研究论文。

研究团队成功地将图像和文本编码为 DNA 保存,然后将每个数据文件封装到一个 6 微米直径的二氧化硅颗粒中,并用可显示内容的短 DNA 序列进行标记。通过这种方法,能够快速、准确的识别检索保存的 DNA 数据文件

0.png

数字存储系统将文本、照片、视频或任何其他类型的信息编码为一系列 0 和 1 进行存储。与之类似,DNA 通过四个核苷酸 A、T、G 和 C 存储遗传信息。

实际上,DNA 可以用来存储任意数字信息,我们可以用 G 和 C 表示 0,用 A 和 T 表示 1。其数据存储密度远远超过传统数据存储技术,可存储规模更是远远超出现有最大数据中心的容量。直观来说,1立方厘米的 DNA 存储的数据信息比一万亿张光盘存储量还多。

0 (1).png
DNA存储技术的独特优势——具有极高的存储密度和容量

除了具有极高的存储密度和容量外,DNA 还具有其他几个特性,使其成为理想的存储介质,DNA 非常稳定,合成和排序相当容易(但目前很昂贵)

之前已有科学家证实了使用 DNA 进行数据存储的可行性,例如在2012年,哈佛大学的乔治·丘奇(George Church)就曾在 Science 期刊发表论文【2】,将自己的一本大小为659kb书存进了 DNA 中,并将其导入了大肠杆菌进行复制

事实上,目前 DNA 存储数据的大小主要受 DNA 合成成本的限制,这也是 DNA 存储的一个主要障碍。根据目前的 DNA 合成成本,在 DNA 中存入 100 万G 数据,花费的成本将达到惊人的 1 万亿美元。要知道,2020年全世界达到 1 万亿美元 GDP 的国家也仅有 16 个。

这意味着要与目前主流存储技术竞争的话,DNA 合成的成本需要下降大约 6 个数量级才行。

但该论文的通讯作者 Mark Bathe 表示,预计这种成本下降在一二十年内就会实现,类似于过去几十年在闪存上存储成本的下降速度。DNA 合成和测序技术的最新进展不断降低写入和读取 DNA 的成本,这预示着基于 DNA 的存储技术在不久的未来将极具商业竞争力

除了成本高昂之外,使用 DNA 数据存储数据的另一个主要瓶颈是存储后难以从大量文件中快速检索并挑选出想要的文件。

假如将来已经实现了超低成本的 DNA 合成,达到了在 DNA 中写入 10 亿G级别的大规模数据,这时候面临的问题是,如何从中找到想要的文件?

传统上,我们通过 PCR 从 DNA 库中找到特定的序列,但对于上述大规模 DNA 数据,这无疑是大海捞针。

为了解决这个问题,Mark Bathe 领导的研究团队开发了一种检索技术,能够实现快速、准确地检索储存在 DNA 中的数据文件。

研究团队将 DNA 文件封装到直径仅 6 微米的二氧化硅颗粒中封装大约存储 1G 数据的 DNA 文件,每个二氧化硅颗粒中可,每个二氧化硅颗粒标有与文件内容相对应的单链 DNA 条形码

接下来,研究团队验证了上述方法的可行性,他们将狮子、老虎、猫、狗、香蕉、飞机等等 20 个不同的图像编码到大约 3000 个核苷酸长度的 DNA 片段中,相当于大约 100 B。

每个文件都标有与“猫”或“飞机”等标签相对应的条形码。当研究人员想要提取特定图像时,只需添加与他们正在寻找的标签相对应的引物,就能快速找到对应的文件,并进行读取,这种方法不会损坏 DNA 文件。

研究人员使用了来自哈佛医学院 Stephen Elledge 教授开发的 100000 个序列库中的单链 DNA 序列,每个序列长约 25 个核苷酸。如果在每个 DNA 文件上放置两个这样的标签,可以对 100 亿个不同的文件进行唯一不重复标记,如果每个文件上有四个标签,则可以唯一不重复标记 1 万亿亿个不同的文件。

通过这种方法,研究团队实现了每秒 1 KB 的搜索检索速度,目前来看,这一速度仍然太慢,但研究团队表示,现阶段这种方法可以用于存储那些需要长期保存但不经常访问的数据

Mark Bathe 实验室还成立一家名为 cache DNA 的初创公司,致力于开发基于 DNA 的永久存储技术。

您能想象将来有一天,我们会把所有数码照片、文档、音频、视频以及其他文件都存储在 DNA 中吗?

论文链接:
https://www.nature.com/articles/s41563-021-01021-3
https://science.sciencemag.org/content/337/6102/1628.full



没有账号?