樊春海:DNA大数据存储,让IT-BT交融迸发出无限潜力 来源:信息中心2023.03.22

在当下眺望未来,你看见了什么?

樊春海:现在的证据越来越多证明,21世纪可能是生物技术和信息技术交叉融合的世纪——这就是我的远见。

交大安泰 EMBA20 周年之际,正式联合每日经济新闻共同推出“我的商学之路·我的远见”系列策划。邀请海内外知名的学者、专家以自己专业的视角共同为中国未来的社会经济发展、行业动态把脉。唯有远见未来才能更好的立足当下。

在2022年9月23日的交大安泰EMBA20周年暨安泰视界年度峰会上,中国科学院院士、上海交通大学化学化工学院院长樊春海给我们讲述了一个关于用DNA存储海量数据的神奇故事,描绘了一个生物技术与信息技术交融发展的美好未来。

照片.jpg

樊春海

中国科学院院士

上海交通大学化学化工学院院长

人物简介:樊春海,中国科学院院士,上海交通大学王宽诚讲席教授,博士生导师,化学化工学院院长、转化医学研究院执行院长、国家转化医学科学中心唐仲英首席科学家。兼任上海市科普志愿者协会理事长,九三学社中央委员、上海市副主委,十余份国际知名杂志副主编、编委。入选美国科学促进会(AAAS)、国际电化学学会(ISE)、美国医学和生物工程院(AIMBE)和英国皇家化学会(RSC)会士,已发表国际学术论文500余篇,自2014年起连续入选“全球高被引科学家”。

你还记得吗?1994年,比尔盖茨坐在33万纸上,对全世界发布,我们现在有了“光盘”。一张光盘能够记录的内容,也就33万张纸,这在当时来讲应该是非常具有震撼性的广告效应,也就是我们电子存储是具有如此强大的能力。
你发现了吗?身处在信息爆炸的时代,人类每时每刻都在产生着海量数据信息。为了存储它们,我们现在到处都在建设数据中心。这些数据中心要在靠近山边、水边的地方,占用了大量的土地和能源。

你会相信吗?未来有一天,我们有可能拿着一管DNA说:“看,我们这里面存储着全世界的所有数据!”

数据存储需要一场“绿色革命”

从原始人的结绳记事,到造纸术,再到电子信息时代的数据存储,信息存储方式的变革,从一个角度反映了人类社会的文明发展史。

信息时代来临时,我们曾相信:电子信息来存储,似乎解决了所有存储问题。然而,当我们真正进入一个数据爆炸的时代,我们逐渐发现:仅凭电子信息来存储数据,满足不了我们的需求了。

樊春海院士告诉了我们一组数据:2020年全世界的数据是44个ZB(440万亿亿字节)。“把这些数据存下来,光耗的电就是一个三峡大坝所产生的电。这个数据还在不断增长,到2025年预计是175ZB,而且里面80%-90%是很少被调用的冷数据。”

这些所谓冷数据,就是像图书馆的图书一样,我们需要把它存在那儿,不能让它毁灭。可是,日常工作生活中我们又很少去用它,一年可能都用不上一次。存储它们不仅需要耗能、占地,而且由于数据电子存储的寿命只有十年到几十年,时间到了就需要重新更新迭代一次。

所以,在这种情境下,信息存储越来越成为一个重大的国家战略级的需求。不仅存储消耗能源巨大,传输也越来越成为一个问题。

“1969年阿波罗登月计划的时候,当时存储介质是纸,也就是1人高这么多的数据,”樊春海院士举例对比:“到2019年,我们可能都知道人类第一次观察到了黑洞,把黑洞的图片传回来,存储这些数据的硬盘加起来有半吨重,没有办法通过网络来传输,只能通过飞机来运输。”

也正因如此,现有基于硅的存储方式,不仅存在高成本、高能耗、寿命短的问题,相对来说迁移起来也很麻烦。现有的数据存储架构,越来越难以满足数据日益爆发性增长的趋势。这时候,迫切需要一场“绿色革命”。

基因测序从理想变为现实

在人类不断生产出海量信息的同时,我们对于生命的理解也更加深刻。在过往几十年里,人类探索生命奥秘最重要突破之一,就是对DNA的更深入理解。

“DNA就是我们生命的密码。我们知道DNA由4种碱基组成,遵循非常简单的配对规则,我们有时候会称为叫华生-克里克配对原则。就是4个碱基分成两组,A一定是跟T配对,G一定是跟C配对。”

樊春海院士这样科普到:“在我们细胞里,每时每刻都有这样一个的过程:DNA双列进入到聚合酶的蛋白质的孔洞里,就像一个复印机一样,可以说是一个最精确的自然界产生的纳米复印机。当DNA复制达到一定量后,细胞开始分裂,一个细胞分成两个细胞,两个细胞分成四个细胞,逐渐变成组织、器官,到植物、动物、人……这就是我们所说的生物学遗传分子机制。”大家对上世纪末的人类基因组计划耳熟能详。人类基因组计划的目的,是把我们的遗传物质DNA序列测定下来。什么叫测定序列?就是把ATGC4个字母排列组合给确定下来。经过几代全世界科学家的努力,这终于变成了一个现实。更重要的是,当时测一个人的基因,要花几十亿美元。而现在对于全世界最强的测序公司来说,只要一天时间,花费一两千块钱的成本,就可以把一个人的基因检测出来。现在,全世界基因测序的市场规模已经达到100多亿美元。不仅如此,我们还可以把古人类、古生物的基因组序列测出来。比如我们通过检测70万年前野马化石的基因组信息,了解70万年前的野马有哪些生物学特性。

DNA如何存储数据信息?

虚拟世界、计算世界或者说现在的元宇宙,它的背后是两个数字——1和0在跳动。而在我们生物学生命的世界里,实际上背后是ATGC这4个字母在跳动。人类基因组计划所测出来的一本“天书”,实际上就是4个字母的排列。

从这个意义上讲,或者说我们从信息论的角度来看,实际上生命世界跟虚拟世界,可以说是等价的,无非一个是二进制,一个是四进制。也就是说,DNA分子就是这样一些由ATGC4个字母组成的,可以编码的分子信息材料。

既然DNA里面的ATGC是四进制,计算机里面就是二进制1和0,两者在信息上等价的。那么,是不是可以用DNA来存储计算机的信息呢?

樊春海院士介绍到,DNA存储无非就是把数据1和0的二进制变成ATGC四进制的编码过程。通过一系列的生化反应,把数据给存下来、读出来,再通过数据解码,变成1和0,跟计算机系统对接起来。“1988年,有科学家证明DNA可以用来存储信息,但是在当时并没有引起很多人的关注,后面有一系列的进展,包括哈佛大学的研究表明DNA可以用来存储一本书,在科学界都有一定的影响,但是没有引起社会上的震动。”

樊春海院士谈到,因为在当时,电子存储是足够用的,大家并不需要这样一个听起来很突破性、很怪异的方法来存储。但随着信息爆炸时代的来临,电子存储的瓶颈越来越明显。“于是,用DNA来存储,这件听起来比较怪的事情,实际上已经受到了国内外的普遍重视。”

据樊春海院士介绍,在科学杂志《Science》提到的未来人类的125个科学问题中,关于信息科学里面4个问题其中之一,就是DNA能否用作信息存储的介质。而在我们国家的“十四五”科技规划,就已经把它列入需要加快布局的几个前沿技术之一。

IT与BT交融的世纪来临

那么,用DNA来存储数据,将生物材料用到信息技术里,究竟会带来怎样的变革?

“推算一下可以知道,通过50克DNA,可以存下1千万盘硬盘的信息。可以通过DNA存储,把数据存储的容量极限提升7个数量级,”樊春海院士列了一组数据:“这样推算下来,全世界440万亿的字节,只要200公斤DNA就可以存下来,这就解决了大问题。”

也就是说,DNA存储带来了一种密度高、能耗非常低、寿命非常长的存储模式。寿命能够长到什么程度?“类似于刚才所说的70万年前的野马化石DNA信息,不仅可以存百年、万年,甚至有可能存到几十万年、百万年。相对于硅基电子存储只能存几十年来说,有着巨大的进步。”他说。

“2019年我们国家信息存储的市值将近5000亿元,预计到2025年,我们国家将成为全世界最大的数据城。”在樊春海院士看来,来自医疗、金融、互联网等等各行各业大量的数据,都有可能成为供DNA来存储的一些需求。

“DNA信息存储应该说目前还在起步阶段。”据他预测,预期到2024年,将有30%的数字业务有可能是用DNA存储来实现,从而解决现在指数级增长的数据存储问题。“我们上海交通大学成立了DNA存储研究中心,希望在这个过程当中,能够发挥独特的作用。”

据樊春海院士介绍,DNA数据存储是典型的信息技术和生物技术交融的产业,其中不仅包含有信息、大数据和人工智能技术,也包括合成生物学、基因测序等生物学技术。只有技术的交融,才有可能产生这样一个伟大的事情。

“在上个世纪,我们经常会听到这样的争论——21世纪到底是IT(信息技术)的世纪还是BT(生物技术)的世纪?现在的证据越来越多证明,21世纪可能是生物技术和信息技术交叉融合的世纪。”樊春海院士说。