扪心自问一下,我们存储在硬盘或移动闪存内的信息可以保存多久呢?5年?10年?还是更久?
据美国有线电视新闻网(CNN)近日报道,目前,一家名为Backblaze的在线备份服务商正在同时运行2.5万个硬盘,它们希望借此将这个问题查个水落石出。尽管该调查目前仅仅进行了5年,但研究结果表明,4年的损耗率就高达22%。Backblaze公司表示,有些服务器的寿命可能有10多年,而有些则不足1年。但不管怎样,存储设备无法永远存在。
因此,科学家们开始四处寻觅,希望找到能使数据存续数百万年之久的存储方法。
DNA或成终极数据存储器
瑞士苏黎世理工学院的研究人员相信,答案可能就在每个活体细胞都有的数据存储系统:脱氧核糖核酸(DNA)内。DNA是一种双链结构的分子,主要功能是长期性的资讯储存,被喻为“蓝图”或“食谱”。DNA不仅紧凑而且复杂,因此,从理论上来说,1克DNA就能将互联网巨头谷歌和脸谱上所有海量数据囊括其中,且还有富裕空间。
研究人员表示,这1克DNA能容纳455EB(艾字节)的数据,相当于4550GB字节的数据,而5EB就相当于至今全世界人类所讲过的话语。
化石作用让DNA长期保存
众所周知,化石作用让古生物化石中的DNA在特殊条件下可以被保存下来,人们可以从中获得动物的整个基因组。迄今为止,科学家们已经对11万年前的北极熊和70万年前的马的基因组进行了提取和测序。
苏黎世理工学院化学和应用生物科学系讲师罗伯特•格拉斯表示,DNA也存在着巨大的问题,那就是它会很快降解。格拉斯在接受CNN采访时表示:“我们已经发现了使DNA非常稳定的简单方法,希望能找到办法,将DNA的高存储密度和稳定性这两个属性结合起来,应用于数据存储方面。”
格拉斯说:“就目前的情况来看,化石中的DNA最多能保存70万年,不过,也有人推断能在化石骨头内发现存在时间长达百万年之久的遗传物质。我们已经证明,我们制造出的DNA和信息存储的衰变速度同化石DNA的相同,因此,我们或能得到大约100万年的存储时间。”
考古学领域的最新发现也进一步刷新了人们对DNA保存能力的认知。据媒体报道,2013年年底,古生物学家从一根来自西班牙的40万年前的股骨中提取出了DNA,这些化石是上世纪90年代从西班牙北部一处叫做“骨坑”(Sima de los Huesos)的地方发掘出来的,这段DNA是公开发表的最古老的人类DNA,将此前纪录提前了足足30万年。其中的神奇之处在于,这个DNA能在墓穴这个相对来说比较寒冷但非冰冻的环境下存活下来。
格拉斯说:“还有很多谜题有待解开,我们希望进一步弄清楚DNA的衰变机制。”
人工模拟化石作用
现在,我们都知道,水和氧气是DNA生存的敌人。在一个试管中且暴露在空气中的DNA只能存活2年到3年;而将DNA密封在一个玻璃(一个无菌且中性的环境)内并对其进行冷却,可以增加其生存几率。
研究人员解释道,人工办法其实也模拟了自然界中发生的现象,如果化石能让DNA处于寒冷、干燥且密封的状态,那么,微型玻璃圆球也能让双链中包含的信息数千年毫发无伤。格拉斯说:“溶胶—凝胶技术可以利用小分子制造固体物质,因此,我们能借用这一过程制造出包围DNA分子的玻璃。”
该研究可与科幻大片《侏罗纪公园》相媲美。在《侏罗纪公园》中,研究人员利用琥珀中吸食恐龙血液的蚊子,最终克隆出恐龙,并建造了一个侏罗纪时代公园。不过,格拉斯说,通过琥珀内的史前昆虫来获得史前DNA,这一想法并不靠谱。他说:“最好的DNA来源是陶瓷和干燥的物体,因此,牙齿、骨头甚至蛋壳更有可能。”
成本有望不断降低
迄今为止,该研究团队通过仅仅保存83KB的数据来对最新方法进行测试。格拉斯介绍说:“我们保存了两个大文件,一个是《1921年瑞士联邦宪章》;另一个是阿基米德重写本。我们希望通过存储这些文件来证明,我们的方法不仅有用,而且很重要。”
他推断,在1万年内,信息是可读的;而如果在冰冻状态下,可以存储100万年之久。据悉,为这86KB的信息编码的成本大约为2000美元,目前来看有点昂贵,但格拉斯乐观地认为,医学分析领域取得的进步很有可能让成本大幅降低。
格拉斯说:“人类基因组测序的价格已经从几年前的数百万美元下降到现在的数百美元。现在,似乎到了我们将医学分析和基因组分析领域取得的进步整合进信息技术领域的时刻了,一旦如此,整个信息技术将呈现出崭新的面貌。
医谷+
从二进制到碱基对编码
DNA是生物数据库,它的主要功能就是存储包含各种指令的生物信息。DNA有G(鸟嘌呤)、T(胸腺嘧啶)、A(腺嘌呤)、C(胞嘧啶)四种碱基,共同构成了相互缠绕的双链阶梯状的螺旋结构。通过这四种碱基不同顺序的编码,存储了生物所有的遗传信息。
现代计算机技术奠基者之一冯•诺依曼曾在 1948 年提出“自动复制机器”的设想:一个能够自我繁殖的系统,不仅能够构建某个组成元素,结构和自己一致的下一代,也能够把对自身的描述传递给下一代,如此往复。后来随着生物遗传的奥妙被发现,人们意识到,DNA 双螺旋结构正是冯•诺依曼描述的自动复制机器。
DNA里的四种碱基,两两互补成对。一个最短的DNA分子也有 4000个碱基对,可能的排列方式就有44000种。碱基对排列顺序千变万化,从而能够存储大量的遗传信息。
向活体DNA里写入数据,有诸多困难,细胞会死亡、分裂、变异,数据内容就会发生改变。因此,目前一些科学家们没有采用活细胞的基因组,而是采用了人工合成的DNA片段。他们用很多短的DNA序列而非长DNA序列来编码数据,这类似于硬盘写入的原理,在硬盘中,数据是被写入称为扇区的小硬盘块,这样能够降低写入和读取数据的困难和成本。科学家们将这种片段用喷墨打印机嵌入到微阵列芯片表面。接着,他们把计划写入 DNA的书里包含的信息:图片、文字、程序转化为HTML格式的文件,并将这些文件编译为由 0和1组成的电脑能够读懂的2进制数据。然后,他们将2进制数据转为四种碱基,把0转为A或 C,把1转成G或者T,并建立DNA链来维系这些编码的顺序和位置。每一个DNA片段还包含一个数字“条码”,记录它在原始文件中的位置,每个片段被合成多个拷贝以便有助于校正错误。编码完成后,这些芯片会在4摄氏度下保持三个月。
测序就是读取数据的过程:启用DNA测序装置,将所有DNA片断中的编码按照标记顺序排列,再还原成 2 进制格式的数据。每个 DNA 片断的每一个拷贝被测序高达3000次以便校对。利用这种方式,他们将5.27兆数据中的错误降低到只有12个。这种尺寸微小的存储设备,存储密度远远高于DVD、硬盘等介质,效果也毫不逊色。
丘奇认为,和其他生物存储介质相比,DNA存储比较可靠,在室温下也是稳定的,你甚至可以将它放在任何地方,几十万年后,它还在那里。现在的问题是,DNA 存储设备的访问速度很慢,存取和读取都很花费时间,如何覆盖和重写数据也是个问题。好消息是,随着测序技术的进展,DNA 编码和测序的成本会逐年下降,离商业化应用也就不远了。
生物硬盘
在人们把目光投向生物存储之前,占据存储市场主流的就是现在的存储介质,主要是磁盘、光盘。1949年,电脑的磁存储设备问世,意味着信息可以随时存取和控制,这个设备改变了整个行业。一块铝制圆片,涂上磁性介质,因为磁有正负级,在电磁效应作用下,可以方便地存储和表达010101的二进制信息。无论磁盘还是硬盘,基本原理几乎一样。经过60 多年的发展,磁存储行业已经可以在3.5英寸大小的驱动上存储3TB数据。
另一种主流的光存储也在不断挑战存储极限。光盘将数字编码的视频和音频储存在光盘表面的凹槽中。激光读取这些凹槽的背面,就能播放储存的电影节目。光盘包含的数据越多,凹槽就必须越小、越紧凑。与之相对,读取激光的精度也必须越来越高。普通DVD使用的是红色激光在凹槽里记录信息,蓝色激光波长比红色激光长,较小的光束聚焦更准确。此外,蓝光光盘将轨距从0.74微米缩小到0.32微米。更小的凹槽,更小的光束以及更短的轨距结合,蓝光的问世正是顺应了大数据存储的潮流。现在单层蓝光光盘能够保存 25GB 以上的信息,是 DVD 可储存信息量的5倍。还有人在研发用紫外线做激光,其波长比蓝光更短,如果成功,一张光盘可以保存500GB的数据。
这些存储方式有一个共同的缺点,磁片表面也好,光盘表面也好,都是单层的平铺式地记录和保存信息,哪怕磁盘每一层可以叠加,也和DNA封闭的双螺旋立体结构无法媲美,记录的数据量相去甚远。一克DNA即能储存上千亿个千兆字节,相当于1000亿张DVD光盘的内容。
随着摩尔定律的升级,人们已经逐步接近传统电子制造的极限。人们早就开始在自然中寻找解决问题的灵感。早在2007年,就有日本科学家研究利用趋磁细菌制造出和传统计算机原件类似的东西,代替磁盘存贮数据。今年初,又爆出德国和台湾的一个联合科研团队以三文鱼的DNA作为基础,制造出单次写入多次读取的存储器。不过,那个DNA存储装置只能储存数据至多30小时,且它并没有利用DNA的结构进行编码。
这是个数据爆炸的时代,无处不在的摄像头,互联网上成倍增长的信息,大量手持设备的照片、视频?如果生物存储技术足够成熟,人们可以记录所有想记录的一切,而不必担心家里没有地方放硬盘。市政部门也不必每隔一段时间就清理街道摄像头的视频记录,释放存储空间。
微流体和芯片实验室的发展,让DNA合成和测序变成一项日常工作。以前,要解码一个人类基因得花几年,现在用微流体芯片技术只要不到一天。如果用于长期存储,这样的速度还是可以接受的。随着DNA读写技术的商业化,未来的DNA硬盘,或许会和今天的硬盘、光碟一样普遍。
来源:科技日报