二十世纪以来,随着互联网和人工智能等信息技术和数字技术的快速发展,信息量呈指数级增长。据统计,全球数据信息总量将从2018年的30ZB(泽字节,十万亿亿字节,1ZB约相当于1.1万亿GB)增长到2025年的163ZB,传统的硅基存储设备将面临发展瓶颈。这时便亟需信息密度更高的存储介质来满足日益增长的数据存储需求,而近几年,一项被称作「DNA存储」的技术被寄予厚望,被看作是可持续存储的未来!
首先,我们来看看这项技术有何逆天之处。从一些说法来看,这种技术的存储容量达到了惊人的一克DNA可以存储十亿兆兆字节(约215PB)的数据。举例来说,按照高清电影每部10GB来算,1克DNA能够存储约2.2亿部电影!也因此有说法称,仅需一公斤的DNA就能存储全球数据。
并且,在存储时间方面,硬盘、磁带等存储最多只能保留约10多年的数据,而DNA则至少可保留上百年的信息。另外,在能耗方面,1GB数据硬盘存储能耗大约为0.04W,而DNA存储的能耗则可小于10^-10W(10的负10次方W)。所以,无论在存储容量,还是数据保存时间及能耗方面,DNA存储都有着极大优势。
接下来,我们便来了解什么是DNA存储技术。概念上来说,DNA存储技术就是以DNA分子作为存储介质,将信息存储于DNA分子上,从而模拟存储器的数据读取和写入。
从概念来看似乎非常简单,但其实现原理却异常复杂。重温以前学过的生物知识,DNA是由腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)4个碱基构成双螺旋结构,来保存生物体的遗传信息。
而计算机系统数据则采用二进制来表示,即每位只有0和1两种形式。但DNA存储使用的新型算法,不再是传统的计算机二进制模式。
要将计算机中的信息存入DNA,实际上就是把计算机的二进制数据流,转换为DNA中的碱基序列编码的数据存储计算模式。例如,可以使用二进制,用0代表碱基A或C,1代表碱基T或G;也可以使用三进制,将数据编码存储来降低出错率;或者使用其他将数字编码转化为碱基化学编码的数据存储计算模式。
既然是存储数据,那么DNA存储技术也包括信息编码、信息储存、信息检索和信息读取四个步骤。
第一步,要对DNA中写入的数据进行信息编码,即通过计算机算法将比特序列映射到DNA序列,然后合成编码后的DNA序列,生成每个序列的多个物理拷贝。DNA序列可任意排列但长度有限,因此比特序列被分解成较小的块,之后可将其重新组装成原始数据。为此需要在每个块中加入一个索引,或在DNA序列中存储相互重叠的数据块。
第二步,合成的DNA需要以合适的方式(体内或体外)进行信息储存。
第三步,对相应的合成DNA池进行物理检索和采样,即信息检索。为了避免读取池中所有数据,需要如计算机设计中的随机访问能力,或从庞大的数据集中选择要读取特定数据项的能力。这在主流数字存储介质(硬盘等)中易于实现,但由于同一分子池中缺乏跨数据项的物理组织结构,这种操作在分子存储中较难实现。DNA数据存储中的随机存取可以通过选择性过程实现,如使用映射到数据项的探针进行磁珠提取或在编码过程期间使用与数据项关联的引物进行PCR(生物学的聚合酶链反应)。
最后一步,选定DNA样本后,下一步是对其进行测序,产生一组测序仪测序片段,并将其以高保真度解码回原始数字数据,即信息读取,其成功与否取决于整个过程中的测序覆盖率和错误率。
尽管DNA存储技术潜力巨大,但就目前尚未有所应用来看,其依然面临障碍。
首先,该技术在信息编码和解码过程中容易产生错误,有论文显示,每个碱基在每个位置的错误率约为1%,而终端客户无法承受这种程度的错误风险;其次,DNA数据存储的整体写入通量在每秒千字节左右,与主流的每秒千兆字节的读写通量相比有6个数量级的差距,测序能力则有2~3个数量级的差距;再次,在成本方面,虽然DNA合成成本仍然是保密的,但据业内分析师估计,阵列法DNA合成成本约为每碱基0.0001美元,算下来,1TB需要8亿美元;最后,尽管已有证据表明可读取数千年前的DNA,但DNA的降解速度可能比这快得多,这取决于其所处的条件。
不过,话说回来,在全球数据信息总量呈指数级增长的背景下,DNA存储技术开始在不同领域探索应用,各国也逐渐认识到未来DNA作为存储介质的应用前景以及开发相关新技术的重要性。
高通量DNA合成、测序以及编码作为DNA存储技术三个主要的技术领域,成为各国政策规划布局和技术研发的重点。
虽然挑战依然存在,但合成DNA存储系统的未来依然光明,并可能会对全球数据管理和医疗保健等领域产生深远影响。在学术界和工业界的共同努力下,相信在可预见的未来会有很多方法构建低成本且实用的DNA存储。
点击此处关注,获取最新资讯!
我的评论
最新评论