速度提升3200倍,准确率提高40%!深度神经网络+纠错码革新DNA存储技术

编辑 | 2049在全球数据量呈指数级增长的今天,传统存储技术的扩展速度已难以跟上。 脱氧核糖核酸(DNA)分子作为一种信息存储介质,以其卓越的信息密度、增强的数据耐久性和几乎可忽略的维护能耗,正逐渐成为解决存储危机的关键方案。 然而,DNA 存储技术面临可扩展性和准确性之间的权衡困境,成为商业化落地的主要障碍。

图片

编辑 | 2049

在全球数据量呈指数级增长的今天,传统存储技术的扩展速度已难以跟上。

脱氧核糖核酸(DNA)分子作为一种信息存储介质,以其卓越的信息密度、增强的数据耐久性和几乎可忽略的维护能耗,正逐渐成为解决存储危机的关键方案。

然而,DNA 存储技术面临可扩展性和准确性之间的权衡困境,成为商业化落地的主要障碍。

来自以色列理工学院(Technion)计算机科学学院的研究团队开发了一种创新方法,通过将深度神经网络(DNN)、基于张量积的纠错码(Error-Correcting Codes,ECC)和安全边际机制整合到一个统一的流程中,实现了 DNA 存储系统在高噪声环境下的高效可靠运行。

该研究以「Scalable and robust DNA-based storage via coding theory and deep learning」为题,发表于 2025 年 2 月 21 日的《Nature Machine Intelligence》。

图片

论文链接:https://www.nature.com/articles/s42256-025-01003-z

数据链接:https://zenodo.org/records/13896773

代码地址:https://github.com/itaiorr/Deep-DNA-based-storage.git 

研究背景:DNA 存储系统的挑战

DNA 存储通过将数字信息编码成 DNA 序列并合成对应的 DNA 链,具备理论上几乎无限的存储容量。

然而,此过程中的关键挑战在于信息检索系统,其需要克服 DNA 合成和测序过程中产生的各类错误,包括碱基替换、插入和删除。

传统的 DNA 信息检索流程包括聚类、重建和解码三个关键环节,其中每一步都面临着算法复杂度和准确性之间的平衡问题。

此前的解决方案往往采用内部编码或外部编码技术,通过添加冗余符号来检测和纠正错误。这类方法未能充分利用 DNA 合成和测序过程中的固有冗余,导致编码方案冗余度较高,同时需要处理更多的 DNA 链和读取序列,系统效率较低。

DNAformer:端到端信息检索解决方案

研究团队提出的 DNAformer 解决方案采用模块化编码方案,将 ECC 和约束码结合在 DNA 合成和存储之前。这种设计允许将大型数据集划分为更小的块,实现快速、简便的数据访问。

DNAformer 的创新在于信息检索流程。首先,系统采用基于索引的简单分箱算法进行聚类,这种方法虽然会引入噪声,但极大提升了处理速度。接着,系统使用 DNN 从读取序列重建原始编码序列。

该网络采用卷积和 Transformer 的组合架构,后接置信度过滤器,用于筛选准确预测和不准确预测。对于可能不准确的预测,系统会应用基于动态规划的条件概率逻辑(Conditional Probability Logic,CPL)算法进行二次重建,该算法无需先验知识即可估计聚类中的错误概率,有效平衡了准确性和速度的权衡。

为避免高昂的 DNN 训练数据获取成本,研究团队使用小规模真实数据分析合成、聚合酶链式反应(Polymerase Chain Reaction,PCR)和测序的错误率,构建了 SOLQC 工具模型,进而生成大量模拟训练数据。这种方法只需为每种合成和测序技术建模一次,使解决方案在成本和规模上更具优势。

图片

图示:DNA 信息检索的端到端解决方案。(来源:论文)

实验验证与性能分析

研究团队使用 Illumina miSeq 和 Oxford Nanopore MinION 两种不同的测序技术,对总计 3.1 MB 的信息进行了实验验证。实验数据包括压缩文件夹(包含图像、24 秒音频片段和文本文件)及随机信息位,共分为两个文件,每个约 1.5 MB。

图片

图示:用于 DNA 实验的数据。(来源:论文)

与当前领先的解决方案相比,DNAformer 在速度上实现了 3200 倍的提升,准确率提高了 40%。在高噪声环境下,该系统提供了每碱基 1.6 比特的编码率,远超现有方案。具体来说,在 Illumina 数据集上,DNAformer 的失败率仅为 0.0055%;在 Nanopore 数据集上,失败率为 1.65%。

图片

图示:DNAformer 与 SOTA DNA 重建方法的比较。(来源:论文)

此外,DNAformer 在数据模态方面表现出色,不依赖于底层语义或数据结构,而是专注于合成和测序过程中的噪声特性,使其能够以相似的性能处理非结构化和结构化数据。

系统的另一创新在于编码方案,它使用基于张量积的模块化编码方案,既充分利用上游步骤中的固有冗余,又减少了编码方案中所需的冗余度。通过引入安全边际机制,该系统能够量化在特定工作条件下的稳健性,进一步提升可靠性。

图片

图示:信息检索性能评估。(来源:论文)

未来展望与意义

DNAformer 成功克服了 DNA 存储系统中失败率和运行时间的主要瓶颈,通过结合 DNN 与 ECC 的方法,显著改进了解码过程并缩短了系统响应时间。这一突破为 DNA 存储的商业化应用扫除了重要的技术障碍。

然而,要实现规模化应用仍需解决 DNA 合成与测序成本、长期稳定性以及法律和标准化等问题。随着相关技术的进步,DNAformer 这类端到端解决方案将在大规模数据存储系统中发挥越来越重要的作用。

未来研究可以进一步优化神经网络架构(如改进 Transformer 模型)、探索更高效的编码方案(如针对插入和删除错误的专用编码),并开发更智能的聚类算法以降低系统对聚类大小和噪声水平的敏感性,使 DNA 存储技术更加稳健和经济可行。

相关资讯

超衍射极限1.5倍,成像条件低10倍,清华、中国科学院用AI方法提高显微镜分辨率

图示:通过 ZS-DeconvNet 对快速光敏生物过程进行长期 SR 成像。(来源:论文)编辑 | 萝卜皮计算超分辨率方法,包括传统的分析算法和深度学习模型,极大地改进了光学显微镜。其中,有监督深度神经网络表现出了出色的性能,但由于活细胞的高动态性,需要大量的高质量训练数据,而获取这些数据非常费力甚至不切实际。在最新的研究中,清华大学和中国科学院的研究人员开发了零样本反卷积网络(Zero-shot deconvolution networks,ZS-DeconvNet),可立即将显微镜图像的分辨率提高超过衍射极限

DeepSeek太给力了!自家的大模型秘方开源到底!国产大模型雄起

出品 | 51CTO技术栈(微信号:blog51cto)DeepSeek “开源周”第五天,依旧保持了一如既往地“务实”风,满满的诚意。 先来回忆下前四天,源神的慷慨发布——第一天,2月24日,最为外界称道的MLA技术率先开源,这项解码加速器FlashMLA技术能够让英伟达Hopper架构GPU跑得更快,效果更好! 紧接着,25日,直接亮出首个面向MoE模型的开源专家并行通信库DeepEP,实现了MoE训练推理的全栈优化;第三天,则进一步祭出一项跨时代的发布:FP8通用矩阵乘法加速库,从底层让模型训练、微调变得更加流畅丝滑;第四天,也就是昨天的并行优化“三剑客”:DeepSeek-V3和R1 模型背后的并行计算优化技术——DualPipe(双向流水线并行算法,让计算和通信高效协同)、EPLB ( 专家并行负载均衡器,让每个 GPU 都“雨露均沾”)、profile-data (性能分析数据,可以理解成V3/R1 的并行优化的分析经验)可以说前四天的发布聚焦在算力通信、模型架构优化,也就是算力和算法的层面,而接下来第五天的开源则补上了AI三驾马车的最后一块,也是用户体验感知更为明显的一块优化动作:高性能分布式文件系统(数据存储层面的改进)。

AI/ML存储环境架构的三个技巧

人工智能彻底改变了我们周围的世界,其革命性影响源于它分析大量数据、从中学习并提供见解和自动化能力。 这些数据通常分布在数据仓库、数据湖、云和本地数据中心中,确保关键信息能够被访问和分析,以适应当今的人工智能计划。 人工智能激增的影响之一是传统商业模式的颠覆。