编辑丨&
细胞是生命的基本单位,对于了解健康、衰老和疾病至关重要,是药物开发和合成生物学的重要研究对象。基于细胞的实验需要大量资源,且出现突变的概率相当高,直接导致了生物医学实验中难以复现的困境。
通过数十亿年的进化,第一个碳基细胞出现在地球上,然而现如今借由虚拟技术,「硅基细胞」的发现与发展正在为科学界提供变革的机会。
最近,人工智能虚拟单元(AIVC)的概念被提出,集成了人工智能和多模态数据,用以创建细胞功能的综合计算模型。这些 AIVC 有望实现精确和可扩展的计算机实验。
来自杭州西湖大学的郭天南团队解答了关于 AIVC 的几个关键问题,比如什么构成了培养这些数字实体的理想「培养基」?应该优先考虑哪些细胞类型进行虚拟培养?
这些解答以「Grow AI virtual cells: three data pillars and closed-loop learning」为题,于 2025 年 3 月 25 日刊登于《Cell Research》。
三个数据支柱
团队提出,AIVC 的进化或增长依赖于三个基本组成部分和营养物质:先验知识、静态架构和动态状态。这些数据支柱与深度学习算法相结合,构成了 AIVC 开发的基础。
随着人工智能的快速发展,可以开发一个集成所有这些数据源的综合基础模型,作为构建 AIVC 的基础。团队将先验知识指定为 AIVC 构建的第一支柱,以其封装了对模型构建至关重要的基本细胞生物学机制。
图 1:通过闭环学习实现 AIVC 增长和进化的数据支柱。(图源:论文)
然而,虽然先验知识支柱富含多样化的细胞生物学信息,但它不能直接用于构建特定的 AIVC 模型。为了实现这一目标,需要对特定细胞进行全面表征,捕获其在形态与分子层面上的完整细胞结构及其相互作用。
接下来,静态架构是第二个重要支柱。它集成了纳米级分子结构和来自分子建模、冷冻电子显微镜、冷冻电子断层扫描、相关光学和电子显微镜与其他多尺度分析的空间分辨数据。
组织扩增技术可以进一步提高空间分辨率,补充上述高分辨率成像方法和组学技术。这种集成方法提供了详细的三维背景信息,对于准确的 AIVC 建模至关重要。
为了弥补在生命系统的动态性质上的缺陷,团队引入了动态状态作为 AIVC 开发的第三个支柱,以此来构建实时的 AIVC。这些数据包括自然过程,如衰老、发育和致癌作用,以及包括物理、化学和遗传干预在内的诱发扰动。
图 2:计算机模拟的原子环境下的细胞环境(图源:网络)
随着转录组学、蛋白质组学和代谢组学等高通量组学技术的进步,现在可以分析不同细胞状态下的数千种分子。为了构建有效的 AIVC,必须全面捕获广泛的细胞状态并最大限度地提高它们的多样性,以确保高精度区分它们,这需要大量的动态细胞特异性数据。
由于细胞的相似性,它们在构建 AIVC 方面的价值有限。为了更好地了解扰动对细胞行为的影响,新兴的空间组学技术需要能对分子分布进行大规模映射。故而,人工智能驱动的静态和动态数据集成对于构建功能稳健和可预测的 AIVC 至关重要。
闭环主动学习系统
为了发展 AIVC,团队将从静态、数据驱动的模型过渡到能够发展智能自适应系统。
闭环 AIVC 开发的作框架从自主化学实验室的最新突破中汲取灵感。这一愿景的核心是建立闭环框架,将计算预测与机器人实验相结合,特别是针对动态状态数据中的差距。
团队新提出的闭环主动学习系统可以根据它们减少模型不确定性或揭示新调控机制的潜力,优先考虑高影响扰动。随着实验循环进行,虚拟细胞得以不断进化,趋近于真实细胞乃至获得全新的特性。
尝试的方向
团队建议从一个相对简单但信息丰富的模型开始,例如酵母(S. cerevisiae)。这种生物体的基因组相对较小,拥有丰富的扰动组学和成像数据,以及已建立的遗传作和高通量实验方案。
后续则以人类癌细胞作为重要目标,推动 AIVC 在人类病理生理学与精准医疗中的发展应用。
未来,AIVCs 有望在药物开发、疾病建模和基础生物学研究中发挥重要作用。后续系统将在 AI 预测与机器人实验中进行针对性设计,完善对细胞的理解。科学界的努力将会助力释放 AIVC 的全部潜力。
原文链接:https://www.nature.com/articles/s41422-025-01101-y