AI生物学家:当「基础模型」撞上「生物学混沌」,谁才是解谜高手?

编辑丨toileter在如今的 AI for Biology 社区里,当今的词汇是基础模型。 每个人都希望将更多事物的更大的数据放入更大的模型中进行计算测试。 虚拟细胞模型将使研究者们能够预测细胞状态如何响应化学扰动而产生变化。

图片

编辑丨toileter

在如今的 AI for Biology 社区里,当今的词汇是基础模型。每个人都希望将更多事物的更大的数据放入更大的模型中进行计算测试。

虚拟细胞模型将使研究者们能够预测细胞状态如何响应化学扰动而产生变化。蛋白质语言模型将使他们能够识别更好的酶来降解塑料或具有更多类似药物特性的蛋白质结合剂。这些层位于越来越容易获得的基因组数据之上。由此带来的将会是光明的未来。

不过 FutureHouse 的联合创始人兼首席执行官 Sam Rodriques 认为,真正的生物学看起来有所不同。像是在NeurlPs (一个关于神经信息处理系统的会议)这样的 AI 生物学会议上,真正的生物学家并不多。他上个月在不列颠哥伦比亚省温哥华参加了该活动。

将这些推动生物发现的基础模型的梦想与《Nature》与《Science》的最新目录进行对比:

  • 一个长的非编码 eRNA 形成 R 环来塑造情绪体验诱导的行为适应——作者在小鼠中发现了一种 IncRNA,该 IncRNA 响应神经元活动而表达,该神经元活动调节染色质的 3D 结构,从而激活参与神经元可塑性的基因。作者进一步确定,这种 IncRNA 对于某些形式的学习是必不可少的。

论文链接:https://www.science.org/doi/10.1126/science.adp1562

  • 癌细胞损害单核细胞介导的 T 细胞刺激以逃避免疫——作者发现小鼠黑色素瘤细胞分泌一种脂质代谢物,阻止单核细胞激活 CD8+T细胞。

论文链接:https://www.nature.com/articles/s41586-024-08257-4

  • 钙调磷酸酶和 PKA 之间的突触后竞争调节哺乳动物的睡眠-觉醒周期——通过生成鼠敲除系,作者确定了对调节睡眠-觉醒周期至关重要的磷酸酶和激酶,并表明它作通过调节兴奋性突触后位点的蛋白质发挥作用。

论文链接:https://www.nature.com/articles/s41586-024-08132-2

Sam 坦言,他很难想象这些发现怎么会从多模态生物学基础模型中掉出来。这并不是一个稻草人的论点。当然,基础模型可能会从第一篇论文中识别出 IncRNA,但无法确定这样的基础模型如何将其与染色质重塑联系起来。

具有足够数据的多模式基础模型也有可能识别与接受某些类型治疗的黑色素瘤细胞相关的代谢变化,但 Sam 不明白该基础模型如何识别这些代谢物在防止 CD8+T 细胞活化方面的作用。事实上,他不认为今天正在开发的任何基础模型都能够产生这些论文中描述的那种丰富的新生物学见解。然而,这些见解正是新疗法的来源。

Sam 认为,问题在于机器学习模型在结构化数据上工作得非常好,因此所有正在构建的基础模型都是高度结构化的。以蛋白质序列作为输入,并产生蛋白质序列作为输出。将细胞状态和化学扰动作为输入,并产生新的细胞状态作为输出。

然而,生物学的结构很差。IncRNA 见解就是一个很好的例子:研究者可以使用什么结构化表示来表示 IncRNA 在调节染色质结构中的作用?蛋白质模型无法表示它,DNA 模型无法表示它,虚拟单元模型无法表示它。也许一个包含 RNA 表达和 3D 基因组状态的模型可以代表它,但是该模型将如何代表单核细胞的脂质调节呢?

Sam 担心每个发现都可能需要自己的表示空间。事实上,生物学的本质是这样的,如果没有整个有机体的原子分辨率真实空间模型,可能就没有足以表示与疾病相关的生物现象的多样性的表示。这样的全生物模型还很遥远--目前仍然没有一个计算机模型可以完全代表单个活细胞的复杂性。

当然,自然语言除外,它已经发展到代表人类能够思考的所有概念。事实上,Sam 认为自然语言最终是生物学中不可避免的发现,因为它是人类目前所知道的唯--种媒介,它的结构足以用于机器学习,并且足够灵活地表示生物概念的全部多样性。

将语言和生物学结合起来的一种方法是使用代理,就像在 FutureHouse 构建的代理一样。语言代理是语言模型--就像 ChatGPT 一样--可以使用文献搜索工具(例如 PubMed)、蛋白质结构预测工具(例如 AlphaFold)、DNA 分析工具(例如 BLAST)等以与人类相同的方式分析生物数据,但速度更快,规模更大。

FutureHouse 最近部署了代理 PaperQA2 来搜索文献,并为人类基因组中的几乎所有蛋白质编码基因撰写一篇准确且被引用的维基百科风格的文章。未来,语言代理将能够自动分析实验数据和临床报告,以提供详细的生物学假设,类似于上面的 Nature 和 Science 论文中的假设。

文章链接:https://wikicrow.ai/ZMYM3

还有其他方法可以将语言和生物学结合起来。将自然语言与蛋白质、DNA、转录组学等相结合的训练模型也将非常高效,前提是添加结构化数据类型不会限制它们表示非结构化概念的能力。

生物学的历史建立在人类于自然界中发现的用于研究生物现象的工具之上。CRISPR 是最近的一个有力例子。Sam 如此陈述道。

正如所有生物学家都知道的那样,试图从头开始设计事物(几乎)永远不会奏效,有效的方法是在自然界中寻找事物并重新利用它们。如果事实证明 FutureHouse 的工程不足以用于研究生物学,而古老的自然语言只是我们在自然界中发现的另一种工具,必须用于解开生物学的奥秘,那么它在美学上将是令人愉悦的。

相关资讯

ScienceAl 2024「AI+蛋白&核酸&分子互作」专题年度回顾

编辑 | 萝卜皮2024年,科学界迎来了重要的突破与创新,尤其是在人工智能与结构生物学的结合领域。 正如今年诺贝尔奖颁发所体现的那样,人工智能(AI)技术的迅猛发展正在推动各学科的深度融合,揭示了生命科学研究的新机遇与前景。 在这一年里,AI 与生物学的交汇点愈发引人注目,成为推动现代生物医药、医学研究、生命科学等领域变革的重要力量。

分类准确率达99%,山大团队提出基于对比学习的基因数据分类方法

编辑 | 萝卜皮深度神经网络模型的快速进步显著增强了从微生物序列数据中提取特征的能力,这对于解决生物学挑战至关重要。 然而,标记微生物数据的稀缺性和复杂性给监督学习方法带来了巨大的困难。 为了解决这些问题,山东大学的研究人员提出了 DNASimCLR,这是一个专为高效基因序列数据特征提取而设计的无监督框架。

量子级精度,静态到动态,微软蛋白MD模拟系统登Nature

编辑 | KX生物世界的本质在于分子及其相互作用的不断变化。 了解生物分子的动力学和相互作用对于破译生物过程背后的机制,以及开发生物材料和药物至关重要。 正如诺贝尔物理学奖得主理查德·费曼(Richard Feynman)的名言:「所有生物体的行为都可以通过原子的颤动和摆动来理解。