AI4Science与LLM的碰撞:生物分子+文本的联合建模,人大高瓴、微软、华科、中科大团队最新综述

作者 | 裴启智随着大模型和 AI4Science 的蓬勃发展,越来越多的工作开始关注生物分子(Biomolecule)与自然语言(Language)的联合建模。这种方法利用文本数据中所包含的生物分子的丰富、多方面的描述,增强模型对其的理解,提高生物分子属性预测等下游任务的效果,为全面表示和分析生物分子开辟了新的途径。近日,人大高瓴联合微软、华科、中科大等机构发布了综述文章:《Leveraging Biomolecule and Natural Language through Multi-Modal Learni

图片

作者 | 裴启智

随着大模型和 AI4Science 的蓬勃发展,越来越多的工作开始关注生物分子(Biomolecule)与自然语言(Language)的联合建模。这种方法利用文本数据中所包含的生物分子的丰富、多方面的描述,增强模型对其的理解,提高生物分子属性预测等下游任务的效果,为全面表示和分析生物分子开辟了新的途径。

近日,人大高瓴联合微软、华科、中科大等机构发布了综述文章:《Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey》[1]。该综述从生物分子的表征方式、建模目标、表示学习、应用场景等方面出发,系统地总结了相关工作,以及可用的数据、代码、模型、benchmark。

图片

论文链接:https://arxiv.org/abs/2403.01528

GitHub链接:https://github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling

图片

图片

下面对各个章节进行简单展开

生物分子的表征方式

一般来说,文本、分子和蛋白质的模态有不同的表征方式,例如一维序列、二维图和三维结构。下图展示了不同模态及其表示方法的简单总结。文本通常使用一维序列来表示。而对于生物分子来说,通常有一维序列、二维图和三维结构的表示。另外,还有一些其他的表示,例如分子图像、分子指纹、蛋白质的 GO term 等等。

图片

联合建模的直觉和目标

生物分子和自然语言的联合建模可以克服传统生物分子表示固有的局限性。虽然现有的表示方法可以有效地捕获生物分子的固有属性,但它们往往忽略了丰富的外部知识,例如生物文献、数据库和知识图谱。

图片

而将生物分子与外部知识源联合建模的主要目标是开发能够理解和预测生物分子的复杂行为和相互作用的模型,包括表示学习、指令遵循和 Agent/Assistant 模型。此外,语言为生物分子设计提供了更灵活的媒介/接口。

通过生物分子和语言的联合建模,模型可以利用广泛的生物知识来完成生物分子相关的任务,从而能够对生物分子的生成和编辑进行更细致的控制。这种建模有助于探索广阔的分子空间,从而创造出具有所需特性的新型生物分子。

图片

模型架构

Transformer 架构是该领域大多数模型框架的基石。我们先介绍了传统的 Transformer 模型,包括 encoder/decoder-only 和 encoder-decoder 架构。此外,我们还探索了该领域一些 Transformer 变体。

比如 PaLM-E style[2] 模型,包括一个 external encoders、modality projector 和一个 base LLM。通过将生物分子和文本空间对齐,modality projector 可以从生物分子 encoder 中提取与文本相关的分子特征,从而使语言模型能够理解生物分子。PaLM-E style 模型不仅可以有效地利用预训练的生物模型,还可以使LM能够处理复杂的 2D/3D 生物分子图/结构。

此外还有 dual/multi-stream 模型,采用多个 encoder 来建模不同的模态,并且使用对比学习的训练目标来使得这些 encoder 的输出在同一个空间中对齐。

图片

表征学习

我们对训练任务和技巧进行了总结。训练任务包括掩码语言建模(MLM)、自回归预测(NTP)、跨模态一致性学习(CMA)、模态内部对比学习(SCL)。不同的任务适配不同的模型架构,用以增强模型对于单模态的理解和跨模态的对齐。

图片

训练的技巧和策略包括多阶段训练、多任务训练、LLM增强的训练、参数高效微调(PEFT)、零样本和少样本测试等。

多阶段训练通常需要两个以上阶段的训练,每个阶段都针对一个特定领域的数据。多任务训练试图在训练中使模型能够从不同的任务中受益,从而获得各种能力。LLM 增强的训练利用 LLM(例如ChatGPT)来增强生物分子的描述,这种数据增强策略可以使得下游模型更好地理解生物分子。参数高效微调(PEFT)方法对于大型模型节省计算成本非常重要。零样本和少样本测试可以很好地发挥预训练大模型的潜力。

图片

应用和相关资源

这种跨模态建模得到的模型可以完成各种生物相关的下游任务,例如生物分子性质预测、相互作用预测、生物分子反应相关的任务、文本-生物分子的相互检索和生成、生物分子优化等等任务。

同时,我们也总结了生物分子-文本联合建模领域的相关工作(代码、模型)、数据集、benchmark。

图片

图片

未来展望

文章就几个方面对未来的几个方向进行了展望,例如对生物分子进行专门的分词、生物数据的稀缺性问题、生物任务间的泛化、更好地利用现有LLM的方式(例如检索增强技术、上下文情境学习、思维链推理、工具学习等等),以及可能涉及到的道德和伦理问题。

参考文献

[1] Pei, Qizhi, et al. "Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey." *arXiv preprint arXiv:2403.01528* (2024).

[2] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." *arXiv preprint arXiv:2303.03378* (2023).

相关资讯

AI4Science还是伪命题吗?两年后workshop组织者重新审视AI4Science

DALL⋅E 想象的 2023 年 AI for Science(与AI4Science目前的发展类似:图像不完美,许多单词拼写错误)。作者 | AI4Science workshop组织者编辑 | ScienceAI2021年,一群热血青年提出了要把AI4Science(AI for Science)带入机器学习顶会NeurIPS。什么?AI4Science是一门学科吗?是不是靠着AI蹭热点?各种质疑声接踵而来。这些质疑和不解也反映在了第一届AI4Science workshop的较为平淡的群众参与度上。时过境迁

​GPT充当大脑,指挥多个模型协作完成各类任务,通用系统AutoML-GPT来了

使用 ChatGPT 实现通用人工智能,思路打开了。

大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集

前段时间,谷歌泄露的内部文件表达了这样一个观点,虽然表面看起来 OpenAI 和谷歌在 AI 大模型上你追我赶,但真正的赢家未必会从这两家中产生,因为有一个第三方力量正在悄然崛起。这个力量就是「开源」。