作者 | 裴启智
随着大模型和 AI4Science 的蓬勃发展,越来越多的工作开始关注生物份子(Biomolecule)与自然说话(Language)的共同建模。这种方法行使文本数据中所包含的生物份子的丰富、多方面的描述,巩固模型对其的了解,提高生物份子属性预计等下游使命的效果,为全面表现和分析生物份子开辟了新的途径。
近日,人大高瓴共同微软、华科、中科大等机构发布了综述文章:《Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey》[1]。该综述从生物份子的表征方式、建模目标、表现进修、应用场景等方面出发,系统地归纳了有关工作,以及可用的数据、代码、模型、benchmark。
论文链接:https://arxiv.org/abs/2403.01528
GitHub链接:https://github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling
下面对各个章节进行简单展开
生物份子的表征方式
一般来说,文本、份子和蛋白质的模态有差别的表征方式,例如一维序列、二维图和三维结构。下图展示了差别模态及其表现方法的简单归纳。文本通常使用一维序列来表现。而对于生物份子来说,通常有一维序列、二维图和三维结构的表现。另外,还有一些其他的表现,例如份子图像、份子指纹、蛋白质的 GO term 等等。
共同建模的直觉和目标
生物份子和自然说话的共同建模可以克服传统生物份子表现固有的局限性。虽然现有的表现方法可以有效地捕获生物份子的固有属性,但它们往往忽略了丰富的外部常识,例如生物文献、数据库和常识图谱。
而将生物份子与外部常识源共同建模的主要目标是开发可以了解和预计生物份子的复杂行为和相互作用的模型,包括表现进修、指令遵循和 Agent/Assistant 模型。此外,说话为生物份子设计提供了更灵活的媒介/接口。
通过生物份子和说话的共同建模,模型可以行使广泛的生物常识来完成生物份子有关的使命,从而可以对生物份子的生成和编辑进行更细致的控制。这种建模有助于探索广阔的份子空间,从而创造出具有所需特性的新型生物份子。
模型架构
Transformer 架构是该领域大多数模型框架的基石。我们先介绍了传统的 Transformer 模型,包括 encoder/decoder-only 和 encoder-decoder 架构。此外,我们还探索了该领域一些 Transformer 变体。
比如 PaLM-E style[2] 模型,包括一个 external encoders、modality projector 和一个 base LLM。通过将生物份子和文本空间对齐,modality projector 可以从生物份子 encoder 中提取与文本有关的份子特征,从而使说话模型可以了解生物份子。PaLM-E style 模型不仅可以有效地行使预训练的生物模型,还可以使LM可以处理复杂的 2D/3D 生物份子图/结构。
此外还有 dual/multi-stream 模型,采用多个 encoder 来建模差别的模态,并且使用对比进修的训练目标来使得这些 encoder 的输出在同一个空间中对齐。
表征进修
我们对训练使命和技巧进行了归纳。训练使命包括掩码说话建模(MLM)、自回归预计(NTP)、跨模态一致性进修(CMA)、模态内部对比进修(SCL)。差别的使命适配差别的模型架构,用以巩固模型对于单模态的了解和跨模态的对齐。
训练的技巧和策略包括多阶段训练、多使命训练、LLM巩固的训练、参数高效微调(PEFT)、零样本和少样本测试等。
多阶段训练通常需要两个以上阶段的训练,每个阶段都针对一个特定领域的数据。多使命训练试图在训练中使模型可以从差别的使命中受益,从而获得各种能力。LLM 巩固的训练行使 LLM(例如ChatGPT)来巩固生物份子的描述,这种数据巩固策略可以使得下游模型更好地了解生物份子。参数高效微调(PEFT)方法对于大型模型节省计算成本非常重要。零样本和少样本测试可以很好地发挥预训练大模型的潜力。
应用和有关资源
这种跨模态建模得到的模型可以完成各种生物有关的下游使命,例如生物份子性质预计、相互作用预计、生物份子反应有关的使命、文本-生物份子的相互检索和生成、生物份子优化等等使命。
同时,我们也归纳了生物份子-文本共同建模领域的有关工作(代码、模型)、数据集、benchmark。
未来展望
文章就几个方面对未来的几个方向进行了展望,例如对生物份子进行专门的分词、生物数据的稀缺性问题、生物使命间的泛化、更好地行使现有LLM的方式(例如检索巩固技术、上下文情境进修、思维链推理、工具进修等等),以及可能涉及到的道德和伦理问题。
参考文献
[1] Pei, Qizhi, et al. "Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey." *arXiv preprint arXiv:2403.01528* (2024).
[2] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." *arXiv preprint arXiv:2303.03378* (2023).