LLM与药物发现结合，NVIDIA、Mila、Caltech团队发布多模态份子结构-文本模型

作者 | 刘圣超编写 | 凯霞从2021年开始，大说话和多模态的结合席卷了机器学习科研界。最近随着大模型、多模态的应用，一个很自然的想法就是我们是否也可以将这些技术用到药物发现上？并且这些自然说话的文本描写，是否对于药物发现这个有挑战性的问题带来新的视角？答案是肯定并且乐观的。近日，加拿大蒙特利尔学习算法研究院（Mila）、NVIDIA Research、伊利诺伊大学厄巴纳－香槟分校（UIUC）、普林斯顿大学和加州理工学院的研究团队，通过对比学习策略共同学习份子的化学结构和文本描写，提出了一种多模态份子结构-文本模

作者 | 刘圣超

编写 | 凯霞

从2021年开始，大说话和多模态的结合席卷了机器学习科研界。

最近随着大模型、多模态的应用，一个很自然的想法就是我们是否也可以将这些技术用到药物发现上？并且这些自然说话的文本描写，是否对于药物发现这个有挑战性的问题带来新的视角？答案是肯定并且乐观的。

近日，加拿大蒙特利尔学习算法研究院（Mila）、NVIDIA Research、伊利诺伊大学厄巴纳－香槟分校（UIUC）、普林斯顿大学和加州理工学院的研究团队，通过对比学习策略共同学习份子的化学结构和文本描写，提出了一种多模态份子结构-文本模型 MoleculeSTM。

该研究以为题《Multi-modal molecule structure–text model for text-based retrieval and editing》为题，于 2023 年 12 月 18 日发表在《Nature Machine Intelligence》上。

LLM与药物发现结合，NVIDIA、Mila、Caltech团队发布多模态份子结构-文本模型

论文链接：https://www.nature.com/articles/s42256-023-00759-6

其中刘圣超博士是第一作者，NVIDIA Research 的 Anima Anandkumar 教授为通讯作者。聂维梨、王程鹏、卢家睿、乔卓然、刘玲、唐建和肖超玮为共同作者。

该项目是刘圣超博士在2022年3月加入 NVIDIA Research 之后，在聂维梨教员、唐建教员、肖超玮教员和 Anima Anandkumar 教员的指导下举行的。

刘圣超博士表示：「我们的动机就是对LLM和药物发现举行初步的探索，并最终提出了MoleculeSTM。」

LLM与药物发现结合，NVIDIA、Mila、Caltech团队发布多模态份子结构-文本模型

用于对接的文本引导份子编写。

MoleculeSTM的核心思路非常简单直接：份子的描写有内部化学结构(internal chemical structure)和外部功能描写(external textual descriptions)两大类，而我们这里利用了contrastive pretraining的思路，将两种类型的信息举行alignment联系。如下图。

LLM与药物发现结合，NVIDIA、Mila、Caltech团队发布多模态份子结构-文本模型

图示：MoleculeSTM的流程图。

而MoleculeSTM的这个alignment有一个非常好的性质：当有一些义务在化学空间比较难以解决的时候，我们可以将其transfer到自然说话（natural language）空间。而且自然说话的义务会相对更容易解决，由于它的特点。并且基于此我们设计了种类丰富的下游义务来验证其有效性。下面我们围绕几个insight详细讨论。

自然说话和大说话模型的特点

这个是我们在MoleculeSTM中首先提出的问题。在MoleculeSTM中，我们是利用了自然说话的open vocabulary和compositionality特点：

Open vocabulary的意思是我们可以把现在人类知识都用自然说话表示，所以对于将来新出现的知识，也能用现有的说话举行归纳和总结。比如出现某种新的蛋白质，我们希望可以对它的功能举行自然说话描写。Compositionality的意思是在自然说话中，一个复杂的概念可以用几个简单的概念举行联合表述。这个对于类似多属性编写的义务有很大的帮助：在化学空间要编写份子同时符合多个特点非常困难，但是我们可以非常简单地用自然说话表达出来多种特点。

而在我们最近的工作ChatDrug (https://arxiv.org/abs/2305.18090) 中，我们又挖掘了自然说话和大说话模型的对话特点。这个有兴趣的小伙伴可以看一下。

特点引出的义务设计

现有的language-image task可以认为是艺术相关的义务(比如生成图片、文字)，也就是说它们的结果是可以多样和不确定。但是科学发现是科学问题，通常有着比较明确的结果，比如生成有某个功效的小份子。这个在义务的设计上带来了更大的挑战。

在MoleculeSTM中 (Appendix B)，我们提出了两个准则：

首先我们考虑的义务是可以举行计算模拟得到结果。将来会考虑可以有wet-lab验证的结果，但这并不在目前这个工作的考量范畴内。其次我们只考虑有着模糊性结果的问题。具体例子比如让某个份子的水溶性或者穿透性变强。而有一些问题有明确结果，比如在份子的某一个位置加入某一个官能团，我们认为这类义务对于药物、化学专家来说更加简单直接。所以它可以将来当作某一个proof-of-concept义务，但是并不会成为主要的义务方向。

由此我们设计了三个大类义务：

Zero-shot 结构文本检索；Zero-shot 基于文本的份子编写；份子性质预测。

接下来我们会重点介绍一下第二个义务。

份子编写的定性结果

这个义务就是同时输入一个份子和自然说话描写(比如额外的属性)，然后希望可以输出复合说话文本描写的新的份子。这就是文本编写优化（text-guided lead optimization）。

具体的方法就是利用已经训练好的份子生成模型和我们预训练好的MoleculeSTM，通过学习二者的潜在空间（latent space）的alignment，从而举行 latent space interpolation，再经过解码生成方向份子。流程示意图如下。

LLM与药物发现结合，NVIDIA、Mila、Caltech团队发布多模态份子结构-文本模型

图示：zero-shot text-guided molecule editing 两阶段流程示意图。

这里我们展示了几组份子编写的定性结果(其余下游义务的结果细节可以参考原论文)。主要我们考虑四类份子编写义务：

单一属性编写：对单一属性举行编写，比如水溶性、穿透性、氢键施主与受主个数。复合属性编写：同时对多个属性举行编写，比如水溶性和氢键施主个数。药物相似性编写：(Appendix D.5)是让输入份子与方向份子药物长得更加接近。专利药物的邻居搜索：对于已经申请到专利的药物，往往会把中间过程的药物一起报道。我们这里就是那中间药物配合自然说话描写，看是否可以生成最终的方向药物。binding affinity编写：我们选择几个ChEMBL assay作为靶点，方向是让输入份子和靶点有更高的结合亲和力。

LLM与药物发现结合，NVIDIA、Mila、Caltech团队发布多模态份子结构-文本模型

图示：zero-shot text-guided molecule editing 结果展示。

更有意思的是最后一类义务，我们发现MoleculeSTM的确可以在紧紧依靠对于靶蛋白的文字描写，而举行配体的配体先导化合物优化。（注：这里的蛋白质结构信息都是在evaluation是才会知道。）

{{userData.name}}已认证

LLM与药物发现结合，NVIDIA、Mila、Caltech团队发布多模态份子结构-文本模型

迈向程序化蛋白质生成

2023年科研畛域「迷信ChatGPT」有哪些？LLM for Science有哪些探究......

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

{{userData.name}}已认证

迈向程序化蛋白质生成

2023年科研畛域「 迷信ChatGPT」有哪些？LLM for Science有哪些探究......

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

2023年科研畛域「迷信ChatGPT」有哪些？LLM for Science有哪些探究......