编辑 | KX分子表征已经从「图」扩展到「视频」了。两年前，湖南大学的研究团队，开发了具有化学意识的深度学习框架 ImageMol，用于从大规模分子图像中学习分子结构，可准确预测分子特性和药物靶点。现在，该研究团队将 ImageMol 进行了重大升级，提出一个基于分子视频的基础模型，称为 VideoMol，该模型在 1.2 亿帧的 200 万个未标记的类药物分子和生物活性分子上进行了预训练。

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

编辑 | KX

分子表征已经从「图」扩展到「视频」了。

两年前，湖南大学的研究团队，开发了具有化学意识的深度学习框架 ImageMol，用于从大规模分子图像中学习分子结构，可准确预测分子特性和药物靶点。

现在，该研究团队将 ImageMol 进行了重大升级，提出一个基于分子视频的基础模型，称为 VideoMol，该模型在 1.2 亿帧的 200 万个未标记的类药物分子和生物活性分子上进行了预训练。

VideoMol 是一个新颖的分子表征学习框架，与以往基于序列、图和图像的分子表征学习方法有显著不同。VideoMol 将分子视为动态视频，以视频处理的方式学习分子表征，这意味着大量视频表征学习技术可用于分子表征学习。

与之前的 ImageMol 相比，VideoMol 有几个实质性的升级：

（1）分子视觉表征的内容由二维像素信息升级为三维像素信息；

（2）分子预训练由基于图的学习升级为基于视频的学习；

（3）包含的指纹信息由之前的 1 个指纹（MACCS 键）升级为 21 个指纹。

由于 VideoMol 涉及图像表征学习、视频表征学习、多视角表征学习等研究领域，因此具有更大的研究潜力，可以激励更多研究人员进行更大的性能改进。

相关研究以「A molecular video-derived foundation model for scientific drug discovery」为题，于 11 月 8 日发布在《Nature Communications》上。

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

论文链接：https://www.nature.com/articles/s41467-024-53742-z

药物发现是一个复杂且耗时的过程，包括潜在药物靶点的识别、化合物设计和合成、化合物的功效和安全性测试。

计算药物发现使用计算和人工智能技术来协助药物开发，可以大大减少传统药物发现和开发的时间和成本。

对数亿种化合物进行精确的分子表征是计算药物发现界面临的一项重要挑战。随着深度学习和自监督学习的兴起，自动化分子表征学习方法可以通过对大规模分子数据集进行预训练，从分子序列、图和图像中提取表征。这些方法在药物发现的各种任务中表现出显著的性能提升。

基于视频表征学习和计算机视觉自监督学习的最新进展，基于自监督视频的预训练模型为进一步提高药物发现的性能提供了机会。

VideoMol 框架：1.2 亿帧的 200 万个分子

分子存在于自然界中，不断进行构象动态变化，视频是最直接的表示方法。无需人工提取特征，即可从视频中直接观察到分子的三维信息，例如原子对之间的距离、多个原子之间形成的夹角等。

具体来说，VideoMol 利用动态感知（dynamic awareness）和物理化学感知，以无监督的方式从大量分子 3D 动态视频中学习分子表征。VideoMol 从 200 万个具有人类蛋白质组多种生物活性的分子视频的 1.2 亿帧中捕获化合物的物理化学信息。

研究人员评估了不同表示在特征提取能力上的优势，发现所提出的视频表示比现有表示具有明显的优势，在 8 个基本属性上的提升率为 39.8%。因此，这些显著的差异促使研究人员开发了 VideoMol，以分子衍生视频的形式准确预测分子的靶点和性质。

首先，为 200 万个类药和生物活性分子生成构象，并为每个 3D 分子渲染 60 帧的动态视频（共 1.2 亿帧）。然后，将分子 3D 视频输入视频编码器以提取潜在特征，并实施三种预训练策略，通过考虑视频的变化和分子的物理化学信息来优化潜在表示。最后，在下游任务（分子靶标和属性的预测）上对预训练的视频编码器进行微调，以进一步提高模型性能。

VideoMol 通过使用梯度加权类激活映射（Grad-CAM）实现了良好的可解释性，通过热图可视化分子视频对预测结果的贡献。

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

图示：VideoMol 基础模型概述。（来源：论文）

为了全面评估 VideoMol 的性能，研究人员选择了四类任务：（1）化合物激酶结合活性预测，（2）配体-GPCR（G 蛋白偶联受体）结合活性预测，（3）抗 SARS-CoV-2 活性预测，（4）分子特性预测。

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

图示：VideoMol 框架在多种药物发现任务中的表现。（来源：论文）

研究表明，VideoMol 是一种有效的基于分子视频的表征学习方法，在多种药物发现任务中表现优于最先进的方法。

发现配体-受体相互作用

接下来，研究人员通过 VideoMol 识别 4 个众所周知的人类靶标的新型配体-受体相互作用：β-分泌酶 1 (BACE1)、环氧合酶 1 (COX-1)、COX-2 和前列腺素 E 受体 4 (EP4)，从而评估该模型的通用性。

此外，还验证了 VideoMol 在 4 个靶标（BACE1、COX-1、COX-2 和 EP4）的虚拟筛选中的高精度，这与正在进行的临床和实验数据一致。

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

图示：针对四种常见药物靶点（BACE1、COX-1、COX-2 和 EP4）的虚拟筛选。（来源：论文）

与 ImageMol 相比，VideoMol 在这 4 个靶标上实现了 38.1% 的平均精度提升，这表明 VideoMol 能够推广到外部验证集。特别是在 COX-1、COX-2 和 EP4 抑制剂的虚拟筛选中，VideoMol 取得了明显的优势，证明了 VideoMol 可以克服数据不平衡（ChEMBL 的 COX-1 和 COX-2 的不平衡率为 0.043 和 0.253）和数据稀缺（ChEMBL 的 EP4 仅有 350 个样本）的情况。

视频可视化和模型可解释性

由于分子视频中的每一帧都代表同一个分子，因此它们在特征空间中的投影应该相似。

为了评估 VideoMol 对分子视频的判别能力，研究人员随机选择了 100 个分子视频并提取视频中每一帧的特征。随后，使用 t-SNE 将每个特征投影到二维空间中。来自同一视频的帧很好地聚类在一起，而来自不同视频的帧则明显分开。通过定量评估这些聚类的 DB（Davies Bouldin）指数。VideoMol 实现了较低的 DB 指数（值为 0.197），表明 VideoMol 具有识别同一分子的不同帧的能力。

研究人员分别从相同和不同的分子视频中随机抽取 10,000 对分子帧，并计算这些配对样本之间的余弦相似度。正如预期的那样，视频内的平均相似度很高（88.3%），而视频间的平均相似度几乎为零（0.5%），这表明 VideoMol 对同一分子的不同 3D 视图具有稳健性。

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

图示：VideoMol 的生物学解释和特征分布。（来源：论文）

在 VideoMol 的可解释性方面，研究发现，VideoMol 对同一视频不同帧的注意力不同，这是由于视角遮挡问题导致有用信息经常分散在不同的视图中。这显示了分子视频的优势，使 VideoMol 能够通过扫描每一帧来了解更多的分子信息。此外，值得注意的是，VideoMol 可以感知遮挡场景中的子结构。

研究人员相信，随着分子成像技术的不断进步，通过视频来表示分子并进行推理很有前途。总而言之，VideoMol 的推出，一方面丰富了计算药物发现领域的分子表征形式，另一方面启发人们从不同角度学习和理解分子。

注：封面来自网络

{{userData.name}}已认证

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

VideoMol 框架：1.2 亿帧的 200 万个分子

发现配体-受体相互作用

视频可视化和模型可解释性

微软与行业巨头合作，将AI引入农场和工厂

LLM-R：基于RAG和层次化Agent落地案例解析

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

平安人寿ChatBI：大模型智能化报表的深度实践

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则