改进份子表征进修，清华团队提出学问诱导的图 Transformer 预训练框架

编辑 | 紫罗进修有效的份子特性表征以促进份子特性预计，对于药物发现具有重要意义。最近，人们通过自监视进修技术预训练图神经网络（GNN）以克服份子特性预计中数据稀缺的挑衅。然而，当前鉴于自监视进修的要领存在两个主要障碍：缺乏明确的自监视进修策略和 GNN 的能力有限。近日，来自清华大学、西湖大学和之江实验室的研讨团队，提出了学问诱导的图 Transformer 预训练（Knowledge-guided Pre-training of Graph Transformer，KPGT），这是一种自监视进修框架，通过显著增

编辑 | 紫罗

进修有效的份子特性表征以促进份子特性预计，对于药物发现具有重要意义。最近，人们通过自监视进修技术预训练图神经网络（GNN）以克服份子特性预计中数据稀缺的挑衅。然而，当前鉴于自监视进修的要领存在两个主要障碍：缺乏明确的自监视进修策略和 GNN 的能力有限。

近日，来自清华大学、西湖大学和之江实验室的研讨团队，提出了学问诱导的图 Transformer 预训练（Knowledge-guided Pre-training of Graph Transformer，KPGT），这是一种自监视进修框架，通过显著增强的份子表征进修供给改进的、可泛化和稳健的份子特性预计。KPGT 框架集成了专为份子图设计的图 Transformer 和学问诱导的预训练策略，以充分拿获份子的结构和语义学问。

通过对 63 个数据集进行广泛的计算测试，KPGT 在预计各个领域的份子特性方面表现出了卓越的性能。此外，通过鉴定两种抗肿瘤靶点的潜在抑制剂验证了 KPGT 在药物发现中的实际适用性。总体而言，KPGT 可以为推进 AI 辅助药物发现过程供给强大且有用的工具。

该研讨以《A knowledge-guided pre-training framework for improving molecular representation learning》为题，于 2023 年 11 月 21 日发布在《Nature Communications》上。

改进份子表征进修，清华团队提出学问诱导的图 Transformer 预训练框架

通过实验确定份子特性需要大量时间和资源，鉴定具有所需特性的份子是药物发现领域最重大的挑衅之一。近年来，鉴于 AI 的要领在预计份子特性方面发挥着越来越重要的作用。鉴于 AI 的份子特性预计要领的主要挑衅之一是份子的表征。

近年来，鉴于深度进修的要领的出现成为预计份子特性的潜在有用工具，主要是因为它们具有从简单输入数据中自动提取有效特性的卓越能力。值得注意的是，各种神经网络架构，包括循环神经网络（RNN）、卷积神经网络（CNN）和图神经网络（GNN）擅长对各种格式的份子数据进行建模，从简化的份子输入行输入系统（SMILES）到份子图像和份子图。然而，标记份子的有限可用性和化学空间的广阔限制了它们的预计性能，特别是在处理分布外数据样本时。

随着自监视进修要领在自然语言处理和计算机视觉领域取得的显著成就，这些技术已被用于预训练 GNN 并改进份子的表征进修，从而在下游份子性质预计任务中取得实质性改进。

研讨人员假设将定量描述份子特性的额外学问引入自监视进修框架可以有效应对这些挑衅。份子有许多定量特性，例如份子描述符和指纹，可以通过当前建立的计算工具轻松获得。整合这些额外的学问可以将丰富的份子语义信息引入自监视进修中，从而大大增强语义丰富的份子表征的获取。

现有的自监视进修要领通常依赖 GNN 作为骨干模型。然而，GNN 只能供给有限的模型容量。此外，GNN 可能很难拿获原子之间的远程交互。鉴于 Transformer 的模型已经成为游戏规则改变者。其特点是参数数量不断增加，并且能够拿获长程相互作用，为全面模拟份子的结构特性供给了有希望的途径。

自监视进修框架 KPGT

在此，研讨人员引入了一种自监视进修框架 KPGT，旨在增强份子表征进修，从而推进下游份子属性预计任务。KPGT 框架包含两个主要组件：称为 Line Graph Transformer (LiGhT) 的骨干模型和学问诱导的预训练策略。KPGT 框架结合了 LiGhT 的高容量模型，该模型专门用于精确建模份子图结构，以及拿获份子结构和语义学问的学问诱导预训练策略。

研讨人员利用 ChEMBL29 数据集中的大约 200 万个份子使用学问诱导的预训练策略对 LiGhT 进行预训练。

改进份子表征进修，清华团队提出学问诱导的图 Transformer 预训练框架

图示：KPGT 概述。（来源：论文）

KPGT 在份子性质预计方面优于基线要领。与几种基线要领相比，KPGT 在 63 个数据集上取得了很大的进步。

改进份子表征进修，清华团队提出学问诱导的图 Transformer 预训练框架

图示：KPGT 和基线要领在份子性质预计方面的比较评估。（来源：论文）

此外，通过成功利用 KPGT 识别造血祖细胞激酶 1 (HPK1) 和成纤维细胞生长因子受体 (FGFR1) 两个抗肿瘤靶点的潜在抑制剂，展示了 KPGT 的实际应用性。

改进份子表征进修，清华团队提出学问诱导的图 Transformer 预训练框架

图示：使用 KPGT 识别 HPK1 抑制剂。（来源：论文）

改进份子表征进修，清华团队提出学问诱导的图 Transformer 预训练框架

图示：使用 KPGT 识别 FGFR1 抑制剂。（来源：论文）

研讨局限性

尽管 KPGT 在有效份子特性预计方面具有优势，但仍然存在一些局限性。

首先，附加学问的整合是所提要领最显著的特性。除了 KPGT 中使用的 200 个份子描述符和 512 个 RDKFP 之外，还有可能纳入各种其他类型的附加信息学问。

此外，进一步的研讨可以将三维 (3D) 份子构象整合到预训练过程中，从而使模型能够拿获有关份子的重要 3D 信息，并有可能增强表征进修能力。

虽然 KPGT 目前采用具有大约 1 亿个参数的主干模型，以及对 200 万个份子的预训练，但探索更大规模的预训练可以为份子表征进修供给更实质性的好处。

总的来说，KPGT 为有效的份子表征进修供给了强大的自监视进修框架，从而推动了人工智能辅助药物发现领域的发展。

论文链接：https://www.nature.com/articles/s41467-023-43214-1

{{userData.name}}已认证

改进份子表征进修，清华团队提出学问诱导的图 Transformer 预训练框架

自监视进修框架 KPGT

研讨局限性

S-LoRA：一个GPU运行数千大模型成为可能

腾讯Angel呆板进修框架晋级，反对单任务万卡级别超大规模训练，超300个腾讯产品及场景接入内测

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩