GPT做不好图生成?Tokenization是关键!新方法重新定义图生成和表示方式

编辑 | ScienceAI图(Graphs)是描述复杂关系和结构化数据的重要工具,从分子设计到社交网络分析,它们在许多领域都扮演着关键角色。 然而,图生成的高效性与灵活性一直是一个挑战。 今天,我们向大家介绍一项突破性的研究——Graph Generative Pre-trained Transformer,简称 G2PT,一个重新定义图生成和表示方式的自回归模型。

GPT做不好图生成?Tokenization是关键!新方法重新定义图生成和表示方式

编辑 | ScienceAI

图(Graphs)是描述复杂关系和结构化数据的重要工具,从分子设计到社交网络分析,它们在许多领域都扮演着关键角色。然而,图生成的高效性与灵活性一直是一个挑战。

今天,我们向大家介绍一项突破性的研究——Graph Generative Pre-trained Transformer,简称 G2PT,一个重新定义图生成和表示方式的自回归模型。

这项工作由塔夫茨大学、东北大学和康奈尔大学的研究团队合作完成,研究团队充分借鉴了大语言模型(Large Language Models/LLMs)的最新进展,为图生成带来了全新的解决方案。🚀

图片

Sequence Tokenization实现高效生成

传统的图生成模型大多依赖邻接矩阵(adjacency matrix)进行表示,这种稠密的表示方式计算成本高、内存占用大。G2PT 提出了基于序列的 tokenization 方法,通过将图分解为节点集(node set)和边集(edge set),充分利用图的稀疏性,从而大幅提升计算效率。

这一创新性的分词方式使得大型预训练 Tranformer 可以像处理自然语言一样逐步生成图,并通过预测下一个 token 的方式完成整个图的生成。

📊 图序列表示方式示意图如下(来自论文 Figure 1):

图片

这一方法不仅减少了 token 数量,还显著提升了生成质量。

📽 动态展示:G2PT 的序列生成过程

图片

通过上图,我们可以直观地看到 G2PT 如何从节点生成开始,逐步定义边的连接关系,最终完成整个图的生成过程。这种序列化的表示不仅有效减少了数据规模,还能充分利用 Tranformer 架构在序列建模上的优势。

同时,论文中 Table 3 比较了基于同样的GPT模型用传统邻接矩阵表示(A)和序列表示(Ours)在 Planar Graph 上的生成性能,结果显示 G2PT 的序列表示在多项指标上优于邻接矩阵方法。

图片

G2PT 的适应性和扩展性

G2PT 是一个具备多样适应能力的通用图生成模型。通过 Fine-tuning 技术,它在以下任务中表现出色:

目标导向图生成

G2PT 利用拒绝采样微调(Rejection Sampling Fine-tuning, RFT)和强化学习(Proximal Policy Optimization, PPO)技术生成特定属性的图,例如在药物设计中优化分子图的理化性质。

📈 结果展示(来自论文 Figure 2):

在目标导向生成任务中,G2PT 能显著将分布偏移至目标属性区域。

图片

图属性预测

通过提取预训练模型的图嵌入,G2PT 在下游任务中同样表现卓越。在 8 个分子属性预测数据集上的 ROC-AUC 分数(见 Table 5)显示,G2PT 达到了与当前最先进方法相媲美的性能。

图片

通用和分子图生成的全面超越

在多个基准数据集上的对比实验表明,G2PT 的表现显著优于或匹配现有的最先进模型。

通用图生成性能

📊 Table 2 中展示了 G2PT 在 Planar、Tree、Lobster 和 SBM 数据集上的生成性能。G2PT 在 24 项评测指标中,有 11 项取得了第一,并在 17 项中排名前二。

图片

分子图生成性能

在 MOSES 和 GuacaMol 数据集上,G2PT 在生成有效性(Validity)、唯一性(Uniqueness)、和分子属性分布匹配等指标上表现优异。实验显示MOSES 数据集上,G2PT 达到 97.2% 有效性,领先同类方法。同时在 QM9 数据集上,G2PT 的生成分布和目标分布的匹配度(FCD)最低,显示了其生成质量的高度一致性。

图片

模型和数据规模的影响

论文还详细分析了 G2PT 在模型和数据规模变化下的性能。

📈 结果总结(Figure 3):

图片

实验表明随着模型规模的增加(从 10M 到 1.5B 参数),生成性能显著提升,并在一定规模后趋于饱和。(符合 neural scaling law 的基本规律)除此之外增加每个图的训练序列数量能够提升模型的训练效果,但多样性达到一定水平后,收益递减。

迈向更通用的图生成模型

尽管 G2PT 在多个任务中表现卓越,但其对生成顺序的敏感性表明,不同图域可能需要不同的顺序优化策略。未来的研究可以进一步探索通用、表达力更强的顺序设计。

G2PT 的提出不仅为图生成领域带来了新的方法,也为其他图相关任务的研究与应用奠定了坚实基础。

文章链接:https://arxiv.org/pdf/2501.01073 

相关资讯

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

编辑 | ScienceAI近日,卡内基梅隆大学(Carnegie Mellon University)教授,有着「机器学习之父」之称的 Tom M. Mitchell 撰写了新的 AI for Science 白皮书,重点讨论了「人工智能如何加速科学发展?美国政府如何帮助实现这一目标?」这一主题。ScienceAI 对白皮书原文进行了不改变原意的全文编译,内容如下。人工智能领域最近取得了显著进展,包括 GPT、Claude 和 Gemini 等大型语言模型,因此提出了这样一种可能性:人工智能的一个非常积极的影响,

​微软研究院刘铁岩:AI for Science,憧憬一个人人都可参与科学发现的未来

作者 | 刘铁岩正处于起步阶段的AI for Science被认为是科学发现的第五范式。尽管目前对于AI for Science的定义和研究方向仍有诸多讨论,但这并不妨碍AI for Science已经开始在科学发现的实践中取得令人瞩目的成果。近年来,微软研究院科学智能中心杰出首席科学家刘铁岩博士和他的团队致力于推动AI for Science的发展和应用。在这篇署名文章中,刘铁岩博士将分享他对人工智能在科学领域关键研究方向的看法 ,以及对AI for Science未来前景的展望。「AI for Science预

创新能力超越AI Scientist,上海AI Lab「AI 科研团队」VirSci来了

编辑 | ScienceAI由上海人工智能实验室提出的 VirSci(Virtual Scientists)系统是一个基于大语言模型(LLM)的多智能体协作平台,专注于模拟科学家团队的合作过程,从而加速科研创新。 不同于以往的单智能体系统,VirSci 通过使用真实科学家的数据来模拟科学团队的多人协作,不仅可以通过团队成员的合作讨论来生成更具创新性和影响力的科研想法,还展现出作为「科学学」(Scienceof Science)研究工具的巨大潜力。 该研究以「Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation」为题,于 2024 年 10 月 12 日发布在 arXiv  预印平台。