在大模型时代,图机器进修面临什么样的机遇和挑战?是否存在,并该如何发展图的大模型?针对这一问题,清华大学朱文武教授团队首次提出图大模型(Large Graph Model)概念,系统总结并梳理了图大模型相关的概念、挑战和利用;进一步围绕动态性和可解释性,在动态图大模型和解耦图大模型方面取得了研究进展。
论文地址:https://arxiv.org/abs/2308.14522
一、相关概念
(一)图大模型
图大模型是指具有大量参数的图机器进修模型,具有比小模型更强大的进修本领,能更好地对图数据举行明白、分析和利用。为实现上述目标,图大模型应该具有以下四方面的核心本领:
1. 图进修模型的规模定律(graph models with scaling law):规模定律是首先在大谈话模型(LLM)中发现的一种经验现象,即模型性能随着规模、数据集规模和训练计算量的增加而持续提升。借鉴大谈话模型的经验,图大模型应能够展现出当前小规模或中等规模图进修模型无法具备的新本领。
2. 图基础模型(graph foundation model):图基础模型是指一个经过预训练的图大模型能够处置差别范围的图数据和任意。这要求图大模型能够明白图的内在布局和性能,以具备图的 “常识常识”。图预训练范式可以让模型接触大量无标签图数据,从而减少对图标签的依赖,是发展图基础模型的重要途径。此外,生成式预训练可以赋予模型生成图数据的本领,从而支持许多有重要价值的图生成利用,例如药物合成、代码生成等。尽管如此,由于图数据的通用性和多样性,目前来看为所有范围的图数据开发出一个 “通用图模型” 是几乎不可行的。因此,为差别簇的相关范围开发若干个图基础模型可能更加容易实现。
3. 图上下文进修(in-context graph learning):图大模型应具有明白图上下文的本领,席卷节点、边、子图和全图等,并且在上述过程中无需举行过多的模型修改或进修范式改变。该本领与图的少样本 / 零样本进修、多任意进修和图的分布外泛化本领密切相关。上下文进修本领可以使图大模型充分利用预训练阶段进修到的常识和本领,并在新数据测试中快速适应以达到预期性能。
4. 灵活的图推理本领(versatile graph reasoning):虽然图数据横跨差别范围,但有一些基础图任意是共通的,我们称其为 “图推理”。目前哪些任意属于图推理并无严格的定义,下面介绍一些代表性的例子。首先,图大模型应该明白基本的图拓扑布局,如图的大小、度数、节点连通性等,它们也是处置更复杂图任意的基础。其次,图大模型应该能够举行图上的多跳推理,以考虑图的高阶信息。这种本领与大谈话模型的思维链(Chain-of-Thought)异曲同工,可以增强图任意相关决策过程中的可解释性和模型透明性。除了局部信息,图大模型还应具备明白和处置全局布局和更复杂图模式相关图任意的本领,例如节点的中心度和位置信息、图的整体属性、动态图的演化规律等。
虽然图大模型有许多值得期待的本领,但目前尚未出现如 ChatGPT 一样成功的图大模型。接下来,我们将从图表征空间、图数据、图进修模型以及图利用对图大模型目前的研究进展和存在的瓶颈举行梳理。
(二)图表征空间
大谈话模型可以广泛用于差别的下游任意,其背后一个重要原因在于自然谈话中的单词与词元(token)属于一种通用且信息无损的数据表征方式,可以用于差别任意。相比之下,图是一种更加通用的数据布局,涵盖了差别范围。因此,以原始图数据作为输入,例如节点和边,并不总是最合适的数据表征方式。例如,在社交网络、分子图和常识图谱中,节点和边都具有差别的语义特征和拓扑空间,存在显著差异性。
之前研究中普遍认为,更高层次的图模式,可以在范围内差别的图和任意之间举行常识迁移。例如,网络科学中研究的同质性、小世界现象、节点度数的幂律分布等,均有更广泛的适用性。即便如此,如何构建有效的、能够在差别范围图数据中迁移的图大模型仍带来巨大的挑战。
此外,大谈话模型另一个关键本领是能够遵循指令并与人交互,因为人类天生具备明白谈话和视觉的本领。相比而言,人在处置图数据,尤其是复杂的推理问题方面,并不具备先天优势。如何与图大模型举行互动,使其可以按照期望的方式解决图任意,同样具有挑战性。为解决该问题,下面总结了三种值得探索的策略。
第一种策略是通过大量的成对数据将图和文本的表征空间举行对齐,这与目前大模型处置计算机视觉(如 DALLE 等)的方法原理类似。如果成功,我们也能够使用自然谈话与图大模型举行交流,例如要求模型生成具有某些属性的分子图,或要求模型执行某些图推理任意等。目前已经有对于文本属性图(text-attributed graph)的一些初步尝试。然而,相比于图像-文本对,收集更广泛的图-文本对数据成本更高,也更具挑战性。
第二种策略是将图转化为自然谈话,然后仅通过谈话模型举行处置。最常见的流程是首先将图布局转化为文本表示(例如邻接表或边表),作为提醒插入到大谈话模型中,然后使用自然谈话举行图分析。该方向近期受到了一定关注,将在后文的图模型中举行更详细的讨论。然而,将图数据和任意转化为谈话时可能会丢失图的内部布局,导致模型性能目前尚无法达到预期。
最后一种策略是通过其它表征空间作为图任意和自然谈话之间的桥梁。例如,尽管人类很难直观地处置图数据,但我们可以设计合适的算法来解决差别图任意,例如图论中许多著名的算法,席卷最短路、动态规划等。因此,如果可以将图进修模型的运行状态与算法对齐,就能在一定程度上明白和控制图进修模型的运行状态。这个方向上同样有一些研究成果,被称为算法推理(algorithmic reasoning),值得继续探索。
总结来看,找到合适的图表征空间并与自然谈话对齐,同时统一差别范围的图数据和图任意,是构建图大模型的一个基础。
(三)图数据
大模型的成功离不开大规模数据集的支撑。例如,GPT-3 在大约 5000 亿个词元的语料库上举行了预训练;多模态模型 CLIP 则在 4 亿个图像-文本对上举行了训练。更近期的大模型,例如 GPT-4,使用了更多的数据。这些自然谈话和计算机视觉的大数据通常来自互联网,例如 CommonCrawl 中的网页或社交媒体中用户发布的照片,这些数据相对而言更易于规模化地收集。
相比之下,大规模图数据并不容易获取。图通常面临两类场景:大量的小规模图,如很多分子图,或者少数大规模图,如社交网络或引用网络。例如,OGB(Open Graph Benchmark)是图机器进修中最具代表性的基准数据集之一,其中最大的两个数据集,MAG240M 包含了一个大约有 2.4 亿个节点和 13 亿条边的引用网络,PCQM4M 则包含了大约 400 万个分子。尽管 OGB 已经比之前常用的图数据大了几个数量级,但它的规模可能还是远远不够。如果将 MAG240M 中的每个节点视为一个词元或将 PCQM4M 中的每个图视为一张图片,那 OGB 仍比自然谈话或计算机视觉中使用的数据集小至少 1000 倍。
除了预训练所需的大规模无标注数据,带标签的基准数据集在大模型研制中同样重要,例如用于自然谈话的 SuperGLUE 和 BIG-bench,用于计算机视觉的 ImageNet 等。对于图,上面介绍的 OGB 或其它图机器进修基准,例如 Benchmarking GNN,它们的规模、任意和范围多样性以及测评方式可能也不完全适合图大模型。因此,图大模型的研究应当席卷设计更有针对性的基准测试数据。
(四)图进修模型(graph model)
1. 神经网络架构
图神经网络(GNN)与图 Transformer 是两类最主流的图机器进修模型,可以从以下四个方面对两类模型举行对比:
聚合 vs. 自注意力:GNN 采用消息传递机制聚合来自相邻节点的信息,而图 Transformer 则使用自注意力来决定相邻节点的贡献。
建模图布局:GNN 会在消息传递过程中考虑图布局作为模型的归纳偏置,而图 Transformer 则采用布局编码等预处置策略来建模布局。
深度与过平滑:深层 GNN 可能会受到过平滑的影响,导致其本领下降。图 Transformer 一般则未观察到类似问题。一种可能的解释是,图 Transformer 能自适应地关注更加相关的节点,从而有效地过滤信息。
可扩展性和效率:大多数 GNN 的基本操作相对简单,因此计算上有优势。相比之下,图 Transformer 中节点对的自注意力机制会耗费更大量计算资源,尤其是对大规模图数据。
2. 预训练
在大规模无标注语料上举行预训练早已成为大模型在自然谈话处置和计算机视觉范围中成功不可或缺的因素。图上的预训练,或称为图自监督进修,同样获得了关注,发展出席卷对比式(contrastive)与预测式(predictive)进修等多类方法,我们将其总结为图上预处置的四 E 原则:
编码(Encoding)图布局:与文本和图像数据预训练方法更关注语义信息差别,图包含丰富的布局信息。因此,预训练图大模型需要联合考虑差别图数据集上的布局和语义信息。
缓解(Easing)数据稀疏与标签缺乏:图大模型应具有很大的模型容量,因此容易出现过拟合,特别是在仅使用少量标注数据时。在更大规模的图数据集和差别的图任意上举行预训练可以起到正则化的作用,提高泛化性。
扩展(Expanding)利用范围:预训练的一个特点是能够将所学常识迁移到差别范围。通过在差别的图数据集上对图大模型举行预训练,以捕捉到更通用的布局,然后将这些常识利用、适配或微调到相似范围的图数据中,从而最大程度地提升模型的适用性。
提升(Enhancing)鲁棒性与泛化性:预训练可以让图大模型接触到具有差别特点的图数据,席卷差别大小、布局和复杂性的图,从而使模型更加鲁棒并泛化到未见过的图数据或新的图任意。
3. 模型适配
模型适配是将大谈话模型利用到差别下游任意的重要环节,这对图大模型同样成立。代表性的模型适配技术席卷提醒进修(prompting)、高效参数微调(parameter-efficient fine-tuning)、模型对齐(alignment)和模型压缩(model compression)等。下面简要总结用于图模型的适配技术。
提醒进修最初是指为谈话模型提供特定指令,以生成下游任意所需的内容。在大模型中,如何构建有效的提醒是提升其在上下文进修效果的重要途径。例如,大谈话模型的提醒通常包含下游任意的描述和一些示例。构建提醒的一个关键在于使下游任意的形式和预训练任意一致。在自然谈话中,许多差别的任意都可以被统一建模为谈话模型(language model),即通过上文生成下文。相比之下,图数据的提醒进修面临的一个重要挑战是如何统一差别的图任意,席卷节点级、边级和图级的任意等。
高效参数微调(parameter-efficient fine-tuning)是指仅优化模型的一小部分参数,而将其余参数保持固定的一种微调技术。除了减少计算成本,它还可以通过自适应使模型能够处置新任意,同时不忘记预训练中获得的常识。近期,图模型高效参数微调也开始受到关注。
模型压缩旨在通过各种技术(席卷常识蒸馏、剪枝和量化等)减少模型对硬件的需求,尤其适用于在资源受限场景中部署大模型。量化(Quantization)在大谈话模型中受到了广泛关注。量化的核心是减少模型使用的数值精度,同时尽可能保持模型性能。对于大模型,训练后量化(PTQ)尤其受欢迎,因为它无需重新训练大模型。
总结来看,受到大谈话模型等相关技术启发,图的模型适配研究同样吸引了一定关注。然而,由于目前尚无特别成功的图大模型,这些方法的评估局限于相对较小的图模型。因此,进一步验证它们在利用于图大模型时的有效性至关重要,也会带来更多的挑战和机遇。
4. 图上的大谈话模型
近期,一个新的研究热点是直接利用大谈话模型解决图任意。其基本思想是将图数据(席卷图布局和特征)以及图任意转化为自然谈话表示,然后将图问题视为常规的自然谈话处置问题。例如,NLGraph 对大谈话模型(如 GPT-3 和 GPT-4)在八个图推理任意上举行了系统评估。这些任意涵盖了差别复杂度的问题,席卷连通性、最短路径、最大流、模拟 GNN 等。实证结果发现,大谈话模型在图推理方面显示出初步的本领,但在处置更复杂的图问题上存在瓶颈。
另一个代表性工作 Graph-LLM 则系统地研究了大谈话模型在文本属性图中的利用。具体而言,它探索了两种策略:大谈话模型作为增强器(LLMs-as-Enhancers),即使用大谈话模型增强节点的文本属性表征,然后将其传递给其他图模型,例如图神经网络;大谈话模型作为预测器(LLMs-as-Predictors),即直接将大谈话模型用作预测器。实验结果表明,大谈话模型可以为图机器进修提供巨大帮助。尽管这类研究仍处于早期阶段,但它们验证了大谈话模型也是发展图大模型的一个可能途径,值得进一步探索和研究。
(五)图利用
图大模型存在许多有价值的潜在利用,席卷但不限于推荐系统、常识图谱、分子建模、金融分析、代码与程序分析、城市计算与交通等。在这些范围中,目前已经出现了部分基于大谈话模型的尝试,但大都忽略了图布局信息。为使图大模型在这些范围中有效利用,需要利用大量易收集的图数据,并结合范围常识,对图大模型举行相应处置,例如微调或提醒进修等。
二、研究进展
朱文武教授团队针对图大模型关键问题,围绕动态性和可解释性,取得了如下进展。
(一)基于大谈话模型的动态图评测基准与时空解耦思维链提醒
动态图,即图中信息随时间发生变化,在真实世界中非常普遍,并在交通预测、欺诈检测、序列推荐等范围具有广泛的利用。虽然之前一些工作探索了大谈话模型在静态图上的本领。但大谈话模型能否明白和处置动态图上的时空信息尚未被研究。相比于静态图,动态图具有更复杂的时空混合模式,因此更具挑战性,总结为如下三方面:
如何设计动态图任意以评估大谈话模型明白时间和图布局信息的本领;
动态图上时间和空间维度具有复杂的相互作用,如何研究这些相互作用对模型性能的影响;
如何设计动态图和相关任意的提醒,使得模型能通过自然谈话建模时空信息。
针对这些问题,朱文武教授团队提出了一个 LLM4DyG,首个用于评估大谈话模型在动态图上时空明白本领的评测基准。
LLM4DyG 评测基准流程图
具体而言,我们针对性地设计了九个动态图任意,从时间、空间、时空三个维度评估大谈话模型的本领,这些任意席卷差别的时空模式(如时空连接、时空路径和动态三角闭合等)以及三类差别的问题:“何时”(when)、“在哪”(where)、“是否”(whether)。同时,还采用了:
三种差别的数据生成方法,席卷 Erdős-Rényi 模型、随机块模型和森林火灾模型;
多种统计指标,席卷时间跨度、图大小和密度等;
四种常见的提醒技术,席卷零样本 / 少样本提醒、零样本 / 少样本思维链提醒等;
以及五种大谈话模型,席卷闭源的 GPT-3.5 和开源的 Vicuna-7B、Vicuna-13B、Llama-2-13B 以及 CodeLlama-2-13B。
根据实验观察,我们进一步设计了动态图时空解耦思维链 (DST2) 提醒技术,以鼓励大谈话模型分别处置空间和时间信息。实验结果表明,DST2 可以有效提高大谈话模型在动态图任意上的表现。
LLM4DyG 动态图任意
(二)解耦图大谈话模型
文本属性图(text attributed graph)在研究与利用上均非常普遍,例如引用网络、电子商务网络和社交网络等。最近,同样有不少研究将大谈话模型利用于文本属性图。然而,现有方法仅通过提醒将图布局信息传递给大谈话模型,导致大谈话模型无法明白图内部复杂的布局关系。针对该问题,我们提出了解耦图 – 文本进修(DGTL)模型,以增强大谈话模型在文本属性图上的推理和预测本领。DGTL 模型通过解耦图神经网络层将图布局信息举行编码,使大谈话模型能够捕捉文本属性图中隐藏布局因子间的复杂关系。此外,DGTL 模型无需对预训练大谈话模型中的参数举行微调,从而降低计算成本,并适配于差别的大谈话模型。实验结果证明所提出的 DGTL 模型能达到比最先进基线模型更优或相仿的性能,同时还可以为预测结果提供基于自然谈话的解释,显著提高了模型的可解释性。
DGTL 模型框架图
相关链接:
论文合集:https://github.com/THUMNLab/awesome-large-graph-model