本文介绍关于生成流网络 (Generative Flow Networks) 的一个近期研究工作。在生成流网络 (Generative Flow Networks, GFlowNet) 中,智能体进修一个随机策略从事指标生成,使得生成指标的几率正比于一个嘉奖函数。然而,GFlowNets 只能依赖于最终形态的嘉奖旗号从事进修,无法斟酌两头步骤的嘉奖,可能对适用性和高效性造成一定的局限。为此,来自 Mila 的图灵奖得主 Yoshua Bengio 教授团队创新得提出了生成拓展流网络,在 GFlowNets 中引入两头嘉奖旗号,以实现更高效的探究和进修。生成拓展流网络在份子生成等恣意生展现了巨大的潜力。本工作已入选 ICLR 2023 Spotlight,也是 GFlowNets 领域第一篇 Spotlight 文章。
作者:Ling Pan, Dinghuai Zhang, Aaron Courville, Longbo Huang, Yoshua Bengio
论文链接:https://openreview.net/pdf?id=urF_CBK5XC0
简介
在生成流网络 (Generative Flow Networks, GFlowNet) 中,智能体进修一个随机策略从事指标生成,使得生成指标的几率正比于一个嘉奖函数。相比于最大化嘉奖函数的加强进修方式相比,GFlowNets 在生成高质量且多样性的指标中尤为有用。然而,GFlowNets 只能从最终形态的嘉奖从事进修,可能会限制其适用性。两头嘉奖旗号在进修中非常重要 —— 例如,可以通过外在激励来产生两头旗号使得智能体即使在稀疏嘉奖的恣意中仍然能从事高效的进修。
受此启发,我们提出了生成拓展流网络 (GAFlowNets),创新性得提出了一个新的 GFlowNets 进修框架,将两头嘉奖旗号以拓展流的方式引入其中。并且我们以外在动机作为两头嘉奖旗号以解决稀疏嘉奖环境中的探究问题。GAFlowNets 以鉴于边和鉴于节点的外在嘉奖联合的方式来提升探究。我们首先在 GridWorld 中从事了广泛的实行,证明了 GAFlowNet 在收敛性、性能和多样性方面的有用性。实行结果进一步表明 GAFlowNet 可以扩展到更复杂和高维的份子生成恣意中,并同样带来显著的性能增益。
动机与背景
近年来,深度加强进修取得了重大进展,尤其是在游戏领域。深度加强进修方式通常旨在最大化嘉奖函数以进修最优策略。然而,生成指标的多样性在广泛的实际场景中是非常重要的,包括份子生成、生物序列设计、推荐系统、 对话系统等。例如,在份子生成中,计算机模拟中使用的嘉奖函数本身可能不确定且不完善(与更昂贵的体内实行相比)。因此,仅搜索最大化回报的解决方案往往是不足的。因此我们希望对许多具有高嘉奖的候选结果从事采样,这可以通过以对每个最终形态的回报成比例地对它们从事采样来实现。
图灵奖得主 Yoshua Bengio 教授在 2021 年提出了生成流网络 (Generative Flow Networks, GFlowNets) 以进修一种随机策略来对指标 从事采样,其采样几率与嘉奖函数成正比。GFlowNets 的进修范式不同于其他加强进修方式 —— 它明确旨在对指标分布的多样性从事建模。因此,该进修框架对于很多兼顾性能及多样性的实际应用问题非常通用,例如份子生成、生物序列设计等。
然而,GFlowNets 仅能鉴于最终形态的嘉奖来进修,而无法斟酌两头嘉奖旗号,这会限制其适用性,尤其是在更通用的加强进修问题中。事实上,两头嘉奖旗号在进修中起着至关重要的作用。加强进修的巨大成功也在很大程度上取决于提供了两头反馈的嘉奖旗号。即使在外部嘉奖旗号稀疏的环境中,加强进修智能体也可以通过外在动机激励自己从事有用探究(即每一步在稀疏的外在进修旗号上同时斟酌密集的外在嘉奖旗号)。
我们在本文中提出了一个新的 GFlowNet 进修框架,该框架能够将两头反馈旗号以拓展流的方式斟酌在内,以在训练期间提供探究激励。我们首先创新性得提出了鉴于边的拓展流,在每次形态转移时斟酌外在两头嘉奖。然而,我们发现虽然这种方式提高了进修效率,但是它只从事局部探究,仍然缺乏足够的探究能力。另一方面,我们发现鉴于节点的拓展流可以从事更广泛的探究,但却可能会导致收敛速度变慢并带来较大的误差。
因此,我们提出了一种联合方式来同时斟酌鉴于边和鉴于节点的拓展流,同时提升多样性和进修效率。我们在常用的 GridWorld 恣意和和份子生成恣意中从事了广泛的实行以证实我们提出的框架的有用性。
方式介绍
(一)鉴于边的拓展流
我们从流匹配一致性的约束开始推导。通过在流守恒原则中斟酌从形态转移到下一形态的两头嘉奖旗号,我们得到以下公式,在形态转移中斟酌了一个额外的出流
鉴于上述公式,我们可以定义相对应的前向和后向转移策略
结合上述两个公式,我们可以得到斟酌了两头嘉奖旗号的 detailed balance 的流守恒基准
在上述公式的基础上鉴于连乘,我们可以得到对应的 trajectory balance 的流守恒原则
拓展流语义
鉴于边的拓展流可以看作是在每个形态转换步骤中引入一个流向伪终止形态的额外的流。
在上图中,对于从当前内部形态(黄色圆圈)到第个下一形态的形态转换,我们引入一个特殊的具有伪结束效应的关联的特殊形态 (红色圆圈)。具体而言,根据拓展流的的前向策略,我们在形态以几率选择关联下一形态。在关联的下一形态,我们虚拟的以几率选择汇点,而以几率选择实际的下一形态。因此,斟酌到所有可能的下一个形态,我们即得到拓展流的一致性方程。两头嘉奖旗号类似于过渡到一个从未被采用但仍然吸引更大几率进入其祖先节点的伪出口。
在实际恣意中,我们发现鉴于边的拓展流网络与 GFlowNet 相比,能够提升多样性并且能更有用的减少生成分布的 L1 误差。然而,它仍旧无法发现所有 mode。
(二)联合拓展流
与鉴于边的拓展流不同,Yoshua Bengio 教授等人在 2021 年提出可以将轨迹回报定义为鉴于形态的两头嘉奖之和,如下公式所示
然而,它明确地改变了潜在的指标几率分布,并且会被轨迹长度影响。因此,这会导致收敛速度变慢。
如上所述,鉴于节点的拓展流在提高多样性方面是非常有用的,但不能有用地适应指标分布。另一方面,鉴于边的拓展流方式的收敛性更好,但缺乏充分的探究能力,无法挖掘所有可能的 modes。因此,我们在本文中提出了一种联合方式,将鉴于节点和鉴于边的拓展流斟酌在内,以实现最佳平衡及效果,如下公式所示
具体来说,我们将轨迹回报重新定义为最终嘉奖和最终形态的外在嘉奖之和。另一方面,我们根据鉴于边的拓展流斟酌内部形态的外在嘉奖。这种联合的方式继承了鉴于节点和鉴于边的拓展流的优点,使其在更有用地进修的同时以更全局的方式改进探究。
理论分析
在定理 1 中,我们理论证明我们提出的方式能够渐近地保证解是无偏的。
实行
我们从事了充分的实行以分析我们方式的有用性,并研究了以下关键问题:i)GAFlowNet 与以前的基线算法相比效果如何?ii) 鉴于节点和边的拓展流、外在嘉奖机制的形式和关键超参数的影响是什么?iii) 我们的方式可以扩展到更大规模和更复杂的恣意吗?
(一)GridWorld
如下图所示,我们的方式(GAFlowNet)在不同规模的 GridWorld 恣意中相比于基线算法 GFlowNet, MCMC, PPO 都有显著的提升,包括 L1 误差以及找到的 mode 的个数。
下图展示了我们的方式能够找到该恣意的嘉奖函数中的所有 modes,而原始的 GFlowNet(鉴于 trajectory balance 的方式)会陷入局部最优。
我们提出的方式论是通用的,可以用于不同的 GFlowNet 指标中(包括 Flow Matching 和通用且高效的 Detailed Balance 中)。
值得注意的是,我们的方式在密集嘉奖函数的情况下仍然非常有用。
(二)份子生成
我们斟酌了更具有挑战性且更高维的份子生成恣意,并在性能和多样性方面研究我们的方式。下图 (b) 展示了每种方式生成的前 10 个分数最高的份子的平均嘉奖。下图 (c) 总结了每种方式发现的嘉奖高于 7.5 的模式数量。我们下图 (d) 中对前 10 个样本计算平均 Tanimoto 相似度。
如图所示,MARS 在给定稀疏嘉奖的情况下表现不佳,因为大多数嘉奖旗号都没有提供有用的信息。另一方面,PPO 相比 MARS 更善于找到更高质量的解决方案,但两者都受到结果高度相似性的影响。GFlowNet 更擅长发现更多样化的份子,但在解决方案质量方面表现不佳。GAFlowNet 在性能和多样性方面明显优于基线方式,并能够有用地生成多样化和高质量的份子,这证明了一致且显着的性能改进。
总结
在本文中,我们提出了一个新的进修框架 GAFlowNet,在 GFlowNet 中纳入两头嘉奖旗号。我们通过外在动机指定两头嘉奖,以解决 GFlowNets 的高效探究及进修问题。我们从事了广泛的实行来评估 GAFlowNets 的有用性,它在多样性、收敛性和性能方面明显优于基线算法,并可以扩展到份子生成等复杂恣意。
参考文献
[1] Bengio, E., Jain, M., Korablyov, M., Precup, D., & Bengio, Y. (2021). Flow network based generative models for non-iterative diverse candidate generation. NeurIPS 2021.
[2] Bengio, Y., Lahlou, S., Deleu, T., Hu, E. J., Tiwari, M., & Bengio, E. (2021). GFlowNet foundations. arXiv preprint arXiv:2111.09266.
[3] Pan, L., Zhang, D., Courville, A., Huang, L., & Bengio, Y. (2023). Generative Augmented Flow Networks. ICLR 2023.
[4] Pan, L., Malkin, N., Zhang, D., & Bengio, Y. (2023). Better training of gflownets with local credit and incomplete trajectories. ICML 2023.