散布模型如何构建新一代计划智能体？超越自回归，同时生成长序列筹备轨迹

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步筹备路径吗？实际上，你的路径是一次性整体生成的。近期的研究表明，采用散布模型的筹备模块能够同时生成长序列的轨迹筹备，这更加符合人类的计划模式。此外，散布模型在政策表征和数据合成方面也能为现有的计划智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了散布模型在加强进修相关领域的使用。综述指出现有加强进修算法面临长序列筹备误差累积、

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步筹备路径吗？实际上，你的路径是一次性整体生成的。

近期的研究表明，采用散布模型的筹备模块能够同时生成长序列的轨迹筹备，这更加符合人类的计划模式。此外，散布模型在政策表征和数据合成方面也能为现有的计划智能算法提供更优的选择。

来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了散布模型在加强进修相关领域的使用。综述指出现有加强进修算法面临长序列筹备误差累积、政策表达才能受限、交互数据不足等挑战，而散布模型已经展现出解决加强进修问题中的优势，并为应对上述长期以来的挑战带来新的思路。

散布模型如何构建新一代计划智能体？超越自回归，同时生成长序列筹备轨迹

论文链接：https://arxiv.org/abs/2311.01223

项目地址：https://github.com/apexrl/Diff4RLSurvey

该综述根据散布模型在加强进修中扮演的角色对现有工作进行分类，并列举了差别加强进修相关场景下散布模型的成功案例。综述最后对用散布模型解决加强进修问题的领域提出未来发展方向的展望。

散布模型如何构建新一代计划智能体？超越自回归，同时生成长序列筹备轨迹

图 1：散布模型在经典的智能体 – 情况 – 经验回放池循环中与以往解决方案相比起到差别作用的示意图。

散布模型在加强进修中扮演的角色

文章根据散布模型在加强进修中扮演角色的差别，分类比较了散布模型的使用方式和特点。

散布模型如何构建新一代计划智能体？超越自回归，同时生成长序列筹备轨迹

图 2：散布模型在加强进修中扮演的差别角色。

轨迹筹备

加强进修中的筹备指通过使用动态模型在想象中做计划，再选择最大化累积奖励的适当举动。筹备的过程通常会探索各种举动和状态的序列，从而提升计划的长期效果。在鉴于模型的加强进修（MBRL）框架中，筹备序列通常以自回归方式进行模拟，导致累积误差。散布模型可以同时生成多步筹备序列。现有文章用散布模型生成的目标非常多样，包括 (s,a,r)、(s,a)、仅有 s、仅有 a 等等。为了在在线评估时生成高奖励的轨迹，许多工作使用了有分类器或无分类器的引诱采样技术。

政策表征

散布筹备器更近似传统加强进修中的 MBRL，与之相对，将散布模型作为政策更类似于无模型加强进修。Diffusion-QL 首先将散布政策与 Q 进修框架结合。由于散布模型拟合多模态分布的才能远超传统模型，散布政策在由多个行为政策采样的多模态数据集中表现良好。散布政策与普通政策相同，通常以状态作为条件生成举动，同时考虑最大化 Q (s,a) 函数。Diffusion-QL 等方法在散布模型训练时加上加权的价值函数项，而 CEP 从能量的视角构造加权回归目标，用价值函数作为因子，调整散布模型学到的举动分布。

数据合成

散布模型可以作为数据合成器，来缓解离线或在线加强进修中数据稀少的问题。传统加强进修数据巩固方法通常只能对原有数据进行小幅扰动，而散布模型强大的分布拟合才能使其可以直接进修整个数据集的分布，再采样出新的高质量数据。

其他类型

除了以上几类，还有一些零散的工作以其他方式使用散布模型。例如，DVF 利用散布模型估计值函数。LDCQ 首先将轨迹编码到隐空间上，再在隐空间上使用散布模型。PolyGRAD 用散布模型进修情况动态转移，允许政策和模型交互来提升政策进修效率。

在差别加强进修相关问题中的使用

离线加强进修

散布模型的引入有助于离线加强进修政策拟合多模态数据分布并扩展了政策的表征才能。Diffuser 首先提出了鉴于分类器指导的高奖励轨迹生成算法并启发了大量的后续工作。同时，散布模型也能使用在多任务与多智能体加强进修场景。

散布模型如何构建新一代计划智能体？超越自回归，同时生成长序列筹备轨迹

图 3：Diffuser 轨迹生成过程和模型示意图

在线加强进修

研究者证明散布模型对在线加强进修中的价值函数、政策也具备优化才能。例如，DIPO 对举动数据重标注并使用散布模型训练，使政策避免了鉴于价值引诱训练的不稳定性；CPQL 则验证了单步采样散布模型作为政策能够平衡交互时的探索和利用。

模仿进修

模仿进修通过进修专家演示数据来重建专家行为。散布模型的使用有助于提高政策表征才能以及进修多样的任务技术。在机器人控制领域，研究发现散布模型能够在保持时序稳定性的条件下预测闭环举动序列。Diffusion Policy 采用图像输入的散布模型生成机器人举动序列。实验表明散布模型能够生成有效闭环举动序列，同时保证时序一致性。

散布模型如何构建新一代计划智能体？超越自回归，同时生成长序列筹备轨迹