设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步筹备路径吗?实际上,你的路径是一次性整体生成的。
近期的研究表明,采用散布模型的筹备模块能够同时生成长序列的轨迹筹备,这更加符合人类的计划模式。此外,散布模型在政策表征和数据合成方面也能为现有的计划智能算法提供更优的选择。
来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了散布模型在加强进修相关领域的使用。综述指出现有加强进修算法面临长序列筹备误差累积、政策表达才能受限、交互数据不足等挑战,而散布模型已经展现出解决加强进修问题中的优势,并为应对上述长期以来的挑战带来新的思路。
论文链接:https://arxiv.org/abs/2311.01223
项目地址:https://github.com/apexrl/Diff4RLSurvey
该综述根据散布模型在加强进修中扮演的角色对现有工作进行分类,并列举了差别加强进修相关场景下散布模型的成功案例。综述最后对用散布模型解决加强进修问题的领域提出未来发展方向的展望。
图 1:散布模型在经典的智能体 – 情况 – 经验回放池循环中与以往解决方案相比起到差别作用的示意图。
散布模型在加强进修中扮演的角色
文章根据散布模型在加强进修中扮演角色的差别,分类比较了散布模型的使用方式和特点。
图 2:散布模型在加强进修中扮演的差别角色。
轨迹筹备
加强进修中的筹备指通过使用动态模型在想象中做计划,再选择最大化累积奖励的适当举动。筹备的过程通常会探索各种举动和状态的序列,从而提升计划的长期效果。在鉴于模型的加强进修(MBRL)框架中,筹备序列通常以自回归方式进行模拟,导致累积误差。散布模型可以同时生成多步筹备序列。现有文章用散布模型生成的目标非常多样,包括 (s,a,r)、(s,a)、仅有 s、仅有 a 等等。为了在在线评估时生成高奖励的轨迹,许多工作使用了有分类器或无分类器的引诱采样技术。
政策表征
散布筹备器更近似传统加强进修中的 MBRL,与之相对,将散布模型作为政策更类似于无模型加强进修。Diffusion-QL 首先将散布政策与 Q 进修框架结合。由于散布模型拟合多模态分布的才能远超传统模型,散布政策在由多个行为政策采样的多模态数据集中表现良好。散布政策与普通政策相同,通常以状态作为条件生成举动,同时考虑最大化 Q (s,a) 函数。Diffusion-QL 等方法在散布模型训练时加上加权的价值函数项,而 CEP 从能量的视角构造加权回归目标,用价值函数作为因子,调整散布模型学到的举动分布。
数据合成
散布模型可以作为数据合成器,来缓解离线或在线加强进修中数据稀少的问题。传统加强进修数据巩固方法通常只能对原有数据进行小幅扰动,而散布模型强大的分布拟合才能使其可以直接进修整个数据集的分布,再采样出新的高质量数据。
其他类型
除了以上几类,还有一些零散的工作以其他方式使用散布模型。例如,DVF 利用散布模型估计值函数。LDCQ 首先将轨迹编码到隐空间上,再在隐空间上使用散布模型。PolyGRAD 用散布模型进修情况动态转移,允许政策和模型交互来提升政策进修效率。
在差别加强进修相关问题中的使用
离线加强进修
散布模型的引入有助于离线加强进修政策拟合多模态数据分布并扩展了政策的表征才能。Diffuser 首先提出了鉴于分类器指导的高奖励轨迹生成算法并启发了大量的后续工作。同时,散布模型也能使用在多任务与多智能体加强进修场景。
图 3:Diffuser 轨迹生成过程和模型示意图
在线加强进修
研究者证明散布模型对在线加强进修中的价值函数、政策也具备优化才能。例如,DIPO 对举动数据重标注并使用散布模型训练,使政策避免了鉴于价值引诱训练的不稳定性;CPQL 则验证了单步采样散布模型作为政策能够平衡交互时的探索和利用。
模仿进修
模仿进修通过进修专家演示数据来重建专家行为。散布模型的使用有助于提高政策表征才能以及进修多样的任务技术。在机器人控制领域,研究发现散布模型能够在保持时序稳定性的条件下预测闭环举动序列。Diffusion Policy 采用图像输入的散布模型生成机器人举动序列。实验表明散布模型能够生成有效闭环举动序列,同时保证时序一致性。
图 4:Diffusion Policy 模型示意图
轨迹生成
散布模型在加强进修中的轨迹生成主要聚焦于人类举动生成以及机器人控制两类任务。散布模型生成的举动数据或视频数据被用于构建仿真模拟器或训练下游计划模型。UniPi 训练了一个视频生成散布模型作为通用政策,通过接入差别的逆动力学模型来得到底层控制命令,实现跨具身的机器人控制。
图 5:UniPi 计划过程示意图。
数据巩固
散布模型还可以直接拟合原始数据分布,在保持真实性的前提下提供多样的动态扩展数据。例如,SynthER 和 MTDiff-s 通过散布模型生成了训练任务的完整情况转移信息并将其使用于政策的提升,且结果显示生成数据的多样程度以及准确性都优于历史方法。
图 6:MTDiff 进行多任务筹备和数据巩固的示意图
未来展望
生成式仿真情况
如图 1 所示,现有研究主要利用散布模型来克服智能体和经验回放池的局限性,利用散布模型巩固仿真情况的研究比较少。Gen2Sim 利用文生图散布模型在模拟情况中生成多样化的可操作物体来提高机器人精密操作的泛化才能。散布模型还有可能在仿真情况中生成状态转移函数、奖励函数或多智能体交互中的对手行为。
加入安全约束
通过将安全约束作为模型的采样条件,鉴于散布模型的智能体可以做出满足特定约束的计划。散布模型的引诱采样允许通过进修额外的分类器来不断加入新的安全约束,而原模型的参数保持不变,从而节省额外的训练开销。
检索巩固生成
检索巩固生成技术能够通过访问外部数据集巩固模型才能,在大语言模型上得到广泛的使用。通过检索与智能体当前状态相关的轨迹并输入到模型中,鉴于散布的计划模型在这些状态下的性能同样可能得到提升。如果检索数据集不断更新,智能体有可能在不重新训练的情况下表现出新的行为。
组合多种技术
与分类器引诱或无分类器引诱相结合,散布模型可以组合多种简单技术来完成复杂任务。离线加强进修中的早期结果也表明散布模型可以共享差别技术之间的知识,从而有可能通过组合差别技术实现零样本迁移或持续进修。
表格
图 7:相关论文汇总分类表格。