世界模型再进化!博士AdaWM:自适应世界模型规划新SOTA

本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接::基于自适应世界模型的自动驾驶规划。 基于世界模型的强化学习(RL)已经成为一种有前景的自动驾驶方法,它学习潜在动态模型并且用其训练规划策略。

本文经自动驾驶之心公众号授权转载,转载请联系出处。

图片

  • 论文链接:https://arxiv.org/pdf/2501.13072

摘要

本文介绍了AdaWM:基于自适应世界模型的自动驾驶规划。基于世界模型的强化学习(RL)已经成为一种有前景的自动驾驶方法,它学习潜在动态模型并且用其训练规划策略。为了加快学习过程,通常使用预训练-微调范式,其中在线RL由预训练模型和离线学习的策略来初始化。然而,在RL中朴素地执行这类初始化可能会导致新任务中的在线交互期间性能急剧下降。为了应对这一挑战,本文首先分析了性能下降问题,并且确定了两个主要根本原因:规划策略的不匹配和动态模型的不匹配(由分布偏移导致)。本文进一步分析了这些因素对微调过程中性能下降的影响,研究结果表明,微调策略的选择在缓解这些影响方面发挥着关键作用。然后,本文引入了AdaWM,这是一种基于自适应世界模型的规划方法,其具有两个关键步骤:(a)不匹配识别,它量化了不匹配并且告知微调策略;(b)对齐驱动的微调,它使用高效的低秩更新选择性地更新策略或者模型。本文在具有挑战性的CARLA驾驶任务上进行实验,结果表明,AdaWM显著地改进了微调过程,使自动驾驶系统的性能更为鲁棒和高效。

主要贡献

本文的主要贡献总结如下:

1)本文量化了微调过程中观测到的性能差距,并且确定了两个主要根本原因:(1)动态模型不匹配;(2)策略不匹配。然后,评估每种原因对微调性能的相应影响;

2)本文引入了AdaWM,这是一种基于自适应世界模型的自动驾驶规划方法,它通过两个关键步骤实现了有效的微调:(1)不匹配识别;(2)对齐驱动的微调。此外,AdaWM分别为动态模型和策略引入了高效的更新方法;

3)本文在具有挑战性的CARLA环境中的多个任务上验证了AdaWM,展现了它在路径成功率(SR)和碰撞时间(TTC)方面实现卓越性能的能力。实验结果表明,AdaWM有效地缓解了各种新任务的性能下降问题,证实了识别和解决微调过程中不匹配的重要性。

论文图片和表格

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

总结

本项工作提出了AdaWM,这是一种基于自适应世界模型的规划方法,它缓解了自动驾驶中基于世界模型的强化学习(RL)的性能下降问题。根据理论分析,本文确定了导致性能下降的两个主要原因:动态模型不匹配和策略不匹配。本文提出了具有两个核心组件的AdaWM:不匹配识别和对齐驱动的微调。AdaWM评估了性能下降的主要来源,并且根据识别的不匹配对动态模型或者策略应用选择性低秩更新。在CARLA上的大量实验表明,AdaWM显著地提高了路径成功率和碰撞时间,验证了其有效性。本项工作强调了在解决具有挑战性的现实世界任务时选择高效且鲁棒的微调策略的重要性。未来研究存在若干条有前景的途径。首先,探索将AdaWM应用于自动驾驶以外的其它领域能够扩大其适用性。此外,将AdaWM扩展到考虑智能体之间交互的多智能体环境中,可以进一步提高其在复杂现实世界环境中的鲁棒性。

相关资讯

20分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类

现在,机器人学会工厂精密操控任务了。近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战,这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中,任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调,解决强化学习技术实际落地的诸多难题,与算法本身的持续创新同等重要。面对这一挑战,来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、

准确率82.5%,设计多药理学化合物,加州大学开发新AI平台设计未来抗癌药物

编辑 | 萝卜皮多药理学药物(可以同时抑制多种蛋白质的化合物)在治疗癌症等重大疾病方面有着重要应用,但非常难以设计。为了应对这一挑战,加州大学圣地亚哥分校的研究人员开发了 POLYGON,这是一种基于生成强化学习的多药理学方法,可以模拟药物发现最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样,从而生成新的分子结构;这些药物的回报是预期能够抑制两个蛋白质靶标中的每一个,并且具有药物相似性和易于合成的特点。在超过 100,000 种化合物的结合数据中,POLYGON 能够正确识别多药理学相互