AI在线 AI在线

中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失

作者:量子位
2025-04-01 09:32
在视觉强化学习中,许多方法未考虑序列决策过程,导致所学表征缺乏关键的长期信息的空缺被填补上了。 来自中科大的研究人员在信息瓶颈(Information Bottleneck)框架下,提出了一种新颖的鲁棒动作价值表征学习方法ROUSER。 作者从理论上证明了ROUSER能够使用学习到的鲁棒表征准确估计动作价值,从而避免了智能体在测试环境中的决策能力遭到削弱。

在视觉强化学习中,许多方法未考虑序列决策过程,导致所学表征缺乏关键的长期信息的空缺被填补上了。

来自中科大的研究人员在信息瓶颈(Information Bottleneck)框架下,提出了一种新颖的鲁棒动作价值表征学习方法ROUSER。

作者从理论上证明了ROUSER能够使用学习到的鲁棒表征准确估计动作价值,从而避免了智能体在测试环境中的决策能力遭到削弱。

图片

具体而言,ROUSER通过最大化表征与动作价值之间的互信息,来保留长期信息;

同时,最小化表征与状态-动作对之间的互信息,以滤除无关特征。

由于动作价值是未知的,ROUSER提出将状态-动作对的鲁棒表征分解为单步奖励和下一状态-动作对的鲁棒表征。

实验结果表明,在包括背景干扰与颜色干扰的12项任务中,ROUSER于其中的11项任务上优于多种当前的先进方法。

传统方法难以捕捉关键长期信息

视觉强化学习中的泛化问题近年来受到了广泛关注,其研究潜力在于使智能体具备处理现实复杂任务的能力,并能在多样化环境中表现良好。

这里的泛化能力是指智能体能够将其学到的策略直接应用于未知环境,即使这些环境中存在与训练阶段不同的视觉干扰(如动态背景或可控物体颜色变化)。

因此,具备良好泛化能力的智能体可以在面临未见干扰的环境时依然保持高性能执行任务,无需大量的重新训练。

尽管现有方法以数据增广、对比学习等技术增强了智能体面向环境视觉干扰的鲁棒性,但值得注意的是,这类研究往往仅聚焦于如何从视觉图像中提取鲁棒的、不随环境变化的信息,忽略了下游关键的决策过程。

这导致这些方法难以捕捉序列数据中关键的长期信息,而这正是视觉强化学习泛化能力的核心因素之一。

为了针对性地解决这类问题,作者在信息瓶颈(Information Bottleneck)框架下,提出了鲁棒动作价值表征学习方法(ROUSER),通过引入信息瓶颈来学习能有效捕捉决策目标中长期信息的向量化表征。

分解状态-动作对鲁棒表征

本文提出的ROUSER主要包括两个核心思路:

一是为了学习能有效捕捉决策目标中长期信息的向量化表征,ROUSER基于信息瓶颈框架,通过最大化表征与动作价值之间的互信息,来保留长期信息;

同时,最小化表征与状态-动作对之间的互信息,以滤除无关特征。

二是由于动作价值是未知的,无法直接最大化表征与动作价值之间的互信息,因此ROUSER提出将状态-动作对的鲁棒表征分解为仅包含单步奖励信息的表征和下一状态-动作对的鲁棒表征。

这样一来,可以借助已知的单步奖励,计算用于鲁棒表征学习的损失函数。

方法架构图如下所示:

图片

为实现上述思路,ROUSER主要包括两个核心模块——奖励模型(Reward Model)和鲁棒损失(Robust Loss)。

其中奖励模型旨在学习仅包含单步奖励信息的表征。

具体来说,奖励模型基于信息瓶颈框架,最大化从状态-动作对中提取的奖励表征与单步奖励之间的互信息,同时最小化奖励表征与对应状态-动作对之间的互信息,从而引导模型学习仅包含奖励信息的表征。

鲁棒损失则旨在构建可计算的损失函数,学习能有效捕捉决策目标中长期信息的向量化表征。

基于对状态-动作对的鲁棒表征分解技术,构建递归式损失函数,仅利用奖励模型编码的表征即可直接计算该损失。

且该部分仅为损失函数的构建,并没有更改强化学习中批评家(Critic)模型的架构。最终旨在学习的向量化表征为批评家模型的中间层嵌入(Embedding)。

本文理论证明了ROUSER能够利用学习到的向量化表征准确估计决策目标,即动作价值。

基于这一理论结果,ROUSER能有效结合各类连续和离散控制的视觉强化学习算法,以提升其对动作价值估计的准确性,从而提升整体鲁棒性。

实验结果

在视觉强化学习泛化性研究的12个连续控制任务中,ROUSER于11个任务上取得了最优性能。

其中下图的6个任务是智能体面向物体动态颜色变化干扰的泛化性能。

图片

下图的6个任务展示了智能体面向背景干扰的泛化性能。

图片

ROUSER方法的一大特点是可以兼容离散控制任务,本文在Procgen环境中进行了相关实验。

如下表所示,当ROUSER与基于价值的VRL方法结合应用于非连续控制任务时,也能够提升智能体的泛化性能。

图片

更多内容请参考原论文与项目主页。

论文第一作者杨睿,中国科学技术大学2019级硕博连读生,师从王杰教授、李斌教授,主要研究方向为强化学习、自动驾驶等。

论文地址:https://openreview.net/pdf?id=PDtMrogheZ

相关标签:

相关资讯

东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。
1/20/2025 10:36:00 AM
AIGC Studio

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。
1/20/2025 11:00:00 AM
AIGC Studio

o1推理框架最新成果:斯坦福&伯克利提出元链式思维,升级模型推理能力

o1背后的推理原理,斯坦福和伯克利帮我们总结好了! 在最新的一篇长达100页的论文中,他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维(Meta-CoT)。 这个元链式思维(Meta-CoT)到底是什么意思呢?
1/20/2025 1:08:25 PM
量子位