强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

2025-03-22 09:01

虽然大多数强化学习（RL）方法都在使用浅层多层感知器（MLP），但普林斯顿大学和华沙理工的新研究表明，将对比 RL（CRL）扩展到 1000 层可以显著提高性能，在各种机器人任务中，性能可以提高最多 50 倍。论文标题：1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities论文链接：链接：，强化学习的重要性因为 DeepSeek R1 等研究再次凸显出来，该方法通过试错让智能体学会在复杂环境中完成任务。尽管自监督学习近年在语言和视觉领域取得了显著突破，但 RL 领域的进展相对滞后。

虽然大多数强化学习（RL）方法都在使用浅层多层感知器（MLP），但普林斯顿大学和华沙理工的新研究表明，将对比 RL（CRL）扩展到 1000 层可以显著提高性能，在各种机器人任务中，性能可以提高最多 50 倍。

论文标题：1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
论文链接：https://arxiv.org/abs/2503.14858
GitHub 链接：https://github.com/wang-kevin3290/scaling-crl

研究背景

最近在人工智能领域里，强化学习的重要性因为 DeepSeek R1 等研究再次凸显出来，该方法通过试错让智能体学会在复杂环境中完成任务。尽管自监督学习近年在语言和视觉领域取得了显著突破，但 RL 领域的进展相对滞后。

与其他 AI 领域广泛采用的深层网络结构（如 Llama 3 和 Stable Diffusion 3 拥有数百层结构）相比，基于状态的强化学习任务通常仅使用 2-5 层的浅层网络。相比之下，在视觉和语言等领域，模型往往只有在规模超过某个临界值时才能获得解决特定任务的能力，因此研究人员一直在寻找 RL 中类似的能力涌现现象。

创新方法

普林斯顿大学和华沙理工的最新研究提出，通过将神经网络深度从常见的 2-5 层扩展到 1024 层，可以显著提升自监督 RL 的性能，特别是在无监督目标条件任务中的目标达成能力。

这一发现挑战了传统观点。过去认为训练大型 RL 网络困难是因为 RL 问题提供的反馈极为稀少（如长序列观测后的稀疏奖励），导致反馈与参数比率很小。传统观点认为大型 AI 系统应主要以自监督方式训练，而强化学习仅用于微调。

研究团队从三个关键方面进行创新：

范式融合：重新定义「强化学习」和「自监督学习」的关系，将它们结合形成自监督强化学习系统，采用对比强化学习（Contrastive RL, CRL）算法；
增加数据量：通过近期的 GPU 加速强化学习框架增加可用数据量；
网络深度突破：将网络深度增加到比先前工作深 100 倍，并融合多种架构技术稳定训练过程，包括：残差连接（Residual Connections）、层归一化（Layer Normalization）、Swish 激活函数。

此外，研究还探究了批大小（batch size）和网络宽度（network width）的相对重要性。

关键发现

随着网络深度的扩大，我们能发现虚拟环境中的强化学习智能体出现了新行为：在深度 4 时，人形机器人会直接向目标坠落，而在深度 16 时，它学会了直立行走。在人形机器人 U-Maze 环境中，在深度 256 时，出现了一种独特的学习策略：智能体学会了越过迷宫高墙。

进一步研究，人们发现在具有高维输入的复杂任务中，深度扩展的优势更大。在扩展效果最为突出的 Humanoid U-Maze 环境中，研究人员测试了扩展的极限，并观察到高达 1024 层的性能持续提升。

另外，更深的网络可以学习到更好的对比表征。仅在导航任务中，Depth-4 网络使用到目标的欧几里得距离简单地近似 Q 值，而 Depth-64 能够捕捉迷宫拓扑，并使用高 Q 值勾勒出可行路径。

扩展网络深度也能提高 AI 的泛化能力。在训练期间未见过的起始-目标对上进行测试时，与较浅的网络相比，较深的网络在更高比例的任务上取得了成功。

技术细节

该研究采用了来自 ResNet 架构的残差连接，每个残差块由四个重复单元组成，每个单元包含一个 Dense 层、一个层归一化（Layer Normalization）层和 Swish 激活函数。残差连接在残差块的最终激活函数之后立即应用。

在本论文中，网络深度被定义为架构中所有残差块的 Dense 层总数。在所有实验中，深度指的是 actor 网络和两个 critic encoder 网络的配置，这些网络被共同扩展。

研究贡献

本研究的主要贡献在于展示了一种将多种构建模块整合到单一强化学习方法中的方式，该方法展现出卓越的可扩展性：

实证可扩展性：研究观察到性能显著提升，在半数测试环境中提升超过 20 倍，这对应着随模型规模增长而涌现的质变策略；
网络架构深度的扩展：虽然许多先前的强化学习研究主要关注增加网络宽度，但在扩展深度时通常只能报告有限甚至负面的收益。相比之下，本方法成功解锁了沿深度轴扩展的能力，产生的性能改进超过了仅靠扩展宽度所能达到的；
实证分析：研究表明更深的网络表现出增强的拼接能力，能够学习更准确的价值函数，并有效利用更大批量大小带来的优势。

不过，拓展网络深度是以消耗计算量为代价的，使用分布式训练来提升算力，以及剪枝蒸馏是未来的扩展方向。

预计未来研究将在此基础上，通过探索额外的构建模块来进一步发展这一方法。

强化学习成帮凶，对抗攻击LLM有了新方法

事物都有多面性，正如水，既能载舟，亦能覆舟，还能煮粥。强化学习也是如此。它既能帮助 AlphaGo 击败顶级围棋棋手，还能帮助 DeepSeek-R1 获得强大的推理能力，但它也可能被恶意使用，成为攻击 AI 模型的得力武器。

3/6/2025 9:11:00 PM

机器之心

揭开深度强化学习的神秘面纱

编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石，它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力，可以解决对于经典强化学习（RL）技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中，我们将尝试在不涉及技术细节的情况下，揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的（例如，拨动开

9/10/2021 4:16:00 PM

ScienceAI

机器学习可以更好地进行量子纠错

编辑 | 白菜叶自主量子纠错（AQEC）通过设计耗散来保护逻辑量子位，从而避免频繁、容易出错的测量反馈循环的必要性。玻色码空间（其中单光子丢失代表了主要的错误来源）由于其灵活性和可控性而成为 AQEC 的重要候选者。虽然现有的文献已经证明了具有玻色码空间的 AQEC 原则上的可行性，但这些方案通常基于 Knill-Laflamme 条件的精确实现，因此需要实现哈密顿距离 d≥2。实现这种哈密顿距离需要多个非线性相互作用和控制场，这使得这些方案在实验上具有挑战性。在这里，RIKEN 量子计算中心（RIKEN Cent

9/18/2023 4:05:00 PM

ScienceAI

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

相关资讯

强化学习成帮凶，对抗攻击LLM有了新方法

揭开深度强化学习的神秘面纱

机器学习可以更好地进行量子纠错