RL
强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍
虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。 论文标题:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities论文链接: 链接:,强化学习的重要性因为 DeepSeek R1 等研究再次凸显出来,该方法通过试错让智能体学会在复杂环境中完成任务。 尽管自监督学习近年在语言和视觉领域取得了显著突破,但 RL 领域的进展相对滞后。
3/22/2025 9:01:00 PM
机器之心
新开普:星普大模型表现出色,算力消耗显著降低
在最近的一次机构电话交流会上,新开普公司透露了其自研的星普大模型的最新测评结果。 该模型采用了 SFT(监督微调)与 RL(强化学习)的训练技术,在智能推理效果上与 DeepSeek-R1相近,且算力消耗仅为 DeepSeek-R1的1/20。 这一成果不仅彰显了新开普在人工智能领域的研发实力,同时也为降低硬件投入提供了可能。
3/7/2025 6:00:00 PM
AI在线
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。 这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。 Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。
2/9/2025 2:42:00 PM
机器之心
提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架
字节跳动豆包大模型团队与香港大学公开联合研究成果 —— HybridFlow。 官方宣称,HybridFlow(开源项目名:veRL)是一个灵活且高效的大模型 RL 训练框架,兼容多种训练和推理框架,支持灵活的模型部署和多种 RL 算法实现。 该框架采用混合编程模型,融合单控制器(Single-Controller)的灵活性和多控制器(Multi-Controller)的高效性,可更好实现和执行多种 RL 算法,显著提升训练吞吐量,降低开发和维护复杂度。
11/3/2024 3:24:59 PM
沛霖(实习)
豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍
强化学习(RL)对大模型复杂推理能力提升有关键作用,但其复杂的计算流程对训练和部署也带来了巨大挑战。 近日,字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。 这是一个灵活高效的 RL/RLHF 框架,可显著提升训练吞吐量,降低开发和维护复杂度。
11/1/2024 2:44:00 PM
新闻助手
机器学习可以更好地进行量子纠错
编辑 | 白菜叶自主量子纠错(AQEC)通过设计耗散来保护逻辑量子位,从而避免频繁、容易出错的测量反馈循环的必要性。玻色码空间(其中单光子丢失代表了主要的错误来源)由于其灵活性和可控性而成为 AQEC 的重要候选者。虽然现有的文献已经证明了具有玻色码空间的 AQEC 原则上的可行性,但这些方案通常基于 Knill-Laflamme 条件的精确实现,因此需要实现哈密顿距离 d≥2。实现这种哈密顿距离需要多个非线性相互作用和控制场,这使得这些方案在实验上具有挑战性。在这里,RIKEN 量子计算中心(RIKEN Cent
9/18/2023 4:05:00 PM
ScienceAI
揭开深度强化学习的神秘面纱
编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石,它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力,可以解决对于经典强化学习(RL)技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中,我们将尝试在不涉及技术细节的情况下,揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的(例如,拨动开
9/10/2021 4:16:00 PM
ScienceAI
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型