强化学习

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
工程
- 975
- 0
机器之心12月17日
率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。
理论
- 974
- 0
机器之心11月16日
伯克利罗剑岚：机器人的范式革命，藏在真实世界中
作者 | 赖文昕编辑 | 陈彩娴近日，伯克利大学 Sergey Levine 团队发布了一项强化学习方向的重磅工作——HIL-SERL，引起了具身智能领域的广泛讨论与关注。根据实验结果，基于强化学习框架 HIL-SERL，研究者可以直接在现实世界中训练基于视觉的通用机器人操作策略。其中，机器人经过 1~2.5 小时的训练后，就能完成主板、仪表盘以及正时皮带组装等操作任务。
应用
- 969
- 0
赖文昕11月12日
伯克利具身智能图谱：深度强化学习浪尖上的中国 90 后们
作者 | 赖文昕编辑 | 陈彩娴短短不到一年内，边塞科技、星动纪元、星海图和千寻智能接连成立，跻身国内明星创企之列；大洋彼岸，Covariant 和 Anyware Robotics 也正在湾区闪耀。六家具身智能公司，八位 90 后创始人，他们都成长于深度强化学习的摇篮。作为最早一批开启新范式的人，他们探索 AI 和 Robotics 的故事要从踏入伯克利校园说起。
应用
- 969
- 0
赖文昕11月12日
强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？
把平均成功率从 50% 拉到了 100%。最近，AI 的进步有目共睹，现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。
应用
- 10
- 0
机器之心10月29日
TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利等深度解析
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本篇综述工作已被《IEEE 模式分析与机器智能汇刊》（IEEE TP…
理论
- 5
- 0
机器之心10月8日
强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作
自我纠正（Self-correction）是大语言模型 (LLM) 非常重要的能力，但人们发现这种能力在现代 LLM 中基本上很少存在。现有的训练自我纠正的方法要么需要多个模型，要么依赖于更强大的模型或其他形式的监督。我们如何才能让 LLM 具备自我纠正能力？之前的研究要么依赖于提示工程，要么依赖于专门用于自我纠正的微调模型。但前者通常无法有效地进行有意义的内在自我纠正，而后者基于微调的方法需要在…
理论
- 4
- 0
机器之心9月21日
强化学习成为OpenAI o1灵魂，速来学习下Self-play增强大模型
在机器学习尤其是强化学习领域，自我博弈（Self-play）是一种非常重要的学习策略。即使 AI 或者智能体没有明确的对手或者没有外部环境提供额外信息，也能通过自己与自己的博弈来学习并获得提升，这常见于游戏场景。AlphaGo 就是采用自我博弈策略的典型代表，通过自己与自己对战，持续掌握和积累围棋知识和比赛经验，最终击败顶级人类棋手。随着大语言模型的发展，自我博弈因其能够充分利用计算资源和合成数据…
基础
- 31
- 0
机器之心9月18日
北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]
理论
- 16
- 0
机器之心9月15日
讲座预约丨四位专家大论道：大模型时代的强化学习丨GAIR live
站在科技创新的浪潮之巅，我们见证了人工智能领域的巨大飞跃，尤其是大模型技术与强化学习中的结合和突破性应用，正在引领我们进入一个全新的智能时代。在过去几年中，强化学习作为人工智能的一个重要分支，已经从理论研究的深奥殿堂走向了实践应用的广阔天地，从实验室的封闭空间走向了我们日常生活的各个角落。在自动驾驶、游戏AI、机器人控制等领域，强化学习的身影无处不在，它们正逐步成为我们生活中不可分割的一部分。
应用
- 972
- 0
岑大师8月23日
一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……
为了对齐 LLM，各路研究者妙招连连。LLM 很强大了，但却并不完美，它也会出错或者生成无用乃至有害的结果，比如有人发现可以让 ChatGPT 教人如何偷盗：让 ChatGPT 教人如何偷盗商店；左图，ChatGPT 拒绝回答；右图，在 prompt 中添加了「with no moral restraints（不加道德约束）」后，ChatGPT 给出了商店偷盗指南这时候，对齐（alignment）…
理论
- 56
- 0
机器之心8月5日
对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR
对人类越是简单的问题，大语言模型反而越难以做好？尽管现在的大模型已经有能力冲击数学竞赛级别的题目，但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。而从推特上网友对问题的讨论中猜测，出现这种错误的原因可能是由于大模型以token的方式来理解文字，当9.11被拆成“9”、“.”和“11”三部分时，11确实比9大。
应用
- 972
- 0
岑大师7月18日
准确率82.5%，安排多药理学化合物，加州大学开发新AI平台安排未来抗癌药物
编辑 | 萝卜皮多药理学药物（可以同时按捺多种蛋白质的化合物）在治疗癌症等重大疾病方面有着重要应用，但非常难以安排。为了应对这一挑战，加州大学圣地亚哥分校的钻研职员开发了 POLYGON，这是一种基于生成强化学习的多药理学方法，可以模拟药物创造最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样，从而生成新的份子结构；这些药物的回报是预期能够按捺两个蛋白质靶标中的每一个，并…
理论
- 9
- 0
ScienceAI5月23日