强化学习

TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利等深度解析

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本篇综述工作已被《IEEE 模式分析与机器智能汇刊》（IEEE TPAMI）接收，论文第一作者顾尚定博士来自慕尼黑工业大学、加州大学伯克利分校，论文通讯作者陈广教授来自同济大学计算机科学与

10/8/2024 2:15:00 PM

机器之心

强化学习成为OpenAI o1灵魂，速来学习下Self-play增强大模型

在机器学习尤其是强化学习领域，自我博弈（Self-play）是一种非常重要的学习策略。即使 AI 或者智能体没有明确的对手或者没有外部环境提供额外信息，也能通过自己与自己的博弈来学习并获得提升，这常见于游戏场景。AlphaGo 就是采用自我博弈策略的典型代表，通过自己与自己对战，持续掌握和积累围棋知识和比赛经验，最终击败顶级人类棋手。随着大语言模型的发展，自我博弈因其能够充分利用计算资源和合成数据成为提升模型性能的方法之一。最近发布的 OpenAI 发布的 o1 模型再次震撼了科技圈，o1 能像人类一样「思考」复

9/18/2024 8:47:00 PM

机器之心

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

9/15/2024 1:41:00 PM

机器之心

讲座预约丨四位专家大论道：大模型时代的强化学习丨GAIR live

站在科技创新的浪潮之巅，我们见证了人工智能领域的巨大飞跃，尤其是大模型技术与强化学习中的结合和突破性应用，正在引领我们进入一个全新的智能时代。在过去几年中，强化学习作为人工智能的一个重要分支，已经从理论研究的深奥殿堂走向了实践应用的广阔天地，从实验室的封闭空间走向了我们日常生活的各个角落。在自动驾驶、游戏AI、机器人控制等领域，强化学习的身影无处不在，它们正逐步成为我们生活中不可分割的一部分。

8/23/2024 11:43:00 AM

岑大师

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

为了对齐 LLM，各路研究者妙招连连。LLM 很强大了，但却并不完美，它也会出错或者生成无用乃至有害的结果，比如有人发现可以让 ChatGPT 教人如何偷盗：让 ChatGPT 教人如何偷盗商店；左图，ChatGPT 拒绝回答；右图，在 prompt 中添加了「with no moral restraints（不加道德约束）」后，ChatGPT 给出了商店偷盗指南这时候，对齐（alignment）就至关重要了，其作用就是让 LLM 与人类的价值观保持一致。在对齐 LLM 方面，基于人类反馈的强化学习（RLHF）是一

8/5/2024 2:30:00 PM

机器之心

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

对人类越是简单的问题，大语言模型反而越难以做好？尽管现在的大模型已经有能力冲击数学竞赛级别的题目，但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。而从推特上网友对问题的讨论中猜测，出现这种错误的原因可能是由于大模型以token的方式来理解文字，当9.11被拆成“9”、“.”和“11”三部分时，11确实比9大。

7/18/2024 10:09:00 AM

岑大师

准确率82.5%，设计多药理学化合物，加州大学开发新AI平台设计未来抗癌药物

编辑 | 萝卜皮多药理学药物（可以同时抑制多种蛋白质的化合物）在治疗癌症等重大疾病方面有着重要应用，但非常难以设计。为了应对这一挑战，加州大学圣地亚哥分校的研究人员开发了 POLYGON，这是一种基于生成强化学习的多药理学方法，可以模拟药物发现最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样，从而生成新的分子结构；这些药物的回报是预期能够抑制两个蛋白质靶标中的每一个，并且具有药物相似性和易于合成的特点。在超过 100,000 种化合物的结合数据中，POLYGON 能够正确识别多药理学相互

5/23/2024 7:00:00 PM

ScienceAI

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步规划路径吗？实际上，你的路径是一次性整体生成的。近期的研究表明，采用扩散模型的规划模块能够同时生成长序列的轨迹规划，这更加符合人类的决策模式。此外，扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、

3/11/2024 11:46:00 AM

机器之心

20分钟学会装配电路板！开源SERL框架精密操控成功率100%，速度三倍于人类

现在，机器人学会工厂精密操控任务了。近年来，机器人强化学习技术领域取得显著的进展，例如四足行走，抓取，灵巧操控等，但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战，这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中，任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调，解决强化学习技术实际落地的诸多难题，与算法本身的持续创新同等重要。面对这一挑战，来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发

2/21/2024 2:40:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind

强化学习

TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利等深度解析

强化学习成为OpenAI o1灵魂，速来学习下Self-play增强大模型

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

讲座预约丨四位专家大论道 ：大模型时代的强化学习丨GAIR live

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

准确率82.5%，设计多药理学化合物，加州大学开发新AI平台设计未来抗癌药物

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

20分钟学会装配电路板！开源SERL框架精密操控成功率100%，速度三倍于人类

讲座预约丨四位专家大论道：大模型时代的强化学习丨GAIR live