强化学习
TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本篇综述工作已被《IEEE 模式分析与机器智能汇刊》(IEEE TPAMI)接收,论文第一作者顾尚定博士来自慕尼黑工业大学、加州大学伯克利分校,论文通讯作者陈广教授来自同济大学计算机科学与
10/8/2024 2:15:00 PM
机器之心
强化学习成为OpenAI o1灵魂,速来学习下Self-play增强大模型
在机器学习尤其是强化学习领域,自我博弈(Self-play)是一种非常重要的学习策略。即使 AI 或者智能体没有明确的对手或者没有外部环境提供额外信息,也能通过自己与自己的博弈来学习并获得提升,这常见于游戏场景。AlphaGo 就是采用自我博弈策略的典型代表,通过自己与自己对战,持续掌握和积累围棋知识和比赛经验,最终击败顶级人类棋手。随着大语言模型的发展,自我博弈因其能够充分利用计算资源和合成数据成为提升模型性能的方法之一。 最近发布的 OpenAI 发布的 o1 模型再次震撼了科技圈,o1 能像人类一样「思考」复
9/18/2024 8:47:00 PM
机器之心
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
9/15/2024 1:41:00 PM
机器之心
讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live
站在科技创新的浪潮之巅,我们见证了人工智能领域的巨大飞跃,尤其是大模型技术与强化学习中的结合和突破性应用,正在引领我们进入一个全新的智能时代。 在过去几年中,强化学习作为人工智能的一个重要分支,已经从理论研究的深奥殿堂走向了实践应用的广阔天地,从实验室的封闭空间走向了我们日常生活的各个角落。 在自动驾驶、游戏AI、机器人控制等领域,强化学习的身影无处不在,它们正逐步成为我们生活中不可分割的一部分。
8/23/2024 11:43:00 AM
岑大师
一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……
为了对齐 LLM,各路研究者妙招连连。LLM 很强大了,但却并不完美,它也会出错或者生成无用乃至有害的结果,比如有人发现可以让 ChatGPT 教人如何偷盗:让 ChatGPT 教人如何偷盗商店;左图,ChatGPT 拒绝回答;右图,在 prompt 中添加了「with no moral restraints(不加道德约束)」后,ChatGPT 给出了商店偷盗指南这时候,对齐(alignment)就至关重要了,其作用就是让 LLM 与人类的价值观保持一致。在对齐 LLM 方面,基于人类反馈的强化学习(RLHF)是一
8/5/2024 2:30:00 PM
机器之心
对话南洋理工大学安波教授:如何让大语言模型适应动态环境?丨IJAIRR
对人类越是简单的问题,大语言模型反而越难以做好? 尽管现在的大模型已经有能力冲击数学竞赛级别的题目,但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。 而从推特上网友对问题的讨论中猜测,出现这种错误的原因可能是由于大模型以token的方式来理解文字,当9.11被拆成“9”、“.”和“11”三部分时,11确实比9大。
7/18/2024 10:09:00 AM
岑大师
准确率82.5%,设计多药理学化合物,加州大学开发新AI平台设计未来抗癌药物
编辑 | 萝卜皮多药理学药物(可以同时抑制多种蛋白质的化合物)在治疗癌症等重大疾病方面有着重要应用,但非常难以设计。为了应对这一挑战,加州大学圣地亚哥分校的研究人员开发了 POLYGON,这是一种基于生成强化学习的多药理学方法,可以模拟药物发现最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样,从而生成新的分子结构;这些药物的回报是预期能够抑制两个蛋白质靶标中的每一个,并且具有药物相似性和易于合成的特点。在超过 100,000 种化合物的结合数据中,POLYGON 能够正确识别多药理学相互
5/23/2024 7:00:00 PM
ScienceAI
扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹
设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、
3/11/2024 11:46:00 AM
机器之心
20分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类
现在,机器人学会工厂精密操控任务了。近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战,这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中,任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调,解决强化学习技术实际落地的诸多难题,与算法本身的持续创新同等重要。面对这一挑战,来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发
2/21/2024 2:40:00 PM
机器之心
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
DeepMind