-
率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。- 968
- 0
-
强化学习训练一两个小时,100%自主完成任务:机器人ChatGPT时刻真来了?
把平均成功率从 50% 拉到了 100%。 最近,AI 的进步有目共睹,现在这些进步已经开始传递到机器人领域。 强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。- 4
- 0
-
TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本篇综述工作已被《IEEE 模式分析与机器智能汇刊》(IEEE TP…- 5
- 0
-
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
自我纠正(Self-correction)是大语言模型 (LLM) 非常重要的能力,但人们发现这种能力在现代 LLM 中基本上很少存在。现有的训练自我纠正的方法要么需要多个模型,要么依赖于更强大的模型或其他形式的监督。我们如何才能让 LLM 具备自我纠正能力?之前的研究要么依赖于提示工程,要么依赖于专门用于自我纠正的微调模型。但前者通常无法有效地进行有意义的内在自我纠正,而后者基于微调的方法需要在…- 4
- 0
-
强化学习成为OpenAI o1灵魂,速来学习下Self-play增强大模型
在机器学习尤其是强化学习领域,自我博弈(Self-play)是一种非常重要的学习策略。即使 AI 或者智能体没有明确的对手或者没有外部环境提供额外信息,也能通过自己与自己的博弈来学习并获得提升,这常见于游戏场景。AlphaGo 就是采用自我博弈策略的典型代表,通过自己与自己对战,持续掌握和积累围棋知识和比赛经验,最终击败顶级人类棋手。随着大语言模型的发展,自我博弈因其能够充分利用计算资源和合成数据…- 17
- 0
-
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]- 11
- 0
-
一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……
为了对齐 LLM,各路研究者妙招连连。LLM 很强大了,但却并不完美,它也会出错或者生成无用乃至有害的结果,比如有人发现可以让 ChatGPT 教人如何偷盗:让 ChatGPT 教人如何偷盗商店;左图,ChatGPT 拒绝回答;右图,在 prompt 中添加了「with no moral restraints(不加道德约束)」后,ChatGPT 给出了商店偷盗指南这时候,对齐(alignment)…- 52
- 0
-
准确率82.5%,安排多药理学化合物,加州大学开发新AI平台安排未来抗癌药物
编辑 | 萝卜皮多药理学药物(可以同时按捺多种蛋白质的化合物)在治疗癌症等重大疾病方面有着重要应用,但非常难以安排。为了应对这一挑战,加州大学圣地亚哥分校的钻研职员开发了 POLYGON,这是一种基于生成强化学习的多药理学方法,可以模拟药物创造最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样,从而生成新的份子结构;这些药物的回报是预期能够按捺两个蛋白质靶标中的每一个,并…- 7
- 0
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!