强化学习成为OpenAI o1灵魂,速来学习下Self-play增强大模型
在机器学习尤其是强化学习领域,自我博弈(Self-play)是一种非常重要的学习策略。即使 AI 或者智能体没有明确的对手或者没有外部环境提供额外信息,也能通过自己与自己的博弈来学习并获得提升,这常见于游戏场景。AlphaGo 就是采用自我博弈策略的典型代表,通过自己与自己对战,持续掌握和积累围棋知识和比赛经验,最终击败顶级人类棋手。随着大语言模型的发展,自我博弈因其能够充分利用计算资源和合成数据…- 3
- 0
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]- 2
- 0
一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……
为了对齐 LLM,各路研究者妙招连连。LLM 很强大了,但却并不完美,它也会出错或者生成无用乃至有害的结果,比如有人发现可以让 ChatGPT 教人如何偷盗:让 ChatGPT 教人如何偷盗商店;左图,ChatGPT 拒绝回答;右图,在 prompt 中添加了「with no moral restraints(不加道德约束)」后,ChatGPT 给出了商店偷盗指南这时候,对齐(alignment)…- 9
- 0
准确率82.5%,安排多药理学化合物,加州大学开发新AI平台安排未来抗癌药物
编辑 | 萝卜皮多药理学药物(可以同时按捺多种蛋白质的化合物)在治疗癌症等重大疾病方面有着重要应用,但非常难以安排。为了应对这一挑战,加州大学圣地亚哥分校的钻研职员开发了 POLYGON,这是一种基于生成强化学习的多药理学方法,可以模拟药物创造最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样,从而生成新的份子结构;这些药物的回报是预期能够按捺两个蛋白质靶标中的每一个,并…- 7
- 0
强化学习
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!